Pengklasifikasian Nilai Mutu Ujian Komprehensif Mahasiswa Departemen Statistika IPB menggunakan Semi Naive Bayesian Classifier
ABSTRAK
IIN LESMANAWATI. Pengklasifikasian Nilai Mutu Ujian Komprehensif Mahasiswa
Departemen Statistika IPB Menggunakan Semi Naive Bayesian Classifier. Di bawah bimbingan
BAGUS SARTONO dan FARIT MOCHAMAD AFENDI.
Proses klasifikasi nilai mutu Ujian Komprehensif merupakan salah satu upaya untuk
mengetahui potensi kelulusan mahasiswa dalam ujian komprehensif. Informasi mengenai potensi
kelulusan mahasiswa dalam Ujian Komprehensif diharapkan dapat digunakan untuk
meminimalisasi kegagalan mahasiswa dalam Ujian Komprehensif. Pengklasifikasian nilai mutu
Ujian Komprehensif dapat dilakukan dengan menggunakan Semi Naive Bayesian Classifier.
Metode semi naive Bayesian classifier yang digunakan adalah deleting attributes: Backwards
Sequential Elimination (BSE) dan Forwards Sequential Selection (FSS); joining attributes:
Backwards Sequential Elimination and Joining (BSEJ); dan Tree Augmented Naive Bayes (TAN).
Hasil klasifikasi menggunakan semi naive Bayesian classifier ini dibandingkan dengan hasil
klasifikasi menggunakan Simple Naive Bayesian classifier (SNB).
Perbandingan dari kedua metode klasifikasi menunjukkan bahwa metode semi naive Bayesian
(menggunakan algoritma BSE, FSS, BSEJ, dan TAN) memiliki kemampuan yang lebih baik dalam
mengklasifikasikan nilai mutu Ujian Komprehensif mahasiswa Departemen Statistika IPB
dibandingkan dengan metode SNB. Hal ini dapat dilihat dari tingkat kesalahan klasifikasi dari
keempat metode semi naive Bayesian yang nilainya lebih rendah dibandingkan dengan tingkat
kesalahan klasifikasi SNB, baik untuk data in-sample maupun data out-sample. Sedangkan
penggunaan indeks asosiasi sebagai alternatif dalam penerapan prosedur semi naive Bayesian
kurang dapat diandalkan untuk meningkatkan akurasi prediksi klasifikasi SNB. Tingkat kesalahan
klasifikasi yang dihitung dengan mempertimbangkan jenis kesalahan yang dihasilkan juga
menunjukkan hasil bahwa metode semi naive Bayesian (menggunakan algoritma BSE, FSS, BSEJ,
dan TAN) memiliki kemampuan yang lebih baik dalam mengklasifikasikan nilai mutu Ujian
Komprehensif mahasiswa Departemen Statistika IPB dibandingkan dengan metode SNB.
Tambahan informasi mengenai koefisien korelasi antara prediksi dan aktual yang dihasilkan oleh
metode SNB dan semi naive Bayesian, dapat memberikan hasil perbandingan metode klasifikasi
yang lebih baik.
i
PENGKLASIFIKASIAN NILAI MUTU UJIAN KOMPREHENSIF
MAHASISWA DEPARTEMEN STATISTIKA IPB MENGGUNAKAN
SEMI NAIVE BAYESIAN CLASSIFIER
IIN LESMANAWATI
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2008
ABSTRAK
IIN LESMANAWATI. Pengklasifikasian Nilai Mutu Ujian Komprehensif Mahasiswa
Departemen Statistika IPB Menggunakan Semi Naive Bayesian Classifier. Di bawah bimbingan
BAGUS SARTONO dan FARIT MOCHAMAD AFENDI.
Proses klasifikasi nilai mutu Ujian Komprehensif merupakan salah satu upaya untuk
mengetahui potensi kelulusan mahasiswa dalam ujian komprehensif. Informasi mengenai potensi
kelulusan mahasiswa dalam Ujian Komprehensif diharapkan dapat digunakan untuk
meminimalisasi kegagalan mahasiswa dalam Ujian Komprehensif. Pengklasifikasian nilai mutu
Ujian Komprehensif dapat dilakukan dengan menggunakan Semi Naive Bayesian Classifier.
Metode semi naive Bayesian classifier yang digunakan adalah deleting attributes: Backwards
Sequential Elimination (BSE) dan Forwards Sequential Selection (FSS); joining attributes:
Backwards Sequential Elimination and Joining (BSEJ); dan Tree Augmented Naive Bayes (TAN).
Hasil klasifikasi menggunakan semi naive Bayesian classifier ini dibandingkan dengan hasil
klasifikasi menggunakan Simple Naive Bayesian classifier (SNB).
Perbandingan dari kedua metode klasifikasi menunjukkan bahwa metode semi naive Bayesian
(menggunakan algoritma BSE, FSS, BSEJ, dan TAN) memiliki kemampuan yang lebih baik dalam
mengklasifikasikan nilai mutu Ujian Komprehensif mahasiswa Departemen Statistika IPB
dibandingkan dengan metode SNB. Hal ini dapat dilihat dari tingkat kesalahan klasifikasi dari
keempat metode semi naive Bayesian yang nilainya lebih rendah dibandingkan dengan tingkat
kesalahan klasifikasi SNB, baik untuk data in-sample maupun data out-sample. Sedangkan
penggunaan indeks asosiasi sebagai alternatif dalam penerapan prosedur semi naive Bayesian
kurang dapat diandalkan untuk meningkatkan akurasi prediksi klasifikasi SNB. Tingkat kesalahan
klasifikasi yang dihitung dengan mempertimbangkan jenis kesalahan yang dihasilkan juga
menunjukkan hasil bahwa metode semi naive Bayesian (menggunakan algoritma BSE, FSS, BSEJ,
dan TAN) memiliki kemampuan yang lebih baik dalam mengklasifikasikan nilai mutu Ujian
Komprehensif mahasiswa Departemen Statistika IPB dibandingkan dengan metode SNB.
Tambahan informasi mengenai koefisien korelasi antara prediksi dan aktual yang dihasilkan oleh
metode SNB dan semi naive Bayesian, dapat memberikan hasil perbandingan metode klasifikasi
yang lebih baik.
i
PENGKLASIFIKASIAN NILAI MUTU UJIAN KOMPREHENSIF
MAHASISWA DEPARTEMEN STATISTIKA IPB MENGGUNAKAN
SEMI NAIVE BAYESIAN CLASSIFIER
IIN LESMANAWATI
Skripsi
sebagai salah satu syarat memperoleh gelar Sarjana Sains
pada Departemen Statistika
Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2008
ii
Judul
Nama
NIM
: Pengklasifikasian Nilai Mutu Ujian Komprehensif Mahasiswa
Departemen Statistika IPB menggunakan Semi Naive Bayesian
Classifier
: Iin Lesmanawati
: G14104058
Menyetujui :
Pembimbing I,
Pembimbing II,
Bagus Sartono, M.Si
NIP. 132311923
Farit Mochamad Afendi, M.Si
NIP. 132314007
Mengetahui :
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
Dr. Drh. Hasim, DEA
NIP. 131578806
Tanggal Lulus :
iii
RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 4 Maret 1986 sebagai anak kedua dari lima
bersaudara, anak dari pasangan Encep Rachmat dan Yayah Sadiah.
Penulis menyelesaikan pendidikan dasar di SD Negeri Sukamaju 1 pada tahun 1998 dan
menyelesaikan pendidikan menengah lanjutan pertama di SLTP Negeri 3 Depok pada tahun 2001.
Pada tahun 2004 penulis menyelesaikan pendidikan menengah lanjutan atas di SMU Negeri 1
Depok dan pada tahun yang sama pula diterima di Departemen Statistika Fakultas Matematika dan
Ilmu Pengetahuan Alam Institut Pertanian Bogor melalui Seleksi Penerimaan Mahasiswa Baru
(SPMB).
Selama mengikuti perkuliahan, penulis pernah menjadi asisten responsi mata kuliah Metode
Statistika pada semester ganjil tahun akademik 2006-2007. Pada bulan Februari-Maret 2008,
penulis mengikuti kegiatan Praktik Lapang di PT. Media Televisi Indonesia/ METRO TV.
iv
KATA PENGANTAR
Alhamdulillahirabbil’alamin, segala puji dan syukur dipanjatkan kehadirat Allah SWT atas
segala hidayah, nikmat, dan karunia-Nya sehingga penulis dapat menyelesaikan karya ilmiah ini
yang berjudul “Pengklasifikasian Nilai Mutu Ujian Komprehensif Mahasiswa Departemen
Statistika IPB Menggunakan Semi Naive Bayesian Classifier”. Shalawat serta salam semoga selalu
tercurahkan kepada Rasulullah SAW, keluarga, para sahabat, dan umatnya hingga akhir zaman.
Selesainya karya ilmiah ini tidak lepas dari bantuan dan doa dari orang-orang yang dengan
tidak bosan-bosannya memberikan dukungan kepada penulis. Oleh karena itu, pada kesempatan ini
penulis ingin menyampaikan terima kasih yang sebesar-besarnya kepada :
1. Bapak Bagus Sartono dan Bapak Farit Mochamad Afendi yang telah banyak memberikan
bimbingan, saran, serta kritik sehingga karya ilmiah ini dapat diselesaikan.
2. Orang tua, kakak serta adik-adikku yang tersayang yang selalu setia mendoakan dan
memberikan semangat.
3. Segenap staf pengajar di Departemen Statistika FMIPA IPB yang telah memberikan
pengajaran terbaik sehingga penulis dapat menyelesaikan studi dan karya ilmiah ini.
4. Seluruh staf pegawai Departemen Statistika FMIPA IPB : Bu Markonah, Bu Sulis, Bu
Dedeh, Bang Sudin, Pak Ian, Bu Aat, Mang Dur, dan Mang Herman yang telah banyak
membantu penulis selama menjalankan studi dan menyelesaikan karya ilmiah ini.
5. Teman-teman seperjuangan Statistika 41, atas segala kerjasama dan kebersamaan yang
telah diberikan selama empat tahun ini. Terutama untuk Vinny, Leisha, dan Renita yang
tidak bosan-bosan memberikan tumpangan kost-nya selama ini.
6. Bi Teti yang telah memberi motivasi bagi penulis agar terus menjadi lebih baik. Ate,
Thanks for being my second Mom!
7. Semua pihak yang telah memberikan dukungan kepada penulis yang tidak dapat disebutkan
satu persatu.
Penulis menyadari bahwa masih banyak kekurangan dalam karya ilmiah ini. Namun, penulis
berharap semoga karya ilmiah ini dapat bermanfaat.
Depok, Agustus 2008
Penulis
v
DAFTAR ISI
Halaman
DAFTAR TABEL...................................................................................................................... vii
DAFTAR GAMBAR ................................................................................................................. vii
DAFTAR LAMPIRAN .............................................................................................................. viii
PENDAHULUAN......................................................................................................................
1
Latar Belakang ....................................................................................................................
1
Tujuan .................................................................................................................................
1
TINJAUAN PUSTAKA.............................................................................................................
1
Ujian Komprehensif............................................................................................................
Simple Naive Bayesian........................................................................................................
Kaidah peluang Bayes ...............................................................................................
Asumsi naive .............................................................................................................
Laplace adjustment....................................................................................................
Semi Naive Bayesian ...........................................................................................................
Deleting attributes .....................................................................................................
Backward Sequential Elimination and Joining (BSEJ) .............................................
Tree Augmented Naive Bayesian (TAN) ...................................................................
1
1
1
2
2
2
2
3
4
BAHAN DAN METODE ..........................................................................................................
4
Bahan ..................................................................................................................................
Metode ................................................................................................................................
4
5
HASIL DAN PEMBAHASAN..................................................................................................
5
Deskripsi Data Nilai Mahasiswa.........................................................................................
Klasifikasi Menggunakan Simple Naive Bayesian..............................................................
Klasifikasi Menggunakan Metode Semi Naive Bayesian....................................................
Backwards Sequential Elimination (BSE).................................................................
Forward Sequential Selection (FSS) .........................................................................
Backward Sequential Elimination and Joining (BSEJ) .............................................
Tree Augmented Naive Bayesian (TAN) ...................................................................
Perbandingan Metode SNB, BSE, FSS, BSEJ, dan TAN ...................................................
Penerapan Metode Semi Naive Bayesian Menggunakan Indeks Asosiasi...........................
Tingkat Kesalahan Klasifikasi dengan Mempertimbangkan Jenis Kesalahan yang
Dihasilkan ...........................................................................................................................
5
6
7
7
7
8
8
9
9
11
KESIMPULAN DAN SARAN..................................................................................................
13
Kesimpulan .........................................................................................................................
Saran ...................................................................................................................................
13
13
DAFTAR PUSTAKA ................................................................................................................
13
LAMPIRAN...............................................................................................................................
14
vi
DAFTAR TABEL
Halaman
1.
Daftar Kategori dari Peubah Penjelas..................................................................................
6
2.
Peluang Prior Ujian Komprehensif .....................................................................................
6
3.
Ketepatan Klasifikasi Data In-Sample SNB........................................................................
7
4.
Ketepatan Klasifikasi Data Out-Sample SNB .....................................................................
7
5.
Ketepatan Klasifikasi Data In-Sample BSE ........................................................................
7
6.
Ketepatan Klasifikasi Data Out-Sample BSE......................................................................
7
7.
Ketepatan Klasifikasi Data In-Sample FSS.........................................................................
8
8.
Ketepatan Klasifikasi Data Out-Sample FSS ......................................................................
8
9.
Ketepatan Klasifikasi Data In-Sample BSEJ.......................................................................
8
10. Ketepatan Klasifikasi Data Out-Sample BSEJ....................................................................
8
11. Ketepatan Klasifikasi Data In-Sample TAN .......................................................................
9
12. Ketepatan Klasifikasi Data Out-Sample TAN.....................................................................
9
13. Perbandingan Tingkat Kesalahan Klasifikasi SNB dan Semi Naive Bayesian....................
9
14. Tingkat Kesalahan Klasifikasi Semi Naive Bayesian dengan Indeks Asosiasi....................
10
15. Ketepatan Klasifikasi Data In-Sample Deleting attributes..................................................
10
16. Ketepatan Klasifikasi Data Out-Sample Deleting attributes ...............................................
10
17. Ketepatan Klasifikasi Data In-Sample Joining attributes ...................................................
11
18. Ketepatan Klasifikasi Data Out-Sample Joining attributes.................................................
11
19. Perbandingan Tingkat Kesalahan Klasifikasi SNB dan Semi Naive Bayesian dengan
Bobot Pengali......................................................................................................................
12
20. Tingkat Kesalahan Klasifikasi Semi Naive Bayesian menggunakan Indeks Asosiasi
dengan Bobot Pengali .........................................................................................................
12
21. Koefisien Korelasi antara Prediksi dan Aktual dari SNB dan Semi Naive Bayesian ..........
12
22. Koefisien Korelasi antara Prediksi dan Aktual dari Semi Naive Bayesian
Menggunakan Indeks Asosiasi...........................................................................................
12
DAFTAR GAMBAR
Halaman
1.
Struktur Simple Naive Bayesian ..........................................................................................
4
2.
Struktur Augmented Naive Bayes ........................................................................................
4
3.
Nilai Rata-Rata Mata Kuliah Ujian Komprehensif dan Mata Kuliah Pokok Mahasiswa
Departemen Statistika IPB ..................................................................................................
6
vii
DAFTAR LAMPIRAN
Halaman
1.
Koefisien Korelasi antar Peubah Penjelas...........................................................................
14
2.
Peluang Bersyarat dari Peubah Penjelas Nilai Mutu Metode Statistika I............................
15
3.
Peluang Bersyarat dari Peubah Penjelas Nilai Mutu Metode Statistika II ..........................
15
4.
Peluang Bersyarat dari Peubah Penjelas Nilai Mutu Teori Statistika I ...............................
15
5.
Peluang Bersyarat dari Peubah Penjelas Nilai Mutu Teori Statistika II ..............................
15
6.
Peluang Bersyarat dari Peubah Penjelas Nilai Mutu Metode Penarikan Contoh ................
16
7.
Peluang Bersyarat dari Peubah Penjelas Nilai Mutu Perancangan Percobaan ....................
16
8.
Struktur Tree Augmented Naive Bayes yang diperoleh pada Klasifikasi Nilai Mutu Ujian
Komprehensif......................................................................................................................
16
viii
PENDAHULUAN
TINJAUAN PUSTAKA
Latar Belakang
Ujian Komprehensif
Ujian Komprehensif merupakan salah satu
mata kuliah wajib bagi mahasiswa tingkat
akhir Departemen Statistika Institut Pertanian
Bogor.
Kegagalan
mahasiswa
dalam
menghadapi Ujian Komprehensif dapat
menghambat proses kelulusan mahasiswa,
sehingga mahasiswa yang bersangkutan akan
membutuhkan waktu yang lebih lama untuk
menyelesaikan studinya di Departemen
Statistika. Oleh karena itu, Departemen
Statistika IPB perlu mengetahui potensi
kelulusan mahasiswa agar dapat melakukan
tindakan-tindakan yang dapat meminimalisasi
kegagalan
mahasiswa
dalam
Ujian
Komprehensif.
Salah satu cara yang dapat ditempuh
untuk
mengetahui
potensi
kelulusan
mahasiswa adalah dengan melakukan proses
klasifikasi nilai mutu Ujian Komprehensif
mahasiswa. Melalui pengklasifikasian ini, nilai
mutu Ujian Komprehensif yang akan
diperoleh mahasiswa menjadi dapat diprediksi.
Simple naive Bayesian merupakan salah
satu algoritma pengklasifikasian objek yang
berdasarkan pada penerapan Teorema Bayes
dengan menggunakan asumsi bahwa peubahpeubah penjelas yang digunakan sebagai dasar
pengklasifikasian bersifat saling bebas.
Pada penerapannya, asumsi kebebasan
antar-peubah penjelas ini sering tidak
terpenuhi, sehingga berkembanglah suatu
metode pengklasifikasian semi naive Bayesian
yang dibangun untuk mengurangi pengaruh
ketakbebasan antar peubah penjelas, yang
diharapkan dapat meningkatkan akurasi
dugaan (ketepatan klasifikasi) dari simple
naive Bayesian classifier.
Ujian Komprehensif merupakan ujian
yang diadakan secara tertulis untuk mengukur
pemahaman mahasiswa mengenai keterkaitan
antar berbagai mata kuliah pokok bidang
statistika yang mencakup Metode Statistika I
dan II, Teori Statistika I dan II, Perancangan
Percobaan, serta Metode Penarikan Contoh
(Dit. AJMP-IPB, 2004).
Tujuan
Tujuan yang ingin dicapai dalam penelitian
ini antara lain :
1. Memperkenalkan metode Semi Naive
Bayesian sebagai salah satu metode
pengklasifikasian objek.
2. Membandingkan metode Simple Naive
Bayesian dan Semi Naive Bayesian
(deleting attributes, joining attributes, dan
tree augmented naive Bayesian) dalam
kemampuan mengklasifikasikan nilai mutu
Ujian
Komprehensif
mahasiswa
Departemen Statistika IPB.
Simple Naive Bayesian (SNB)
Simple
naive
Bayesian
classifier
merupakan salah satu metode pengklasifikasi
berpeluang sederhana yang berdasarkan pada
penerapan Teorema Bayes dengan asumsi
antar peubah penjelas saling bebas (Wikipedia,
2008).
Kaidah Peluang Bayes
Teorema Bayes yang dibangun oleh
Thomas Bayes, seorang matematikawan dan
teologiawan Inggris abad 18, dipublikasikan
untuk pertama kalinya pada tahun 1763.
Dalil Bayes menyatakan bahwa jika U
suatu ruang contoh dan {A1, ..., An} merupakan
sekatan U dengan P(Ai) ≠ 0, i = 1,..., n; Ai ∩ Aj
= Ø untuk i ≠ j, dan B suatu kejadian pada U
dengan P(B) ≠ 0, maka secara matematis,
kaidah peluang Bayes dapat dituliskan sebagai
berikut:
P( Ai | B)
P( Ai B)
P( B | Ai ) P( Ai )
n
P( B)
P( A ) P( B | A )
i 1
i
i
(Nasoetion & Rambe, 1984).
Pada penelitian ini, kejadian Ai merupakan
kejadian seorang mahasiswa Statistika IPB
masuk dalam kelas ke-i (kejadian mahasiswa
Statistika IPB mendapatkan nilai mutu Ujian
Komprehensif A, B, C, atau D), sedangkan B
adalah karakteristik mahasiswa tersebut, yang
dalam penelitian ini merupakan karakteristik
multi-variables. Misalnya, kejadian B adalah
kejadian seorang mahasiswa Statistika IPB
mendapatkan nilai mutu Metode Statistika I =
A, nilai mutu Metode Statistika II = A, nilai
mutu Teori Statistika I = A, dan seterusnya.
Jika nilai P(Ai | B) dapat diperoleh untuk
semua i = 1, 2, …, n, maka mahasiswa
tersebut akan dikategorikan masuk kelas ke-k
(1 ≤ k ≤ n) jika peluang masuk kelas ke-k
adalah yang paling besar, atau
P(Ak | B) = arg max P(B | Ai) P(Ai)
1
Hal
tersebut
dapat
terjadi
karena
memaksimumkan P(Ai|B) sama dengan
memaksimumkan P(B|Ai) P(Ai).
Nilai P(Ai) dapat diduga menggunakan
peluang priornya, yaitu frekuensi relatifnya.
Dalam penelitian ini, P(Ai) adalah proporsi
mahasiswa Departemen Statistika IPB pada
setiap
kategori
nilai
mutu
Ujian
Komprehensif. Sedangkan
P(B|Ai) dapat
diketahui dengan mencari frekuensi relatif
kejadian B dengan syarat Ai (Sartono, 2007).
Asumsi naive
Telah disebutkan bahwa B adalah kejadian
multi peubah. Kalau diandaikan B terdiri atas
p buah peubah yaitu B1, B2, …, Bp maka
P(B | Ai) = P(B1, B2, …, Bp | Ai).
Pada tahap inilah asumsi yang naif digunakan,
yaitu antar kejadian atau peubah Bi memiliki
sifat saling bebas. Asumsi ini berimplikasi
pada hasil bahwa
P(B | Ai) = P(B1, B2, …, Bp | Ai)
= P(B1 | Ai) P(B2 | Ai) … P(Bp | Ai)
(Sartono, 2007).
Pada kasus seluruh Bi diskret dan memiliki
mi buah macam nilai, mendapatkan P(B1 | Ai)
dapat dilakukan dengan cara mengisolasi data
yang memiliki kelas Ai. Kemudian
n(bi Ai )
P( Bi bi | Ai )
n( Ai )
P(Bi=bi | Ai = ai) dapat bernilai 0, sehingga
peluang objek yang memliki peubah Bi=bi
masuk ke kelas ai akan selalu bernilai 0. Hal
ini akan berakibat kurang baik pada hasil
klasifikasi. Akan lebih baik jika P(Bi=bi | Ai =
ai) ini diberi nilai yang sangat kecil.
Laplace
adjusment:
Teknik
untuk
menghindari nilai peluang sebesar 0 atau 1,
sering
disarankan
menggunakan
nilai
termuluskan
n(bi Ai ) 1
P( Bi bi | Ai )
n( Ai ) mi
Semi Naive Bayesian
Metode Semi Naive Bayesian secara garis
besar dapat dibagi dalam dua kelompok.
Kelompok pertama membangun simple naive
Bayesian dengan menggunakan sekumpulan
peubah penjelas baru yang dapat dihasilkan
dari proses deleting attributes dan joining
attributes. Kelompok kedua membangun
simple naive Bayesian dengan membuat
struktur garis penghubung secara jelas di
antara
peubah-peubah
penjelas
yang
menunjukkan
hubungan
ketidakbebasan
(saling mempengaruhi) antar peubah penjelas
(Zheng & Webb, 2005).
Pada penelitian ini, metode semi naive
Bayesian yang digunakan adalah deleting
attributes, joining attributes, dan tree
augmented naive Bayesian.
Deleting Attributes
Zheng & Webb (2005) menjelaskan bahwa
ada dua pendekatan yang dapat digunakan
dalam deleting attributes, yaitu Backwards
Sequential Elimination (BSE) dan Forward
Sequential Selection (FSS).
Baik BSE maupun FSS memiliki tujuan
yang sama, yaitu memilih/menentukan
himpunan bagian dari peubah penjelas yang
dapat menyebabkan terjadinya peningkatan
akurasi terbesar dari simple naive Bayesian.
BSE diawali dengan menggunakan
keseluruhan set peubah penjelas, kemudian
dilakukan proses eliminasi peubah, yang
proses pengeliminasian peubah tersebut dapat
menyebabkan terjadinya peningkatan akurasi
terbesar. Sedangkan FSS menggunakan cara
yang berlawanan dengan BSE, yaitu diawali
dengan set peubah penjelas yang kosong,
kemudian dilakukan proses penambahan
peubah yang dapat menyebabkan terjadinya
peningkatan akurasi paling besar. Baik proses
eliminasi maupun penambahan peubah terus
dilakukan hingga tidak ada lagi peningkatan
akurasi yang dapat terjadi.
Himpunan bagian dari peubah-peubah
yang terpilih diasumsikan saling bebas dan
dinotasikan sebagai Atts = {Bg1, ..., Bgh}.
Kaidah klasifikasi pada BSE dan FSS
dilakukan dengan memilih
gh
arg max P(ai ) P(b j | ai )
j g1
ai
Algoritma BSE adalah sebagai berikut:
1. Diawali dengan proses klasifikasi simple
naive Bayesian dengan menggunakan
seluruh peubah penjelas.
( P0 = p adalah banyaknya peubah penjelas
mula-mula ; P = P0 ; n = p-1; i = 1).
2. Hitung akurasi dugaan klasifikasi yang
dihasilkan, notasikan sebagai C0.
3. Tentukan kombinasi n peubah penjelas
yang mungkin terbentuk dari p peubah
penjelas yang tersedia dengan cara
mengeliminasi sebuah peubah penjelas.
4. Lakukan proses klasifikasi simple naive
Bayesian untuk setiap kombinasi peubah
penjelas yang telah terbentuk pada langkah
2
ketiga serta hitung akurasi dugaan
klasifikasinya.
5. Tentukan kombinasi peubah penjelas yang
menghasilkan tingkat akurasi dugaan
terbesar. Notasikan tingkat akurasi dugaan
klasifikasi terbesar tersebut sebagai Ci.
6. Bandingkan Ci dengan C0 :
Jika Ci ≤ C0, proses eliminasi peubah
berhenti/selesai.
Jika Ci > C0, kembali ke langkah tiga untuk
melanjutkan proses eliminasi peubah dari n
peubah penjelas yang diperoleh pada
langkah lima dengan menetapkan C0 = Ci ;
n = n-1; P = P-1; i = i +1.
7. Proses eliminasi peubah penjelas berhenti
jika semua peubah penjelas sudah keluar/
sudah dieliminasi.
Algoritma FSS adalah sebagai berikut:
1. Diawali dengan set peubah penjelas
kosong.
(P0 = 0 adalah banyaknya peubah penjelas
mula-mula; n = P0+2; i = 1 ).
2. Tambahkan satu peubah penjelas dan
lakukan proses klasifikasi simple naive
Bayesian dengan menggunakan satu
peubah penjelas untuk setiap peubah
penjelas yang tersedia.
3. Tentukan
peubah
penjelas
yang
menghasilkan tingkat akurasi dugaan
terbesar. Notasikan tingkat akurasi dugaan
terbesar tersebut sebagai C0.
4. Tambahkan kembali satu peubah penjelas
sebagai dasar klasifikasi, lalu tentukan
kombinasi n peubah penjelas yang mungkin
terbentuk dari p peubah penjelas yang
tersedia. Kombinasi harus mengandung
peubah penjelas yang diperoleh pada
langkah tiga.
5. Lakukan kembali proses klasifikasi simple
naive Bayesian untuk setiap kombinasi
peubah penjelas yang telah terbentuk pada
langkah empat serta hitung akurasi dugaan
klasifikasinya.
6. Tentukan kombinasi peubah penjelas pada
langkah empat yang menghasilkan tingkat
akurasi dugaan terbesar. Notasikan tingkat
akurasi dugaan terbesar tersebut sebagai Ci.
7. Bandingkan Ci dengan C0 :
Jika Ci ≤ C0, proses penambahan peubah
berhenti/selesai.
Jika Ci > C0, kembali ke langkah empat
untuk melanjutkan proses penambahan
peubah dari n peubah penjelas yang
diperoleh pada langkah enam dengan
menetapkan C0 = Ci ; n = n+1; i = i+1.
8. Proses penambahan peubah penjelas
berhenti jika semua peubah penjelas yang
tersedia sudah masuk/sudah ditambahkan.
Backward Sequential Elimination and
Joining (BSEJ)
Menciptakan susunan peubah penjelas baru
dengan cara menggabungkan beberapa peubah
penjelas yang tidak saling bebas merupakan
pendekatan lain untuk memenuhi asumsi
kebebasan antar peubah penjelas.
Pada dasarnya, BSEJ memiliki tahapan
yang mirip dengan BSE, yaitu mengeliminasi
peubah penjelas secara bertahap, dimana
proses pengeliminasian peubah penjelas
tersebut dapat menyebabkan terjadinya
peningkatan akurasi prediksi klasifikasi paling
besar. Adapun yang membedakannya dengan
BSE adalah pada proses eliminasi peubah
penjelas. Pada BSEJ, eliminasi peubah tidak
hanya dilakukan dengan menghilangkan
peubah penjelas, melainkan juga dengan
menggabungkan beberapa peubah penjelas
menjadi satu peubah penjelas yang baru.
Proses penggabungan/penghapusan peubah ini
berhenti jika sudah tidak terjadi
lagi
peningkatan akurasi.
Hasil dari penggabungan peubah yang baru
dinotasikan sebagai JoinAtts = {Joing1, ...,
Joingh}. Sedangkan peubah awal yang belum
digabung atau dieliminasi dinotasikan sebagai
{Bl1, . . . ., Blq}. Klasifikasi pada BSEJ dilakukan
dengan memilih
lq
gh
arg max P ( a i ) P ( join j | a i ) P (br | a i )
j g1
r l1
ai
(Zheng & Webb, 2005).
Algoritma BSEJ adalah sebagai berikut:
1. Diawali dengan proses klasifikasi simple
naive Bayesian dengan menggunakan
seluruh peubah penjelas.
( P0 = p adalah banyaknya peubah penjelas
mula-mula ; P = P0 ; n = p-1; i = 1).
2. Hitung akurasi dugaan klasifikasi yang
dihasilkan, notasikan sebagai C0.
3. Tentukan susunan/kombinasi n peubah
penjelas dari p peubah penjelas yang
tersedia dengan cara mengeliminasi sebuah
peubah penjelas atau menggabungkan dua/
lebih peubah penjelas menjadi sebuah
peubah penjelas baru.
4. Lakukan proses klasifikasi simple naive
Bayesian untuk setiap kombinasi peubah
penjelas yang telah terbentuk pada langkah
ketiga serta hitung akurasi dugaan
klasifikasinya.
3
5. Tentukan kombinasi peubah penjelas yang
menghasilkan tingkat akurasi dugaan
terbesar. Notasikan tingkat akurasi dugaan
klasifikasi terbesar tersebut sebagai Ci.
6. Bandingkan Ci dengan C0 :
Jika Ci ≤ C0, proses eliminasi maupun
penggabungan peubah berhenti/selesai.
Jika Ci > C0, kembali ke langkah tiga untuk
melanjutkan proses eliminasi maupun
penggabungan peubah dari n peubah
penjelas yang diperoleh pada langkah lima
dengan menetapkan C0 = Ci ; n = n-1 ; P =
P-1 ; i = i +1.
7. Proses eliminasi atau penggabungan
peubah penjelas berhenti jika semua
peubah penjelas sudah keluar/sudah
dieliminasi.
Gambar 1 merupakan struktur Bayesian
Networks dari simple naive Bayesian. Dari
Gambar 1 terlihat bahwa antar peubah penjelas
tidak terdapat hubungan saling mempengaruhi.
Sedangkan dari Gambar 2 dapat dilihat
bahwa setiap peubah penjelas dipengaruhi
oleh paling banyak satu selain dari peubah
kelas. Parents dari setiap peubah penjelas Bi
dinotasikan sebagai π(Bi). Klasifikasi pada
TAN dilakukan dengan memilih
p
arg max P (a i ) P (b j | ai , (b j ))
j 1
ai
Gambar 1: Struktur simple naive Bayesian
Algoritma TAN adalah sebagai berikut:
1. Diawali dengan proses klasifikasi simple
naive Bayesian dengan menggunakan
seluruh peubah penjelas.
( P0 = p adalah banyaknya peubah penjelas
mula-mula dan P1 = 0 adalah banyaknya
peubah penjelas yang memiliki parents
selain peubah kelas ; i = 1).
2. Hitung akurasi dugaan klasifikasi yang
dihasilkan, notasikan sebagai C0.
3. Tentukan semua struktur TAN (terdiri dari
p peubah penjelas) yang mungkin terbentuk
jika banyaknya peubah penjelas yang
memiliki parents selain peubah
kelas
adalah P1+1.
4. Lakukan proses klasifikasi simple naive
Bayesian untuk setiap struktur TAN yang
telah terbentuk pada langkah ketiga serta
hitung akurasi dugaan klasifikasinya.
5. Tentukan struktur TAN yang menghasilkan
tingkat akurasi dugaan terbesar. Notasikan
tingkat akurasi dugaan klasifikasi terbesar
tersebut sebagai Ci.
6. Bandingkan Ci dengan C0 :
Jika Ci ≤ C0, proses penentuan struktur
TAN berhenti/selesai.
Jika Ci > C0, kembali ke langkah tiga untuk
melakukan proses penentuan struktur TAN
baru (melanjutkan dari struktur TAN yang
diperoleh pada langkah lima) dengan
menetapkan C0 = Ci ; P1 = P1+1 ; i = i +1.
7. Proses penentuan struktur TAN berhenti
jika banyaknya peubah penjelas maksimum
yang bisa memiliki parents sudah
terpenuhi.
A
BAHAN DAN METODE
Tree Augmented Naive Bayesian (TAN)
Berbeda dengan BSE, FSS, dan BSEJ,
yang membangun simple naive Bayesian
dengan menggunakan kumpulan peubah baru
hasil dari proses deleting atau joining, TAN
merupakan suatu teknik pendekatan untuk
mengatasi keterbatasan simple naive Bayesian
dengan cara mengubah struktur simple naive
Bayesian untuk menggambarkan secara jelas
(saling
dari
adanya
ketidakbebasan
mempengaruhi) antar peubah penjelas (Zheng
& Webb, 2005).
Model TAN merupakan bagian dari
keluarga Bayesian networks yang memiliki
syarat bahwa peubah kelas tidak memiliki
parents dan setiap peubah penjelas memiliki
parents yang terdiri dari peubah kelas dan
paling banyak satu peubah penjelas lainnya
(Cerquides & Mantaras, 2003).
Simple naive Bayesian merupakan bentuk
yang paling sederhana dari Bayesian network.
A
B1
B2
Bp
Bahan
B1
B2
Bp
Gambar 2 : Struktur augmented naive Bayes
Bahan penelitian yang digunakan adalah
data nilai 353 mahasiswa Departemen
Statistika IPB angkatan 1998-2004, yang
meliputi nilai mutu Ujian Komprehensif dan
4
nilai mutu beberapa mata kuliah pokok bidang
Statistika, yaitu Metode Statistika I, Metode
Statistika II, Teori Statistika I, Teori Statistika
II, Perancangan Percobaan, dan Metode
Penarikan Contoh.
Metode
Dalam penelitian ini, selain menggunakan
simple naive Bayesian, juga akan dicobakan
metode semi naive Bayesian menggunakan
algoritma (BSE, FSS, BSEJ, dan TAN) dan
indeks asosiasi. Langkah-langkah metode
penelitian adalah sebagai berikut :
1. Melakukan proses cleaning data untuk
menyamakan kode-kode mata kuliah yang
digunakan.
2. Membagi data ke dalam dua bagian. Dari
total data nilai 353 mahasiswa, sebanyak
282 data (80%) dijadikan data in-sample
untuk membangun model dan sisanya
sebanyak 71 data (20%) dijadikan data outsample untuk validasi.
3. Membuat model klasifikasi Simple Naive
Bayesian dan menghitung akurasi dugaan
klasifikasi in-sample dan out-sample.
4. Membuat model klasifikasi Semi Naive
Bayesian dengan menggunakan algoritma
BSE, FSS, BSEJ, dan TAN.
5. Membuat model klasifikasi Semi Naive
Bayesian dengan menggunakan indeks
asosiasi.
6. Menghitung tingkat kesalahan klasifikasi
dengan mempertimbangkan jenis kesalahan
yang terjadi. Jenis kesalahan prediksi yang
jauh dari aktual diberi bobot/koefisien
pengali yang lebih besar. Selain itu,
dihitung juga korelasi antara prediksi
dengan aktual untuk setiap metode
klasifikasi semi naive Bayesian dan SNB.
7. Membandingkan akurasi dugaan klasifikasi
Semi Naive Bayesian, baik yang
menggunakan algoritma maupun indeks
asosiasi,
terhadap
akurasi
dugaan
klasifikasi simple naive Bayesian.
Perangkat lunak yang digunakan dalam
penelitian ini adalah Microsoft Excel, SPSS
13.0 for Windows, dan MINITAB 14.
HASIL DAN PEMBAHASAN
Deskripsi Data Nilai Mahasiswa
Pengklasifikasian nilai mutu Ujian
Komprehensif
mahasiswa
Departemen
Statistika IPB dilakukan dengan menggunakan
data nilai dari 353 mahasiswa Departemen
Statistika IPB angkatan 1998-2004. Data nilai
yang digunakan meliputi nilai mutu dari tujuh
mata kuliah, yaitu Ujian Komprehensif,
Metode Statistika I Metode Statistika II, Teori
Statistika I, Teori Statistika II, Perancangan
Percobaan, serta Metode Penarikan Contoh.
Nilai mutu Ujian Komprehensif merupakan
peubah respon, sedangkan nilai mutu dari
keenam mata kuliah lainnya merupakan
peubah penjelas. Peubah respon dan peubah
penjelas yang digunakan dalam penelitian ini
masing-masing bersifat kategorik.
Daftar peubah penjelas dan kategori dari
masing-masing peubah penjelas disajikan pada
Tabel 1. Penentuan kategori dari setiap peubah
penjelas mengikuti kaidah bahwa kategori dari
setiap peubah penjelas yang banyak
individunya tidak mencapai 5% dari total
seluruh individu, akan digabung dengan
kategori terdekat dari peubah penjelas yang
sama.
Sedangkan Gambar 3 menunjukkan pola
pergerakan rata-rata nilai mata kuliah Ujian
Komprehensif, Metode Statistika I, Metode
Statistika II, Teori Statistika I, Teori Statistika
II, Perancangan Percobaan, serta Metode
Penarikan Contoh dari mahasiswa Departemen
Statistika IPB angkatan 1998-2004. Terlihat
bahwa Teori Statistika I dan Teori Statistika II
memiliki profil yang sangat mirip. Selama
kurun waktu tersebut dapat dilihat bahwa mata
kuliah Teori Statistika I dan Teori Statistika II
memiliki rata-rata nilai yang cenderung berada
di bawah rata-rata nilai mata kuliah lainnya.
Mata kuliah lain yang memiliki kemiripan
profil adalah Metode Statistika II, Metode
Penarikan Contoh, dan Ujian Komprehensif.
Ketiga mata kuliah tersebut memiliki rata-rata
nilai yang cenderung meningkat pada tahun
angkatan 1998-2001, kemudian menurun pada
tahun angkatan 2001-2002, dan sejak tahun
angkatan 2002-2004 kembali mengalami
peningkatan. Sedangkan mata kuliah Metode
Statistika I dan Perancangan Percobaan
memiliki profil yang berbeda dengan mata
kuliah lainnya. Perancangan Percobaan terlihat
cenderung memiliki rata-rata nilai yang lebih
tinggi dibandingkan seluruh mata kuliah
lainnya. Namun, sama seperti Metode
Statistika II, Perancangan Percobaan juga
cenderung mengalami perubahan rata-rata
nilai yang cukup besar pada setiap pergantian
tahun angkatan mahasiswa.
Koefisien Korelasi (indeks asosiasi) antar
peubah
penjelas
pada
Lampiran
1
menunjukkan bahwa antar peubah penjelas
(nilai mutu dari enam mata kuliah) tidak saling
bebas. Koefisien korelasi yang seluruhnya
bernilai positif memiliki arti bahwa seorang
5
mahasiswa yang memiliki nilai mutu yang
baik pada satu jenis mata kuliah akan
cenderung memiliki nilai mutu yang baik pula
pada mata kuliah yang lainnya.
Selain itu, tabel koefisien korelasi pada
Lampiran 1 juga menunjukkan bahwa setiap
peubah penjelas memiliki asosiasi yang cukup
kuat terhadap peubah respon. Indeks asosiasi
terbesar antar peubah penjelas terjadi di antara
Metode Statistika II dan Metode Penarikan
Contoh. Sedangkan peubah penjelas yang
memiliki asosiasi terkuat dengan peubah
respon adalah Metode Penarikan Contoh.
RATA-RATA NILAI MATA KULIAH MAHASISWA DEPARTEMEN
STATISTIKA IPB
4
3.75
3.5
Rata-rata Nilai Mutu
3.25
MET ST AT I
3
MET ST AT II
2.75
TS I
2.5
T S II
MPC
2.25
RANCOB
2
KOMPRE
1.75
1.5
1.25
1
1998
1999
2000
2001
2002
2003
2004
Tahun Angkatan Mahasiswa
Gambar 3. Grafik Nilai Rata-Rata Mata Kuliah Ujian Komprehensif dan Mata Kuliah Pokok Mahasiswa
Departemen Statistika IPB
Tabel 1. Daftar Kategori dari Peubah Penjelas
Peubah Penjelas
Kategori
A
Nilai mutu Metode Statistika I
B
(mst1)
CD
A
Nilai mutu Metode Statistika II
B
(mst2)
CD
A
B
Nilai mutu Teori Statistika I
(ts1)
C
D
A
B
Nilai mutu Teori Statistika II
(ts2)
C
DE
A
Nilai mutu Metode Penarikan
B
Contoh (mpc)
CD
A
Nilai mutu Perancangan
B
Percobaan (rcb)
CD
Klasifikasi Menggunakan Simple Naive
Bayesian
Tahapan dalam penentuan klasifikasi nilai
mutu Ujian Komprehensif dengan metode
simple naive Bayesian :
1. Menentukan peluang prior dari masingmasing kategori nilai mutu Ujian
Komprehensif.
Tabel 2. Peluang Prior Ujian Komprehensif
Nilai mutu Ujian
Peluang
N
Komprehensif
Prior
A
33
0.117
B
98
0.348
C
137
0.486
D
14
0.05
Total
282
1
2. Menentukan peluang bersyarat dari setiap
kategori peubah penjelas. Lampiran 2-7
menyajikan nilai peluang bersyarat dari
enam peubah penjelas.
3. Menentukan peluang bersama yang
diperoleh dengan mengalikan peluang prior
6
pada tahap 1 dan peluang bersyarat pada
tahap 2.
4. Menentukan kaidah klasifikasi berdasarkan
nilai peluang bersama yang terbesar.
Dengan menerapkan tahapan di atas, akan
diperoleh prediksi klasifikasi nilai mutu Ujian
Komprehensif dari masing-masing mahasiswa
Departemen Statistika IPB. Tabel klasifikasi
nilai mutu Ujian Komprehensif yang
dihasilkan adalah sebagai berikut:
Contoh, dan nilai mutu Perancangan
Percobaan.
Tabel klasifikasi nilai mutu Ujian
Komprehensif yang dihasilkan dari penerapan
algoritma BSE adalah sebagai berikut:
Tabel 5. Ketepatan Klasifikasi Data In-Sample
BSE
Prediksi
A
Aktual A
B
Tabel 3. Ketepatan Klasifikasi Data In-sample
SNB
C
Prediksi
Aktual A
B
C
D
Total
A
23
8.2%
14
5.0%
5
1.8%
0
.0%
42
B
C
D
8
2.8%
39
14%
25
8.9%
0
.0%
72
2
.7%
45
16%
103
37%
10
3.5%
160
0
.0%
0
.0%
4
1.4%
4
1.4%
8
Total
D
33
98
137
Total
A
Aktual A
B
C
Prediksi
B
C
D
Total
A
B
C
D
2
2.8%
1
1.4%
1
1.4%
0
.0%
4
2
2.8%
11
15%
10
14%
0
.0%
23
1
1.4%
18
25%
21
30%
1
1.4%
41
0
.0%
0
.0%
3
4.2%
0
.0%
3
Total
D
5
30
35
1
71
Tingkat ketepatan klasifikasi (Correct
Classification Rate) yang dihasilkan oleh
metode SNB untuk data in-sample sebesar
sedangkan
tingkat
ketepatan
59.93%,
klasifikasi untuk data out-sample sebesar
47.89%.
Klasifikasi Menggunakan Metode Semi
Naive Bayesian
Backwards Sequential Elimination (BSE)
Penerapan algoritma BSE menghasilkan
susunan peubah penjelas baru yang merupakan
himpunan bagian dari enam peubah penjelas
pada simple naive Bayesian yang dapat
menyebabkan terjadinya peningkatan akurasi
dari metode simple naive Bayesian. Susunan
peubah penjelas baru tersebut terdiri dari tiga
peubah penjelas, yaitu nilai mutu Metode
Statistika II, nilai mutu Metode Penarikan
6
2.1%
42
14.9%
21
7.4%
1
.4%
70
3
1.1%
47
16.7%
109
38.7%
13
4.6%
172
Total
33
98
137
14
282
Prediksi
14
282
C
Tabel 6. Ketepatan Klasifikasi Data Out-Sample
BSE
Tabel 4. Ketepatan Klasifikasi Data Out-Sample
SNB
Aktual A
24
8.5%
9
3.2%
7
2.5%
0
.0%
40
B
Total
2
2.8%
4
5.6%
3
4.2%
0
.0%
9
B
C
0
.0%
8
11.3%
4
5.6%
0
.0%
12
3
4.2%
18
25.4%
28
39.4%
1
1.4%
50
Total
5
30
35
1
71
Tingkat ketepatan klasifikasi yang
dihasilkan oleh metode BSE untuk data insample sebesar 62.06%, sedangkan tingkat
ketepatan klasifikasi untuk data out-sample
sebesar 53.52%.
Forward Sequential Selection (FSS)
Sama halnya dengan algoritma BSE,
penerapan algoritma FSS juga menghasilkan
susunan peubah penjelas baru yang merupakan
himpunan bagian dari enam peubah penjelas
yang digunakan pada simple naive Bayesian.
Susunan peubah penjelas yang baru tersebut
dipilih karena dapat meningkatkan akurasi dari
metode simple naive Bayesian.
Susunan peubah penjelas baru yang
terbentuk dari penerapan algoritma FSS
tersebut terdiri dari lima peubah penjelas,
yaitu nilai mutu Metode Statistika I, nilai mutu
Metode Statistika II, nilai mutu Teori
Statistika II, nilai mutu Metode Penarikan
Contoh, dan nilai mutu Perancangan
Percobaan. Sedangkan Tabel klasifikasi nilai
mutu Ujian Komprehensif yang dihasilkan
adalah sebagai berikut:
7
Tabel 7. Ketepatan Klasifikasi Data In-Sample
FSS
Prediksi
Prediksi
A
Aktual A
B
C
D
Total
23
8.2%
14
5.0%
5
1.8%
0
.0%
42
B
C
6
2.1%
40
14.2%
22
7.8%
0
.0%
68
4
1.4%
44
15.6%
110
39.0%
14
5.0%
172
Total
Aktual A
98
B
137
C
14
D
282
B
C
D
Total
2
2.8%
1
1.4%
1
1.4%
0
.0%
4
Total
8
2.8%
0
.0%
0
.0%
0
.0%
8
B
6
2.1%
71
25.2%
4
1.4%
1
.4%
82
C
19
6.7%
27
9.6%
133
47.2%
13
4.6%
192
B
C
1
1.4%
11
15.5%
7
9.9%
0
.0%
19
2
2.8%
18
25.4%
27
38.0%
1
1.4%
48
Total
A
5
Aktual A
30
B
35
C
1
D
71
Total
33
98
137
14
282
Tabel 10. Ketepatan Klasifikasi Data Out-Sample
BSEJ
Prediksi
Prediksi
Aktual A
A
33
Tabel 8. Ketepatan Klasifikasi Data Out-Sample
FSS
A
Tabel 9. Ketepatan Klasifikasi Data In-Sample
BSEJ
Total
1
1.4%
0
.0%
0
.0%
0
.0%
1
B
C
1
1.4%
9
12.7%
6
8.5%
0
.0%
16
3
4.2%
21
29.6%
29
40.8%
1
1.4%
54
Total
5
30
35
1
71
Tingkat ketepatan klasifikasi yang
dihasilkan oleh metode FSS untuk data insample sebesar 61.35%, sedangkan tingkat
ketepatan klasifikasi untuk data out-sample
sebesar 56.34%.
Tingkat ketepatan klasifikasi yang
dihasilkan oleh metode BSEJ untuk data insample sebesar 75.18%, sedangkan tingkat
ketepatan klasifikasi untuk data out-sample
sebesar 54.93%.
Backward Sequential Elimination and
Joining (BSEJ)
Penerapan algoritma BSEJ menciptakan
susunan peubah penjelas baru yang terdiri dari
hanya satu peubah penjelas baru hasil
penggabungan keenam peubah penjelas pada
simple naive Bayesian. Jika peubah penjelas
baru yang dihasilkan dari algoritma BSEJ
adalah join, maka join ini merupakan
penggabungan dari keenam peubah penjelas
pada simple naive Bayesian. Jika seorang
mahasiswa memiliki nilai mutu Metode
Statistika I = A, nilai mutu Metode Statistika
II = A, nilai mutu Teori Statistika I = A, nilai
mutu Teori Statistika II = A, nilai mutu
Metode Penarikan Contoh = A, dan nilai mutu
Perancangan Percobaan = A, mahasiswa
tersebut akan memiliki peubah penjelas join =
AAAAAA.
Tabel klasifikasi nilai mutu Ujian
Komprehensif yang dihasilkan berdasarkan
algoritma BSEJ adalah sebagai berikut:
Tree Augmented Naive Bayesian (TAN)
Penerapan algoritma TAN menghasilkan
perubahan struktur simple naive Bayesian
yang menggambarkan adanya ketidakbebasan
(saling mempengaruhi) antar peubah penjelas.
Peubah penjelas yang terbentuk masih terdiri
dari enam peubah penjelas, yaitu nilai mutu
Metode Statistika I, nilai mutu Metode
Statistika II, nilai mutu Teori Statistika I, nilai
mutu Teori Statistika II, nilai mutu Metode
Penarikan Contoh, dan nilai mutu Perancangan
Percobaan. Perbedaannya adalah dalam
penentuan peluang bersyarat setiap kategori
dari peubah penjelas nilai mutu Teori
Statistika I, nilai mutu Teori Statistika II, dan
nilai mutu Perancangan Percobaan, yang
selain dipengaruhi oleh peubah kelas juga
dipengaruhi oleh salah satu peubah penjelas
lain. Nilai mutu Teori Statistika I dan nilai
mutu Teori Statistika II sama-sama
dipengaruhi oleh nilai mutu Metode Statistika
I, sedangkan nilai mutu Perancangan
Percobaan dipengaruhi oleh nilai mutu Teori
Statistika I. Struktur tree augmented naive
8
Bayesian yang dihasilkan dapat dilihat pada
Lampiran 8.
Tabel klasifikasi nilai mutu Ujian
Komprehensif yang dihasilkan berdasarkan
algoritma TAN adalah sebagai berikut:
Tabel 11. Ketepatan Klasifikasi Data In-Sample
TAN
Prediksi
Aktual A
B
C
D
Total
A
22
7.8%
9
3.2%
3
1.1%
0
.0%
34
B
C
D
6
2.1%
53
19%
21
7.4%
0
.0%
80
5
1.8%
36
13%
112
40%
10
3.5%
163
0
.0%
0
.0%
1
.4%
4
1.4%
5
Total
33
98
137
14
282
Tabel 12. Ketepatan Klasifikasi Data Out-Sample
TAN
Prediksi
Aktual A
B
C
D
Total
A
B
C
D
2
2.8%
1
1.4%
1
1.4%
0
.0%
4
2
2.8%
10
14%
7
9.9%
0
.0%
19
1
1.4%
19
27%
24
34%
1
1.4%
45
0
.0%
0
.0%
3
4.2%
0
.0%
3
Tabel 13. Perbandingan Tingkat Kesalahan
Klasifikasi SNB dan Semi Naive Bayesian
Metode
Misclassification
Klasifikasi
in-sample
out-sample
SNB
40.07%
52.11%
BSE
37.94%
46.48%
FSS
38.65%
43.66%
BSEJ
24.82%
45.07%
TAN
32.27%
49.30%
Total
5
30
35
1
71
Tingkat ketepatan klasifikasi yang
dihasilkan oleh metode TAN untuk data insample sebesar 67.73%, sedangkan tingkat
ketepatan klasifikasi untuk data out-sample
sebesar 50.70%.
Perbandingan Metode SNB, BSE, FSS,
BSEJ dan TAN
Metode klasifikasi dinyatakan memiliki
akurasi yang baik jika memiliki tingkat
kesalahan klasifikasi yang minimum. Tingkat
kesalahan klasifikasi yang dihasilkan oleh
metode klasifikasi SNB dan semi naive
Bayesian disajikan pada Tabel 13.
Dari Tabel 13 terlihat bahwa metode
semi naive Bayesian efektif digunakan untuk
meningkatkan akurasi dari metode simple
naïve Bayesian. Namun, peningkatan akurasi
yang dihasilkan belum tentu merupakan
peningkatan akurasi yang terbesar (maksimal).
Hal ini ditunjukkan dengan adanya perbedaan
tingkat kesalahan klasifikasi yang dihasilkan
oleh BSE dan FSS.
Secara keseluruhan dapat dilihat bahwa
keempat metode semi naive Bayesian
memiliki tingkat kesalahan klasifikasi yang
lebih kecil dibandingkan dengan metode
simple naive Bayesian, baik untuk data insample maupun out-sample.
Adanya perbedaan tingkat kesalahan
klasifikasi yang cukup jauh antara data insample dan out-sample disebabkan oleh
ukuran data yang digunakan tidak cukup
besar, sehingga berakibat pada nilai peluang
dari setiap kategori peubah penjelas maupun
peubah respon yang belum stabil.
Kesalahan prediksi klasifikasi yang
dihasilkan untuk data in-sample, baik dalam
simple naive Bayesian maupun dalam semi
naive Bayesian, didominasi oleh jenis
kesalahan prediksi yang tidak jauh dari nilai
data aktual, misalnya saja kebanyakan
mahasiswa yang memiliki nilai mutu Ujian
Komprehensif A diprediksi akan mendapat
nilai mutu Ujian Komprehensif antara A-B.
Begitu pula dengan mahasiswa yang memiliki
nilai mutu Ujian Komprehensif aktual B,
sebagian besar akan diprediksi mendapat nilai
mutu Ujian Komprehensif B-C. Mahasiswa
yang memiliki nilai mutu Ujian Komprehensif
aktual C juga sebagian besar akan diprediksi
mendapat nilai mutu Ujian Komprehensif B-C.
Sedangkan mahasiswa yang memiliki nilai
mutu Ujian Komprehensif aktual D sebagian
besar akan diprediksi mendapat nilai mutu
Ujian Komprehensif C.
Penerapan Metode Semi Naive Bayesian
Menggunakan Indeks Asosiasi
Selain menggunakan algoritma BSE, FSS,
dan BSEJ, metode semi naive Bayesian
(deleting attributes dan joining attributes)
dapat diterapkan dengan menggunakan indeks
asosiasi (korelasi). Tahapan metode semi naive
Bayesian dalam mengklasifikasikan nilai mutu
Ujian Komprehensif menggunakan indeks
asosiasi (korelasi) adalah sebagai berikut :
1. Menggerombolkan keenam mata kuliah
yang menjadi peubah penjelas. Indeks
9
asosiasi
digunakan
sebagai
ukuran
kemiripan antar dua mata kuliah (peubah
penjelas). Banyaknya gerombol yang
terbentuk menunjukkan banyaknya peubah
penjelas yang akan digunakan.
2. Deleting attributes: Ambil satu mata kuliah
sebagai peubah penjelas dari seiap
gerombol yang terbentuk. Kemudian
lakukan proses klasifikasi SNB. Ulangi
langkah 2 ini untuk semua susunan
kombinasi peubah penjelas yang mungkin.
Kombinasi peubah penjelas yang dipilih
adalah kombinasi peubah penjelas yang
menghasilkan tingkat ketepatan klasifikasi
terbesar.
Joining attributes: Gabungkan setiap
peubah penjelas (mata kuliah) yang berada
dalam satu gerombol, sehingga seolah-olah
membentuk peubah penjelas baru yang
banyaknya sesuai dengan banyaknya
gerombol yang terbentuk pada langkah 1.
Kemudian lakukan proses klasifikasi SNB.
Setelah melakukan eksplorasi terhadap
beberapa metode perbaikan jarak (pautan),
digunakan metode pautan Complete Linkage
untuk menggerombolkan peubah penjelas
dengan ukuran kedekatan adalah korelasi antar
peubah penjelas. Metode pautan Complete
Linkage tersebut menghasilkan tiga gerombol.
Gerombol pertama terdiri dari Metode
Statistika I, Teori Statistika I, dan Teori
Statistika II. Gerombol kedua terdiri dari
Metode Statistika II dan M
IIN LESMANAWATI. Pengklasifikasian Nilai Mutu Ujian Komprehensif Mahasiswa
Departemen Statistika IPB Menggunakan Semi Naive Bayesian Classifier. Di bawah bimbingan
BAGUS SARTONO dan FARIT MOCHAMAD AFENDI.
Proses klasifikasi nilai mutu Ujian Komprehensif merupakan salah satu upaya untuk
mengetahui potensi kelulusan mahasiswa dalam ujian komprehensif. Informasi mengenai potensi
kelulusan mahasiswa dalam Ujian Komprehensif diharapkan dapat digunakan untuk
meminimalisasi kegagalan mahasiswa dalam Ujian Komprehensif. Pengklasifikasian nilai mutu
Ujian Komprehensif dapat dilakukan dengan menggunakan Semi Naive Bayesian Classifier.
Metode semi naive Bayesian classifier yang digunakan adalah deleting attributes: Backwards
Sequential Elimination (BSE) dan Forwards Sequential Selection (FSS); joining attributes:
Backwards Sequential Elimination and Joining (BSEJ); dan Tree Augmented Naive Bayes (TAN).
Hasil klasifikasi menggunakan semi naive Bayesian classifier ini dibandingkan dengan hasil
klasifikasi menggunakan Simple Naive Bayesian classifier (SNB).
Perbandingan dari kedua metode klasifikasi menunjukkan bahwa metode semi naive Bayesian
(menggunakan algoritma BSE, FSS, BSEJ, dan TAN) memiliki kemampuan yang lebih baik dalam
mengklasifikasikan nilai mutu Ujian Komprehensif mahasiswa Departemen Statistika IPB
dibandingkan dengan metode SNB. Hal ini dapat dilihat dari tingkat kesalahan klasifikasi dari
keempat metode semi naive Bayesian yang nilainya lebih rendah dibandingkan dengan tingkat
kesalahan klasifikasi SNB, baik untuk data in-sample maupun data out-sample. Sedangkan
penggunaan indeks asosiasi sebagai alternatif dalam penerapan prosedur semi naive Bayesian
kurang dapat diandalkan untuk meningkatkan akurasi prediksi klasifikasi SNB. Tingkat kesalahan
klasifikasi yang dihitung dengan mempertimbangkan jenis kesalahan yang dihasilkan juga
menunjukkan hasil bahwa metode semi naive Bayesian (menggunakan algoritma BSE, FSS, BSEJ,
dan TAN) memiliki kemampuan yang lebih baik dalam mengklasifikasikan nilai mutu Ujian
Komprehensif mahasiswa Departemen Statistika IPB dibandingkan dengan metode SNB.
Tambahan informasi mengenai koefisien korelasi antara prediksi dan aktual yang dihasilkan oleh
metode SNB dan semi naive Bayesian, dapat memberikan hasil perbandingan metode klasifikasi
yang lebih baik.
i
PENGKLASIFIKASIAN NILAI MUTU UJIAN KOMPREHENSIF
MAHASISWA DEPARTEMEN STATISTIKA IPB MENGGUNAKAN
SEMI NAIVE BAYESIAN CLASSIFIER
IIN LESMANAWATI
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2008
ABSTRAK
IIN LESMANAWATI. Pengklasifikasian Nilai Mutu Ujian Komprehensif Mahasiswa
Departemen Statistika IPB Menggunakan Semi Naive Bayesian Classifier. Di bawah bimbingan
BAGUS SARTONO dan FARIT MOCHAMAD AFENDI.
Proses klasifikasi nilai mutu Ujian Komprehensif merupakan salah satu upaya untuk
mengetahui potensi kelulusan mahasiswa dalam ujian komprehensif. Informasi mengenai potensi
kelulusan mahasiswa dalam Ujian Komprehensif diharapkan dapat digunakan untuk
meminimalisasi kegagalan mahasiswa dalam Ujian Komprehensif. Pengklasifikasian nilai mutu
Ujian Komprehensif dapat dilakukan dengan menggunakan Semi Naive Bayesian Classifier.
Metode semi naive Bayesian classifier yang digunakan adalah deleting attributes: Backwards
Sequential Elimination (BSE) dan Forwards Sequential Selection (FSS); joining attributes:
Backwards Sequential Elimination and Joining (BSEJ); dan Tree Augmented Naive Bayes (TAN).
Hasil klasifikasi menggunakan semi naive Bayesian classifier ini dibandingkan dengan hasil
klasifikasi menggunakan Simple Naive Bayesian classifier (SNB).
Perbandingan dari kedua metode klasifikasi menunjukkan bahwa metode semi naive Bayesian
(menggunakan algoritma BSE, FSS, BSEJ, dan TAN) memiliki kemampuan yang lebih baik dalam
mengklasifikasikan nilai mutu Ujian Komprehensif mahasiswa Departemen Statistika IPB
dibandingkan dengan metode SNB. Hal ini dapat dilihat dari tingkat kesalahan klasifikasi dari
keempat metode semi naive Bayesian yang nilainya lebih rendah dibandingkan dengan tingkat
kesalahan klasifikasi SNB, baik untuk data in-sample maupun data out-sample. Sedangkan
penggunaan indeks asosiasi sebagai alternatif dalam penerapan prosedur semi naive Bayesian
kurang dapat diandalkan untuk meningkatkan akurasi prediksi klasifikasi SNB. Tingkat kesalahan
klasifikasi yang dihitung dengan mempertimbangkan jenis kesalahan yang dihasilkan juga
menunjukkan hasil bahwa metode semi naive Bayesian (menggunakan algoritma BSE, FSS, BSEJ,
dan TAN) memiliki kemampuan yang lebih baik dalam mengklasifikasikan nilai mutu Ujian
Komprehensif mahasiswa Departemen Statistika IPB dibandingkan dengan metode SNB.
Tambahan informasi mengenai koefisien korelasi antara prediksi dan aktual yang dihasilkan oleh
metode SNB dan semi naive Bayesian, dapat memberikan hasil perbandingan metode klasifikasi
yang lebih baik.
i
PENGKLASIFIKASIAN NILAI MUTU UJIAN KOMPREHENSIF
MAHASISWA DEPARTEMEN STATISTIKA IPB MENGGUNAKAN
SEMI NAIVE BAYESIAN CLASSIFIER
IIN LESMANAWATI
Skripsi
sebagai salah satu syarat memperoleh gelar Sarjana Sains
pada Departemen Statistika
Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2008
ii
Judul
Nama
NIM
: Pengklasifikasian Nilai Mutu Ujian Komprehensif Mahasiswa
Departemen Statistika IPB menggunakan Semi Naive Bayesian
Classifier
: Iin Lesmanawati
: G14104058
Menyetujui :
Pembimbing I,
Pembimbing II,
Bagus Sartono, M.Si
NIP. 132311923
Farit Mochamad Afendi, M.Si
NIP. 132314007
Mengetahui :
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
Dr. Drh. Hasim, DEA
NIP. 131578806
Tanggal Lulus :
iii
RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 4 Maret 1986 sebagai anak kedua dari lima
bersaudara, anak dari pasangan Encep Rachmat dan Yayah Sadiah.
Penulis menyelesaikan pendidikan dasar di SD Negeri Sukamaju 1 pada tahun 1998 dan
menyelesaikan pendidikan menengah lanjutan pertama di SLTP Negeri 3 Depok pada tahun 2001.
Pada tahun 2004 penulis menyelesaikan pendidikan menengah lanjutan atas di SMU Negeri 1
Depok dan pada tahun yang sama pula diterima di Departemen Statistika Fakultas Matematika dan
Ilmu Pengetahuan Alam Institut Pertanian Bogor melalui Seleksi Penerimaan Mahasiswa Baru
(SPMB).
Selama mengikuti perkuliahan, penulis pernah menjadi asisten responsi mata kuliah Metode
Statistika pada semester ganjil tahun akademik 2006-2007. Pada bulan Februari-Maret 2008,
penulis mengikuti kegiatan Praktik Lapang di PT. Media Televisi Indonesia/ METRO TV.
iv
KATA PENGANTAR
Alhamdulillahirabbil’alamin, segala puji dan syukur dipanjatkan kehadirat Allah SWT atas
segala hidayah, nikmat, dan karunia-Nya sehingga penulis dapat menyelesaikan karya ilmiah ini
yang berjudul “Pengklasifikasian Nilai Mutu Ujian Komprehensif Mahasiswa Departemen
Statistika IPB Menggunakan Semi Naive Bayesian Classifier”. Shalawat serta salam semoga selalu
tercurahkan kepada Rasulullah SAW, keluarga, para sahabat, dan umatnya hingga akhir zaman.
Selesainya karya ilmiah ini tidak lepas dari bantuan dan doa dari orang-orang yang dengan
tidak bosan-bosannya memberikan dukungan kepada penulis. Oleh karena itu, pada kesempatan ini
penulis ingin menyampaikan terima kasih yang sebesar-besarnya kepada :
1. Bapak Bagus Sartono dan Bapak Farit Mochamad Afendi yang telah banyak memberikan
bimbingan, saran, serta kritik sehingga karya ilmiah ini dapat diselesaikan.
2. Orang tua, kakak serta adik-adikku yang tersayang yang selalu setia mendoakan dan
memberikan semangat.
3. Segenap staf pengajar di Departemen Statistika FMIPA IPB yang telah memberikan
pengajaran terbaik sehingga penulis dapat menyelesaikan studi dan karya ilmiah ini.
4. Seluruh staf pegawai Departemen Statistika FMIPA IPB : Bu Markonah, Bu Sulis, Bu
Dedeh, Bang Sudin, Pak Ian, Bu Aat, Mang Dur, dan Mang Herman yang telah banyak
membantu penulis selama menjalankan studi dan menyelesaikan karya ilmiah ini.
5. Teman-teman seperjuangan Statistika 41, atas segala kerjasama dan kebersamaan yang
telah diberikan selama empat tahun ini. Terutama untuk Vinny, Leisha, dan Renita yang
tidak bosan-bosan memberikan tumpangan kost-nya selama ini.
6. Bi Teti yang telah memberi motivasi bagi penulis agar terus menjadi lebih baik. Ate,
Thanks for being my second Mom!
7. Semua pihak yang telah memberikan dukungan kepada penulis yang tidak dapat disebutkan
satu persatu.
Penulis menyadari bahwa masih banyak kekurangan dalam karya ilmiah ini. Namun, penulis
berharap semoga karya ilmiah ini dapat bermanfaat.
Depok, Agustus 2008
Penulis
v
DAFTAR ISI
Halaman
DAFTAR TABEL...................................................................................................................... vii
DAFTAR GAMBAR ................................................................................................................. vii
DAFTAR LAMPIRAN .............................................................................................................. viii
PENDAHULUAN......................................................................................................................
1
Latar Belakang ....................................................................................................................
1
Tujuan .................................................................................................................................
1
TINJAUAN PUSTAKA.............................................................................................................
1
Ujian Komprehensif............................................................................................................
Simple Naive Bayesian........................................................................................................
Kaidah peluang Bayes ...............................................................................................
Asumsi naive .............................................................................................................
Laplace adjustment....................................................................................................
Semi Naive Bayesian ...........................................................................................................
Deleting attributes .....................................................................................................
Backward Sequential Elimination and Joining (BSEJ) .............................................
Tree Augmented Naive Bayesian (TAN) ...................................................................
1
1
1
2
2
2
2
3
4
BAHAN DAN METODE ..........................................................................................................
4
Bahan ..................................................................................................................................
Metode ................................................................................................................................
4
5
HASIL DAN PEMBAHASAN..................................................................................................
5
Deskripsi Data Nilai Mahasiswa.........................................................................................
Klasifikasi Menggunakan Simple Naive Bayesian..............................................................
Klasifikasi Menggunakan Metode Semi Naive Bayesian....................................................
Backwards Sequential Elimination (BSE).................................................................
Forward Sequential Selection (FSS) .........................................................................
Backward Sequential Elimination and Joining (BSEJ) .............................................
Tree Augmented Naive Bayesian (TAN) ...................................................................
Perbandingan Metode SNB, BSE, FSS, BSEJ, dan TAN ...................................................
Penerapan Metode Semi Naive Bayesian Menggunakan Indeks Asosiasi...........................
Tingkat Kesalahan Klasifikasi dengan Mempertimbangkan Jenis Kesalahan yang
Dihasilkan ...........................................................................................................................
5
6
7
7
7
8
8
9
9
11
KESIMPULAN DAN SARAN..................................................................................................
13
Kesimpulan .........................................................................................................................
Saran ...................................................................................................................................
13
13
DAFTAR PUSTAKA ................................................................................................................
13
LAMPIRAN...............................................................................................................................
14
vi
DAFTAR TABEL
Halaman
1.
Daftar Kategori dari Peubah Penjelas..................................................................................
6
2.
Peluang Prior Ujian Komprehensif .....................................................................................
6
3.
Ketepatan Klasifikasi Data In-Sample SNB........................................................................
7
4.
Ketepatan Klasifikasi Data Out-Sample SNB .....................................................................
7
5.
Ketepatan Klasifikasi Data In-Sample BSE ........................................................................
7
6.
Ketepatan Klasifikasi Data Out-Sample BSE......................................................................
7
7.
Ketepatan Klasifikasi Data In-Sample FSS.........................................................................
8
8.
Ketepatan Klasifikasi Data Out-Sample FSS ......................................................................
8
9.
Ketepatan Klasifikasi Data In-Sample BSEJ.......................................................................
8
10. Ketepatan Klasifikasi Data Out-Sample BSEJ....................................................................
8
11. Ketepatan Klasifikasi Data In-Sample TAN .......................................................................
9
12. Ketepatan Klasifikasi Data Out-Sample TAN.....................................................................
9
13. Perbandingan Tingkat Kesalahan Klasifikasi SNB dan Semi Naive Bayesian....................
9
14. Tingkat Kesalahan Klasifikasi Semi Naive Bayesian dengan Indeks Asosiasi....................
10
15. Ketepatan Klasifikasi Data In-Sample Deleting attributes..................................................
10
16. Ketepatan Klasifikasi Data Out-Sample Deleting attributes ...............................................
10
17. Ketepatan Klasifikasi Data In-Sample Joining attributes ...................................................
11
18. Ketepatan Klasifikasi Data Out-Sample Joining attributes.................................................
11
19. Perbandingan Tingkat Kesalahan Klasifikasi SNB dan Semi Naive Bayesian dengan
Bobot Pengali......................................................................................................................
12
20. Tingkat Kesalahan Klasifikasi Semi Naive Bayesian menggunakan Indeks Asosiasi
dengan Bobot Pengali .........................................................................................................
12
21. Koefisien Korelasi antara Prediksi dan Aktual dari SNB dan Semi Naive Bayesian ..........
12
22. Koefisien Korelasi antara Prediksi dan Aktual dari Semi Naive Bayesian
Menggunakan Indeks Asosiasi...........................................................................................
12
DAFTAR GAMBAR
Halaman
1.
Struktur Simple Naive Bayesian ..........................................................................................
4
2.
Struktur Augmented Naive Bayes ........................................................................................
4
3.
Nilai Rata-Rata Mata Kuliah Ujian Komprehensif dan Mata Kuliah Pokok Mahasiswa
Departemen Statistika IPB ..................................................................................................
6
vii
DAFTAR LAMPIRAN
Halaman
1.
Koefisien Korelasi antar Peubah Penjelas...........................................................................
14
2.
Peluang Bersyarat dari Peubah Penjelas Nilai Mutu Metode Statistika I............................
15
3.
Peluang Bersyarat dari Peubah Penjelas Nilai Mutu Metode Statistika II ..........................
15
4.
Peluang Bersyarat dari Peubah Penjelas Nilai Mutu Teori Statistika I ...............................
15
5.
Peluang Bersyarat dari Peubah Penjelas Nilai Mutu Teori Statistika II ..............................
15
6.
Peluang Bersyarat dari Peubah Penjelas Nilai Mutu Metode Penarikan Contoh ................
16
7.
Peluang Bersyarat dari Peubah Penjelas Nilai Mutu Perancangan Percobaan ....................
16
8.
Struktur Tree Augmented Naive Bayes yang diperoleh pada Klasifikasi Nilai Mutu Ujian
Komprehensif......................................................................................................................
16
viii
PENDAHULUAN
TINJAUAN PUSTAKA
Latar Belakang
Ujian Komprehensif
Ujian Komprehensif merupakan salah satu
mata kuliah wajib bagi mahasiswa tingkat
akhir Departemen Statistika Institut Pertanian
Bogor.
Kegagalan
mahasiswa
dalam
menghadapi Ujian Komprehensif dapat
menghambat proses kelulusan mahasiswa,
sehingga mahasiswa yang bersangkutan akan
membutuhkan waktu yang lebih lama untuk
menyelesaikan studinya di Departemen
Statistika. Oleh karena itu, Departemen
Statistika IPB perlu mengetahui potensi
kelulusan mahasiswa agar dapat melakukan
tindakan-tindakan yang dapat meminimalisasi
kegagalan
mahasiswa
dalam
Ujian
Komprehensif.
Salah satu cara yang dapat ditempuh
untuk
mengetahui
potensi
kelulusan
mahasiswa adalah dengan melakukan proses
klasifikasi nilai mutu Ujian Komprehensif
mahasiswa. Melalui pengklasifikasian ini, nilai
mutu Ujian Komprehensif yang akan
diperoleh mahasiswa menjadi dapat diprediksi.
Simple naive Bayesian merupakan salah
satu algoritma pengklasifikasian objek yang
berdasarkan pada penerapan Teorema Bayes
dengan menggunakan asumsi bahwa peubahpeubah penjelas yang digunakan sebagai dasar
pengklasifikasian bersifat saling bebas.
Pada penerapannya, asumsi kebebasan
antar-peubah penjelas ini sering tidak
terpenuhi, sehingga berkembanglah suatu
metode pengklasifikasian semi naive Bayesian
yang dibangun untuk mengurangi pengaruh
ketakbebasan antar peubah penjelas, yang
diharapkan dapat meningkatkan akurasi
dugaan (ketepatan klasifikasi) dari simple
naive Bayesian classifier.
Ujian Komprehensif merupakan ujian
yang diadakan secara tertulis untuk mengukur
pemahaman mahasiswa mengenai keterkaitan
antar berbagai mata kuliah pokok bidang
statistika yang mencakup Metode Statistika I
dan II, Teori Statistika I dan II, Perancangan
Percobaan, serta Metode Penarikan Contoh
(Dit. AJMP-IPB, 2004).
Tujuan
Tujuan yang ingin dicapai dalam penelitian
ini antara lain :
1. Memperkenalkan metode Semi Naive
Bayesian sebagai salah satu metode
pengklasifikasian objek.
2. Membandingkan metode Simple Naive
Bayesian dan Semi Naive Bayesian
(deleting attributes, joining attributes, dan
tree augmented naive Bayesian) dalam
kemampuan mengklasifikasikan nilai mutu
Ujian
Komprehensif
mahasiswa
Departemen Statistika IPB.
Simple Naive Bayesian (SNB)
Simple
naive
Bayesian
classifier
merupakan salah satu metode pengklasifikasi
berpeluang sederhana yang berdasarkan pada
penerapan Teorema Bayes dengan asumsi
antar peubah penjelas saling bebas (Wikipedia,
2008).
Kaidah Peluang Bayes
Teorema Bayes yang dibangun oleh
Thomas Bayes, seorang matematikawan dan
teologiawan Inggris abad 18, dipublikasikan
untuk pertama kalinya pada tahun 1763.
Dalil Bayes menyatakan bahwa jika U
suatu ruang contoh dan {A1, ..., An} merupakan
sekatan U dengan P(Ai) ≠ 0, i = 1,..., n; Ai ∩ Aj
= Ø untuk i ≠ j, dan B suatu kejadian pada U
dengan P(B) ≠ 0, maka secara matematis,
kaidah peluang Bayes dapat dituliskan sebagai
berikut:
P( Ai | B)
P( Ai B)
P( B | Ai ) P( Ai )
n
P( B)
P( A ) P( B | A )
i 1
i
i
(Nasoetion & Rambe, 1984).
Pada penelitian ini, kejadian Ai merupakan
kejadian seorang mahasiswa Statistika IPB
masuk dalam kelas ke-i (kejadian mahasiswa
Statistika IPB mendapatkan nilai mutu Ujian
Komprehensif A, B, C, atau D), sedangkan B
adalah karakteristik mahasiswa tersebut, yang
dalam penelitian ini merupakan karakteristik
multi-variables. Misalnya, kejadian B adalah
kejadian seorang mahasiswa Statistika IPB
mendapatkan nilai mutu Metode Statistika I =
A, nilai mutu Metode Statistika II = A, nilai
mutu Teori Statistika I = A, dan seterusnya.
Jika nilai P(Ai | B) dapat diperoleh untuk
semua i = 1, 2, …, n, maka mahasiswa
tersebut akan dikategorikan masuk kelas ke-k
(1 ≤ k ≤ n) jika peluang masuk kelas ke-k
adalah yang paling besar, atau
P(Ak | B) = arg max P(B | Ai) P(Ai)
1
Hal
tersebut
dapat
terjadi
karena
memaksimumkan P(Ai|B) sama dengan
memaksimumkan P(B|Ai) P(Ai).
Nilai P(Ai) dapat diduga menggunakan
peluang priornya, yaitu frekuensi relatifnya.
Dalam penelitian ini, P(Ai) adalah proporsi
mahasiswa Departemen Statistika IPB pada
setiap
kategori
nilai
mutu
Ujian
Komprehensif. Sedangkan
P(B|Ai) dapat
diketahui dengan mencari frekuensi relatif
kejadian B dengan syarat Ai (Sartono, 2007).
Asumsi naive
Telah disebutkan bahwa B adalah kejadian
multi peubah. Kalau diandaikan B terdiri atas
p buah peubah yaitu B1, B2, …, Bp maka
P(B | Ai) = P(B1, B2, …, Bp | Ai).
Pada tahap inilah asumsi yang naif digunakan,
yaitu antar kejadian atau peubah Bi memiliki
sifat saling bebas. Asumsi ini berimplikasi
pada hasil bahwa
P(B | Ai) = P(B1, B2, …, Bp | Ai)
= P(B1 | Ai) P(B2 | Ai) … P(Bp | Ai)
(Sartono, 2007).
Pada kasus seluruh Bi diskret dan memiliki
mi buah macam nilai, mendapatkan P(B1 | Ai)
dapat dilakukan dengan cara mengisolasi data
yang memiliki kelas Ai. Kemudian
n(bi Ai )
P( Bi bi | Ai )
n( Ai )
P(Bi=bi | Ai = ai) dapat bernilai 0, sehingga
peluang objek yang memliki peubah Bi=bi
masuk ke kelas ai akan selalu bernilai 0. Hal
ini akan berakibat kurang baik pada hasil
klasifikasi. Akan lebih baik jika P(Bi=bi | Ai =
ai) ini diberi nilai yang sangat kecil.
Laplace
adjusment:
Teknik
untuk
menghindari nilai peluang sebesar 0 atau 1,
sering
disarankan
menggunakan
nilai
termuluskan
n(bi Ai ) 1
P( Bi bi | Ai )
n( Ai ) mi
Semi Naive Bayesian
Metode Semi Naive Bayesian secara garis
besar dapat dibagi dalam dua kelompok.
Kelompok pertama membangun simple naive
Bayesian dengan menggunakan sekumpulan
peubah penjelas baru yang dapat dihasilkan
dari proses deleting attributes dan joining
attributes. Kelompok kedua membangun
simple naive Bayesian dengan membuat
struktur garis penghubung secara jelas di
antara
peubah-peubah
penjelas
yang
menunjukkan
hubungan
ketidakbebasan
(saling mempengaruhi) antar peubah penjelas
(Zheng & Webb, 2005).
Pada penelitian ini, metode semi naive
Bayesian yang digunakan adalah deleting
attributes, joining attributes, dan tree
augmented naive Bayesian.
Deleting Attributes
Zheng & Webb (2005) menjelaskan bahwa
ada dua pendekatan yang dapat digunakan
dalam deleting attributes, yaitu Backwards
Sequential Elimination (BSE) dan Forward
Sequential Selection (FSS).
Baik BSE maupun FSS memiliki tujuan
yang sama, yaitu memilih/menentukan
himpunan bagian dari peubah penjelas yang
dapat menyebabkan terjadinya peningkatan
akurasi terbesar dari simple naive Bayesian.
BSE diawali dengan menggunakan
keseluruhan set peubah penjelas, kemudian
dilakukan proses eliminasi peubah, yang
proses pengeliminasian peubah tersebut dapat
menyebabkan terjadinya peningkatan akurasi
terbesar. Sedangkan FSS menggunakan cara
yang berlawanan dengan BSE, yaitu diawali
dengan set peubah penjelas yang kosong,
kemudian dilakukan proses penambahan
peubah yang dapat menyebabkan terjadinya
peningkatan akurasi paling besar. Baik proses
eliminasi maupun penambahan peubah terus
dilakukan hingga tidak ada lagi peningkatan
akurasi yang dapat terjadi.
Himpunan bagian dari peubah-peubah
yang terpilih diasumsikan saling bebas dan
dinotasikan sebagai Atts = {Bg1, ..., Bgh}.
Kaidah klasifikasi pada BSE dan FSS
dilakukan dengan memilih
gh
arg max P(ai ) P(b j | ai )
j g1
ai
Algoritma BSE adalah sebagai berikut:
1. Diawali dengan proses klasifikasi simple
naive Bayesian dengan menggunakan
seluruh peubah penjelas.
( P0 = p adalah banyaknya peubah penjelas
mula-mula ; P = P0 ; n = p-1; i = 1).
2. Hitung akurasi dugaan klasifikasi yang
dihasilkan, notasikan sebagai C0.
3. Tentukan kombinasi n peubah penjelas
yang mungkin terbentuk dari p peubah
penjelas yang tersedia dengan cara
mengeliminasi sebuah peubah penjelas.
4. Lakukan proses klasifikasi simple naive
Bayesian untuk setiap kombinasi peubah
penjelas yang telah terbentuk pada langkah
2
ketiga serta hitung akurasi dugaan
klasifikasinya.
5. Tentukan kombinasi peubah penjelas yang
menghasilkan tingkat akurasi dugaan
terbesar. Notasikan tingkat akurasi dugaan
klasifikasi terbesar tersebut sebagai Ci.
6. Bandingkan Ci dengan C0 :
Jika Ci ≤ C0, proses eliminasi peubah
berhenti/selesai.
Jika Ci > C0, kembali ke langkah tiga untuk
melanjutkan proses eliminasi peubah dari n
peubah penjelas yang diperoleh pada
langkah lima dengan menetapkan C0 = Ci ;
n = n-1; P = P-1; i = i +1.
7. Proses eliminasi peubah penjelas berhenti
jika semua peubah penjelas sudah keluar/
sudah dieliminasi.
Algoritma FSS adalah sebagai berikut:
1. Diawali dengan set peubah penjelas
kosong.
(P0 = 0 adalah banyaknya peubah penjelas
mula-mula; n = P0+2; i = 1 ).
2. Tambahkan satu peubah penjelas dan
lakukan proses klasifikasi simple naive
Bayesian dengan menggunakan satu
peubah penjelas untuk setiap peubah
penjelas yang tersedia.
3. Tentukan
peubah
penjelas
yang
menghasilkan tingkat akurasi dugaan
terbesar. Notasikan tingkat akurasi dugaan
terbesar tersebut sebagai C0.
4. Tambahkan kembali satu peubah penjelas
sebagai dasar klasifikasi, lalu tentukan
kombinasi n peubah penjelas yang mungkin
terbentuk dari p peubah penjelas yang
tersedia. Kombinasi harus mengandung
peubah penjelas yang diperoleh pada
langkah tiga.
5. Lakukan kembali proses klasifikasi simple
naive Bayesian untuk setiap kombinasi
peubah penjelas yang telah terbentuk pada
langkah empat serta hitung akurasi dugaan
klasifikasinya.
6. Tentukan kombinasi peubah penjelas pada
langkah empat yang menghasilkan tingkat
akurasi dugaan terbesar. Notasikan tingkat
akurasi dugaan terbesar tersebut sebagai Ci.
7. Bandingkan Ci dengan C0 :
Jika Ci ≤ C0, proses penambahan peubah
berhenti/selesai.
Jika Ci > C0, kembali ke langkah empat
untuk melanjutkan proses penambahan
peubah dari n peubah penjelas yang
diperoleh pada langkah enam dengan
menetapkan C0 = Ci ; n = n+1; i = i+1.
8. Proses penambahan peubah penjelas
berhenti jika semua peubah penjelas yang
tersedia sudah masuk/sudah ditambahkan.
Backward Sequential Elimination and
Joining (BSEJ)
Menciptakan susunan peubah penjelas baru
dengan cara menggabungkan beberapa peubah
penjelas yang tidak saling bebas merupakan
pendekatan lain untuk memenuhi asumsi
kebebasan antar peubah penjelas.
Pada dasarnya, BSEJ memiliki tahapan
yang mirip dengan BSE, yaitu mengeliminasi
peubah penjelas secara bertahap, dimana
proses pengeliminasian peubah penjelas
tersebut dapat menyebabkan terjadinya
peningkatan akurasi prediksi klasifikasi paling
besar. Adapun yang membedakannya dengan
BSE adalah pada proses eliminasi peubah
penjelas. Pada BSEJ, eliminasi peubah tidak
hanya dilakukan dengan menghilangkan
peubah penjelas, melainkan juga dengan
menggabungkan beberapa peubah penjelas
menjadi satu peubah penjelas yang baru.
Proses penggabungan/penghapusan peubah ini
berhenti jika sudah tidak terjadi
lagi
peningkatan akurasi.
Hasil dari penggabungan peubah yang baru
dinotasikan sebagai JoinAtts = {Joing1, ...,
Joingh}. Sedangkan peubah awal yang belum
digabung atau dieliminasi dinotasikan sebagai
{Bl1, . . . ., Blq}. Klasifikasi pada BSEJ dilakukan
dengan memilih
lq
gh
arg max P ( a i ) P ( join j | a i ) P (br | a i )
j g1
r l1
ai
(Zheng & Webb, 2005).
Algoritma BSEJ adalah sebagai berikut:
1. Diawali dengan proses klasifikasi simple
naive Bayesian dengan menggunakan
seluruh peubah penjelas.
( P0 = p adalah banyaknya peubah penjelas
mula-mula ; P = P0 ; n = p-1; i = 1).
2. Hitung akurasi dugaan klasifikasi yang
dihasilkan, notasikan sebagai C0.
3. Tentukan susunan/kombinasi n peubah
penjelas dari p peubah penjelas yang
tersedia dengan cara mengeliminasi sebuah
peubah penjelas atau menggabungkan dua/
lebih peubah penjelas menjadi sebuah
peubah penjelas baru.
4. Lakukan proses klasifikasi simple naive
Bayesian untuk setiap kombinasi peubah
penjelas yang telah terbentuk pada langkah
ketiga serta hitung akurasi dugaan
klasifikasinya.
3
5. Tentukan kombinasi peubah penjelas yang
menghasilkan tingkat akurasi dugaan
terbesar. Notasikan tingkat akurasi dugaan
klasifikasi terbesar tersebut sebagai Ci.
6. Bandingkan Ci dengan C0 :
Jika Ci ≤ C0, proses eliminasi maupun
penggabungan peubah berhenti/selesai.
Jika Ci > C0, kembali ke langkah tiga untuk
melanjutkan proses eliminasi maupun
penggabungan peubah dari n peubah
penjelas yang diperoleh pada langkah lima
dengan menetapkan C0 = Ci ; n = n-1 ; P =
P-1 ; i = i +1.
7. Proses eliminasi atau penggabungan
peubah penjelas berhenti jika semua
peubah penjelas sudah keluar/sudah
dieliminasi.
Gambar 1 merupakan struktur Bayesian
Networks dari simple naive Bayesian. Dari
Gambar 1 terlihat bahwa antar peubah penjelas
tidak terdapat hubungan saling mempengaruhi.
Sedangkan dari Gambar 2 dapat dilihat
bahwa setiap peubah penjelas dipengaruhi
oleh paling banyak satu selain dari peubah
kelas. Parents dari setiap peubah penjelas Bi
dinotasikan sebagai π(Bi). Klasifikasi pada
TAN dilakukan dengan memilih
p
arg max P (a i ) P (b j | ai , (b j ))
j 1
ai
Gambar 1: Struktur simple naive Bayesian
Algoritma TAN adalah sebagai berikut:
1. Diawali dengan proses klasifikasi simple
naive Bayesian dengan menggunakan
seluruh peubah penjelas.
( P0 = p adalah banyaknya peubah penjelas
mula-mula dan P1 = 0 adalah banyaknya
peubah penjelas yang memiliki parents
selain peubah kelas ; i = 1).
2. Hitung akurasi dugaan klasifikasi yang
dihasilkan, notasikan sebagai C0.
3. Tentukan semua struktur TAN (terdiri dari
p peubah penjelas) yang mungkin terbentuk
jika banyaknya peubah penjelas yang
memiliki parents selain peubah
kelas
adalah P1+1.
4. Lakukan proses klasifikasi simple naive
Bayesian untuk setiap struktur TAN yang
telah terbentuk pada langkah ketiga serta
hitung akurasi dugaan klasifikasinya.
5. Tentukan struktur TAN yang menghasilkan
tingkat akurasi dugaan terbesar. Notasikan
tingkat akurasi dugaan klasifikasi terbesar
tersebut sebagai Ci.
6. Bandingkan Ci dengan C0 :
Jika Ci ≤ C0, proses penentuan struktur
TAN berhenti/selesai.
Jika Ci > C0, kembali ke langkah tiga untuk
melakukan proses penentuan struktur TAN
baru (melanjutkan dari struktur TAN yang
diperoleh pada langkah lima) dengan
menetapkan C0 = Ci ; P1 = P1+1 ; i = i +1.
7. Proses penentuan struktur TAN berhenti
jika banyaknya peubah penjelas maksimum
yang bisa memiliki parents sudah
terpenuhi.
A
BAHAN DAN METODE
Tree Augmented Naive Bayesian (TAN)
Berbeda dengan BSE, FSS, dan BSEJ,
yang membangun simple naive Bayesian
dengan menggunakan kumpulan peubah baru
hasil dari proses deleting atau joining, TAN
merupakan suatu teknik pendekatan untuk
mengatasi keterbatasan simple naive Bayesian
dengan cara mengubah struktur simple naive
Bayesian untuk menggambarkan secara jelas
(saling
dari
adanya
ketidakbebasan
mempengaruhi) antar peubah penjelas (Zheng
& Webb, 2005).
Model TAN merupakan bagian dari
keluarga Bayesian networks yang memiliki
syarat bahwa peubah kelas tidak memiliki
parents dan setiap peubah penjelas memiliki
parents yang terdiri dari peubah kelas dan
paling banyak satu peubah penjelas lainnya
(Cerquides & Mantaras, 2003).
Simple naive Bayesian merupakan bentuk
yang paling sederhana dari Bayesian network.
A
B1
B2
Bp
Bahan
B1
B2
Bp
Gambar 2 : Struktur augmented naive Bayes
Bahan penelitian yang digunakan adalah
data nilai 353 mahasiswa Departemen
Statistika IPB angkatan 1998-2004, yang
meliputi nilai mutu Ujian Komprehensif dan
4
nilai mutu beberapa mata kuliah pokok bidang
Statistika, yaitu Metode Statistika I, Metode
Statistika II, Teori Statistika I, Teori Statistika
II, Perancangan Percobaan, dan Metode
Penarikan Contoh.
Metode
Dalam penelitian ini, selain menggunakan
simple naive Bayesian, juga akan dicobakan
metode semi naive Bayesian menggunakan
algoritma (BSE, FSS, BSEJ, dan TAN) dan
indeks asosiasi. Langkah-langkah metode
penelitian adalah sebagai berikut :
1. Melakukan proses cleaning data untuk
menyamakan kode-kode mata kuliah yang
digunakan.
2. Membagi data ke dalam dua bagian. Dari
total data nilai 353 mahasiswa, sebanyak
282 data (80%) dijadikan data in-sample
untuk membangun model dan sisanya
sebanyak 71 data (20%) dijadikan data outsample untuk validasi.
3. Membuat model klasifikasi Simple Naive
Bayesian dan menghitung akurasi dugaan
klasifikasi in-sample dan out-sample.
4. Membuat model klasifikasi Semi Naive
Bayesian dengan menggunakan algoritma
BSE, FSS, BSEJ, dan TAN.
5. Membuat model klasifikasi Semi Naive
Bayesian dengan menggunakan indeks
asosiasi.
6. Menghitung tingkat kesalahan klasifikasi
dengan mempertimbangkan jenis kesalahan
yang terjadi. Jenis kesalahan prediksi yang
jauh dari aktual diberi bobot/koefisien
pengali yang lebih besar. Selain itu,
dihitung juga korelasi antara prediksi
dengan aktual untuk setiap metode
klasifikasi semi naive Bayesian dan SNB.
7. Membandingkan akurasi dugaan klasifikasi
Semi Naive Bayesian, baik yang
menggunakan algoritma maupun indeks
asosiasi,
terhadap
akurasi
dugaan
klasifikasi simple naive Bayesian.
Perangkat lunak yang digunakan dalam
penelitian ini adalah Microsoft Excel, SPSS
13.0 for Windows, dan MINITAB 14.
HASIL DAN PEMBAHASAN
Deskripsi Data Nilai Mahasiswa
Pengklasifikasian nilai mutu Ujian
Komprehensif
mahasiswa
Departemen
Statistika IPB dilakukan dengan menggunakan
data nilai dari 353 mahasiswa Departemen
Statistika IPB angkatan 1998-2004. Data nilai
yang digunakan meliputi nilai mutu dari tujuh
mata kuliah, yaitu Ujian Komprehensif,
Metode Statistika I Metode Statistika II, Teori
Statistika I, Teori Statistika II, Perancangan
Percobaan, serta Metode Penarikan Contoh.
Nilai mutu Ujian Komprehensif merupakan
peubah respon, sedangkan nilai mutu dari
keenam mata kuliah lainnya merupakan
peubah penjelas. Peubah respon dan peubah
penjelas yang digunakan dalam penelitian ini
masing-masing bersifat kategorik.
Daftar peubah penjelas dan kategori dari
masing-masing peubah penjelas disajikan pada
Tabel 1. Penentuan kategori dari setiap peubah
penjelas mengikuti kaidah bahwa kategori dari
setiap peubah penjelas yang banyak
individunya tidak mencapai 5% dari total
seluruh individu, akan digabung dengan
kategori terdekat dari peubah penjelas yang
sama.
Sedangkan Gambar 3 menunjukkan pola
pergerakan rata-rata nilai mata kuliah Ujian
Komprehensif, Metode Statistika I, Metode
Statistika II, Teori Statistika I, Teori Statistika
II, Perancangan Percobaan, serta Metode
Penarikan Contoh dari mahasiswa Departemen
Statistika IPB angkatan 1998-2004. Terlihat
bahwa Teori Statistika I dan Teori Statistika II
memiliki profil yang sangat mirip. Selama
kurun waktu tersebut dapat dilihat bahwa mata
kuliah Teori Statistika I dan Teori Statistika II
memiliki rata-rata nilai yang cenderung berada
di bawah rata-rata nilai mata kuliah lainnya.
Mata kuliah lain yang memiliki kemiripan
profil adalah Metode Statistika II, Metode
Penarikan Contoh, dan Ujian Komprehensif.
Ketiga mata kuliah tersebut memiliki rata-rata
nilai yang cenderung meningkat pada tahun
angkatan 1998-2001, kemudian menurun pada
tahun angkatan 2001-2002, dan sejak tahun
angkatan 2002-2004 kembali mengalami
peningkatan. Sedangkan mata kuliah Metode
Statistika I dan Perancangan Percobaan
memiliki profil yang berbeda dengan mata
kuliah lainnya. Perancangan Percobaan terlihat
cenderung memiliki rata-rata nilai yang lebih
tinggi dibandingkan seluruh mata kuliah
lainnya. Namun, sama seperti Metode
Statistika II, Perancangan Percobaan juga
cenderung mengalami perubahan rata-rata
nilai yang cukup besar pada setiap pergantian
tahun angkatan mahasiswa.
Koefisien Korelasi (indeks asosiasi) antar
peubah
penjelas
pada
Lampiran
1
menunjukkan bahwa antar peubah penjelas
(nilai mutu dari enam mata kuliah) tidak saling
bebas. Koefisien korelasi yang seluruhnya
bernilai positif memiliki arti bahwa seorang
5
mahasiswa yang memiliki nilai mutu yang
baik pada satu jenis mata kuliah akan
cenderung memiliki nilai mutu yang baik pula
pada mata kuliah yang lainnya.
Selain itu, tabel koefisien korelasi pada
Lampiran 1 juga menunjukkan bahwa setiap
peubah penjelas memiliki asosiasi yang cukup
kuat terhadap peubah respon. Indeks asosiasi
terbesar antar peubah penjelas terjadi di antara
Metode Statistika II dan Metode Penarikan
Contoh. Sedangkan peubah penjelas yang
memiliki asosiasi terkuat dengan peubah
respon adalah Metode Penarikan Contoh.
RATA-RATA NILAI MATA KULIAH MAHASISWA DEPARTEMEN
STATISTIKA IPB
4
3.75
3.5
Rata-rata Nilai Mutu
3.25
MET ST AT I
3
MET ST AT II
2.75
TS I
2.5
T S II
MPC
2.25
RANCOB
2
KOMPRE
1.75
1.5
1.25
1
1998
1999
2000
2001
2002
2003
2004
Tahun Angkatan Mahasiswa
Gambar 3. Grafik Nilai Rata-Rata Mata Kuliah Ujian Komprehensif dan Mata Kuliah Pokok Mahasiswa
Departemen Statistika IPB
Tabel 1. Daftar Kategori dari Peubah Penjelas
Peubah Penjelas
Kategori
A
Nilai mutu Metode Statistika I
B
(mst1)
CD
A
Nilai mutu Metode Statistika II
B
(mst2)
CD
A
B
Nilai mutu Teori Statistika I
(ts1)
C
D
A
B
Nilai mutu Teori Statistika II
(ts2)
C
DE
A
Nilai mutu Metode Penarikan
B
Contoh (mpc)
CD
A
Nilai mutu Perancangan
B
Percobaan (rcb)
CD
Klasifikasi Menggunakan Simple Naive
Bayesian
Tahapan dalam penentuan klasifikasi nilai
mutu Ujian Komprehensif dengan metode
simple naive Bayesian :
1. Menentukan peluang prior dari masingmasing kategori nilai mutu Ujian
Komprehensif.
Tabel 2. Peluang Prior Ujian Komprehensif
Nilai mutu Ujian
Peluang
N
Komprehensif
Prior
A
33
0.117
B
98
0.348
C
137
0.486
D
14
0.05
Total
282
1
2. Menentukan peluang bersyarat dari setiap
kategori peubah penjelas. Lampiran 2-7
menyajikan nilai peluang bersyarat dari
enam peubah penjelas.
3. Menentukan peluang bersama yang
diperoleh dengan mengalikan peluang prior
6
pada tahap 1 dan peluang bersyarat pada
tahap 2.
4. Menentukan kaidah klasifikasi berdasarkan
nilai peluang bersama yang terbesar.
Dengan menerapkan tahapan di atas, akan
diperoleh prediksi klasifikasi nilai mutu Ujian
Komprehensif dari masing-masing mahasiswa
Departemen Statistika IPB. Tabel klasifikasi
nilai mutu Ujian Komprehensif yang
dihasilkan adalah sebagai berikut:
Contoh, dan nilai mutu Perancangan
Percobaan.
Tabel klasifikasi nilai mutu Ujian
Komprehensif yang dihasilkan dari penerapan
algoritma BSE adalah sebagai berikut:
Tabel 5. Ketepatan Klasifikasi Data In-Sample
BSE
Prediksi
A
Aktual A
B
Tabel 3. Ketepatan Klasifikasi Data In-sample
SNB
C
Prediksi
Aktual A
B
C
D
Total
A
23
8.2%
14
5.0%
5
1.8%
0
.0%
42
B
C
D
8
2.8%
39
14%
25
8.9%
0
.0%
72
2
.7%
45
16%
103
37%
10
3.5%
160
0
.0%
0
.0%
4
1.4%
4
1.4%
8
Total
D
33
98
137
Total
A
Aktual A
B
C
Prediksi
B
C
D
Total
A
B
C
D
2
2.8%
1
1.4%
1
1.4%
0
.0%
4
2
2.8%
11
15%
10
14%
0
.0%
23
1
1.4%
18
25%
21
30%
1
1.4%
41
0
.0%
0
.0%
3
4.2%
0
.0%
3
Total
D
5
30
35
1
71
Tingkat ketepatan klasifikasi (Correct
Classification Rate) yang dihasilkan oleh
metode SNB untuk data in-sample sebesar
sedangkan
tingkat
ketepatan
59.93%,
klasifikasi untuk data out-sample sebesar
47.89%.
Klasifikasi Menggunakan Metode Semi
Naive Bayesian
Backwards Sequential Elimination (BSE)
Penerapan algoritma BSE menghasilkan
susunan peubah penjelas baru yang merupakan
himpunan bagian dari enam peubah penjelas
pada simple naive Bayesian yang dapat
menyebabkan terjadinya peningkatan akurasi
dari metode simple naive Bayesian. Susunan
peubah penjelas baru tersebut terdiri dari tiga
peubah penjelas, yaitu nilai mutu Metode
Statistika II, nilai mutu Metode Penarikan
6
2.1%
42
14.9%
21
7.4%
1
.4%
70
3
1.1%
47
16.7%
109
38.7%
13
4.6%
172
Total
33
98
137
14
282
Prediksi
14
282
C
Tabel 6. Ketepatan Klasifikasi Data Out-Sample
BSE
Tabel 4. Ketepatan Klasifikasi Data Out-Sample
SNB
Aktual A
24
8.5%
9
3.2%
7
2.5%
0
.0%
40
B
Total
2
2.8%
4
5.6%
3
4.2%
0
.0%
9
B
C
0
.0%
8
11.3%
4
5.6%
0
.0%
12
3
4.2%
18
25.4%
28
39.4%
1
1.4%
50
Total
5
30
35
1
71
Tingkat ketepatan klasifikasi yang
dihasilkan oleh metode BSE untuk data insample sebesar 62.06%, sedangkan tingkat
ketepatan klasifikasi untuk data out-sample
sebesar 53.52%.
Forward Sequential Selection (FSS)
Sama halnya dengan algoritma BSE,
penerapan algoritma FSS juga menghasilkan
susunan peubah penjelas baru yang merupakan
himpunan bagian dari enam peubah penjelas
yang digunakan pada simple naive Bayesian.
Susunan peubah penjelas yang baru tersebut
dipilih karena dapat meningkatkan akurasi dari
metode simple naive Bayesian.
Susunan peubah penjelas baru yang
terbentuk dari penerapan algoritma FSS
tersebut terdiri dari lima peubah penjelas,
yaitu nilai mutu Metode Statistika I, nilai mutu
Metode Statistika II, nilai mutu Teori
Statistika II, nilai mutu Metode Penarikan
Contoh, dan nilai mutu Perancangan
Percobaan. Sedangkan Tabel klasifikasi nilai
mutu Ujian Komprehensif yang dihasilkan
adalah sebagai berikut:
7
Tabel 7. Ketepatan Klasifikasi Data In-Sample
FSS
Prediksi
Prediksi
A
Aktual A
B
C
D
Total
23
8.2%
14
5.0%
5
1.8%
0
.0%
42
B
C
6
2.1%
40
14.2%
22
7.8%
0
.0%
68
4
1.4%
44
15.6%
110
39.0%
14
5.0%
172
Total
Aktual A
98
B
137
C
14
D
282
B
C
D
Total
2
2.8%
1
1.4%
1
1.4%
0
.0%
4
Total
8
2.8%
0
.0%
0
.0%
0
.0%
8
B
6
2.1%
71
25.2%
4
1.4%
1
.4%
82
C
19
6.7%
27
9.6%
133
47.2%
13
4.6%
192
B
C
1
1.4%
11
15.5%
7
9.9%
0
.0%
19
2
2.8%
18
25.4%
27
38.0%
1
1.4%
48
Total
A
5
Aktual A
30
B
35
C
1
D
71
Total
33
98
137
14
282
Tabel 10. Ketepatan Klasifikasi Data Out-Sample
BSEJ
Prediksi
Prediksi
Aktual A
A
33
Tabel 8. Ketepatan Klasifikasi Data Out-Sample
FSS
A
Tabel 9. Ketepatan Klasifikasi Data In-Sample
BSEJ
Total
1
1.4%
0
.0%
0
.0%
0
.0%
1
B
C
1
1.4%
9
12.7%
6
8.5%
0
.0%
16
3
4.2%
21
29.6%
29
40.8%
1
1.4%
54
Total
5
30
35
1
71
Tingkat ketepatan klasifikasi yang
dihasilkan oleh metode FSS untuk data insample sebesar 61.35%, sedangkan tingkat
ketepatan klasifikasi untuk data out-sample
sebesar 56.34%.
Tingkat ketepatan klasifikasi yang
dihasilkan oleh metode BSEJ untuk data insample sebesar 75.18%, sedangkan tingkat
ketepatan klasifikasi untuk data out-sample
sebesar 54.93%.
Backward Sequential Elimination and
Joining (BSEJ)
Penerapan algoritma BSEJ menciptakan
susunan peubah penjelas baru yang terdiri dari
hanya satu peubah penjelas baru hasil
penggabungan keenam peubah penjelas pada
simple naive Bayesian. Jika peubah penjelas
baru yang dihasilkan dari algoritma BSEJ
adalah join, maka join ini merupakan
penggabungan dari keenam peubah penjelas
pada simple naive Bayesian. Jika seorang
mahasiswa memiliki nilai mutu Metode
Statistika I = A, nilai mutu Metode Statistika
II = A, nilai mutu Teori Statistika I = A, nilai
mutu Teori Statistika II = A, nilai mutu
Metode Penarikan Contoh = A, dan nilai mutu
Perancangan Percobaan = A, mahasiswa
tersebut akan memiliki peubah penjelas join =
AAAAAA.
Tabel klasifikasi nilai mutu Ujian
Komprehensif yang dihasilkan berdasarkan
algoritma BSEJ adalah sebagai berikut:
Tree Augmented Naive Bayesian (TAN)
Penerapan algoritma TAN menghasilkan
perubahan struktur simple naive Bayesian
yang menggambarkan adanya ketidakbebasan
(saling mempengaruhi) antar peubah penjelas.
Peubah penjelas yang terbentuk masih terdiri
dari enam peubah penjelas, yaitu nilai mutu
Metode Statistika I, nilai mutu Metode
Statistika II, nilai mutu Teori Statistika I, nilai
mutu Teori Statistika II, nilai mutu Metode
Penarikan Contoh, dan nilai mutu Perancangan
Percobaan. Perbedaannya adalah dalam
penentuan peluang bersyarat setiap kategori
dari peubah penjelas nilai mutu Teori
Statistika I, nilai mutu Teori Statistika II, dan
nilai mutu Perancangan Percobaan, yang
selain dipengaruhi oleh peubah kelas juga
dipengaruhi oleh salah satu peubah penjelas
lain. Nilai mutu Teori Statistika I dan nilai
mutu Teori Statistika II sama-sama
dipengaruhi oleh nilai mutu Metode Statistika
I, sedangkan nilai mutu Perancangan
Percobaan dipengaruhi oleh nilai mutu Teori
Statistika I. Struktur tree augmented naive
8
Bayesian yang dihasilkan dapat dilihat pada
Lampiran 8.
Tabel klasifikasi nilai mutu Ujian
Komprehensif yang dihasilkan berdasarkan
algoritma TAN adalah sebagai berikut:
Tabel 11. Ketepatan Klasifikasi Data In-Sample
TAN
Prediksi
Aktual A
B
C
D
Total
A
22
7.8%
9
3.2%
3
1.1%
0
.0%
34
B
C
D
6
2.1%
53
19%
21
7.4%
0
.0%
80
5
1.8%
36
13%
112
40%
10
3.5%
163
0
.0%
0
.0%
1
.4%
4
1.4%
5
Total
33
98
137
14
282
Tabel 12. Ketepatan Klasifikasi Data Out-Sample
TAN
Prediksi
Aktual A
B
C
D
Total
A
B
C
D
2
2.8%
1
1.4%
1
1.4%
0
.0%
4
2
2.8%
10
14%
7
9.9%
0
.0%
19
1
1.4%
19
27%
24
34%
1
1.4%
45
0
.0%
0
.0%
3
4.2%
0
.0%
3
Tabel 13. Perbandingan Tingkat Kesalahan
Klasifikasi SNB dan Semi Naive Bayesian
Metode
Misclassification
Klasifikasi
in-sample
out-sample
SNB
40.07%
52.11%
BSE
37.94%
46.48%
FSS
38.65%
43.66%
BSEJ
24.82%
45.07%
TAN
32.27%
49.30%
Total
5
30
35
1
71
Tingkat ketepatan klasifikasi yang
dihasilkan oleh metode TAN untuk data insample sebesar 67.73%, sedangkan tingkat
ketepatan klasifikasi untuk data out-sample
sebesar 50.70%.
Perbandingan Metode SNB, BSE, FSS,
BSEJ dan TAN
Metode klasifikasi dinyatakan memiliki
akurasi yang baik jika memiliki tingkat
kesalahan klasifikasi yang minimum. Tingkat
kesalahan klasifikasi yang dihasilkan oleh
metode klasifikasi SNB dan semi naive
Bayesian disajikan pada Tabel 13.
Dari Tabel 13 terlihat bahwa metode
semi naive Bayesian efektif digunakan untuk
meningkatkan akurasi dari metode simple
naïve Bayesian. Namun, peningkatan akurasi
yang dihasilkan belum tentu merupakan
peningkatan akurasi yang terbesar (maksimal).
Hal ini ditunjukkan dengan adanya perbedaan
tingkat kesalahan klasifikasi yang dihasilkan
oleh BSE dan FSS.
Secara keseluruhan dapat dilihat bahwa
keempat metode semi naive Bayesian
memiliki tingkat kesalahan klasifikasi yang
lebih kecil dibandingkan dengan metode
simple naive Bayesian, baik untuk data insample maupun out-sample.
Adanya perbedaan tingkat kesalahan
klasifikasi yang cukup jauh antara data insample dan out-sample disebabkan oleh
ukuran data yang digunakan tidak cukup
besar, sehingga berakibat pada nilai peluang
dari setiap kategori peubah penjelas maupun
peubah respon yang belum stabil.
Kesalahan prediksi klasifikasi yang
dihasilkan untuk data in-sample, baik dalam
simple naive Bayesian maupun dalam semi
naive Bayesian, didominasi oleh jenis
kesalahan prediksi yang tidak jauh dari nilai
data aktual, misalnya saja kebanyakan
mahasiswa yang memiliki nilai mutu Ujian
Komprehensif A diprediksi akan mendapat
nilai mutu Ujian Komprehensif antara A-B.
Begitu pula dengan mahasiswa yang memiliki
nilai mutu Ujian Komprehensif aktual B,
sebagian besar akan diprediksi mendapat nilai
mutu Ujian Komprehensif B-C. Mahasiswa
yang memiliki nilai mutu Ujian Komprehensif
aktual C juga sebagian besar akan diprediksi
mendapat nilai mutu Ujian Komprehensif B-C.
Sedangkan mahasiswa yang memiliki nilai
mutu Ujian Komprehensif aktual D sebagian
besar akan diprediksi mendapat nilai mutu
Ujian Komprehensif C.
Penerapan Metode Semi Naive Bayesian
Menggunakan Indeks Asosiasi
Selain menggunakan algoritma BSE, FSS,
dan BSEJ, metode semi naive Bayesian
(deleting attributes dan joining attributes)
dapat diterapkan dengan menggunakan indeks
asosiasi (korelasi). Tahapan metode semi naive
Bayesian dalam mengklasifikasikan nilai mutu
Ujian Komprehensif menggunakan indeks
asosiasi (korelasi) adalah sebagai berikut :
1. Menggerombolkan keenam mata kuliah
yang menjadi peubah penjelas. Indeks
9
asosiasi
digunakan
sebagai
ukuran
kemiripan antar dua mata kuliah (peubah
penjelas). Banyaknya gerombol yang
terbentuk menunjukkan banyaknya peubah
penjelas yang akan digunakan.
2. Deleting attributes: Ambil satu mata kuliah
sebagai peubah penjelas dari seiap
gerombol yang terbentuk. Kemudian
lakukan proses klasifikasi SNB. Ulangi
langkah 2 ini untuk semua susunan
kombinasi peubah penjelas yang mungkin.
Kombinasi peubah penjelas yang dipilih
adalah kombinasi peubah penjelas yang
menghasilkan tingkat ketepatan klasifikasi
terbesar.
Joining attributes: Gabungkan setiap
peubah penjelas (mata kuliah) yang berada
dalam satu gerombol, sehingga seolah-olah
membentuk peubah penjelas baru yang
banyaknya sesuai dengan banyaknya
gerombol yang terbentuk pada langkah 1.
Kemudian lakukan proses klasifikasi SNB.
Setelah melakukan eksplorasi terhadap
beberapa metode perbaikan jarak (pautan),
digunakan metode pautan Complete Linkage
untuk menggerombolkan peubah penjelas
dengan ukuran kedekatan adalah korelasi antar
peubah penjelas. Metode pautan Complete
Linkage tersebut menghasilkan tiga gerombol.
Gerombol pertama terdiri dari Metode
Statistika I, Teori Statistika I, dan Teori
Statistika II. Gerombol kedua terdiri dari
Metode Statistika II dan M