Penerapan algoritma Naive Bayes untuk memprediksi nilai ujian nasional siswa SMA berdasarkan nilai rapor dan nilai uji coba nasional : studi kasus pada SMA Kristen Bentara Wacana - USD Repository

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

PENERAPAN ALGORITMA NAÏVE BAYES
UNTUK MEMPREDIKSI NILAI UJIAN NASIONAL SISWA SMA
BERDASARKAN NILAI RAPOR DAN NILAI UJI COBA NASIONAL
(Studi Kasus Pada SMA Kristen Bentara Wacana)

Skripsi

Diajukan untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika

Oleh :
Theresia Edhi Wahyuning Pratiwi
07 5314 027


PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2012

i

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

IMPLEMENTATION OF NAÏVE BAYES ALGORITHM TO PREDICT
THE NATIONAL EXAMINATION GRADES FOR SECONDARY
SCHOOL STUDENTS BASED ON STUDENT EVALUATION
AND NATIONAL TRY OUT GRADES

(Case Study At SMA Kristen Bentara Wacana)

A Thesis

Presented as Partial Fulfillment of the Requirements
To Obtain the Sarjana Komputer Degree
In Study Program of Informatics Engineering

By :
Theresia Edhi Wahyuning Pratiwi
07 5314 027

INFORMATICS ENGINEERING STUDY PROGRAM
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2012

ii


PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI


“ Kau mungkin saja kecewa jika percobaanmu gagal,
Tetapi kau pasti takkan berhasil jika tidak mencoba ”
-Beverly Sills-

“ Tugas di hadapan kita tak pernah sebesar kekuatan
di belakang kita ”
-Anonim-

Karya ini ku persembahkan untuk :
Almarhum Bapak FX. Poerwaka Djati Walujo, S.IP
Ibuku : Margareta Emy Yurida
Kedua Kakakku : Krispina Fitri Prawesti, S.Si
Kornelia Asri Tyas Prasasti, S.E

 terima kasih atas doa, cinta, kasih sayang, dan semangatnya 
v

PLAGIAT
PLAGIATMERUPAKAN

MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

PENERAPAN ALGORITMA NAÏVE BAYES
UNTUK MEMPREDIKSI NILAI UJIAN NASIONAL SISWA SMA
BERDASARKAN NILAI RAPOR DAN NILAI UJI COBA NASIONAL
Studi Kasus Pada SMA Kristen Bentara Wacana

ABSTRAK
Tujuan dari penelitian ini adalah untuk memprediksi nilai Ujian Nasional
(UN) siswa menggunakan algoritma Naïve Bayes. Data yang dipakai untuk

penelitian ini diperoleh dari SMA Bentara Wacana, Muntilan yakni data nilai
rapor, Uji Coba Nasional (UCO), dan Ujian Nasional (UN) siswa sejak tahun
2008-2010. Pengujian dilakukan pada 705 record data dengan menggunakan 3fold cross-validation dan 5-fold cross-validation, sehingga menghasilkan tingkat
keakuratan masing-masing sebesar 67,92% dan 71,11% yang merupakan rata-rata
dari 9 mata pelajaran.
Kata kunci : Naïve Bayes, Ujian Nasional, Cross-validation

vii

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

IMPLEMENTATION OF NAÏVE BAYES ALGORITHM TO PREDICT
THE NATIONAL EXAMINATION GRADES FOR SECONDARY
SCHOOL STUDENTS BASED ON STUDENT EVALUATION
AND NATIONAL TRY OUT GRADES

Case Study At SMA Kristen Bentara Wacana

ABSTRACT
This study aimed to predict students’ National Examination (UN) value using the
Naive Bayes algorithm. Data used were obtained from Bentara Wacana Senior
High School, Muntilan and involved of students’ value of grades, the National
Trial (UCO), and the National Examination (UN) since 2008-2010. Tests had
performed on the 705 recorded data using 3-fold cross-validation and 5-fold
cross-validation methods, resulting each level of accuracy 67,92% and 71,11%
which is an average of nine lesson subjects.
Key words: Naive Bayes, National Examination, Cross-validation

viii

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI


PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

KATA PENGANTAR

Salam Sejahtera,
Puji dan syukur kehadirat Tuhan Allah yang telah menganugerahkan cinta
kasihNya yang melimpah lewat kekuatan, kelancaran dan kemudahan dalam
penulisan skripsi dengan judul “ PENERAPAN ALGORITMA NAÏVE BAYES
UNTUK

MEMPREDIKSI

NILAI


UJIAN

NASIONAL

SISWA

SMA

BERDASARKAN NILAI RAPOR DAN NILAI UJI COBA NASIONAL (Studi
Kasus Pada SMA Bentara Wacana) ”.
Skripsi ini disusun dalam rangka memenuhi salah satu syarat untuk
memperoleh Gelar Sarjana Komputer di Program Studi Teknik Informatika
Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.
Penulisan skripsi ini tidak dapat terselesaikan dengan baik tanpa bantuan
dari berbagai pihak. Oleh karena itu terima kasih yang sebesar-besarnya penulis
sampaikan kepada :
1. Ibu P.H. Prima Rosa, S.Si., M.Sc., selaku Dekan Fakultas Sains dan
Teknologi Universitas Sanata Dharma sekaligus dosen penguji atas kritik
dan saran yang telah diberikan.
2. Ibu Ridowati Gunawan, S.Kom., M.T., selaku Ketua Program Studi

Teknik Informatika sekaligus dosen pembimbing Tugas Akhir yang selalu
sabar dan selalu memberikan semangat, nasihat, dan motivasi penuh
sehingga penulis dapat menyelesaikan Tugas Akhir ini dengan lancar.
3. Bapak Drs. J. Eka Priyatma, M.Sc. selaku dosen penguji atas kritik dan
saran yang telah diberikan.
4. Dosen-dosen Fakultas Sains dan Teknologi Universitas Sanata Dharma
Yogyakarta
5. Pihak sekretariat dan laboran Fakultas Sains dan Teknologi Universitas
Sanata Dharma Yogyakarta

x

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

6. Almarhum Bapak FX. Poerwaka Djati Walujo, S.IP : “…..ini semua aku

persembahkan untuk Bapak….” Dan untuk Ibuku tercinta : Magareta Emy
Yurida. Terima kasih atas kasih sayang, semangat, dan doa yang selalu
mendampingi dan menguatkan setiap langkahku.
7. Kedua kakakku : Krispina Fitri Prawesti, S.Si. dan Kornelia Asri Tyas
Prasasti, SE. Terima kasih atas doa dan motivasinya. Terima kasih juga
untuk kakak iparku mas Ign. Pricher A.N Samane, S.Si, M.Mc yang telah
membatu dalam memberikan doa, ide dan motivasinya.
8. Keponakan tercintaku : Katarina Prisha Syafira Putri Samane. Trima kasih
untuk keceriaannya.
9. Seseorang yang telah memberi warna dalam hidupku Antonius Yunanto
Dwicaksono, S.T. Terima kasih untuk cinta, kasih sayang, doa, dan
motivasinya.
10. Teman-teman kuliah, Ditha, Sari, Ana, Tia, Leona serta teman-teman TI
2007 lainnya atas keceriaan, doa, semangat, dan kebersamaannya.
11. Sahabat-sahabatku : Dodi, Monita, Resti dan Yustina. Terima kasih untuk
doa, dukungan dan kebersamaannya.
12. Semua pihak yang telah memberikan bantuannya hingga terselesaikannya
penulisan skripsi ini.
Akhir kata penulis menyadari sepenuhnya bahwa penulisan skripsi ini
masih jauh dari kesempurnaan. Oleh karena itu, kritik dan saran yang bersifat
membangun sangat penulis harapkan. Semoga skripsi ini dapat bermanfaat bagi
pembaca.

Yogyakarta, 14 Juni 2012
Penulis

xi

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

DAFTAR ISI
HALAMAN JUDUL..................................................................................................... i
HALAMAN JUDUL (INGGRIS) ................................................................................ ii
HALAMAN PERSETUJUAN .................................................................................... iii
HALAMAN PENGESAHAN ......................................................................................iv
HALAMAN PERSEMBAHAN .................................................................................... v
PERNYATAAN KEASLIAN KARYA .......................................................................vi
ABSTRAK ................................................................................................................ vii
ABSTRACT ............................................................................................................. viii
LEMBAR PERSETUJUAN PUBLIKASI ....................................................................ix
KATA PENGANTAR .................................................................................................. x
DAFTAR ISI ............................................................................................................. xii
DAFTAR TABEL....................................................................................................... xv
DAFTAR GAMBAR ................................................................................................. xvi
DAFTAR LAMPIRAN ........................................................................................... xviii
BAB I PENDAHULUAN ............................................................................................. 1
1.1 Latar Belakang .................................................................................................... 1
1.2 Rumusan Masalah................................................................................................ 4
1.3 Tujuan ................................................................................................................. 4
1.4 Batasan Masalah .................................................................................................. 4
1.5 Metodologi Penelitian .......................................................................................... 5
1.6 Sistematika Pembahasan ...................................................................................... 5
BAB II LANDASAN TEORI ....................................................................................... 7
2.1 Ujian Nasional (UN) ............................................................................................ 7
2.2 Buku Rapor ......................................................................................................... 8
2.3 Penambangan Data (Data Mining) ....................................................................... 8
2.4 Teorema Bayes .................................................................................................. 11
2.5 Klasifikasi Naïve Bayes ..................................................................................... 12
2.6 Karakteristik Klasifikasi Naïve Bayes ................................................................ 18
2.7 Kelebihan dan Kekurangan Algoritma Naïve Bayes ........................................... 18

xii

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

BAB III ANALISIS DAN PERANCANGAN SISTEM .............................................. 19
3.1 Analisis Sistem .................................................................................................. 19
3.2 Sumber Data ...................................................................................................... 19
3.3 Tahap-Tahap KDD (Knowledge Discovery in Database) ................................... 21
3.4 Diagram Model Use Case .................................................................................. 27
3.5 Narasi Use Case ................................................................................................ 27
3.6 Activity Diagram ............................................................................................... 42
3.6.1 Activity Diagram Login .............................................................................. 42
3.6.2 Activity Diagram Olah Data Admin (Simpan) ............................................. 42
3.6.3 Activity Diagram Olah Data Admin (Ubah) ................................................ 43
3.6.4 Activity Diagram Olah Data Admin (Hapus) ............................................... 44
3.6.5 Activity Diagram Input Data Training ......................................................... 45
3.6.6 Activity Diagram Evaluasi Sistem ............................................................... 46
3.6.7 Activity Diagram Input Range Nilai ............................................................ 47
3.6.8 Activity Diagram Prediksi UN (Prediksi Kelompok untuk admin) ............... 48
3.6.9 Activity Diagram Prediksi UN (Prediksi Tunggal untuk admin) .................. 49
3.6.10 Activity Diagram Cetak Hasil Prediksi (untuk admin) ............................... 50
3.6.11 Activity Diagram Prediksi Nilai UN (Prediksi Kelompok untuk user) ....... 51
3.6.12 Activity Diagram Prediksi Nilai UN (Prediksi Tunggal untuk user)........... 52
3.6.13 Activity Diagram Cetak Hasil Prediksi UN (untuk user)............................ 53
3.7 Desain Basis Data .............................................................................................. 54
3.8 Desain Antar Muka ............................................................................................ 55
3.8.1 Halaman Utama .......................................................................................... 55
3.8.2 Halaman Login ........................................................................................... 55
3.8.3 Halaman Utama Admin ............................................................................... 56
3.8.4 Halaman Olah Data Admin ......................................................................... 57
3.8.5 Halaman Input Data Training ...................................................................... 57
3.8.6 Halaman Prediksi UN.................................................................................. 59
3.8.7 Halaman Range Nilai .................................................................................. 61
3.8.8 Halaman Tentang ........................................................................................ 61
3.8.9 Halaman Bantuan ........................................................................................ 62

xiii

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

BAB IV IMPLEMENTASI SISTEM .......................................................................... 63
4.1 Spesifikasi Software dan Hardware ................................................................... 63
4.2 Implementasi Use Case...................................................................................... 63
4.3 Implementasi Diagram Kelas ............................................................................. 76
BAB V ANALISIS HASIL ....................................................................................... 101
5.1 Analisis Hasil Program .................................................................................... 101
5.2 Perbandingan Akurasi Naïve Bayes dan C4.5 ................................................... 107
5.3 Kelebihan dan Kekurangan .............................................................................. 110
BAB VI PENUTUP .................................................................................................. 111
6.1 Kesimpulan ..................................................................................................... 111
6.2 Saran ............................................................................................................... 111
DAFTAR PUSTAKA ............................................................................................... 113
LAMPIRAN ............................................................................................................. 115
Lampiran I ............................................................................................................. 116
Lampiran II ........................................................................................................... 167

xiv

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

DAFTAR TABEL
Tabel 2.1 Data Mobil Tercuri ...................................................................................... 15
Tabel 3.1 Jumlah data Mentah Sebelum Dilakukan proses Data Cleaning ................... 21
Tabel 3.2 Jumlah data Mentah Setelah Dilakukan proses Data Cleaning ..................... 22
Tabel 3.3 Contoh Data Awal ....................................................................................... 23
Tabel 3.4 Contoh Range Nilai ..................................................................................... 24
Tabel 3.5 Contoh Hasil Transformasi Data .................................................................. 24
Tabel 5.1 Perhitungan 3-fold Cross Validation untuk Matematika ............................. 102
Tabel 5.2 Perhitungan 5-fold Cross Validation untuk Matematika ............................. 102
Tabel 5.3 Perhitungan 3-fold Cross Validation untuk Bhs.Indonesia ......................... 102
Tabel 5.4 Perhitungan 5-fold Cross Validation untuk Bhs.Indonesia ......................... 102
Tabel 5.5 Perhitungan 3-fold Cross Validation untuk Bhs.Inggris ............................. 103
Tabel 5.6 Perhitungan 5-fold Cross Validation untuk Bhs. Inggris ............................ 103
Tabel 5.7 Perhitungan 3-fold Cross Validation untuk Biologi .................................... 103
Tabel 5.8 Perhitungan 5-fold Cross Validation untuk Biologi .................................... 103
Tabel 5.9 Perhitungan 3-fold Cross Validation untuk Kimia ...................................... 104
Tabel 5.10 Perhitungan 5-fold Cross Validation untuk Kimia .................................... 104
Tabel 5.11 Perhitungan 3-fold Cross Validation untuk Fisika .................................... 104
Tabel 5.12 Perhitungan 5-fold Cross Validation untuk Fisika .................................... 104
Tabel 5.13 Perhitungan 3-fold Cross Validation untuk Ekonomi ............................... 105
Tabel 5.14 Perhitungan 5-fold Cross Validation untuk Ekonomi ............................... 105
Tabel 5.15 Perhitungan 3-fold Cross Validation untuk Sosiologi ............................... 105
Tabel 5.16 Perhitungan 5-fold Cross Validation untuk Sosiologi ............................... 105
Tabel 5.17 Perhitungan 3-fold Cross Validation untuk Geografi ................................ 106
Tabel 5.18 Perhitungan 5-fold Cross Validation untuk Geografi ................................ 106
Tabel 5.19 Perbandingan Hasil Akurasi 3-fold dan 5-fold .......................................... 106
Tabel 5.20 Perbandingan Akurasi 3-fold dengan Algoritma Naïve Bayes dan
Algoritma C4.5 ...................................................................................... 108
Tabel 5.21 Perbandingan Akurasi 5-fold dengan Algoritma Naïve Bayes dan
Algoritma C4.5 ...................................................................................... 108
Tabel 5.22 Perbandingan Decision Tree (DT) dan Naïve Bayes (NB) ........................ 109

xv

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

DAFTAR GAMBAR
Gambar 2.1. Tahapan Proses Data Mining .................................................................... 9
Gambar 3.1 Use-Case ................................................................................................. 27
Gambar 3.2 Activity Diagram Login ........................................................................... 42
Gambar 3.3 Activity Diagram Olah Data Admin (Simpan) .......................................... 42
Gambar 3.4 Activity Diagram Olah Data Admin (Ubah) ............................................. 43
Gambar 3.5 Activity Diagram Olah Data Admin (Hapus)............................................ 44
Gambar 3.6 Activity Diagram Input Data Training ..................................................... 45
Gambar 3.7 Activity Diagram Evaluasi Sistem............................................................ 46
Gambar 3.8 Activity Diagram Input Range Nilai ......................................................... 47
Gambar 3.9 Activity Diagram Prediksi UN (Prediksi Kelompok untuk admin)............ 48
Gambar 3.10 Activity Diagram Prediksi UN (Prediksi Tunggal untuk admin) ............. 49
Gambar 3.11 Activity Diagram Cetak Hasil Prediksi (untuk admin) ............................ 50
Gambar 3.12 Activity Diagram Prediksi Nilai UN (Prediksi Kelompok untuk user) .... 51
Gambar 3.13 Activity Diagram Prediksi Nilai UN (Prediksi Tunggal untuk user) ....... 52
Gambar 3.14 Activity Diagram Cetak Hasil Prediksi UN (untuk user) ........................ 53
Gambar 3.15 Desain Fisik Basis Data ......................................................................... 54
Gambar 3.16 Halaman Utama ..................................................................................... 55
Gambar 3.17 Halaman Login ...................................................................................... 55
Gambar 3.18 Halaman Utama Admin.......................................................................... 56
Gambar 3.19 Halaman Olah Data Admin .................................................................... 57
Gambar 3.20 Halaman Input Data Training................................................................. 58
Gambar 3.21 Halaman Akurasi Data ........................................................................... 58
Gambar 3.22 Halaman Prediksi UN (1) ....................................................................... 59
Gambar 3.23 Halaman Prediksi UN (2) ....................................................................... 60
Gambar 3.24 Halaman Range Nilai ............................................................................. 61
Gambar 3.25 Halaman Tentang ................................................................................... 61
Gambar 3.26 Halaman Bantuan................................................................................... 62
Gambar 4.1 Implementasi Halaman Utama ................................................................. 64
Gambar 4.2 Implementasi Halaman Login .................................................................. 64

xvi

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

Gambar 4.3 Implementasi Halaman Peringatan ........................................................... 64
Gambar 4.4 Implementasi Halaman Utama Admin...................................................... 65
Gambar 4.5 Implementasi Halaman Olah Data Admin ................................................ 66
Gambar 4.6 Implementasi Halaman Range Nilai ......................................................... 67
Gambar 4.7 Implementasi Halaman Input Data Training (1) ....................................... 68
Gambar 4.8 Implementasi Halaman Input Data Training (2) ....................................... 68
Gambar 4.9 Implementasi Halaman Input Data Training (3) ....................................... 69
Gambar 4.10 Implementasi Halaman Input Data Training (4) ..................................... 69
Gambar 4.11 Implementasi Halaman Input Data Training (5) ..................................... 70
Gambar 4.12 Implementasi Halaman Akurasi Data ..................................................... 71
Gambar 4.13 Implementasi Halaman Prediksi UN (1) ................................................. 72
Gambar 4.14 Implementasi Halaman Prediksi UN (2) ................................................. 72
Gambar 4.15 Implementasi Halaman Prediksi UN (3) ................................................. 73
Gambar 4.16 Implementasi Halaman Prediksi UN (4) ................................................. 74
Gambar 4.17 Implementasi Halaman Laporan Hasil Prediksi ...................................... 75
Gambar 4.18 Implementasi Halaman Bantuan ............................................................. 75
Gambar 4.19 Implementasi Halaman Tentang ............................................................. 76

xvii

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

DAFTAR LAMPIRAN
Lampiran I - Daftar Stored Procedure ...................................................................... 116
Lampiran II – Perhitungan Prediksi Secara Manual ................................................... 167

xviii

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

BAB I
PENDAHULUAN

Pada bab ini dijelaskan mengenai latar belakang dari penelitian. Tujuan
pengerjaan tugas akhir memberikan penjelasan mengenai hasil yang ingin
diketahui serta batasan dalam pengerjaan. Tahapan dalam metodologi penelitian
dan sistematika penulisan laporan.
1.1 Latar Belakang
Sekarang ini dunia pendidikan dituntut untuk berperan serta dalam
usaha mencapai cita-cita pembangunan yaitu meningkatkan mutu kehidupan
bangsa dan mewujudkan masyarakat yang adil dan makmur. Salah satu yang
dilakukan adalah dengan memperluas muatan program pendidikan yang
mampu menunjang cita-cita dari pembangunan yang ingin dicapai.
Pendidikan merupakan salah satu sektor penting dalam pembangunan
di setiap negara. Menurut Undang-Undang No. 20 Tahun 2004 pendidikan
merupakan usaha sadar dan terencana untuk mengembangkan segala potensi
yang dimiliki siswa melalui proses pembelajaran. Pendidikan bertujuan untuk
mengembangkan potensi anak agar memiliki kekuatan spiritual keagamaan,
pengendalian diri, berkepribadian, memiliki kecerdasan, berakhlak mulia,
serta memiliki keterampilan yang diperlukan sebagai anggota masyarakat dan
warga

Negara.

Kurikulum

digunakan

sebagai

pedoman

dalam

penyelenggaraan kegiatan pembelajaran untuk mencapai tujuan pendidikan
yang telah ditentukan. Untuk melihat tingkat pencapaian tujuan pendidikan
diperlukan suatu bentuk evaluasi. Evaluasi pendidikan merupakan salah satu
komponen utama yang tidak dapat dipisahkan dari rencana pendidikan.

1

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

2

Pemerintah telah mengambil kebijakan untuk menerapkan Ujian Akhir
Nasional (UAN) sebagai salah satu bentuk evaluasi pendidikan. Menurut
Keputusan Menteri Pendidikan Nasional No. 153/U/2003 tentang Ujian Akhir
Nasional Tahun Pembelajaran 2003/2004 disebutkan bahwa tujuan Ujian
Akhir Nasional adalah untuk mengukur pencapaian hasil belajar peserta didik
melalui pemberian tes pada siswa khususnya siswa sekolah menengah atas.
Selain itu Ujian Akhir Nasional bertujuan untuk mengukur mutu pendidikan
dan mempertanggungjawabkan penyelenggaraan pendidikan di tingkat
nasional, provinsi, kabupaten, sampai tingkat sekolah. (Hermawanov,2008)
Di zaman teknologi modern yang semakin canggih, pendidikan
sangatlah diperlukan untuk meningkatkan kualitas kehidupan. Berbicara
tentang pendidikan maka tidak akan pernah lepas dari kegiatan belajarmengajar yang dilakukan antara siswa dengan pengajar. Selain kegiatan
belajar dan mengajar, pendidikan juga tidak pernah lepas dari sekolah.
Sekolah merupakan bangunan atau lembaga untuk belajar dan mengajar serta
tempat menerima dan memberi pelajaran. Hasil kegiatan belajar-mengajar
tersebut biasanya dievaluasi oleh pengajar dengan memberikan ujian terhadap
siswa. Hasil ujian tersebut berupa nilai akademik yang biasanya dilaporkan
pada sebuah buku laporan kemajuan belajar siswa atau rapor setiap semester.
Rapor digunakan untuk melaporkan hasil kemajuan siswa selama mengikuti
kegiatan belajar-mengajar. Selain itu dalam rapor dapat diketahui sejauh mana
prestasi belajar seorang siswa, apakah siswa tersebut berhasil atau gagal dalam
suatu mata pelajaran.
Beberapa hari terakhir dimana-mana banyak orang membicarakan
Ujian Akhir Nasional (UAN), terutama para orang tua yang mempunyai anak
usia sekolah. Para orang tua khawatir nilai Ujian Nasional (UN) yang
diperoleh anaknya tidak mencapai standar nilai yang ditetapkan oleh
pemerintah. Hal ini terjadi karena SMA merupakan pintu gerbang dalam
melanjutkan ke jenjang berikutnya seperti melanjutkan pendidikan ke
perguruan tinggi atau langsung kerja. Namun semuanya dapat terjadi jika

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

3

siswa dinyatakan lulus SMA. Banyak orang beranggapan jika nilai mata
pelajaran siswa tiap semester baik yakni di atas rata-rata, maka siswa tersebut
akan lulus dengan nilai yang baik. Tapi sebaliknya, jika nilai mata pelajaran
tiap semester di bawah rata-rata kemungkinan besar siswa tersebut tidak lulus
sekolah. Hal ini menimbulkan pertanyaan mengenai pengaruh antara prestasi
siswa di sekolah (nilai rapor tiap semester dan nilai uji coba ujian nasional)
dengan hasil nilai Ujian Nasional (UN).
Perkembangan sistem informasi yang makin pesat, muncul pula
teknologi baru, yaitu teknik data mining. Data mining adalah serangkaian
proses untuk mengekstrak pola yang penting atau menarik dari sejumlah data
yang sangat besar berupa pengetahuan yang selama ini tidak diketahui secara
manual. Banyak algoritma yang dapat digunakan untuk menyelesaikan
persoalan pada data mining. Salah satu teknik data mining yang akan
digunakan dalam penelitian ini adalah teknik klasifikasi dengan algoritma
Naïve Bayes.
Naïve Bayes merupakan salah satu metode data mining yang
digunakan pada persoalan klasifikasi. Algoritma naïve bayes akan menghitung
probabilitas posterior untuk setiap nilai kejadian dari atribut target pada setiap
sampel data. Kemudian, naïve bayes akan mengklasifikasikan sampel data
tersebut ke kelas yang mempunyai nilai probabilitas posterior tertinggi. Maka
yang akan dilakukan dengan algoritma naïve bayes adalah menghitung
probabilitas posterior pada sampel data untuk UN dengan nilai A, UN dengan
nilai B, UN dengan nilai C, UN dengan nilai D, dan UN dengan nilai E.
Diharapkan dengan dilakukannya penelitian ini dapat memprediksi
nilai Ujian Nasional (UN) berdasarkan nilai rapor kelas X, XI, dan XII serta
nilai Uji Coba Nasional yang diselenggarakan oleh pemerintah. Jika nilai
Ujian Nasional dapat diprediksi lebih dini maka dapat membantu para siswa
yang diprediksi mendapatkan nilai dibawah standar nilai yang ditentukan oleh
pemerintah agar lebih meningkatkan semangat belajar. Selain itu bagi pihak

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

4

sekolah dapat mengetahui prediksi nilai UN siswa-siswinya agar dapat
dilakukan antisipasi jikalau ada siswa-siswanya yang diprediksi mendapatkan
nilai dibawah standar nilai yang ditentukan pemerintah.

1.2 Rumusan Masalah
Dari latar belakang masalah yang ada, maka didapatkan sebuah
rumusan masalah yaitu bagaimana memprediksi nilai Ujian Nasional (UN)
siswa SMA berdasarkan nilai rapor dan nilai uji coba nasional dengan
algoritma Naïve Bayes ?

1.3 Tujuan
Tujuan dari penelitian ini adalah menerapkan algoritma Naïve Bayes
sebagai salah satu metode Classification Data Mining untuk memperoleh hasil
prediksi nilai Ujian Nasional (UN) siswa SMA berdasarkan nilai rapor dan
nilai Uji Coba Nasional (UCO).

1.4 Batasan Masalah
Batasan masalah pada tugas akhir ini adalah sebagai berikut :
1. Data-data yang dibutuhkan adalah data nilai rapor dan data nilai uji
coba nasional siswa 3 angkatan terakhir yaitu tahun 2008, 2009, dan
2010.
2. File inputan berupa file dengan format .csv
3. Algoritma yang digunakan untuk memprediksi nilai Ujian Nasional
(UN) adalah algoritma Naïve Bayes.
4. Pengklasifikasian nilai dibagi menjadi 5, yaitu A, B, C, D, dan E.
5. Atribut yang akan dipilih adalah nilai rapor kelas X semester 1 dan
semester 2, nilai rapor kelas XI semester 1 dan semester 2, nilai rapor
kelas XII semester 1, dan nilai Uji Coba Nasional.

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

5

1.5 Metodologi Penelitian
Metodologi

penelitian

dilakukan

dengan

menerapkan

proses

KDD

(Knowledge Discovery in Databases) dengan tahapan sebagai berikut :
a. Pembersihan data, menghilangkan noise dan data yang tidak konsisten.
b. Integrasi data, menggabungkan data dari berbagai sumber data yang
berbeda.
c. Seleksi data dan transformasi data, untuk menentukan kualitas dari
hasil data mining, sehingga data diubah menjadi bentuk sesuai untuk
di-mining.
e. Penerapan teknik data mining
Penerapan teknik data mining sendiri hanya merupakan salah satu
bagian dari proses data mining. Ada beberapa teknik data mining yang
sudah umum dipakai. Teknik yang akan digunakan oleh penulis adalah
teknik Naïve Bayes.
f. Evaluasi pola yang ditemukan
Dalam tahap ini hasil dari teknik data mining berupa pola yang khas
maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang
ada memang tercapai.
g. Presentasi pengetahuan
Presentasi pola yang ditemukan untuk menghasilkan aksi tahap
terakhir dari proses data mining adalah bagaimana menformulasikan
keputusan atau aksi dari hasil analisa yang didapat

1.6 Sistematika Pembahasan
BAB I. PENDAHULUAN
Dalam bab ini akan dijelaskan mengenai latar belakang masalah,
rumusan masalah, batasan masalah, tujuan, metodologi penelitian, dan
sistematika pembahasan.

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

6

BAB II. LANDASAN TEORI
Dalam bab ini akan dibahas mengenai dasar teori yang berkaitan
dengan tugas akhir ini.
BAB III. ANALISIS DAN PERANCANGAN SISTEM
Dalam bab ini berisi tentang cara penerapan konsep dasar yang telah
diuraikan pada Bab II untuk menganalisis dan merancang tentang
sistem yang dibuat.
BAB IV. IMPLEMENTASI SISTEM
Dalam bab ini memuat implementasi ke program komputer
bardasarkan hasil perancangan telah dibuat.
BAB V. ANALISIS HASIL
Dalam bab ini berisi mengenai analisis perangkat lunak yang telah
dibuat, beserta kelebihan dan kekurangan pada sistem.
BAB VI. PENUTUP
Dalam bab ini memuat kesimpulan dan saran dari keseluruhan
penulisan tugas akhir.

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

BAB II
LANDASAN TEORI

Pada bab ini dijelaskan landasan teori yang terkait dengan penelitian dan
algoritma yang digunakan dalam tugas akhir untuk memprediksi nilai Ujian
Nasional (UN).
2.1 Ujian Nasional (UN)
Ujian Nasional biasa disingkat UN adalah sistem evaluasi standar
pendidikan dasar dan menengah secara nasional dan persamaan mutu tingkat
pendidikan antar daerah yang dilakukan oleh Pusat Penilaian Pendidikan,
Depdiknas di Indonesia berdasarkan Undang-Undang Republik Indonesia No.
20 tahun 2003 menyatakan bahwa dalam rangka pengendalian mutu
pendidikan secara nasional dilakukan evaluasi sebagai bentuk akuntabilitas
penyelenggaraan pendidikan kepada pihak-pihak yang berkepentingan. Lebih
lanjut dinyatakan bahwa evaluasi dilakukan oleh lembaga yang mandiri secara
berkala, menyeluruh, transparan, dan sistematik untuk menilai pencapaian
standar nasional pendidikan dan proses pemantauan evaluasi tersebut harus
dilakukan secara berkesinambungan.
Proses pemantauan evaluasi tersebut dilakukan secara terus menerus
dan berkesinambungan pada akhirnya akan dapat membenahi mutu
pendidikan. Pembenahan mutu pendidikan dimulai dengan penentuan standar.
Penentuan standar yang terus meningkat diharapkan akan mendorong
peningkatan mutu pendidikan, yang dimaksud dengan penentuan standar
pendidikan adalah penentuan nilai batas. Seseorang dikatakan sudah
lulus/kompeten bila telah melewati nilai batas tersebut berupa nilai batas
antara peserta didik yang sudah menguasai kompetensi tertentu dengan peserta
didik yang belum menguasai kompetensi tertentu. Bila itu terjadi pada ujian

7

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

8

nasional atau sekolah maka nilai batas berfungsi untuk memisahkan antara
peserta didik yang lulus dan tidak lulus disebut batas kelulusan, kegiatan
penentuan batas kelulusan disebut standard setting. (Wikipedia,2011)

2.2 Buku Rapor
Buku rapor adalah suatu cara pengukuran kinerja siswa. Umumnya
laporan ini diberikan oleh sekolah kepada siswa atau orang tua siswa dua kali
hingga empat kali dalam setahun. Suatu buku rapor biasanya menggunakan
skala pemeringkatan untuk menentukan kualitas hasil kerja murid di sekolah.
Sistem skala ini dapat berupa huruf (misalnya A, B, C, D, E, dan F, dengan A
adalah kinerja tertinggi dan F berarti gagal) atau angka (misalnya A=90-100,
B=80-89, C=70-79, D=60-69, E=50-59, dan F=0-49). (Wikipedia,2011)

2.3 Penambangan Data (Data Mining)
Penambangan Data (data mining) adalah suatu istilah yang digunakan
untuk menguraikan penemuan pengetahuan di dalam database. Data mining
berkenaan dengan mengekstrak atau menambang informasi/pengetahuan dari
sejumlah data dengan jumlah yang sangat besar. Secara fungsional,
penambangan data (data mining) adalah proses dari pengumpulan informasi
penting dari sejumlah data yang besar yang tersimpan di database, gudang
data, atau tempat penyimpanan informasi lainnya. (Han&Kamber,2001)
Istilah lain untuk data mining adalah Knowledge Discovery in
Database (KDD). Walaupun sebenarnya data mining sendiri adalah bagian
dari tahapan proses dalam KDD, seperti yang dilihat pada Gambar 2.1.

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

9

Gambar 2.1. Tahapan Proses Data Mining
Adapun tahapan-tahapan dalam proses KDD adalah sebagai berikut :
(Han&Kamber,2001)
1. Pembersihan data (Data cleaning)
Digunakan untuk membuang data yang noise dan tidak konsisten
seperti data-data yang out of date, data yang salah ketik, maupun data
yang kosong.
2. Integrasi data (Data integration)
Yaitu penggabungan data dari beberapa sumber, hal ini perlu
dilakukan

karena

untuk

melakukan

data

mining

dibutuhkan

penggabungan data sehingga seluruh data terangkum dalam satu tabel
utuh (dinormalisasi)

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

10

3. Seleksi data dan Transformasi (Data selection and trasformastion )
Seleksi data dan Transformasi ini untuk menentukan kualitas dari hasil
data mining, sehingga data diubah menjadi bentuk sesuai untuk dimining.
4. Penerapan teknik data mining (Data mining)
Penerapan teknik data mining sendiri hanya merupakan salah satu
bagian dari proses data mining. Ada beberapa teknik data mining yang
sudah umum dipakai.
5. Evaluasi pola yang ditemukan (Pattern evaluation)
Dalam tahap ini hasil dari teknik data mining berupa pola yang khas
maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang
ada memang tercapai.
6. Presentasi pengetahuan (Knowledge presentation)
Presentasi pola yang ditemukan untuk menghasilkan aksi tahap
terakhir dari proses data mining adalah bagaimana menformulasikan
keputusan atau aksi dari hasil analisa yang didapat.
Pada
fungsionalitas,

dasarnya
yaitu

penambangan

data

dibedakan

deskripsi dan prediksi.

Berikut

menjadi
ini

dua

beberapa

fungsionalitas penggalian data yang sering digunakan : (Wikipedia, 2010)
1. Karakterisasi dan Diskriminasi yaitu menggeneralisasi, merangkum,
dan mengkontraskan karakteristik data.
2. Penggalian pola berulang yaitu pencarian pola asosiasi (association
rule) atau pola intra-transaksi, atau pola pembelian yang terjadi dalam
satu kali transaksi.
3. Klasifikasi

yaitu

membangun

suatu

model

yang

bisa

mengklasifikasikan suatu objek berdasar atribut-atributnya. Kelas
target sudah tersedia dalam data sebelumnya, sehingga fokusnya

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

11

adalah bagaimana mempelajari data yang ada agar klasifikator bisa
mengklasifikasikan sendiri.
4. Prediksi yaitu memprediksi nilai yang tidak diketahui atau nilai yang
hilang, menggunakan model dari klasifikasi.
5. Penggugusan/Cluster analysis yaitu mengelompokkan sekumpulan
objek data berdasarkan kemiripannya. Kelas target tidak tersedia
dalam data sebelumnya, sehingga fokusnya adalah memaksimalkan
kemiripan intra kelas dan meminimalkan kemiripan antar kelas.
6. Analisis outlier yaitu proses pengenalan data yang tidak sesuai dengan
perilaku umum dari data lainnya.
7. Analisis trend dan evolusi : meliputi analisis regresi, penggalian pola
sekuensial, analisis periodisitas, dan analisis berbasis kemiripan.

2.4 Teorema Bayes
Teorema Bayes menurut Han&Kamber (2001) mengungkapkan bahwa
hasil probabilitas posterior sebanding dengan hasil perkalian antara likelihood
dengan probababilitas prior. Probabilitas posterior adalah probabilitas
bersyarat dari sebuah hipotesis jika diberikan data. Likelihood adalah
probabilitas bersyarat dari sebuah data jika diberikan hipotesis. Probabilitas
prior adalah probabilitas bahwa hipotesis itu benar sebelum data terlihat.
Jika X adalah bukti atau kumpulan data pelatihan dan 𝑌 adalah

hipotesis. Jika class variable memiliki hubungan tidak deterministic dengan
atribut, maka dapat diperlukan X

dan 𝑌 sebagai variabel acak dan

menangkap hubungan peluang menggunakan 𝑃 𝑌 𝑋 . Peluang bersyarat ini
juga dikenal dengan probabilitas posterior untuk 𝑌, dan 𝑃(𝑌) adalah
probabilitas prior.

Untuk mengestimasi peluang posterior secara akurat untuk setiap
kombinasi label kelas yang mungkin dan nilai atribut adalah masalah sulit
karena membutuhkan training set sangat besar, meski untuk jumlah moderate
atribut. Penggunaan teorema Bayes untuk melakukan klasifikasi sangat

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

12

bermanfaat karena menyediakan pernyataan istilah peluang posterior dari
peluang prior 𝑃(𝑌), peluang kelas bersyarat 𝑃 𝑋 𝑌 dan bukti 𝑃(𝑋) seperti

pada Rumus 2.1 berikut : (Han&Kamber,2001)

𝑃 𝑌𝑋 =

Dalam hal ini :

𝑃 𝑋 𝑌 𝑃(𝑌)
𝑃(𝑋)

...……… ( Rumus 2.1 )

X

= himpunan data training

Y

= hipotesis.

𝑃 𝑌𝑋

= probabilitas posterior, yaitu probabilitas bersyarat dari

𝑃(𝑌)

= probabilitas prior dari hipotesis Y, yaitu probabilitas

𝑃(𝑋)

= probabilitas dari data X.

𝑃 𝑋𝑌

hipotesis Y berdasarkan kondisi X.

bahwa hipotesis Y bernilai benar sebelum data X muncul.

= probabilitas bersyarat dari X berdasarkan kondisi pada
hipotesis Y, dan biasa disebut dengan likelihood.
Likelihood ini mudah untuk dihitung ketika memberikan
nilai 1 saat X dan Y konsisten, dan memberikan nilai 0
saat X dan Y tidak konsisten.

2.5 Klasifikasi Naïve Bayes
Menurut Han&Kamber (2001) metode klasifikasi Naïve Bayes
merupakan salah satu metode pengklasifikasi yang berdasarkan pada
penerapan Teorema Bayes dengan asumsi antar variabel penjelas saling bebas
(independen). Algoritma ini memanfaatkan metode probabilitas dan statistik
yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi
probabilitas di masa depan berdasarkan pengalaman dimasa sebelumnya.

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

13

Klasifikasi Naïve Bayes diasumsikan dimana nilai atribut dari sebuah
kelas dianggap terpisah dan independen dengan nilai atribut lainnya, kondisi
seperti

ini

dinyatakan

dengan

Rumus

2.2

seperti

berikut

ini

:

(Han&Kamber,2001)

𝑃 𝑌𝑋 =

𝑃 𝑋1 𝑌 𝑃 𝑋2 𝑌 …𝑃 𝑋𝑛 𝑌 𝑃(𝑌)

Keterangan :

𝑃(𝑋)

…….. ( Rumus 2.2 )

X

= himpunan data training

Y

= hipotesis.

𝑃 𝑌𝑋

= probabilitas posterior, yaitu probabilitas
bersyarat dari hipotesis Y berdasarkan
kondisi X.

𝑃(𝑌)

= probabilitas prior dari hipotesis Y, yaitu
probabilitas bahwa hipotesis Y bernilai
benar sebelum data X muncul.

𝑃(𝑋)

𝑃 𝑋1 𝑌 , 𝑃 𝑋2 𝑌 , 𝑃 𝑋𝑛 𝑌

= probabilitas dari data X.
= probabilitas dari X1, X2, Xn untuk
hipotesis

Y,

biasa

disebut

dengan

likelihood.
Karena P(X) irrelevant maka untuk mencari peluang hanya menggunakan
Rumus 2.3 seperti berikut ini : (Han&Kamber,2001)

𝑃 𝑌 𝑋 = 𝑃 𝑋1 𝑌 𝑃 𝑋2 𝑌 … 𝑃 𝑋𝑛 𝑌 𝑃(𝑌) …….. ( Rumus 2.3 )

Jika ada P(Xn|Y) yang memiliki nilai 0, maka P(Y|X) = 0. Maka klasifikasi
Naïve Bayes tidak bisa memprediksi record yang salah satu atributnya
memiliki probabilitas bersyarat (likelihood) = 0. Untuk mengatasi hal itu
maka dilakukan penambahan nilai 1 ke setiap evidence dalam perhitungan
sehingga probabilitas tidak akan bernilai 0. Langkah ini sering disebut

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

14

Laplace Estimator. Rumus Laplace Estimator dapat dilihat pada Rumus 2.4
sebagai berikut : (Budi Santosa, 2007)

Dimana :
𝑛

𝑛 𝑐 +1

𝑃 𝑋𝑖 𝑌𝑗 =

𝑛 +𝑚

…….. ( Rumus 2.4 )

= total jumlah instances dari kelas 𝑌𝑗

𝑛𝑐

= jumlah contoh training dari 𝑌𝑗 yang menerima nilai 𝑋𝑖

𝑚

= parameter yang dikenal sebagai ukuran sampel ekivalen

Cara kerja klasifikasi Naïve Bayes :
1. Misalkan 𝑋 adalah kumpulan data pelatihan dari tuple dan 𝑋
berhubungan dengan label kelas.

2. Andaikan ada 𝑛 kelas, 𝑦1 , 𝑦2 , … , 𝑦𝑛 . Jika disediakan tuple x ,
klasifikasi Naïve Bayes memprediksi x ke dalam kelas yang

mempunyai probabilitas posterior tertinggi. Maka penggolong Naïve
Bayes memprediksi tuple x termasuk ke dalam kelas 𝑦𝑖 jika dan hanya

jika

𝑃 𝑦𝑖 𝑥 > 𝑃(𝑦𝑗 |𝑥) untuk 1 ≤ 𝑗 ≤ 𝑛, 𝑗 ≠ 𝑖 ……. ( Rumus 2.5 )

Dengan demikian 𝑃 𝑦𝑖 𝑥 akan dimaksimalkan. Kelas 𝑦𝑖 untuk setiap
𝑃 𝑦𝑖 𝑥

yang

dimaksimalkan dinamakan

maximum

posteriori

hypothesis. Berdasarkan teorema Bayes adalah :

𝑃 𝑦𝑖 𝑥 =

𝑃 𝑥 𝑦 𝑖 × 𝑃(𝑦 𝑖 )
𝑃(𝑥)

………… ( Rumus 2.6 )

3. Selama P(x) konstan untuk semua kelas maka hanya 𝑃 𝑥 𝑦𝑖 𝑃(𝑦𝑖 )
yang dimaksimalkan. Jika kelas probabilitas prior tidak diketahui,

maka kelas-kelas tersebut diasumsikan sama, yaitu
𝑃 𝑦1 = 𝑃 𝑦2 = ⋯ = 𝑃(𝑦𝑛 ),

oleh

karena

itu

𝑃 𝑥 𝑦𝑖

akan

dimaksimalkan. Jika tidak, 𝑃 𝑥 𝑦𝑖 𝑃(𝑦𝑖 ) yang akan dimaksimalkan.

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

15

Berikut ini diberikan contoh kasus yang akan diselesaikan dengan
algoritma naïve bayes.
Tabel 2.1 Data Mobil Tercuri
Warna

Tipe

Asal

Kelas : tercuri ?

Merah

Sport

Domestik

Tidak

Merah

Sport

Domestik

Tidak

Merah

Sport

Domestik

Tidak

Kuning

Sport

Domestik

Tidak

Kuning

Sport

Import

Ya

Kuning

SUV

Import

Ya

Kuning

SUV

Import

Ya

Kuning

SUV

Domestik

Tidak

Merah

SUV

Import

Ya

Merah

Sport

Import

Ya

Tabel 2.1 memperlihatkan data training dengan atribut : warna, tipe, asal.
Sedangkan atribut label kelas adalah tercuri. Terdapat dua class dari
klasifikasi yang dibentuk, yaitu :
𝑦1 = tercuri= “ya”

𝑦2 = tercuri = “tidak”
Data yang akan diklasifikasikan adalah 𝑥=(warna=merah, tipe=SUV,

asal=domestik).
Penyelesaian :

𝑃(𝑦𝑖 ) merupakan probabilitas prior (untuk setiap class) yang dapat dihitung

berdasarkan data training pada Tabel 2.1.
a. P(tercuri = ya) = 5/10 = 0.5
b. P(tercuri = tidak) = 5/10 = 0.5

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

16

Untuk menghitung 𝑃 𝑥 𝑦𝑖 , untuk i=1,2 akan dihitung probabilitas bersyarat

(likelihood) sebagai berikut :
Likelihood atribut warna :

P(warna=merah | tercuri = ya)

= 2/5 = 0.4

P(warna=merah | tercuri = tidak)

= 3/5 = 0.6

P(warna=kuning | tercuri = ya)

= 3/5 = 0.6

P(warna=kuning | tercuri = tidak)

= 2/5 = 0.4

Likelihood atribut tipe :
P(tipe=SUV | tercuri = ya)

= 3/5 = 0.6

P(tipe=SUV | tercuri = tidak)

= 1/5 = 0.2

P(tipe=sport | tercuri = ya)

= 2/5 = 0.4

P(tipe=sport | tercuri = tidak)

= 4/5 = 0.8

Likelihood atribut asal :
P(asal=domestik | tercuri = ya)

= 0/5 = 0

P(asal=domestik | tercuri = tidak)

= 5/5 = 1

P(asal=import | tercuri = ya)

= 5/5 = 1

P(asal=import | tercuri = tidak)

= 0/5 = 0

Laplace Estimator
Bila ditemukan salah satu atribut yang memiliki probabilitas bersyarat
(likelihood)=0, maka dilakukan penambahan nilai satu ke setiap evidence
sehingga tidak ada probabilitas yang akan bernilai 0. Berikut ialah nilai
likelihood untuk atribut asal setelah dilakukan laplace estimator.
Likelihood atribut asal :
P(asal=domestik | tercuri = ya)

= 1/7 = 0.14

P(asal=domestik | tercuri = tidak)

= 6/7 = 0.86

P(asal=import | tercuri = ya)

= 6/7 = 0.86

P(asal=import | tercuri = tidak)

= 1/7 = 0.14

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

17

Dari probabilitas-probabilitas tersebut, maka diperoleh
P(𝑋|tercuri=ya) = P(warna=merah | tercuri = ya) x
P(tipe=SUV | tercuri = ya) x
P(asal=domestik | tercuri = ya)
= 0.4 x 0.6 x 0.14
= 0.0336
P(𝑋|tercuri=tidak) = P(warna=merah | tercuri = tidak) x
P(tipe=SUV | tercuri = tidak) x
P(asal=domestik | tercuri = tidak)
= 0.6 x 0.2 x 0.86
= 0.1032
Untuk menemukan kelas 𝑃(𝑦𝑖 ), maksimalkan 𝑃 𝑥 𝑦𝑖 𝑃(𝑦𝑖 ) dengan menghitung
P(𝑋|tercuri=ya)P(tercuri=ya)

= 0.0336 x 0.5 = 0.0168

P(𝑋| tercuri=tidak) P(tercuri=tidak)

= 0.1032 x 0.5 = 0.0516

Persentasi prediksi untuk tercuri =”ya” adalah :
0. 0168/(0. 0168+0. 0516) x 100% = 24.6%
Persentasi prediksi untuk tercuri =“tidak” adalah :
0. 0516/(0. 0168+0. 0516) x 100% = 75.4%
Kesimpulan :
Jika mobil warna=merah, tipe=SUV, asal=domestik maka klasifikasi naïve
bayes memprediksi “tidak tercuri”, dengan presentase 75,4%.

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

18

2.6 Karakteristik Klasifikasi Naïve Bayes
Naive Bayes Classifier umumnya memiliki karakteristik sebagai berikut :
a. Kokoh untuk atribut irrelevant, jika X i adalah atribut yang irrelevant,
maka PX i Y  menjadi hampir didistribusikan seragam. Peluang kelas
bersyarat untuk X i tidak berdampak pada keseluruhan perhitungan
peluang posterior.
b. Atribut yang dihubungkan dapat menurunkan kemampuan klasifikasi
naive bayes karena asumsi independen bersyarat tidak lagi menangani
atribut tersebut.

2.7 Kelebihan dan Kekurangan Algoritma Naïve Bayes
Algoritma Naïve Bayes memiliki beberapa kelebihan dan kekurangan yaitu
sebagai berikut :
Kelebihan Naïve Bayes :
a. Menangani kuantitatif dan data diskrit.
b. Hanya memerlukan sejumlah kecil data pelatihan (training) untuk
mengestimasi parameter yang dibutuhkan untuk klasifikasi.
c. Kokoh terhadap atribut yang tidak relevan.
Kekurangan Naïve Bayes :
a. Tidak berlaku jika probabilitas kondisionalnya adalah nol, apabila nol
maka probabilitas prediksi akan bernilai nol juga.
b. Mengasumsikan variabel bebas.

PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI

BAB III
ANALISIS DAN PERANCANGAN SISTEM

Pada bab ini dijelaskan analisis sistem yang akan dibuat dan perancangan unt

Dokumen yang terkait

Analisis biplot untuk memetakan mutu sekolah yang sesuai dengan nilai ujian nasional

0 8 136

Implementasi algoritma fuzzy c-means untuk pengelompokan sekolah menengah atas di diy berdasarkan nilai ujian nasional dan nilai sekolah.

2 16 145

Pengaruh nilai ujian akhir nasional SLTA dan nilai tes masuk perguruan tinggi terhadap prestasi akademik mahasiswa : studi kasus mahasiswa Universitas Sanata Dharma Yogyakarta angkatan 2002.

0 2 105

daftar nilai ujian nilai tugas dan nilai akhir sementara

1 1 3

Pengaruh nilai ujian akhir nasional SLTA dan nilai tes masuk perguruan tinggi terhadap prestasi akademik mahasiswa : studi kasus mahasiswa Universitas Sanata Dharma Yogyakarta angkatan 2002 - USD Repository

0 0 103

Implementasi algoritma K-Means untuk memprediksi nilai mahasiswa : studi kasus mahasiswa Teknik Informatika Universitas Sanata Dharma - USD Repository

0 1 76

Sistem informasi berbasis web seleksi penerimaan siswa baru sma di Kota Yogyakarta berdasarkan nilai ujian nasional calon siswa - USD Repository

0 1 132

Pengaruh kecemasan, motivasi belajar, dan disiplin belajar siswa dalam menghadapi ujian nasional terhadap hasil ujian nasional pada siswa kelas XII : studi kasus SMA Negeri 2 Bantul Yogyakarta Jl. RA. Kartini Bantul - USD Repository

0 0 190

Penerapan algoritma C4.5 untuk memprediksi nilai ujian nasional siswa SMA berdasarkan nilai rapor dan nilai uji coba nasional : studi kasus pada SMA Kristen Bentara Wacana - USD Repository

0 2 229

Kesesuaian soal ujian nasional mata pelajaran matematika dengan kisi-kisi ujian nasional berdasarkan PERMENDIKNAS dan indikator KTSP : studi kasus pada siswa kelas XII IPA SMA Stella Duce 2 Yogyakarta tahun pelajaran 2008/2009 dan 2009/2010 - USD Reposito

0 1 138