Klasifikasi Teks Menggunakan Algoritma Naive Bayes Updateable pada Soal Ujian SBMPTN.

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES
UPDATEABLE PADA SOAL UJIAN SBMPTN

HALAMAN JUDUL

SKRIPSI
Diajukan untuk memenuhi salah satu syarat mencapai gelar Strata Satu
Program Studi Informatika

Disusun oleh:
NUR SHOBRIANA TRIHABSARI
M0511042

PROGRAM STUDI INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2016
i

SKRIPSI

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES
UPDATEABLE PADA SOAL UJIAN SBMPTN

HALAMAN PENGAJUAN

Disusun oleh:
Nur Shobriana Trihabsari
M0511042

Ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar
Strata Satu Program Studi Informatika

PROGRAM STUDI INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2016
ii

SKRIPSI

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES
UPDATEABLE PADA SOAL UJIAN SBMPTN

HALAMAN PERSETUJUAN

Disusun oleh:
Nur Shobriana Trihabsari
M0511042

Skripsi ini telah disetujui untuk dipertahankan dihadapan dewan penguji,
pada tanggal: 4 Oktober 2016

Pembimbing I,

Pembimbing 2,

Ristu Saptono S.Si, M.T

Meiyanto Eko Sulistyo, S. T., M.Eng


NIP. 19790210 200212 1001

NIP. 19770513 200912 1004

iii

SKRIPSI
KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES
UPDATEABLE PADA SOAL UJIAN SBMPTN

HALAMAN PENGESAHAN
Disusun oleh:
Nur Shobriana Trihabsari
M0511042

Telah dipertahankan dihadapan Dewan Penguji,
pada tanggal: 4 Oktober 2016

Susunan Dewan Penguji
1. Ristu Saptono, S.Si., M.T.


(

)

2. Meiyanto Eko Sulistyo, S. T., M.Eng. (

)

NIP. 19790210 200212 1001

NIP. 19770513 200912 1004
3. Afrizal Doewes, S.Kom., M.Sc.

(

)

(


)

NIP. 19850831 201212 1004
4. Dr. Wiranto, M.Kom., M.Cs
NIP. 19661230 199302 1001

Disahkan oleh
Kepala Program Studi Informatika

Drs. Bambang Harjito, M.App.Sc, Ph.D.
NIP. 19621130 199103 1002
iv

PERSEMBAHAN

Dengan segala rasa syukur, laporan skripsi ini penulis persembahkan kepada:
Bapak Ristu Saptono, S.Si, M.T. serta Bapak Meiyano Eko Sulistyo S. T., M.Eng.
Sahabat dan keluarga Informatika khususnya teman seperjuangan angkatan 2011.

v


MOTTO
“There are no secret to success. It is the result of preparation, hard work, and
learning from failure.”

Colin Powell

vi

KATA PENGANTAR
Puji syukur kehadirat Allah SWT yang telah melimpahkan rahmatnya
sehingga penulis dapat menyelesaikan Skripsi dengan judul “Klasifikasi Teks
Menggunakan Algoritma Naive Bayes Updateable pada Soal Ujian SBMPTN”.
Laporan Skripsi ini disusun untuk memenuhi salah satu syarat dalam memperoleh
gelar Sarjana Komputer pada Program Studi Informatika Universitas Sebelas
Maret.
Dalam melakukan penelitian dan penyusunan laporan Skripsi ini penulis
telah mendapatkan banyak dukungan dan bantuan dari berbagai pihak. Penulis
mengucapkan terimakasih yang tak terhingga kepada:
1. Bapak dan Ibu serta keluarga yang selalu memberikan dukungan dan

semangat untuk menyelesaikan tugas akhir.
2. Bapak Prof. Ir. Ari Handono Ramelan, M.Sc.(Hons), Ph.D. selaku Dekan
Fakultas MIPA Universitas Sebelas Maret.
3. Bapak Drs. Bambang Harjito, M.App.Sc, Ph.D. selaku Kepala Program
Studi Informatika Universitas Sebelas Maret.
4. Bapak Abdul Aziz S.Kom., M.Cs. dosen Pembimbing Akademik yang telah
memberikan bimbingan selama Penulis menempuh studi di Program Studi
Informatika.
5. Bapak Ristu Saptono, S.Si., M.T. dan Bapak Meiyanto Eko Sulistyo S.T.,
M.Eng. selaku dosen pembimbing yang telah dengan penuh kesabaran dan
ketulusan memberikan ilmu dan bimbingan terbaik kepada Penulis.
6. Para Dosen Program Studi Informatika Universitas Sebelas Maret yang
telah memberikan bekal ilmu kepada Penulis.
7. Bapak Rahmulyo, S.Pd., Bapak Drs. Sudarsono, Bapak Aris Wahyudi,
S.Pd., Ibu Dra. Nanik Murti Rasetyani, Ibu Ika Striratna, S.Pd., Ibu Fibrianti
Ekayani, S.Pd., Ibu Erni Lestari Septyarini, S.Pd., dan Ibu Dra. Puji Rahayu
yang telah membantu validasi data soal ujian SBMPTN.
vii

Penulis menyadari sepenuhnya bahwa laporan Skripsi ini masih jauh dari

sempurna. Walaupun demikian, semoga tulisan ini dapat memberikan manfaat dan
memberikan wawasan tambahan bagi para pembaca dan khususnya bagi penulis.

Surakarta, 2016

Penulis

viii

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES
UPDATEABLE PADA SOAL UJIAN SBMPTN

NUR SHOBRIANA TRIHABSARI
Program Studi Informatika, Fakultas Matematika dan Ilmu Pengetahuan Alam,
Universitas Sebelas Maret
ABSTRAK
Teks merupakan salah satu jenis penyajian informasi yang terbentuk dari
susunan kata-kata dengan bahasa tertentu. Informasi yang tersimpan dalam suatu
teks diantaranya tema yang dibahas, isu yang diangkat, bahasa yang digunakan
dan sebagainya. Seseorang dapat mengetahui tema yang sedang dibahas oleh suatu

teks karena melihat adanya karakteristik dari teks tersebut. Karakteristik dari
sebuah teks dapat dilihat dari kata-kata penyusunnya. Dengan memanfaatkan
karakteristiknya, sebuah teks dapat diklasifikasikan berdasarkan jenis informasi
yang tersimpan. Terdapat berbagai algoritma klasifikasi. Salah satu algoritma
klasifikasi teks yang sering digunakan adalah Naive Bayes Classifier (NBC). NBC
dalam penelitian ini digunakan untuk mengklasifikasikan teks berupa soal-soal
ujian SBMPTN berdasarkan tema bidang studinya. Salah satu metode seleksi fitur
DF-Threshold diterapkan untuk mendukung proses klasifikasi. Model increment
dari klasifikasi diperlukan, mengingat jumlah teks soal ujian yang terus
berkembang dan bertambah. Model increment dari NBC yaitu Naive Bayes
Updateable memiliki kemampuan untuk belajar dari data-data yang baru dikenal
oleh sistem bahkan setelah classifier dijalankan dengan data yang ada sebelumnya.
Penelitian ini dilakukan untuk mengetahui bagaimana kinerja Naive Bayes
Updateable dalam mengklasifikasikan soal-soal ujian SBMPTN berdasarkan tema
bidang studi. Evaluasi klasifikasi dengan algoritma Naive Bayes Updateable
menghasilkan akurasi 90,91%.

Kata kunci: DF-Threshold, klasifikasi, Naive Bayes Updateable.

ix


TEXT CLASSIFICATION USING NAIVE BAYES UPDATEABLE
ALGORITHM IN SBMPTN TEST QUESTIONS

NUR SHOBRIANA TRIHABSARI
Department of Informatics, Faculty of Mathematics and Natural Science,
Sebelas Maret University
ABSTRACT
Text is one way to present the information that is formed by words of the
particular language. Information which stored in a text such as the themes
discussed, the issues raised, the language used and so on. We can discover which
theme is being discussed by a text because we saw the characteristics of the text.
Characteristics of a text can be seen from the diction it used. By utilizing its
characteristics, a text can be classified based on the type of stored information.
There are various classification algorithms. One algorithm frequently used in text
classification is Naive Bayes Classifier (NBC). NBC in this study is used to classify
text form SBMPTN exam questions based on the theme of the field of study. One
method of feature selection DF-Threshold applied to support the classification
process. Incremental model of this classification is required, considering the
amount of exam questions that continuosly growing. Naive Bayes Updateable is an

incremental model from NBC. It has the ability to learn from new data introduces
with the system even after the classifier has been produced with the existing data.
This study was conducted to determine about Naive Bayes Updateable
classification performance for the SBMPTN exam questions based on its theme of
the field of study. This algorithm produced 90,91% accuracy
Keywords: classification, DF-Threshold, Naive Bayes Updateable.

x

DAFTAR ISI

HALAMAN JUDUL................................................................................................ i
HALAMAN PENGAJUAN .................................................................................... ii
HALAMAN PERSETUJUAN ............................................................................... iii
HALAMAN PENGESAHAN ................................................................................ iv
PERSEMBAHAN ................................................................................................... v
MOTTO ................................................................................................................. vi
KATA PENGANTAR .......................................................................................... vii
ABSTRAK ............................................................................................................. ix
ABSTRACT ............................................................................................................ x
DAFTAR ISI .......................................................................................................... xi
DAFTAR TABEL ................................................................................................ xiii
DAFTAR GAMBAR ............................................................................................ xv
DAFTAR LAMPIRAN ........................................................................................ xvi
1. BAB I PENDAHULUAN .................................................................................. 1
Latar Belakang ..................................................................................... 1
Rumusan Masalah ................................................................................ 3
Batasan Masalah ................................................................................... 3
Tujuan Penelitian.................................................................................. 4
Manfaat Penelitian................................................................................ 4
Sistematika Penulisan........................................................................... 4
2. BAB II TINJAUAN PUSTAKA ....................................................................... 6
Dasar Teori ........................................................................................... 6
Stemming .................................................................................. 6
Tokenizing .............................................................................. 11
Stopword Removal .................................................................. 12
Document Frequency Thresholding ....................................... 12
Naive Bayes Classifier ............................................................ 13

xi

Naive Bayes Updateable ........................................................ 16

Penelitian Terkait ............................................................................... 16
Rencana Penelitian ............................................................................. 18
3. BAB III METODOLOGI PENELITIAN ......................................................... 20
Pengumpulan Data ............................................................................. 20
Text Preprocessing ............................................................................. 21
Training Data ..................................................................................... 21
Feature Selection................................................................................ 21

Klasifikasi Soal Ujian SBMPTN (Naive Bayes Classifier ) ............... 24
Evaluasi .............................................................................................. 25
4. BAB IV HASIL DAN PEMBAHASAN.......................................................... 28
Pengumpulan Data ............................................................................. 28
Text Preprocessing ............................................................................. 28
Training Data ..................................................................................... 29
Feature Selection................................................................................ 31

Klasifikasi Soal Ujian SBMPTN (Naive Bayes Classifier ) ............... 33
Evaluasi .............................................................................................. 34
5. BAB V PENUTUP ........................................................................................... 51
Kesimpulan......................................................................................... 51
Saran ................................................................................................... 51
DAFTAR PUSTAKA ........................................................................................... 52

xii

DAFTAR TABEL
Tabel 2.1 Kombinasi awalan dan akhiran yang tidak diijinkan .............................. 7
Tabel 2.2 Cara menentukan tipe awalan kata yang diawali dengan “te-“ ............... 8
Tabel 2.3 Jenis awalan berdasarkan tipe awalannya ............................................... 8
Tabel 2.4 Daftar Stopwords dalam Bahasa Indonesia ........................................... 12
Tabel 2.5 Keterkaitan penelitian dengan penelitian sebelumnya .......................... 18
Tabel 3.1 Contoh Term Frequency dan Document Frequency ............................. 22
Tabel 3.2 Confusion matrix hasil klasifikasi ......................................................... 25
Tabel 4.1 Pengaruh pemilihan angka threshold terhadap akurasi......................... 33
Tabel 4.2 Precision, recall, dan f-measure dari proses memorizing I .................. 34
Tabel 4.3 Confussion matrix dari proses testing I ................................................ 36
Tabel 4.4 Precision, recall, dan f-measure dari proses testing I ........................... 36
Tabel 4.5 Precision, recall, dan f-measure dari proses memorizing II ................. 37
Tabel 4.6 Confussion matrix dari proses testing II ............................................... 38
Tabel 4.7 Precision, recall, dan f-measure dari proses testing II ......................... 39
Tabel 4.8 Hasil evaluasi klasifikasi ....................................................................... 39
Tabel 4.9 Fitur data testing yang gagal diklasifikasikan dengan benar pada proses
testing I ............................................................................................... 40

Tabel 4.10 Daftar keyword dari kelas Reaksi Redoks dan Elektrokimia dan kelas
Metabolisme ....................................................................................... 42
Tabel 4.11 Mean dan varian fitur dari kelas Reaksi Redoks dan Elektrokimia dan
kelas Metabolisme .............................................................................. 43
Tabel 4.12 Daftar keyword dari kelas Sosialisasi sebagai Proses dalam
Pembentukan Kepribadian dan kelas Terjadinya Perilaku Menyimpang
dan Sikap Antisosial ........................................................................... 44
Tabel 4.13 Mean dan varian fitur dari kelas Sosialisasi sebagai Proses dalam
Pembentukan Kepribadian dan kelas Terjadinya Perilaku Menyimpang
dan Sikap Antisosial ........................................................................... 45

xiii

Tabel 4.14 Daftar keyword dari kelas Proses Interaksi Sosial sebagai Dasar
Pengembangan Pola Keteraturan dan Dinamika Kehidupan dan kelas
Perubahan Sosial di Masyarakat ........................................................ 46
Tabel 4.15 Mean dan varian fitur dari kelas Proses Interaksi Sosial sebagai Dasar
Pengembangan Pola Keteraturan dan Dinamika Kehidupan dan kelas
Perubahan Sosial di Masyarakat ........................................................ 47
Tabel 4.16 Daftar fitur soal ujian yang gagal diklasifikasikan dengan benar pada
proses testing II .................................................................................. 48
Tabel 4.17 Daftar keyword dari kelas Jaringan Tumbuhan dan kelas Pertumbuhan
dan Perkembangan – Teori ................................................................. 48
Tabel 4.18 Mean dan varian fitur dari kelas Jaringan Tumbuhan dan kelas
Pertumbuhan dan Perkembangan – Teori .......................................... 49
Tabel 4.19 Perbandingan fitur soal ujian data testing I dan II kelas Reaksi Redoks
dan Elektrokimia ................................................................................ 50

xiv

DAFTAR GAMBAR
Gambar 2.1 Proses Tokenisasi .............................................................................. 11
Gambar 3.1 Diagram alir metodologi penelitian................................................... 20
Gambar 4.1 Contoh tahapan text preprocesiing .................................................... 29
Gambar 4.2 Contoh perhitungan nilai mean dan varian ....................................... 30
Gambar 4.3 Contoh proses yang terjadi pada tahap seleksi fitur .......................... 32

xv

DAFTAR LAMPIRAN
LAMPIRAN A DAFTAR TEMA BIDANG STUDI ......................................... 54
LAMPIRAN B DATA TEKSTUAL SOAL UJIAN SBMPTN .......................... 59
LAMPIRAN C PENGUJIAN SISTEM ............................................................... 79

xvi