Klasifikasi Supervised Learning Pada Teks Bahasa Bali Dengan Metode Information Gain Dan Naive Bayes Classifier.

TESIS

KLASIFIKASI SUPERVISED LEARNING
PADA TEKS BAHASA BALI DENGAN METODE
INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

IDA BAGUS GEDE WIDNYANA PUTRA

PROGRAM PASCASARJANA
UNIVERSITAS UDAYANA
DENPASAR
2016

iii

TESIS

KLASIFIKASI SUPERVISED LEARNING
PADA TEKS BAHASA BALI DENGAN METODE
INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER


IDA BAGUS GEDE WIDNYANA PUTRA
NIM 1491761007

PROGRAM MAGISTER
PROGRAM STUDI TEKNIK ELEKTRO
PROGRAM PASCASARJANA
UNIVERSITAS UDAYANA
DENPASAR
2016

KLASIFIKASI SUPERVISED LEARNING
PADA TEKS BAHASA BALI DENGAN METODE
INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

Tesis untuk Memperoleh Gelar Magister
pada Program Magister, Program Studi Teknik Elektro,
Program Pascasarjana Universitas Udayana

IDA BAGUS GEDE WIDNYANA PUTRA
NIM 1491761007


PROGRAM MAGISTER
PROGRAM STUDI TEKNIK ELEKTRO
PROGRAM PASCASARJANA
UNIVERSITAS UDAYANA
DENPASAR
2016
ii

iii

Tesis Ini Telah Diuji Pada
Tanggal 15 Juli 2016

Panitia Penguji Tesis Berdasarkan SK Rektor Universitas Udayana,
Nomor : 3241/UN14.4/HK/2016, Tanggal 14 Juli 2016

Ketua

: Dr. Ir. Made Sudarma, M.A.Sc


Anggota

:
1. I Nyoman Satya Kumara, ST., M.Sc, PhD
2. Prof. Ir. Rukmi Sari Hartati, MT., PhD
3. NMAE Dewi Wirastuti, ST., MSc., PhD
4. Prof. Ir. Ida Ayu Dwi Girintari, MengSc., PhD

iv

SURAT PERNYATAAN BEBAS PLAGIAT

Nama

: Ida Bagus Gede Widnyana Putra

NIM

: 1491761007


Program Studi

: Magister Teknik Elektro

Judul

: KLASIFIKASI SUPERVISED LEARNING PADA TEKS
BAHASA BALI DENGAN METODE INFORMATION
GAIN DANNAIVE BAYES CLASSIFIER

Dengan ini menyatakan bahwa karya tulis ilmiah Tesis ini bebas plagiat. Apabila
dikemudian hari terbukti terdapat plagiat dalam karya ilmiah ini, maka saya
bersedia menerima sanksi sesuai peraturan Mendiknas RI No. 17 Tahun 2010 dan
Peraturan Perundang-undangan yang berlaku.

Denpasar, 15 Juli 2015
Yang Membuat Pernyataan

Ida Bagus Gede Widnyana Putra


v

UCAPAN TERIMAKASIH

Puji dan syukur penulis panjatkan kehadapan Ida Sang Hyang Widhi Wasa
atas asung kerta waranugraha-Nya, penulis dapat menyelesaikan tesis yang berjudul
“KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI
DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER”.
Dalam menyelesaikan tesis ini, penulis mendapatkan banyak bantuan, bimbingan
dan dorongan dari berbagai pihak. Maka dari itu pada kesempatan ini penulis ingin
mengucapkan terimakasih kepada :
Bapak Gubernur Bali dan Kepala BKD Provinsi Bali atas beasiswa dan
kesempatan yang diberikan untuk melanjutkan pendidikan di Program Pasca
Sarjana Universitas Udayana serta Bapak Kalaksa BPBD Provinsi Bali dan Kepala
UPT. Pusdalops PB BPBD Provinsi Bali selaku pimpinan tempat penulis bekerja
atas ijin yang diberikan untuk mengikuti pendidikan di Program Magister Teknik
Elektro, program studi Manajemen Sistem Informasi dan Komputer, Pascasarjana
Universitas Udayana.
Prof. Dr. dr. Ketut Suastika SpPD KEMD selaku Rektor Universitas

Udayana dan Prof. Dr. dr. A.A. Raka Sudewi, Sp.S(K) selaku Direktur Program
Pascasarjana Universitas Udayana atas kesempatan dan fasilitas yang diberikan
kepada penulis untuk mengikuti dan menyelesaikan pendidikan pada Program
Magister di UniversitasUdayana.
Prof. Ir. Ida Ayu Dwi Girintari, MengSc., PhD selaku Ketua Program
Magister Program Studi Teknik Elektro Pascasarjana Universitas Udayana dan
dosen penguji tesis atas kesempatan dan masukan yang diberikan kepada penulis
untuk mengikuti dan menyelesaikan pendidikan pada Program Magister Teknik
Elektro Universitas Udayana.
Dr.Ir. Made Sudarma, M.A.Sc selaku dosen pembimbing I dan I Nyoman
Satya Kumara, ST.,MSc.,PhD selaku dosen pembimbing II atas bimbingan, arahan,
saran, dan dukungan selama penyusunan tesis ini serta para dosen penguji Prof. Ir.
Rukmi Sari Hartati, MT., PhD, NMAE Dewi Wirastuti, ST., MSc., PhD,Wayan

vi

Gede Ariastina, ST.,MengSc.,PhD, yang telah memberikan saran, sanggahan dan
koreksi sehingga tesis ini menjadi lebih baik serta seluruh dosen Program Magister
Teknik Elektro Universitas Udayana atas ilmu yang telah diberikan.
Orang tua terbaik Drs. Ida Bagus Antara dan Ida Ayu Gde Suwardani, S.Pd

serta istri tercinta Anak Agung Diah Pratiwi, S.Pd. yang tiada hentinya berdoa,
memberi semangat dan dukungan yang sangat besar sehingga penulis bisa
menyelesaikan pendidikan tepat waktu.
Teman-teman Magister Teknik Elektro program studi Manajemen Sistem
Informasi dan Komputer Angkatan 2014 atas kerjasama dan dukungannya serta
semua pihak yang telah membantu dalam penyusunan laporan tesis ini yang tidak
dapat disebutkan satu per satu.
Penulis menyadari bahwa penulisan tesis yang telah dibuat masih jauh dari
kesempurnaan. Oleh karena itu, penulis sangat mengharapkan kritik dan saran yang
membangun dari pembaca dan mohon maaf apabila ada kesalahan dalam penulisan
dan penyusunan tesis ini.

Penulis

vii

ABSTRAK

KLASIFIKASI SUPERVISED LEARNINGPADA TEKS BAHASA
BALIDENGAN METODE INFORMATION GAIN DAN

NAIVE BAYES CLASSIFIER

Ketersediaan dokumen teks bahasa Bali yang meningkat jumlahnya membuat
proses pencarian informasi pada dokumen teks berbahasa Bali menjadi semakin
sulit. Mengklasifikasikanya secara manual menjadi tidak efisien mengingat
peningkatan jumlah dokumen yang semakin banyak. Pada penelitian ini
dikembangkan sebuah aplikasi yang dapat mengklasifikasikan teks bahasa Bali ke
dalam kategori yang ditentukan. Aplikasi ini menggunakan metode klasifikasi
Naive Bayes Classifier (NBC) dan metode Information Gain (IG) untuk seleksi
fitur. Aplikasi ini diuji dengan teknik cross validation. Hasilnya adalah nilai ratarata akurasi dari 10 fold cross validation sebesar 95,22%.
Keywords : information gain, naive bayes classifier, text mining, cross
validation

viii

ABSTRACT

KLASIFIKASI SUPERVISED LEARNINGPADA TEKS BAHASA
BALIDENGAN METODE INFORMATION GAIN DAN
NAIVE BAYES CLASSIFIER


Increasing availability of Balinese language text documents making the
process of finding or classifying information in Balinese text documents is
becoming increasingly difficult. Manual classification is inefficient in view of the
increase in the number of Balinese written documents. On this paper, application
that can classify Balinese text into various document class is presented. The
application is developed using Naive Bayes classifier (NBC) method and feature
selection using Information Gain (IG) technique. Application is tested using cross
validation method. The resultsshows that average accuracy of 10 fold cross
validation is 95.22%.
Keywords : information gain, naive bayes classifier, text mining, cross
validation

ix

DAFTAR ISI

HALAMAN JUDUL .................................................................................................. i
PERSYARATAN GELAR ........................................................................................ ii
LEMBAR PERSETUJUAN ..................................................................................... iii

PENETAPAN PANITIA PENGUJI ......................................................................... iv
SURAT PERNYATAAN BEBAS PLAGIAT ...........................................................v
UCAPAN TERIMA KASIH..................................................................................... vi
ABSTRAK .............................................................................................................. viii
ABSTRACT .............................................................................................................. ix
DAFTAR ISI ...............................................................................................................x
DAFTAR TABEL .................................................................................................... xii
DAFTAR GAMBAR .............................................................................................. xiii
DAFTAR ISTILAH DAN SINGKATAN .............................................................. xiv
I

II

PENDAHULUAN ...............................................................................................1
1.1

LatarBelakang ..........................................................................................1

1.2


RumusanMasalah .....................................................................................5

1.3

TujuanPenelitian ......................................................................................6

1.4

ManfaatPenelitian ....................................................................................6

1.5

RuangLingkupPenelitian ..........................................................................6

1.6

KeaslianPenelitian ....................................................................................7

KAJIAN PUSTAKA..........................................................................................10
2.1

State Of The Art Review .........................................................................10

2.2

Klasifikasi Dokumen..............................................................................13

2.3

Morfologi Bahasa Bali ...........................................................................15

2.4

Text Mining ............................................................................................18

2.5

Information Retrieval .............................................................................20
x

2.6

Natural Langguage Processing..............................................................24

2.7

Naive Bayes Classifier ...........................................................................28

2.8

Term Weighting ......................................................................................30

2.9

Information Gain....................................................................................32

2.10

Cross Validation.....................................................................................32

III METODELOGI PENELITIAN ........................................................................35
3.1

GambaranUmumSistem .........................................................................35

3.2

RancanganAlurPenelitian .......................................................................36

3.3

AlatdanBahanPenelitian .........................................................................45

3.4

JadwalPenelitian.....................................................................................45

IV HASIL DAN PEMBAHASAN .........................................................................47

V

4.1

Antar MukaSistem .................................................................................47

4.2

Tahap Preprocessing..............................................................................48

4.3

Tahap Seleksi Fitur ................................................................................54

4.4

Tahap Pelatihan ......................................................................................57

4.5

Tahap Klasifikasi ...................................................................................61

4.6

Hasil Validasi dan Evaluasi dengan K-Fold Cross Validation ..............63

4.7

Waktu Proses Sistem ..............................................................................64

KESIMPULAN DAN SARAN .........................................................................66
5.1

Kesimpulan ............................................................................................66

5.2

Saran ......................................................................................................67

DAFTAR PUSTAKA ...............................................................................................68

xi

DAFTAR TABEL

Tabel 2.1 Pemetaan Keaslian Penelitian...................................................................12
Tabel 2.2 Kemungkinan Hasil Test IR ....................................................................23
Tabel 3.1 Ilustrasi Eksperimen 10 Fold Validation..................................................44
Tabel 3.2 JadwalPenelitian .......................................................................................46
Tabel4.1 Tahapan Proses Stemming ........................................................................53
Tabel4.2 Hasil Seleksi Fitur ....................................................................................55
Tabel4.3 Hasil Perbandingan Klasifikasi dengan TFIDF dan IG ...........................57
Tabel4.4 Hasil Percobaan Untuk Menentukan Jumlah Fitur ...................................58
Tabel4.5 Hasil Tahap Pelatihan ...............................................................................59
Tabel4.6 Hasil 10 Fold Cross Validation ................................................................63
Tabel4.7 Lama Waktu Proses Setiap Tahap ............................................................65

xii

DAFTAR GAMBAR
Gambar 1.1

DiagramFishbonePenelitian ................................................................9

Gambar 2.1

High-level text mining functional architecture .................................20

Gambar 2.2

Arsitektur Dasar Sistem IR................................................................21

Gambar 2.3

Flowchart 10 Fold Cross Validation.................................................34

Gambar3.1

Gambaran Umum Sistem ..................................................................35

Gambar3.2

Alur Penelitian...................................................................................36

Gambar3.3

Alur Proses Processing ......................................................................38

Gambar 3.4

Alur Proses Pelatihan dengan Algoritma NBC ................................41

Gambar 3.5

Alur Proses Klasifikasi dengan Algoritma NBC ..............................42

Gambar 3.6

Penggunaan Rumus pada Tahap Pelatihan dan Klasifikasi...............42

Gambar 3.7

Alur Proses 10 Fold Cross Validation ..............................................44

Gambar4.1

Antar Muka Sistem ............................................................................47

Gambar4.2

Dokumen Asli....................................................................................48

Gambar4.3

Hasil Transform Case ........................................................................49

Gambar4.4

Hasil Tokenization .............................................................................50

Gambar4.5

Hasil Filter Token (by Length) ..........................................................51

Gambar4.6

Hasil Filter Stopwords .......................................................................52

Gambar4.7

Form Input Seleksi Fitur....................................................................54

Gambar4.8

Hasil Seleksi Fitur .............................................................................55

Gambar4.9

Grafik Hasil Perbandingan Klasifikasi dengan TFIDF dan IG .........57

Gambar4.10 Form Input Tahap Pelatihan ..............................................................58
Gambar4.11 Grafik Perbandingan Berdasarkan Jumlah Fitur ...............................59
Gambar4.12 Form Input Tahap Klasifikasi ...........................................................61
Gambar4.13 Hasil Tahap Klasifikasi ....................................................................62
Gambar4.14 Hasil Tidak Terklasifikasi .................................................................62
Gambar4.15 Grafik Tingkat Precision, Recal dan Akurasi pada setiap fold .........64
xiii

DAFTAR ISTILAH DAN SINGKATAN

CV

: Cross Validation

IDF

: Inverse Document Frequency

IG

: Information Gain

IR

: Information Retrieval

NBC

: Naive Bayes Classifier

NLP

: Natural Language Processing

TF

: Term Frequency

xiv