Klasifikasi Dokumen Teks Menggunakan Metode Support Vector Machine dengan Pemilihan Fitur Chi-Square.

KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN
METODE SUPPORT VECTOR MACHINE DENGAN
PEMILIHAN FITUR CHI-SQUARE

ARINI DARIBTI PUTRI

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Dokumen
Teks Menggunakan Metode Support Vector Machine dengan Pemilihan Fitur ChiSquare adalah benar karya saya dengan arahan dari komisi pembimbing dan belum
diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
daftar pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, Juni 2013
Arini Daribti Putri
NIM G64090087

ABSTRAK
ARINI DARIBTI PUTRI. Klasifikasi Dokumen Teks Menggunakan Metode
Support Vector Machine dengan Pemilihan Fitur Chi-Square. Dibimbing oleh
JULIO ADISANTOSO.
Peningkatan jumlah dokumen membuat masyarakat semakin sulit
memperoleh informasi sesuai dengan apa yang diinginkan. Masalah ini
memerlukan teknik pengolahan teks yang mengorganisasikan dokumen sesuai
dengan ketegorinya. Salah satunya adalah klasifikasi teks. Klasifikasi teks dapat
mengorganisasikan dokumen sesuai dengan ketegori yang telah ditentukan
sebelumnya secara otomatis. Salah satu metode klasifikasi ruang vektor teks yang
populer ialah support vector machine (SVM) yang berusaha mencari bidang
pemisah terbaik pada input space. Algoritme ini merupakan algoritme klasifikasi
terbaik dibandingkan dengan metode klasifikasi ruang vektor lainnya, yaitu
Rocchio, k-nearest neighbor (KNN) dan decision tree. Penelitian ini bertujuan
menerapkan dan mengevaluasi metode SVM yang dapat meningkatkan kinerja

fungsi klasifikasi dokumen serta mengukur akurasi algoritme SVM dalam proses
komputasi. Hasil akhir menunjukkan bahwa kernel linear dan kernel polinomial
pada pengujian SVM menghasilkan nilai akurasi yang sama, yaitu 96.3504% dan
pengujian kernel RBF menghasilkan akurasi sebesar 95.6204% untuk klasifikasi
dokumen teks menggunakan pemilihan fitur ciri chi-squared.
Kata kunci: klasifikasi teks, mesin pembelajaran, support vector machines

ABSTRACT
ARINI DARIBTI PUTRI. Text Document Classification Using Support Vector
Machine Method with Chi-Square Feature Selection. Supervised by JULIO
ADISANTOSO.
Increasing number of documents makes people more difficult to obtain the
information which they desired. This problem requires text processing techniques
to organize the documents in accordance with the categories. One of which is text
classification. Text classification can organize document in accordance with
predefined categories automatically (supervised machine learning). One popular
method of text classification is support vector machines (SVM) that tries to find
the best hyperplane in the input space. This algorithm is the best classification
algorithm compared with other vector space classification method, namely
Rocchio, k-nearest neighbor (KNN) and decision tree. This research measures the

suitability of SVM for text classification and to prove whether the SVM is able to
classify the documents in a linear separable manner. The final result shows that
linear kernel and polynomial kernel in the SVM test produce the same accuracy
value of 96.3504% and testing the RBF kernel produces accuracy of 95.6204% for
classification of text documents using chi-squared feature selection.
Keywords: text classification, machine learning, support vector machines

KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN
METODE SUPPORT VECTOR MACHINE DENGAN
PEMILIHAN FITUR CHI-SQUARE

ARINI DARIBTI PUTRI

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN
INSTITUT PERTANIAN BOGOR
BOGOR
2013

Judul Skripsi : Klasifikasi Dokumen Teks Menggunakan Metode Support Vector
Machine dengan Pemilihan Fitur Chi-Square.
Nama
: Arini Daribti Putri
NIM
: G64090087

Disetujui oleh

Ir Julio Adisantoso, MKom
Pembimbing I

Diketahui oleh

Dr Ir Agus Buono, MSi MKom

Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga sehingga penulis dapat menyelesaikan tugas akhir
dengan judul Klasifikasi Dokumen Teks Menggunakan Metode Support Vector
Machine dengan Pemilihan Fitur Chi-Square.
Penulis juga menyampaikan terima kasih kepada pihak-pihak yang telah
membantu dalam penyelesaian tugas akhir ini, yaitu:
1. Ayahanda Ibrahim, Ibunda Nuriyanti, serta keluarga besar penulis (Hendra
Rianda, Rindu, dan Riski Ramadhanif) yang selalu memberikan doa, nasihat,
semangat, dan kasih sayang yang luar biasa kepada penulis.
2. Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir
yang memberikan bimbingan, ide, dukungan, semangat serta kesabaran dalam
pengerjaan tugas akhir ini.
3. Bapak Ahmad Ridha dan Bapak Musthafa selaku dosen penguji yang telah
memberi masukan dan saran pada tugas akhir penulis.
4. Kak Wido dan Sapariansyah atas kerjasamanya dalam menyelesaikan tugas

akhir ini.
5. Rekan satu bimbingan Damayanti Elizabeth, Rahmatika Dewi, Fitria
Rahmadina, Achmad Mansur Z, Tedy Saputra, dan Edo Apriyadi. Terima
kasih atas bantuan, kebersamaan dan semangatnya dalam menyelesaikan tugas
akhir ini.
6. Mellisa, Sasa, Haikal, Vony, Galih, Dola, Julian, Kak Zhia, Dhila. Terima
kasih atas semangat dan dukungannya yang telah diberikan kepada penulis.
Semoga kita bisa berjumpa kembali kelak sebagai orang-orang sukses.
7. Seluruh keluarga besar IKPMR yang terus menyebarkan energi positif dan
memberikan semangat kepada penulis selama melaksanakan tugas akhir ini.
8. Seluruh keluarga besar KRIBONDING, KOST HARMONI 2 yang selalu
bersedia mendengarkan keluh kesah, dan memberikan semangat kepada
penulis selama melaksanakan tugas akhir ini.
9. Seluruh rekan-rekan Ilmu Komputer angkatan 46 atas segala kebersamaan,
bantuan, canda tawa, dan kenangan indah serta semangat bagi penulis slama
masa studi. Semoga kita semua bisa berjumpa kembali kelak sebagai orangorang sukses.
Bogor, Juni 2013

Arini Daribti Putri


DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi

PENDAHULUAN

1

Latar Belakang

1


Perumusan Masalah

2

Tujuan Penelitian

2

Manfaat Penelitian

2

Ruang Lingkup Penelitian

2

METODE

3


Gambaran Umum Sistem

3

Data Penelitian

3

Praproses

4

Pemilihan Fitur Ciri

4

Pembobotan Kata

6


Klasifikasi Dokumen

6

Pengujian

9

Lingkungan pengembangan sistem

9

HASIL DAN PEMBAHASAN

10

Pengumpulan Dokumen

10


Praproses

10

Pemilihan Fitur Ciri dan Pembobotan Kata

10

Klasifikasi Dokumen

11

Pengujian

13

SIMPULAN DAN SARAN

15

Simpulan

15

Saran

15

DAFTAR PUSTAKA

15

LAMPIRAN

17

DAFTAR TABEL
1
2
3
4
5
6
7
8
9

Tabel kontingensi antara kata terhadap kelas
Nilai kritis � untuk taraf nyata α
Confusion matrix untuk klasifikasi biner
Deskripsi dokumen uji (.xml)
Hasil tahap pemilihan fitur ciri dengan taraf nyata 0.01
Matriks dimensi M × N klasifikasi
Hasil akurasi parameter terbaik pada pemodelan setiap kernel
Confusion matrix SVM dengan data 137 × 6802
Confusion matrix SVM dengan data 137 × 1309

5
6
9
10
11
12
13
14
14

DAFTAR GAMBAR
1
2
3

Tahap penelitian
SVM berusaha menemukan bidang pemisah terbaik (Manning
et al. 2008)
Transformasi klasifikasi dua dimensi ke dalam ruang fitur tiga
dimensi (Gijsberts 2007)

3
7
8

DAFTAR LAMPIRAN
1 Hasil pengujian setiap kernel
2 Hasil grid search pada kernel RBF

17
18

PENDAHULUAN
Latar Belakang
Perkembangan teknologi informasi yang melibatkan banyak dokumen
semakin meningkat. Penyimpanan dokumen yang berisi tentang segala sumber
informasi dari penyedia sumber informasi tersebut tersebar di berbagai lokasi.
Penyebaran informasi tersebut banyak dilakukan dengan menggunakan media
berupa halaman web. Menurut riset dari Hearst (2003), ukuran data di media
Internet tahun 2002 mencapai 532897 Terabytes dengan sekitar 41.7%-nya adalah
teks. Berdasarkan Netcraft Web Server Survey, jumlah halaman yang aktif pada Mei
2008 adalah 168 milyar situs web. Volume yang besar membuat masyarakat
semakin sulit memperoleh informasi sesuai dengan yang diinginkan. Untuk itu,
diperlukan teknik pengolahan teks yang mengorganisasikan dokumen sesuai
dengan ketegorinya, sehingga informasi yang tersedia dapat terorganisasi dengan
baik dan mudah diakses sesuai dengan kebutuhan pengguna. Salah satu metode
yang dapat digunakan adalah klasifikasi dokumen. Klasifikasi dokumen adalah
proses menggolongkan suatu dokumen ke dalam suatu kategori tertentu (Manning
et al. 2008).
Klasifikasi termasuk teknik pembelajaran mesin atau biasa disebut supervised
learning. Menurut Manning et al. (2008), supervised learning adalah proses
pembelajaran mengenai ciri dari tiap-tiap kategori yang ada. Teknik ini membangun
sebuah classifier yang mempelajari ciri tiap kategori berdasarkan dokumen latih
yang dimiliki. Beberapa metode klasifikasi yang dapat digunakan dalam proses
pembelajaran, yaitu multinomial naive bayes, multivariate Bernoulli model,
Rocchio classification, k-Nearest Neighbor (KNN), dan support vector machine
(SVM).
Peningkatan dokumen akan mempengaruhi kinerja klasifikasi yang
menyebabkan kerja sistem classifier akan semakin berat. Hal tersebut dikarenakan
sistem klasifikasi mengambil isi dari uraian setiap dokumen. Salah satu cara untuk
meningkatkan kinerja dari sistem klasifikasi dengan menerapkan teknik pemilihan
fitur dokumen. Pemilihan fitur merupakan suatu metode yang bertujuan untuk
mengurangi jumlah kata yang digunakan untuk menjadi penciri dan meningkatkan
akurasi hasil klasifikasi. Ada beberapa teknik yang digunakan untuk melakukan
pemilihan fitur dokumen antara lain document frequency thresholding (DF),
information gain (IG), mutual information (MI), term strength (TS) dan chi-square
testing (� ) (Yang et al. 2003). Penelitian klasifikasi teks menggunakan pemilihan
fitur ciri yang telah dilakukan sebelumnya, antara lain Herawan (2011)
menggunakan metode naive bayes dengan ekstraksi ciri chi-square dan Saputra
(2012) menggunakan metode semantic smoothing dengan ekstraksi ciri chi-square.
Akurasi yang diperoleh dari penelitian dengan menggunakan naive Bayes adalah
93.26% dan semantic smoothing adalah 95.55%. Hal ini membuktikan bahwa kedua
penelitian tersebut dapat digunakan untuk melakukan klasifikasi dokumen teks.
Namun metode ini cocok untuk dokumen yang relatif pendek.
Penelitian ini menggunakan teknik klasifikasi yang mampu memisahkan
dokumen secara linear menggunakan metode SVM dengan pemilihan fitur ciri chisquare. Support vector machine merupakan supervised learning di mana metode
ini berusaha mencari hyperplane (bidang pemisah) terbaik pada input space,

2

sehingga masalah klasifikasi non-linear dapat diselesaikan dengan cara
meningkatkan dimensi ruangnya (Pilászy 2005). Pada metode SVM terdapat fungsi
kernel yang memetakan data ke ruang vektor yang berdimensi lebih tinggi sehingga
kelas dapat dipisahkan secara linear oleh sebuah bidang pemisah. Dengan demikian
metode ini diharapkan dapat menghasilkan kinerja klasifikasi lebih baik dan lebih
efisien.
Perumusan Masalah
Perumusan masalah pada penelitian ini adalah:
1 Apakah SVM mampu mengkategorikan dokumen teks?
2 Seberapa besar akurasi yang dihasilkan dari SVM dalam mengklasifikasikan
dokumen dengan menggunakan pemilihan fitur chi-square?
3 Apa pengaruh pemilihan fitur chi-square terhadap klasifikasi SVM?
Tujuan Penelitian
Tujuan penelitian ini adalah menerapkan dan mengevaluasi metode SVM
menggunakan pemilihan fitur chi-square yang dapat meningkatkan kinerja fungsi
klasifikasi dokumen teks serta mengukur akurasi algoritme SVM dengan melihat
pengaruh pemilihan fitur chi-square dalam proses komputasi.
Manfaat Penelitian
Penelitian ini diharapkan dapat menambah metode klasifikasi dokumen dan
membantu dalam mengorganisasikan dokumen secara cepat, efisien, dan memiliki
kinerja sangat baik.
Ruang Lingkup Penelitian
1
2
3
4

Ruang lingkup penelitian ini meliputi:
Dokumen yang digunakan adalah dokumen berbahasa Indonesia berisi tentang
pertanian berjumlah 457 dokumen dalam format XML.
Koleksi dokumen dibagi menjadi dua kelas yaitu kelas tanaman obat dan kelas
hortikultura.
Penelitian difokuskan kepada klasifikasi dokumen dengan menggunakan metode
klasifikasi SVM.
Pemodelan dan pengujian SVM menggunakan Matlab R2008b dengan
menggunakan Library for Support Vector Machine (LIBSVM).

3

METODE
Gambaran Umum Sistem
Alur dari penelitian secara garis besar ditunjukkan pada Gambar 1. Beberapa
tahap dari sistem yaitu pengumpulan dokumen, praproses, pembagian data,
pemodelan dan pengujian hasil klasifikasi.

Gambar 1 Tahap penelitian
Pada penelitian ini, data yang diproses merupakan koleksi dokumen yang
dibagi menjadi dua kategori yaitu data latih dan data uji. Kedua kategori data
tersebut akan digunakan pada tahapan praproses yang terdiri atas tokenisasi,
stopword, pemilihan fitur ciri, dan pembobotan.
Tahap selanjutnya adalah pemodelan dengan menggunakan metode
klasifikasi SVM pada data latih dan hasilnya digunakan sebagai dasar pembuatan
model SVM. Setelah itu dilakukan pengujian model klasifikasi terhadap dokumen
uji yang sudah diketahui kelasnya dan dilakukan proses perhitungan hasil
klasifikasi.
Data Penelitian
Data penelitian yang digunakan merupakan penggabungan hasil koleksi
dokumen tumbuhan obat dan dokumen hortikultura yang berasal dari Laboratorium
Temu Kembali Informasi IPB yang sudah pernah digunakan pada penelitian
Herawan (2011) dan Sari (2012).

4

Koleksi dokumen yang digunakan sebanyak 457 dokumen dibagi menjadi
70% dokumen latih (320 dokumen) dan 30% dokumen uji (137 dokumen). Data
latih digunakan sebagai input pelatihan pengklasifikasi SVM dan data uji
digunakan untuk menguji model hasil pelatihan SVM.
Data ini merupakan dokumen berbahasa Indonesia dengan format XML.
Kusnawi (2010) menyatakan bahwa XML merupakan bahasa markup yang
dirancang untuk penyampaian informasi melalui website dan juga dapat digunakan
untuk pertukaran informasi antar sistem database.
Praproses
Tahapan awal dalam proses klasifikasi setelah dokumen tersedia adalah
praproses. Tahap pertama yang dilakukan saat praproses adalah tokenisasi, yaitu
proses pemisahan kata dari dokumen dengan menggunakan karakter spasi sebagai
tanda pemisahnya (Wibowo 2010). Proses ini diawali dari mengambil isi dokumen
dengan tabel corpus, selanjutnya dilakukan proses pembacaan seluruh karakter
yang terdapat pada dokumen, baik karakter huruf, angka, tanda baca dan karakter
yang tidak terlihat. Dengan demikian, tokenisasi membagi teks input menjadi unitunit kecil yang dapat berupa suatu kata atau angka.
Tahap kedua yaitu membuang daftar kata yang tidak bermakna yang biasa
disebut stopword. Kata yang tercantum dalam daftar koleksi dokumen dibuang dan
tidak ikut diproses pada tahap selanjutnya. Kata-kata yang termasuk dalam
stopwords pada umumnya merupakan kata-kata yang sering muncul di setiap
dokumen sehingga kata tersebut tidak dapat digunakan sebagai penciri suatu
dokumen (Herawan 2011). Proses ini bertujuan mengekstrak kata yang tidak
penting dari dokumen.
Pemilihan Fitur Ciri
Pemilihan fitur merupakan suatu proses memilih subset dari setiap kata unik
yang ada di dalam himpunan dokumen latih yang akan digunakan sebagai fitur di
dalam klasifikasi dokumen (Manning et al. 2008). Menurut Manning et al. (2008),
pemilihan fitur memiliki dua tujuan, yaitu mengurangi jumlah kata yang digunakan
dan meningkatkan akurasi hasil klasifikasi. Ada beberapa metode pemilihan fitur
yang baik untuk proses klasifikasi dokumen, yaitu pemilihan fitur berbasis
frekuensi, information gain, dan chi-square (� ).
Pada penelitian ini, pemilihan fitur dilakukan dengan metode chi-square. Chisquare merupakan pengujian hipotesis mengenai perbandingan antara frekuensi
contoh yang benar-benar terjadi dengan frekuensi harapan yang didasarkan atas
hipotesis tertentu pada setiap kasus atau data (Herawan 2011). Perhitungan nilai
chi-square yang digunakan untuk melakukan pengujian perbedaan antara pola
frekuensi observasi (�� ) dengan frekuensi harapan (�� ) menggunakan formula :


� =∑
dengan

�=

�� − ��
��

1

5

ei =

∑ fk × ∑ fb
∑T

Σfk adalah jumlah frekuensi pada kolom, Σfb adalah jumlah frekuensi pada baris
dan ΣT = jumlah keseluruhan baris atau kolom. Berdasarkan nilai chi-square pada
Persamaan 1 dapat diambil suatu keputusan statistik apakah terjadi perbedaan
antara pola frekuensi observasi dengan frekuensi harapan. Hipotesis nol (H0)
diterima jika nilai � < nilai kritis pada derajat bebas dan taraf nyata tertentu.
Hipotesis nol (H0) ditolak jika nilai � > nilai kritis pada derajat bebas dan taraf
nyata tertentu.
Pada penelitian ini, chi-square (� ) mengukur derajat bebas tiap kata penciri
t dengan kelas c agar dapat dibandingkan dengan sebaran � (Mesleh 2007). Chisquare menguji hubungan atau pengaruh dua variabel dan mengukur keterkaitan
antara variabel satu dengan lainnya.
Penghitungan nilai chi-square pada setiap kata t yang muncul pada setiap
kelas c dapat dibantu dengan menggunakan tabel kontingensi (Tabel 1). Nilai yang
terdapat pada tabel kontingensi merupakan nilai frekuensi observasi dari suatu kata
terhadap kelas.
Tabel 1 Tabel kontingensi antara kata terhadap kelas
Kelas
Kata

1
A
C

1
0

0
B
D

Penghitungan nilai chi-square berdasarkan Tabel 1 pada Persamaan 1 dapat
disederhanakan menjadi:
� t,c =

N(AD-CB)2
(A+C)(B+D)(A+B)(C+D)

dengan t merupakan kata yang sedang diujikan terhadap suatu kelas c, N merupakan
jumlah dokumen latih, A merupakan banyaknya dokumen pada kelas c yang
memuat kata t, B merupakan banyaknya dokumen yang tidak berada di c namun
memuat kata t, C merupakan banyaknya dokumen yang berada di kelas c namun
tidak memiliki kata t di dalamnya, serta D merupakan banyaknya dokumen yang
bukan merupakan dokumen kelas c dan tidak memuat kata t.
Pengambilan keputusan dilakukan berdasarkan nilai � dari masing-masing
kata. Kata yang memiliki nilai � di atas nilai kritis pada taraf nyata α adalah kata
yang akan dipilih sebagai penciri dokumen. Kata yang dipilih sebagai penciri
merupakan kata yang memiliki pengaruh terhadap kelas c. Nilai kritis � untuk taraf
nyata α ditunjukkan pada Tabel 2.

6


0.100
0.050
0.010
0.005
0.001

Tabel 2 Nilai kritis � untuk taraf nyata α

Nilai kritis
2.710
3.840
6.630
7.830
10.83

Penelitian ini menggunakan satu taraf nyata α yaitu 0.01 yang diartikan
bahwa kriteria kata yang dipilih sebagai penciri dokumen adalah kata yang
memiliki nilai χ2 lebih besar atau sama dengan 6.63. Hasil pemilihan fitur ini akan
dilakukan pembobotan dan kata-kata yang dipilih sebagai penciri tersebut akan
digunakan sebagai data masukan untuk klasifikasi.
Pembobotan Kata
Proses pembobotan dari suatu kata yang terpilih dengan menggabungkan
aspek lokal dan global pada setiap term, yaitu menghitung term frequency (tf) dari
setiap dokumen yang ada di koleksi dokumen dikalikan dengan bobot global
inverse document frequency (idf) pada setiap term.
tft,d × idf
di mana tf adalah jumlah kemunculan setiap term t dalam sebuah dokumen d dan
dinotasikan dengan tft,d sedangkan idf dari sebuah term t adalah kemunculan term
t pada keseluruhan dokumen disebut juga pembobotan global yaitu:
idf = log

N
dft

dengan N adalah banyaknya dokumen dan dft adalah jumlah dokumen yang
mengandung term t. Hasil dari pembobotan ini selanjutnya digunakan pada tahap
klasifikasi dokumen.
Klasifikasi Dokumen
Klasifikasi dibedakan menjadi dua jenis yaitu klasifikasi berbasis peluang dan
klasifikasi ruang vektor. Manning et al. (2008) menyatakan ada beberapa algoritme
yang dapat dilakukan untuk melakukan klasifikasi dokumen berbasis vektor yaitu
Rocchio, KNN, decision tree (DT) dan SVM.
Chenometh et al. (2009) merangkum perbandingan antara empat klasifikasi
berbasis ruang vektor yang sering digunakan dalam kategori teks yaitu Rocchio,
KNN, DT, dan SVM. Chenometh et al. (2009) menyatakan bahwa SVM merupakan
algoritme klasifikasi terbaik dibandingkan dengan lainnya, meskipun sangat mudah
terjadi error dalam data training. Sedangkan Kaiser et al. (2005) menyatakan
teknik-teknik tersebut berbeda dalam mekanisme pembelajaran dan representasi

7
model yang dipelajari. KNN dan SVM merupakan algoritme yang memberikan
hasil klasifikasi terbaik dengan presisi di atas 85%.
Hasil data latih dari semua tahap praproses terdiri atas beberapa dokumen
berupa vektor dari frekuensi kemunculan fitur yang digunakan pada sistem
klasifikasi untuk mengkategorikan dokumen. Metode klasifikasi yang digunakan
adalah SVM yang berusaha mencari bidang pemisah terbaik pada input space
(Pilászy 2005). Bidang pemisah terbaik ialah bidang pemisah yang menghasilkan
nilai margin terbesar dan berada di tengah-tengah antara dua set objek dari dua kelas
(Gambar 2). Nilai margin merupakan jarak antara bidang pemisah dengan elemen
terluar dari kedua kelas. Dalam hal ini fungsi pemisah yang dicari adalah fungsi
linear sebagai berikut:
f(x) = sign (wT xi + b = 0)
dengan w adalah bobot yang merepresentasikan posisi hyperplane pada bidang
normal, x adalah vektor data masukan, dan b adalah bias yang merepresentasikan
posisi bidang relatif terhadap pusat koordinat.

Gambar 2 SVM berusaha menemukan bidang
pemisah terbaik (Manning et al. 2008)
Selanjutnya data dikelompokkan dengan menggunakan fungsi pemisah yang
sudah ditemukan, di mana untuk menentukan kelasnya w.xi + b = +1 adalah bidang
pemisah pendukung dari kelas +1 dan w.xi + b = −1 adalah bidang pemisah
pendukung dari kelas −1.
Secara matematika, mencari bidang pemisah terbaik ekuivalen dengan
2
memaksimalkan margin antara dua kelas yang dihitung dengan formula
.
∥w∥ 2
Memaksimalkan margin antara kedua kelas sama dengan meminimumkan fungsi
tujuan ∥w∥ 2 dengan memperhatikan pembatas yi w∙xi+b ≥ 1 di mana xi adalah
data input dan yi adalah keluaran dari data xi.
Selanjutnya, masalah klasifikasi diformulasikan ke dalam quadratic
programming (QP) problem yang dapat diselesaikan dengan Lagrange multiplier:

8

� �, �, � =

∥w∥ 2 − ∑�
�= αi yi (w. xi + b – 1)

dengan ∝i adalah Lagrange multiplier yang berkorespondensi dengan xi.
SVM dapat menyelesaikan masalah klasifikasi non-linear dengan cara
meningkatkan dimensi ruangnya (Gambar 3). Untuk itu, terdapat fungsi kernel yang
memetakan data ke ruang vektor yang berdimensi lebih tinggi, sehingga kedua buah
kelas dapat dipisahkan secara linear oleh sebuah bidang pemisah pada ruang vektor
yang baru.

Gambar 3 Transformasi klasifikasi dua dimensi ke dalam
ruang fitur tiga dimensi (Gijsberts 2007)

Ada beberapa bentuk fungsi kernel, yaitu:
1 Fungsi linear (tanpa kernel)
Persamaan fungsi linear adalah,
K(x,xi) = xiT x
2 Fungsi polinomial
Persamaan fungsi polinomial adalah,
K(x,xi) = (γ∙xiT x + � ) d

3 Fungsi RBF
Persamaan fungsi polinomial adalah,

K(x,xi) = exp(-γ∥xi-x∥)2
Fungsi keputusannya (decision surface) setelah dilakukan kernel dapat ditulis
dalam:
N

f x =sign( ∑ α∙y∙K(x,xi) +b)
i=1

Pada penelitian ini proses pelatihan SVM dilakukan dengan menggunakan
fungsi kernel linear, polinomial, dan RBF. Parameter yang digunakan adalah

9
parameter terbaik dari hasil proses cross-validation dengan nilai fold ialah 5.
Penelitian ini menggunakan LIBSVM.
Setelah didapatkan hasil klasifikasi tiap kelas dari dokumen latih berdasarkan
klasifikasi SVM, maka proses selanjutnya dilakukan pengujian metode SVM dari
dokumen uji terhadap dokumen latih.
Pengujian
Pengujian hasil klasifikasi dokumen dilakukan untuk mengetahui tingkat
keakurasian klasifikasi SVM. Pengujian dilakukan pada hasil kelas untuk data uji
terhadap data latih. Pengujian penelitian ini menggunakan metode confusion matrix
dan perhitungan tingkat akurasi.
Confusion matrix merupakan sebuah tabel yang terdiri atas banyaknya baris
data uji yang diprediksi benar dan salah oleh model klasifikasi, yang digunakan
untuk menentukan kinerja suatu model klasifikasi (Tan et al. 2006). Pengujian
dilakukan untuk mendapatkan tingkat akurasi hasil prediksi yang berupa jumlah
true positive, true negative, false positive, dan false negative pada Tabel 3.
Tabel 3 Confusion matrix untuk klasifikasi biner
Actual Class

Predicted class
1

0

1

F11

F10

0

F01

F00

Perhitungan akurasi dinyatakan dalam persamaan berikut :
Akurasi =

F11+F00
F11+F10+F01+F00

Lingkungan pengembangan sistem
Penelitian ini menggunakan perangkat lunak dan perangkat keras dengan
spesifikasi adalah sebagai berikut:
1 Perangkat lunak:
 Sistem operasi Microsoft Windows 8
 Notepad++ sebagai code editor
 Matlab R2008b
 Java dan PHP MySQL sebagai bahasa pemrograman pada praproses
 Microsoft Office 2013 sebagai aplikasi yang digunakan untuk melakukan
perhitungan dalam evaluasi sistem

10

2 Perangkat keras:
 Intel Pentium Core i3 @3.0 Ghz
 Memori 2990MB RAM
 Harddisk dengan kapasitas sisa 300GB
 Monitor resolusi 1366 × 768 pixel
 Mouse dan keyboard

HASIL DAN PEMBAHASAN
Pengumpulan Dokumen
Dokumen yang digunakan terdiri atas 457 dokumen untuk masing-masing
kelas, yaitu kelas tanaman obat dan kelas hortikultura.
Keseluruhan kelas yang berjumlah 457 terbagi menjadi 320 dokumen latih
dan 137 dokumen uji. Deskripsi dokumen uji yang digunakan dapat dilihat pada
Tabel 4.
Tabel 4 Deskripsi dokumen uji (.xml)
Dokumen
Ukuran rata-rata dokumen
Ukuran seluruh dokumen
Ukuran dokumen terbesar
Ukuran dokumen terkecil

bytes
1790
817849
13581
935

Adapun dokumen dikelompokkan ke dalam tag sebagai berikut:
 , tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag
lain yang lebih spesifik.
 , tag ini menunjukkan ID dari dokumen.
 , menunjukkan isi atau informasi dari dokumen.
Praproses
Pengindeksan keseluruhan dokumen yang dilakukan pada tahap tokenisasi
dan pembuangan stopword menghasilkan 12182 kata di mana 6802 kata yang
berupa kata unik yang ditemui di setiap dokumen dalam keseluruhan dokumen
latih.
Pemilihan Fitur Ciri dan Pembobotan Kata
Hasil keluaran dari tahap praproses berupa vektor kata unik dan selanjutnya
dilakukan pembobotan tf-idf pada setiap term. Hasil kata tersebut menghasilkan
matriks yang digunakan untuk tahap klasifikasi di mana ukuran matriks untuk data
latih sebanyak 320 × 6802 dan ukuran matriks untuk data uji sebanyak 137 × 6802.
Vektor tersebut diproses pada tahap pemilihan fitur ciri. Metode yang
digunakan pada pemilihan fitur ciri ini yaitu chi-square. Pada metode chi-square

11
diperlukan taraf nyata α yang merupakan kesalahan yang dibuat pada waktu
menguji hipotesis, menolak H0 padahal H0 benar. Taraf nyata α yang digunakan
yaitu 0.01 agar peluang kesalahan sebesar 1%. Pemilihan nilai taraf nyata 0.01
berdasarkan riset penelitian Saputra (2012) yang menyatakan kinerja klasifikasi
pada taraf nyata 0.01 lebih baik daripada taraf nyata 0.05 karena pada taraf nyata
0.01 menghasilkan himpunan kata penciri lebih sedikit.
Berdasarkan teori terpenuhinya hipotesis, taraf nyata 0.01 dapat diartikan
bahwa kriteria kata yang dipilih adalah kata yang memiliki nilai χ2 di atas 6.63.
Hasil dari tahapan pemilihan fitur ciri adalah 1233 kata unik pada kelas tanaman
obat dan 337 kata unik pada kelas hortikultura (Tabel 5). Kumpulan kata yang
dihasilkan pada tahapan pemilihan fitur inilah yang kemudian hanya akan diolah
pada sistem klasifikasi.
Tabel 5 Hasil tahap pemilihan fitur ciri dengan taraf nyata 0.01
No

Kelas

1

Tanaman obat

2

Hortikultura

Jumlah kata unik
1233
337

Kata “achantaceae, gelsemium” merupakan salah satu contoh kata yang
hanya terdapat pada kelas tanaman obat. Kata “budidaya, lingkungan” merupakan
salah satu contoh kata yang hanya terdapat pada kelas hortikultura. Ada beberapa
kata yang sama, seperti kata “zat, tropis, petani” terdapat pada kelas tanaman obat
dan hortikultura.
Setelah didapatkan hasil pemilihan fitur, kata-kata yang terpilih oleh chisquare akan menjadi penciri suatu kelas. Kemudian, untuk semua term pada
masing-masing dokumen dihitung bobotnya sehingga dapat digunakan dalam
proses klasifikasi.
Klasifikasi Dokumen
Seluruh hasil data praproses dengan menggunakan pembobotan idf dan
pemilihan fitur ciri chi-square merupakan matriks yang digunakan sebagai data
latih dan data uji. Pada tahap praproses dengan menggunakan pembobotan idf
menghasilkan ukuran matriks data latih sebanyak 320 × 6802, menunjukkan 320
baris matriks yang menjelaskan tentang banyaknya dokumen dan 6802 kolom yang
menjelaskan kata unik hasil pembuangan stopword yang akan digunakan. Pada data
uji terdapat matriks sebanyak 137 × 6802 yang menunjukkan 137 baris (banyaknya
dokumen) dan 6802 kolom (kata unik yang digunakan). Sedangkan proses
pemilihan fitur ciri chi-square memiliki ukuran matriks data latih sebanyak 320 ×
1309 menunjukkan 320 baris matriks yang menjelaskan tentang banyaknya
dokumen dan 1309 kolom yang menjelaskan kata unik yang akan digunakan. Pada
data uji terdapat matriks sebanyak 137 × 1309 yang menunjukkan 137 baris
(banyaknya dokumen) dan 1309 kolom (kata unik yang digunakan). Matriks yang
akan diolah untuk klasifikasi terdapat pada Tabel 6.

12

Tabel 6 Matriks dimensi M × N klasifikasi
Metode
tf-idf
Chi-square

Training
320 × 6802
320 × 1309

Testing
137 × 6802
137 × 1309

Semua data matriks dilatih dan diuji dengan fungsi kernel linear, kernel
polynomial dan kernel RBF sehingga untuk mengklasifikasikan data yang tidak
dapat dipisahkan secara linear, formula SVM mentransformasikan data ke dalam
dimensi ruang fitur dengan menggunakan fungsi kernel. Proses pelatihan dan
pengujian ini bertujuan membangun model klasifikasi dan menghitung tingkat
akurasi SVM dalam memprediksi data uji. Proses pemodelan dapat dilihat pada
Lampiran 1.
Pelatihan SVM membutuhkan parameter sesuai dengan kernelnya. Untuk
mengoptimalkan parameter maka dilakukan proses grid search pada saat pelatihan.
Grid search dijalankan menggunakan k-fold cross validation. Nilai k-fold yang
digunakan pada penelitian ini yaitu sebesar 5-fold. Setiap proses pelatihan SVM
yang menggunakan fungsi kernel diperlukan parameter terbaik untuk mendapatkan
akurasi yang terbaik jika mencapai rataan nilai tertinggi. Namun pada penelitian ini
didapatkan rataan nilai hampir sama di setiap iterasi pemodelan sehingga
pengambilan parameter dilakukan pada nilai akurasi tertinggi pertama. Untuk
melihat pengaruh pemilihan parameter maka pelatihan dicoba dengan
menggunakan kernel RBF. Hasil grid_search dapat dilihat pada Lampiran 2.
Pada pelatihan SVM yang menggunakan fungsi kernel linear diperlukan
parameter c (cost) dan kemudian akan dicari parameter terbaik yang akan
digunakan pada tahap pengujian. Pada penelitian ini dihasilkannya nilai parameter
terbaik sebesar 99.6875% di setiap proses cross-validation. Tetapi hanya akan
diambil satu nilai parameter terbaik untuk pengujian. Ini disebabkan karena
parameter c pada kernel linear tidak mempengaruhi akurasi cross-validation pada
saat training dan fungsi kernel linear tidak memiliki pengaruh terhadap pemetaan
data ke ruang vektor yang lebih tinggi. Pada fungsi kernel polinomial diperlukan
parameter c (cost), γ (gamma), d (degree) dan r (coef0) yang akan dicari parameter
terbaik digunakan pada tahap pengujian. Pada fungsi kernel RBF diperlukan
parameter c (cost), γ (gamma) kemudian akan dicari parameter terbaik yang akan
digunakan pada tahap pengujian.
Pemilihan parameter terbaik untuk kedua data latih dapat dilihat pada Tabel
7. Pemilihan parameter terbaik untuk kernel linear dengan metode 5-fold crossvalidation dilakukan pada rentang 2-5 ≤ c ≤ 215 dengan hasil akurasi 99.6875%.
Pemilihan parameter terbaik untuk kernel polinomial dengan metode 5- fold crossvalidation menghasilkan parameter c pada rentang 2-5 ≤ c ≤ 215, parameter γ
(gamma) pada rentang 2-15 ≤ γ ≤ 23, parameter d (degree) pada rentang 1 ≤ d ≤ 4,
dan parameter r (coef0) pada rentang 0 ≤ x ≤ 4 dengan akurasi cross-validation
sebesar 99.6875%. Pada penggunaan kernel RBF dengan metode 5-fold crossvalidation menghasilkan parameter terbaik untuk c (cost) pada rentang 2-5 ≤ c ≤ 215
dan parameter γ (gamma) pada rentang 2-15 ≤ γ ≤ 23 dengan hasil akurasi crossvalidation yaitu 99.6875%.

13

Tabel 7 Hasil akurasi parameter terbaik pada pemodelan setiap kernel
Parameter
c
d
γ
(cost) (degree)
(gamma)
2-5
320 × Linear
6802
Polinomial
21
2
3.0517 × 10-5
RBF
20
1.2207 × 10-4
-5
2
320 × Linear
1
1309
Polinomial
2
2
3.0517 × 10-5
RBF
20
2.4414 × 10-4
Data

Kernel

r
(coef0)
3
4
-

Akurasi
99.6875%
99.6875%
99.6875%
99.6875%
99.6875%
99.6875%

Pengujian
Pengujian dilakukan terhadap ketiga model kernel SVM dengan
menggunakan ukuran data sebanyak 137 × 6802 dan 137 × 1309. Pengujian data
tersebut menggunakan parameter model klasifikasi terbaik untuk menentukan hasil
klasifikasi akhir. Perhitungan hasil klasifikasi SVM untuk kelas a (tanaman obat)
dan kelas b (hortikultura) berupa confusion matrix.
Perhitungan akurasi untuk ukuran data 137 × 6802 menggunakan confusion
matrix di mana total jumlah data yang benar dibagi dengan total keseluruhan data
uji dapat dilihat pada Tabel 8. Hasil perhitungan akurasi dengan kernel linear pada
kelas a yang benar adalah 0 dan untuk jumlah dokumen yang salah berjumlah 39,
sedangkan pada kelas b jumlah dokumen yang benar adalah 97 dan untuk jumlah
dokumen yang salah berjumlah 0. Hasil perhitungan akurasi untuk kernel
polinomial pada kelas a yang benar adalah 0 dan untuk jumlah dokumen yang salah
berjumlah 39, sedangkan pada kelas b jumlah dokumen yang benar adalah 97 dan
untuk jumlah dokumen yang salah berjumlah 0. Hasil perhitungan akurasi untuk
kernel RBF pada kelas a yang benar adalah 4 dan untuk jumlah dokumen yang salah
berjumlah 36, sedangkan pada kelas b jumlah dokumen yang benar adalah 97 dan
untuk jumlah dokumen yang salah berjumlah 0.
Perhitungan akurasi untuk ukuran data 137 × 1309 menggunakan confusion
matrix di mana total jumlah data yang benar dibagi dengan total keseluruhan data
uji dapat dilihat pada Tabel 9. Hasil perhitungan akurasi dengan kernel linear pada
kelas a yang benar adalah 35 dan untuk jumlah dokumen yang salah berjumlah 4,
sedangkan pada kelas b jumlah dokumen yang benar adalah 97 dan untuk jumlah
dokumen yang salah berjumlah 0. Hasil perhitungan akurasi untuk kernel
polinomial pada kelas a yang benar adalah 35 dan untuk jumlah dokumen yang
salah berjumlah 4, sedangkan pada kelas b jumlah dokumen yang benar adalah 97
dan untuk jumlah dokumen yang salah berjumlah 0. Hasil perhitungan akurasi
untuk kernel RBF pada kelas a yang benar adalah 35 dan untuk jumlah dokumen
yang salah berjumlah 4, sedangkan pada kelas b jumlah dokumen yang benar adalah
97 dan untuk jumlah dokumen yang salah berjumlah 1.

14

Tabel 8 Confusion matrix SVM dengan data 137 × 6802
Kelas
a
b
a
b
a
b

a
Kernel linear
0
0
Kernel polinomial
0
0
Kernel RBF
4
0

b
40
97
40
97
36
97

Tabel 9 Confusion matrix SVM dengan data 137 × 1309
Kelas
a
b
a
b
a
b

a
Kernel linear
35
0
Kernel polinomial
35
0
Kernel RBF
35
1

b
4
97
4
97
4
96

Pada ukuran matriks data uji sebesar 137 × 6802 yang diperoleh dari
pemilihan bobot idf, nilai akurasi untuk kernel linear, kernel polinomial dan kernel
RBF masing-masing menghasilkan 70.80%, 70.80% dan 73.72%. Sedangkan pada
ukuran matriks data uji sebesar 137 × 1309 yaitu data uji dengan pemilihan fitur
chi-square, setiap kernel pada metode klasifikasi SVM memiliki hasil akurasi yang
baik, di mana kernel linear, kernel polinomial dan kernel RBF masing-masing
menghasilkan 96.35%, 96.35% dan 95.62%.
Dari hasil akurasi yang didapatkan dengan membandingkan hasil akurasi data
menggunakan pemilihan fitur chi-square dan menggunakan pemilihan berdasarkan
pembobotan idf, diperoleh data yang sangat berbeda di mana hasil akurasi dengan
menggunakan chi-square lebih baik daripada menggunakan pemilihan berdasarkan
bobot idf. Hal ini menunjukkan bahwa pemilihan fitur chi-square terhadap metode
SVM dengan menggunakan ketiga kernel tersebut mampu mengklasifikasi
dokumen teks dengan dua kelas sesuai dengan teori SVM yang dikembangkan
untuk masalah klasifikasi dengan dua kelas. Ini dikarenakan pemilihan fitur chisquare membantu dan memiliki pengaruh dalam memisahkan data secara linear
sehingga data yang diklasifikasikan dengan menggunakan SVM dapat dipisahkan
lebih linear. Dengan akurasi ketiga kernel dapat dibuktikan bahwa SVM dengan
menggunakan pemilihan fitur chi-square memiliki akurasi yang lebih baik
dibandingkan dengan metode klasifikasi dan pemilihan fitur chi-square pada riset

15
sebelumnya, seperti riset Herawan (2011) dengan akurasi 93.26% dan Saputra
(2012) dengan akurasi 95.55%.

SIMPULAN DAN SARAN
Simpulan
Hasil penelitian menunjukkan bahwa pemilihan fitur chi-square terhadap
SVM memberikan hasil akurasi yang baik untuk klasifikasi dokumen teks dengan
dua kelas. Pada pengujian ukuran data matriks (137 × 1309) terhadap metode SVM
dengan menggunakan kernel linear dan polinomial dihasilkan nilai akurasi sama
baik, yaitu 96.35% dan pada kernel RBF dihasilkan akurasi sebesar 95.62%. Dari
percobaan yang telah dilakukan, klasifikasi dapat berjalan baik pada data latih
sebesar 320 dokumen. Ini dibuktikan dengan akurasi cross-validation sebesar
99.69% pada saat pemodelan SVM. Dengan demikian, pemilihan fitur chi-square
membantu klasifikasi SVM dalam mengorganisasikan dokumen secara cepat,
efisien, dan dapat meningkatkan kinerja sistem klasifikasi.
Saran
Penelitian ini masih memiliki banyak kekurangan yang memerlukan
pengembangan lebih lanjut. Berdasarkan penelitian, pengujian ini dilakukan pada
data yang jumlahnya relatif sedikit dan belum dapat dikatakan valid jika
dibandingkan dengan metode lain. SVM diharapkan mampu diujicobakan pada
penelitian dengan data skala besar dan multikelas sehingga hasil akurasi pada
penelitian selanjutnya tidak diragukan validitasnya.

DAFTAR PUSTAKA
Chenometh, Megan, Song, Min. 2009. Text categorization. Di dalam:
Encyclopedia of Data Warehouse & Data Mining. hlm 1936-1941.
Gijsberts A. 2007. Evolutionary optimization of kernel[tesis]. Delft (NL): Delft
University of Technology
Hearst, Marti. 2003. What is text minning?. SIMS, UC Berkeley[Internet].
Tersedia pada: http://www.sims.berkeley.edu/~hearst/text.mining.html.
[diakses pada 2012 Des 1].
Kaiser, Katharina, Miksch, Silvia. 2005. Information extraction: a survey
[Internet]. Tersedia pada: http://ieg.ifs.tuwien.ac.at. [diunduh 2012 Des 13].
Kusnawi. 2010. Teknik document object model (DOM) untuk manipulasi
dokumen XML. J Dasi. hlm 1.
Manning CD, Raghavan P, Schütze H. 2008. An Introduction to Information
Retrieval. Cambridge (GB): Cambridge Univ Pr.
Mesleh AA. 2007. Chi square feature extraction based SVM arabic language
text categorization systems. J Computer Sci. 3(6):430-435.

16

Netcraft. 1995. How many active sites are there?. Tersedia pada:
http://news.netcraft.com/active-sites/. [diakses pada 2012 Des 13].
Pilászy I. 2005. Text categorization and support vector machines. Di dalam:
The Proceedings of the 6th International Symposium of Hungarian
Researchers on Computational Intelligence, 2005.
Sari PD. 2012. Metode pembobotan kata berbasis sebaran untuk temu kembali
informasi dokumen Bahasa Indonesia [skripsi]. Bogor (ID): Institut
Pertanian Bogor.
Saputra. 2012. Klasifikasi dokumen Bahasa Indonesia menggunakan semantic
smoothing dengan ekstraksi ciri chi-square [skripsi]. Bogor (ID): Institut
Pertanian Bogor.
Tan P, Steinbach M, Kumar V. 2006. Introduction to Data Mining. Minneapolis
(US): Addison Wesley.
Yang Y, Pedersen J. 1997. A Comparative Study on Feature Selection in Text
Categorization. International Conference on Machine Learning 1997.
Wibowo JS. 2010. Pencarian dokumen teks lintas Bahasa Indonesia Inggris
berbasis corpus. JIIK. 15(2):107-114.

17
Lampiran 1 Instruksi SVM Matlab
1 Kernel linear
datatrain = csvread('training.csv');
labels = datatrain(:,1);
features = datatrain(:,2:end);
features_sparse = sparse(features);
libsvmwrite('datatrainlibsvm.train', labels, features_sparse);
[label_vector, instance_matrix] = libsvmread ('datatrainlibsvm.
train');
test_grid_linear(label_vector,instance_matrix); %parameter kernel
[training_label_vector,training_instance_matrix]=libsvmread('data
trainlibsvm.train');
datatest = csvread('testing.csv');
labels = datatest(:,1);
features = datatest(:,2:end);
features_sparse = sparse(features);
libsvmwrite('datatestlibsvm.test', labels, features_sparse);
[testing_label_vector,testing_instance_matrix]=libsvmread('datates
tlibsvm.test');
model = svmtrain(training_label_vector,training_instance_matrix,'t 0 -c 2');
[predict_label, accuracy, dec_values] =
svmpredict( testing_label_vector,testing_instance_matri
x, model)
Accuracy = 96.3504% (132/137) (classification)

2 Kernel polinomial
datatrain = csvread('training.csv');
labels = datatrain(:,1);
features = datatrain(:,2:end);
features_sparse = sparse(features);
libsvmwrite('datatrainlibsvm.train', labels, features_sparse);
[label_vector, instance_matrix] = libsvmread('datatrainlibsvm.
train');
test_grid_poly(label_vector,instance_matrix); %parameter kernel
[training_label_vector,training_instance_matrix]=libsvmread('data
trainlibsvm.train');
datatest = csvread('testing.csv');
labels = datatest(:,1);
features = datatest(:,2:end);
features_sparse = sparse(features);
libsvmwrite('datatestlibsvm.test', labels, features_sparse);
[testing_label_vector,testing_instance_matrix]=libsvmread('datates
tlibsvm.test');
model1 =
svmtrain(training_label_vector,training_instance_matrix,'-t 1 -c
32768 -g 0.000976563 -d 4 -r 4');
[predict_label1, accuracy1,
dec_values1]=svmpredict( testing_label_vector,testing_instan
ce_matr
ix, model1);
Accuracy = 96.3504% (132/137) (classification)

18

Lampiran 1 Lanjutan
3 Kernel RBF
datatrain = csvread('training.csv');
labels = datatrain(:,1);
features = datatrain(:,2:end);
features_sparse = sparse(features);
libsvmwrite('datatrainlibsvm.train', labels, features_sparse);
[label_vector,instance_matrix]=libsvmread('datatrainlibsvm.train')
;
test_grid_rbf(label_vector,instance_matrix); %parameter kernel
[training_label_vector,training_instance_matrix]=libsvmread('data
trainlibsvm.train');
datatest = csvread('testing.csv');
labels = datatest(:,1);
features = datatest(:,2:end);
features_sparse = sparse(features);
libsvmwrite('datatestlibsvm.test', labels, features_sparse);
[testing_label_vector,testing_instance_matrix]=libsvmread('datates
tlibsvm.test');
model2 =svmtrain(training_label_vector,training_instance_matrix,'t 2 -c 1 -g 0.000244141');
[predict_label2, accuracy2, dec_values2] = svmpredict
(testing_label_vector, testing_instance_matrix,model2);
Accuracy = 95.6204% (131/137) (classification)

19
Lampiran 2 Hasil grid search pada kernel RBF
Cost
2-5
2-4
2-3
2-2
2-1
20
21
22
23
24
25
26
27
28
29
210
211
212
213
214
215

-15

2

70.94%
70.94%
76.25%
82.19%
85.31%
89.06%
92.50%
97.19%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%

-14

2

70.94%
75.63%
82.50%
85.63%
89.69%
92.81%
97.50%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%

2

-13

70.94%
82.81%
86.56%
89.69%
92.81%
97.81%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%

Gamma
2-12

2-11

2-10

71.88%
86.88%
90.63%
92.81%
97.50%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%

70.94%
90.63%
93.13%
95.63%
98.75%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%
99.69%

70.94%
88.75%
93.44%
95.63%
97.81%
98.44%
98.44%
98.44%
98.44%
98.44%
98.44%
98.44%
98.44%
98.44%
98.44%
98.44%
98.44%
98.44%
98.44%
98.44%
98.44%

20

Lampiran 2 Lanjutan

Cost

2-5
2-4
2-3
2-2
2-1
20
21
22
23
24
25
26
27
28
29
210
211
212
213
214
215

2-9

2-8

70,94%

70,94%

70,94%

Gamma
2-7

2-6

2-5

2-4

70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

73,75%

70,94%

70,94%

70,94%

70,94%

70,94%

91,56%

70,94%

70,94%

70,94%

70,94%

70,94%

94,38%

75,31%

70,94%

70,94%

70,94%

70,94%

96,25%

92,81%

72,81%

70,94%

70,94%

70,94%

93,13%

72,81%

70,94%

70,94%

70,94%

70,94%

96,88%

93,13%

72,81%

70,94%

70,94%

70,94%

96,88%

93,13%

72,81%

70,94%

70,94%

70,94%

96,88%

93,13%

72,81%

70,94%

70,94%

70,94%

96,88%

93,13%

72,81%

70,94%

70,94%

70,94%

96,88%

93,13%

72,81%

70,94%

70,94%

70,94%

96,88%

93,13%

72,81%

70,94%

70,94%

70,94%

96,88%

93,13%

72,81%

70,94%

70,94%

70,94%

96,88%

93,13%

72,81%

70,94%

70,94%

70,94%

96,88%

93,13%

72,81%

70,94%

70,94%

70,94%

96,88%

93,13%

72,81%

70,94%

70,94%

70,94%

96,88%

93,13%

72,81%

70,94%

70,94%

70,94%

96,88%

93,13%

72,81%

70,94%

70,94%

70,94%

96,88%

93,13%

72,81%

70,94%

70,94%

70,94%

96,88%

93,13%

72,81%

70,94%

70,94%

70,94%

21
Lampiran 2 Lanjutan
Cost
2-5
2-4
2-3
2-2
2-1
20
21
22
23
24
25
26
27
28
29
210
211
212
213
214
215

-3

2

-2

2

-1

2

Gamma
2-0

21

22

23

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

70,94%

70,94%

70,94%

70,94%

70,94%

70,94% 70,94%

22

RIWAYAT HIDUP
Penulis dilahirkan di Pekanbaru pada tanggal 30 Agustus 1991. Penulis
merupakan anak kedua dari pasangan Ibrahim dan Nuriyanti. Pada tahun 2008,
penulis menamatkan pendidikan di SMA Negeri 8 Pekanbaru. Penulis
berkesempatan melanjutkan studi di Institut Pertanian Bogor melalui jalur Beasiswa
Unggul Daerah (BUD) di Depertemen Ilmu Komputer, Fakultas Matematika dan
Ilmu Pengetahuan Alam.
Penulis aktif di berbagai organisasi kemahasiswaan seperti Himpunan
Mahasiswa Riau Bogor dan anggota berbagai kegiatan seperti OMI (2010), IT
Today (2011). Penulis juga menjadi asisten praktikum pada Mata Kuliah Metode
Kuantitatif (2012-2013). Selama awal kuliah penulis juga pernah menjadi staf
pengajar di Lembaga Bimbingan Belajar NIC Bogor. Selain itu, penulis
melaksanakan kegiatan Praktik Kerja Lapangan di divisi software development PT
Inti Komunikasi Selaras Jakarta Selatan pada tahun 2012.
.