Classification of Documents in Bahasa Indonesia using DCS-LA with Inverse Distance Weighting

1

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN
METODE DCS-LA DENGAN INVERSE DISTANCE WEIGHTING

RONI NOVETTIO CHAIRULLAH

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011

3

ABSTRACT
Roni Novettio Chairullah. Classification of Documents in Bahasa Indonesia using DCS-LA with
Inverse Distance Weighting. Supervised by AHMAD RIDHA.
Dynamic Classifier Selection with Local Accuracy (DCS-LA) is a document classification method
that combines several classification methods and k-NN. In this study, we implemented the DCS-LA
with Inverse Distance Weighting for documents writen in Bahasa Indonesia as well as comparing

between the DCS-LA with Inverse Distance Weighting and DCS-LA without Inverse Distance
Weighting. We used four classifiers: Rocchio, Naïve Bayes, Bernoulli, and Poisson Naïve Bayes as
classifiers in the DCS-LA. For the data, we used agriculture documents consisting of 174 training
documents and 75 test documents, and news documents consisting of 500 training documents and 250
test documents. This method can yield an accuracy of 66% and 96% for agriculture documents and
news documents, respectively. Without Inverse Distance Weighting, DCS-LA only yields an accuracy
of 56% and 86% for agriculture documents and news documents, respectively. Therefore, Inverse
Distance Weighting can improve the accuracy of the DCS-LA in classifying text documents in Bahasa
Indonesia.
Keywords: Document classification, DCS-LA, Rocchio, Naïve Bayes, Bernoulli, Poisson Naïve
Bayes, Inverse Distance Weighting.

2

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN
METODE DCS-LA DENGAN INVERSE DISTANCE WEIGHTING

RONI NOVETTIO CHAIRULLAH

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011

4

Judul Penelitian : Klasifikasi Dokumen Bahasa Indonesia Menggunakan Metode DCS-LA dengan
Inverse Distance Weighting
Nama
: Roni Novettio Chairullah
NRP
: G64062134

Menyetujui:

Pembimbing,

Ahmad Ridha, S.Kom. M.S.
NIP. 19800507 200501 1 001

Mengetahui:
Ketua Departemen Ilmu Komputer,

Dr. Ir. Sri Nurdiati, M.Sc.
NIP. 19601126 198601 2 001

Tanggal Lulus:

5

KATA PENGANTAR
Puji dan syukur penulis panjatkan kepada Allah atas segala curahan rahmat dan karunia-Nya
sehingga skripsi ini dapat diselesaikan. Skripsi ini merupakan hasil penelitian yang dilakukan dari
Desember 2010 sampai Juni 2011 dengan bidang kajian Klasifikasi Dokumen Bahasa Indonesia
Menggunakan Metode Dynamic Classifier Selection with Local Accuracies (DCS-LA) dengan Inverse

Distance Weighting.
Penulis mengucapkan terima kasih kepada Bapak Ahmad Ridha, S.Kom. M.S. selaku
pembimbing yang telah memberi saran, masukan, dan ide-ide kepada penulis dalam menyusun skripsi
ini. Penulis juga mengucapkan terima kasih kepada:
1 Papa, Mama serta Adik yang selalu memberikan doa, nasihat, dukungan, semangat, dan kasih
sayang yang luar biasa kepada penulis sehingga dapat menyelesaikan tugas akhir ini.
2 Syamsul Bachri, M Farhad Idris, Rangga AP, Wildan Rachman, Haryadi, M Awet Samana, dan
Kartina yang telah banyak membantu penulis dalam menyelesaikan tugas akhir ini serta temanteman satu bimbingan lainnya Rio Ramadhan, Andi Rusmia, Jafar, Rendy Rivaldi, dan Windu
Purnomo yang selalu memberi semangat dan motivasi.
3 Wahyu Setyowidodo, Mikolehi Firdaus, Mukhlis Wahyudi, dan Nurwan Wahyudi yang
memberikan motivasi kepada Penulis.
4 Teman-teman Ilkom angkatan 43 yang telah banyak membantu penulis.
5 Departemen Ilmu Komputer, tenaga kependidikan, serta dosen yang telah banyak membantu baik
selama penelitian maupun pada masa perkuliahan.
6 Teman-teman Himalkom dan LDK DKM Al Hurriyyah IPB yang memberikan dukungan dan
motivasi.
Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan
penelitian ini yang tidak dapat disebutkan satu per satu, penulis ucapkan terima kasih banyak.
Semoga penelitian ini dapat memberikan manfaat.


Bogor, 3 Agustus 2011

Roni Novettio Chairullah

6

RIWAYAT HIDUP
Penulis dilahirkan di Kotamobagu pada tanggal 2 November 1988 dari ayah Rofik dan ibu Sri
Nunik Wagiati. Penulis merupakan putra pertama dari dua bersaudara, kakak dari Figia Putri
Rahmadita.
Tahun 2006 penulis lulus dari SMA Negeri 1 Cikampek dan pada tahun yang sama lulus seleksi
masuk IPB melalui jalur Undangan Seleksi Masuk IPB (USMI). Tahun 2007 penulis diterima di
Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.
Selama mengikuti perkuliahan, penulis juga aktif pada LDK DKM Al Huriyyah IPB serta
Himpunan Mahasiswa Ilmu Komputer (Himalkom) IPB, dan pada tahun 2009 diangkat sebagai Ketua
Himalkom. Penulis melakukan Praktik Kerja Lapangan di Direktorat Kerjasama dan Program
Internasional IPB dengan bidang kajian Pembuatan Web Direktorat Kerjasama dan Program
Internasional IPB. Penulis menjadi asisten praktikum mata kuliah Pendidikan Agama Islam di IPB
pada tahun 2008 - 2009, serta menjadi staf pengajar pada Nurul Ilmi Center (NIC) pada tahun 2010 2011.


iv

DAFTAR ISI
Halaman
DAFTAR TABEL............................................................................................................................. v
DAFTAR GAMBAR ........................................................................................................................ v
DAFTAR LAMPIRAN ..................................................................................................................... v
PENDAHULUAN ............................................................................................................................ 1
Latar Belakang ............................................................................................................................ 1
Tujuan ......................................................................................................................................... 1
Ruang Lingkup ............................................................................................................................ 1
Manfaat ....................................................................................................................................... 1
TINJAUAN PUSTAKA .................................................................................................................... 1
Klasifikasi ................................................................................................................................... 1
Metode Rocchio........................................................................................................................... 1
Metode Naïve Bayes .................................................................................................................... 2
Metode Bernoulli ......................................................................................................................... 2
Metode Poisson Naїve Bayes ....................................................................................................... 2
Metode k-Nearest Neighbor ......................................................................................................... 3
Metode Dynamic Classifier Selection with Local Accuracies ........................................................ 3

Inverse Distance Weighting (IDW) .............................................................................................. 3
Confusion Matrix ......................................................................................................................... 3
METODE PENELITIAN .................................................................................................................. 3
Pengumpulan Dokumen ............................................................................................................... 4
Implementasi Sistem.................................................................................................................... 4
Klasifikasi DCS-LA dengan Inverse Distance Weighting.............................................................. 4
Evaluasi Klasifikasi ..................................................................................................................... 4
Perbandingan Sistem ................................................................................................................... 4
Lingkungan Implementasi ............................................................................................................ 4
HASIL DAN PEMBAHASAN.......................................................................................................... 5
Praproses ..................................................................................................................................... 5
Pelatihan ..................................................................................................................................... 5
Akurasi Classifier Tunggal .......................................................................................................... 5
Klasifikasi DCS-LA..................................................................................................................... 7
Perbandingan Klasifikasi ............................................................................................................. 8
KESIMPULAN DAN SARAN.......................................................................................................... 9
DAFTAR PUSTAKA ....................................................................................................................... 9
LAMPIRAN ................................................................................................................................... 11

v


DAFTAR TABEL
Halaman

1 Confusion matrix............................................................................................................................ 3
2 Confusion matrix metode Rocchio dengan dokumen pertanian ........................................................ 5
3 Confusion matrix metode Rocchio dengan dokumen berita .............................................................. 5
4 Confusion matrix metode Naїve Bayes dengan dokumen pertanian .................................................. 6
5 Confusion matrix metode Naїve Bayes dengan dokumen berita ....................................................... 6
6 Confusion matrix metode Bernoulli dengan dokumen pertanian ...................................................... 6
7 Confusion matrix metode Bernoulli dengan dokumen berita ............................................................ 6
8 Confusion matrix metode Poisson Naïve Bayes dengan dokumen pertanian ..................................... 7
9 Confusion matrix metode Poisson Naïve Bayes dengan dokumen berita .......................................... 7

DAFTAR GAMBAR
Halaman
1 Metode penelitian. ......................................................................................................................... 3
2 Format XML. ................................................................................................................................ 4
3 Grafik hasil klasifikasi DCS-LA .................................................................................................... 7
4 Diagram perbandingan classifier ................................................................................................... 8

5 Perbandingan akurasi DCS-LA. ..................................................................................................... 8

DAFTAR LAMPIRAN
Halaman
1 Contoh dokumen pertanian dalam format XML ............................................................................ 12
2 Contoh dokumen berita dalam format XML.................................................................................. 13
3 Perbandingan akurasi setiap classifier dan DCS-LA untuk dokumen pertanian …...........................14

1

PENDAHULUAN
Latar Belakang
Klasifikasi
dikembangkan
untuk
memfokuskan pencarian pengguna pada
informasi yang ingin dicari, sehingga hasil akan
menjadi lebih baik dan usaha yang dilakukan
sistem lebih efektif dan efisien. Banyak metode
yang bisa digunakan untuk klasifikasi teks,

seperti Naïve Bayes, k-Nearest Neighbor (k-NN),
Support Vector Machine (SVM), Bernoulli,
Rocchio, dan Minor Component Analysis
(MCA).
Beberapa peneliti telah menunjukkan bahwa
mengombinasikan metode klasifikasi yang
berbeda dapat menambah akurasi klasifikasi (Xu
et al. 1992). Simple voting, Dynamic Classifier
Selection (DCS), dan Adaptive Classifier
Combination (AAC) adalah contoh metode yang
menggabungkan beberapa metode klasifikasi.
DCS pertama kali diperkenalkan oleh Ho et
al. (1994). Pada penelitian tersebut, DCS
diterapkan pada sistem klasifikasi teks dan
gambar, sehingga dapat dibuktikan bahwa
dengan mengombinasikan beberapa metode
klasifikasi yang berbeda dapat menambah
akurasi sistem klasifikasi.
DCS dikembangkan menjadi Dynamic
Classifier Selection with Local Accuracies

(DCS-LA), yaitu dengan menambahkan konsep
k-NN dalam pemilihan akurasi lokal. Dalam
pengujian
metode
klasifikasi
DCS-LA
menggunakan dokumen berbahasa Inggris,
metode DCS-LA ini menghasilkan akurasi ratarata 80% (Woods et al. 1997).
Kemudian DCS-LA dikembangkan lagi
dengan menambahkan pembobotan dalam proses
k-NN untuk pemilihan akurasi dari setiap
classifier tunggal.
Teknik tersebut dapat
menambah akurasi dari DCS-LA hingga
mencapai 90% (Morales et al. 2008).
Pada pengujian menggunakan dokumen
berbahasa
Indonesia,
metode
DCS-LA
menghasilkan akurasi 56% untuk dokumen
pertanian dan 86% untuk dokumen berita
(Ramadhan 2010). Pada penelitian tersebut
digunakan tiga classifier tunggal serta belum
menambahkan pembobotan dalam proses DCSLA. Dalam penelitian ini, akan ditambahkan
Inverse Distance Weighting (IDW) dalam teknik
DCS-LA yang digunakan pada dokumen
berbahasa Indonesia, serta menggunakan empat
classifier tunggal pada proses klasifikasinya.

Tujuan
Tujuan penelitian ini adalah:
1 Mengimplementasikan DCS-LA dengan
IDW untuk klasifikasi dokumen berbahasa
Indonesia.
2 Membandingkan akurasi klasifikasi DCS-LA
yang menggunakan IDW dengan yang tidak
menggunakan IDW.
3 Membandingkan DCS-LA dengan empat
classifier dan DCS-LA dengan tiga classifier.
Ruang Lingkup
Ruang lingkup penelitian ini difokuskan
kepada
klasifikasi
dokumen
dengan
menggunakan DCS-LA pada dokumen pertanian
dan berita berbahasa Indonesia serta menentukan
metode yang memiliki akurasi tinggi.
Manfaat
Manfaat dari penelitian ini adalah
menentukan metode yang memiliki akurasi
tinggi dalam proses klasifikasi dokumen
sehingga dapat meningkatkan akurasi klasifikasi
dokumen berbahasa Indonesia.

TINJAUAN PUSTAKA
Klasifikasi
Klasifikasi adalah proses untuk menemukan
sebuah model yang menggambarkan dan
membedakan kelas-kelas data, dengan tujuan
untuk memprediksikan kelas dari objek yang
belum diketahui kelasnya. Model dari setiap
kelas dibuat berdasarkan data latih (training
data) melalui berbagai cara, di antaranya adalah
rules, decision tree, formula matematika, atau
neural network (Han & Kamber 2006).
Selanjutnya digunakan sekumpulan data uji yang
sudah diketahui kelasnya untuk menghitung
akurasi dari model yang sudah didapatkan. Jika
akurasinya mencukupi, maka model tersebut
dapat digunakan untuk prediksi kelas dari data
yang belum diketahui kelasnya.
Metode Rocchio
Rocchio merupakan metode klasifikasi
berdasarkan ruang vektor. Metode Rocchio
membagi ruang vektor berdasarkan nilai centroid
pada setiap kelas (Manning et al. 2008).
Centroid sebuah kelas c dihitung dengan ratarata vektor dari semua dokumen pada kelas c:

2

=

1


( )

∈�

Dc adalah jumlah dokumen di kelas c. Nilai (d)
adalah vektor kata pada kelas c dan (c) adalah
centroid masing-masing kelas. Setelah (c)
diketahui, dihitung jarak centroid setiap kelas
dengan dokumen uji. Perhitungan jarak
menggunakan metode Euclidean Distance yang
didapatkan dari persamaan berikut:
Jarak = �

− ( )

Metode Naïve Bayes

Naïve Bayes merupakan metode klasifikasi
berdasarkan perhitungan peluang. Misalkan C =
( 1 ,..., ), nilai m adalah jumlah kelas yang
digunakan. Untuk sebuah dokumen baru D yang
belum diklasifikasikan, dokumen tersebut terdiri
dari W =( 1 ,…., ) dengan W adalah daftar
term yang menyusun dokumen D. Peluang
dokumen D pada kelas c adalah:


� = �


=1



)

mengandung kata w dan adanya indikator kata,
jika kata d berada di kelas c maka diberikan nilai
1, selainnya 0 (Manning et al. 2008).
Metode Poisson Naїve Bayes
Metode ini merupakan pengembangan dari
metode Naїve Bayes, dengan mengibaratkan
setiap dokumen uji sebagai selang kejadian serta
term yang sesuai dengan dokumen latih sebagai
kejadian yang diinginkan (Kim 2001). Oleh
karena itu, dapat digunakan sebaran Poisson
untuk mendapatkan peluang kejadian tersebut.
Persamaan yang digunakan untuk mendapatkan
peluang Poisson Naїve Bayes adalah sebagai
berikut:
�( | ) =

� = (� + � )
|�|


�( ) =

Nilai Nc adalah banyak dokumen yang berada
dalam kelas c, N adalah total seluruh dokumen
yang ada, (w1,w2,w3,...,wd’) adalah kata unik pada
dokumen D, dan ′ adalah jumlah kata unik. P
(wi |cj) adalah peluang kata wi yang berada dalam
dokumen di kelas cj. P(wi |cj) diartikan sebagai
ukuran seberapa banyak term wi menyumbang
untuk menunjukkan cj merupakan kelas yang
tepat untuk setiap dokumen uji (Li & Jain 1998).
Nilai P(wi |cj) didapatkan dari:
| ) =

� =

Metode Bernoulli
Bernoulli merupakan metode klasifikasi
berdasarkan
perhitungan
peluang.
Perhitungannya mirip dengan metode Naïve
Bayes.
Perbedaannya
adalah
� ( │�)
merupakan rasio dokumen dari kelas c yang

. log
=1

|�|

� =

.

=

=

1




log

=1


=

+ 1
+

Nilai
adalah jumlah kemunculan kata wj
dalam dokumen latih di kelas c. Nilai nj adalah
jumlah seluruh kata pada dokumen latih yang
ada di kelas c, termasuk kemunculan term ganda,
dan kj adalah jumlah kata dalam vocabulary
(kata unik) seluruh dokumen.

. �( )
.�
+ �( )



Nilai P(c) merupakan banyaknya dokumen pada
kelas c pada dokumen latih, sedangkan P( )
adalah banyaknya dokumen pada kelas bukan c
pada dokumen latih. Nilai e merupakan bilangan
natural, dan � didapatkan dengan persamaan
berikut:

Nilai �( ) adalah peluang prior dari dokumen
yang dihitung dengan cara:

�(



=
1
|� |
1
|� |
(

+

+

+ �|�|






∈�
∈�



)2
+ ( + )

Nilai |V| merupakan jumlah kata unik pada setiap
dokumen uji, nilai
merupakan panjang
dokumen uji, � merupakan jumlah dokumen
latih pada kelas c, sedangkan � merupakan
jumlah dokumen latih pada kelas bukan c. Nilai
merupakan normalisasi dari setiap term pada
adalah nilai normalisasi
dokumen uji, dan
setiap term pada dokumen latih dengan
persamaan sebagai berikut:
=

+�
+ �|�|

3

Nilai θ merupakan Laplace smoothing,
merupakan jumlah seluruh kata pada setiap
dokumen, dan V merupakan jumlah kata unik
pada dokumen latih.
Nilai
merupakan nilai pembobotan fitur.
Nilai a pada persamaan
adalah banyaknya
term i pada kelas c, sedangkan variabel b adalah
banyaknya term selain i pada kelas c. Variabel c
merupakan banyaknya term i pada kelas selain c,
sedangkan d merupakan banyaknya term selain i
pada kelas selain c.
Metode k-NN
Metode k-NN merupakan teknik klasifikasi
yang memasukkan dokumen ke dalam mayoritas
kelas dari k tetangga terdekatnya dengan k
adalah sebuah parameter (Manning et al. 2008).
Parameter k dalam k-NN seringkali dipilih
berdasarkan pada pengalaman atau pengetahuan
tentang masalah klasifikasi.

=

1

dengan wj adalah Inverse Distance Weighting
dari setiap k-top dokumen yang terpilih. Nilai dj
adalah distance (jarak) yang dihitung dengan
metode Euclidean Distance.
Confusion Matrix
Confusion matrix merupakan tabel yang
digunakan untuk menentukan kinerja suatu
model klasifikasi (Hamel 2008). Contoh tabel
confusion matrix dapat dilihat pada Tabel 1.
Perhitungan akurasi dengan menggunakan tabel
confusion matrix adalah:
Akurasi = �

1 Rancang classifier individu D1,...,DL, dan
pilih parameter k.
2 Setelah dapatkan nilai x yang dilabelkan oleh
D1,...,DL. Jika semua classifier sepakat pada
label x, maka diberikan label x.
3 Jika classifier tidak sepakat maka dilakukan
perhitungan akurasi lokal dari setiap Di,
i=1...L. Pilih k dokumen terbaik dari setiap
classifier. Lakukan pembobotan terhadap
setiap dokumen, sehingga didapatkan bobot
dari classifier. Pilih classifier dengan bobot
paling besar.
4 Jika hasil perhitungan akurasinya sama maka
pilih salah satu saja, karena dianggap
menghasilkan hasil yang sama saja.

�11 +�00

11 +�10 +�01 +�00

Tabel 1 Confusion matrix
Kelas Prediksi

Metode Dynamic Classifier Selection with
Local Accuracies
Dynamic Classifier Selection with Local
Accuracies (DCS-LA) merupakan metode
klasifikasi yang menggabungkan beberapa
classifier dan metode k-NN (Morales et al.
2008). Ilustrasi algoritme dari DCS-LA sebagai
berikut:

≠0

Kelas yang
Sebenarnya

Class = 1

Class = 0

Class = 1

F11

F10

Class = 0

F01

F00

METODE PENELITIAN
Penelitian ini dilaksanakan dalam beberapa
tahap yaitu pengumpulan data, pengolahan data,
implementasi sistem, klasifikasi DCS-LA
dengan Inverse Distance Weighting (IDW),
evaluasi klasifikasi dan melakukan perbandingan
sistem. Tahap-tahap yang dilakukan dalam
penelitian ini diilustrasikan pada Gambar 1.

Inverse Distance Weighting (IDW)
Inverse Distance Weighting merupakan salah
satu teknik pemilihan dalam k-NN. Teknik ini
memberikan bobot terhadap masing-masing
komponen k-top dokumen yang terpilih dengan
inverse jarak (distance) terhadap dokumen latih
(Morales et al. 2008). Persamaan Inverse
Distance Weighting didapat dari:
Gambar 1 Metode penelitian.

4

Pengumpulan Dokumen
Dokumen yang digunakan dalam penelitian
ini sama dengan dokumen yang digunakan
dalam penelitian Ramadhan (2010). Dokumen
ini merupakan dokumen data publikasi hasil
penelitian hortikultura dari badan penelitian dan
pengembangan pertanian (Litbang) dan dokumen
berita digital yang bersumber dari Media
Indonesia.
Klasifikasi dokumen pertanian menggunakan
klasifikasi manual oleh Litbang dan Media
Indonesia. Dokumen pertanian diklasifikasikan
menjadi tiga kelas yaitu:
1 Kelas Ekofisiologi dan Argonomi (EA).
2 Kelas Pemuliaan dan Teknologi Benih
(PTB).
3 Kelas Proteksi (P).
Dokumen berita diklasifikasikan menjadi lima
kelas yaitu:
1
2
3
4
5

Kelas Bulutangkis.
Kelas Ekonomi.
Kelas Kriminal.
Kelas Lingkungan.
Kelas Pendidikan.

Pada dokumen pertanian setiap kelas
memiliki 83 dokumen. Dokumen tersebut dibagi
lagi menjadi data latih dan data uji dengan
proposisi dokumen latih 70% dan dokumen uji
30% sehingga jumlah dokumen latih setiap kelas
adalah 58 dan jumlah dokumen uji adalah 25.
Pada dokumen berita setiap kelas berjumlah 150
dokumen. Jumlah dokumen latih setiap kelas 100
dan jumlah dokumen uji 50.

pada Gambar 2. Contoh dokumen pertanian
dalam format XML dapat dilihat pada Lampiran
1 dan dokumen berita pada Lampiran 2.
Implementasi Sistem
Implementasi sistem menggunakan bahasa
pemrograman PHP dan MySQL sebagai tempat
penyimpanan data.
Klasifikasi DCS-LA dengan Inverse Distance
Weighting
Dalam metode DCS-LA dilakukan proses
pengolahan data yaitu pengindeksan dokumen,
klasifikasi dengan classifier, dan klasifikasi
DCS-LA. Pengolahan data dilakukan dengan
sistem yang digunakan oleh Cidhy (2009), yaitu
dengan menghilangkan stopword, serta proses
indexing yaitu membagi setiap dokumen
kedalam term-term kata berdasarkan dokumen
dan kelas asal dokumen. Stopword yang
digunakan dalam penelitian ini adalah stopword
yang dibuat oleh Ridha (2002).
Klasifikasi dilakukan dengan empat classifier
yaitu Rocchio, Naїve Bayes, Bernoulli, dan
Poisson Naїve Bayes. Hasil dari keempat
classifier ini disimpan dalam MySQL untuk
digunakan dalam proses klasifikasi dengan DCSLA. Dalam proses DCS-LA digunakan IDW
dalam pembobotan k-NN untuk menentukan
hasil klasifikasi.
Evaluasi Klasifikasi
Evaluasi
dilakukan
dengan
cara
membandingkan antara hasil DCS-LA dan hasil
klasifikasi manual oleh Litbang dan Media
Indonesia serta dihitung akurasinya dengan
menggunakan confusion matrix.
Perbandingan Sistem
Perbandingan dilakukan antara sistem DCSLA dengan IDW dan DCS-LA tanpa IDW.
Perbandingan ini digunakan dokumen yang sama
dan jumlah yang sama. Perbandingan juga
dilakukan
terhadap
DCS-LA
dengan
menggunakan tiga classifier dan DCS-LA
dengan empat classifier.
Lingkungan Implementasi
Lingkungan implementasi yang digunakan
adalah sebagai berikut:

Gambar 2 Format XML.
Keseluruhan abstrak dari dokumen pertanian
telah diubah dalam format XML oleh Ramadhan
(2010), sedangkan untuk dokumen berita diubah
dalam format XML oleh Juniawan (2009) seperti

Perangkat lunak:
1 Windows 7 Home Premium sebagai sistem
operasi.
2 XAMPP sebagai server.
3 Notepad++ sebagai code editor.

5

4 MySQL sebagai database.
5 Mozilla Firefox sebagai web browser.
6 Microsoft Excel untuk perhitungan hasil
penelitian dan pembuatan grafik.
Perangkat keras:
1 Prosesor Intel Core i3.
2 RAM 2 GB.
3 Harddisk 450 GB.
HASIL DAN PEMBAHASAN
Praproses
Dokumen dalam format XML terdiri atas
data latih dan data uji serta dilakukan proses
indexing menggunakan sistem dari Cidhy
(2009). Pada dokumen latih pertanian yang
berjumlah 174 dihasilkan 2868 kata unik atau
term sedangkan pada dokumen latih berita yang
berjumlah 500 dihasilkan 11285 kata unik.
Pelatihan
Pada tahap pelatihan ini keempat metode atau
classifier memiliki cara yang berbeda dalam
perhitungannya. Pada metode Rocchio kata unik
atau term dihitung bobotnya dengan metode
sublinear tf scaling. Setelah itu term atau kata
unik dianggap sebuah vektor dan setiap kelas
dihitung vektor centroid-nya masing-masing.
Nilai vektor centroid disimpan dalam database
untuk digunakan dalam perhitungan klasifikasi
berikutnya.
Pada metode Naїve Bayes, dihitung peluang
dari setiap term atau kata unik dan peluang prior
dari setiap dokumen latih. Nilai peluang dari
setiap term atau kata disimpan dalam database.
Pada metode Bernoulli, dihitung juga peluang
dari setiap term atau kata unik dan peluang prior
dari setiap dokumen latih. Nilai peluang dari
setiap term atau kata juga disimpan dalam
database seperti pada metode Naїve Bayes.

dalam kelas yang memiliki jarak terdekat dengan
dokumen uji.
Akurasi klasifikasi dari setiap metode yang
ada dapat dihitung dengan bantuan tabel
confusion matrix. Pada dokumen pertanian
akurasi metode rocchio dihitung dengan tabel
confusion matrix yang dapat dilihat pada Tabel
2. Demikian juga akurasi untuk dokumen berita
dapat dilihat pada Tabel 3.
Dari Tabel 2 dan Tabel 3 dapat dilihat bahwa
pada dokumen pertanian banyak terjadi
kesalahan pengklasifikasian sedangkan pada
dokumen berita sedikit. Akurasi pada dokumen
pertanian dengan metode Rocchio ini adalah
61.23%,
dan
untuk
dokumen
berita
menghasilkan akurasi 97.2%. Akurasi pada
dokumen pertanian lebih rendah dibandingkan
dengan dokumen berita. Hal ini karena pada
dokumen pertanian setiap kelasnya masih
memiliki hubungan atau keterkaitan, sehingga
setiap centroid kelas memiliki jarak yang sama.
Akibat centorid jarak yang sama ini banyak
terjadi kesalahan pengklasifikasian.
Pada dokumen berita hasil akurasinya tinggi
karena tidak ada keterkaitan setiap kelas,
sehingga jarak antara centroid setiap kelas
berbeda. Akibatnya sedikit terjadi kesalahan
pengklasifikasian. Hasil klasifikasi dengan
metode ini sangat dipengaruhi oleh nilai centroid
setiap kelas.
Tabel 2 Confusion matrix metode Rocchio
dengan dokumen pertanian
Kelas Prediksi

Kelas yang
sebenarnya

Akurasi

EA

PTB

P

EA

16

5

4

0.64

PTB

4

18

3

0.72

P

9

4

12

0.48

Pada metode Poisson Naїve Bayes dihitung
peluang dari setiap term, nilai rata-rata dari
distribusi poisson terhadap masing-masing kelas,
dan bobot dari setiap term menggunakan
pembobotan rasio peluang. Nilai peluang, bobot,
dan nilai rata-rata distribusi poisson setiap term
disimpan dalam database.

Tabel 3 Confusion matrix metode Rocchio
dengan dokumen berita

Akurasi Classifier Tunggal

Kelas
yang
sebenarnya

Pada metode Rocchio dokumen uji dihitung
bobotnya dengan metode Sublinear tf scaling.
Setelah itu dihitung jarak centroid kelas dengan
dokumen uji mengunakan metode Euclidean
distance. Dokumen uji akan diklasifikasikan ke-

Kelas Prediksi

Akurasi

B

E

K

L

P

B

48

1

0

0

1

0.96

E

0

50

0

1

0

1.00

K

0

1

48

1

0

0.96

L

0

1

0

48

1

0.96

P

0

0

0

1

49

0.98

6

Pada metode Naїve Bayes, peluang setiap
term pada dokumen uji akan dihitung. Setelah itu
dihitung peluang dokumen uji terhadap kelas
yang ada. Dokumen uji akan dimasukkan pada
kelas yang memiliki peluang terbesar. Akurasi
pada dokumen pertanian dengan metode Naїve
Bayes dihitung dengan menggunakan bantuan
tabel confusion matrix pada Tabel 4. Hal serupa
dilakukan pada dokumen berita, hasil akurasinya
dapat dilihat pada Tabel 5.
Tabel 4 Confusion matrix metode Naїve Bayes
dengan dokumen pertanian
Kelas Prediksi

Kelas yang
sebenarnya

Akurasi

EA

PTB

P

EA

13

5

7

0.52

PTB

2

20

3

0.80

P

4

5

16

0.64

Tabel 5 Confusion matrix metode Naїve Bayes
dengan dokumen berita
Kelas Prediksi

B
Kelas
yang
sebenarnya

Akurasi

B

E

K

L

P

46

1

1

0

2

0.92

E

0

48

0

1

1

0.96

K

0

0

49

1

0

0.98

L

0

1

0

48

1

0.96

P

2

0

0

0

48

0.96

Dari Tabel 4 dan Tabel 5 dapat dilihat pada
dokumen pertanian terjadi banyak kesalahan
pengklasifikasian sedangkan pada dokumen
berita sedikit. Akurasi pada dokumen pertanian
dengan metode Naїve Bayes ini adalah 65.33%,
dan untuk dokumen berita menghasilkan 76.8%.
Akurasi
dokumen
berita
lebih
tinggi
dibandingkan dokumen pertanian. Hal ini karena
pada dokumen berita setiap kelasnya saling
bebas atau tidak ada keterkaitan antara kelasnya.
Akibatnya setiap kelas memiliki penciri kata
atau term yang berbeda, sehingga terjadi sedikit
kesalahan pengklasifikasian.
Pada dokumen pertanian hasil akurasinya
rendah karena setiap kelas memiliki keterkaitan.
Akibatnya kata atau term dari masing-masing
kelas sama, sehingga banyak terjadi kesalahan
pengklasifikasian.
Pada metode Bernoulli peluang kata atau
term dari dokumen uji akan dihitung. Setelah itu
dihitung peluang dokumen uji masuk ke dalam

kelas yang ada. Perhitungan ini mirip dengan
metode Naїve Bayes, perbedaannya adalah
metode Bernoulli hanya memperhitungkan rasio
dokumen dari setiap kelas yang mengandung
kata atau term. Akurasi pada dokumen pertanian
dengan metode Bernoulli dihitung dengan
menggunakan bantuan tabel confusion matrix
pada Tabel 6. Demikian juga hasil akurasi untuk
dokumen berita dapat dilihat pada Tabel 7.
Dari Tabel 6 dan Tabel 7 dapat dilihat pada
dokumen berita terjadi sedikit kesalahan
pengklasifikasian sedangkan pada dokumen
pertanian banyak kesalahan pengklasifikasian.
Akurasi pada dokumen pertanian dengan metode
Bernoulli ini adalah 61.33%, dan untuk dokumen
berita menghasilkan 76.8%. Akurasi dari
dokumen berita lebih tinggi dari dokumen
pertanian karena pada dokumen pertanian setiap
kelasnya memiliki keterkaitan sehingga kata atau
term dari setiap kelas sama. Akibatnya banyak
terjadi kesalahan pengklasifikasian.
Pada dokumen berita akurasinya tinggi
karena setiap kelasnya tidak ada keterkaitan
sehingga kata atau term dari setiap kelas
berbeda. Akibatnya terjadi sedikit kesalahan
pengklasifikasian.
Tabel 6 Confusion matrix metode Bernoulli
dengan dokumen pertanian
Kelas Prediksi

Kelas yang
sebenarnya

Akurasi

EA

PTB

P

EA

11

1

13

0.44

PTB

2

16

7

0.64

P

3

3

19

0.76

Tabel 7 Confusion matrix metode Bernoulli
dengan dokumen berita
Kelas Prediksi

Kelas
yang
sebenarnya

Akurasi

B

E

K

L

P

B 37
E 0

2

2

1

8

0.74

27

0

5

18

0.54

K

0

0

38

4

8

0.76

L

0

0

0

41

9

0.82

P

0

1

0

0

49

0.98

Pada metode Poisson Naїve Bayes dokumen
uji dihitung bobot setiap term ( ), serta nilai
rata-rata kemunculan kata setiap dokumen pada
kelas c dan kelas bukan c ( dan ). Setelah itu,
dihitung peluang dokumen uji terhadap kelas

7

yang ada. Dokumen uji akan dimasukkan pada
kelas yang memiliki peluang terbesar. Akurasi
pada dokumen pertanian dengan metode Poisson
Naїve Bayes dihitung dengan menggunakan
bantuan tabel confusion matrix pada Tabel 8. Hal
serupa dilakukan pada dokumen berita, sehingga
hasil akurasinya dapat dilihat pada Tabel 9.
Tabel 8 Confusion matrix metode Poisson Naïve
Bayes dengan dokumen pertanian
Kelas Prediksi

Kelas yang
sebenarnya

Akurasi

EA

PTB

P

EA

14

9

2

0.56

PTB

4

19

2

0.76

P

8

6

11

0.44

yang sama atau setuju maka langsung dilabelkan
kelas tersebut. Jika hasil klasifikasi masingmasing classifier berbeda maka dilakukan proses
k-NN. Pada perhitungan k-NN, digunakan IDW
sebagai pembobotan untuk menentukan hasil
klasifikasi yang terpilih.
Pada dokumen pertanian dan berita dilakukan
beberapa percobaan dengan nilai k = 1 sampai k
= 30. Pada dokumen pertanian akurasi tertinggi
terdapat pada nilai k sama dengan 24 dan 25
sebesar 66.67%. Akurasi terendah pada
klasifikasi DCS-LA ini adalah ketika k bernilai 6
sampai 30 sebesar 57.33%. Pada dokumen berita
akurasi tertinggi terdapat pada k = 1 sebesar
97.6% dan terendah ketika k bernilai 3 sampai 30
sebesar 96.4%. Hasil akurasi klasifikasi DCS-LA
dapat dilihat pada Gambar 3.
120%

Tabel 9 Confusion matrix metode Poisson Naïve
Bayes dengan dokumen berita
Kelas Prediksi

B
Kelas
yang
sebenarnya

Akurasi

B

E

K

L

P

50

0

0

0

0

1.00

80%

60%

E

0

50

0

0

0

1.00

K

0

0

50

0

0

1.00

L

0

4

1

43

2

0.86

0

0

0

1

49

0.98

P

100%

Dari Tabel 8 dan Tabel 9 dapat dilihat pada
dokumen berita terjadi sedikit kesalahan
pengklasifikasian sedangkan pada dokumen
pertanian banyak kesalahan pengklasifikasian.
Akurasi pada dokumen pertanian dengan metode
Poisson Naїve Bayes ini adalah 58.67 %, dan
untuk dokumen berita menghasilkan akurasi
96.8%. Akurasi dari dokumen berita lebih tinggi
dari dokumen pertanian karena pada dokumen
pertanian setiap kelasnya memiliki keterkaitan
atau tidak saling bebas sehingga kata atau term
dari setiap kelas sama. Akibatnya banyak terjadi
kesalahan pengklasifikasian.
Pada dokumen berita akurasinya tinggi
karena setiap kelasnya tidak ada keterkaitan atau
saling bebas sehingga kata atau term dari setiap
kelas berbeda. Akibatnya terjadi sedikit
kesalahan pengklasifikasian.
Klasifikasi DCS-LA
Hasil klasifikasi dari empat classifier
dihitung dengan metode DCS-LA. Pada
perhitungan pertama dilakukan simple voting.
Jika semua classifier ini menghasilkan kelas

40%
Dokumen Pertanian
20%

Dokumen Berita

0%

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
Parameter- k

Gambar 3 Grafik hasil klasifikasi DCS-LA
menggunakan IDW.
Dari Gambar 3 dapat dilihat bahwa akurasi
dari dokumen berita lebih tinggi dari dokumen
pertanian. Hasil ini dipengaruhi oleh akurasi dari
setiap classifier. Semakin tinggi akurasi dari
setiap classifier maka semakin tinggi pula
akurasi dari DCS-LA begitu pula sebaliknya.
Pada dokumen pertanian parameter-k
mempengaruhi akurasi klasifikasi, terlihat bahwa
rentang akurasi dari dokumen pertanian
mencapai 9.34%. Pada dokumen berita
parameter-k tidak berpengaruh secara signifikan,
terlihat bahwa rentang akurasinya hanya 1.2%.
Perbandingan akurasi ini dapat dilihat pada
Gambar 3.
Hasil akurasi pada dokumen pertanian
dengan metode DCS-LA adalah 66.67%,
sedangkan pada dokumen berita sebesar 96.4%
Pada penelitian ini, tinggi rendahnya akurasi
yang dimiliki oleh DCS-LA dipengaruhi oleh ke-

8

empat classifier yaitu: Rocchio, Naїve Bayes,
Bernoulli dan Poisson Naїve Bayes.
Dari Gambar 3 akurasi DCS-LA pada
dokumen pertanian lebih rendah dibandingan
dokumen berita. Hal ini disebabkan pada
dokumen berita setiap kelasnya tidak
berhubungan atau saling bebas, sedangkan pada
dokumen pertanian setiap kelasnya berkaitan.
Keterkaitan antarkelas pada dokumen pertanian
dan berita masing-masing 48% dan 10%
(Ramadhan 2010), keterkaitan yang kecil pada
dokumen
berita
mempengaruhi
akurasi
klasifikasi
Jika dihitung akurasi rata-rata dari classifier
pada dokumen pertanian sebesar 61% dan
dokumen
berita
sebesar
91.6%.
Jika
dibandingkan akurasi rata-rata dengan akurasi
DCS-LA, maka metode DCS-LA memiliki
akurasi yang lebih tinggi dari akurasi rata-rata
classifier. Akurasi dapat ditingkatkan dengan
penambahan classifier. Perbandingan akurasi
setiap classifier dengan DCS-LA dapat dilihat
pada Gambar 4.

LA dengan empat classifier memiliki akurasi
yang lebih tinggi dibandingkan dengan DCS-LA
dengan tiga classifier. DCS-LA tanpa IDW
dengan tiga classifier menghasilkan akurasi 56%
untuk dokumen pertanian dan 86% untuk
dokumen berita, dan pada DCS-LA tanpa IDW
dengan empat classifier menghasilkan akurasi
61.33% untuk dokumen pertanian dan 91.6%
untuk dokumen berita.
120%
100%

100%

84%

60%

56%

40%
20%
0%

76%

80%
61%

65%

66%
61%

60%

58%

40%
20%
0%

Dokumen pertanian

b

c

d

Dokumen berita

96%

96%

95%

66.67%

64%

61%

Dokumen pertanian
97%

96.40%

80%

a
120%

94%

91.60%

Dokumen berita

Gambar 4 Diagram perbandingan classifier
dengan DCS-LA.
Perbandingan Klasifikasi
Perbandingan dilakukan dengan cara
membandingkan DCS-LA yang menggunakan
IDW dengan DCS-LA tanpa IDW dari
Ramadhan (2010). Hasil akurasi DCS-LA
dengan IDW lebih baik dibandingkan DCS-LA
tanpa IDW. Perbandingan akurasi ini dapat
dilihat pada Gambar 5.
Penambahan satu classifier yaitu Poisson
Naїve Bayes dapat menambah akurasi dari DCSLA. Pada Gambar 5 dapat dilihat bahwa DCS-

Gambar 5 Perbandingan akurasi DCS-LA: a =
klasifikasi DCS-LA tanpa IDW
dengan tiga classifier, b = klasifikasi
DCS-LA tanpa IDW dan empat
classifier, c = klasifikasi DCS-LA
dengan IDW dan tiga classifier, d =
klasifikasi DCS-LA dengan IDW
dan empat classifier.
Pengaruh penambahan Poisson Naїve Bayes
pada dokumen pertanian dapat dilihat pada
Lampiran 3. Pada Lampiran 3 terdapat dua kasus
(dokumen nomor 25 dan 67) yang menunjukkan
bahwa tiga classifier Rocchio, Naїve Bayes dan
Bernoulli menghasilkan kelas prediksi yang
salah sedangkan Poisson Naїve Bayes
menghasilkan kelas prediksi yang benar,
sehingga menghasilkan kelas prediksi dari DCSLA yang benar.
Penambahan pembobotan IDW juga dapat
meningkatkan akurasi dari DCS-LA. Pada
Gambar 5 dapat dilihat untuk DCS-LA dengan
tiga classifier bahwa penambahan IDW pada
metode tersebut dapat meningkatkan akurasi
sampai 64% untuk dokumen pertanian dan 94 %
untuk dokumen berita. Begitu pula dengan
DCS-LA dengan empat classifier yang
akurasinya meningkat menjadi 66.67% untuk
dokumen pertanian dan 96.4% untuk dokumen
berita setelah penambahan IDW.

9

Pengaruh penambahan pembobotan IDW
pada dokumen pertanian dapat dilihat pada
Lampiran 3. Pada Lampiran 3 terdapat tiga kasus
(dokumen nomor 27, 58, dan 66) yang
menunjukkan
bahwa
DCS-LA
dengan
penambahan IDW memiliki kelas prediksi yang
benar sedangkan pada DCS-LA yang hanya
menambahkan satu classifier menghasilkan kelas
prediksi yang salah.
Pada Gambar 5 dapat dilihat pula bahwa
penambahan IDW dapat meningkatkan akurasi
lebih tinggi dibandingkan dengan hanya
menambahkan satu classifier. Selain itu,
penambahan IDW dan satu classifier sekaligus,
memiliki akurasi yang lebih tinggi dibandingkan
dengan hanya menambahkan satu classifier atau
IDW saja.
KESIMPULAN DAN SARAN
Dari penelitian dalam menerapkan algoritme
DCS-LA dengan IDW untuk klasifikasi
dokumen pertanian dan dokumen berita dalam
bahasa Indonesia, didapatkan kesimpulan
sebagai berikut:
1 Penerapan klasifikasi DCS-LA dengan IDW
untuk dokumen teks bahasa Indonesia
berhasil dilakukan.
2 Akurasi dari metode DCS-LA ini sebesar
66.67% pada dokumen pertanian dan
dokumen berita 96.4%.
3 Akurasi metode DCS-LA dengan IDW lebih
tinggi dibandingkan dengan DCS-LA tanpa
IDW.
4 Akurasi DCS-LA dengan empat classifier
lebih tinggi dibandingkan dengan tiga
classifier.
5 Metode DCS-LA menghasilkan akurasi lebih
tinggi dari akurasi rata-rata classifier.
6 Kelas yang saling berhubungan atau terkait
dapat memberikan hasil akurasi yang rendah.
Saran yang diberikan untuk pengembangan
lebih lanjut pada penelitian ini adalah sebagai
berikut:
1 Mencoba menggunakan komponen classifier
lainnya misalkan MCA atau SVM untuk
dibandingkan.
2 Menambahkan atau mengganti komponen
classifier pada sistem DCS-LA ini.
3 Membandingkan akurasi DCS-LA dengan
AAC untuk dokumen berbahasa Indonesia.

DAFTAR PUSTAKA
Cidhy DATK. 2009. Implementasi Question
Answering System dengan Pembobotan
Heuristic [Skripsi]. Bogor: Departemen Ilmu
Komputer, IPB.
Hamel L. 2008. The Encyclopedia of Data
Warehousing and Mining. Ed. ke-2. Rhode
Island: Idea Group Publisher.
Han J, Kamber M. 2006. Data Mining: Concept
and Techniques. Ed. ke-2. San Francisco:
Morgan Kaufmann Publishers.
Ho TK, Hull JJ, Srihari SN. 1994. Desicion
Combination in Multiple Classifier Systems.
IEEE Transactions on Analisys and Machine
Intelegence 16(1): 66 - 75.
Juniawan I. 2009. Klasifikasi Dokumen Teks
Berbahasa Indonesia Menggunakan Minor
Component Analysis [Skripsi]. Bogor:
Departemen Ilmu Komputer, IPB.
Kim SB. 2001. Poisson Naive Bayes for Text
Classification with Feature Weighting. Di
dalam: Adachi J, editor. Proceedings of the
6th International Workshop on Information
Retrieval with Asian Languange; Sappro, 7
Juli 2003. Stroudsburg: Association for
Computational Linguistics. hlm 33 - 40.
Li YH, Jain AK. 1998. Classification of Text
Document. The Computer Journal 41(8): 537
- 546.
Manning CD, Raghavan P, Schutze H. 2008.
Introduction to Information Retrieval.
Cambridge: Cambridge University Press.
Morales AI, Valdovinos RM, Sanchez JS. 2008.
On the Weighted Dynamic Classifier
Selection with Local Accuracies. Di dalam:
Grigoriadis K, editor. Proceedings of the
11th IASTED International Conference;
Orlando, 16-18 November 1998. Anaheim:
ACTA Press. hlm 204 - 206.
Ramadhan R. 2010. Klasifikasi Dokumen
Berbahasa Indonesia Menggunakan Dinamic
Classifier Selection with Local Accuracies
(DCS-LA) [Skripsi]. Bogor: Departemen
Ilmu Komputer, IPB.
Ridha A. 2002. Pengindeksan Otomatis Dengan
Istilah Tunggal Untuk Dokumen Berbahasa
Indonesia [Skripsi]. Bogor: Departemen Ilmu
Komputer, IPB.

10

Woods K, Kegelmeyer WP, Bowyer K. 1997.
Combination of Multiple Classifiers Using
Local
Accuracy
Estimates.
IEEE
Transactions on Pattern Analysis and
Machine Intelligence 19(4): 405 - 410.
Xu L, Krzyzak A, Suen CY. 1992. Methods of
Combining Multiple Classifiers and Their
Applications to Handwriting Recognition.
IEEE Transactions on System, Man and
Cybernetics 22(3): 418 - 435.

11

LAMPIRAN

12

Lampiran 1 Contoh dokumen pertanian dalam format XML

5
Studi Bedengan Kompos Permanen untuk Budidaya Kentang di Pekarangan
Etty Sumiati dan Achmad Hidayat


Kebutuhan pupuk buatan/kimia untuk meningkatkan pertumbuhan dan hasil umbi kentang, sebagian
dapat disubstitusi melalui pemanfaatan bahan limbah organik. Penelitian ini bertujuan untuk
mengetahui teknik pengomposan dan efektivitas bedengan kompos untuk budidaya tanaman kentang
di lahan kering. Penelitian dilakukan di dataran tinggi Samarang, Garut, Jawa Barat. Percobaan
menggunakan Rancangan Acak Kelompok dengan enam ulangan. Perlakuan pada bedengan permanen
terdiri atas empat macam formula, yaitu berbagai campuran limbah organik, serta pupuk kandang sapi
sebagai kontrol. Hasil penelitian menunjukkan bahwa bedengan permanen yang digarit dan diisi
limbah organik pupuk kandang sapi 20 t/ha ditambah pupuk NPK (15-15-15),memberikan
pertumbuhan serta hasil dan kualitas umbi kentang kultivar Granola yang tertinggi. Selain itu, proses
dekomposisi limbah organik pupuk kandang sapi sangat cepat, hal ini tercermin dari nilai C/N yang
terendah setelah satu bulan terjadi proses pengomposan.




13

Lampiran 2 Contoh dokumen berita dalam format XML

Bulu_tangkis_April_15
Target Satu Poin kian Terbuka
Iwan Kurniawan
Senin, 13 April 2009

KEBERHASILAN pebulu tangkis Markis Kido/Hendra Setiawan dalam menyabet juara di Kejuaraan
Asia di Suwon, Korea Selatan, Minggu (12/4), semakin memperkuat satu poin kemenangan dari
sektor ganda putra pada kejuaraan dunia beregu campuran Piala Sudirman di Guangzhou, China, 1017 Mei mendatang.
Pelatih ganda putra Sigit Pamungkas, di Jakarta, Senin (13/4) mengatakan kemenangan di Suwon
tersebut semakin memantapkan satu target juara di Piala Sudirman. "Melihat kekuatan yang ada,
tentunya kami akan berusaha sekeras mungkin untuk menyumbangkan satu angka bagi tim," ujarnya.
Satu angka kemenangan dikarenakan tim Piala Sudirman diperkuat peringkat satu dunia
Markis/Hendra, peringkat delapan dunia Bona Septano/Mohammad Ahsan dan peringkat 11 dunia
Rian Sukmawan/Yonatan Surtayama.
"Kita memiliki tiga pasangan yang dapat mendukung tim. Saya kita peningkatan performa akan terus
kami lakukan kepada atlet untuk mendapatkam hasil maksimal. Khususnya untuk Kido yang baru saja
bertandingan, masih perlu istirahat untuk mengembalikan kondisi," tandasnya.
Sementara itu, pelatih ganda putri Aryono Miranat terlihat sibuk melakukan latihan service kepada
para pemain ganda putri seperti Shendy Puspa Irawati, Meliana Jauhari, Greysia Polii, dan Nitya
Krishinda. Menurutnya, teknik permainan masih perlu diperbaiki di sisa waktu yang ada.
"Teknik masih akan ditingkatkan karena lawan juga telah mengantisipasinya," jelas Aryono.
Di tempat yang sama, Shendy yang kini berada di peringkat sembilan dunia bersama Meliana
mengungkapakan teknik permainan masih perlu ditingkatkan. Apalagi bila bermain dalam lima set
yang nota bene sangat menguras tenaga. "Saya masih terus fokus berlatih agar dapat bermain baik di
lima set," jelasnya.
Penambahan teknik permainan service, ucap Shendy, menjadi upaya yang baik untuk mengukur
kekuatan selama proses latihan. "Pelatih sudah menyarankan beberapa hal penting sehingga kami akan
menerapkannya," tukasnya.
Sementara itu, guna mempersiapkan keberangkatan ke China, PB PBSI akan menyelenggarakan
outbound pada 25-26 April. "Masih ada dua opsi untuk penentuan tempat yaitu di Sukabumi atau
Bogor," ujar Ketua Bidang Pembinaan Prestasi Lius Pongoh.
Sejak memenangi Piala Sudirman pada 1989, Indonesia belum pernah lagi menjadi juara turnamen
tersebut. Walaupun tujuh kali menjadi finalis, termasuk dalam dua edisi terakhir. Pada final 2005 di
Beijing dan 2007 di Glasgow Skotlandia, Indonesia kalah dari juara bertahan negara 'Tirai Bambu'
masing-masing dengan skor 0-3. (IK/OL-03)




14

Lampiran 3 Perbandingan akurasi setiap classifier dan DCS-LA untuk dokumen pertanian

1

jurnalHorti1.txt

1

1

1

1

1

DCS-LA 3
classifier
dengan
IDW
1

2
3

jurnalHorti102.txt
jurnalHorti117.txt

1
1

1
1

0
1

0
1

0
1

0
1

0
1

4
5

jurnalHorti127.txt
jurnalHorti133.txt

0
0

0
0

0
0

0
0

0
0

0
0

0
0

6
7

jurnalHorti141.txt
jurnalHorti155.txt

1
1

0
1

0
1

0
0

0
1

0
1

0
1

8
9

jurnalHorti159.txt
jurnalHorti166.txt

0
1

0
0

0
0

1
1

0
0

0
0

0
0

10
11
12
13
14
15

jurnalHorti17.txt
jurnalHorti178.txt
jurnalHorti19.txt
jurnalHorti209.txt
jurnalHorti263.txt
jurnalHorti34.txt

1
1
1
0
1
1

1
1
1
0
1
0

0
1
0
0
1
1

1
1
1
1
1
0

1
1
1
0
1
0

1
1
1
0
1
0

1
1
1
1
1
0

16
17
18
19
20
21
22
23
24
25
26
27
28
29

jurnalHorti4.txt
jurnalHorti43.txt
jurnalHorti49.txt
jurnalHorti51.txt
jurnalHorti60.txt
jurnalHorti69.txt
jurnalHorti75.txt
jurnalHorti82.txt
jurnalHorti87.txt
jurnalHorti91.txt
jurnalHorti100.txt
jurnalHorti106.txt
jurnalHorti108.txt
jurnalHorti113.txt

1
0
0
0
1
0
1
1
1
0
1
0
1
1

1
0
0
0
1
0
1
1
1
0
1
1
1
1

1
0
0
0
1
0
1
1
1
0
1
0
1
1

1
0
0
0
1
0
1
1
0
1
1
1
1
1

1
0
0
0
1
0
1
1
1
1
1
1
1
1

1
0
0
0
1
0
1
1
1
0
1
1
1
1

1
0
0
0
1
0
1
1
1
1
1
0
1
1

30
31

jurnalHorti121.txt
jurnalHorti124.txt

0
1

0
1

0
0

0
1

0
1

0
1

0
1

32
33
34
35
36
37

jurnalHorti126.txt
jurnalHorti130.txt
jurnalHorti14.txt
jurnalHorti22.txt
jurnalHorti23.txt
jurnalHorti25.txt

1
1
1
1
1
1

1
1
1
1
1
1

1
1
0
1
1
1

1
1
1
0
1
1

1
1
1
1
1
1

1
1
1
1
1
1

1
1
1
1
1
1

38
39
40

jurnalHorti31.txt
jurnalHorti53.txt
jurnalHorti55.txt

1
1
0

1
1
0

1
1
0

1
1
0

1
1
0

1
1
0

1
1
0

No.

Dokumen

Rocchio

Bayes

Bernoulli

Poisson
NB

DCSLA

DCS-LA 4
classifier
tanpa
IDW
1

15

Lampiran 3 Lanjutan

41
42
43

jurnalHorti59.txt
jurnalHorti62.txt
jurnalHorti65.txt

1
1
1

1
1
1

1
1
1

1
1
1

1
1
1

DCS-LA 3
classifier
dengan
IDW
1
1
1

44
45
46
47
48
49

jurnalHorti70.txt
jurnalHorti77.txt
jurnalHorti78.txt
jurnalHorti83.txt
jurnalHorti85.txt
jurnalHorti93.txt

1
0
1
0
1
0

1
0
1
1
1
0

1
0
1
0
1
0

1
0
1
1
1
0

1
0
1
1
1
0

1
0
1
0
1
0

1
0
1
0
1
0

50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71

jurnalHorti97.txt
jurnalHorti10.txt
jurnalHorti105.txt
jurnalHorti112.txt
jurnalHorti12.txt
jurnalHorti149.txt
jurnalHorti15.txt
jurnalHorti177.txt
jurnalHorti21.txt
jurnalHorti210.txt
jurnalHorti28.txt
jurnalHorti33.txt
jurnalHorti38.txt
jurnalHorti41.txt
jurnalHorti46.txt
jurnalHorti54.txt
jurnalHorti56.txt
jurnalHorti64.txt
jurnalHorti66.txt
jurnalHorti71.txt
jurnalHorti73.txt
jurnalHorti76.txt

0
1
0
0
1
1
1
1
0
0
1
1
1
1
1
0
0
0
0
0
1
0

0
1
1
1
1
1
1
1
1
0
1
1
1
1
1
0
1
0
0
0
1
0

0
1
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
0
0
1
1
0

0
1
0
0
1
1
0
1
0
0
1
1
0
1
1
0
0
1
0
1
0
1

0
1
1
0
1
1
1
1
1
0
1
1
1
1
1
0
1
1
0
1
1
0

0
1
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
0
0
0
1
0

0
1
1
0
1
1
1
1
0
0
1
1
1
1
1
0
0
1
0
0
1
0

72
73
74
75

jurnalHorti79.txt
jurnalHorti9.txt
jurnalHorti90.txt
jurnalHorti95.txt

0
1
0
0

0
1
0
0

0
1
0
1

0
0
0
0

0
1
0
0

0
1
0
0

0
1
0
0

Total

46

49

46

44

50

48

46

Presentasi

61.33%

65.33%

61.33%

58.67%

66.67%

64%

61.33%

No.

Dokumen

Rocchio

Bayes

Bernoulli

Poisson
NB

Keterangan :

 1 = Kelas prediksi benar

DCSLA

 0 = Kelas prediksi salah

DCS-LA 4
classifier
tanpa
IDW
1
1
1

3

ABSTRACT
Roni Novettio Chairullah. Classification of Documents in Bahasa Indonesia using DCS-LA with
Inverse Distance Weighting. Supervised by AHMAD RIDHA.
Dynamic Cl