Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive Classifier Combination (ACC)
KLASIFIKASI DOKUMEN BAHASA INDONESIA
MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION
(ACC)
MUTHIA AZIZA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
KLASIFIKASI DOKUMEN BAHASA INDONESIA
MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION
(ACC)
MUTHIA AZIZA
Skripsi
Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
ABSTRACT
MUTHIA AZIZA.
Indonesian document classification using Adaptive Classifier
Combination (ACC). Supervised by JULIO ADISANTOSO.
Search engine is a tool to find an information that match with user’s request based on query
or keywords. However, the query of search engine often shows irrelevance sites that didn’t
match with user’s desire.
Classification was developed to focused user’s request on the information that they searched,
so the result would be more accurate and less effort yet effective and efficient for the system.
Adaptive Classifier Combination is one of many methods that can be used for text classification.
This method is a combination between k-nearest neighbor classification and Naive Bayes
classification to get a better result than using single method.
The result of this research is an implementation of web-based application that developed
using PHP language. The document is from horticulture reasearch journal from 2002 until 2009.
From 340 documents, 300 document is used for data training and 40 documents is for testing.
The accuracy of ACC is 80% and for Naive Bayes classification is 42.5%.
Keywords: classification, k-nearest neighbor, Naive Bayes, adaptive classifier combination
Nama
: Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive Classifier Combination
(ACC)
: Muthia Aziza
NIM
: G64050444
Judul
Menyetujui,
Pembimbing,
Ir. Julio Adisantoso, M. Kom
NIP 19620714 198601 1 002
Mengetahui,
Ketua Departemen
Dr. Ir. Sri Nurdiati, M.Sc
NIP 19601126 198601 2 001
Tanggal Lulus :
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan hidayah-Nya
sehingga tugas akhir dengan judul Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive
Classifier Combination (ACC) dapat terselesaikan. Penelitian ini dilaksanakan mulai Maret 2009
sampai dengan Desember 2010, bertempat di Departemen Ilmu Komputer.
Terima kasih penulis ucapkan kepada pihak-pihak yang telah membantu dalam penyelesaian tugas
akhir ini, antara lain:
1 Kepada Bapak Ir. Julio Adisantoso, M.Kom. selaku pembimbing yang telah banyak memberi arahan
selama penulis menjalankan penelitian
2 Kepada mama, papa, mas Ojan, mbak Maya, bude Anis, Lidya, Lulu, Fajar, Faiz, Nadine serta
seluruh keluarga atas doa, dukungan, dan kasih sayangnya.
3 Kepada teman seperjuangan satu bimbingan, Tara, Elen, Netty, Utis, Hendrex, Tina, Eka, Yuchan,
Wildan yang selama ini selalu bersama dalam mengerjakan tugas akhir ini dan saling memberikan
semangat.
4 Kepada Tsamrul Fuad, suami, sahabat terbaik yang pernah ada, atas semangat, dukungan, dan
selaku penghibur dikala jenuh selama penulis mengerjakan penelitian.
5 Kepada teman-teman seperjuangan ilkomerz 42, serta pihak lain yang turut membantu baik secara
langsung maupun tidak langsung dalam penyelesaian tugas akhir ini.
Semoga karya ilmiah ini bermanfaat.
Bogor, Januari 2012
Muthia Aziza
RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 9 Juli 1987 dari ayah Achmad Suyuthi Dahlan dan Ibu
Charisa Sullam. Penulis merupakan anak ketiga dari tiga bersaudara.
Tahun 2005, penulis lulus dari SMUN 78 Jakarta dan pada tahun yang sama penulis diterima di
Institut Pertanian Bogor (IPB) melalui jalur SPMB. Tahun 2007, penulis diterima sebagai mahasiswa
di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB. Tahun 2009,
penulis menjalankan kegiatan praktik lapangan di Agroedutourism IPB
DAFTAR ISI
halaman
PENDAHULUAN
Latar Belakang ...................................................................................................................... …….1
Tujuan ................................................................................................................................... …….1
Ruang Lingkup ..................................................................................................................... …….1
TINJAUAN PUSTAKA
Information Retrieval ............................................................................................................ …….1
Klasifikasi ............................................................................................................................. …….2
Naïve Bayes .......................................................................................................................... …….2
K-Tetangga Terdekat ............................................................................................................ …….2
Adaptive Classifier Combination .......................................................................................... …….3
Confusion Matrix .................................................................................................................. …….3
METODE PENELITIAN
Karakteristik Dokumen ......................................................................................................... …….3
Pengindeksan ........................................................................................................................ …….4
Klasifikasi ACC .................................................................................................................... …….4
Klasifikasi Naïve Bayes ........................................................................................................ …….4
Evaluasi Klasifikasi .............................................................................................................. …….4
Lingkungan Pengembangan Sistem ...................................................................................... …….4
HASIL DAN PEMBAHASAN
Karakteristik Dokumen ......................................................................................................... …….4
Pengindeksan ........................................................................................................................ …….4
Training ................................................................................................................................ …….4
Testing................................................................................................................................... …….4
Klasifikasi ACC .................................................................................................................... …….5
Klasifikasi Naïve Bayes ........................................................................................................ …….5
Evaluasi Klasifikasi .............................................................................................................. …….5
KESIMPULAN DAN SARAN
Kesimpulan ........................................................................................................................... …….7
Saran ..................................................................................................................................... …….7
DAFTAR PUSTAKA ........................................................................................................... …….7
LAMPIRAN ......................................................................................................................... …...10
DAFTAR GAMBAR
halaman
1 Metode Penelitian ................................................................................................................................ 3
2 Tingkat Akurasi dengan berbagai nilai k ............................................................................................. 5
DAFTAR TABEL
halaman
1 Confusion Matrix ................................................................................................................................. 3
2 Nilai k .................................................................................................................................................. 5
3 Confusion matrix klasifikasi ACC ....................................................................................................... 6
4 Confusion matrix klasifikasi naïve bayes............................................................................................. 6
DAFTAR LAMPIRAN
halaman
1 Antarmuka Sistem ACC .................................................................................................................... 10
v
PENDAHULUAN
Latar Belakang
Seringkali pengguna sulit menemukan
informasi yang diinginkan dengan cepat dan
tepat pada web. Dari permasalahan ini muncul
keinginan untuk mengembangkan alat dan
perangkat lunak yang berguna dan efisien untuk
membantu pengguna mencari informasi dalam
web (Arifin & Setiono 2000). Mesin pencari
adalah contoh alat yang mencari informasi
sesuai
dengan
permintaan
pengguna
berdasarkan kueri atau kata kunci yang
dimasukkan oleh pengguna. Tetapi tidak jarang
juga kueri mesin pencari memunculkan
dokumen yang tidak sesuai dengan keinginan
pengguna.
Klasifikasi
dikembangkan
untuk
memfokuskan pencarian pengguna pada
informasi yang ingin dicari, sehingga hasil akan
menjadi lebih akurat dan usaha yang dilakukan
sistem lebih efektif dan efisien. Klasifikasi
dokumen mengelompokkan dokumen yang
sesuai dengan kategori yang terkandung pada
dokumen tersebut. Apabila terdapat permintaan
yang sudah diketahui memiliki kategori
tertentu, pencarian dokumen hanya dilakukan
pada kumpulan dokumen yang memiliki
kategori tersebut, tidak dilakukan pada semua
kumpulan dokumen yang dimiliki sehingga
proses pencarian dapat dilakukan dengan cepat.
Banyak metode yang bisa digunakan untuk
klasifikasi teks, seperti naïve bayes, k-nearest
neighbor, decision trees, dan lain-lain.
Pramujadi (2010) telah menggunakan metode
Naive Bayes classifier (NBC) yang merupakan
salah satu metode untuk teks atau klasifikasi
dokumen. Masalah umum yang sering terjadi
pada metode NBC adalah data sparsity,
terutama ketika ukuran data latih terlalu kecil.
Salah satu cara untuk mengangani masalah
sparsity adalah dengan menggunakan teknik
background smoothing. Tujuan penelitian ini
adalah untuk melihat efek background
smoothing pada query pendek dan panjang, dan
membandingkannya dengan NBC pada data
pelatihan kecil.
Beberapa peneliti telah menunjukkan bahwa
mengombinasikan metode klasifikasi yang
berbeda (combination of multiple classifier)
dapat menambah keakuratan klasifikasi (Li &
Jain 1998). Simple voting, dynamic classifier
selection (DCS), dan adaptive classifier
combination (ACC) adalah contoh metode yang
menggabungkan beberapa metode klasifikasi.
Tiap-tiap
metode
klasifikasi
seringkali
menghasilkan kelas yang berbeda-beda untuk
satu dokumen tes.
Li dan Jain (1998) telah meneliti keakuratan
simple voting, dynamic classifier selection, dan
adaptive
classifier
combination
untuk
klasifikasi dokumen dalam bahasa Inggris. ACC
merupakan kombinasi dari naïve bayes dengan
k-nearest neighbor. Karena merupakan
kombinasi dari dua buah classifier, ACC dinilai
cukup baik untuk digunakan sebagai metode
klasifikasi.
Tujuan Penelitian
Tujuan utama dari penelitian ini adalah
mengimplementasikan
kinerja
adaptive
classifier combination untuk meningkatkan
keakuratan klasifikasi dokumen berbahasa
Indonesia.
Ruang Lingkup
Ruang lingkup penelitian ini meliputi:
1.
Penelitian ini difokuskan kepada klasifikasi
dokumen dengan menggunakan adaptive
classifier combination pada dokumen
berbahasa Indonesia.
2.
Penelitian dibatasi pada tahap klasifikasi
dokumen, tidak sampai proses temu
kembali dokumen.
TINJAUAN PUSTAKA
Information Retrieval
Information retrieval atau temu kembali
informasi merupakan pencarian material, yang
biasanya dokumen, dari sesuatu yang tidak
terstruktur, biasanya teks, yang memenuhi
kebutuhan informasi dari sekumpulan koleksi
yang besar yang biasanya disimpan di komputer
(Manning et al 2008).
Untuk
menemukembalikan
informasi
terdapat proses pengindeksan tertentu seperti
tokenisasi kata, membuang stopword, dan
stemming sehingga menghasilkan himpunan
kosa kata sebagai dokumen indeks. Proses
pengindeksan tersebut melibatkan isi dari
seluruh kumpulan dokumen atau biasanya
hanya terdiri atas judul atau kata kunci dan
abstrak dari kumpulan dokumen. Tiap dokumen
diwujudkan sebagai sebuah vektor dengan
elemen sebanyak term yang berhasil dikenali
dari proses pemisahan term.
Vektor tersebut beranggotakan bobot dari
tiap term. Salah satu metode yang dapat
digunakan untuk menghitung bobot term adalah
metode tf.idf. Metode tf.idf merupakan metode
1
pembobotan yang merupakan hasil kali antar
term frequency (tf), dan inverse document
frequency (idf) yaitu:
yang ingin diklasifikasikan atau yang
mempunyai nilai posteriori tertinggi atau
maximum a posteriori (MAP), dengan rumus:
(1)
sedangkan wt,d adalah bobot dari term t dalam
dokumen d, tft adalah frekuensi term t dalam
dokumen (tf), N merupakan ukuran dokumen
yang ada dalam koleksi yang digunakan untuk
penghitungan idf, dan dft adalah jumlah dari
dokumen yang ada di koleksi yang mengandung
nilai t.
Proses mendapatkan informasi yang
dibutuhkan oleh pengguna berupa suatu query
dari
pengguna
yang
merepresentasikan
permintaan informasi. Query umumnya tidak
memiliki
struktur,
sehingga
perlu
diformulasikan agar terjadi dialog interaktif
antara pengguna dan sistem.
Perbandingan query terhadap permintaan
informasi disebut proses penyesuaian (matching
process). Pada proses inilah diharapkan dapat
dihasilkan suatu keluaran yang relevan dengan
permintaan pengguna.
Salah satu pendekatan dalam merepresentasikan informasi yang terorganisasi adalah
dengan mengelompokkan dokumen ke dalam
beberapa kategori atau klasifikasi. Dengan
klasifikasi dokumen diharapkan informasi yang
diambil dari kumpulan dokumen dapat lebih
relevan (Pramurjadi 2010).
Klasifikasi
Klasifikasi yaitu proses untuk menemukan
sekumpulan model atau fungsi yang
mendeskripsikan dan membedakan kelas-kelas
data dengan tujuan untuk memprediksikan kelas
dari objek yang belum diketahui kelasnya
(supervised learning) (Han & Kamber 2001).
Proses klasifikasi dibagi menjadi dua fase,
yaitu learning dan test (Han & Kamber 2001).
Pada fase learning, sebagian data yang telah
diketahui kelas datanya (training set) digunakan
untuk membentuk model. Selanjutnya pada fase
test, model yang sudah terbentuk diuji dengan
sebagian data lainnya untuk mengetahui akurasi
model tersebut. Jika akurasinya mencukupi,
maka model tersebut dapat dipakai untuk
prediksi kelas data yang belum diketahui.
Naïve bayes
Naïve Bayes merupakan metode klasifikasi
dengan cara menghitung peluang sebuah
dokumen d berada di kelas c (Manning, 2008).
Kelas terbaik pada klasifikasi naïve bayes
adalah kelas yang paling mirip dengan dokumen
merupakan nilai penduga
sedangkan
peluang suatu dokumen d dikelaskan ke dalam
kelas c, dengan rumus:
(2)
sedangkan
adalah peluang prior dari
dokumen yang ada di dalam kelas c yang
didapat
dari
,
sedangkan
Nc
merupakan banyak dokumen yang ada di dalam
kelas c, N adalah total dokumen yang ada, dan
adalah peluang bersyarat dari term
muncul dalam sebuah dokumen pada kelas c.
diartikan sebagai ukuran seberapa
banyak
term
menyumbang
untuk
menunjukkan c merupakan kelas yang tepat
untuk dokumen d. Nilai
didapat dari:
(3)
adalah jumlah kemunculan term t
sedangkan
dalam dokumen latih di kelas c, termasuk
kemunculan ganda term t pada dokumen. Nilai
adalah jumlah
penjumlahan
seluruh term pada dokumen latih yang ada di
kelas c, termasuk kemunculan term ganda, dan
B adalah jumlah term dalam vocabulary seluruh
dokumen.
K-Tetangga Terdekat
K-tetangga terdekat atau K-nearest neighbor
(kNN) merupakan metode klasifikasi yang
memasukkan dokumen ke dalam mayoritas
kelas dari k tetangga terdekatnya dimana k
adalah sebuah parameter (Manning, 2008).
Metode kNN bekerja dengan berdasarkan
pada jarak terdekat antara dokumen d dengan
dokumen lainnya untuk menentukan tetangga
terdekatnya. Setelah itu diambil mayoritas kelas
dokumen yang merupakan tetangga terdekat
untuk menentukan kelas dokumen d.
Pembobotan juga bisa dilakukan pada kNN
dari kesamaan cosine. Skor kelas dihitung
sebagai berikut:
2
adalah sekumpulan dari k tertangga
dimana
bernilai 1
terdekat dari dokumen d dan
jika dan hanya jika dokumen d terdapat di kelas
c
dan
bernilai
0
jika
sebaliknya.
adalah ukuran kesamaan
cosine antara dokumen d’ dengan d. Dokumen
akan dimasukkan ke kelas yang mempunyai
skor tertinggi.
Adaptive Classifier Combination
Adaptive classifier combination (ACC)
adalah metode klasifikasi yang menggabungkan
metode naïve bayes dengan k-tetangga terdekat.
ACC memasukkan dokumen d ke dalam kelas
ci, dimana kelas yang akan dimasukkan
diidentifikasikan oleh classifier dengan local
accuracy tertinggi dari semua kelas yang ada
(Y. H. Li & A.K. Jain, 1998).
Untuk sebuah dokumen uji d yang akan
diklasifikasikan, cari tetangga dari dokumen uji
d menggunakan metode k-nearest neighbor.
Kemudian hasil klasifikasi untuk dokumen d
oleh n classifier ditunjukkan sebagai
. Setelah itu, untuk
setiap kelas
dihitung:
(4)
Akurasi =
METODE PENELITIAN
Penelitian ini dilaksanakan dalam beberapa
tahap yang diilustrasikan pada Gambar 1.
Secara garis besar tahapannya adalah
pengumpulan data, praproses, implementasi
sistem, klasifikasi ACC dan evaluasi klasifikasi.
Karakteristik Dokumen
Koleksi dokumen yang digunakan sebagai
data latih dan dokumen uji adalah hasil
penelitian dari Jurnal Penelitian Hortikultura
tahun 2002 sampai dengan tahun 2009 dengan
format XML.
Dokumen pada data latih diklasifikasikan
langsung secara manual sebagai pembelajaran
sistem. Dokumen yang dijadikan data latih
sebanyak 300 dokumen dan 40 dokumen
sebagai dokumen uji. Dokumen tersebut akan
dibagi menjadi lima kelas yaitu fisiologi dan
agronomi (1), pemuliaan dan teknologi benih
(2), proteksi (3), pascapanen dan pascaproduksi
(4), dan agroekonomi (5).
Mulai
merupakan peluang xi
dimana
terdapat pada kelas c j dan Wi merupakan
ukuran kesamaan kosinus antara xi dan d.
Kemudian dokumen d dimasukkan ke kelas ck,
dengan rumus:
Pengumpulan Data
(5)
Confusion Matrix
Implementasi Sistem
Confusion matrix merupakan sebuah tabel
yang terdiri atas banyaknya baris data uji yang
diprediksi benar dan tidak benar oleh model
klasifikasi, yang digunakan untuk menentukan
kinerja suatu model klasifikasi (Tan et al 2005).
Klasifikasi ACC
Klasifikasi Naïve Bayes
Tabel 1 Confusion Matrix
Predicted
Class
Actual
Class
Class = 1
Class = 0
Class = 1
F11
F10
Class = 0
F01
F00
Contoh tabel confusion matrix dapat dilihat
pada Tabel 1. Perhitungan akurasi dengan
menggunakan tabel confusion matrix adalah:
Confusion Matrix
Selesai
Gambar 1 Metode Penelitian
3
Training
Dokumen pada data training atau data latih
diklasifikasikan langsung secara manual sebagai
pembelajaran
sistem untuk
mengetahui
dokumen yang belum diketahui kelasnya pada
data uji. Data latih sebanyak 300 dokumen
tersebut dibagi menjadi lima kelas, kelas (1)
yaitu fisiologi dan agronomi terdapat 87
dokumen, kelas (2) yaitu pemuliaan dan
teknologi benih terdapat 73 dokumen, kelas (3)
yaitu proteksi terdapat 97 dokumen, kelas (4)
yaitu pascapanen dan pascaproduksi terdapat 34
dokumen, dan kelas (5) yaitu agroekonomi
terdapat 9 dokumen.
Dokumen yang telah diklasifikasikan secara
manual tersebut disimpan dalam format .txt
dengan struktur [nama file dokumen][,]
[kelasnya].
Testing
Data testing atau data uji dimasukkan oleh
user dengan meng-upload file XML yang ada di
koleksi ke dalam sistem. Kemudian dokumen
uji yang di-upload diambil term-term penciri
dokumen dan dihitung tf.idf-nya. Setelah itu
dilakukan perhitungan menggunakan metode
ACC untuk mengetahui kelas dokumen uji.
Pengindeksan
Tahap pengindeksan dilakukan untuk
menghasilkan term-term yang akan digunakan
sebagai penciri dokumen dan dilakukan
pembobotan tf.idf dengan menggunakan (1)
akan diperoleh bobot tiap term. Hasil dari tahap
pengindeksan akan disimpan dalam file teks
tersendiri untuk mempercepat sistem saat
melakukan pemrosesan koleksi dokumen.
Klasifikasi Naive Bayes
Tahap pertama pada Naive Bayes adalah
menghitung peluang term pada dokumen testing
terdapat di suatu kelas dengan menggunakan
(3). Setelah itu dilakukan perhitungan peluang
dokumen latih berada di suatu kelas tertentu
kemudian diambil nilai yang tertinggi.
Tahap pertama pada Naive Bayes adalah
menghitung peluang term pada dokumen uji
terdapat di suatu kelas dengan menggunakan
(3). Contoh dokumen latih adalah dokumen
jurnalHorti1.txt dengan term “pengaruh”,
“macam”, “dosis”, “pupuk”,
“organik”,
“hasil”, “kentang”, “dataran”, “dium”,
“lahan”, “sawah”, “subhan”, “deden”,
“fatchullah”.
Term-term tersebut dihitung peluang
terdapat di suatu kelas menggunakan (3) dengan
membandingkan dengan term-term pada data
latih.
Setelah
perhitungan
(3),
dilakukan
perhitungan Naive Bayes yaitu dengan
menghitung peluang dokumen latih berada di
suatu kelas tertentu kemudian diambil nilai
yang
tertinggi
berdasarkan
rumus
.
Klasifikasi ACC
Proses pengklasifikasian dokumen pada
penelitian
ini
menggunakan
algoritme
klasifikasi ACC yang merupakan gabungan dari
algoritme klasifikasi KNN dengan Naïve Bayes.
Tahap ini diawali dengan penghitungan
panjang vektor semua dokumen pada korpus.
Setelah itu dilakukan perhitungan perkalian
vektor atau dot product antara dokumen testing
dengan data latih kemudian dihitung
kesamaannya dengan ukuran kesamaan cosine
dan diambil K hasil tertinggi sebagai K tetangga
terdekat.
Selanjutnya
dilakukan
proses
perhitungan dengan algoritme Naive Bayes
dengan data latih sebesar K.
Uji coba dilakukan dengan menggunakan
beberapa nilai k pada algoritme kNN. Nilai k
yang digunakan adalah 2, 3, 4, 5, 6, 7, 9, 10, 11,
12, 13, 14, dan 15. Nilai k yang paling optimal
adalah yang menghasilkan error atau salah
kelas paling sedikit. Dengan kata lain, k yang
paling optimal adalah yang paling banyak
menempatkan data test ke dalam kelas
sesungguhnya.
Evaluasi Klasifikasi
Pada tahap evaluasi dilakukan penilaian
kinerja sistem dengan melakukan pengukuran
presentase ketepatan dalam klasifikasi dokumen
menggunakan confusion matrix.
Lingkungan Pengembangan Sistem
Spesifikasi beberapa perangkat lunak dan
perangkat keras yang digunakan dalam
penelitian ini adalah sebagai berikut :
4
Tabel 2 Tabel nilai k
1. Perangkat Lunak :
•
Sistem operasi Microsoft Windows Vista
•
Notepad++
2. Perangkat Keras :
Nilai k
Jumlah dokumen
2 3 4 5 6 7 9 10 11 12 13 14 15
dengan kelas yang tepat 27 26 28 28 30 30 31 31 32 30 30 30 29
•
Intel Pentium 4 3.0 Ghz
•
Memory 1536 MB RAM
•
Monitor resolusi 1024 x 768 pixel
•
Mouse dan keyboard
HASIL DAN PEMBAHASAN
Klasifikasi Naive Bayes
Hasil klasifikasi Naive Bayes dengan
dokumen tes jurnalHorti1.txt yang didapat dari
menghitung peluang dokumen jurnalHorti1.txt
terdapat di kelas fisiologi dan agronomi (1),
pemuliaan dan teknologi benih (2), proteksi (3),
pascapanen dan pascaproduksi (4), dan
agroekonomi (5) adalah 0.0003, 0.0001,
0.00013, 0.00007, 0.00002.
Dengan demikian jurnalHorti.txt dengan
menggunakan metode Naive Bayes akan
dimasukkan ke dalam kelas fisiologi dan
agronomi karena mempunyai nilai tertinggi
yaitu sebesar ~ 0.0003.
Klasifikasi ACC
Hasil klasifikasi ACC sangat bergantung
pada kNN yang mana dipengaruhi oleh nilai
k. Untuk mengetahui nilai k yang optimal,
yaitu nilai k yang mempunyai akurasi
tertinggi, dilakukan uji coba nilai k. Berikut
adalah hasil uji coba nilai k.
Dari Tabel 2 dapat dilihat bahwa nilai
k=11 merupakan yang paling optimal karena
jumlah dokumen yang dikelaskan di kelas
yang tepat mempunyai jumlah paling tinggi,
yaitu sebanyak 32 dokumen, dibandingkan
dengan nilai k yang lain.
Akurasi tidak bergantung pada banyaknya
nilai k, hal ini dapat dilihat bahwa akurasi
dengan nilai k=2 lebih baik daripada nilai
k=3. Pada Gambar 6 dapat dilihat bahwa nilai
k=3 menghasilkan tingkat akurasi paling
rendah diantara nilai k yang lain.
Nilai k yang paling optimal adalah k=11
dengan akurasi sebesar 80%. Artinya bahwa
dalam penelitian ini dokumen uji paling
banyak dikelaskan secara tepat sesuai dengan
kelas sebenarnya dengan tingkat keakuratan
80% pada k=11. Maka, untuk menghitung
tingkat akurasi sebagai evaluasi klasifikasi,
akan digunakan k=11
Evaluasi Klasifikasi
Evaluasi yang dilakukan pada tahapan ini
yaitu dengan membandingkan berapa dokumen
yang dikelaskan dengan benar dengan kelas
yang sebenarnya. Hasil dari evaluasi klasifikasi
ACC dapat dilihat pada Tabel 3.
Gambar 2 Tingkat Akurasi dengan berbagai nilai k
5
Tabel 3 Confusion matrix klasifikasi ACC
1
8
0
1
1
2
1
2
3
4
5
Kelas Aktual
Kelas Prediksi
2
3
4
0
0
0
8
0
0
0
7
0
0
0
7
3
1
2
5
0
0
0
0
0
Dokumen uji yang seharusnya dikelaskan
ke kelas fisiologi dan agronomi (1) berjumlah 8
dokumen, dengan metode ACC terdapat 8
dokumen dikelaskan tepat ke dalam kelas
fisiologi dan agronomi (1), tidak ada (0)
dokumen yang dikelaskan ke dalam kelas
pemuliaan dan teknoligi benih (2), tidak ada (0)
dokumen yang dikelaskan ke dalam kelas
proteksi (3), tidak ada (0) dokumen yang
dikelaskan ke dalam kelas pascapanen dan
pascaproduksi (4), dan tidak ada (0) dokumen
yang dikelaskan ke dalam kelas agroekonomi
(5). Setelah itu dihitung jumlah semua dokumen
yang kelas prediksi sama dengan kelas
sebenarnya lalu dibagi dengan jumlah seluruh
dokumen uji. Maka akurasi klasifikasi ACC
adalah 80%.
Hasil evaluasi klasifikasi menggunakan
metode naïve bayes dapat dilihat pada Tabel 4.
Tabel 4 Confusion matrix klasifikasi naïve
bayes
Kelas Prediksi
Kelas Aktual
proteksi (3), tidak ada (0) dokumen yang
dikelaskan ke dalam kelas pascapanen dan
pascaproduksi (4), dan tidak ada (0) dokumen
yang dikelaskan ke dalam kelas agroekonomi
(5). Setelah itu dihitung jumlah semua dokumen
yang kelas prediksi sama dengan kelas
sebenarnya lalu dibagi dengan jumlah seluruh
dokumen uji. Maka akurasi klasifikasi naïve
bayes adalah 42.5%.
Dari kedua hasil diatas dapat diartikan
ketika dilakukan klasifikasi dokumen dengan
menggunakan metode ACC peluang dokumen
diklasifikasikan sesuai dengan kelas sebenarnya
adalah 80%. Dengan menggunakan metode
naïve bayes peluang dokumen diklasifikasikan
sesuai dengan kelas sebenarnya adalah 42.5%.
KESIMPULAN DAN SARAN
Kesimpulan
Dari 40 dokumen hortikultura yang didapat
dari laboratorium Temu Kembali Informasi
diklasifikasikan menggunakan metode ACC
dengan data latih berjumlah 300 menghasilkan
akurasi sebesar 80%. Dengan menggunakan
metode Naive Bayes dengan jumlah data latih
dan dokumen uji yang sama menghasilkan
akurasi sebesar 42.5%.
Dari percobaan dapat dilihat klasifikasi ACC
menghasilkan prediksi kelas yang jauh lebih
akurat dibandingkan dengan klasifikasi Naive
Bayes.
Dari hasil percobaan dapat dilihat bahwa
klasifikasi dokumen menggunakan metode
ACC dapat meningkatkan keakuratan hasil
klasifikasi.
1
2
3
4
5
1
3
4
1
0
0
2
3
3
2
0
0
3
2
4
2
0
0
Saran
4
1
5
2
0
0
5
4
2
2
0
0
Pada penelitian ini dokumen yang dipakai
adalah dokumen dengan satu topik yang sama
yaitu hortikultura yang kemudian dikelaskan
lagi ke dalam sub-sub kelas. Untuk
pengembangan selanjutnya dapat dicoba
menggunakan korpus yang berisi dokumendokumen dengan topik yang berbeda dan kelas
yang lebih umum untuk dapat melihat kinerja
klasifikasi
menggunakan
ACC
dan
dibandingkan dengan metode klasifikasi
lainnya.
Dokumen uji yang seharusnya dikelaskan ke
kelas fisiologi dan agronomi (1) berjumlah 8
dokumen, namun dengan metode Naive Bayes
terdapat 3 dokumen dikelaskan tepat ke dalam
kelas fisiologi dan agronomi (1), terdapat 4
dokumen yang salah prediksi ke dalam kelas
pemuliaan dan teknologi benih (2), terdapat 1
dokumen yang salah prediksi ke dalam kelas -
6
Pada penelitian ini setelah dokumen test
diketahui prediksi kelasnya tidak dimasukkan
lagi ke dalam sistem untuk dijadikan data latih
yang baru. Untuk pengembangan selanjutnya
dokumen uji yang telah diketahui kelasnya
dapat dimasukkan sebagai data latih yang baru
agar sistem menjadi lebih akurat.
DAFTAR PUSTAKA
Arifin AZ, Ari NS. 2000. Klasifikasi Dokumen
Berita Kejadian Berbahasa Indonesia dengan
Algoritme Single Pass Clustering. Surabaya.
Jurusan Teknik Informatika Institut Teknologi
Sepuluh Nopember.
Han J, Kamber M. 2001. Data Mining: Concept
and Techniques. USA: Morgan Kaufmann
Publishers.
Juniawan I. 2009. Klasifikasi Dokumen Teks
Berbahasa Indonesia Menggunakan Minor
Component Analysis (MCA). [Skripsi]. Bogor.
Departemen Ilmu Komputer Institut Pertanian
Bogor.
Li YH, AK Jain. 1998. Classification of Text
Document. Department of Computer Science
and Engineering, Michigan State University.
Michigan.
Manning CD, Raghavan P, Schutze H. 2008.
Introduction to Information Retrieval. New
York : Cambridge University Press.
Pramurjadi A. 2010. Klasifikasi Dokumen
Menggunakan
Background
Smoothing.
[Skripsi]. Bogor. Departemen Ilmu Komputer
Institut Pertanian Bogor.
Ramadan R. 2007. Penerapan Pohon Untuk
Klasifikasi Dokumen Teks Berbahasa Inggris.
Bandung. Program Studi Teknik Informatika
Institut Teknologi Bandung.
7
LAMPIRAN
8
Lampiran 1a Antarmuka sistem ACC.
Lampiran 1b Antarmuka pemilihan dokumen.
Lampiran 1c Antarmuka hasil klasifikasi.
9
ABSTRACT
MUTHIA AZIZA.
Indonesian document classification using Adaptive Classifier
Combination (ACC). Supervised by JULIO ADISANTOSO.
Search engine is a tool to find an information that match with user’s request based on query
or keywords. However, the query of search engine often shows irrelevance sites that didn’t
match with user’s desire.
Classification was developed to focused user’s request on the information that they searched,
so the result would be more accurate and less effort yet effective and efficient for the system.
Adaptive Classifier Combination is one of many methods that can be used for text classification.
This method is a combination between k-nearest neighbor classification and Naive Bayes
classification to get a better result than using single method.
The result of this research is an implementation of web-based application that developed
using PHP language. The document is from horticulture reasearch journal from 2002 until 2009.
From 340 documents, 300 document is used for data training and 40 documents is for testing.
The accuracy of ACC is 80% and for Naive Bayes classification is 42.5%.
Keywords: classification, k-nearest neighbor, Naive Bayes, adaptive classifier combination
PENDAHULUAN
Latar Belakang
Seringkali pengguna sulit menemukan
informasi yang diinginkan dengan cepat dan
tepat pada web. Dari permasalahan ini muncul
keinginan untuk mengembangkan alat dan
perangkat lunak yang berguna dan efisien untuk
membantu pengguna mencari informasi dalam
web (Arifin & Setiono 2000). Mesin pencari
adalah contoh alat yang mencari informasi
sesuai
dengan
permintaan
pengguna
berdasarkan kueri atau kata kunci yang
dimasukkan oleh pengguna. Tetapi tidak jarang
juga kueri mesin pencari memunculkan
dokumen yang tidak sesuai dengan keinginan
pengguna.
Klasifikasi
dikembangkan
untuk
memfokuskan pencarian pengguna pada
informasi yang ingin dicari, sehingga hasil akan
menjadi lebih akurat dan usaha yang dilakukan
sistem lebih efektif dan efisien. Klasifikasi
dokumen mengelompokkan dokumen yang
sesuai dengan kategori yang terkandung pada
dokumen tersebut. Apabila terdapat permintaan
yang sudah diketahui memiliki kategori
tertentu, pencarian dokumen hanya dilakukan
pada kumpulan dokumen yang memiliki
kategori tersebut, tidak dilakukan pada semua
kumpulan dokumen yang dimiliki sehingga
proses pencarian dapat dilakukan dengan cepat.
Banyak metode yang bisa digunakan untuk
klasifikasi teks, seperti naïve bayes, k-nearest
neighbor, decision trees, dan lain-lain.
Pramujadi (2010) telah menggunakan metode
Naive Bayes classifier (NBC) yang merupakan
salah satu metode untuk teks atau klasifikasi
dokumen. Masalah umum yang sering terjadi
pada metode NBC adalah data sparsity,
terutama ketika ukuran data latih terlalu kecil.
Salah satu cara untuk mengangani masalah
sparsity adalah dengan menggunakan teknik
background smoothing. Tujuan penelitian ini
adalah untuk melihat efek background
smoothing pada query pendek dan panjang, dan
membandingkannya dengan NBC pada data
pelatihan kecil.
Beberapa peneliti telah menunjukkan bahwa
mengombinasikan metode klasifikasi yang
berbeda (combination of multiple classifier)
dapat menambah keakuratan klasifikasi (Li &
Jain 1998). Simple voting, dynamic classifier
selection (DCS), dan adaptive classifier
combination (ACC) adalah contoh metode yang
menggabungkan beberapa metode klasifikasi.
Tiap-tiap
metode
klasifikasi
seringkali
menghasilkan kelas yang berbeda-beda untuk
satu dokumen tes.
Li dan Jain (1998) telah meneliti keakuratan
simple voting, dynamic classifier selection, dan
adaptive
classifier
combination
untuk
klasifikasi dokumen dalam bahasa Inggris. ACC
merupakan kombinasi dari naïve bayes dengan
k-nearest neighbor. Karena merupakan
kombinasi dari dua buah classifier, ACC dinilai
cukup baik untuk digunakan sebagai metode
klasifikasi.
Tujuan Penelitian
Tujuan utama dari penelitian ini adalah
mengimplementasikan
kinerja
adaptive
classifier combination untuk meningkatkan
keakuratan klasifikasi dokumen berbahasa
Indonesia.
Ruang Lingkup
Ruang lingkup penelitian ini meliputi:
1.
Penelitian ini difokuskan kepada klasifikasi
dokumen dengan menggunakan adaptive
classifier combination pada dokumen
berbahasa Indonesia.
2.
Penelitian dibatasi pada tahap klasifikasi
dokumen, tidak sampai proses temu
kembali dokumen.
TINJAUAN PUSTAKA
Information Retrieval
Information retrieval atau temu kembali
informasi merupakan pencarian material, yang
biasanya dokumen, dari sesuatu yang tidak
terstruktur, biasanya teks, yang memenuhi
kebutuhan informasi dari sekumpulan koleksi
yang besar yang biasanya disimpan di komputer
(Manning et al 2008).
Untuk
menemukembalikan
informasi
terdapat proses pengindeksan tertentu seperti
tokenisasi kata, membuang stopword, dan
stemming sehingga menghasilkan himpunan
kosa kata sebagai dokumen indeks. Proses
pengindeksan tersebut melibatkan isi dari
seluruh kumpulan dokumen atau biasanya
hanya terdiri atas judul atau kata kunci dan
abstrak dari kumpulan dokumen. Tiap dokumen
diwujudkan sebagai sebuah vektor dengan
elemen sebanyak term yang berhasil dikenali
dari proses pemisahan term.
Vektor tersebut beranggotakan bobot dari
tiap term. Salah satu metode yang dapat
digunakan untuk menghitung bobot term adalah
metode tf.idf. Metode tf.idf merupakan metode
1
pembobotan yang merupakan hasil kali antar
term frequency (tf), dan inverse document
frequency (idf) yaitu:
yang ingin diklasifikasikan atau yang
mempunyai nilai posteriori tertinggi atau
maximum a posteriori (MAP), dengan rumus:
(1)
sedangkan wt,d adalah bobot dari term t dalam
dokumen d, tft adalah frekuensi term t dalam
dokumen (tf), N merupakan ukuran dokumen
yang ada dalam koleksi yang digunakan untuk
penghitungan idf, dan dft adalah jumlah dari
dokumen yang ada di koleksi yang mengandung
nilai t.
Proses mendapatkan informasi yang
dibutuhkan oleh pengguna berupa suatu query
dari
pengguna
yang
merepresentasikan
permintaan informasi. Query umumnya tidak
memiliki
struktur,
sehingga
perlu
diformulasikan agar terjadi dialog interaktif
antara pengguna dan sistem.
Perbandingan query terhadap permintaan
informasi disebut proses penyesuaian (matching
process). Pada proses inilah diharapkan dapat
dihasilkan suatu keluaran yang relevan dengan
permintaan pengguna.
Salah satu pendekatan dalam merepresentasikan informasi yang terorganisasi adalah
dengan mengelompokkan dokumen ke dalam
beberapa kategori atau klasifikasi. Dengan
klasifikasi dokumen diharapkan informasi yang
diambil dari kumpulan dokumen dapat lebih
relevan (Pramurjadi 2010).
Klasifikasi
Klasifikasi yaitu proses untuk menemukan
sekumpulan model atau fungsi yang
mendeskripsikan dan membedakan kelas-kelas
data dengan tujuan untuk memprediksikan kelas
dari objek yang belum diketahui kelasnya
(supervised learning) (Han & Kamber 2001).
Proses klasifikasi dibagi menjadi dua fase,
yaitu learning dan test (Han & Kamber 2001).
Pada fase learning, sebagian data yang telah
diketahui kelas datanya (training set) digunakan
untuk membentuk model. Selanjutnya pada fase
test, model yang sudah terbentuk diuji dengan
sebagian data lainnya untuk mengetahui akurasi
model tersebut. Jika akurasinya mencukupi,
maka model tersebut dapat dipakai untuk
prediksi kelas data yang belum diketahui.
Naïve bayes
Naïve Bayes merupakan metode klasifikasi
dengan cara menghitung peluang sebuah
dokumen d berada di kelas c (Manning, 2008).
Kelas terbaik pada klasifikasi naïve bayes
adalah kelas yang paling mirip dengan dokumen
merupakan nilai penduga
sedangkan
peluang suatu dokumen d dikelaskan ke dalam
kelas c, dengan rumus:
(2)
sedangkan
adalah peluang prior dari
dokumen yang ada di dalam kelas c yang
didapat
dari
,
sedangkan
Nc
merupakan banyak dokumen yang ada di dalam
kelas c, N adalah total dokumen yang ada, dan
adalah peluang bersyarat dari term
muncul dalam sebuah dokumen pada kelas c.
diartikan sebagai ukuran seberapa
banyak
term
menyumbang
untuk
menunjukkan c merupakan kelas yang tepat
untuk dokumen d. Nilai
didapat dari:
(3)
adalah jumlah kemunculan term t
sedangkan
dalam dokumen latih di kelas c, termasuk
kemunculan ganda term t pada dokumen. Nilai
adalah jumlah
penjumlahan
seluruh term pada dokumen latih yang ada di
kelas c, termasuk kemunculan term ganda, dan
B adalah jumlah term dalam vocabulary seluruh
dokumen.
K-Tetangga Terdekat
K-tetangga terdekat atau K-nearest neighbor
(kNN) merupakan metode klasifikasi yang
memasukkan dokumen ke dalam mayoritas
kelas dari k tetangga terdekatnya dimana k
adalah sebuah parameter (Manning, 2008).
Metode kNN bekerja dengan berdasarkan
pada jarak terdekat antara dokumen d dengan
dokumen lainnya untuk menentukan tetangga
terdekatnya. Setelah itu diambil mayoritas kelas
dokumen yang merupakan tetangga terdekat
untuk menentukan kelas dokumen d.
Pembobotan juga bisa dilakukan pada kNN
dari kesamaan cosine. Skor kelas dihitung
sebagai berikut:
2
adalah sekumpulan dari k tertangga
dimana
bernilai 1
terdekat dari dokumen d dan
jika dan hanya jika dokumen d terdapat di kelas
c
dan
bernilai
0
jika
sebaliknya.
adalah ukuran kesamaan
cosine antara dokumen d’ dengan d. Dokumen
akan dimasukkan ke kelas yang mempunyai
skor tertinggi.
Adaptive Classifier Combination
Adaptive classifier combination (ACC)
adalah metode klasifikasi yang menggabungkan
metode naïve bayes dengan k-tetangga terdekat.
ACC memasukkan dokumen d ke dalam kelas
ci, dimana kelas yang akan dimasukkan
diidentifikasikan oleh classifier dengan local
accuracy tertinggi dari semua kelas yang ada
(Y. H. Li & A.K. Jain, 1998).
Untuk sebuah dokumen uji d yang akan
diklasifikasikan, cari tetangga dari dokumen uji
d menggunakan metode k-nearest neighbor.
Kemudian hasil klasifikasi untuk dokumen d
oleh n classifier ditunjukkan sebagai
. Setelah itu, untuk
setiap kelas
dihitung:
(4)
Akurasi =
METODE PENELITIAN
Penelitian ini dilaksanakan dalam beberapa
tahap yang diilustrasikan pada Gambar 1.
Secara garis besar tahapannya adalah
pengumpulan data, praproses, implementasi
sistem, klasifikasi ACC dan evaluasi klasifikasi.
Karakteristik Dokumen
Koleksi dokumen yang digunakan sebagai
data latih dan dokumen uji adalah hasil
penelitian dari Jurnal Penelitian Hortikultura
tahun 2002 sampai dengan tahun 2009 dengan
format XML.
Dokumen pada data latih diklasifikasikan
langsung secara manual sebagai pembelajaran
sistem. Dokumen yang dijadikan data latih
sebanyak 300 dokumen dan 40 dokumen
sebagai dokumen uji. Dokumen tersebut akan
dibagi menjadi lima kelas yaitu fisiologi dan
agronomi (1), pemuliaan dan teknologi benih
(2), proteksi (3), pascapanen dan pascaproduksi
(4), dan agroekonomi (5).
Mulai
merupakan peluang xi
dimana
terdapat pada kelas c j dan Wi merupakan
ukuran kesamaan kosinus antara xi dan d.
Kemudian dokumen d dimasukkan ke kelas ck,
dengan rumus:
Pengumpulan Data
(5)
Confusion Matrix
Implementasi Sistem
Confusion matrix merupakan sebuah tabel
yang terdiri atas banyaknya baris data uji yang
diprediksi benar dan tidak benar oleh model
klasifikasi, yang digunakan untuk menentukan
kinerja suatu model klasifikasi (Tan et al 2005).
Klasifikasi ACC
Klasifikasi Naïve Bayes
Tabel 1 Confusion Matrix
Predicted
Class
Actual
Class
Class = 1
Class = 0
Class = 1
F11
F10
Class = 0
F01
F00
Contoh tabel confusion matrix dapat dilihat
pada Tabel 1. Perhitungan akurasi dengan
menggunakan tabel confusion matrix adalah:
Confusion Matrix
Selesai
Gambar 1 Metode Penelitian
3
Training
Dokumen pada data training atau data latih
diklasifikasikan langsung secara manual sebagai
pembelajaran
sistem untuk
mengetahui
dokumen yang belum diketahui kelasnya pada
data uji. Data latih sebanyak 300 dokumen
tersebut dibagi menjadi lima kelas, kelas (1)
yaitu fisiologi dan agronomi terdapat 87
dokumen, kelas (2) yaitu pemuliaan dan
teknologi benih terdapat 73 dokumen, kelas (3)
yaitu proteksi terdapat 97 dokumen, kelas (4)
yaitu pascapanen dan pascaproduksi terdapat 34
dokumen, dan kelas (5) yaitu agroekonomi
terdapat 9 dokumen.
Dokumen yang telah diklasifikasikan secara
manual tersebut disimpan dalam format .txt
dengan struktur [nama file dokumen][,]
[kelasnya].
Testing
Data testing atau data uji dimasukkan oleh
user dengan meng-upload file XML yang ada di
koleksi ke dalam sistem. Kemudian dokumen
uji yang di-upload diambil term-term penciri
dokumen dan dihitung tf.idf-nya. Setelah itu
dilakukan perhitungan menggunakan metode
ACC untuk mengetahui kelas dokumen uji.
Pengindeksan
Tahap pengindeksan dilakukan untuk
menghasilkan term-term yang akan digunakan
sebagai penciri dokumen dan dilakukan
pembobotan tf.idf dengan menggunakan (1)
akan diperoleh bobot tiap term. Hasil dari tahap
pengindeksan akan disimpan dalam file teks
tersendiri untuk mempercepat sistem saat
melakukan pemrosesan koleksi dokumen.
Klasifikasi Naive Bayes
Tahap pertama pada Naive Bayes adalah
menghitung peluang term pada dokumen testing
terdapat di suatu kelas dengan menggunakan
(3). Setelah itu dilakukan perhitungan peluang
dokumen latih berada di suatu kelas tertentu
kemudian diambil nilai yang tertinggi.
Tahap pertama pada Naive Bayes adalah
menghitung peluang term pada dokumen uji
terdapat di suatu kelas dengan menggunakan
(3). Contoh dokumen latih adalah dokumen
jurnalHorti1.txt dengan term “pengaruh”,
“macam”, “dosis”, “pupuk”,
“organik”,
“hasil”, “kentang”, “dataran”, “dium”,
“lahan”, “sawah”, “subhan”, “deden”,
“fatchullah”.
Term-term tersebut dihitung peluang
terdapat di suatu kelas menggunakan (3) dengan
membandingkan dengan term-term pada data
latih.
Setelah
perhitungan
(3),
dilakukan
perhitungan Naive Bayes yaitu dengan
menghitung peluang dokumen latih berada di
suatu kelas tertentu kemudian diambil nilai
yang
tertinggi
berdasarkan
rumus
.
Klasifikasi ACC
Proses pengklasifikasian dokumen pada
penelitian
ini
menggunakan
algoritme
klasifikasi ACC yang merupakan gabungan dari
algoritme klasifikasi KNN dengan Naïve Bayes.
Tahap ini diawali dengan penghitungan
panjang vektor semua dokumen pada korpus.
Setelah itu dilakukan perhitungan perkalian
vektor atau dot product antara dokumen testing
dengan data latih kemudian dihitung
kesamaannya dengan ukuran kesamaan cosine
dan diambil K hasil tertinggi sebagai K tetangga
terdekat.
Selanjutnya
dilakukan
proses
perhitungan dengan algoritme Naive Bayes
dengan data latih sebesar K.
Uji coba dilakukan dengan menggunakan
beberapa nilai k pada algoritme kNN. Nilai k
yang digunakan adalah 2, 3, 4, 5, 6, 7, 9, 10, 11,
12, 13, 14, dan 15. Nilai k yang paling optimal
adalah yang menghasilkan error atau salah
kelas paling sedikit. Dengan kata lain, k yang
paling optimal adalah yang paling banyak
menempatkan data test ke dalam kelas
sesungguhnya.
Evaluasi Klasifikasi
Pada tahap evaluasi dilakukan penilaian
kinerja sistem dengan melakukan pengukuran
presentase ketepatan dalam klasifikasi dokumen
menggunakan confusion matrix.
Lingkungan Pengembangan Sistem
Spesifikasi beberapa perangkat lunak dan
perangkat keras yang digunakan dalam
penelitian ini adalah sebagai berikut :
4
Tabel 2 Tabel nilai k
1. Perangkat Lunak :
•
Sistem operasi Microsoft Windows Vista
•
Notepad++
2. Perangkat Keras :
Nilai k
Jumlah dokumen
2 3 4 5 6 7 9 10 11 12 13 14 15
dengan kelas yang tepat 27 26 28 28 30 30 31 31 32 30 30 30 29
•
Intel Pentium 4 3.0 Ghz
•
Memory 1536 MB RAM
•
Monitor resolusi 1024 x 768 pixel
•
Mouse dan keyboard
HASIL DAN PEMBAHASAN
Klasifikasi Naive Bayes
Hasil klasifikasi Naive Bayes dengan
dokumen tes jurnalHorti1.txt yang didapat dari
menghitung peluang dokumen jurnalHorti1.txt
terdapat di kelas fisiologi dan agronomi (1),
pemuliaan dan teknologi benih (2), proteksi (3),
pascapanen dan pascaproduksi (4), dan
agroekonomi (5) adalah 0.0003, 0.0001,
0.00013, 0.00007, 0.00002.
Dengan demikian jurnalHorti.txt dengan
menggunakan metode Naive Bayes akan
dimasukkan ke dalam kelas fisiologi dan
agronomi karena mempunyai nilai tertinggi
yaitu sebesar ~ 0.0003.
Klasifikasi ACC
Hasil klasifikasi ACC sangat bergantung
pada kNN yang mana dipengaruhi oleh nilai
k. Untuk mengetahui nilai k yang optimal,
yaitu nilai k yang mempunyai akurasi
tertinggi, dilakukan uji coba nilai k. Berikut
adalah hasil uji coba nilai k.
Dari Tabel 2 dapat dilihat bahwa nilai
k=11 merupakan yang paling optimal karena
jumlah dokumen yang dikelaskan di kelas
yang tepat mempunyai jumlah paling tinggi,
yaitu sebanyak 32 dokumen, dibandingkan
dengan nilai k yang lain.
Akurasi tidak bergantung pada banyaknya
nilai k, hal ini dapat dilihat bahwa akurasi
dengan nilai k=2 lebih baik daripada nilai
k=3. Pada Gambar 6 dapat dilihat bahwa nilai
k=3 menghasilkan tingkat akurasi paling
rendah diantara nilai k yang lain.
Nilai k yang paling optimal adalah k=11
dengan akurasi sebesar 80%. Artinya bahwa
dalam penelitian ini dokumen uji paling
banyak dikelaskan secara tepat sesuai dengan
kelas sebenarnya dengan tingkat keakuratan
80% pada k=11. Maka, untuk menghitung
tingkat akurasi sebagai evaluasi klasifikasi,
akan digunakan k=11
Evaluasi Klasifikasi
Evaluasi yang dilakukan pada tahapan ini
yaitu dengan membandingkan berapa dokumen
yang dikelaskan dengan benar dengan kelas
yang sebenarnya. Hasil dari evaluasi klasifikasi
ACC dapat dilihat pada Tabel 3.
Gambar 2 Tingkat Akurasi dengan berbagai nilai k
5
Tabel 3 Confusion matrix klasifikasi ACC
1
8
0
1
1
2
1
2
3
4
5
Kelas Aktual
Kelas Prediksi
2
3
4
0
0
0
8
0
0
0
7
0
0
0
7
3
1
2
5
0
0
0
0
0
Dokumen uji yang seharusnya dikelaskan
ke kelas fisiologi dan agronomi (1) berjumlah 8
dokumen, dengan metode ACC terdapat 8
dokumen dikelaskan tepat ke dalam kelas
fisiologi dan agronomi (1), tidak ada (0)
dokumen yang dikelaskan ke dalam kelas
pemuliaan dan teknoligi benih (2), tidak ada (0)
dokumen yang dikelaskan ke dalam kelas
proteksi (3), tidak ada (0) dokumen yang
dikelaskan ke dalam kelas pascapanen dan
pascaproduksi (4), dan tidak ada (0) dokumen
yang dikelaskan ke dalam kelas agroekonomi
(5). Setelah itu dihitung jumlah semua dokumen
yang kelas prediksi sama dengan kelas
sebenarnya lalu dibagi dengan jumlah seluruh
dokumen uji. Maka akurasi klasifikasi ACC
adalah 80%.
Hasil evaluasi klasifikasi menggunakan
metode naïve bayes dapat dilihat pada Tabel 4.
Tabel 4 Confusion matrix klasifikasi naïve
bayes
Kelas Prediksi
Kelas Aktual
proteksi (3), tidak ada (0) dokumen yang
dikelaskan ke dalam kelas pascapanen dan
pascaproduksi (4), dan tidak ada (0) dokumen
yang dikelaskan ke dalam kelas agroekonomi
(5). Setelah itu dihitung jumlah semua dokumen
yang kelas prediksi sama dengan kelas
sebenarnya lalu dibagi dengan jumlah seluruh
dokumen uji. Maka akurasi klasifikasi naïve
bayes adalah 42.5%.
Dari kedua hasil diatas dapat diartikan
ketika dilakukan klasifikasi dokumen dengan
menggunakan metode ACC peluang dokumen
diklasifikasikan sesuai dengan kelas sebenarnya
adalah 80%. Dengan menggunakan metode
naïve bayes peluang dokumen diklasifikasikan
sesuai dengan kelas sebenarnya adalah 42.5%.
KESIMPULAN DAN SARAN
Kesimpulan
Dari 40 dokumen hortikultura yang didapat
dari laboratorium Temu Kembali Informasi
diklasifikasikan menggunakan metode ACC
dengan data latih berjumlah 300 menghasilkan
akurasi sebesar 80%. Dengan menggunakan
metode Naive Bayes dengan jumlah data latih
dan dokumen uji yang sama menghasilkan
akurasi sebesar 42.5%.
Dari percobaan dapat dilihat klasifikasi ACC
menghasilkan prediksi kelas yang jauh lebih
akurat dibandingkan dengan klasifikasi Naive
Bayes.
Dari hasil percobaan dapat dilihat bahwa
klasifikasi dokumen menggunakan metode
ACC dapat meningkatkan keakuratan hasil
klasifikasi.
1
2
3
4
5
1
3
4
1
0
0
2
3
3
2
0
0
3
2
4
2
0
0
Saran
4
1
5
2
0
0
5
4
2
2
0
0
Pada penelitian ini dokumen yang dipakai
adalah dokumen dengan satu topik yang sama
yaitu hortikultura yang kemudian dikelaskan
lagi ke dalam sub-sub kelas. Untuk
pengembangan selanjutnya dapat dicoba
menggunakan korpus yang berisi dokumendokumen dengan topik yang berbeda dan kelas
yang lebih umum untuk dapat melihat kinerja
klasifikasi
menggunakan
ACC
dan
dibandingkan dengan metode klasifikasi
lainnya.
Dokumen uji yang seharusnya dikelaskan ke
kelas fisiologi dan agronomi (1) berjumlah 8
dokumen, namun dengan metode Naive Bayes
terdapat 3 dokumen dikelaskan tepat ke dalam
kelas fisiologi dan agronomi (1), terdapat 4
dokumen yang salah prediksi ke dalam kelas
pemuliaan dan teknologi benih (2), terdapat 1
dokumen yang salah prediks
MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION
(ACC)
MUTHIA AZIZA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
KLASIFIKASI DOKUMEN BAHASA INDONESIA
MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION
(ACC)
MUTHIA AZIZA
Skripsi
Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
ABSTRACT
MUTHIA AZIZA.
Indonesian document classification using Adaptive Classifier
Combination (ACC). Supervised by JULIO ADISANTOSO.
Search engine is a tool to find an information that match with user’s request based on query
or keywords. However, the query of search engine often shows irrelevance sites that didn’t
match with user’s desire.
Classification was developed to focused user’s request on the information that they searched,
so the result would be more accurate and less effort yet effective and efficient for the system.
Adaptive Classifier Combination is one of many methods that can be used for text classification.
This method is a combination between k-nearest neighbor classification and Naive Bayes
classification to get a better result than using single method.
The result of this research is an implementation of web-based application that developed
using PHP language. The document is from horticulture reasearch journal from 2002 until 2009.
From 340 documents, 300 document is used for data training and 40 documents is for testing.
The accuracy of ACC is 80% and for Naive Bayes classification is 42.5%.
Keywords: classification, k-nearest neighbor, Naive Bayes, adaptive classifier combination
Nama
: Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive Classifier Combination
(ACC)
: Muthia Aziza
NIM
: G64050444
Judul
Menyetujui,
Pembimbing,
Ir. Julio Adisantoso, M. Kom
NIP 19620714 198601 1 002
Mengetahui,
Ketua Departemen
Dr. Ir. Sri Nurdiati, M.Sc
NIP 19601126 198601 2 001
Tanggal Lulus :
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan hidayah-Nya
sehingga tugas akhir dengan judul Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive
Classifier Combination (ACC) dapat terselesaikan. Penelitian ini dilaksanakan mulai Maret 2009
sampai dengan Desember 2010, bertempat di Departemen Ilmu Komputer.
Terima kasih penulis ucapkan kepada pihak-pihak yang telah membantu dalam penyelesaian tugas
akhir ini, antara lain:
1 Kepada Bapak Ir. Julio Adisantoso, M.Kom. selaku pembimbing yang telah banyak memberi arahan
selama penulis menjalankan penelitian
2 Kepada mama, papa, mas Ojan, mbak Maya, bude Anis, Lidya, Lulu, Fajar, Faiz, Nadine serta
seluruh keluarga atas doa, dukungan, dan kasih sayangnya.
3 Kepada teman seperjuangan satu bimbingan, Tara, Elen, Netty, Utis, Hendrex, Tina, Eka, Yuchan,
Wildan yang selama ini selalu bersama dalam mengerjakan tugas akhir ini dan saling memberikan
semangat.
4 Kepada Tsamrul Fuad, suami, sahabat terbaik yang pernah ada, atas semangat, dukungan, dan
selaku penghibur dikala jenuh selama penulis mengerjakan penelitian.
5 Kepada teman-teman seperjuangan ilkomerz 42, serta pihak lain yang turut membantu baik secara
langsung maupun tidak langsung dalam penyelesaian tugas akhir ini.
Semoga karya ilmiah ini bermanfaat.
Bogor, Januari 2012
Muthia Aziza
RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 9 Juli 1987 dari ayah Achmad Suyuthi Dahlan dan Ibu
Charisa Sullam. Penulis merupakan anak ketiga dari tiga bersaudara.
Tahun 2005, penulis lulus dari SMUN 78 Jakarta dan pada tahun yang sama penulis diterima di
Institut Pertanian Bogor (IPB) melalui jalur SPMB. Tahun 2007, penulis diterima sebagai mahasiswa
di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB. Tahun 2009,
penulis menjalankan kegiatan praktik lapangan di Agroedutourism IPB
DAFTAR ISI
halaman
PENDAHULUAN
Latar Belakang ...................................................................................................................... …….1
Tujuan ................................................................................................................................... …….1
Ruang Lingkup ..................................................................................................................... …….1
TINJAUAN PUSTAKA
Information Retrieval ............................................................................................................ …….1
Klasifikasi ............................................................................................................................. …….2
Naïve Bayes .......................................................................................................................... …….2
K-Tetangga Terdekat ............................................................................................................ …….2
Adaptive Classifier Combination .......................................................................................... …….3
Confusion Matrix .................................................................................................................. …….3
METODE PENELITIAN
Karakteristik Dokumen ......................................................................................................... …….3
Pengindeksan ........................................................................................................................ …….4
Klasifikasi ACC .................................................................................................................... …….4
Klasifikasi Naïve Bayes ........................................................................................................ …….4
Evaluasi Klasifikasi .............................................................................................................. …….4
Lingkungan Pengembangan Sistem ...................................................................................... …….4
HASIL DAN PEMBAHASAN
Karakteristik Dokumen ......................................................................................................... …….4
Pengindeksan ........................................................................................................................ …….4
Training ................................................................................................................................ …….4
Testing................................................................................................................................... …….4
Klasifikasi ACC .................................................................................................................... …….5
Klasifikasi Naïve Bayes ........................................................................................................ …….5
Evaluasi Klasifikasi .............................................................................................................. …….5
KESIMPULAN DAN SARAN
Kesimpulan ........................................................................................................................... …….7
Saran ..................................................................................................................................... …….7
DAFTAR PUSTAKA ........................................................................................................... …….7
LAMPIRAN ......................................................................................................................... …...10
DAFTAR GAMBAR
halaman
1 Metode Penelitian ................................................................................................................................ 3
2 Tingkat Akurasi dengan berbagai nilai k ............................................................................................. 5
DAFTAR TABEL
halaman
1 Confusion Matrix ................................................................................................................................. 3
2 Nilai k .................................................................................................................................................. 5
3 Confusion matrix klasifikasi ACC ....................................................................................................... 6
4 Confusion matrix klasifikasi naïve bayes............................................................................................. 6
DAFTAR LAMPIRAN
halaman
1 Antarmuka Sistem ACC .................................................................................................................... 10
v
PENDAHULUAN
Latar Belakang
Seringkali pengguna sulit menemukan
informasi yang diinginkan dengan cepat dan
tepat pada web. Dari permasalahan ini muncul
keinginan untuk mengembangkan alat dan
perangkat lunak yang berguna dan efisien untuk
membantu pengguna mencari informasi dalam
web (Arifin & Setiono 2000). Mesin pencari
adalah contoh alat yang mencari informasi
sesuai
dengan
permintaan
pengguna
berdasarkan kueri atau kata kunci yang
dimasukkan oleh pengguna. Tetapi tidak jarang
juga kueri mesin pencari memunculkan
dokumen yang tidak sesuai dengan keinginan
pengguna.
Klasifikasi
dikembangkan
untuk
memfokuskan pencarian pengguna pada
informasi yang ingin dicari, sehingga hasil akan
menjadi lebih akurat dan usaha yang dilakukan
sistem lebih efektif dan efisien. Klasifikasi
dokumen mengelompokkan dokumen yang
sesuai dengan kategori yang terkandung pada
dokumen tersebut. Apabila terdapat permintaan
yang sudah diketahui memiliki kategori
tertentu, pencarian dokumen hanya dilakukan
pada kumpulan dokumen yang memiliki
kategori tersebut, tidak dilakukan pada semua
kumpulan dokumen yang dimiliki sehingga
proses pencarian dapat dilakukan dengan cepat.
Banyak metode yang bisa digunakan untuk
klasifikasi teks, seperti naïve bayes, k-nearest
neighbor, decision trees, dan lain-lain.
Pramujadi (2010) telah menggunakan metode
Naive Bayes classifier (NBC) yang merupakan
salah satu metode untuk teks atau klasifikasi
dokumen. Masalah umum yang sering terjadi
pada metode NBC adalah data sparsity,
terutama ketika ukuran data latih terlalu kecil.
Salah satu cara untuk mengangani masalah
sparsity adalah dengan menggunakan teknik
background smoothing. Tujuan penelitian ini
adalah untuk melihat efek background
smoothing pada query pendek dan panjang, dan
membandingkannya dengan NBC pada data
pelatihan kecil.
Beberapa peneliti telah menunjukkan bahwa
mengombinasikan metode klasifikasi yang
berbeda (combination of multiple classifier)
dapat menambah keakuratan klasifikasi (Li &
Jain 1998). Simple voting, dynamic classifier
selection (DCS), dan adaptive classifier
combination (ACC) adalah contoh metode yang
menggabungkan beberapa metode klasifikasi.
Tiap-tiap
metode
klasifikasi
seringkali
menghasilkan kelas yang berbeda-beda untuk
satu dokumen tes.
Li dan Jain (1998) telah meneliti keakuratan
simple voting, dynamic classifier selection, dan
adaptive
classifier
combination
untuk
klasifikasi dokumen dalam bahasa Inggris. ACC
merupakan kombinasi dari naïve bayes dengan
k-nearest neighbor. Karena merupakan
kombinasi dari dua buah classifier, ACC dinilai
cukup baik untuk digunakan sebagai metode
klasifikasi.
Tujuan Penelitian
Tujuan utama dari penelitian ini adalah
mengimplementasikan
kinerja
adaptive
classifier combination untuk meningkatkan
keakuratan klasifikasi dokumen berbahasa
Indonesia.
Ruang Lingkup
Ruang lingkup penelitian ini meliputi:
1.
Penelitian ini difokuskan kepada klasifikasi
dokumen dengan menggunakan adaptive
classifier combination pada dokumen
berbahasa Indonesia.
2.
Penelitian dibatasi pada tahap klasifikasi
dokumen, tidak sampai proses temu
kembali dokumen.
TINJAUAN PUSTAKA
Information Retrieval
Information retrieval atau temu kembali
informasi merupakan pencarian material, yang
biasanya dokumen, dari sesuatu yang tidak
terstruktur, biasanya teks, yang memenuhi
kebutuhan informasi dari sekumpulan koleksi
yang besar yang biasanya disimpan di komputer
(Manning et al 2008).
Untuk
menemukembalikan
informasi
terdapat proses pengindeksan tertentu seperti
tokenisasi kata, membuang stopword, dan
stemming sehingga menghasilkan himpunan
kosa kata sebagai dokumen indeks. Proses
pengindeksan tersebut melibatkan isi dari
seluruh kumpulan dokumen atau biasanya
hanya terdiri atas judul atau kata kunci dan
abstrak dari kumpulan dokumen. Tiap dokumen
diwujudkan sebagai sebuah vektor dengan
elemen sebanyak term yang berhasil dikenali
dari proses pemisahan term.
Vektor tersebut beranggotakan bobot dari
tiap term. Salah satu metode yang dapat
digunakan untuk menghitung bobot term adalah
metode tf.idf. Metode tf.idf merupakan metode
1
pembobotan yang merupakan hasil kali antar
term frequency (tf), dan inverse document
frequency (idf) yaitu:
yang ingin diklasifikasikan atau yang
mempunyai nilai posteriori tertinggi atau
maximum a posteriori (MAP), dengan rumus:
(1)
sedangkan wt,d adalah bobot dari term t dalam
dokumen d, tft adalah frekuensi term t dalam
dokumen (tf), N merupakan ukuran dokumen
yang ada dalam koleksi yang digunakan untuk
penghitungan idf, dan dft adalah jumlah dari
dokumen yang ada di koleksi yang mengandung
nilai t.
Proses mendapatkan informasi yang
dibutuhkan oleh pengguna berupa suatu query
dari
pengguna
yang
merepresentasikan
permintaan informasi. Query umumnya tidak
memiliki
struktur,
sehingga
perlu
diformulasikan agar terjadi dialog interaktif
antara pengguna dan sistem.
Perbandingan query terhadap permintaan
informasi disebut proses penyesuaian (matching
process). Pada proses inilah diharapkan dapat
dihasilkan suatu keluaran yang relevan dengan
permintaan pengguna.
Salah satu pendekatan dalam merepresentasikan informasi yang terorganisasi adalah
dengan mengelompokkan dokumen ke dalam
beberapa kategori atau klasifikasi. Dengan
klasifikasi dokumen diharapkan informasi yang
diambil dari kumpulan dokumen dapat lebih
relevan (Pramurjadi 2010).
Klasifikasi
Klasifikasi yaitu proses untuk menemukan
sekumpulan model atau fungsi yang
mendeskripsikan dan membedakan kelas-kelas
data dengan tujuan untuk memprediksikan kelas
dari objek yang belum diketahui kelasnya
(supervised learning) (Han & Kamber 2001).
Proses klasifikasi dibagi menjadi dua fase,
yaitu learning dan test (Han & Kamber 2001).
Pada fase learning, sebagian data yang telah
diketahui kelas datanya (training set) digunakan
untuk membentuk model. Selanjutnya pada fase
test, model yang sudah terbentuk diuji dengan
sebagian data lainnya untuk mengetahui akurasi
model tersebut. Jika akurasinya mencukupi,
maka model tersebut dapat dipakai untuk
prediksi kelas data yang belum diketahui.
Naïve bayes
Naïve Bayes merupakan metode klasifikasi
dengan cara menghitung peluang sebuah
dokumen d berada di kelas c (Manning, 2008).
Kelas terbaik pada klasifikasi naïve bayes
adalah kelas yang paling mirip dengan dokumen
merupakan nilai penduga
sedangkan
peluang suatu dokumen d dikelaskan ke dalam
kelas c, dengan rumus:
(2)
sedangkan
adalah peluang prior dari
dokumen yang ada di dalam kelas c yang
didapat
dari
,
sedangkan
Nc
merupakan banyak dokumen yang ada di dalam
kelas c, N adalah total dokumen yang ada, dan
adalah peluang bersyarat dari term
muncul dalam sebuah dokumen pada kelas c.
diartikan sebagai ukuran seberapa
banyak
term
menyumbang
untuk
menunjukkan c merupakan kelas yang tepat
untuk dokumen d. Nilai
didapat dari:
(3)
adalah jumlah kemunculan term t
sedangkan
dalam dokumen latih di kelas c, termasuk
kemunculan ganda term t pada dokumen. Nilai
adalah jumlah
penjumlahan
seluruh term pada dokumen latih yang ada di
kelas c, termasuk kemunculan term ganda, dan
B adalah jumlah term dalam vocabulary seluruh
dokumen.
K-Tetangga Terdekat
K-tetangga terdekat atau K-nearest neighbor
(kNN) merupakan metode klasifikasi yang
memasukkan dokumen ke dalam mayoritas
kelas dari k tetangga terdekatnya dimana k
adalah sebuah parameter (Manning, 2008).
Metode kNN bekerja dengan berdasarkan
pada jarak terdekat antara dokumen d dengan
dokumen lainnya untuk menentukan tetangga
terdekatnya. Setelah itu diambil mayoritas kelas
dokumen yang merupakan tetangga terdekat
untuk menentukan kelas dokumen d.
Pembobotan juga bisa dilakukan pada kNN
dari kesamaan cosine. Skor kelas dihitung
sebagai berikut:
2
adalah sekumpulan dari k tertangga
dimana
bernilai 1
terdekat dari dokumen d dan
jika dan hanya jika dokumen d terdapat di kelas
c
dan
bernilai
0
jika
sebaliknya.
adalah ukuran kesamaan
cosine antara dokumen d’ dengan d. Dokumen
akan dimasukkan ke kelas yang mempunyai
skor tertinggi.
Adaptive Classifier Combination
Adaptive classifier combination (ACC)
adalah metode klasifikasi yang menggabungkan
metode naïve bayes dengan k-tetangga terdekat.
ACC memasukkan dokumen d ke dalam kelas
ci, dimana kelas yang akan dimasukkan
diidentifikasikan oleh classifier dengan local
accuracy tertinggi dari semua kelas yang ada
(Y. H. Li & A.K. Jain, 1998).
Untuk sebuah dokumen uji d yang akan
diklasifikasikan, cari tetangga dari dokumen uji
d menggunakan metode k-nearest neighbor.
Kemudian hasil klasifikasi untuk dokumen d
oleh n classifier ditunjukkan sebagai
. Setelah itu, untuk
setiap kelas
dihitung:
(4)
Akurasi =
METODE PENELITIAN
Penelitian ini dilaksanakan dalam beberapa
tahap yang diilustrasikan pada Gambar 1.
Secara garis besar tahapannya adalah
pengumpulan data, praproses, implementasi
sistem, klasifikasi ACC dan evaluasi klasifikasi.
Karakteristik Dokumen
Koleksi dokumen yang digunakan sebagai
data latih dan dokumen uji adalah hasil
penelitian dari Jurnal Penelitian Hortikultura
tahun 2002 sampai dengan tahun 2009 dengan
format XML.
Dokumen pada data latih diklasifikasikan
langsung secara manual sebagai pembelajaran
sistem. Dokumen yang dijadikan data latih
sebanyak 300 dokumen dan 40 dokumen
sebagai dokumen uji. Dokumen tersebut akan
dibagi menjadi lima kelas yaitu fisiologi dan
agronomi (1), pemuliaan dan teknologi benih
(2), proteksi (3), pascapanen dan pascaproduksi
(4), dan agroekonomi (5).
Mulai
merupakan peluang xi
dimana
terdapat pada kelas c j dan Wi merupakan
ukuran kesamaan kosinus antara xi dan d.
Kemudian dokumen d dimasukkan ke kelas ck,
dengan rumus:
Pengumpulan Data
(5)
Confusion Matrix
Implementasi Sistem
Confusion matrix merupakan sebuah tabel
yang terdiri atas banyaknya baris data uji yang
diprediksi benar dan tidak benar oleh model
klasifikasi, yang digunakan untuk menentukan
kinerja suatu model klasifikasi (Tan et al 2005).
Klasifikasi ACC
Klasifikasi Naïve Bayes
Tabel 1 Confusion Matrix
Predicted
Class
Actual
Class
Class = 1
Class = 0
Class = 1
F11
F10
Class = 0
F01
F00
Contoh tabel confusion matrix dapat dilihat
pada Tabel 1. Perhitungan akurasi dengan
menggunakan tabel confusion matrix adalah:
Confusion Matrix
Selesai
Gambar 1 Metode Penelitian
3
Training
Dokumen pada data training atau data latih
diklasifikasikan langsung secara manual sebagai
pembelajaran
sistem untuk
mengetahui
dokumen yang belum diketahui kelasnya pada
data uji. Data latih sebanyak 300 dokumen
tersebut dibagi menjadi lima kelas, kelas (1)
yaitu fisiologi dan agronomi terdapat 87
dokumen, kelas (2) yaitu pemuliaan dan
teknologi benih terdapat 73 dokumen, kelas (3)
yaitu proteksi terdapat 97 dokumen, kelas (4)
yaitu pascapanen dan pascaproduksi terdapat 34
dokumen, dan kelas (5) yaitu agroekonomi
terdapat 9 dokumen.
Dokumen yang telah diklasifikasikan secara
manual tersebut disimpan dalam format .txt
dengan struktur [nama file dokumen][,]
[kelasnya].
Testing
Data testing atau data uji dimasukkan oleh
user dengan meng-upload file XML yang ada di
koleksi ke dalam sistem. Kemudian dokumen
uji yang di-upload diambil term-term penciri
dokumen dan dihitung tf.idf-nya. Setelah itu
dilakukan perhitungan menggunakan metode
ACC untuk mengetahui kelas dokumen uji.
Pengindeksan
Tahap pengindeksan dilakukan untuk
menghasilkan term-term yang akan digunakan
sebagai penciri dokumen dan dilakukan
pembobotan tf.idf dengan menggunakan (1)
akan diperoleh bobot tiap term. Hasil dari tahap
pengindeksan akan disimpan dalam file teks
tersendiri untuk mempercepat sistem saat
melakukan pemrosesan koleksi dokumen.
Klasifikasi Naive Bayes
Tahap pertama pada Naive Bayes adalah
menghitung peluang term pada dokumen testing
terdapat di suatu kelas dengan menggunakan
(3). Setelah itu dilakukan perhitungan peluang
dokumen latih berada di suatu kelas tertentu
kemudian diambil nilai yang tertinggi.
Tahap pertama pada Naive Bayes adalah
menghitung peluang term pada dokumen uji
terdapat di suatu kelas dengan menggunakan
(3). Contoh dokumen latih adalah dokumen
jurnalHorti1.txt dengan term “pengaruh”,
“macam”, “dosis”, “pupuk”,
“organik”,
“hasil”, “kentang”, “dataran”, “dium”,
“lahan”, “sawah”, “subhan”, “deden”,
“fatchullah”.
Term-term tersebut dihitung peluang
terdapat di suatu kelas menggunakan (3) dengan
membandingkan dengan term-term pada data
latih.
Setelah
perhitungan
(3),
dilakukan
perhitungan Naive Bayes yaitu dengan
menghitung peluang dokumen latih berada di
suatu kelas tertentu kemudian diambil nilai
yang
tertinggi
berdasarkan
rumus
.
Klasifikasi ACC
Proses pengklasifikasian dokumen pada
penelitian
ini
menggunakan
algoritme
klasifikasi ACC yang merupakan gabungan dari
algoritme klasifikasi KNN dengan Naïve Bayes.
Tahap ini diawali dengan penghitungan
panjang vektor semua dokumen pada korpus.
Setelah itu dilakukan perhitungan perkalian
vektor atau dot product antara dokumen testing
dengan data latih kemudian dihitung
kesamaannya dengan ukuran kesamaan cosine
dan diambil K hasil tertinggi sebagai K tetangga
terdekat.
Selanjutnya
dilakukan
proses
perhitungan dengan algoritme Naive Bayes
dengan data latih sebesar K.
Uji coba dilakukan dengan menggunakan
beberapa nilai k pada algoritme kNN. Nilai k
yang digunakan adalah 2, 3, 4, 5, 6, 7, 9, 10, 11,
12, 13, 14, dan 15. Nilai k yang paling optimal
adalah yang menghasilkan error atau salah
kelas paling sedikit. Dengan kata lain, k yang
paling optimal adalah yang paling banyak
menempatkan data test ke dalam kelas
sesungguhnya.
Evaluasi Klasifikasi
Pada tahap evaluasi dilakukan penilaian
kinerja sistem dengan melakukan pengukuran
presentase ketepatan dalam klasifikasi dokumen
menggunakan confusion matrix.
Lingkungan Pengembangan Sistem
Spesifikasi beberapa perangkat lunak dan
perangkat keras yang digunakan dalam
penelitian ini adalah sebagai berikut :
4
Tabel 2 Tabel nilai k
1. Perangkat Lunak :
•
Sistem operasi Microsoft Windows Vista
•
Notepad++
2. Perangkat Keras :
Nilai k
Jumlah dokumen
2 3 4 5 6 7 9 10 11 12 13 14 15
dengan kelas yang tepat 27 26 28 28 30 30 31 31 32 30 30 30 29
•
Intel Pentium 4 3.0 Ghz
•
Memory 1536 MB RAM
•
Monitor resolusi 1024 x 768 pixel
•
Mouse dan keyboard
HASIL DAN PEMBAHASAN
Klasifikasi Naive Bayes
Hasil klasifikasi Naive Bayes dengan
dokumen tes jurnalHorti1.txt yang didapat dari
menghitung peluang dokumen jurnalHorti1.txt
terdapat di kelas fisiologi dan agronomi (1),
pemuliaan dan teknologi benih (2), proteksi (3),
pascapanen dan pascaproduksi (4), dan
agroekonomi (5) adalah 0.0003, 0.0001,
0.00013, 0.00007, 0.00002.
Dengan demikian jurnalHorti.txt dengan
menggunakan metode Naive Bayes akan
dimasukkan ke dalam kelas fisiologi dan
agronomi karena mempunyai nilai tertinggi
yaitu sebesar ~ 0.0003.
Klasifikasi ACC
Hasil klasifikasi ACC sangat bergantung
pada kNN yang mana dipengaruhi oleh nilai
k. Untuk mengetahui nilai k yang optimal,
yaitu nilai k yang mempunyai akurasi
tertinggi, dilakukan uji coba nilai k. Berikut
adalah hasil uji coba nilai k.
Dari Tabel 2 dapat dilihat bahwa nilai
k=11 merupakan yang paling optimal karena
jumlah dokumen yang dikelaskan di kelas
yang tepat mempunyai jumlah paling tinggi,
yaitu sebanyak 32 dokumen, dibandingkan
dengan nilai k yang lain.
Akurasi tidak bergantung pada banyaknya
nilai k, hal ini dapat dilihat bahwa akurasi
dengan nilai k=2 lebih baik daripada nilai
k=3. Pada Gambar 6 dapat dilihat bahwa nilai
k=3 menghasilkan tingkat akurasi paling
rendah diantara nilai k yang lain.
Nilai k yang paling optimal adalah k=11
dengan akurasi sebesar 80%. Artinya bahwa
dalam penelitian ini dokumen uji paling
banyak dikelaskan secara tepat sesuai dengan
kelas sebenarnya dengan tingkat keakuratan
80% pada k=11. Maka, untuk menghitung
tingkat akurasi sebagai evaluasi klasifikasi,
akan digunakan k=11
Evaluasi Klasifikasi
Evaluasi yang dilakukan pada tahapan ini
yaitu dengan membandingkan berapa dokumen
yang dikelaskan dengan benar dengan kelas
yang sebenarnya. Hasil dari evaluasi klasifikasi
ACC dapat dilihat pada Tabel 3.
Gambar 2 Tingkat Akurasi dengan berbagai nilai k
5
Tabel 3 Confusion matrix klasifikasi ACC
1
8
0
1
1
2
1
2
3
4
5
Kelas Aktual
Kelas Prediksi
2
3
4
0
0
0
8
0
0
0
7
0
0
0
7
3
1
2
5
0
0
0
0
0
Dokumen uji yang seharusnya dikelaskan
ke kelas fisiologi dan agronomi (1) berjumlah 8
dokumen, dengan metode ACC terdapat 8
dokumen dikelaskan tepat ke dalam kelas
fisiologi dan agronomi (1), tidak ada (0)
dokumen yang dikelaskan ke dalam kelas
pemuliaan dan teknoligi benih (2), tidak ada (0)
dokumen yang dikelaskan ke dalam kelas
proteksi (3), tidak ada (0) dokumen yang
dikelaskan ke dalam kelas pascapanen dan
pascaproduksi (4), dan tidak ada (0) dokumen
yang dikelaskan ke dalam kelas agroekonomi
(5). Setelah itu dihitung jumlah semua dokumen
yang kelas prediksi sama dengan kelas
sebenarnya lalu dibagi dengan jumlah seluruh
dokumen uji. Maka akurasi klasifikasi ACC
adalah 80%.
Hasil evaluasi klasifikasi menggunakan
metode naïve bayes dapat dilihat pada Tabel 4.
Tabel 4 Confusion matrix klasifikasi naïve
bayes
Kelas Prediksi
Kelas Aktual
proteksi (3), tidak ada (0) dokumen yang
dikelaskan ke dalam kelas pascapanen dan
pascaproduksi (4), dan tidak ada (0) dokumen
yang dikelaskan ke dalam kelas agroekonomi
(5). Setelah itu dihitung jumlah semua dokumen
yang kelas prediksi sama dengan kelas
sebenarnya lalu dibagi dengan jumlah seluruh
dokumen uji. Maka akurasi klasifikasi naïve
bayes adalah 42.5%.
Dari kedua hasil diatas dapat diartikan
ketika dilakukan klasifikasi dokumen dengan
menggunakan metode ACC peluang dokumen
diklasifikasikan sesuai dengan kelas sebenarnya
adalah 80%. Dengan menggunakan metode
naïve bayes peluang dokumen diklasifikasikan
sesuai dengan kelas sebenarnya adalah 42.5%.
KESIMPULAN DAN SARAN
Kesimpulan
Dari 40 dokumen hortikultura yang didapat
dari laboratorium Temu Kembali Informasi
diklasifikasikan menggunakan metode ACC
dengan data latih berjumlah 300 menghasilkan
akurasi sebesar 80%. Dengan menggunakan
metode Naive Bayes dengan jumlah data latih
dan dokumen uji yang sama menghasilkan
akurasi sebesar 42.5%.
Dari percobaan dapat dilihat klasifikasi ACC
menghasilkan prediksi kelas yang jauh lebih
akurat dibandingkan dengan klasifikasi Naive
Bayes.
Dari hasil percobaan dapat dilihat bahwa
klasifikasi dokumen menggunakan metode
ACC dapat meningkatkan keakuratan hasil
klasifikasi.
1
2
3
4
5
1
3
4
1
0
0
2
3
3
2
0
0
3
2
4
2
0
0
Saran
4
1
5
2
0
0
5
4
2
2
0
0
Pada penelitian ini dokumen yang dipakai
adalah dokumen dengan satu topik yang sama
yaitu hortikultura yang kemudian dikelaskan
lagi ke dalam sub-sub kelas. Untuk
pengembangan selanjutnya dapat dicoba
menggunakan korpus yang berisi dokumendokumen dengan topik yang berbeda dan kelas
yang lebih umum untuk dapat melihat kinerja
klasifikasi
menggunakan
ACC
dan
dibandingkan dengan metode klasifikasi
lainnya.
Dokumen uji yang seharusnya dikelaskan ke
kelas fisiologi dan agronomi (1) berjumlah 8
dokumen, namun dengan metode Naive Bayes
terdapat 3 dokumen dikelaskan tepat ke dalam
kelas fisiologi dan agronomi (1), terdapat 4
dokumen yang salah prediksi ke dalam kelas
pemuliaan dan teknologi benih (2), terdapat 1
dokumen yang salah prediksi ke dalam kelas -
6
Pada penelitian ini setelah dokumen test
diketahui prediksi kelasnya tidak dimasukkan
lagi ke dalam sistem untuk dijadikan data latih
yang baru. Untuk pengembangan selanjutnya
dokumen uji yang telah diketahui kelasnya
dapat dimasukkan sebagai data latih yang baru
agar sistem menjadi lebih akurat.
DAFTAR PUSTAKA
Arifin AZ, Ari NS. 2000. Klasifikasi Dokumen
Berita Kejadian Berbahasa Indonesia dengan
Algoritme Single Pass Clustering. Surabaya.
Jurusan Teknik Informatika Institut Teknologi
Sepuluh Nopember.
Han J, Kamber M. 2001. Data Mining: Concept
and Techniques. USA: Morgan Kaufmann
Publishers.
Juniawan I. 2009. Klasifikasi Dokumen Teks
Berbahasa Indonesia Menggunakan Minor
Component Analysis (MCA). [Skripsi]. Bogor.
Departemen Ilmu Komputer Institut Pertanian
Bogor.
Li YH, AK Jain. 1998. Classification of Text
Document. Department of Computer Science
and Engineering, Michigan State University.
Michigan.
Manning CD, Raghavan P, Schutze H. 2008.
Introduction to Information Retrieval. New
York : Cambridge University Press.
Pramurjadi A. 2010. Klasifikasi Dokumen
Menggunakan
Background
Smoothing.
[Skripsi]. Bogor. Departemen Ilmu Komputer
Institut Pertanian Bogor.
Ramadan R. 2007. Penerapan Pohon Untuk
Klasifikasi Dokumen Teks Berbahasa Inggris.
Bandung. Program Studi Teknik Informatika
Institut Teknologi Bandung.
7
LAMPIRAN
8
Lampiran 1a Antarmuka sistem ACC.
Lampiran 1b Antarmuka pemilihan dokumen.
Lampiran 1c Antarmuka hasil klasifikasi.
9
ABSTRACT
MUTHIA AZIZA.
Indonesian document classification using Adaptive Classifier
Combination (ACC). Supervised by JULIO ADISANTOSO.
Search engine is a tool to find an information that match with user’s request based on query
or keywords. However, the query of search engine often shows irrelevance sites that didn’t
match with user’s desire.
Classification was developed to focused user’s request on the information that they searched,
so the result would be more accurate and less effort yet effective and efficient for the system.
Adaptive Classifier Combination is one of many methods that can be used for text classification.
This method is a combination between k-nearest neighbor classification and Naive Bayes
classification to get a better result than using single method.
The result of this research is an implementation of web-based application that developed
using PHP language. The document is from horticulture reasearch journal from 2002 until 2009.
From 340 documents, 300 document is used for data training and 40 documents is for testing.
The accuracy of ACC is 80% and for Naive Bayes classification is 42.5%.
Keywords: classification, k-nearest neighbor, Naive Bayes, adaptive classifier combination
PENDAHULUAN
Latar Belakang
Seringkali pengguna sulit menemukan
informasi yang diinginkan dengan cepat dan
tepat pada web. Dari permasalahan ini muncul
keinginan untuk mengembangkan alat dan
perangkat lunak yang berguna dan efisien untuk
membantu pengguna mencari informasi dalam
web (Arifin & Setiono 2000). Mesin pencari
adalah contoh alat yang mencari informasi
sesuai
dengan
permintaan
pengguna
berdasarkan kueri atau kata kunci yang
dimasukkan oleh pengguna. Tetapi tidak jarang
juga kueri mesin pencari memunculkan
dokumen yang tidak sesuai dengan keinginan
pengguna.
Klasifikasi
dikembangkan
untuk
memfokuskan pencarian pengguna pada
informasi yang ingin dicari, sehingga hasil akan
menjadi lebih akurat dan usaha yang dilakukan
sistem lebih efektif dan efisien. Klasifikasi
dokumen mengelompokkan dokumen yang
sesuai dengan kategori yang terkandung pada
dokumen tersebut. Apabila terdapat permintaan
yang sudah diketahui memiliki kategori
tertentu, pencarian dokumen hanya dilakukan
pada kumpulan dokumen yang memiliki
kategori tersebut, tidak dilakukan pada semua
kumpulan dokumen yang dimiliki sehingga
proses pencarian dapat dilakukan dengan cepat.
Banyak metode yang bisa digunakan untuk
klasifikasi teks, seperti naïve bayes, k-nearest
neighbor, decision trees, dan lain-lain.
Pramujadi (2010) telah menggunakan metode
Naive Bayes classifier (NBC) yang merupakan
salah satu metode untuk teks atau klasifikasi
dokumen. Masalah umum yang sering terjadi
pada metode NBC adalah data sparsity,
terutama ketika ukuran data latih terlalu kecil.
Salah satu cara untuk mengangani masalah
sparsity adalah dengan menggunakan teknik
background smoothing. Tujuan penelitian ini
adalah untuk melihat efek background
smoothing pada query pendek dan panjang, dan
membandingkannya dengan NBC pada data
pelatihan kecil.
Beberapa peneliti telah menunjukkan bahwa
mengombinasikan metode klasifikasi yang
berbeda (combination of multiple classifier)
dapat menambah keakuratan klasifikasi (Li &
Jain 1998). Simple voting, dynamic classifier
selection (DCS), dan adaptive classifier
combination (ACC) adalah contoh metode yang
menggabungkan beberapa metode klasifikasi.
Tiap-tiap
metode
klasifikasi
seringkali
menghasilkan kelas yang berbeda-beda untuk
satu dokumen tes.
Li dan Jain (1998) telah meneliti keakuratan
simple voting, dynamic classifier selection, dan
adaptive
classifier
combination
untuk
klasifikasi dokumen dalam bahasa Inggris. ACC
merupakan kombinasi dari naïve bayes dengan
k-nearest neighbor. Karena merupakan
kombinasi dari dua buah classifier, ACC dinilai
cukup baik untuk digunakan sebagai metode
klasifikasi.
Tujuan Penelitian
Tujuan utama dari penelitian ini adalah
mengimplementasikan
kinerja
adaptive
classifier combination untuk meningkatkan
keakuratan klasifikasi dokumen berbahasa
Indonesia.
Ruang Lingkup
Ruang lingkup penelitian ini meliputi:
1.
Penelitian ini difokuskan kepada klasifikasi
dokumen dengan menggunakan adaptive
classifier combination pada dokumen
berbahasa Indonesia.
2.
Penelitian dibatasi pada tahap klasifikasi
dokumen, tidak sampai proses temu
kembali dokumen.
TINJAUAN PUSTAKA
Information Retrieval
Information retrieval atau temu kembali
informasi merupakan pencarian material, yang
biasanya dokumen, dari sesuatu yang tidak
terstruktur, biasanya teks, yang memenuhi
kebutuhan informasi dari sekumpulan koleksi
yang besar yang biasanya disimpan di komputer
(Manning et al 2008).
Untuk
menemukembalikan
informasi
terdapat proses pengindeksan tertentu seperti
tokenisasi kata, membuang stopword, dan
stemming sehingga menghasilkan himpunan
kosa kata sebagai dokumen indeks. Proses
pengindeksan tersebut melibatkan isi dari
seluruh kumpulan dokumen atau biasanya
hanya terdiri atas judul atau kata kunci dan
abstrak dari kumpulan dokumen. Tiap dokumen
diwujudkan sebagai sebuah vektor dengan
elemen sebanyak term yang berhasil dikenali
dari proses pemisahan term.
Vektor tersebut beranggotakan bobot dari
tiap term. Salah satu metode yang dapat
digunakan untuk menghitung bobot term adalah
metode tf.idf. Metode tf.idf merupakan metode
1
pembobotan yang merupakan hasil kali antar
term frequency (tf), dan inverse document
frequency (idf) yaitu:
yang ingin diklasifikasikan atau yang
mempunyai nilai posteriori tertinggi atau
maximum a posteriori (MAP), dengan rumus:
(1)
sedangkan wt,d adalah bobot dari term t dalam
dokumen d, tft adalah frekuensi term t dalam
dokumen (tf), N merupakan ukuran dokumen
yang ada dalam koleksi yang digunakan untuk
penghitungan idf, dan dft adalah jumlah dari
dokumen yang ada di koleksi yang mengandung
nilai t.
Proses mendapatkan informasi yang
dibutuhkan oleh pengguna berupa suatu query
dari
pengguna
yang
merepresentasikan
permintaan informasi. Query umumnya tidak
memiliki
struktur,
sehingga
perlu
diformulasikan agar terjadi dialog interaktif
antara pengguna dan sistem.
Perbandingan query terhadap permintaan
informasi disebut proses penyesuaian (matching
process). Pada proses inilah diharapkan dapat
dihasilkan suatu keluaran yang relevan dengan
permintaan pengguna.
Salah satu pendekatan dalam merepresentasikan informasi yang terorganisasi adalah
dengan mengelompokkan dokumen ke dalam
beberapa kategori atau klasifikasi. Dengan
klasifikasi dokumen diharapkan informasi yang
diambil dari kumpulan dokumen dapat lebih
relevan (Pramurjadi 2010).
Klasifikasi
Klasifikasi yaitu proses untuk menemukan
sekumpulan model atau fungsi yang
mendeskripsikan dan membedakan kelas-kelas
data dengan tujuan untuk memprediksikan kelas
dari objek yang belum diketahui kelasnya
(supervised learning) (Han & Kamber 2001).
Proses klasifikasi dibagi menjadi dua fase,
yaitu learning dan test (Han & Kamber 2001).
Pada fase learning, sebagian data yang telah
diketahui kelas datanya (training set) digunakan
untuk membentuk model. Selanjutnya pada fase
test, model yang sudah terbentuk diuji dengan
sebagian data lainnya untuk mengetahui akurasi
model tersebut. Jika akurasinya mencukupi,
maka model tersebut dapat dipakai untuk
prediksi kelas data yang belum diketahui.
Naïve bayes
Naïve Bayes merupakan metode klasifikasi
dengan cara menghitung peluang sebuah
dokumen d berada di kelas c (Manning, 2008).
Kelas terbaik pada klasifikasi naïve bayes
adalah kelas yang paling mirip dengan dokumen
merupakan nilai penduga
sedangkan
peluang suatu dokumen d dikelaskan ke dalam
kelas c, dengan rumus:
(2)
sedangkan
adalah peluang prior dari
dokumen yang ada di dalam kelas c yang
didapat
dari
,
sedangkan
Nc
merupakan banyak dokumen yang ada di dalam
kelas c, N adalah total dokumen yang ada, dan
adalah peluang bersyarat dari term
muncul dalam sebuah dokumen pada kelas c.
diartikan sebagai ukuran seberapa
banyak
term
menyumbang
untuk
menunjukkan c merupakan kelas yang tepat
untuk dokumen d. Nilai
didapat dari:
(3)
adalah jumlah kemunculan term t
sedangkan
dalam dokumen latih di kelas c, termasuk
kemunculan ganda term t pada dokumen. Nilai
adalah jumlah
penjumlahan
seluruh term pada dokumen latih yang ada di
kelas c, termasuk kemunculan term ganda, dan
B adalah jumlah term dalam vocabulary seluruh
dokumen.
K-Tetangga Terdekat
K-tetangga terdekat atau K-nearest neighbor
(kNN) merupakan metode klasifikasi yang
memasukkan dokumen ke dalam mayoritas
kelas dari k tetangga terdekatnya dimana k
adalah sebuah parameter (Manning, 2008).
Metode kNN bekerja dengan berdasarkan
pada jarak terdekat antara dokumen d dengan
dokumen lainnya untuk menentukan tetangga
terdekatnya. Setelah itu diambil mayoritas kelas
dokumen yang merupakan tetangga terdekat
untuk menentukan kelas dokumen d.
Pembobotan juga bisa dilakukan pada kNN
dari kesamaan cosine. Skor kelas dihitung
sebagai berikut:
2
adalah sekumpulan dari k tertangga
dimana
bernilai 1
terdekat dari dokumen d dan
jika dan hanya jika dokumen d terdapat di kelas
c
dan
bernilai
0
jika
sebaliknya.
adalah ukuran kesamaan
cosine antara dokumen d’ dengan d. Dokumen
akan dimasukkan ke kelas yang mempunyai
skor tertinggi.
Adaptive Classifier Combination
Adaptive classifier combination (ACC)
adalah metode klasifikasi yang menggabungkan
metode naïve bayes dengan k-tetangga terdekat.
ACC memasukkan dokumen d ke dalam kelas
ci, dimana kelas yang akan dimasukkan
diidentifikasikan oleh classifier dengan local
accuracy tertinggi dari semua kelas yang ada
(Y. H. Li & A.K. Jain, 1998).
Untuk sebuah dokumen uji d yang akan
diklasifikasikan, cari tetangga dari dokumen uji
d menggunakan metode k-nearest neighbor.
Kemudian hasil klasifikasi untuk dokumen d
oleh n classifier ditunjukkan sebagai
. Setelah itu, untuk
setiap kelas
dihitung:
(4)
Akurasi =
METODE PENELITIAN
Penelitian ini dilaksanakan dalam beberapa
tahap yang diilustrasikan pada Gambar 1.
Secara garis besar tahapannya adalah
pengumpulan data, praproses, implementasi
sistem, klasifikasi ACC dan evaluasi klasifikasi.
Karakteristik Dokumen
Koleksi dokumen yang digunakan sebagai
data latih dan dokumen uji adalah hasil
penelitian dari Jurnal Penelitian Hortikultura
tahun 2002 sampai dengan tahun 2009 dengan
format XML.
Dokumen pada data latih diklasifikasikan
langsung secara manual sebagai pembelajaran
sistem. Dokumen yang dijadikan data latih
sebanyak 300 dokumen dan 40 dokumen
sebagai dokumen uji. Dokumen tersebut akan
dibagi menjadi lima kelas yaitu fisiologi dan
agronomi (1), pemuliaan dan teknologi benih
(2), proteksi (3), pascapanen dan pascaproduksi
(4), dan agroekonomi (5).
Mulai
merupakan peluang xi
dimana
terdapat pada kelas c j dan Wi merupakan
ukuran kesamaan kosinus antara xi dan d.
Kemudian dokumen d dimasukkan ke kelas ck,
dengan rumus:
Pengumpulan Data
(5)
Confusion Matrix
Implementasi Sistem
Confusion matrix merupakan sebuah tabel
yang terdiri atas banyaknya baris data uji yang
diprediksi benar dan tidak benar oleh model
klasifikasi, yang digunakan untuk menentukan
kinerja suatu model klasifikasi (Tan et al 2005).
Klasifikasi ACC
Klasifikasi Naïve Bayes
Tabel 1 Confusion Matrix
Predicted
Class
Actual
Class
Class = 1
Class = 0
Class = 1
F11
F10
Class = 0
F01
F00
Contoh tabel confusion matrix dapat dilihat
pada Tabel 1. Perhitungan akurasi dengan
menggunakan tabel confusion matrix adalah:
Confusion Matrix
Selesai
Gambar 1 Metode Penelitian
3
Training
Dokumen pada data training atau data latih
diklasifikasikan langsung secara manual sebagai
pembelajaran
sistem untuk
mengetahui
dokumen yang belum diketahui kelasnya pada
data uji. Data latih sebanyak 300 dokumen
tersebut dibagi menjadi lima kelas, kelas (1)
yaitu fisiologi dan agronomi terdapat 87
dokumen, kelas (2) yaitu pemuliaan dan
teknologi benih terdapat 73 dokumen, kelas (3)
yaitu proteksi terdapat 97 dokumen, kelas (4)
yaitu pascapanen dan pascaproduksi terdapat 34
dokumen, dan kelas (5) yaitu agroekonomi
terdapat 9 dokumen.
Dokumen yang telah diklasifikasikan secara
manual tersebut disimpan dalam format .txt
dengan struktur [nama file dokumen][,]
[kelasnya].
Testing
Data testing atau data uji dimasukkan oleh
user dengan meng-upload file XML yang ada di
koleksi ke dalam sistem. Kemudian dokumen
uji yang di-upload diambil term-term penciri
dokumen dan dihitung tf.idf-nya. Setelah itu
dilakukan perhitungan menggunakan metode
ACC untuk mengetahui kelas dokumen uji.
Pengindeksan
Tahap pengindeksan dilakukan untuk
menghasilkan term-term yang akan digunakan
sebagai penciri dokumen dan dilakukan
pembobotan tf.idf dengan menggunakan (1)
akan diperoleh bobot tiap term. Hasil dari tahap
pengindeksan akan disimpan dalam file teks
tersendiri untuk mempercepat sistem saat
melakukan pemrosesan koleksi dokumen.
Klasifikasi Naive Bayes
Tahap pertama pada Naive Bayes adalah
menghitung peluang term pada dokumen testing
terdapat di suatu kelas dengan menggunakan
(3). Setelah itu dilakukan perhitungan peluang
dokumen latih berada di suatu kelas tertentu
kemudian diambil nilai yang tertinggi.
Tahap pertama pada Naive Bayes adalah
menghitung peluang term pada dokumen uji
terdapat di suatu kelas dengan menggunakan
(3). Contoh dokumen latih adalah dokumen
jurnalHorti1.txt dengan term “pengaruh”,
“macam”, “dosis”, “pupuk”,
“organik”,
“hasil”, “kentang”, “dataran”, “dium”,
“lahan”, “sawah”, “subhan”, “deden”,
“fatchullah”.
Term-term tersebut dihitung peluang
terdapat di suatu kelas menggunakan (3) dengan
membandingkan dengan term-term pada data
latih.
Setelah
perhitungan
(3),
dilakukan
perhitungan Naive Bayes yaitu dengan
menghitung peluang dokumen latih berada di
suatu kelas tertentu kemudian diambil nilai
yang
tertinggi
berdasarkan
rumus
.
Klasifikasi ACC
Proses pengklasifikasian dokumen pada
penelitian
ini
menggunakan
algoritme
klasifikasi ACC yang merupakan gabungan dari
algoritme klasifikasi KNN dengan Naïve Bayes.
Tahap ini diawali dengan penghitungan
panjang vektor semua dokumen pada korpus.
Setelah itu dilakukan perhitungan perkalian
vektor atau dot product antara dokumen testing
dengan data latih kemudian dihitung
kesamaannya dengan ukuran kesamaan cosine
dan diambil K hasil tertinggi sebagai K tetangga
terdekat.
Selanjutnya
dilakukan
proses
perhitungan dengan algoritme Naive Bayes
dengan data latih sebesar K.
Uji coba dilakukan dengan menggunakan
beberapa nilai k pada algoritme kNN. Nilai k
yang digunakan adalah 2, 3, 4, 5, 6, 7, 9, 10, 11,
12, 13, 14, dan 15. Nilai k yang paling optimal
adalah yang menghasilkan error atau salah
kelas paling sedikit. Dengan kata lain, k yang
paling optimal adalah yang paling banyak
menempatkan data test ke dalam kelas
sesungguhnya.
Evaluasi Klasifikasi
Pada tahap evaluasi dilakukan penilaian
kinerja sistem dengan melakukan pengukuran
presentase ketepatan dalam klasifikasi dokumen
menggunakan confusion matrix.
Lingkungan Pengembangan Sistem
Spesifikasi beberapa perangkat lunak dan
perangkat keras yang digunakan dalam
penelitian ini adalah sebagai berikut :
4
Tabel 2 Tabel nilai k
1. Perangkat Lunak :
•
Sistem operasi Microsoft Windows Vista
•
Notepad++
2. Perangkat Keras :
Nilai k
Jumlah dokumen
2 3 4 5 6 7 9 10 11 12 13 14 15
dengan kelas yang tepat 27 26 28 28 30 30 31 31 32 30 30 30 29
•
Intel Pentium 4 3.0 Ghz
•
Memory 1536 MB RAM
•
Monitor resolusi 1024 x 768 pixel
•
Mouse dan keyboard
HASIL DAN PEMBAHASAN
Klasifikasi Naive Bayes
Hasil klasifikasi Naive Bayes dengan
dokumen tes jurnalHorti1.txt yang didapat dari
menghitung peluang dokumen jurnalHorti1.txt
terdapat di kelas fisiologi dan agronomi (1),
pemuliaan dan teknologi benih (2), proteksi (3),
pascapanen dan pascaproduksi (4), dan
agroekonomi (5) adalah 0.0003, 0.0001,
0.00013, 0.00007, 0.00002.
Dengan demikian jurnalHorti.txt dengan
menggunakan metode Naive Bayes akan
dimasukkan ke dalam kelas fisiologi dan
agronomi karena mempunyai nilai tertinggi
yaitu sebesar ~ 0.0003.
Klasifikasi ACC
Hasil klasifikasi ACC sangat bergantung
pada kNN yang mana dipengaruhi oleh nilai
k. Untuk mengetahui nilai k yang optimal,
yaitu nilai k yang mempunyai akurasi
tertinggi, dilakukan uji coba nilai k. Berikut
adalah hasil uji coba nilai k.
Dari Tabel 2 dapat dilihat bahwa nilai
k=11 merupakan yang paling optimal karena
jumlah dokumen yang dikelaskan di kelas
yang tepat mempunyai jumlah paling tinggi,
yaitu sebanyak 32 dokumen, dibandingkan
dengan nilai k yang lain.
Akurasi tidak bergantung pada banyaknya
nilai k, hal ini dapat dilihat bahwa akurasi
dengan nilai k=2 lebih baik daripada nilai
k=3. Pada Gambar 6 dapat dilihat bahwa nilai
k=3 menghasilkan tingkat akurasi paling
rendah diantara nilai k yang lain.
Nilai k yang paling optimal adalah k=11
dengan akurasi sebesar 80%. Artinya bahwa
dalam penelitian ini dokumen uji paling
banyak dikelaskan secara tepat sesuai dengan
kelas sebenarnya dengan tingkat keakuratan
80% pada k=11. Maka, untuk menghitung
tingkat akurasi sebagai evaluasi klasifikasi,
akan digunakan k=11
Evaluasi Klasifikasi
Evaluasi yang dilakukan pada tahapan ini
yaitu dengan membandingkan berapa dokumen
yang dikelaskan dengan benar dengan kelas
yang sebenarnya. Hasil dari evaluasi klasifikasi
ACC dapat dilihat pada Tabel 3.
Gambar 2 Tingkat Akurasi dengan berbagai nilai k
5
Tabel 3 Confusion matrix klasifikasi ACC
1
8
0
1
1
2
1
2
3
4
5
Kelas Aktual
Kelas Prediksi
2
3
4
0
0
0
8
0
0
0
7
0
0
0
7
3
1
2
5
0
0
0
0
0
Dokumen uji yang seharusnya dikelaskan
ke kelas fisiologi dan agronomi (1) berjumlah 8
dokumen, dengan metode ACC terdapat 8
dokumen dikelaskan tepat ke dalam kelas
fisiologi dan agronomi (1), tidak ada (0)
dokumen yang dikelaskan ke dalam kelas
pemuliaan dan teknoligi benih (2), tidak ada (0)
dokumen yang dikelaskan ke dalam kelas
proteksi (3), tidak ada (0) dokumen yang
dikelaskan ke dalam kelas pascapanen dan
pascaproduksi (4), dan tidak ada (0) dokumen
yang dikelaskan ke dalam kelas agroekonomi
(5). Setelah itu dihitung jumlah semua dokumen
yang kelas prediksi sama dengan kelas
sebenarnya lalu dibagi dengan jumlah seluruh
dokumen uji. Maka akurasi klasifikasi ACC
adalah 80%.
Hasil evaluasi klasifikasi menggunakan
metode naïve bayes dapat dilihat pada Tabel 4.
Tabel 4 Confusion matrix klasifikasi naïve
bayes
Kelas Prediksi
Kelas Aktual
proteksi (3), tidak ada (0) dokumen yang
dikelaskan ke dalam kelas pascapanen dan
pascaproduksi (4), dan tidak ada (0) dokumen
yang dikelaskan ke dalam kelas agroekonomi
(5). Setelah itu dihitung jumlah semua dokumen
yang kelas prediksi sama dengan kelas
sebenarnya lalu dibagi dengan jumlah seluruh
dokumen uji. Maka akurasi klasifikasi naïve
bayes adalah 42.5%.
Dari kedua hasil diatas dapat diartikan
ketika dilakukan klasifikasi dokumen dengan
menggunakan metode ACC peluang dokumen
diklasifikasikan sesuai dengan kelas sebenarnya
adalah 80%. Dengan menggunakan metode
naïve bayes peluang dokumen diklasifikasikan
sesuai dengan kelas sebenarnya adalah 42.5%.
KESIMPULAN DAN SARAN
Kesimpulan
Dari 40 dokumen hortikultura yang didapat
dari laboratorium Temu Kembali Informasi
diklasifikasikan menggunakan metode ACC
dengan data latih berjumlah 300 menghasilkan
akurasi sebesar 80%. Dengan menggunakan
metode Naive Bayes dengan jumlah data latih
dan dokumen uji yang sama menghasilkan
akurasi sebesar 42.5%.
Dari percobaan dapat dilihat klasifikasi ACC
menghasilkan prediksi kelas yang jauh lebih
akurat dibandingkan dengan klasifikasi Naive
Bayes.
Dari hasil percobaan dapat dilihat bahwa
klasifikasi dokumen menggunakan metode
ACC dapat meningkatkan keakuratan hasil
klasifikasi.
1
2
3
4
5
1
3
4
1
0
0
2
3
3
2
0
0
3
2
4
2
0
0
Saran
4
1
5
2
0
0
5
4
2
2
0
0
Pada penelitian ini dokumen yang dipakai
adalah dokumen dengan satu topik yang sama
yaitu hortikultura yang kemudian dikelaskan
lagi ke dalam sub-sub kelas. Untuk
pengembangan selanjutnya dapat dicoba
menggunakan korpus yang berisi dokumendokumen dengan topik yang berbeda dan kelas
yang lebih umum untuk dapat melihat kinerja
klasifikasi
menggunakan
ACC
dan
dibandingkan dengan metode klasifikasi
lainnya.
Dokumen uji yang seharusnya dikelaskan ke
kelas fisiologi dan agronomi (1) berjumlah 8
dokumen, namun dengan metode Naive Bayes
terdapat 3 dokumen dikelaskan tepat ke dalam
kelas fisiologi dan agronomi (1), terdapat 4
dokumen yang salah prediksi ke dalam kelas
pemuliaan dan teknologi benih (2), terdapat 1
dokumen yang salah prediks