Dokumen Frequency idf atau kombinasi dari tf-idf juga dapat digunakan.
Namun dalam klasifikasi teks, tf-idf tidak selalu efektif.
2.3. Klasifikasi Teks
Han dan Kamber 2006 mengatakan bahwa klasifikasi merupakan proses menemukan model atau fungsi yanng menjelaskan dan membedakan
kelas-kelas data fungsi tersebut digunakan untuk memperkirakan kelas dari suatu objek yang labelnya tidak diketahui Proses klasifikasi ini terbagi
menjadi dua tahapan, yaitu tahap pelatihan learning dan tahap uji. Pada tahap pelatihan, sebagian data yang telah diketahui kelas datanya
diumpankan untuk membentuk model prediksi.
2.4. Metode k-Nearest Neighbor
Mertode k-Nearest Neighbor atau k-NN merupakan salah satu metode yang digunakan dalam sistem klasifikasi yang menggunakan
pendekatan Machine Leraning. Machine Learning merupakan proses yang membangun sistem klasifikasi melalui pembelajaran dari sejumlah contoh
yang sudah diklasifikasikan sebelumnya Feldman Sanger, 2007. Menurut Han dan Kamber 2006, metode k-NN bersifat lazy
learners di mana proses pembelajarannya menunggu hingga menit terakhir
sebelum model dibangun dibutuhkan untuk mengklasifikasi data uji. Berbeda dengan eager leaners yang akan melakukan generalisasi pada kata
pelatihan sebelum menerima data uji. Lazy learners akan menyimpan data pelatihan dan menunggu hingga diberikan data uji sehingga metode ini akan
bekerja lebih sedikit ketika diberikan data pelatihan dan bekerja lebih banyak ketika diberikan data uji, dibandingkan dengan eager learners. Lazy
learners disebut juga instance-based learners karena menyimpan data
pelatihan atau instances. Agoritma metode k-NN
1. Tentukan parameter k= jumlah dokumen tetangga. 2. Hitung kemiripan antara dokumen baru dan dokumen pelatihan dengan
menggunakan rumus cosine similarity
2
Keterangan : Q : dokumen uji
Di : dokumen pelatihan WQj
: bobot token j dalam dokumen uji Q Wij : bobot token j dalam dokumen pelatihan ke-i
SimQ,Di : nilai kesamaan antara dokumen uji Q dan dokumen pelatihan ke-i
3. Urutkan nilai kesamaan dan tentukan tetangga terdekat berdasarkan jarak terbesar, banyak tetangga terdekat diambil dari parameter k.
4. Kumpulkan kategori dari dokumen tetangga.
5. Gunakan mayoritas sederhana dari kategori dokumen tetangga sebagai nilai prediksi dokumen tes.
2.5. Perhitungan Akurasi
Perhitungan akurasi dilakukan dengan menggunakan metode cross- validation
. Pada metode cross-validation, data dibagi menjadi k subset atau fold
yang saling bebas secara acak, yaitu S1, S2, …., Sk, dengan ukuran
setiap subset sama. Pelatihan dan pengujian dilakukan sebanyak k kali. Pada iterasi ke-i, subset S1 diperlakukan sebagai data pengujian, dan subset
lainnya sebagai data pelatihan. Tingkat akurasi dihitung dengan membagi jumlah keseluruhan klasifikasi yang benar dengan jumlah semua instance
pada data awal Han Kamber 2006. Tahap I
i. fold 1 sebagai data uji ii. fold 2 sebagai data pelatihan
iii. fold 3 sebagai data pelatihan Tahap II
i. fold 2 sebagai data uji ii. fold 1 sebagai data pelatihan
iii. fold 3 sebagai data pelatihan
Tahap III i. fold 3 sebagai data uji
ii. fold 1 sebagai data pelatihan iii. fold 2 sebagai data pelatihan
Setelah dilakukan cross validation maka digunakan precision untuk menentukan akurasi. Yaitu dengan cara :
Precision = x 100 3
19
BAB III ANALISIS DAN PERANCANGAN SISTEM
3.1 Gambaran Umum Sistem
Sistem ini dibuat untuk mempermudah pencarian dokumen bahasa Jawa dengan mengklasifikasikan dokumen berita bahasa Jawa menggunakan
proses information retrieval. Sistem terdiri atas 3 proses utama yaitu proses input, preprocessing yang terdiri dari proses tokenizing, stopword, stemming,
dan text frequency, dan proses klasifikasi dokumen. Berikut ini adalah gambaran klasifikasi dokumen secara umum :
Input Teks
Menghitung TF IDF
KNN stemming
stopword Tokenisa
si Hasil
klasifikasi preprocessing
Gambar 3.1 Gambaran Umum Sistem
Proses utama dalam sistem ini yaitu proses preprocessing dan
klasifikasi . Hasil akhir dari proses preprocessing yang berupa bobot kata
disimpan dalam database kemudian digunakan untuk melakukan klasifikasi menggunakan metode k-Nearest Neighbor.
Lebih jelasnya proses dibagi menjadi beberapa bagian sebagai berikut ini :