3.1.1 Proses Input Data
Data yang diinputkan untuk klasifikasi ini adalah dokumen Bahasa Jawa dengan file berekstensi .txt yang membahas beberapa
topik yang berbeda yang kemudian topik tersebut dijadikan sebagai acuan dalam pengklasifikasian. Dokumen yang digunakan pada
klasifikasi ini dibagi menjadi dua bagian, yaitu dokumen yang berfungsi sebagai data pelatihan dan dokumen yang berfungsi sebagai data uji yang
akan digunakan sebagai uji coba terhadap data pelatihan. Dokumen yang digunakan sebagai data tes ini belum diketahui kelasnya.
3.1.2
Preprocessing
Dokumen
Pada tahap
preprocessing
ini akan dilakukan tahapan seperti berikut :
a Tokenisasi
Pada tahap ini, memecah kumpulan kata menjadi token dan penghapusan karakter-karakter yang tidak penting.
b Stopword
Penghapusan kata
yang tidak
mempengaruhi sistem
pemerolehan informasi
c Stemming
Proses mengembalikan semua bentuk kata ke bentuk kata dasarnya.
d Perhitungan Bobot Kata
Pada proses ini dilakukan perhitungan bobot setiap kata yang telah melalui proses preproses.
3.1.3 Proses Klasifikasi
Pada proses klasifikasi ini dokumen yang telah diproses hingga tahap perhitungan
text frequency
akan diklasifikasikan berdasarkan kelas yang telah ditentukan. Proses klasifikasi ini menggunakan metode
k- Nearest Neighbor k-NN
sebagai berikut : a.
Menetukan K Pada proses ini,
user
memasukkan nilai k, yaitu jumlah dokumen tetangga terdekat. Sebagai contoh k=3, berarti akan diambil 3 dokumen
yang memiliki jarak terdekat dengan dokumen
testing
. b.
Perhitungan
Cosine Similarity
Hitung kemiripan vektor [dokumen]
query
Q dengan setiap dokumen yang ada. Kemiripan antar dokumen dapat menggunakan
cosine similarity
. Rumusnya adalah sebagai berikut:
c. Pengurutan kemiripan Vektor
Urutkan hasil perhitungan kemiripan vektor dari hasil perhitungan
cosine similarity.
d. Mencari label mayoritas dengan menggunakan acuan k yang telah
ditentukan untuk menentukan hasil kasifikasi dengan melihat jumlah kelas yang terbanyak diperoleh diantara k dokumen yang terdekat,
dilakukan prediksi untuk mengetahui kelas dari dokumen tes tersebut, dengan melihat jumlah kelas yang terbanyak diperoleh diantara k
dokumen yang terdekat.
3.1.4 Keluaran