3.1.1 Proses Input Data
Data yang diinputkan untuk klasifikasi ini adalah dokumen Bahasa Jawa dengan file berekstensi .txt yang membahas beberapa
topik yang berbeda yang kemudian topik tersebut dijadikan sebagai acuan dalam pengklasifikasian. Dokumen yang digunakan pada
klasifikasi ini dibagi menjadi dua bagian, yaitu dokumen yang berfungsi sebagai data pelatihan dan dokumen yang berfungsi sebagai data uji yang
akan digunakan sebagai uji coba terhadap data pelatihan. Dokumen yang digunakan sebagai data tes ini belum diketahui kelasnya.
3.1.2 Preprocessing Dokumen
Pada tahap preprocessing ini akan dilakukan tahapan seperti berikut :
a Tokenisasi
Pada tahap ini, memecah kumpulan kata menjadi token dan penghapusan karakter-karakter yang tidak penting.
b Stopword
Penghapusan kata yang tidak mempengaruhi sistem
pemerolehan informasi c
Stemming Proses mengembalikan semua bentuk kata ke bentuk kata
dasarnya. d Perhitungan Bobot Kata
Pada proses ini dilakukan perhitungan bobot setiap kata yang telah melalui proses preproses.
3.1.3 Proses Klasifikasi
Pada proses klasifikasi ini dokumen yang telah diproses hingga tahap perhitungan text frequency akan diklasifikasikan berdasarkan kelas
yang telah ditentukan. Proses klasifikasi ini menggunakan metode k- Nearest Neighbor k-NN
sebagai berikut : a. Menetukan K
Pada proses ini, user memasukkan nilai k, yaitu jumlah dokumen tetangga terdekat. Sebagai contoh k=3, berarti akan diambil 3 dokumen
yang memiliki jarak terdekat dengan dokumen testing. b. Perhitungan Cosine Similarity
Hitung kemiripan vektor [dokumen] query Q dengan setiap dokumen yang ada. Kemiripan antar dokumen dapat menggunakan cosine
similarity . Rumusnya adalah sebagai berikut:
c. Pengurutan kemiripan Vektor Urutkan hasil perhitungan kemiripan vektor dari hasil perhitungan
cosine similarity. d. Mencari label mayoritas dengan menggunakan acuan k yang telah
ditentukan untuk menentukan hasil kasifikasi dengan melihat jumlah kelas yang terbanyak diperoleh diantara k dokumen yang terdekat,
dilakukan prediksi untuk mengetahui kelas dari dokumen tes tersebut, dengan melihat jumlah kelas yang terbanyak diperoleh diantara k
dokumen yang terdekat.
3.1.4 Keluaran