Proses Input Data Proses Klasifikasi

3.1.1 Proses Input Data

Data yang diinputkan untuk klasifikasi ini adalah dokumen Bahasa Jawa dengan file berekstensi .txt yang membahas beberapa topik yang berbeda yang kemudian topik tersebut dijadikan sebagai acuan dalam pengklasifikasian. Dokumen yang digunakan pada klasifikasi ini dibagi menjadi dua bagian, yaitu dokumen yang berfungsi sebagai data pelatihan dan dokumen yang berfungsi sebagai data uji yang akan digunakan sebagai uji coba terhadap data pelatihan. Dokumen yang digunakan sebagai data tes ini belum diketahui kelasnya. 3.1.2 Preprocessing Dokumen Pada tahap preprocessing ini akan dilakukan tahapan seperti berikut : a Tokenisasi Pada tahap ini, memecah kumpulan kata menjadi token dan penghapusan karakter-karakter yang tidak penting. b Stopword Penghapusan kata yang tidak mempengaruhi sistem pemerolehan informasi c Stemming Proses mengembalikan semua bentuk kata ke bentuk kata dasarnya. d Perhitungan Bobot Kata Pada proses ini dilakukan perhitungan bobot setiap kata yang telah melalui proses preproses.

3.1.3 Proses Klasifikasi

Pada proses klasifikasi ini dokumen yang telah diproses hingga tahap perhitungan text frequency akan diklasifikasikan berdasarkan kelas yang telah ditentukan. Proses klasifikasi ini menggunakan metode k- Nearest Neighbor k-NN sebagai berikut : a. Menetukan K Pada proses ini, user memasukkan nilai k, yaitu jumlah dokumen tetangga terdekat. Sebagai contoh k=3, berarti akan diambil 3 dokumen yang memiliki jarak terdekat dengan dokumen testing . b. Perhitungan Cosine Similarity Hitung kemiripan vektor [dokumen] query Q dengan setiap dokumen yang ada. Kemiripan antar dokumen dapat menggunakan cosine similarity . Rumusnya adalah sebagai berikut: c. Pengurutan kemiripan Vektor Urutkan hasil perhitungan kemiripan vektor dari hasil perhitungan cosine similarity. d. Mencari label mayoritas dengan menggunakan acuan k yang telah ditentukan untuk menentukan hasil kasifikasi dengan melihat jumlah kelas yang terbanyak diperoleh diantara k dokumen yang terdekat, dilakukan prediksi untuk mengetahui kelas dari dokumen tes tersebut, dengan melihat jumlah kelas yang terbanyak diperoleh diantara k dokumen yang terdekat.

3.1.4 Keluaran