1
BAB I PENDAHULUAN
1.1. Latar Belakang Masalah
Bahasa Jawa merupakan salah satu bahasa daerah di Indonesia yang sangat sering digunakan. Banyak artikel Bahasa Jawa yang dapat kita
jumpai setiap hari dalam bentuk dokumen digital. Untuk mempermudah seseorang dalam penemuan informasi dalam artikel Bahasa Jawa yang
dicari dapat dilakukan dengan menggunakan klasifikasi dokumen. Namun, sebelum diklasifikasikan kita harus melakukan proses pemerolehan
informasi. Pemerolehan informasi adalah pencarian material biasanya berupa
dokumen dari dokumen yang sifatnya tidak terstruktur biasanya berupa teks yang bertujuan untuk memenuhi kebutuhan informasi dari suatu
kumpulan dokumen yang besar biasanya disimpan di komputer Manning, 2008. Proses pemerolehan informasi melalui tahap prepocessing yang
meliputi tokenizing yaitu memecah kumpulan kata menjadi token serta penghapusan karakter-karakter yang tidak penting, stopword yaitu
penghapusan kata-kata yang tidak mempengaruhi proses pemerolehan informasi, lalu stemming yaitu proses mengembalikan semua bentuk kata ke
bentuk kata dasarnya, kemudian dilakukan perhitungan text frequency. Setelah dilakukan proses pemerolehan informasi akan dilanjutkan dengan
proses klasifikasi mengggunakan metode k-Nearest Neighbor k-NN.
Klasifikasi dokumen merupakan proses memisahkan sekumpulan dokumen ke dalam beberapa kelompok atau kelas dengan menilai kemiripan
antar dokumen. Pengelompokan artikel-artikel yang saling berkait ini, akan membantu pengguna untuk menemukan informasi yang dibutuhkan. Pada
proses ini digunakan metode k-Nearest Neighbor k-NN. Metode k- Nearest
Neighbor k-NN
mengklasifikasikan dokumen
dengan menggunakan hasil dari perhitungan text frequency dengan melihat
kemiripan cosine similarity tiap dokumen berdasarkan k jumlah tetangga terdekat.
1.2. Rumusan Masalah
Berdasarkan latar belakang di atas maka rumusan masalahnya yaitu : 1. Seberapa besar tingkat akurasi metode k-Nearest Neighbor k-NN dalam
mengklasifikasikan dokumen Bahasa Jawa ?
1.3. Batasan Masalah