Latar Belakang Masalah Rumusan Masalah

1

BAB I PENDAHULUAN

1.1. Latar Belakang Masalah

Bahasa Jawa merupakan salah satu bahasa daerah di Indonesia yang sangat sering digunakan. Banyak artikel Bahasa Jawa yang dapat kita jumpai setiap hari dalam bentuk dokumen digital. Untuk mempermudah seseorang dalam penemuan informasi dalam artikel Bahasa Jawa yang dicari dapat dilakukan dengan menggunakan klasifikasi dokumen. Namun, sebelum diklasifikasikan kita harus melakukan proses pemerolehan informasi. Pemerolehan informasi adalah pencarian material biasanya berupa dokumen dari dokumen yang sifatnya tidak terstruktur biasanya berupa teks yang bertujuan untuk memenuhi kebutuhan informasi dari suatu kumpulan dokumen yang besar biasanya disimpan di komputer Manning, 2008. Proses pemerolehan informasi melalui tahap prepocessing yang meliputi tokenizing yaitu memecah kumpulan kata menjadi token serta penghapusan karakter-karakter yang tidak penting, stopword yaitu penghapusan kata-kata yang tidak mempengaruhi proses pemerolehan informasi, lalu stemming yaitu proses mengembalikan semua bentuk kata ke bentuk kata dasarnya, kemudian dilakukan perhitungan text frequency. Setelah dilakukan proses pemerolehan informasi akan dilanjutkan dengan proses klasifikasi mengggunakan metode k-Nearest Neighbor k-NN. Klasifikasi dokumen merupakan proses memisahkan sekumpulan dokumen ke dalam beberapa kelompok atau kelas dengan menilai kemiripan antar dokumen. Pengelompokan artikel-artikel yang saling berkait ini, akan membantu pengguna untuk menemukan informasi yang dibutuhkan. Pada proses ini digunakan metode k-Nearest Neighbor k-NN. Metode k- Nearest Neighbor k-NN mengklasifikasikan dokumen dengan menggunakan hasil dari perhitungan text frequency dengan melihat kemiripan cosine similarity tiap dokumen berdasarkan k jumlah tetangga terdekat.

1.2. Rumusan Masalah

Berdasarkan latar belakang di atas maka rumusan masalahnya yaitu : 1. Seberapa besar tingkat akurasi metode k-Nearest Neighbor k-NN dalam mengklasifikasikan dokumen Bahasa Jawa ?

1.3. Batasan Masalah