1
BAB I PENDAHULUAN
1.1. Latar Belakang Masalah
Bahasa Jawa merupakan salah satu bahasa daerah di Indonesia yang sangat sering digunakan. Banyak artikel Bahasa Jawa yang dapat kita
jumpai setiap hari dalam bentuk dokumen digital. Untuk mempermudah seseorang dalam penemuan informasi dalam artikel Bahasa Jawa yang
dicari dapat dilakukan dengan menggunakan klasifikasi dokumen. Namun, sebelum diklasifikasikan kita harus melakukan proses pemerolehan
informasi. Pemerolehan informasi adalah pencarian material biasanya berupa
dokumen dari dokumen yang sifatnya tidak terstruktur biasanya berupa teks yang bertujuan untuk memenuhi kebutuhan informasi dari suatu
kumpulan dokumen yang besar biasanya disimpan di komputer Manning, 2008. Proses pemerolehan informasi melalui tahap
prepocessing
yang meliputi
tokenizing
yaitu memecah kumpulan kata menjadi token serta penghapusan karakter-karakter yang tidak penting,
stopword
yaitu penghapusan kata-kata yang tidak mempengaruhi proses pemerolehan
informasi, lalu
stemming
yaitu proses mengembalikan semua bentuk kata ke bentuk kata dasarnya, kemudian dilakukan perhitungan
text frequency
. Setelah dilakukan proses pemerolehan informasi akan dilanjutkan dengan
proses klasifikasi mengggunakan metode
k-Nearest Neighbor
k-NN.
Klasifikasi dokumen merupakan proses memisahkan sekumpulan dokumen ke dalam beberapa kelompok atau kelas dengan menilai kemiripan
antar dokumen. Pengelompokan artikel-artikel yang saling berkait ini, akan membantu pengguna untuk menemukan informasi yang dibutuhkan. Pada
proses ini digunakan metode
k-Nearest Neighbor
k-NN. Metode
k- Nearest
Neighbor
k-NN mengklasifikasikan
dokumen dengan
menggunakan hasil dari perhitungan
text frequency
dengan melihat kemiripan
cosine similarity
tiap dokumen berdasarkan k jumlah tetangga terdekat.
1.2. Rumusan Masalah
Berdasarkan latar belakang di atas maka rumusan masalahnya yaitu : 1.
Seberapa besar tingkat akurasi metode
k-Nearest Neighbor
k-NN dalam mengklasifikasikan dokumen Bahasa Jawa ?
1.3. Batasan Masalah