1
BAB I PENDAHULUAN
1.1.  Latar Belakang Masalah
Bahasa  Jawa  merupakan  salah  satu  bahasa  daerah  di  Indonesia  yang sangat  sering  digunakan.  Banyak  artikel  Bahasa  Jawa  yang  dapat  kita
jumpai  setiap  hari  dalam  bentuk  dokumen  digital.  Untuk  mempermudah seseorang  dalam    penemuan  informasi  dalam  artikel  Bahasa  Jawa  yang
dicari  dapat  dilakukan  dengan  menggunakan  klasifikasi  dokumen.  Namun, sebelum  diklasifikasikan  kita  harus  melakukan  proses  pemerolehan
informasi. Pemerolehan informasi adalah pencarian material biasanya berupa
dokumen  dari  dokumen  yang  sifatnya  tidak  terstruktur  biasanya  berupa teks  yang  bertujuan  untuk  memenuhi  kebutuhan  informasi  dari  suatu
kumpulan dokumen yang besar biasanya disimpan di komputer Manning, 2008.    Proses  pemerolehan  informasi  melalui  tahap  prepocessing  yang
meliputi  tokenizing  yaitu  memecah  kumpulan  kata  menjadi  token  serta penghapusan  karakter-karakter  yang  tidak  penting,  stopword  yaitu
penghapusan  kata-kata  yang  tidak  mempengaruhi  proses  pemerolehan informasi, lalu stemming yaitu proses mengembalikan semua bentuk kata ke
bentuk  kata  dasarnya,  kemudian  dilakukan  perhitungan  text  frequency. Setelah    dilakukan  proses  pemerolehan  informasi  akan  dilanjutkan  dengan
proses klasifikasi mengggunakan metode  k-Nearest Neighbor k-NN.
Klasifikasi  dokumen  merupakan  proses  memisahkan  sekumpulan dokumen ke dalam beberapa kelompok atau kelas dengan menilai kemiripan
antar dokumen. Pengelompokan artikel-artikel  yang saling berkait ini, akan membantu  pengguna  untuk  menemukan  informasi  yang  dibutuhkan.  Pada
proses  ini  digunakan    metode  k-Nearest  Neighbor  k-NN.  Metode  k- Nearest
Neighbor k-NN
mengklasifikasikan dokumen
dengan menggunakan  hasil  dari  perhitungan  text  frequency  dengan  melihat
kemiripan  cosine  similarity  tiap  dokumen  berdasarkan  k  jumlah  tetangga terdekat.
1.2.  Rumusan Masalah
Berdasarkan latar belakang di atas maka rumusan masalahnya yaitu : 1.  Seberapa besar tingkat akurasi metode k-Nearest Neighbor k-NN dalam
mengklasifikasikan dokumen Bahasa Jawa ?
1.3.  Batasan Masalah