6
BAB II LANDASAN TEORI
2.1 Pemerolehan Informasi
Pemerolehan informasi adalah pencarian material biasanya berupa dokumen dari dokumen yang sifatnya tidak terstruktur biasanya berupa teks
yang bertujuan untuk memenuhi kebutuhan informasi dari suatu kumpulan dokumen yang besar biasanya disimpan di komputer Manning, 2008.
Pemerolehan informasi berhubungan dengan representasi, media penyimpanan, pengaksesan, dan pengorganisasian sesuatu yang memiliki informasi.
Pemerolehan informasi digunakan untuk mengurangi jumlah informasi yang terlalu besar sehingga di dalam pencarian informasi akan menjadi lebih
efektif dan memberikan hasil pencarian dokumen yang relavan dengan query. Query
berupa kata kunci yang diberikan oleh pengguna kepada sistem sebagai acuan untuk mendapatkan informasi yang relevan terhadap kebutuhan pada query.
Query yang dimasukkan ke dalam sistem akan diolah dengan menggunakan
metode yang diterapkan dalam sistem pemerolehan informasi untuk kemudian ditampilkan berdasarkan urutan nilai relevansi yang paling tinggi. Untuk lebih
mempermudah lagi maka data yang didapatkan diklasifikasi. Fungsi utama pemerolehan informasi sistem adalah
1. Mengidentifikasi sumber informasi yang relefan dengan minat masyarakat pengguna yang ditargetkan.
2. Menganalisis isi sumber informasi dokumen. 3. Merepresentasikan isi sumber informasi dengan cara tertentu yang
memungkinkan untuk dipertemukan dengan pertanyaan query pengguna. 4. Merepresentasikan pertanyaan query pengguna dengan cara tertentu
yang memungkinkan untuk dipertemukan sumber informasi yang terdapat dalam basis data.
5. Mempertemukan pernyataan pencarian dengan data yang tersimpan dalam basisdata.
6. Menemu-kembalikan informasi yang relevan. 7.
Menyempurnakan unjuk kerja sistem berdasarkan umpan balik yang diberikan oleh pengguna.
2.2 Proses Preprocessing Teks Dokumen
Fungsi preprocessing pada program ini adalah untuk mendapatkan kata kunci yang nantinya akan digunakan sebagai pencocokan string atau
perbandingan dokumen. Proses-proses yang dilakukan pada proses ini adalah
membaca dokumen, tokenisasi, stopword, stemming, text frequency. 2.2.1.
Tokenisasi
Menurut Manning, 2008, tokenisasi adalah proses memotong kalimat menjadi potongan-potongan kata, yang disebut token, dan pada saat yang
sama karakter-karakter tertentu, seperti tanda baca dihapus.
Tokenisasi adalah tugas memisahkan deretan kata di dalam kalimat, paragraf atau halaman menjadi token atau potongan kata tunggal. Tahapan ini
juga menghilangkan karakter-karakter tertentu seperti tanda baca dan mengubah semua token ke bentuk huruf kecil lower case.
2.2.2. Stopword
Stopword adalah kata yang sangat umum yang akan muncul menjadi
nilai yang kecil dalam membantu dokumen pilih yang cocok dengan kebutuhan pengguna dikecualikan dari kosakata seluruhnya Manning,
2008. Pada proses stopword dilakukan penghapusan kata-kata yang tidak
mempengaruhi proses pemerolehan informasi. Stopword adalah kata umum yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki
makna. Pada penerapan program ini daftar kata-kata yang digolongkan sebagai stopword disimpan pada dokumen stoplist.txt. Kata-kata hasil
tokenizing kemudian dicocokkan dengan tabel stopword dalam dokuemn, jika
ternyata kata yang diperiksa sama dengan stopword maka kata hasil tokenizing
dihapus. Dan kata yang diperiksa tidak ada di dalam dokumen maka kata tersebut dijadikan kata penting dan kemudian dilakukan proses
stemming .
2.2.3. Stemming
Proses ini adalah proses mengembalikan semua bentukan kata menjadi bentuk kata dasarnya dengan menghilangkan semua imbuhan baik
yang terdiri dari awalanperfixes, sisipaninfixes, akhiransurfixes dan confixes
kombinasi dari awalan dan akhiran pada kata turunan. Sebelum membuat aturan stemming untuk bahasa Jawa, diuraikan
terlebih dahulu penggunaan simbol-simbol dalam membuat stemmer rule. Joko, Sri Hartati, Mirna Adriani, JB. Budi Darmawan, Studi Pengaruh
Stemming dalam Bahasa Jawa. Penelitian Mibah Pekerti DIKTI, 2011. 1. Aturan substitusipenghapusan menggunakan tanda =.
ny =”” ny dihapus ny = s ny diganti s
2. Simbol digunakan untuk menyatakan tingkat affix yang mempengaruhi urutan pengecekan di algoritma stemming.
Aturan yang digunakan adalah sebagai berikut :
SUFFIX
1 e=,n=,a=,i=,ing=, ku=,mu= 2 ke=, ki=,wa=,
ya=,na=,ne=,en=,an=,ni=,nira=, ipun=, on=u, ning=
3 ake=, en=i, kna=n, kno=n, ana=, ono=, ane=, kne=, nan=, yan=, nipun=, oni=u,
eni=i 4 kake=n, ken= ,kke=,nana=,nono=, nane=,
nen=,kna=,kno=, ekne=i, onan=u,enan=i
5 kake=,kken=,aken=,kke=n,enana=i,enono=i,on en=u,enen=i,onana=u,onono=u,
ekna=i,ekno=i,okno=u,okna=u 6 ekken=i,kaken=n,okken=u,ekake=i,ekke=i,okake=
u,okke=u, kaken=, kken=n 7 ekaken=i,okaken=u
PREFIX 1
dipun=,peng=,peny=,pem=,pam=,pany=,pra= ,kuma=,kapi=,
bok=,mbok=,dak=,tak=,kok=,tok=,ing=,ang =,any=, am=, sak=,
se=,su=,mang=,meng=,nge=,nya=,pi=,ge= ,ke=,u=,
po=u,ke=u 2
mer=,mra=,mi=,sa=,ku=,an=,ka=,ny=s,n g=k,di=,peng=k,pang=k,pany=c,
pam=p,ke=i,mang=k,meng=k 3
a=,k=,pam=w,pan=t, pen=t,mang=w,meng=w, ny=c,ng=
4 n=t, pan=s, pen=s,man=s,men=s
5 pan=,pen=,man=t,men=t,n=
6 pa=,pe=,man=,men=
7 p=,ma=,me=
8 m=w
9 m=p
10 m=
INFIX 1
gum=b,gem=b,kum=p,kem=p 2
kum=w , kem=”w”
Algoritma untuk melakukan proses stemming terhadap kata tunggal atau duplikasi.
1. Kata berimbuhan adalah word. Kata sebagai hasil adalah stemW 2. Cek jumlah karakter word, jika 2. Keluar.
3. Jika word mengandung “-“, maka pecah kata berdasar “-“ menjadi w1
dan w2. Dan lakukan langkah 4-13 4. w11 = w1 tanpa vokal dan w21 = w2 tanpa vokal.
5. Jika w11 = w21 dan panjang w1=w2 maka lakukan langkah 6-8 6. Jika w2 ada di kamus maka stemW=w2 dan keluar.
7. Jika w2 tidak ada di kamus, w22= hilangkan imbuhanw2. 8. Jika w22 ada di kamus maka stemW=w22, jika tidak
stemW=w1-w2 dan keluar.
9. Jika w11 = w21, lakukan langkah 10-13 10. ws11=hilangkan imbuhanw1 dan ws21 = hilangkan
imbuhanw2. 11. Cek ws21 di kamus, jika ada maka stemW=ws21 dan
keluar. 12. Cek ws11 di kamus, jika ada maka stemW=ws11 dan
keluar. 13. Jika tidak maka stemW=ws11-ws21 dan keluar.
14. stemW = hilangkan imbuhanstemW. Cek stemW di dictionary. Jika ada stemW dikembalikan dan keluar.
Algoritma untuk menghilangkan afiks pada kata berimbuhan. 1. Kata yang akan dihilangkan imbuhan adalah word.
2. ws1=hapus suffix word. Cek di dictionary. Jika ada kembalikan kata. 3. ws1s2=hapus suffix ws1. Cek di dictionary. Jika ada kembalikan
kata. 4. ws1i1=hapus infix ws1. Cek di dictionary. Jika ada kembalikan kata.
5. dws1= pengulangan parsial ws1. Cek di dictionary. Jika ada kembalikan kata.
6. dws1s2= pengulangan parsial ws1s2. Cek di dictionary. Jika ada kembalikan kata.
7. wp1=hapus prefix word. Cek di dictionary. Jika ada kembalikan kata.
8. dwp1= pengulangan parsial wp1. Cek di dictionary. Jika ada kembalikan kata.
9. wp1s1=hapus suffixwp1. Cek di dictionary. Jika ada kembalikan kata.
10. dwp1s1= pengulangan parsial wp1s1. Cek di dictionary. Jika ada kembalikan kata.
11. wp1s1s2=hapus suffix wp1s1. Cek di dictionary. Jika ada kembalikan kata.
12. wp1p2=hapus prefix wp1. Cek di dictionary. Jika ada kembalikan kata.
13. wp1p2s1=hapus suffix wp1p2. Cek di dictionary. Jika ada kembalikan kata.
14. wp1p2s1s2=hapus suffix wp1p2s1. Cek di dictionary. Jika ada kembalikan kata.
15. wi1=hapus infix word. Cek di dictionary. Jika ada kembalikan kata. 16. wi1s1=hapus suffix wi1. Cek di dictionary. Jika ada kembalikan kata.
2.2.4. Text Frequency
Semakin banyak kata yang mirip atau sama antara dua dokumen maka semakin dekat kedua dokumen tersebut dan akan memiliki bobot atau
nilai yang lebih tinggi. Manning, 2008. Sehingga diperlukan pemberian bobot untuk setiap token dalam dokumen tergantung pada jumlah
kemunculan token tersebut dalam dokumen. pendekatan yang paling mudah
adalah dengan memberikan bobot yang nilainya sama dengan jumlah kemunculan token t dalam dokumen d. Pembobotan ini disebut term
ferquency dan disimbolkan dengan tf
t,d
. Namun, dalam sistem yang akan dibangun oleh penulis,
menggunakan teknik TFIDF term frequency Inverse document frequency.
Term frequency adalah jumlah kemunculan suatu kata dalam sebuah
dokumen, sedangkan inverse document frequency
adalah inverse dari banyaknya dokumen dimana suatu term tersebut muncul.
Rumus pembobotan Salton 1983 adalah sebagai berikut: wt,d = tft,d idft = tft,d logNnt 1
Keterangan : 1. wt,d = bobot dari termkata t dalam dokumen d.
2. tft,d = frekuensi kemunculan termkata t dalam dokumen d. 3. Idfd = Inverse document frequency dari kata t
4. N = jumlah seluruh dokumen 5. nt = jumlah dari dokumen yang ditraining yang mengandung nilai t.
digunakan dalam referensi yang dijadikan acuan dalam pembuatan
Sistem klasifikasi yaitu nilai perbandingan antara jumlah kemunculan suatu kata dalam dokumen dibagi dengan jumlah keseluruhan
kata yang ada dalam dokumen tersebut, sehingga jumlah dari semua tf dari kata yang ada di dalam dokumen tersebut sama dengan satu. Inverse
Dokumen Frequency idf atau kombinasi dari tf-idf juga dapat digunakan.
Namun dalam klasifikasi teks, tf-idf tidak selalu efektif.
2.3. Klasifikasi Teks
Han dan Kamber 2006 mengatakan bahwa klasifikasi merupakan proses menemukan model atau fungsi yanng menjelaskan dan membedakan
kelas-kelas data fungsi tersebut digunakan untuk memperkirakan kelas dari suatu objek yang labelnya tidak diketahui Proses klasifikasi ini terbagi
menjadi dua tahapan, yaitu tahap pelatihan learning dan tahap uji. Pada tahap pelatihan, sebagian data yang telah diketahui kelas datanya
diumpankan untuk membentuk model prediksi.
2.4. Metode k-Nearest Neighbor