Pembobotan Kata Landasan Teori

14  Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh: “buku-buku” root word-nya adalah “buku”.  Kata lain, misalnya “bolak-balik”, “berbalas-balasan, dan ”seolah-olah”. Untuk mendapatkan root word-nya,kedua kata diartikan secara terpisah. Jika keduanya memiliki root word yang sama maka diubah menjadi bentuk tunggal, contoh: kata “berbalas-balasan”, “berbalas” dan “balasan” memiliki root word yang sama yaitu “balas”, maka root word “berbalas- balasan” adalah “balas”. Sebaliknya, pada kata “bolak-balik”, “bolak” dan “balik” memiliki root word yang berbeda, maka root word- nya adalah “bolak-balik” 2. Tambahan bentuk awalan dan akhiran serta aturannya.  Untuk tipe awalan “mem-“, kata yang diawali dengan awalan “memp-” memiliki tipe awalan “mem-”.  Tipe awalan “meng-“, kata yang diawali dengan awalan “mengk-” memiliki tipe awalan “meng-”.

2.3 Pembobotan Kata

2.3.1 Term Frequency

Term Frequency tf factor, yaitu faktor yang menentukan bobot term pada suatu dokumen berdasarkan jumlah kemunculannya dalam dokumen tersebut. 15 Nilai jumlah kemunculan suatu kata term frequency diperhitungkan dalam pemberian bobot terhadap suatu kata. Semakin besar jumlah kemunculan suatu term tf tinggi dalam dokumen, semakin besar pula bobotnya dalam dokumen atau akan memberikan nilai kesesuian yang semakin besar. Frekuensi kata dinotasikan sebagai , ′ dengan menotasikan kata and ′ sebagai urutan dokumen. Untuk sebuah dokumen d, jumlah bobot dapat diketahui dari bobot tf diatas.Manning,2009.

2.3.2 Inverse Document Frecuency

Inverse Document Frequency idf factor, yaitu pengurangan dominansi term yang sering muncul di berbagai dokumen. Hal ini diperlukan karena term yang banyak muncul di berbagai dokumen, dapat dianggap sebagai term umum common term sehingga tidak penting nilainya. Sebaliknya faktor kejarangmunculan kata term scarcity dalam koleksi dokumen harus diperhatikan dalam pemberian bobot. Kata yang muncul pada sedikit dokumen harus dipandang sebagai kata yang lebih penting uncommon tems daripada kata yang muncul pada banyak dokumen. Pembobotan akan memperhitungkan faktor kebalikan frekuensi dokumen yang mengandung suatu kata inverse document frequency .Manning,2009.

2.3.3 TF-IDF

16 Pembobotan TF-IDF mengkombinasikan frekuensi kata dan inverse document frequency . Pembobotan TF-IDF didapat dengan menggunakan rumus berikut savoy Hasibuan, 2001 W ik = ntf ik nidf k , dimana ntf ik = dan nidf k =  � = � + � + � … . . +�  � = �� �� �� … … Dimana :  W ik adalah bobot istilah k pada dokumen i.  tf ik merupakan frekuensi dari istilah k dalam dokumen i.  n adalah jumlah dokumen dalam kumpulan dokumen.  df k adalah jumlah dokumen yang mengandung istilah k.  Max j tf ij adalah frekuensi istilah terbesar pada satu dokumen.  Wd= bobot sebuah dokumen Dengan kata lain, tf-idft,d berlaku untuk term t bobotdi dokumen d yang 1. Tertinggi jika t sering muncul dengan jumlah dokumen yang kecil. 2. Lebih rendah jika term muncul beberapa kali di dalam dokumen, atau muncul di banyak dokumen. 3. Paling rendah jika term muncul di semua dokumen. Manning,2009 ij j ik tf Max tf   n df n k log log         17

2.4 Hash Table