14
Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang sama maka root word adalah bentuk
tunggalnya, contoh: “buku-buku” root word-nya adalah “buku”.
Kata lain, misalnya “bolak-balik”, “berbalas-balasan, dan
”seolah-olah”. Untuk mendapatkan root word-nya,kedua kata diartikan secara terpisah. Jika keduanya memiliki root word
yang sama maka diubah menjadi bentuk tunggal, contoh: kata “berbalas-balasan”, “berbalas” dan “balasan” memiliki root
word yang sama yaitu “balas”, maka root word “berbalas- balasan” adalah “balas”. Sebaliknya, pada kata “bolak-balik”,
“bolak” dan “balik” memiliki root word yang berbeda, maka root word-
nya adalah “bolak-balik” 2. Tambahan bentuk awalan dan akhiran serta aturannya.
Untuk tipe awalan “mem-“, kata yang diawali dengan awalan
“memp-” memiliki tipe awalan “mem-”.
Tipe awalan “meng-“, kata yang diawali dengan awalan “mengk-” memiliki tipe awalan “meng-”.
2.3 Pembobotan Kata
2.3.1 Term Frequency
Term Frequency tf factor, yaitu faktor yang menentukan bobot term pada
suatu dokumen berdasarkan jumlah kemunculannya dalam dokumen tersebut.
15
Nilai jumlah kemunculan suatu kata term frequency diperhitungkan dalam pemberian bobot terhadap suatu kata. Semakin besar jumlah kemunculan suatu
term tf tinggi dalam dokumen, semakin besar pula bobotnya dalam dokumen
atau akan memberikan nilai kesesuian yang semakin besar. Frekuensi kata dinotasikan sebagai
, ′
dengan menotasikan kata and
′ sebagai urutan dokumen. Untuk sebuah dokumen d, jumlah bobot dapat diketahui dari bobot tf diatas.Manning,2009.
2.3.2 Inverse Document Frecuency
Inverse Document Frequency idf factor, yaitu pengurangan dominansi
term yang sering muncul di berbagai dokumen. Hal ini diperlukan karena term
yang banyak muncul di berbagai dokumen, dapat dianggap sebagai term umum common
term sehingga
tidak penting
nilainya. Sebaliknya
faktor kejarangmunculan kata term scarcity dalam koleksi dokumen harus diperhatikan
dalam pemberian bobot. Kata yang muncul pada sedikit dokumen harus dipandang sebagai kata yang lebih penting uncommon tems daripada kata yang
muncul pada banyak dokumen. Pembobotan akan memperhitungkan faktor kebalikan frekuensi dokumen yang mengandung suatu kata inverse document
frequency .Manning,2009.
2.3.3 TF-IDF
16
Pembobotan TF-IDF mengkombinasikan frekuensi kata dan inverse document frequency
. Pembobotan TF-IDF didapat dengan menggunakan rumus berikut savoy Hasibuan, 2001
W
ik
= ntf
ik
nidf
k
,
dimana ntf
ik
= dan nidf
k
= � = � + � + � … . . +�
� = �� �� �� … …
Dimana : W
ik
adalah bobot istilah k pada dokumen i. tf
ik
merupakan frekuensi dari istilah k dalam dokumen i. n adalah jumlah dokumen dalam kumpulan dokumen.
df
k
adalah jumlah dokumen yang mengandung istilah k. Max
j
tf
ij
adalah frekuensi istilah terbesar pada satu dokumen. Wd= bobot sebuah dokumen
Dengan kata lain, tf-idft,d berlaku untuk term t bobotdi dokumen d yang 1. Tertinggi jika t sering muncul dengan jumlah dokumen yang kecil.
2. Lebih rendah jika term muncul beberapa kali di dalam dokumen, atau muncul di banyak dokumen.
3. Paling rendah jika term muncul di semua dokumen. Manning,2009
ij j
ik
tf Max
tf
n df
n
k
log log
17
2.4 Hash Table