14
Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang sama maka root word adalah bentuk
tunggalnya, contoh: “buku-buku” root word-nya adalah “buku”.
Kata lain, misalnya “bolak-balik”, “berbalas-balasan, dan ”seolah-olah”. Untuk mendapatkan root word-nya,kedua kata
diartikan secara terpisah. Jika keduanya memiliki root word yang sama maka diubah menjadi bentuk tunggal, contoh: kata
“berbalas-balasan”, “berbalas” dan “balasan” memiliki root word yang sama yaitu “balas”, maka root word “berbalas-
balasan” adalah “balas”. Sebaliknya, pada kata “bolak-balik”, “bolak” dan “balik” memiliki root word yang berbeda, maka
root word- nya adalah “bolak-balik”
2. Tambahan bentuk awalan dan akhiran serta aturannya. Untuk tipe awalan “mem-“, kata yang diawali dengan awalan
“memp-” memiliki tipe awalan “mem-”. Tipe awalan “meng-“, kata yang diawali dengan awalan
“mengk-” memiliki tipe awalan “meng-”.
2.3 Pembobotan Kata
2.3.1
Term Frequency
Term Frequency
tf
factor
, yaitu faktor yang menentukan bobot
term
pada suatu dokumen berdasarkan jumlah kemunculannya dalam dokumen tersebut.
15
Nilai jumlah kemunculan suatu kata
term frequency
diperhitungkan dalam pemberian bobot terhadap suatu kata. Semakin besar jumlah kemunculan suatu
term
tf tinggi dalam dokumen, semakin besar pula bobotnya dalam dokumen atau akan memberikan nilai kesesuian yang semakin besar.
Frekuensi kata dinotasikan sebagai
, ′
dengan menotasikan kata and
′ sebagai urutan dokumen. Untuk sebuah dokumen d, jumlah bobot dapat diketahui dari bobot tf diatas.Manning,2009.
2.3.2
Inverse Document Frecuency
Inverse Document Frequency
idf
factor
, yaitu pengurangan dominansi
term
yang sering muncul di berbagai dokumen. Hal ini diperlukan karena
term
yang banyak muncul di berbagai dokumen, dapat dianggap sebagai
term
umum
common term
sehingga tidak
penting nilainya.
Sebaliknya faktor
kejarangmunculan kata
term scarcity
dalam koleksi dokumen harus diperhatikan dalam pemberian bobot. Kata yang muncul pada sedikit dokumen harus
dipandang sebagai kata yang lebih penting
uncommon tems
daripada kata yang muncul pada banyak dokumen. Pembobotan akan memperhitungkan faktor
kebalikan frekuensi dokumen yang mengandung suatu kata
inverse document frequency
.Manning,2009.
2.3.3
TF-IDF
16
Pembobotan TF-IDF mengkombinasikan frekuensi kata dan
inverse document frequency
. Pembobotan TF-IDF didapat dengan menggunakan rumus berikut savoy Hasibuan, 2001
W
ik
= ntf
ik
nidf
k
,
dimana ntf
ik
= dan nidf
k
= � = � + � + � … . . +�
� = �� �� �� … …
Dimana : W
ik
adalah bobot istilah k pada dokumen i. tf
ik
merupakan frekuensi dari istilah k dalam dokumen i. n adalah jumlah dokumen dalam kumpulan dokumen.
df
k
adalah jumlah dokumen yang mengandung istilah k. Max
j
tf
ij
adalah frekuensi istilah terbesar pada satu dokumen. Wd= bobot sebuah dokumen
Dengan kata lain, tf-idf
t
,
d
berlaku untuk
term t
bobotdi dokumen
d
yang 1.
Tertinggi jika
t
sering muncul dengan jumlah dokumen yang kecil. 2.
Lebih rendah jika
term
muncul beberapa kali di dalam dokumen, atau muncul di banyak dokumen.
3. Paling rendah jika
term
muncul di semua dokumen. Manning,2009
ij j
ik
tf Max
tf
n df
n
k
log log
17
2.4 Hash Table