bentuk tunggal, contoh : kata “ berbalas-balasan”, “berbalas” dan “balasan”
memiliki root word yang sama yaitu “balas”, maka root wood “berbalas-
balasan” adalah “balas”. Sebaliknya, pada kata “bolak-balik”, “bolak” dan “balik” memiliki root word yang berbeda, maka root word-nya adalah
“bolak-balik”.
2. Tambahan bentuk awalan dan akhiran serta aturannya. a.
Tipe awalan “mem-“, kata yang diawali dengan awalan “ memp-“ memiliki tipe awalan “mem-“.
b. Tipe awalan “meng-“, kata yang diawali dengan awalan “mengk-“
memiliki tipe awalan “meng-“..
2.3 Term Frequency-Inverse Document Frequency TF-IDF
TF-IDF Term Frequency-Inverse Document Frequency merupakan metode statistic numeric yang mencerminkan seberapa pentingnya sebuah kata dalam sebuah
dokumen atau korpus Rajaraman et al, 2011. Hal ini sering digunakan sebagai faktor bobot dalam pencarian informasi dan penambangan teks text mining. Nilai TF-IDF
meningkat secara proporsional berdasarkan jumlah atau banyaknya kata yang muncul pada dokumen, tetapi diimbangi dengan frekuensi kata dalam korpus. Variasi dari
skema pembobotanTF-IDFsering digunakan oleh mesin pencari sebagai alat utama dalam mencetak nilai scoring dan peringkat ranking sebuah relevansi dokumen
yang diberikan user. Term Frequency-Inverse document frequency TF-IDF adalah suatu metode
pembobotan kata dengan menghitung nilai TF dan juga menghitung kemunculan sebuah kata pada dokumen teks. Pada pembobotan ini, jika kemunculan term pada
sebuah dokumen teks tinggi dan kemunculan term tersebut pada dokumen teks yang lain rendah, maka bobotnya akan semakin besar. Sedangkan jika kemunculan term
pada dokumen teks lain tinggi, maka bobotnya akan semakin kecil. Tujuan penghitungan
IDF adalah
untuk mencari
kata-kata yang
benar-benar merepresentasikan dokumen teks pada suatu koleksi. Metode ini merupakan metode
paling baik dalam perolehan informasi Khodra et al, 2005. Adapun rumus dari TF- IDF dapat di lihat pada persamaan berikut Salton, 1983.
Universitas Sumatera Utara
1 Dengan tfi,j adalah frekuensi kemunculan term j pada dokumen teks d i
D, dimana i = 1,2,3,.....,N, dfj adalah frekuensi dokumen yang mengandung term j dari semua koleksi dokumen, dan N adalah jumlah seluruh dokumen yang ada di
koleksi dokumen. Berdasarkan rumus diatas berapapun besarnya nilai tfi,j, apabila N= dfj maka akan didapatkan hasil 0 nol untuk perhitungan idf. Untuk itu dapat
ditambahkan nilai 1 pada sisi idf, sehingga perhitungan untuk pembobotan dapat dilihat pada rumus persamaan 2.
+1 2
2.4 Novel