Term Frequency-Inverse Document Frequency TF-IDF

bentuk tunggal, contoh : kata “ berbalas-balasan”, “berbalas” dan “balasan” memiliki root word yang sama yaitu “balas”, maka root wood “berbalas- balasan” adalah “balas”. Sebaliknya, pada kata “bolak-balik”, “bolak” dan “balik” memiliki root word yang berbeda, maka root word-nya adalah “bolak-balik”. 2. Tambahan bentuk awalan dan akhiran serta aturannya. a. Tipe awalan “mem-“, kata yang diawali dengan awalan “ memp-“ memiliki tipe awalan “mem-“. b. Tipe awalan “meng-“, kata yang diawali dengan awalan “mengk-“ memiliki tipe awalan “meng-“..

2.3 Term Frequency-Inverse Document Frequency TF-IDF

TF-IDF Term Frequency-Inverse Document Frequency merupakan metode statistic numeric yang mencerminkan seberapa pentingnya sebuah kata dalam sebuah dokumen atau korpus Rajaraman et al, 2011. Hal ini sering digunakan sebagai faktor bobot dalam pencarian informasi dan penambangan teks text mining. Nilai TF-IDF meningkat secara proporsional berdasarkan jumlah atau banyaknya kata yang muncul pada dokumen, tetapi diimbangi dengan frekuensi kata dalam korpus. Variasi dari skema pembobotanTF-IDFsering digunakan oleh mesin pencari sebagai alat utama dalam mencetak nilai scoring dan peringkat ranking sebuah relevansi dokumen yang diberikan user. Term Frequency-Inverse document frequency TF-IDF adalah suatu metode pembobotan kata dengan menghitung nilai TF dan juga menghitung kemunculan sebuah kata pada dokumen teks. Pada pembobotan ini, jika kemunculan term pada sebuah dokumen teks tinggi dan kemunculan term tersebut pada dokumen teks yang lain rendah, maka bobotnya akan semakin besar. Sedangkan jika kemunculan term pada dokumen teks lain tinggi, maka bobotnya akan semakin kecil. Tujuan penghitungan IDF adalah untuk mencari kata-kata yang benar-benar merepresentasikan dokumen teks pada suatu koleksi. Metode ini merupakan metode paling baik dalam perolehan informasi Khodra et al, 2005. Adapun rumus dari TF- IDF dapat di lihat pada persamaan berikut Salton, 1983. Universitas Sumatera Utara 1 Dengan tfi,j adalah frekuensi kemunculan term j pada dokumen teks d i  D, dimana i = 1,2,3,.....,N, dfj adalah frekuensi dokumen yang mengandung term j dari semua koleksi dokumen, dan N adalah jumlah seluruh dokumen yang ada di koleksi dokumen. Berdasarkan rumus diatas berapapun besarnya nilai tfi,j, apabila N= dfj maka akan didapatkan hasil 0 nol untuk perhitungan idf. Untuk itu dapat ditambahkan nilai 1 pada sisi idf, sehingga perhitungan untuk pembobotan dapat dilihat pada rumus persamaan 2. +1 2

2.4 Novel