2.1.2.1 Konsep Dasar Temu-kembali Informasi Information
Retrieval
Menurut Goker 2009
secara sederhana temu-kembali informasi adalah tentang menemukan informasi. Lebih spesifik, temu-
kembali informasi adalah proses menyamakan query yang cocok dengan objek informasi yang telah terindex. Sebuah indes adalah
struktur data yang telah dioptimasi yang dibuat diatas objek informasi, sehingga memungkinkan untuk akses cepat pada proses pencarian.
Penguraian tersebut diantaranya menghapus kata dengan nilai semantic yang kecil stopword dan menjadikannya sebagai kata dasar
stemming. Menurut Rijsbergen 1979 di dalam Nadirman 2006
“Sebuah sistem temu-kembali informasi tidak memberitahu yakni tidak
mengubah pengetahuan
pengguna mengenai
masalah yang
ditanyakannya. Sistem tersebut hanya memberitahukan keberadaan atau ketidakberadaan dan keterangan dokumendokumen yang
berhubungan dengan permintaannya”.
2.1.2.2 Konsep Dasar Term Frequency-Inverse Document
Frequency TF-IDF
TF-IDF atau Term Frequency-Inverse Document Frequency adalah angka statistic yang mendefinisikan betapa pentingnya sebuah
kata dalam kumpulan dokumen atau corpus. Rajaraman , 2011 Menurut Robertson 2005 metode Tf-Idf merupakan suatu cara
untuk memberikan bobot hubungan suatu kata term terhadap dokumen. Metode ini menggabungkan dua konsep untuk perhitungan
bobot yaitu, frekuensi kemunculan sebuah kata didalam sebuah dokumen tertentu dan inverse frekuensi dokumen yang mengandung
kata tersebut. Algoritma TF-IDF merupakan salah satu skema pembobotan istilahterm dalam pencarian dokumen. Berikut tahapan
pada proses pembobotan TF-IDF, yaitu:
a Pembobotan Lokal Term Frequency TF.
Menurut Manning,dkk 2008 TF Term Frequency adalah nilai frekuensi kemunculan sebuah term dalam sebuah dokumen.
Keakuratan sebuah pencarian sangat tergantung dengan perhitungan TF. Dalam sebuah dokumen terdapat kata-kata yang sangat sering
muncul pada sebuah dokumen dan banyak dokumen lainnya namun tidak penting untuk menjelaskan karakteristik atau isi dokumen. Dalam
beberapa implementasi terdapat tahap penghapusan term yang
dianggap tidak penting dalam sebuah dokumen, hal ini dimaksudkan agar pada saat perhitungan term yang dinilai tidak penting tersebut
tidak mengganggu proses pembobotan pada dokumen. Dalam implementasinya penghilangan term ini dapat berupa kata sambung
atau kata penghubung. Istilah untuk term yang dihilangkan ini adalah stopword.
b Document Frequency DF
Document Frequency atau Frekuensi dokumen adalah jumlah dokumen yang berisi term pada seluruh dokumen. Dengan kata lain
Document Frequency ini adalah nilai berapa banyak dokumen yang mengandung term pada kumpulan dokumen. Joho , 2007
c Pembobotan Global Invers Document Frequency IDF
Inverse Document Frequency IDF adalah bobot yang dugunakan untuk menyatakan seberapa penting sebuah term didalam
kumpulan dokumen Ounis,2009. Nilai ini diperoleh dengan formula berikut:
Inverse Document Frequency = log
10
Ndf
t
Keterangan: N
: jumlah dokumen df
t
: jumlah dokumen yang mengandung term t idf
: log dari umlah dokumen dibagi jumlah dokumen yang mengandung kata t
d Perhitungan TF-IDF