Konsep Dasar Temu-kembali Informasi Information Konsep Dasar Term Frequency-Inverse Document

2.1.2.1 Konsep Dasar Temu-kembali Informasi Information

Retrieval Menurut Goker 2009 secara sederhana temu-kembali informasi adalah tentang menemukan informasi. Lebih spesifik, temu- kembali informasi adalah proses menyamakan query yang cocok dengan objek informasi yang telah terindex. Sebuah indes adalah struktur data yang telah dioptimasi yang dibuat diatas objek informasi, sehingga memungkinkan untuk akses cepat pada proses pencarian. Penguraian tersebut diantaranya menghapus kata dengan nilai semantic yang kecil stopword dan menjadikannya sebagai kata dasar stemming. Menurut Rijsbergen 1979 di dalam Nadirman 2006 “Sebuah sistem temu-kembali informasi tidak memberitahu yakni tidak mengubah pengetahuan pengguna mengenai masalah yang ditanyakannya. Sistem tersebut hanya memberitahukan keberadaan atau ketidakberadaan dan keterangan dokumendokumen yang berhubungan dengan permintaannya”.

2.1.2.2 Konsep Dasar Term Frequency-Inverse Document

Frequency TF-IDF TF-IDF atau Term Frequency-Inverse Document Frequency adalah angka statistic yang mendefinisikan betapa pentingnya sebuah kata dalam kumpulan dokumen atau corpus. Rajaraman , 2011 Menurut Robertson 2005 metode Tf-Idf merupakan suatu cara untuk memberikan bobot hubungan suatu kata term terhadap dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot yaitu, frekuensi kemunculan sebuah kata didalam sebuah dokumen tertentu dan inverse frekuensi dokumen yang mengandung kata tersebut. Algoritma TF-IDF merupakan salah satu skema pembobotan istilahterm dalam pencarian dokumen. Berikut tahapan pada proses pembobotan TF-IDF, yaitu: a Pembobotan Lokal Term Frequency TF. Menurut Manning,dkk 2008 TF Term Frequency adalah nilai frekuensi kemunculan sebuah term dalam sebuah dokumen. Keakuratan sebuah pencarian sangat tergantung dengan perhitungan TF. Dalam sebuah dokumen terdapat kata-kata yang sangat sering muncul pada sebuah dokumen dan banyak dokumen lainnya namun tidak penting untuk menjelaskan karakteristik atau isi dokumen. Dalam beberapa implementasi terdapat tahap penghapusan term yang dianggap tidak penting dalam sebuah dokumen, hal ini dimaksudkan agar pada saat perhitungan term yang dinilai tidak penting tersebut tidak mengganggu proses pembobotan pada dokumen. Dalam implementasinya penghilangan term ini dapat berupa kata sambung atau kata penghubung. Istilah untuk term yang dihilangkan ini adalah stopword. b Document Frequency DF Document Frequency atau Frekuensi dokumen adalah jumlah dokumen yang berisi term pada seluruh dokumen. Dengan kata lain Document Frequency ini adalah nilai berapa banyak dokumen yang mengandung term pada kumpulan dokumen. Joho , 2007 c Pembobotan Global Invers Document Frequency IDF Inverse Document Frequency IDF adalah bobot yang dugunakan untuk menyatakan seberapa penting sebuah term didalam kumpulan dokumen Ounis,2009. Nilai ini diperoleh dengan formula berikut: Inverse Document Frequency = log 10 Ndf t Keterangan: N : jumlah dokumen df t : jumlah dokumen yang mengandung term t idf : log dari umlah dokumen dibagi jumlah dokumen yang mengandung kata t d Perhitungan TF-IDF