yang digunakan dalam MySQL Full-Text Search adalah sebagai berikut,
TF-IDF = Term Frequency x Inverse Document Frequency
Atau
W
t,d
= tf
t,d
x IDF
t x
IDF
t
W
t,d
= TF x log
10
Ndf
t
x log
10
Ndf
t
x log
10
Ndf
t
Keterangan:
Term : kata istilah
TF : Term Frekuensi
DF : Jumlah kemunculan kata dalam kalimat df
IDF : Bobot Inverse Document Frequency
N : Jumlah Total Semua Dokumen.
W
t,d
: bobot dokumen d terhadap term t
Berikut adalah contoh perbandingan Classic Formulas TF-IDF dan MySQL Full-Text Search TF-IDF,
vocabdoc TF
df idf
tfidfidf Query
doc1 doc2
doc3 Query
doc1 doc2
doc3 bagaimana
1 1
1 1
4 prosedur
1 1
1 3 0.1249
0.01561 0.01561
0.01561 lupa
1 1
1 0.6021 0.362476 0.362476 membayar
1 1
1 3 0.1249
0.01561 0.01561
0.01561 uang
1 1 0.6021 0.362476
spp 1
1 2
0.301 0.090619 0.090619
cara 1
1 0.6021 0.362476
yang 1
1 0.6021 0.362476
ukt 1
1 0.6021 0.362476
mengajukan 1
2 0.301
0 0.090619 beasiswa
1 1 0.6021
0 0.362476 Bobot Total Dokumen terhadap Query
0.46870 0.03121
0.0156
Tabel 2.4 Perhitungan MySQL Full-Text Search TF-IDF
Dari tabel 2.4 , dapat dilihat perhitungan bobot total dokumen terhadap dokumen query dengan TF-IDF pada MySQL Full-Text
Search. Bobot total sebuah dokumen adalah jumlah total bobot term yang ada di dokumen dan yang hanya ada dalam Query. Bagian area
abu-abu dari tabel adalah bagain dari term dokumen yang tidak termasuk dalam query, bobot term yang tidak ada pada Query tidak
dihitung untuk bobot total. Bobot inilah yang nantinya akan diranking.
Dokumen Nilai Bobot
Ranking Doc1
0.46870 1
Doc2
0.03121 2
Doc 3
0.0156 3
Tabel 2.5 Perangkingan MySQL Full-Text Search TF-IDF
Dari tabel 2.5 diatas adalah hasil perankingan dari bobot total dokumen terhadap Query dengan TF-IDF pada MySQL Full-Text
Search . Dari perankingan tersebut dapat dapat diambil urutan untuk hasil dari pencarian. Dokumen dengan bobot tertinggi adalah dokumen
yang paling relevan menurut perhitungan dengan TF-IDF. Dari perhitungan diatas, untuk melihat perbedaan Classic
Formula TF-IDF dan TF-IDF pada MySQL Full-Text Search maka dilakukanlah pembandingan. Pembandingan dapat dilihat pada table
2.10
Tabel 2.6 Pembandingan Antara Classic Formula TF-IDF dan TF-IDF pada MySQL Full-Text Search
Tabel 2.6 diatas adalah hasil pembandingan antara Classic Formula TF-IDF dan TF-IDF pada MySQL Full-Text Search . Dari
pembadingan tersebut dapat disimpulkan bahwa modifikasi yang dilakukan oleh MySQL Full-Text Search pada formula TF-IDF tidak
mengubah nilai urutanranking dokumen. Perubahan terjadi pada nilai bobot dokumen. Secara konsep perankingan modifikasi yang
dilakukan MySQL Full-Text Search tidak menggubah nilai urutanranking.
2.1.3 Model Query
Menurut Hasugian 2006 query adalah format bahasa perintah. Format Bahasa tersebut di input dimasukan oleh pengguna kedalam
Sistem temu kembali informasi. Dalam interface antar muka Sistem temu kembali informasi selalu disediakan kolomruas sebagai tempat bagi
pengguna untuk
mengetikkan menuliskan query nya.
Dalam perpustakaan OPAC Online Public Acces Catalog disebut
“Search expression”. Pada kolom itulah pengguna mengetik menuliskan bahasa
Pembanding Doc1
Doc2 Doc3
Bobot Dengan Classic Formula TF-IDF 1.0280
0.2498 0.1249
Bobot Dengan MySQL Full-Text Search TF-IDF 0.46870
0.03121 0.0156
Ranking Dengan Classic Formula TF-IDF 1
2 3
Ranking Dengan MySQL Full-Text Search TF-IDF 1
2 3
permintaanya query, dan setelah query itu dimasukkan selanjutnya mesin akan melakukan proses pemanggilan terhadap dokumen yang diinginkan
dari database. Model query merupakan bentuk query yang diambil dari sebuah
struktur dokumen. Bentuk query yang diambil dari bagian dari struktur dokumen dapat berupa sebuah term atan terdiri dari banyak term. Ogilvie
2013 membuat contoh aturan bahwa permodelan dokumen terstruktur terdiri dari tittle, abstract, dan body. Ketiga bagian tersebut merupakan
bagian utama dari struktur dokumen. Penggunaan model query dalam sistem temu kembali dimaksudkan untuk mengefektifkan penggunaan
query yang sesuai dengan sistem yang dibuat.
2.1.3.1 Feature Selection Seleksi Fitur Chi-Square
Menurut C.Sun 2009 didalam Supriyanto 2011 seleksi fitur adalah proses menghilangkan beberapa fitur atau term yang kurang
relevan untuk penentuan topik suatu dokumen. Chi-square adalah salah satu seleksi fitur yang mampu mengilangkan banyak fitur tanpa
mengurangi tingkat akurasi.
Keterangan: A : Banyaknya dokumen dalam kategori c yang mengandung term t
B : Banyaknya dokumen yang bukan kategori c tetapi mengandung term t C : Banyaknya dokumen dalam katgori c tetapi tidak mengandung term t
D : Banyaknya dokumen yang bukan kategori c dan tidak mengandung term t
2.1.4 Optimasi Model Query pada Sistem FAQ
Data yang dihasilkan oleh sistem FAQ yang mengimplementasikan sistem temu-kembali informasi menjadi tolakukur dalam menentukan
efektifitas sebuah sistem FAQ itu sendiri. Tidak hanya menampilkan jumlah data yang relevan sebanyak-banyaknya, dalam sistem temu-
kembali juga diharapkan mampu menangani jumlah tidak relevan dari data yang berhasil ditampilkan sistem. Hal tersebutlah yang mendasari untuk
dilakukan optimasi dalam sebuah sistem FAQ. Perbedaan pola data yang ada dilapangan menyebabkan perbedaan
bentuk optimasi dari tiap-tiap kasus sistem temu-kembali. Bentuk optimasi dari sebuah sistem temu-kembali diantaranya adalah memodifikasi objek-
objek yang berpengaruh dalam sistem temu-kembali itu sendiri untuk menghasilkan hasil yang akurat. Pada bidang temu-kembali informasi
terdapat beberapa hal yang mempengaruhi hasil dari sistem yang dibuat, diantaranya adalah metode perhitungan yang digunakan dan data yang
menjadi objek perhitungan. Bentuk optimasi pada metode perhitungan diantaranya adalah
dengan melakukan modifikasi terhadap metode perhitungan agar hasilnya lebih optimal. Bentuk optimasi ini bisa dilakukan dengan mencari metode
perhitungan terbaik dengan cara mengujikan beberapa metode perhitungan dengan data yang ada dilapangan setelah itu dievaluasi.
Pada optimasi objek perhitungan dapat dilakukan dengan memodifikasi data yang ada sehingga diharapkan hasil perhitungan lebih
optimal. Beberapa bentuk modifikasi objek data perhitungan yang sering digunakan dalam sistem temu kembali adalah penggunaan stopword,
stemming, dan penggunaan feature selection. Hasil dari modifikasi data perhitungan tersebut akan dijadikan sebuah query yang nanti akan dihitung
pada sistem temu-kembali yang telah dibuat. Bentuk optimasi yang dapat dilakukan adalah dengan mengujikan model-model query yang ada untuk
diambil model query terbaik yang memiliki nilai akurasi yang tertinggi.
2.2 Penelitian Terdahulu
Penelitian terdahulu yang berkaitan dengan pencarian dokumen sangat diperlukan sebagai bahan acuan dalam penulisan. Adapun beberapa penelitian
terdahulu mengenai pencarian dokumen teks, antara lain dilakukan oleh Harjanto 2012 dari Universitas Diponegoro yang berjudul Sistem Temu
Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency TF-IDF. hasil penelitiannya
menyatakan bahwa metode pembobotan dokumen TF-IDF dapat me-retrieve dokumen sesuai dengan query pengguna. Hasil recall rata-rata dari 20
dokumen dan 5 query memberikan nilai 97,2. Penelitian serupa dilakukan oleh Fitri 2013 dari Universitas Tanjungpura dalam penelitiannya yang
berudul “Perancangan Sistem Temu Balik Informasi Dengan Metode Pembobotan Kombinasi Tf-Idf Untuk Pencarian Dokumen Berbahasa
Indonesia ”, menyatakan bahwa dengan kombinasi TF-IDF dapat menyajikan
data relevan pada pencariannya. Nilai presisi dan recall menunjukan dari hasil pengujuan yang dilakukan pada 5 kata kunci menghasilkan nilai recall 1 yang
menunjukan bahwa semua dokumen yang relevan dapat ditemu-kembalikan oleh sistem, dan nilai precision antara 0.1316 dan 1 yang menunjukan terdapat
dokumen lain selain dokumen relevan yang ditemu-kembalikan oleh sistem. Pada kedua penelitian diatas membahas sistem-temu kembali dengan
metode pembobotan TF-IDF. Pembobotan dilakukan dengan menghitung bobot tiap term yang ada pada query dengan dokumen yang ada. Query yang
digunakan diambil dari satu field atau dengan satu model query. Penelitian lain yang membahas sistem-temu kembali dengan mempergunakan lebih dari
satu field atau lebih dengan satu model antara lain dilakukan oleh Saptari 2006 dari Universitas Gajah Mada dengan penelitiannya yang berjudul
“Temu Kembali Informasi Bibliografi Dengan Bahasaalami Pada field Judul dan Sufjek Studi Efektivitas Katalog Induk Terpasang Perpustakaan UGM”.
Dalam penelitiannya dibahas sistem temu kembali dengan penggunaan lebih dari satu field atau lebih dari satu model query. Dari penggunaan lebih dari
satu model query tersebut dilakukan pembandingan. Hasil penelitian tersebut didapatkan nilai efektifitas 66.66 dengan penggunaan query dari field judul
dan nilai efektifitas 58.3 dengan penggunaan query dari field subjek. Penelitian serupa dilakukan oleh Kusumawardani 2013 dari
Universitas Airlangga dengan judul penelitiannya “Temu Kembali Informasi dengan keyword Studi deskriptif tentang sistem temu kembali informasi
dengan controlled vocabulary pada field judul, subyek, dan pengarang di Perpustakaan
Universitas Airlangga”. Pada penelitian tersebut dibahas sistem temu kembali dengan 3 field atau model query yang masing-masing dari field
tersebut dibandingkan hasilnya. Dari hasil pengujian terhadap 100 judul dokumen didapatkan sebanyak 98 dokumen berhasil ter-retrive dengan
penggunaan query judul. Pengujian yang sama dilakukan terhadap 119 nama pengarang dari dokumen didapatkan sebanyak 100 dokumen berhasil ter-
retrive dengan query yang diambil dari field pengarang. Sedangkan pengujian dengan dengan query yang diambil dari subjek didapatkan hanya sebesar 19
dokumen berhasil ter-retrive dari 128 dokumen yang ada.
2.3 Kerangka Berfikir