d d Penelitian Terdahulu

yang digunakan dalam MySQL Full-Text Search adalah sebagai berikut, TF-IDF = Term Frequency x Inverse Document Frequency Atau W

t,d

= tf

t,d

x IDF t x IDF t W

t,d

= TF x log 10 Ndf t x log 10 Ndf t x log 10 Ndf t Keterangan: Term : kata istilah TF : Term Frekuensi DF : Jumlah kemunculan kata dalam kalimat df IDF : Bobot Inverse Document Frequency N : Jumlah Total Semua Dokumen. W

t,d

: bobot dokumen d terhadap term t Berikut adalah contoh perbandingan Classic Formulas TF-IDF dan MySQL Full-Text Search TF-IDF, vocabdoc TF df idf tfidfidf Query doc1 doc2 doc3 Query doc1 doc2 doc3 bagaimana 1 1 1 1 4 prosedur 1 1 1 3 0.1249 0.01561 0.01561 0.01561 lupa 1 1 1 0.6021 0.362476 0.362476 membayar 1 1 1 3 0.1249 0.01561 0.01561 0.01561 uang 1 1 0.6021 0.362476 spp 1 1 2 0.301 0.090619 0.090619 cara 1 1 0.6021 0.362476 yang 1 1 0.6021 0.362476 ukt 1 1 0.6021 0.362476 mengajukan 1 2 0.301 0 0.090619 beasiswa 1 1 0.6021 0 0.362476 Bobot Total Dokumen terhadap Query 0.46870 0.03121 0.0156 Tabel 2.4 Perhitungan MySQL Full-Text Search TF-IDF Dari tabel 2.4 , dapat dilihat perhitungan bobot total dokumen terhadap dokumen query dengan TF-IDF pada MySQL Full-Text Search. Bobot total sebuah dokumen adalah jumlah total bobot term yang ada di dokumen dan yang hanya ada dalam Query. Bagian area abu-abu dari tabel adalah bagain dari term dokumen yang tidak termasuk dalam query, bobot term yang tidak ada pada Query tidak dihitung untuk bobot total. Bobot inilah yang nantinya akan diranking. Dokumen Nilai Bobot Ranking Doc1 0.46870 1 Doc2 0.03121 2 Doc 3 0.0156 3 Tabel 2.5 Perangkingan MySQL Full-Text Search TF-IDF Dari tabel 2.5 diatas adalah hasil perankingan dari bobot total dokumen terhadap Query dengan TF-IDF pada MySQL Full-Text Search . Dari perankingan tersebut dapat dapat diambil urutan untuk hasil dari pencarian. Dokumen dengan bobot tertinggi adalah dokumen yang paling relevan menurut perhitungan dengan TF-IDF. Dari perhitungan diatas, untuk melihat perbedaan Classic Formula TF-IDF dan TF-IDF pada MySQL Full-Text Search maka dilakukanlah pembandingan. Pembandingan dapat dilihat pada table 2.10 Tabel 2.6 Pembandingan Antara Classic Formula TF-IDF dan TF-IDF pada MySQL Full-Text Search Tabel 2.6 diatas adalah hasil pembandingan antara Classic Formula TF-IDF dan TF-IDF pada MySQL Full-Text Search . Dari pembadingan tersebut dapat disimpulkan bahwa modifikasi yang dilakukan oleh MySQL Full-Text Search pada formula TF-IDF tidak mengubah nilai urutanranking dokumen. Perubahan terjadi pada nilai bobot dokumen. Secara konsep perankingan modifikasi yang dilakukan MySQL Full-Text Search tidak menggubah nilai urutanranking.

2.1.3 Model Query

Menurut Hasugian 2006 query adalah format bahasa perintah. Format Bahasa tersebut di input dimasukan oleh pengguna kedalam Sistem temu kembali informasi. Dalam interface antar muka Sistem temu kembali informasi selalu disediakan kolomruas sebagai tempat bagi pengguna untuk mengetikkan menuliskan query nya. Dalam perpustakaan OPAC Online Public Acces Catalog disebut “Search expression”. Pada kolom itulah pengguna mengetik menuliskan bahasa Pembanding Doc1 Doc2 Doc3 Bobot Dengan Classic Formula TF-IDF 1.0280 0.2498 0.1249 Bobot Dengan MySQL Full-Text Search TF-IDF 0.46870 0.03121 0.0156 Ranking Dengan Classic Formula TF-IDF 1 2 3 Ranking Dengan MySQL Full-Text Search TF-IDF 1 2 3 permintaanya query, dan setelah query itu dimasukkan selanjutnya mesin akan melakukan proses pemanggilan terhadap dokumen yang diinginkan dari database. Model query merupakan bentuk query yang diambil dari sebuah struktur dokumen. Bentuk query yang diambil dari bagian dari struktur dokumen dapat berupa sebuah term atan terdiri dari banyak term. Ogilvie 2013 membuat contoh aturan bahwa permodelan dokumen terstruktur terdiri dari tittle, abstract, dan body. Ketiga bagian tersebut merupakan bagian utama dari struktur dokumen. Penggunaan model query dalam sistem temu kembali dimaksudkan untuk mengefektifkan penggunaan query yang sesuai dengan sistem yang dibuat.

2.1.3.1 Feature Selection Seleksi Fitur Chi-Square

Menurut C.Sun 2009 didalam Supriyanto 2011 seleksi fitur adalah proses menghilangkan beberapa fitur atau term yang kurang relevan untuk penentuan topik suatu dokumen. Chi-square adalah salah satu seleksi fitur yang mampu mengilangkan banyak fitur tanpa mengurangi tingkat akurasi. Keterangan: A : Banyaknya dokumen dalam kategori c yang mengandung term t B : Banyaknya dokumen yang bukan kategori c tetapi mengandung term t C : Banyaknya dokumen dalam katgori c tetapi tidak mengandung term t D : Banyaknya dokumen yang bukan kategori c dan tidak mengandung term t

2.1.4 Optimasi Model Query pada Sistem FAQ

Data yang dihasilkan oleh sistem FAQ yang mengimplementasikan sistem temu-kembali informasi menjadi tolakukur dalam menentukan efektifitas sebuah sistem FAQ itu sendiri. Tidak hanya menampilkan jumlah data yang relevan sebanyak-banyaknya, dalam sistem temu- kembali juga diharapkan mampu menangani jumlah tidak relevan dari data yang berhasil ditampilkan sistem. Hal tersebutlah yang mendasari untuk dilakukan optimasi dalam sebuah sistem FAQ. Perbedaan pola data yang ada dilapangan menyebabkan perbedaan bentuk optimasi dari tiap-tiap kasus sistem temu-kembali. Bentuk optimasi dari sebuah sistem temu-kembali diantaranya adalah memodifikasi objek- objek yang berpengaruh dalam sistem temu-kembali itu sendiri untuk menghasilkan hasil yang akurat. Pada bidang temu-kembali informasi terdapat beberapa hal yang mempengaruhi hasil dari sistem yang dibuat, diantaranya adalah metode perhitungan yang digunakan dan data yang menjadi objek perhitungan. Bentuk optimasi pada metode perhitungan diantaranya adalah dengan melakukan modifikasi terhadap metode perhitungan agar hasilnya lebih optimal. Bentuk optimasi ini bisa dilakukan dengan mencari metode perhitungan terbaik dengan cara mengujikan beberapa metode perhitungan dengan data yang ada dilapangan setelah itu dievaluasi. Pada optimasi objek perhitungan dapat dilakukan dengan memodifikasi data yang ada sehingga diharapkan hasil perhitungan lebih optimal. Beberapa bentuk modifikasi objek data perhitungan yang sering digunakan dalam sistem temu kembali adalah penggunaan stopword, stemming, dan penggunaan feature selection. Hasil dari modifikasi data perhitungan tersebut akan dijadikan sebuah query yang nanti akan dihitung pada sistem temu-kembali yang telah dibuat. Bentuk optimasi yang dapat dilakukan adalah dengan mengujikan model-model query yang ada untuk diambil model query terbaik yang memiliki nilai akurasi yang tertinggi.

2.2 Penelitian Terdahulu

Penelitian terdahulu yang berkaitan dengan pencarian dokumen sangat diperlukan sebagai bahan acuan dalam penulisan. Adapun beberapa penelitian terdahulu mengenai pencarian dokumen teks, antara lain dilakukan oleh Harjanto 2012 dari Universitas Diponegoro yang berjudul Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency TF-IDF. hasil penelitiannya menyatakan bahwa metode pembobotan dokumen TF-IDF dapat me-retrieve dokumen sesuai dengan query pengguna. Hasil recall rata-rata dari 20 dokumen dan 5 query memberikan nilai 97,2. Penelitian serupa dilakukan oleh Fitri 2013 dari Universitas Tanjungpura dalam penelitiannya yang berudul “Perancangan Sistem Temu Balik Informasi Dengan Metode Pembobotan Kombinasi Tf-Idf Untuk Pencarian Dokumen Berbahasa Indonesia ”, menyatakan bahwa dengan kombinasi TF-IDF dapat menyajikan data relevan pada pencariannya. Nilai presisi dan recall menunjukan dari hasil pengujuan yang dilakukan pada 5 kata kunci menghasilkan nilai recall 1 yang menunjukan bahwa semua dokumen yang relevan dapat ditemu-kembalikan oleh sistem, dan nilai precision antara 0.1316 dan 1 yang menunjukan terdapat dokumen lain selain dokumen relevan yang ditemu-kembalikan oleh sistem. Pada kedua penelitian diatas membahas sistem-temu kembali dengan metode pembobotan TF-IDF. Pembobotan dilakukan dengan menghitung bobot tiap term yang ada pada query dengan dokumen yang ada. Query yang digunakan diambil dari satu field atau dengan satu model query. Penelitian lain yang membahas sistem-temu kembali dengan mempergunakan lebih dari satu field atau lebih dengan satu model antara lain dilakukan oleh Saptari 2006 dari Universitas Gajah Mada dengan penelitiannya yang berjudul “Temu Kembali Informasi Bibliografi Dengan Bahasaalami Pada field Judul dan Sufjek Studi Efektivitas Katalog Induk Terpasang Perpustakaan UGM”. Dalam penelitiannya dibahas sistem temu kembali dengan penggunaan lebih dari satu field atau lebih dari satu model query. Dari penggunaan lebih dari satu model query tersebut dilakukan pembandingan. Hasil penelitian tersebut didapatkan nilai efektifitas 66.66 dengan penggunaan query dari field judul dan nilai efektifitas 58.3 dengan penggunaan query dari field subjek. Penelitian serupa dilakukan oleh Kusumawardani 2013 dari Universitas Airlangga dengan judul penelitiannya “Temu Kembali Informasi dengan keyword Studi deskriptif tentang sistem temu kembali informasi dengan controlled vocabulary pada field judul, subyek, dan pengarang di Perpustakaan Universitas Airlangga”. Pada penelitian tersebut dibahas sistem temu kembali dengan 3 field atau model query yang masing-masing dari field tersebut dibandingkan hasilnya. Dari hasil pengujian terhadap 100 judul dokumen didapatkan sebanyak 98 dokumen berhasil ter-retrive dengan penggunaan query judul. Pengujian yang sama dilakukan terhadap 119 nama pengarang dari dokumen didapatkan sebanyak 100 dokumen berhasil ter- retrive dengan query yang diambil dari field pengarang. Sedangkan pengujian dengan dengan query yang diambil dari subjek didapatkan hanya sebesar 19 dokumen berhasil ter-retrive dari 128 dokumen yang ada.

2.3 Kerangka Berfikir