d d d OPTIMASI MODEL QUERY PADA SISTEM FAQ DI SUARA WARGA UNIVERSITAS NEGERI SEMARANG

d Perhitungan TF-IDF Berikut rumus perhitungan TF-IDF: TF-IDF = Term Frequency x Inverse Document Frequency Atau W

t,d

= tf

t,d

x IDF t W

t,d

= TF x log 10 Ndf t Keterangan: W

t,d

: bobot dokumen d terhadap term t Contoh matriks: Query : bagaimana prosedur lupa membayar uang spp. D1 : bagaimana cara membayar spp yang lupa. D2 : bagaimana prosedur membayar ukt. D3 : bagaimana prosedur mengajukan beasiswa. vocabdoc tf idf tfidf Query doc1 doc2 doc3 Query doc1 doc2 doc3 bagaimana 1 1 1 1 prosedur 1 1 1 0.1249 0.124939 0 0.124939 0.124939 lupa 1 1 0 0.6021 0.60206 0.60206 membayar 1 1 1 0 0.1249 0.124939 0.124939 0.124939 uang 1 0 0.6021 0.60206 spp 1 1 0.301 0.30103 0.30103 cara 1 0 0.6021 0.60206 yang STOPWORD ukt 1 0 0.6021 0.60206 mengajukan 1 0.301 0.30103 beasiswa 1 0.6021 0.60206 Tabel 2.1 Penghitungan TF-IDF Keterangan : Term : Kata istilah TF : Term Frekuensi Query : Dokumen Query D1 : Dokumen ke-1 D2 : Dokumen ke-2 D3 : Dokumen ke-3 Angka 1 : Menandakan bahwa kata tersebut terdapat didalam dokumen Angka 0 : Menandakan bahwa kata tersebut tidak terdapat didalam dokumen Dari tabel 2.1 dapat di lihat nilai tf- idf dari term “bagaimana” yang muncul disemua dokumen memiliki nilai 0 atau dianggap tidak berbobot, sedangkan nilai tf- idf dari term “uang” yang hanya muncul di 1 dokumen memiliki nilai 0.60206. Dari tabel dan perbandingan nilai tf-idf diatas dapat disimpulkan semakin tinggi kemunculan sebuah term di semua dokumen akan mengurangi nilai bobot dari term tersebut, dan sebaliknya semakin sedikit atau rendah kemunculan sebuah term di semua dokumen nilai bobot dari term tersebut akan tinggi. Hal ini sesuai konsep dari pembobotan dengan tf-idf dari penelitian-penilitian sebelumnya. 2.1.2.3 Konsep Dasar Pencarian dengan pembobotan TF-IDF Dalam kumpulan dokumen yang memiliki jumlah dokumen sangat besar, akan dibutuhkan sebuah metode yang digunakan untuk membantu untuk menemukan sebuah informasi dari dokumen- dokumen tersebut. Ada banyak metode yang digunakan dalam pencarian tersebut, diantaranya mengukur bobot dokumen terhadap query dari informasi yang dicari dan atau mengukur kesamaan similiarity sebuah dokumen dengan query dari informasi yang dicari. Tahap awal yang dilakukan dalam pencarian dengan pembobotan TF-IDF adalah mencari bobot semua dokumen terhadap query pencarian dalam kumpulan dokumen. Dari pembobotan terhadap query pencarian tersebut akan dilakukan pengurutan terhadap nilai bobot. Hasil pencarian yang ditampilkan adalah urutan ranking bobot dari semua dokumen terhadap query pencarian. Contoh matriks: Query : bagaimana prosedur lupa membayar uang spp. D1 : bagaimana cara membayar spp yang lupa. D2 : bagaimana prosedur membayar ukt. D3 : bagaimana prosedur mengajukan beasiswa. Tabel 2.2 Penghitungan TF-IDF Dokumen doc n terhadap dokumen Query Keterangan : Term : Kata istilah TF : Term Frekuensi Query : Dokumen Query D1 : Dokumen ke-1 D2 : Dokumen ke-2 D3 : Dokumen ke-3 Angka 1 : Menandakan bahwa kata tersebut terdapat didalam dokumen Angka 0 : Menandakan bahwa kata tersebut tidak terdapat didalam dokumen vocab tf df idf tfidf Query doc 1 doc2 doc 3 Query doc1 doc2 doc3 bagaimana 1 1 1 1 4 prosedur 1 1 1 3 0.1249 0.1249 0.1249 0.1249 lupa 1 1 1 0.6021 0.6020 0.6020 membayar 1 1 1 3 0.1249 0.1249 0.1249 0.1249 uang 1 1 0.6021 0.6020 spp 1 1 2 0.301 0.3010 0.3010 cara 1 1 0.6021 0.6020 yang 1 1 0.6021 0.6020 ukt 1 1 0.6021 0.6020 mengajukan 1 2 0.301 0.3010 beasiswa 1 1 0.6021 0.6020 Bobot Total Dokumen terhadap Query 1.0280 0.2498 0.1249 Dari tabel 2.2 , dapat dilihat perhitungan bobot total dokumen terhadap dokumen query. Bobot total sebuah dokumen adalah jumlah total bobot term yang ada di dokumen dan yang hanya ada dalam Query. Bagian area abu-abu dari tabel adalah bagain dari term dokumen yang tidak termasuk dalam query, bobot term yang tidak ada pada Query tidak dihitung untuk bobot total. Bobot inilah yang nantinya akan diranking. Tabel 2.3 Perankingan Dari tabel 2.3 diatas didapatkan hasil perankingan dari bobot total dokumen terhadap Query. Dari perankingan tersebut dapat dapat diambil urutan untuk hasil dari pencarian. Dokumen dengan bobot tertinggi adalah dokumen yang paling relevan menurut perhitungan dengan TF-IDF. Dokumen Nilai Bobot Ranking Doc1 1.0280 1 Doc2 0.2498 2 Doc 3 0.1249 3

2.1.2.4 Pencarian Pada MYSQL Full-Text Search

MySQL adalah sebuah implementasi dari sistem manajemen basisdata relasional RDBMS yang didistribusikan secara gratis dibawah lisensi GPL General Public License. Setiap pengguna dapat secara bebas menggunakan MySQL, namun dengan batasan perangkat lunak tersebut tidak boleh dijadikan produk turunan yang bersifat komersial. MySQL sebenarnya merupakan turunan salah satu konsep utama dalam basisdata yang telah ada sebelumnya; SQL Structured Query Language. SQL adalah sebuah konsep pengoperasian basisdata, terutama untuk pemilihan atau seleksi dan pemasukan data, yang memungkinkan pengoperasian data dikerjakan dengan mudah secara otomatis. Wikipedia,2015 MySQL Full-Text Search adalah salah satu fungsi dalam pencarian yang ada dalam MySQL. Di MySQL Full-Text Search metode yang digunakan dalam pencariannya adalah perangkingan bobot TF-IDF. MySQL Full-Text Search menggunakan modifikasi dari formula pembobotan “term frequency-inverse document frequency” TF-IDF untuk merangking tingkat relevansi dokumen dari query yang diberikan. Pembobotan TF-IDF dihitung dari seberapa banyak frekuensi term muncul dalam sebuah dokumen dan seberapa banyak dokumen yang terdapat term dalam semua dokumen. Formula yang digunakan dalam MySQL Full-Text Search adalah sebagai berikut,