d Perhitungan TF-IDF
Berikut rumus perhitungan TF-IDF:
TF-IDF = Term Frequency x Inverse Document Frequency
Atau
W
t,d
= tf
t,d
x IDF
t
W
t,d
= TF x log
10
Ndf
t
Keterangan: W
t,d
: bobot dokumen d terhadap term t Contoh matriks:
Query : bagaimana prosedur lupa membayar uang spp.
D1 : bagaimana cara membayar spp yang lupa.
D2 : bagaimana prosedur membayar ukt.
D3 : bagaimana prosedur mengajukan beasiswa.
vocabdoc tf
idf tfidf
Query doc1 doc2 doc3 Query
doc1 doc2
doc3 bagaimana
1 1
1 1
prosedur 1
1 1 0.1249 0.124939
0 0.124939 0.124939 lupa
1 1
0 0.6021 0.60206
0.60206 membayar
1 1
1 0 0.1249 0.124939 0.124939 0.124939
uang 1
0 0.6021 0.60206
spp 1
1 0.301
0.30103 0.30103
cara 1
0 0.6021 0.60206
yang STOPWORD
ukt 1
0 0.6021 0.60206
mengajukan 1
0.301 0.30103
beasiswa 1 0.6021
0.60206
Tabel 2.1 Penghitungan TF-IDF
Keterangan :
Term : Kata istilah
TF : Term Frekuensi
Query : Dokumen Query
D1 : Dokumen ke-1
D2 : Dokumen ke-2
D3 : Dokumen ke-3
Angka 1 : Menandakan bahwa kata tersebut terdapat didalam dokumen
Angka 0 : Menandakan bahwa kata tersebut tidak terdapat didalam dokumen
Dari tabel 2.1 dapat di lihat nilai tf- idf dari term “bagaimana”
yang muncul disemua dokumen memiliki nilai 0 atau dianggap tidak berbobot, sedangkan nilai tf-
idf dari term “uang” yang hanya muncul di 1 dokumen memiliki nilai 0.60206.
Dari tabel dan perbandingan nilai tf-idf diatas dapat disimpulkan semakin tinggi kemunculan sebuah term di semua dokumen akan
mengurangi nilai bobot dari term tersebut, dan sebaliknya semakin sedikit atau rendah kemunculan sebuah term di semua dokumen nilai
bobot dari term tersebut akan tinggi. Hal ini sesuai konsep dari
pembobotan dengan tf-idf dari penelitian-penilitian sebelumnya. 2.1.2.3
Konsep Dasar Pencarian dengan pembobotan TF-IDF
Dalam kumpulan dokumen yang memiliki jumlah dokumen sangat besar, akan dibutuhkan sebuah metode yang digunakan untuk
membantu untuk menemukan sebuah informasi dari dokumen- dokumen tersebut. Ada banyak metode yang digunakan dalam
pencarian tersebut, diantaranya mengukur bobot dokumen terhadap query dari informasi yang dicari dan atau mengukur kesamaan
similiarity sebuah dokumen dengan query dari informasi yang dicari.
Tahap awal yang dilakukan dalam pencarian dengan pembobotan TF-IDF adalah mencari bobot semua dokumen terhadap
query pencarian dalam kumpulan dokumen. Dari pembobotan terhadap query pencarian tersebut akan dilakukan pengurutan terhadap nilai
bobot. Hasil pencarian yang ditampilkan adalah urutan ranking bobot dari semua dokumen terhadap query pencarian.
Contoh matriks: Query
: bagaimana prosedur lupa membayar uang spp. D1
: bagaimana cara membayar spp yang lupa. D2
: bagaimana prosedur membayar ukt. D3
: bagaimana prosedur mengajukan beasiswa.
Tabel 2.2 Penghitungan TF-IDF Dokumen doc n terhadap dokumen Query
Keterangan :
Term : Kata istilah
TF : Term Frekuensi
Query : Dokumen Query
D1 : Dokumen ke-1
D2 : Dokumen ke-2
D3 : Dokumen ke-3
Angka 1 : Menandakan bahwa kata tersebut terdapat didalam dokumen
Angka 0 : Menandakan bahwa kata tersebut tidak terdapat didalam dokumen
vocab tf
df idf
tfidf Query
doc 1
doc2 doc
3 Query
doc1 doc2
doc3 bagaimana
1 1
1 1
4 prosedur
1 1
1 3
0.1249 0.1249
0.1249 0.1249
lupa 1
1 1
0.6021 0.6020
0.6020 membayar
1 1
1 3
0.1249 0.1249
0.1249 0.1249
uang 1
1 0.6021
0.6020 spp
1 1
2 0.301
0.3010 0.3010
cara 1
1 0.6021
0.6020 yang
1 1
0.6021 0.6020
ukt 1
1 0.6021
0.6020 mengajukan
1 2
0.301 0.3010
beasiswa 1
1 0.6021
0.6020 Bobot Total Dokumen terhadap Query
1.0280 0.2498
0.1249
Dari tabel 2.2 , dapat dilihat perhitungan bobot total dokumen terhadap dokumen query. Bobot total sebuah dokumen adalah jumlah
total bobot term yang ada di dokumen dan yang hanya ada dalam Query. Bagian area abu-abu dari tabel adalah bagain dari term dokumen
yang tidak termasuk dalam query, bobot term yang tidak ada pada Query tidak dihitung untuk bobot total. Bobot inilah yang nantinya akan
diranking.
Tabel 2.3 Perankingan
Dari tabel 2.3 diatas didapatkan hasil perankingan dari bobot total dokumen terhadap Query. Dari perankingan tersebut dapat
dapat diambil urutan untuk hasil dari pencarian. Dokumen dengan bobot tertinggi adalah dokumen yang paling relevan menurut
perhitungan dengan TF-IDF. Dokumen
Nilai Bobot Ranking
Doc1
1.0280 1
Doc2
0.2498 2
Doc 3
0.1249 3
2.1.2.4 Pencarian Pada MYSQL Full-Text Search
MySQL adalah sebuah implementasi dari sistem manajemen basisdata relasional RDBMS yang didistribusikan secara gratis
dibawah lisensi GPL General Public License. Setiap pengguna dapat secara bebas menggunakan MySQL, namun dengan batasan perangkat
lunak tersebut tidak boleh dijadikan produk turunan yang bersifat komersial. MySQL sebenarnya merupakan turunan salah satu konsep
utama dalam basisdata yang telah ada sebelumnya; SQL Structured Query Language. SQL adalah sebuah konsep pengoperasian
basisdata, terutama untuk pemilihan atau seleksi dan pemasukan data, yang memungkinkan pengoperasian data dikerjakan dengan mudah
secara otomatis. Wikipedia,2015 MySQL Full-Text Search adalah salah satu fungsi dalam
pencarian yang ada dalam MySQL. Di MySQL Full-Text Search metode yang digunakan dalam pencariannya adalah perangkingan
bobot TF-IDF. MySQL Full-Text Search menggunakan modifikasi dari formula
pembobotan “term
frequency-inverse document
frequency” TF-IDF untuk merangking tingkat relevansi dokumen dari query yang diberikan. Pembobotan TF-IDF dihitung dari seberapa
banyak frekuensi term muncul dalam sebuah dokumen dan seberapa banyak dokumen yang terdapat term dalam semua dokumen. Formula
yang digunakan dalam MySQL Full-Text Search adalah sebagai berikut,