��� �, �
�
=
�
→�.
�
→�
�
�
�
→���
�
→�
�
�
11 Dimana:
• ��� �, �
�
adalah jarak kedekatan query dan dokumen i. •
Q adalah query pencarian.
• Di
adalah dokumen i. •
�
→ � adalah reperentasi vektor query pencarian. •
�
→ �
�
adalah reperentasi vektor dokumen i. Dengan melihat pada persamaan 10 dan 11, dapat ditulis ulang
menjadi: cos
��� ��, �
�
� =
∑ ��
�
. �
��
�
� �=1
�∑ �
� 2
�
�
. �
� 2
�
� �
�=1
12
VSM akan mengurutkan dokumen berdasarkan nilai jarak kesamaan masing – masing dokumen dengan query pencarian. Semakin
dekat jarak dokumen dengan query pencarian, posisi dokumen akan berada semakin atas.
2.9. Extended Boolean Model
Boolean model merupakan model IR sederhana yang berdasarkan
atas teori himpunan dan aljabar. Boolean model merepresentasikan dokumen sebagai suatu himpunyan kata kunci set of keywords. Query
direpresentasikan sebagai ekspresi boolean. Query dalam ekspresi boolean merupakan kumpulan kata kunci yang saling dihubungkan melalui
operator boolean seperti AND, OR, dan NOT serta menggunakan tanda kurung untuk menentukan scope operator. Hasil pencarian dokumen dari
model boolean adalah himpunan dokumen yang relevan Baetza - Yates dan Riberio – Neto, 1998. Karena sifatnya yang sederhana, boolean
model saat ini masih dipergunakan oleh sistem IR modern, antara lain oleh
www.google.com . Kekurangan model boolean diperbaiki oleh VSM dan
extended boolean model yang mampu menghasilkan dokumen – dokumen
terurut berdasarkan kesesuaian query. Extended boolean model
merupakan lanjutan dari boolean model dengan menggabungkan karakateristik dari vector space model dengan
sifat – sifat aljabar boolean dan peringkat kesamaan antara query dan dokumen berdasarkan p-norm model Salton, 1989. Cara ini dikatakan
sebagai alternatif dari model klasik boolean model. Algoritma extended boolean model EBM
pada dasarnya merupakan model pengembangan model vektor. Model vektor memberikan nilai kepada kata atau frasa yang
terdapat pada dokumen indeks dimana kata tersebut mempunyai asosiasi dengan kata yang ada dalam user query Baetza - Yates dan Riberio –
Neto, 1998. Nilai ini disebut sebagai bobot dari kata atau frasa yang terdapat dalam dokumen. Bobot ini kemudian digunakan untuk membuat
derajat kemiripan antara tiap dokumen yang disimpan dalam text database dan query yang diberikan oleh user.
Dalam EBM, bobot kata dalam dokumen harus dalam interval 0 sampai 1. Oleh karena itu bobot harus dinormalisasi Salton, 1989.
Perhitungan bobot dalam EBM dihitung menggunakan persamaan sebagai berikut:
�
i,j
=
��
�,�
��
max �,�
×
���
�
���
max �
13 Dimana:
• W
i,j
merupakan bobot kata i pada dokumen j. •
tf
i,j
merupakan frekuensi kata i pada dokumen j. •
tf
max i,j
merupakan frekuensi maksimum kata i dalam dokumen j. •
idf
i
merupakan nilai idf dari kata i dalam koleksi. •
idf
max i
merupakan nilai maksimum idf kata i dalam koleksi. P-Norm model
memberikan gagasan untuk memasukkan nilai p, yaitu nilai yang menunjukkan keketatan pada operator. Nilai p berkisar
dari satu sampai tidak terhingga. Untuk P-Norm model ukuran kesamaan antara dokumen dan query didefinisikan sebagai berikut Savoy, 1993:
�����, �
���
� = �
�
1 �
�
�1 �
+ �
2 �
�
�2 �
+ …+ �
� �
�
� �
�
1 �
+ �
1 �
+ …+ �
1 �
�
1 �
14
�����, �
��� �
� = 1 − �
�
1 �
1 −�
�1 �
+ �
2 �
1 −�
�2 �
+ …+ �
� �
1 −�
� �
�
1 �
+ �
1 �
+ …+ �
1 �
�
1 �
15 Dengan:
• Persamaan 13 merupakan persamaan untuk query OR.
• Persamaan 14 merupakan persamaan untuk query AND.
• a,b
merupakan query term berbobot.
• d
A
, d
B
merupakan bobot term A dan term B pada dokumen. •
1 ≤ p ≤ ∞.
Perhitungan ukuran kesamaan dalam EBM menggunakan persamaan berikut Savoy, 1993:
Tabel 2. 11 Tabel persamaan perhitungan ukuran kesamaan dalam EBM Query
Retrieval Status Value RSV
A OR p B ��
�� �
+ �
�� �
�
�
A AND p B 1
− � 1
− �
�� �
+ 1 − �
�� �
�
�
NOT A 1 – W
ia
Dimana : •
p adalah nilai p-norm yang dimasukkan pada query.
• W
ia
adalah bobot istilah A dalam indeks pada dokumen D
i
. •
W
ib
adalah bobot istilah B dalam indeks pada dokumen D
i
. •
n adalah jumlah kata yang dihubungkan menggunakan operator.
Nilai P-Norm yang umum digunakan adalah 2. Pemberian peringkat dilakukan dengan cara mengurutkan nilai yang didapat dokumen
dari perhitungan RSV retrieval status value pada tabel 2.11.
2.10. Probabilistic Model