Extended Boolean Model LANDASAN TEORI

��� �, � � = � →�. � →� � � � →��� � →� � � 11 Dimana: • ��� �, � � adalah jarak kedekatan query dan dokumen i. • Q adalah query pencarian. • Di adalah dokumen i. • � → � adalah reperentasi vektor query pencarian. • � → � � adalah reperentasi vektor dokumen i. Dengan melihat pada persamaan 10 dan 11, dapat ditulis ulang menjadi: cos ��� ��, � � � = ∑ �� � . � �� � � �=1 �∑ � � 2 � � . � � 2 � � � �=1 12 VSM akan mengurutkan dokumen berdasarkan nilai jarak kesamaan masing – masing dokumen dengan query pencarian. Semakin dekat jarak dokumen dengan query pencarian, posisi dokumen akan berada semakin atas.

2.9. Extended Boolean Model

Boolean model merupakan model IR sederhana yang berdasarkan atas teori himpunan dan aljabar. Boolean model merepresentasikan dokumen sebagai suatu himpunyan kata kunci set of keywords. Query direpresentasikan sebagai ekspresi boolean. Query dalam ekspresi boolean merupakan kumpulan kata kunci yang saling dihubungkan melalui operator boolean seperti AND, OR, dan NOT serta menggunakan tanda kurung untuk menentukan scope operator. Hasil pencarian dokumen dari model boolean adalah himpunan dokumen yang relevan Baetza - Yates dan Riberio – Neto, 1998. Karena sifatnya yang sederhana, boolean model saat ini masih dipergunakan oleh sistem IR modern, antara lain oleh www.google.com . Kekurangan model boolean diperbaiki oleh VSM dan extended boolean model yang mampu menghasilkan dokumen – dokumen terurut berdasarkan kesesuaian query. Extended boolean model merupakan lanjutan dari boolean model dengan menggabungkan karakateristik dari vector space model dengan sifat – sifat aljabar boolean dan peringkat kesamaan antara query dan dokumen berdasarkan p-norm model Salton, 1989. Cara ini dikatakan sebagai alternatif dari model klasik boolean model. Algoritma extended boolean model EBM pada dasarnya merupakan model pengembangan model vektor. Model vektor memberikan nilai kepada kata atau frasa yang terdapat pada dokumen indeks dimana kata tersebut mempunyai asosiasi dengan kata yang ada dalam user query Baetza - Yates dan Riberio – Neto, 1998. Nilai ini disebut sebagai bobot dari kata atau frasa yang terdapat dalam dokumen. Bobot ini kemudian digunakan untuk membuat derajat kemiripan antara tiap dokumen yang disimpan dalam text database dan query yang diberikan oleh user. Dalam EBM, bobot kata dalam dokumen harus dalam interval 0 sampai 1. Oleh karena itu bobot harus dinormalisasi Salton, 1989. Perhitungan bobot dalam EBM dihitung menggunakan persamaan sebagai berikut: � i,j = �� �,� �� max �,� × ��� � ��� max � 13 Dimana: • W i,j merupakan bobot kata i pada dokumen j. • tf i,j merupakan frekuensi kata i pada dokumen j. • tf max i,j merupakan frekuensi maksimum kata i dalam dokumen j. • idf i merupakan nilai idf dari kata i dalam koleksi. • idf max i merupakan nilai maksimum idf kata i dalam koleksi. P-Norm model memberikan gagasan untuk memasukkan nilai p, yaitu nilai yang menunjukkan keketatan pada operator. Nilai p berkisar dari satu sampai tidak terhingga. Untuk P-Norm model ukuran kesamaan antara dokumen dan query didefinisikan sebagai berikut Savoy, 1993: �����, � ��� � = � � 1 � � �1 � + � 2 � � �2 � + …+ � � � � � � � 1 � + � 1 � + …+ � 1 � � 1 � 14 �����, � ��� � � = 1 − � � 1 � 1 −� �1 � + � 2 � 1 −� �2 � + …+ � � � 1 −� � � � 1 � + � 1 � + …+ � 1 � � 1 � 15 Dengan: • Persamaan 13 merupakan persamaan untuk query OR. • Persamaan 14 merupakan persamaan untuk query AND. • a,b merupakan query term berbobot. • d A , d B merupakan bobot term A dan term B pada dokumen. • 1 ≤ p ≤ ∞. Perhitungan ukuran kesamaan dalam EBM menggunakan persamaan berikut Savoy, 1993: Tabel 2. 11 Tabel persamaan perhitungan ukuran kesamaan dalam EBM Query Retrieval Status Value RSV A OR p B �� �� � + � �� � � � A AND p B 1 − � 1 − � �� � + 1 − � �� � � � NOT A 1 – W ia Dimana : • p adalah nilai p-norm yang dimasukkan pada query. • W ia adalah bobot istilah A dalam indeks pada dokumen D i . • W ib adalah bobot istilah B dalam indeks pada dokumen D i . • n adalah jumlah kata yang dihubungkan menggunakan operator. Nilai P-Norm yang umum digunakan adalah 2. Pemberian peringkat dilakukan dengan cara mengurutkan nilai yang didapat dokumen dari perhitungan RSV retrieval status value pada tabel 2.11.

2.10. Probabilistic Model