Perhitungan peringkat pada model ini dilakukan menggunakan persamaan pada probability ranking principle.
2.10.1. Probability Ranking Principle PRP
Probability Ranking Principle PRP merepresentasikan penilaian
teoritis dari model probabilistik. Asumsi yang dipakai oleh PRP dalam memberikan ranking sebuah dokumen tidak adanya kaitan antara dokumen
yang satu dengan dokumen yang lain. Tetapi, dengan mengingat karakteristik IR yang bersifat partial match dan relevant information, IR
yang sempurna sulit dilakukan. PRP menyatakan bahwa sistem IR optimal tercapai ketika dokumen diurutkan menurun menurut angka kemungkinan
relevansi, dimana angka kemungkinan relevansi dihitung dengan melibatkan semua data yang terlibat. Secara prinsip, Rijsbergen
menyatakan PRP sebagai berikut: “Jika respon yang diberikan dari suatu sistem IR terhadap setiap query adalah ranking dari dokumen dalam
urutan relevansi yang menurun, dimana kemungkinan telah diperhitungkan seakurat mungkin, maka secara umum efektifitas telah dicapai” van
Rijsbergen, 1979. Perhitungan kemiripan dokumen dengan query dapat dihitung
menggunakan persamaan sebagai berikut: �����
�
, �� =
��|�
�
����⃗ ���|�
�
����⃗
17
Dimana: •
R merupakan kumpulan dokumen yang relevan terhadap query q.
• �� merupakan kumpulan dokumen yang tidak relevan terhadap query
q. •
��|�
�
���⃗ merupakan probabilitas dimana d
j
relevan terhadap query q. •
���|�
�
���⃗ merupakan probabilitas dimana d
j
tidak relevan terhadap query
q. Dengan mengaplikasikan teori Bayes pada persamaan
perhitungan kemiripan pada model ini, maka persamaan perhitungan kemiripan dapat dituliskan menjadi:
�����
�
, �� =
��
�
����⃗|�,�×��,� ��
�
����⃗|��,�×���,�
~
��
�
����⃗|�,� ��
�
����⃗|��,�
18 Dimana:
• ��
�
���⃗|�, � merupakan probabilitas dari terpilihnya dokumen d
j
secara acak dari kumpulan dokumen relevan R.
• ��, � merupakan probabilitas dari terpilihnya dokumen secara acak
dari koleksi dokumen yang relevan terhadap query q. •
���
�
���⃗���, �� dan ���,� merupakan pembanding dan pelengkap.
Pada probabilistic model, bobot w
i,j
yang digunakan adalah biner, yaitu hanya bernilai 1 dan 0. Dengan menggunakan bobot biner, maka
persamaan perhitungan kemiripan dapat dirumuskan dalam bentuk lain menjadi:
�����
�
, �� ~
�∏ ��
�
| �,�
��|��,� =1
�×�∏ ��̅
�
| �,�
��|��,� =0
� �∏
��
�
| ��,�
��|��,� =1
�×�∏ ��̅
�
| ��,�
��|��,� =0
�
19 Dimana:
• ��
�
| �, � merupakan probabilitas term t
i
terdapat pada dokumen yang terambil secara acak dari kumpulan dokumen relevan R.
• ��̅
�
| �, � merupakan probabilitas term t
i
tidak terdapat pada dokumen yang terambil secara acak dari kumpulan dokumen relevan
R. Berdasarkan pada teori peluang, maka
�� + ��̅ = 1 dapat diterapkan untuki menyederhanakan persamaan perhitungan kemiripan.
Perumpamaan berikut dapat dipakai dalam penyederhanaan persamaan perhitungan kemiripan.
P
i
R = ��
�
| �, �, q
i
R = ��
�
| ��, �,
��
�
| �, � + ��
�
| ��, � =1, ��
�
| ��, � + ��̅
�
| ��, � =1 20
Persamaan perhitungan kemiripan dapat dituliskan kembali menjadi:
�����
�
, ��~
�∏ �
�
�
��|��,� =1
�×�∏ 1
−�
�
�
��|��,� =0
� �∏
�
�
�
��|��,� =1
�×�∏ 1
−�
�
�
��|��,� =0
�
21 Jika dirubah menjadi bentuk logaritma, persamaan diatas dapat
dituliskan menjadi:
�����
�
, ��~ log � �
�
�
�
�
| �
�,�
=1
+ log � 1 − �
�
�
�
�
| �
�,�
=0
−
log ∏
�
�
�
�
�
| �
�,�
=1
− log ∏ 1
− �
�
�
�
�
| �
�,�
=0
22 Persamaan tersebut merupakan fungsi untuk semua indek term
dan tidak bergantung pada dokumen d
j
. Persamaan ini menjadi sebuah
tetapan untuk query q yang diberikan dan dapat diabaikan untuk tujuan menghitung peringkat relevan.
Dengan mengasumsikan ∀ �
�
∉ �, �
�
� = �
�
� dan mengkonversi persamaan logaritma menjadi total logaritma, maka persamaan perhitungan mengalami perubahan menjadi:
�����
�
, ��~ Σ
t
i
∈ q ⋀ t
i
∈ d
j
log
�
�
� 1
−�
�
�
+ log
�
�
� 1
− �
�
�
23 Persamaan ini menjadi dasar untuk melakukan proses perhitungan
peringkat pada probabilistic model. Dengan menghitung nilai balik relevansinya, dapat dibuat sebuah tabel kesimpulan contingency table,
yaitu: Tabel 2. 12 Contingency Table Baeza-Yates dan Ribeiro-Neto, 2011
relevan Tidak relevan Semua dokumen Dokumen yang mengandung t
i
r
i
n
i
- r
i
n
i
Dokumen yang tidak mengandung t
i
R - r
i
N - n
i
- R - r
i
N - n
i
Semua dokumen R
N – R N
Dimana, •
N merupakan total dokumen dari koleksi.
• n
i
merupakan jumlah dokumen yang mengandung t
i
. •
R merupakan jumlah dokumen yang relevan pada query q.
• r
i
merupakan jumlah dokumen relevan yang mengandung t
i
. Berdasarkan pada tabel kontingensi, untuk query q yang diberikan
dan tersedianya informasi variabel pada tabel kontingensi, maka dapat dituliskan persamaan perhitungan untuk P
i
R dan q
i
R menjadi sebagai
berikut: �
�
� =
�
�
�
, �
�
� =
�
�
− �
�
�−�
24 Persamaan untuk menghitung peringkat pada probabilistic model dapat
dirubah menjadi persamaan lain yang sebangun. Persamaan tersebut dapat dituliskan menjadi:
��� ��
�
, ��~ ∑
log �
�
�
�− �
�
×
�− �
�
− �+ �
�
�
�
− �
�
�
�
�
[ �,�
�
]
25 Dimana
�
�
��, �
�
� merupakan penyederhanaan dari t
i
∈ q ⋀ t
i
∈ d
j
. Pada persamaan sebelumnya, perhitungan masih bergantung pada
estimasi dokumen relevan dengan query q. Untuk menangani nilai r
i
yang kecil, maka ditambahkan konstanta 0.5 untuk masing – masing istilah.
Persamaan ini dianggap sebagai perhitungan peringkat yang klasik, dan persamaan ini dikenal sebagai persamaan Robertson-Sparck Jones. Untuk
menghindari estimasi dari r
i
dan R, maka diasumsikan bahwa R = r
i
= 0, maka persamaan akan menghasilkan idf seperti pada perhitungan
peringkat. Dengan tidak adanya informasi tentang relevansi, maka persamaan berikut dapat dipakai untuk menghitung bobot sementara dalam
probabilistic model .
��� ��
�
, ��~ ∑
log �
�− �
�
+ 0.5 �
�
+ 0.5
�
�
�
[ �,�
�
]
26 Perhitungan menggunakan persamaan diatas memungkinkan
untuk menghasilkan nilai negatif ketika n
i
N2 . Sebagai contoh, akan
dilakukan perhitungan peringkat untuk query “to do” pada 4 dokumen d
1
, d
2
, d
3
, d
4
yang dapat dilihat pada gambar 2.8 Baeza-Yates dan Ribeiro- Neto, 2011.
Gambar 2. 6 Contoh perhitungan peringkat menggunakan persamaan 26 Pada contoh dalam gambar 2. 7, perhitungan menghasilkan nilai
negatif dikarenakan istilah “do” mempunyai nilai n
i
lebih besar dari nilai N2
. Untuk menghindari nilai negatif pada perhitungan, maka persamaan sebelumnya dapat dirubah menjadi:
��� ��
�
, ��~ ∑
log �
�+ 0.5 �
�
+ 0.5
�
�
�
[ �,�
�
]
27 Dengan menggunakan persamaan yang baru, istilah yang muncul
dalam semua dokumen n
i
= N akan menghasilkan bobot bernilai 0.
Contoh pada gambar 2.7 akan dihitung kembali menggunakan persamaan 27 dengan dokumen dan query yang sama. Hasil perhitungan ini
menunjukkan pengurutan berdasarkan bobot dokumen dan menghilangkan
nilai negatif. Perhitungan tersebut dapat dilihat pada gambar 2.8Baeza- Yates dan Ribeiro-Neto, 2011.
Gambar 2. 7 Contoh perhitungan peringkat menggunakan persamaan 27 Perhitungan pada gambar 2.8 bernilai sama dengan persamaan
menghitung idf suatu istilah, dengan menghitung log dari jumlah dokumen dibagi dengan jumlah isitilah yang terdapat pada dokumen relevan.
Persamaan 27 digunakan untuk menginisialisasi bobot. Setelah inisialisasi bobot tersebut, maka relevansi semantara tiap dokumen dapat
diketahui. Dokumen yang dianggap relevan biasanya adalah dokumen yang nilainya melebihi angka tertentu, umumnya angka tersebut diisi
dengan nilai 0,5 Taufik Ramadhany,2008. Pengurutan dokumen kemudian dilakukan dengan memanfaatkan contigency table dan
persamaan 25. Dokumen yang memliki bobot yang lebih besar akan ditempatkan pada urutan atas. Untuk dokumen yang memiliki bobot yang
sama, akan diurutkan berdasarkan nilai idf bobot sementara dokumen, semakin tinggi nilai idf urutan dokumen akan semakin di atas.
2.11. Algoritma Evaluasi: