Probability Ranking Principle PRP

Perhitungan peringkat pada model ini dilakukan menggunakan persamaan pada probability ranking principle.

2.10.1. Probability Ranking Principle PRP

Probability Ranking Principle PRP merepresentasikan penilaian teoritis dari model probabilistik. Asumsi yang dipakai oleh PRP dalam memberikan ranking sebuah dokumen tidak adanya kaitan antara dokumen yang satu dengan dokumen yang lain. Tetapi, dengan mengingat karakteristik IR yang bersifat partial match dan relevant information, IR yang sempurna sulit dilakukan. PRP menyatakan bahwa sistem IR optimal tercapai ketika dokumen diurutkan menurun menurut angka kemungkinan relevansi, dimana angka kemungkinan relevansi dihitung dengan melibatkan semua data yang terlibat. Secara prinsip, Rijsbergen menyatakan PRP sebagai berikut: “Jika respon yang diberikan dari suatu sistem IR terhadap setiap query adalah ranking dari dokumen dalam urutan relevansi yang menurun, dimana kemungkinan telah diperhitungkan seakurat mungkin, maka secara umum efektifitas telah dicapai” van Rijsbergen, 1979. Perhitungan kemiripan dokumen dengan query dapat dihitung menggunakan persamaan sebagai berikut: �� , �� = ��|� � ��⃗ ��|� � ��⃗ 17 Dimana: • R merupakan kumpulan dokumen yang relevan terhadap query q. • �� merupakan kumpulan dokumen yang tidak relevan terhadap query q. • ��|� � ��⃗ merupakan probabilitas dimana d j relevan terhadap query q. • ��|� � ��⃗ merupakan probabilitas dimana d j tidak relevan terhadap query q. Dengan mengaplikasikan teori Bayes pada persamaan perhitungan kemiripan pada model ini, maka persamaan perhitungan kemiripan dapat dituliskan menjadi: �� , �� = �� ⃗|�,�×��,� �� ⃗|��,�×��,� ~ �� ⃗|�,� �� ⃗|��,� 18 Dimana: • �� ⃗|�, � merupakan probabilitas dari terpilihnya dokumen d j secara acak dari kumpulan dokumen relevan R. • ��, � merupakan probabilitas dari terpilihnya dokumen secara acak dari koleksi dokumen yang relevan terhadap query q. • �� ⃗��, �� dan ��,� merupakan pembanding dan pelengkap. Pada probabilistic model, bobot w i,j yang digunakan adalah biner, yaitu hanya bernilai 1 dan 0. Dengan menggunakan bobot biner, maka persamaan perhitungan kemiripan dapat dirumuskan dalam bentuk lain menjadi: �� , �� ~ �∏ �� | �,� ��|��,� =1 �×�∏ ��̅ � | �,� ��|��,� =0 � �∏ �� | ��,� ��|��,� =1 �×�∏ ��̅ � | ��,� ��|��,� =0 � 19 Dimana: • �� | �, � merupakan probabilitas term t i terdapat pada dokumen yang terambil secara acak dari kumpulan dokumen relevan R. • ��̅ � | �, � merupakan probabilitas term t i tidak terdapat pada dokumen yang terambil secara acak dari kumpulan dokumen relevan R. Berdasarkan pada teori peluang, maka �� + ��̅ = 1 dapat diterapkan untuki menyederhanakan persamaan perhitungan kemiripan. Perumpamaan berikut dapat dipakai dalam penyederhanaan persamaan perhitungan kemiripan. P i R = �� | �, �, q i R = �� | ��, �, �� | �, � + �� | ��, � =1, �� | ��, � + ��̅ � | ��, � =1 20 Persamaan perhitungan kemiripan dapat dituliskan kembali menjadi: �� , ��~ �∏ � � � ��|��,� =1 �×�∏ 1 −� � � ��|��,� =0 � �∏ � � � ��|��,� =1 �×�∏ 1 −� � � ��|��,� =0 � 21 Jika dirubah menjadi bentuk logaritma, persamaan diatas dapat dituliskan menjadi: �� , ��~ log � � � � � � | � �,� =1 + log � 1 − � � � � � | � �,� =0 − log ∏ � � � � � | � �,� =1 − log ∏ 1 − � � � � � | � �,� =0 22 Persamaan tersebut merupakan fungsi untuk semua indek term dan tidak bergantung pada dokumen d j . Persamaan ini menjadi sebuah tetapan untuk query q yang diberikan dan dapat diabaikan untuk tujuan menghitung peringkat relevan. Dengan mengasumsikan ∀ � � ∉ �, � � � = � � � dan mengkonversi persamaan logaritma menjadi total logaritma, maka persamaan perhitungan mengalami perubahan menjadi: �� , ��~ Σ t i ∈ q ⋀ t i ∈ d j log � � � 1 −� � � + log � � � 1 − � � � 23 Persamaan ini menjadi dasar untuk melakukan proses perhitungan peringkat pada probabilistic model. Dengan menghitung nilai balik relevansinya, dapat dibuat sebuah tabel kesimpulan contingency table, yaitu: Tabel 2. 12 Contingency Table Baeza-Yates dan Ribeiro-Neto, 2011 relevan Tidak relevan Semua dokumen Dokumen yang mengandung t i r i n i - r i n i Dokumen yang tidak mengandung t i R - r i N - n i - R - r i N - n i Semua dokumen R N – R N Dimana, • N merupakan total dokumen dari koleksi. • n i merupakan jumlah dokumen yang mengandung t i . • R merupakan jumlah dokumen yang relevan pada query q. • r i merupakan jumlah dokumen relevan yang mengandung t i . Berdasarkan pada tabel kontingensi, untuk query q yang diberikan dan tersedianya informasi variabel pada tabel kontingensi, maka dapat dituliskan persamaan perhitungan untuk P i R dan q i R menjadi sebagai berikut: � � � = � � � , � � � = � � − � � �−� 24 Persamaan untuk menghitung peringkat pada probabilistic model dapat dirubah menjadi persamaan lain yang sebangun. Persamaan tersebut dapat dituliskan menjadi: �� , ��~ ∑ log � � � �− � � × �− � � − �+ � � � � − � � � � � [ �,� � ] 25 Dimana � � ��, � � � merupakan penyederhanaan dari t i ∈ q ⋀ t i ∈ d j . Pada persamaan sebelumnya, perhitungan masih bergantung pada estimasi dokumen relevan dengan query q. Untuk menangani nilai r i yang kecil, maka ditambahkan konstanta 0.5 untuk masing – masing istilah. Persamaan ini dianggap sebagai perhitungan peringkat yang klasik, dan persamaan ini dikenal sebagai persamaan Robertson-Sparck Jones. Untuk menghindari estimasi dari r i dan R, maka diasumsikan bahwa R = r i = 0, maka persamaan akan menghasilkan idf seperti pada perhitungan peringkat. Dengan tidak adanya informasi tentang relevansi, maka persamaan berikut dapat dipakai untuk menghitung bobot sementara dalam probabilistic model . �� , ��~ ∑ log � �− � � + 0.5 � � + 0.5 � � � [ �,� � ] 26 Perhitungan menggunakan persamaan diatas memungkinkan untuk menghasilkan nilai negatif ketika n i N2 . Sebagai contoh, akan dilakukan perhitungan peringkat untuk query “to do” pada 4 dokumen d 1 , d 2 , d 3 , d 4 yang dapat dilihat pada gambar 2.8 Baeza-Yates dan Ribeiro- Neto, 2011. Gambar 2. 6 Contoh perhitungan peringkat menggunakan persamaan 26 Pada contoh dalam gambar 2. 7, perhitungan menghasilkan nilai negatif dikarenakan istilah “do” mempunyai nilai n i lebih besar dari nilai N2 . Untuk menghindari nilai negatif pada perhitungan, maka persamaan sebelumnya dapat dirubah menjadi: �� , ��~ ∑ log � �+ 0.5 � � + 0.5 � � � [ �,� � ] 27 Dengan menggunakan persamaan yang baru, istilah yang muncul dalam semua dokumen n i = N akan menghasilkan bobot bernilai 0. Contoh pada gambar 2.7 akan dihitung kembali menggunakan persamaan 27 dengan dokumen dan query yang sama. Hasil perhitungan ini menunjukkan pengurutan berdasarkan bobot dokumen dan menghilangkan nilai negatif. Perhitungan tersebut dapat dilihat pada gambar 2.8Baeza- Yates dan Ribeiro-Neto, 2011. Gambar 2. 7 Contoh perhitungan peringkat menggunakan persamaan 27 Perhitungan pada gambar 2.8 bernilai sama dengan persamaan menghitung idf suatu istilah, dengan menghitung log dari jumlah dokumen dibagi dengan jumlah isitilah yang terdapat pada dokumen relevan. Persamaan 27 digunakan untuk menginisialisasi bobot. Setelah inisialisasi bobot tersebut, maka relevansi semantara tiap dokumen dapat diketahui. Dokumen yang dianggap relevan biasanya adalah dokumen yang nilainya melebihi angka tertentu, umumnya angka tersebut diisi dengan nilai 0,5 Taufik Ramadhany,2008. Pengurutan dokumen kemudian dilakukan dengan memanfaatkan contigency table dan persamaan 25. Dokumen yang memliki bobot yang lebih besar akan ditempatkan pada urutan atas. Untuk dokumen yang memiliki bobot yang sama, akan diurutkan berdasarkan nilai idf bobot sementara dokumen, semakin tinggi nilai idf urutan dokumen akan semakin di atas.

Probability Ranking Principle PRP

2.10.1. Probability Ranking Principle PRP

2.11. Algoritma Evaluasi:

Parts

Dokumen yang terkait

Perancangan Email Client Dengan Pengklasifikasian Email Menggunakan Algoritma Vector Space Model

PANEGEMBANGAN SISTEM MANAJEMEN PERUNDANG-UNDANGAN MENGGUNAKAN MODEL PENCARIAN EXTENDED BOOLEAN

Implementasi Metode Vector Space Model (VSM) Untuk Rekomendasi Nilai terhadap Jawaban Essay

Implementasi Metode Generalized Vector Space Model (GVSM) Menggunakan Algoritma Lesk Pada Sistem Temu Kembali

Temu-Kembali Model Extended Boolean Menggunakan P-Norm Model dan Belief Revision

Extended Vector Space Model with Semantic Relatedness on Java Archive Search Engine.

Penggunaan Metode Vector Space Model dal

Boolean and Vector Space Retrieval Models

SISTEM DETEKSI PLAGIARISME DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE VECTOR SPACE MODEL

UJI ALGORITMA PROBABILISTIC MODEL, VECTOR SPACE MODEL, DAN EXTENDED BOOLEAN MODEL PADA SISTEM REKOMENDASI DIFFERENTIAL DIAGNOSE PENYAKIT PARU – PARU

Dukungan

Links

Probability Ranking Principle PRP

2.10.1. Probability Ranking Principle PRP

2.11. Algoritma Evaluasi:

Parts

Dokumen yang terkait

Perancangan Email Client Dengan Pengklasifikasian Email Menggunakan Algoritma Vector Space Model

PANEGEMBANGAN SISTEM MANAJEMEN PERUNDANG-UNDANGAN MENGGUNAKAN MODEL PENCARIAN EXTENDED BOOLEAN

Implementasi Metode Vector Space Model (VSM) Untuk Rekomendasi Nilai terhadap Jawaban Essay

Implementasi Metode Generalized Vector Space Model (GVSM) Menggunakan Algoritma Lesk Pada Sistem Temu Kembali

Temu-Kembali Model Extended Boolean Menggunakan P-Norm Model dan Belief Revision

Extended Vector Space Model with Semantic Relatedness on Java Archive Search Engine.

Penggunaan Metode Vector Space Model dal

Boolean and Vector Space Retrieval Models

SISTEM DETEKSI PLAGIARISME DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE VECTOR SPACE MODEL

UJI ALGORITMA PROBABILISTIC MODEL, VECTOR SPACE MODEL, DAN EXTENDED BOOLEAN MODEL PADA SISTEM REKOMENDASI DIFFERENTIAL DIAGNOSE PENYAKIT PARU – PARU

Dokumen yang Anda mencari sudah siap untuk unduhkan