OKAPI BM25 Dalam pencarian informasi

OKAPI BM25
Dalam pencarian informasi, Okapi BM25 adalah fungsi peringkat yang digunakan oleh mesin
pencari untuk peringkat dokumen pencocokan sesuai dengan relevansinya dengan permintaan
pencarian tertentu. Hal ini didasarkan pada kerangka pengambilan probabilistik
dikembangkan pada 1970-an dan 1980-an oleh Stephen E. Robertson, Karen Sparck Jones,
dan lain-lain.
Nama fungsi peringkat sebenarnya BM25. Untuk mengatur konteks yang tepat,
bagaimanapun, biasanya disebut sebagai "Okapi BM25", karena informasi Okapi sistem
pengambilan, dilaksanakan di London City University pada tahun 1980 dan 1990-an, adalah
sistem pertama yang mengimplementasikan fungsi ini.
BM25, dan yang lebih baru varian, misalnya BM25F (versi BM25 yang dapat mengambil
struktur dokumen dan teks jangkar ke rekening), mewakili negara-of-the-art TF-IDF-seperti
fungsi pengambilan digunakan dalam pengambilan dokumen, seperti pencarian Web.
BM25 adalah tas-of-kata pencarian fungsi yang peringkat satu set dokumen berdasarkan istilah
permintaan muncul dalam setiap dokumen, terlepas dari hubungan antar-antara istilah permintaan
dalam dokumen (misalnya, kedekatan relatifnya). Ini bukan fungsi tunggal, tetapi sebenarnya seluruh
keluarga mencetak fungsi, dengan komponen yang sedikit berbeda dan parameter. Salah satu yang
paling
menonjol
dari
instantiations

fungsinya
adalah
sebagai
berikut.
Mengingat permintaan Q, yang mengandung kata kunci q_1, ..., q_n, skor BM25 dari D dokumen
adalah:

di mana f (q_i, D) adalah frekuensi istilah q_i dalam dokumen D, | D | adalah panjang D dokumen
dalam kata-kata, dan avgdl adalah panjang rata-rata dokumen dalam koleksi teks dari dokumen yang
diambil. k_1 dan b adalah parameter bebas, biasanya dipilih, dalam ketiadaan optimasi maju, seperti
k_1 \ di [1.2,2.0] dan b = 0,75 [1]. \ text {} IDF (q_i) adalah IDF (frekuensi dokumen invers) berat q_i
jangka query. Hal ini biasanya dihitung sebagai:

di mana N adalah jumlah total dokumen dalam koleksi, dan n (q_i) adalah jumlah dokumen yang
mengandung q_i.
Ada beberapa interpretasi untuk IDF dan sedikit variasi pada formula. Dalam derivasi BM25 asli,
komponen IDF berasal dari Model Kemerdekaan Binary.
Harap dicatat bahwa rumus di atas untuk menunjukkan kelemahan IDF berpotensi besar ketika
menggunakannya untuk istilah yang muncul di lebih dari setengah dari dokumen corpus. Istilahistilah 'IDF adalah negatif, sehingga untuk setiap dua dokumen hampir-identik, salah satu yang berisi
istilah dan satu yang tidak berisi itu, yang terakhir mungkin akan mendapatkan skor yang lebih besar.


Ini berarti bahwa istilah muncul di lebih dari setengah dari corpus akan memberikan kontribusi
negatif terhadap skor dokumen final. Hal ini sering merupakan perilaku yang tidak diinginkan, begitu
banyak aplikasi dunia nyata akan berurusan dengan formula ini IDF dengan cara yang berbeda: Setiap
peubah dapat diberi lantai 0, untuk memangkas tentang ketentuan umum; Fungsi IDF dapat
diberikan lantai sebuah \ konstan epsilon, untuk menghindari istilah umum diabaikan sama sekali;
Fungsi IDF dapat diganti dengan yang berbentuk sama yang non-negatif, atau ketat positif untuk
menghindari hal yang diabaikan sama sekali.