digunakan untuk pelatihan analisis frase. Pertama diasumsikan dalam fungsi P diberikan kalimat x, identifikasi setiap set kata dalam kalimat tersebut untuk
menjadi kandidat frase dengan mengesampingkan arti kata dari setiap kandidat frase tersebut. Langkah kedua akan memberikan nilai kepada frase-frase yang
memiliki makna dari kalimat.
2.4. Recall and Precision
Temu-kembali informasi mempunyai dua peubah untuk mengukur tingkat
relevansi dari hasil yang ditemu-kembalikan. Recall merupakan peubah yang
digunakan sistem temu-kembali informasi untuk membandingkan dokumen relevan yang ditemu-kembalikan dengan seluruh dokumen relevan dalam koleksi,
sedangkan precision merupakan peubah untuk membandingkan dokumen relevan yang ditemu-kembalikan dengan seluruh dokumen yang telah ditemu-kembalikan
Baeza-Yates Riberio-Neto 1999. Untuk koleksi dokumen yang besar dan tidak terurut dengan baik, kedua
peubah tersebut sulit digunakan. Nilai precision sangat tergantung pada keterurutan dokumen yang ditemu-kembalikan. Semakin terurut dokumen
tersebut, semakin tinggi nilai precision sama dengan satu.
2.5. Pre-proses Dokumen
Pre-proses dokumen merupakan sekumpulan proses operasi teks yang merupakan inisialisasi awal dari proses implementasi sistem temu-kembali
informasi Baeza-Yates Riberio-Note 1999. Proses operasi teks tersebut dapat dibagi ke dalam lima proses utama, yang pertama dilakukan adalah analisis
leksikal terhadap dokumen. Analisis leksikal adalah analisis penggunaan terhadap karakter angka, tanda kutip, tanda penghubung, dan penggunaan huruf besar dan
kecil. Tahap yang kedua adalah proses penghilangan kata buang. Contoh dari kata
buang ini adalah nanti, sehingga, sementara, dan lain-lain. Tahap yang ketiga yang merupakan tahap opsional, karena tidak setiap proses temu-kembali
memerlukan tahap ini, yaitu proses stemming. Proses stemming ini merupakan proses pembentukan kata dasar dari kata berimbuhan dan bersisipan.
Proses selanjutnya adalah melakukan pengindeksan untuk kata-kata yang telah melewati proses penghilangan kata buang dan stemming. Pada tahap ini juga
akan dianalisis kesemantikan dari suatu kata. Tahap terakhir adalah melakukan pengkategorisasian kata atau istilah dari hasil pemrosesan pada tahap-tahap
sebelumnya.
2.6. Pembobotan
Pembobotan istilahkata dalam sistem temu kembali informasi digunakan untuk menghitung bobot dari suatu istilahkata, baik yang terdapat dalam
dokumen, maupun dalam kueri Baeza-Yates Riberio-Note 1999. Hasil dari pembobotan ini dapat digunakan untuk melakukan pemeringkatan istilahkata
yang sering muncul dalam suatu kluster dokumen pelatihan, sehingga hasil pencarian berdasarkan kueri yang diketikkan dapat tertemu-kembalikan secara
berurut dari yang paling relevan nilai pembobotan tertinggi sampai ke yang kurang relevan dari sisi sistem. Dengan menggunakan pembobotan istilahkata,
penemuan kembali informasi yang relevan dengan kueri menjadi lebih akurat. Terdapat dua langkah untuk menghitung bobot suatu istilahkata. Langkah
pertama adalah penghitungan term frequency tf, yaitu penghitungan frekuensi kemunculan suatu istilahkata dalam cluster dokumen pelatihan, dengan rumus:
tf t,d = occt,d occtmax,d,
dengan occt,d adalah kemunculan istilahkata t dalam dokumen d, dan occ
tmax,d merepresentasikan kemunculan kataistilah tertinggi dalam dokumen d
. Langkah kedua adalah penghitungan inverse document frequency idf, yaitu
mengukur inverse frekuensi suatu kataistilah yang terdapat pada dokumen di dalam koleksi pelatihan cluster document. Hal ini dilakukan dengan
pertimbangan suatu kataistilah yang sering muncul pada banyak dokumen dalam koleksi, tidak dapat digunakan untuk membedakan dokumen yang relevan dengan
yang tidak relevan. Penghitungan idf dilakukan dengan rumus: idf
t,d = log N nt, dengan N adalah banyak dokumen dalam koleksi, dan nt adalah banyak
dokumen dalam koleksi yang memiliki kataistilah t. Setelah mendapatkan nilai tf
dan idf, kemudian dilakukan penghitungan pembobotan istilahkata weight, yaitu:
weight t,d = tft,d idft,
dengan weightt,d adalah bobot kataistilah t dalam dokumen d Salton McGill 1983.
2.7. Stemming