Pre-proses Dokumen Pembobotan TINJAUAN PUSTAKA

digunakan untuk pelatihan analisis frase. Pertama diasumsikan dalam fungsi P diberikan kalimat x, identifikasi setiap set kata dalam kalimat tersebut untuk menjadi kandidat frase dengan mengesampingkan arti kata dari setiap kandidat frase tersebut. Langkah kedua akan memberikan nilai kepada frase-frase yang memiliki makna dari kalimat.

2.4. Recall and Precision

Temu-kembali informasi mempunyai dua peubah untuk mengukur tingkat relevansi dari hasil yang ditemu-kembalikan. Recall merupakan peubah yang digunakan sistem temu-kembali informasi untuk membandingkan dokumen relevan yang ditemu-kembalikan dengan seluruh dokumen relevan dalam koleksi, sedangkan precision merupakan peubah untuk membandingkan dokumen relevan yang ditemu-kembalikan dengan seluruh dokumen yang telah ditemu-kembalikan Baeza-Yates Riberio-Neto 1999. Untuk koleksi dokumen yang besar dan tidak terurut dengan baik, kedua peubah tersebut sulit digunakan. Nilai precision sangat tergantung pada keterurutan dokumen yang ditemu-kembalikan. Semakin terurut dokumen tersebut, semakin tinggi nilai precision sama dengan satu.

2.5. Pre-proses Dokumen

Pre-proses dokumen merupakan sekumpulan proses operasi teks yang merupakan inisialisasi awal dari proses implementasi sistem temu-kembali informasi Baeza-Yates Riberio-Note 1999. Proses operasi teks tersebut dapat dibagi ke dalam lima proses utama, yang pertama dilakukan adalah analisis leksikal terhadap dokumen. Analisis leksikal adalah analisis penggunaan terhadap karakter angka, tanda kutip, tanda penghubung, dan penggunaan huruf besar dan kecil. Tahap yang kedua adalah proses penghilangan kata buang. Contoh dari kata buang ini adalah nanti, sehingga, sementara, dan lain-lain. Tahap yang ketiga yang merupakan tahap opsional, karena tidak setiap proses temu-kembali memerlukan tahap ini, yaitu proses stemming. Proses stemming ini merupakan proses pembentukan kata dasar dari kata berimbuhan dan bersisipan. Proses selanjutnya adalah melakukan pengindeksan untuk kata-kata yang telah melewati proses penghilangan kata buang dan stemming. Pada tahap ini juga akan dianalisis kesemantikan dari suatu kata. Tahap terakhir adalah melakukan pengkategorisasian kata atau istilah dari hasil pemrosesan pada tahap-tahap sebelumnya.

2.6. Pembobotan

Pembobotan istilahkata dalam sistem temu kembali informasi digunakan untuk menghitung bobot dari suatu istilahkata, baik yang terdapat dalam dokumen, maupun dalam kueri Baeza-Yates Riberio-Note 1999. Hasil dari pembobotan ini dapat digunakan untuk melakukan pemeringkatan istilahkata yang sering muncul dalam suatu kluster dokumen pelatihan, sehingga hasil pencarian berdasarkan kueri yang diketikkan dapat tertemu-kembalikan secara berurut dari yang paling relevan nilai pembobotan tertinggi sampai ke yang kurang relevan dari sisi sistem. Dengan menggunakan pembobotan istilahkata, penemuan kembali informasi yang relevan dengan kueri menjadi lebih akurat. Terdapat dua langkah untuk menghitung bobot suatu istilahkata. Langkah pertama adalah penghitungan term frequency tf, yaitu penghitungan frekuensi kemunculan suatu istilahkata dalam cluster dokumen pelatihan, dengan rumus: tf t,d = occt,d occtmax,d, dengan occt,d adalah kemunculan istilahkata t dalam dokumen d, dan occ tmax,d merepresentasikan kemunculan kataistilah tertinggi dalam dokumen d . Langkah kedua adalah penghitungan inverse document frequency idf, yaitu mengukur inverse frekuensi suatu kataistilah yang terdapat pada dokumen di dalam koleksi pelatihan cluster document. Hal ini dilakukan dengan pertimbangan suatu kataistilah yang sering muncul pada banyak dokumen dalam koleksi, tidak dapat digunakan untuk membedakan dokumen yang relevan dengan yang tidak relevan. Penghitungan idf dilakukan dengan rumus: idf t,d = log N nt, dengan N adalah banyak dokumen dalam koleksi, dan nt adalah banyak dokumen dalam koleksi yang memiliki kataistilah t. Setelah mendapatkan nilai tf dan idf, kemudian dilakukan penghitungan pembobotan istilahkata weight, yaitu: weight t,d = tft,d idft, dengan weightt,d adalah bobot kataistilah t dalam dokumen d Salton McGill 1983.

2.7. Stemming