Analisis Frase Recall and Precision

menggunakan aturan context-sensitive dan context-free untuk menransformasi part-of-speech POS ke dalam pemotongan teks. Penelitian lainnya melakukan analisis dengan menggunakan pendekatan pelatihan dengan berbasiskan memori. Penelitian ini menghasilkan nilai metrik termodifikasi berbeda yang diaplikasikan ke dalam part-of-speech POS yang hanya berupa informasi saja mampu bekerja lebih baik. Sistem pemotongan teks yang banyak diimplementasikan adalah yang berbasiskan metode statistik, seperti model Markov dan machine learning. Sistem kombinasi merupakan kombinasi antara ketiga sistem sebelumnya. Beberapa contoh dari sistem ini adalah penggunaan Weighted Probability Distribution Voting WPDV untuk mengombinasikan hasil dari 4 WPDV pemotongan teks dan pemotongan teks yang berbasiskan memori. Performa yang paling baik dari keseluruhan jenis algoritme pemotongan teks adalah sistem kombinasi yang menggunakan metode support vector machine untuk menglasifikasi dan memprediksi pasangan-pasangan hasil pemotongan teks yang unik. Hasil dari klasifikasi tersebut akan dikombinasikan dengan algoritme dynamic programming . Nilai urutan dari teknik tersebut mampu mencapai nilai 93.48 dengan nilai precision 93.45, dan recall 93.51.

2.3. Analisis Frase

Frase merupakan sekumpulan kata benda atau kata kerja yang jika disatukan akan memiliki arti berbeda dengan kata dasarnya. Dengan definisi tersebut, maka dalam suatu peringkasan teks, frase jangan sampai teringkas karena akan menyebabkan arti yang berbeda. Makna dari hasil peringkasan pun bisa menjadi tidak mencerminkan isi sesungguhnya dari dokumen tersebut. Phrase Recognizer merupakan suatu fungsi untuk mencari frase yang memiliki arti dari kalimat x berdasarkan kriteria optimal di bawah ini. , , , , | max arg y x y k e s k e s score Y y x P y x ∈ ∈ ⊆ = ℜ Mekanisme analisis frase yang dilakukan oleh Xavier Carreras dan Lluis Marquez 2005 dideskripsikan dengan jika terdapat kalimat x, identifikasi frase y dalam x: R : X Y. Diasumsikan terdapat dua komponen dalam fungsi ini yang digunakan untuk pelatihan analisis frase. Pertama diasumsikan dalam fungsi P diberikan kalimat x, identifikasi setiap set kata dalam kalimat tersebut untuk menjadi kandidat frase dengan mengesampingkan arti kata dari setiap kandidat frase tersebut. Langkah kedua akan memberikan nilai kepada frase-frase yang memiliki makna dari kalimat.

2.4. Recall and Precision

Temu-kembali informasi mempunyai dua peubah untuk mengukur tingkat relevansi dari hasil yang ditemu-kembalikan. Recall merupakan peubah yang digunakan sistem temu-kembali informasi untuk membandingkan dokumen relevan yang ditemu-kembalikan dengan seluruh dokumen relevan dalam koleksi, sedangkan precision merupakan peubah untuk membandingkan dokumen relevan yang ditemu-kembalikan dengan seluruh dokumen yang telah ditemu-kembalikan Baeza-Yates Riberio-Neto 1999. Untuk koleksi dokumen yang besar dan tidak terurut dengan baik, kedua peubah tersebut sulit digunakan. Nilai precision sangat tergantung pada keterurutan dokumen yang ditemu-kembalikan. Semakin terurut dokumen tersebut, semakin tinggi nilai precision sama dengan satu.

2.5. Pre-proses Dokumen