menggunakan aturan context-sensitive dan context-free untuk menransformasi part-of-speech
POS ke dalam pemotongan teks. Penelitian lainnya melakukan analisis dengan menggunakan pendekatan
pelatihan dengan berbasiskan memori. Penelitian ini menghasilkan nilai metrik termodifikasi berbeda yang diaplikasikan ke dalam part-of-speech POS yang
hanya berupa informasi saja mampu bekerja lebih baik. Sistem pemotongan teks yang banyak diimplementasikan adalah yang berbasiskan metode statistik, seperti
model Markov dan machine learning. Sistem kombinasi merupakan kombinasi antara ketiga sistem sebelumnya.
Beberapa contoh dari sistem ini adalah penggunaan Weighted Probability Distribution Voting
WPDV untuk mengombinasikan hasil dari 4 WPDV pemotongan teks dan pemotongan teks yang berbasiskan memori. Performa yang
paling baik dari keseluruhan jenis algoritme pemotongan teks adalah sistem kombinasi yang menggunakan metode support vector machine untuk
menglasifikasi dan memprediksi pasangan-pasangan hasil pemotongan teks yang unik. Hasil dari klasifikasi tersebut akan dikombinasikan dengan algoritme
dynamic programming . Nilai urutan dari teknik tersebut mampu mencapai nilai
93.48 dengan nilai precision 93.45, dan recall 93.51.
2.3. Analisis Frase
Frase merupakan sekumpulan kata benda atau kata kerja yang jika disatukan akan memiliki arti berbeda dengan kata dasarnya. Dengan definisi
tersebut, maka dalam suatu peringkasan teks, frase jangan sampai teringkas karena akan menyebabkan arti yang berbeda. Makna dari hasil peringkasan pun
bisa menjadi tidak mencerminkan isi sesungguhnya dari dokumen tersebut. Phrase Recognizer
merupakan suatu fungsi untuk mencari frase yang memiliki arti dari kalimat x berdasarkan kriteria optimal di bawah ini.
, ,
, ,
| max
arg y
x y
k e
s k
e s
score Y
y x
P y
x ∈
∈ ⊆
= ℜ
Mekanisme analisis frase yang dilakukan oleh Xavier Carreras dan Lluis Marquez 2005 dideskripsikan dengan jika terdapat kalimat x, identifikasi frase y dalam x:
R : X Y. Diasumsikan terdapat dua komponen dalam fungsi ini yang
digunakan untuk pelatihan analisis frase. Pertama diasumsikan dalam fungsi P diberikan kalimat x, identifikasi setiap set kata dalam kalimat tersebut untuk
menjadi kandidat frase dengan mengesampingkan arti kata dari setiap kandidat frase tersebut. Langkah kedua akan memberikan nilai kepada frase-frase yang
memiliki makna dari kalimat.
2.4. Recall and Precision
Temu-kembali informasi mempunyai dua peubah untuk mengukur tingkat
relevansi dari hasil yang ditemu-kembalikan. Recall merupakan peubah yang
digunakan sistem temu-kembali informasi untuk membandingkan dokumen relevan yang ditemu-kembalikan dengan seluruh dokumen relevan dalam koleksi,
sedangkan precision merupakan peubah untuk membandingkan dokumen relevan yang ditemu-kembalikan dengan seluruh dokumen yang telah ditemu-kembalikan
Baeza-Yates Riberio-Neto 1999. Untuk koleksi dokumen yang besar dan tidak terurut dengan baik, kedua
peubah tersebut sulit digunakan. Nilai precision sangat tergantung pada keterurutan dokumen yang ditemu-kembalikan. Semakin terurut dokumen
tersebut, semakin tinggi nilai precision sama dengan satu.
2.5. Pre-proses Dokumen