Bab 2 TINJAUAN PUSTAKA
2.1. Pemotongan Teks
Pemotongan teks merupakan proses pemilahan teks yang secara sintaktik membuat kata yang saling berhubungan menjadi anggota dari frase yang sama
Sang Buchholz 2000. Keanggotan hasil pemotongan teks hanya dapat dimiliki oleh satu anggota pemotongan teks, sehingga hasil pemotongan teks tidak bisa
saling overlap. Berikut ini adalah representasi pemotongan teks pada sebuah kalimat.
[NP Petani] [VP menggunakan] [NP orang-orangan sawah] [PP sebagai] [NP pengusir] [NP hama]
Pemotongan teks direpresentasikan sebagai sekumpulan kata di dalam tanda kurung. Kata setelah tanda kurung buka merupakan tipe pemotongan teks. Tipe-
tipe pemotongan teks dapat didefinisikan sebagai berikut: 1.
NP Kata Benda 2.
VP Kata Kerja 3.
ADVP Kata Keterangan dan ADJP Kata Sifat 4.
PP Kata Sambung
2.2. Jenis Sistem Pemotongan Teks
Berbagai jenis sistem pemotongan teks yang sudah diimplementasikan menghasilkan beberapa hasil yang berbeda Sang Buchholz 2000. Algoritme
pemotongan teks ini dibagi ke dalam 4 kelompok: 1.
Sistem berbasiskan aturan rules 2.
Sistem berbasiskan memori 3.
Sistem statistik 4.
Sistem kombinasi Sistem yang berbasiskan aturan-aturan rules telah diimplementasikan
dengan banyak cara, salah satunya yang menghasilkan hasil yang paling baik adalah aplikasi yang menggunakan aturan-aturan transformation-based. Sistem
berbasiskan aturan yang paling banyak dikembangkan adalah sistem yang
menggunakan aturan context-sensitive dan context-free untuk menransformasi part-of-speech
POS ke dalam pemotongan teks. Penelitian lainnya melakukan analisis dengan menggunakan pendekatan
pelatihan dengan berbasiskan memori. Penelitian ini menghasilkan nilai metrik termodifikasi berbeda yang diaplikasikan ke dalam part-of-speech POS yang
hanya berupa informasi saja mampu bekerja lebih baik. Sistem pemotongan teks yang banyak diimplementasikan adalah yang berbasiskan metode statistik, seperti
model Markov dan machine learning. Sistem kombinasi merupakan kombinasi antara ketiga sistem sebelumnya.
Beberapa contoh dari sistem ini adalah penggunaan Weighted Probability Distribution Voting
WPDV untuk mengombinasikan hasil dari 4 WPDV pemotongan teks dan pemotongan teks yang berbasiskan memori. Performa yang
paling baik dari keseluruhan jenis algoritme pemotongan teks adalah sistem kombinasi yang menggunakan metode support vector machine untuk
menglasifikasi dan memprediksi pasangan-pasangan hasil pemotongan teks yang unik. Hasil dari klasifikasi tersebut akan dikombinasikan dengan algoritme
dynamic programming . Nilai urutan dari teknik tersebut mampu mencapai nilai
93.48 dengan nilai precision 93.45, dan recall 93.51.
2.3. Analisis Frase