Latar Belakang Peringkasan Teks Otomatis Dokumen Bahasa Indonesia Dengan Algoritma Genetika.

1 BAB I PENDAHULUAN

1.1 Latar Belakang

Membaca adalah salah satu aktifitas yang dilakukan oleh seseorang untuk mendapatkan intisari dari sebuah teks, misalnya teks berita. Untuk mendapatkan intisari dari sebuah teks biasanya seseorang harus membaca seluruh isi teks yang ada. Namun, pada kenyatannya hanya dengan membaca ringkasan seseorang dapat memperoleh intisari dari teks tersebut. Membaca dan memahami keseluruhan teks membutuhkan waktu yang cukup lama. Oleh karena itu, ringkasan teks sangat penting untuk mengatasi masalah waktu baca tersebut. Akan tetapi, untuk membuat sebuah ringkasan membutuhkan biaya dan waktu pula. Sehingga, diperlukan sebuah sistem yang dapat melakukan peringkasan teks secara otomatis agar proses lebih efisien. Peringkasan teks otomatis automatic text summarization atau ATS adalah teknik pembuatan ringkasan dari sebuah teks secara otomatis dengan memanfaatkan aplikasi yang dijalankan pada komputer untuk menghasilkan informasi yang paling penting dari dokumen aslinya Zaman and Winarko 2011. Banyaknya kalimat hasil peringkasan teks tersebut tidak lebih dari 50 dokumen asalnya Radev and McKeown 2002. Terdapat dua bagian dari kriteria peringkasan teks yaitu ekstraksi dan abstraksi Suanmali et al, 2009. Teknik ekstraksi yaitu teknik peringkasan secara lengkap yang terdiri dari urutan-urutan kalimat yang disalin dan memilih bagian- bagian kalimat penting dari dokumen asli. Sedangkan teknik abstraksi adalah teknik peringkasan dengan mengambil informasi penting dari dokumen kemudian menghasilkan ringkasan dengan menciptakan kalimat baru yang merepresentasikan intisari dari dokumen tersebut. Pada umumnya abstraksi dapat meringkas teks lebih kuat daripada ekstraksi, tetapi state-of-the-art teknik abstraksi masih lemah dan teknik abstraksi mengaplikasikan teknologi natural 2 language generation yang merupakan bahasan yang dikembangkan tersendiri. Sehingga, sebagian besar penelitian saat ini difokuskan pada teknik ekstraksi. Dalam metode ekstraksi, tingkat kompresi merupakan faktor penting yang digunakan untuk menentukan rasio antara panjang ringkasan dan teks asli. Dengan meningkatnya tingkat kompresi, ringkasan akan lebih besar dan lebih banyak mengandung konten yang tidak signifikan. Sedangkan, jika tingkat kompresi menurun ringkasan menjadi pendek dan lebih banyak informasi yang hilang. Menurut Yeh et al dalam Suanmali et al 2009 ketika tingkat kompresi 5-30 kualitas ringkasan dapat diterima. Dari penelitian yang dilakukan Aristoteles dkk 2012 dengan tingkat kompresi 10, 20 dan 30 menunjukkan bahwa nilai akurasi tertinggi terdapat pada tingkat kompresi 30. Oleh karena itu penelitian ini menggunakan tingkat kompresi 30 dari dokumen asli. Peringkasan teks menggunakan teknik ekstraksi memiliki beberapa bagian penting dalam proses peringkasan yaitu bagaimana cara menentukan kalimat- kalimat yang penting dalam sebuah dokumen. Salah satu caranya dapat menggunakan beberapa fitur ekstraksi teks seperti posisi kalimat, koneksi antar kalimat, kalimat positif, dan sebagainya. Menurut Aristoteles dkk 2012, dari sebelas fitur kalimat yang digunakan yaitu: posisi kalimat, keyword positif, keyword negatif, kemiripan antar kalimat, kalimat yang menyerupai judul, kalimat yang mengandung nama entiti, kalimat yang mengandung nama numerik, panjang kalimat, koneksi antar kalimat, penjumlahan bobot koneksi antar kalimat dan cosine similarity ada empat fitur yang sudah merepresentasikan sebelas fitur lainnya dalam peringkasan teks. Empat fitur tersebut adalah fitur keyword positif, kesamaan dengan kalimat lain, kesamaan kalimat dengan judul, dan cosine similarity. Selain itu waktu komputasi untuk keempat fitur tersebut lebih singkat daripada komputasi sebelas fitur Aristoteles dkk, 2012. Tiap-tiap fitur ekstraksi teks tersebut memiliki tingkat pengaruh yang berbeda-beda terhadap hasil ringkasan sistem. Oleh karena itu dibutuhkan sebuah algoritma optimasi untuk menentukan tingkat kepentingan atau nilai bobot dari tiap-tiap fitur ekstraksi. Salah satu algoritma optimasi yang dapat digunakan adalah algoritma genetika. Pada tugas akhir ini digunakan algoritma genetika 3 untuk melakukan optimasi bobot fitur ekstraksi pada peringkasan teks Bahasa Indonesia dikarenakan permasalahan bobot fitur ekstraksi tersebut dapat direpresentasikan dalam bentuk kromosom. Evaluasi hasil peringkasan teks menggunakan Recall-Oriented Understudy for Gisting Evaluation atau ROUGE Steinberger Jezek, 2009. ROUGE adalah toolkit evaluasi oleh Lin 2004 yang telah menjadi standar untuk evaluasi peringkasan otomatis. ROUGE membandingkan ringkasan yang dihasilkan oleh program dengan ringkasan yang dihasilkan manusia. Evaluasi dilakukan dengan menggunakan peraturan ROUGE n-gram. Menurut Suanmali et al 2009, ROUGE-1 memiliki korelasi tertinggi dengan penilaian manusia dengan tingkat kepercayaan 95. Hal ini menyatakan bahwa ROUGE-1 secara konsisten sangat berkorelasi dengan penilaian manusia.

1.2 Rumusan Masalah