Kalimat Peringkasan Teks Otomatis Dokumen Bahasa Indonesia Dengan Algoritma Genetika.

7 BAB II TINJAUAN PUSTAKA

2.1 Peringkasan Teks Otomatis

Peringkasan teks otomatis adalah proses mengurangi teks pada dokumen dengan menggunakan program komputer untuk membuat ringkasan yang berisikan poin-poin penting dimana hasil ringkasan tidak lebih dari setengah dokumen asli Radev et al, 2002. Terdapat dua bagian dari kriteria peringkasan teks yaitu ekstraksi dan abstraksi Suanmali et al, 2009. Teknik ekstraksi yaitu teknik peringkasan secara lengkap yang terdiri dari urutan-urutan kalimat yang disalin dan memilih bagian-bagian kalimat penting dari dokumen asli. Sedangkan teknik abstraksi adalah teknik peringkasan dengan mengambil informasi penting dari dokumen kemudian menghasilkan ringkasan yang menggunakan kalimat baru yang tidak terdapat pada dokumen asli.

2.2 Kalimat

Kalimat adalah satuan bahasa terkecil yang merupakan kesatuan pikiran. Kalimat dapat dibedakan menjadi bahasa lisan dan bahasa tulis. Dalam bahasa lisan, kalimat adalah satuan bahasa yang terbentuk atas gabungan kata dengan kata, gabungan kata dengan frasa, atau gabungan frasa dengan frasa, yang minimal berupa sebuah klausa bebas yang minimal mengandung satu subjek dan predikat. Dalam bahasa tulis, kalimat adalah satuan bahasa yang diawali oleh huruf kapital, diselingi atau tidak diselingi tanda koma ,, titik dua : atau titik koma ; dan diakhiri dengan lambang intonasi final yaitu tanda titik ., tanda tanya ? atau tanda seru . Pada tugas akhir ini, tiap-tiap kalimat yang ada pada dokumen akan dihitung skornya berdasarkan fitur ekstraksi. Skor dari kalimat tersebut akan menentukan apakah kalimat tersebut penting atau tidak. Kalimat yang memiliki skor tinggi kemungkinan merupakan kalimat yang penting dari sebuah dokumen. 8 Pada tugas akhir ini, kalimat dipisahkan berdasarkan tanda titik . dan kutipan langsung diasumsikan sebagai satu kalimat yang tidak dapat dipisahkan. Berikut ini contoh pemisahan kalimat dari sebuah dokumen: Menurut Yudhoyono, soal status almarhum Theys itu dikesampingkan dulu saat ini. Yang penting, pengusutan kematiannya harus tuntas demi keadilan dan kebenaran, papar Yudhoyono yang menyebut almarhum Theys sebagai tokoh. Biarkanlah proses ini berjalan dengan baik, dan nanti dengan transparan dan penjelasan gamblang rakyat akan melihat siapa almarhum Theys itu. Maka lebih bagus, status predikat politik siapa Pak Theys itu kita kesampingkan, tambahnya. Berdasarkan dokumen di atas, sistem akan melakukan pemisahan kalimat berdasarkan titik . dan kutipan langsung. Sehingga dokumen di atas akan menghasilkan tiga buah kalimat. Berikut ini tiga kalimat yang telah dipisahkan: 1. Menurut Yudhoyono, soal status almarhum Theys itu dikesampingkan dulu saat ini. 2. Yang penting, pengusutan kematiannya harus tuntas demi keadilan dan kebenaran, papar Yudhoyono yang menyebut almarhum Theys sebagai tokoh. 3. Biarkanlah proses ini berjalan dengan baik, dan nanti dengan transparan dan penjelasan gamblang rakyat akan melihat siapa almarhum Theys itu. Maka lebih bagus, status predikat politik siapa Pak Theys itu kita kesampingkan, tambahnya.

2.3 Text Preprocessing