Fitur Keyword Positif F1 Fitur Kemiripan Antar-Kalimat F2

13

2.4 Fitur Ekstraksi Teks

Pada tugas akhir ini menggunakan fitur ekstraksi untuk menghitung skor tiap-tiap kalimat dalam dokumen. Untuk setiap kalimat dalam dokumen, skor kalimat dihitung berdasarkan fitur ekstraksi dimana nilai dari tiap-tiap fitur dinormalisasikan sehingga nilainya berada dalam range [0,1]. Normalisasi ini dilakukan agar nilai dari tiap-tiap fitur ekstraksi tidak memiliki gap atau selisih yang besar. Adapun fitur-fitur ekstraksi yang digunakan pada tugas akhir ini yaitu positive keyword pada kalimat f1, kemiripan antar kalimat f2, kalimat yang menyerupai judul f3 dan cosine similarity f4. Penjelasan dari tiap-tiap fitur adalah sebagai berikut ini:

2.4.1 Fitur Keyword Positif F1

Positif keyword adalah kata yang sering muncul pada sebuah paragraf Marlina, 2012. Fitur ini dapat dihitung menggunakan rumus 2.1 : 2.1 Dengan s i positif keyword adalah jumlah kata dalam suatu kalimat yang mengandung keyword dibagi dengan jumlah kata dalam seluruh kalimat yang mengandung keyword, dengan keyword merupakan banyaknya kata yang muncul dalam suatu dokumen. Berikut ini contoh perhitungan keyword positif: Ibarat tambang emas, Bangka Belitung dipandang menyimpan sejumlah potensi yang siap gali. Tidak mengherankan bila jumlah pendatang ke provinsi ini terus bertambah. Konfilk antara warga luar dan local sendiri mulai muncul di beberapa tempat. Beberapa terkesan sebagai konflik etnis, namun tidak berkembang lebih jauh karena aparat pemerintah dan keamanan tampaknya bergerak cepat menyelesaikannya. Hasil preprocessing : aparat1 bangka1 belitung1 kembang1 tambah1 cepat1 pandang1 emas1 etnis1 gali1 aman1 konflik2 lokal1 heran1 selesai1 simpan1 muncul1 perintah1 datang1 potensi1 provinsi1 tambang1 kesan1 warga1. 14 Dari hasil preprocessing diatas, kata konflik adalah kata yang memilki jumlah kemunculan paling banyak yaitu sebanyak dua kali. Oleh karena itu positif keyword dari dokumen tersebut adalah “konflik”. Pada kalimat pertama tidak mengandung positif keyword “konflik”, oleh karena itu skor fitur f2 untuk kalimat pertama adalah 0. Sehingga skor fitur positf keyword untuk tiap-tiap kalimat adalah berturu-turut 0,0, ½, ½.

2.4.2 Fitur Kemiripan Antar-Kalimat F2

Kemiripan antar-kalimat adalah daftar kata-kata yang dapat dicocokkan antara kalimat yang satu dengan kalimat yang lainnya dalam dokumen atau dengan kata lain merupakan kata yang muncul dalam kalimat sama dengan kata yang muncul dalam kalimat lain Aristoteles dkk, 2012. Berikut ini contoh perhitungan kemiripan antar kalimat, diasumsikan kalimat yang dijadikan contoh di bawah ini adalah kalimat yang telah melewati proses preprocessing:  Kalimat 1 : Kami pergi nonton dan belanja.  Kalimat 2 : Kami pergi rekreasi.  Kalimat 3 : Kami sedang nonton bola. Berdasarkan ketiga kalimat diatas, perhitungan skor untuk fitur f4 dapat diilustrasikan pada gambar 2.2. Gambar 2.2 Ilustrasi fitur kemiripan antar kalimat Berdasarkan gambar 2.2, skor f2 untuk kalimat 1 adalah 38. Hal ini dikarenakan terdapat tiga buah kata pada kalimat 1 yang memiliki kesamaan dengan kata yang ada pada kalimat 2 dan kalimat 3 yaitu “kami”, “pergi”, nonton pergi dan belanja kami sedang bola rekreasi kalimat 1 kalimat 2 kalimat 3 15 “nonton”. Skor f2 untuk kalimat 2 adalah 28. Hal ini dikarenakan terdapat dua buah kata pada kalimat 2 yang memiliki kesamaan dengan kata yang ada pada kalimat 1 dan 3 yaitu “kami”, “pergi”. Skor f2 untuk kalimat 3 adalah 28. Hal ini dikarenakan terdapat dua buah kata pada kalimat 3 yang memiliki kesamaan kata dengan kata yang ada pada kalimat 1 dan 2 yaitu “kami”, “nonton”. Fitur ini dihitung dengan menggunakan rumus 2.2 2.2

2.4.3 Fitur Kalimat yang Menyerupai Judul Dokumen F3