13
2.4 Fitur Ekstraksi Teks
Pada tugas akhir ini menggunakan fitur ekstraksi untuk menghitung skor tiap-tiap kalimat dalam dokumen. Untuk setiap kalimat dalam dokumen, skor
kalimat dihitung berdasarkan fitur ekstraksi dimana nilai dari tiap-tiap fitur dinormalisasikan sehingga nilainya berada dalam range [0,1]. Normalisasi ini
dilakukan agar nilai dari tiap-tiap fitur ekstraksi tidak memiliki gap atau selisih yang besar.
Adapun fitur-fitur ekstraksi yang digunakan pada tugas akhir ini yaitu positive keyword pada kalimat f1, kemiripan antar kalimat f2, kalimat yang
menyerupai judul f3 dan cosine similarity f4. Penjelasan dari tiap-tiap fitur adalah sebagai berikut ini:
2.4.1 Fitur Keyword Positif F1
Positif keyword adalah kata yang sering muncul pada sebuah paragraf Marlina, 2012. Fitur ini dapat dihitung menggunakan rumus 2.1 :
2.1 Dengan s
i
positif keyword adalah jumlah kata dalam suatu kalimat yang mengandung keyword dibagi dengan jumlah kata dalam seluruh kalimat yang
mengandung keyword, dengan keyword merupakan banyaknya kata yang muncul dalam suatu dokumen. Berikut ini contoh perhitungan keyword positif:
Ibarat tambang emas, Bangka Belitung dipandang menyimpan sejumlah potensi yang siap gali. Tidak mengherankan bila jumlah pendatang ke provinsi ini terus
bertambah. Konfilk antara warga luar dan local sendiri mulai muncul di beberapa tempat. Beberapa terkesan sebagai konflik etnis, namun tidak
berkembang lebih jauh karena aparat pemerintah dan keamanan tampaknya bergerak cepat menyelesaikannya.
Hasil preprocessing : aparat1 bangka1 belitung1 kembang1 tambah1 cepat1 pandang1 emas1
etnis1 gali1 aman1 konflik2 lokal1 heran1 selesai1 simpan1 muncul1
perintah1 datang1 potensi1 provinsi1 tambang1 kesan1 warga1.
14
Dari hasil preprocessing diatas, kata konflik adalah kata yang memilki jumlah kemunculan paling banyak yaitu sebanyak dua kali. Oleh karena itu positif
keyword dari dokumen tersebut adalah “konflik”. Pada kalimat pertama tidak mengandung positif keyword “konflik”, oleh karena itu skor fitur f2 untuk kalimat
pertama adalah 0. Sehingga skor fitur positf keyword untuk tiap-tiap kalimat adalah berturu-turut 0,0, ½, ½.
2.4.2 Fitur Kemiripan Antar-Kalimat F2
Kemiripan antar-kalimat adalah daftar kata-kata yang dapat dicocokkan antara kalimat yang satu dengan kalimat yang lainnya dalam dokumen atau
dengan kata lain merupakan kata yang muncul dalam kalimat sama dengan kata yang muncul dalam kalimat lain Aristoteles dkk, 2012. Berikut ini contoh
perhitungan kemiripan antar kalimat, diasumsikan kalimat yang dijadikan contoh di bawah ini adalah kalimat yang telah melewati proses preprocessing:
Kalimat 1 : Kami pergi nonton dan belanja. Kalimat 2 : Kami pergi rekreasi.
Kalimat 3 : Kami sedang nonton bola.
Berdasarkan ketiga kalimat diatas, perhitungan skor untuk fitur f4 dapat diilustrasikan pada gambar 2.2.
Gambar 2.2 Ilustrasi fitur kemiripan antar kalimat
Berdasarkan gambar 2.2, skor f2 untuk kalimat 1 adalah 38. Hal ini dikarenakan terdapat tiga buah kata pada kalimat 1 yang memiliki kesamaan
dengan kata yang ada pada kalimat 2 dan kalimat 3 yaitu
“kami”, “pergi”,
nonton pergi
dan belanja
kami sedang
bola rekreasi
kalimat 1 kalimat 2
kalimat 3
15
“nonton”. Skor f2 untuk kalimat 2 adalah 28. Hal ini dikarenakan terdapat dua
buah kata pada kalimat 2 yang memiliki kesamaan dengan kata yang ada pada kalimat 1 dan 3 yaitu
“kami”, “pergi”. Skor f2 untuk kalimat 3 adalah 28. Hal
ini dikarenakan terdapat dua buah kata pada kalimat 3 yang memiliki kesamaan
kata dengan kata yang ada pada kalimat 1 dan 2 yaitu “kami”, “nonton”. Fitur ini
dihitung dengan menggunakan rumus 2.2
2.2
2.4.3 Fitur Kalimat yang Menyerupai Judul Dokumen F3