Peringkasan Dokumen Bahasa Indonesia Menggunakan Pembobotan Fitur Kalimat

PERINGKASAN DOKUMEN BAHASA INDONESIA
MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT

YOZI SUKMATUL AHDA

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Peringkasan Dokumen
Bahasa Indonesia Menggunakan Pembobotan Fitur Kalimat adalah benar karya
saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa
pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip
dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah
disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, Desember 2015
Yozi Sukmatul Ahda
NIM G64134018

ABSTRAK
YOZI SUKMATUL AHDA. Peringkasan Dokumen Bahasa Indonesia
Menggunakan Pembobotan Fitur Kalimat. Dibimbing oleh JULIO ADISANTOSO.
Membaca dokumen yang panjang memerlukan waktu yang lama untuk
menemukan isi penting dari bacaan tersebut, sehingga diperlukan suatu ringkasan
untuk memudahkan dalam memahami isi dokumen. Ringkasan dokumen otomatis
dapat digunakan untuk menemukan ringkasan dokumen dengan cepat. Penelitian
ini menggunakan 9 fitur kalimat untuk pembobotan kalimat sebagai penentu hasil
ringkasan. Hasil ringkasan tersebut menggunakan CR 10%, 20%, dan 30%. Untuk
mengetahui keakuratan hasil ringkasan maka dilakukan evaluasi menggunakan
precision, recall, f-measure, dan akurasi. Untuk hasil perhitungan precision
didapatkan hasil tertinggi 60.99% pada CR 10%, recall tertinggi 41.16% pada CR
30%, f-measure tertinggi 45.42% pada CR 30%, dan hasil akurasi tertinggi 64.18%
pada CR 10%.
Kata kunci: fitur kalimat, pembobotan kalimat, ringkasan dokumen


ABSTRACT
YOZI SUKMATUL AHDA. Indonesian Text Summarization by Using Weighting
of Sentence Features. Supervised by JULIO ADISANTOSO.
Reading long document needs a long time to find the important contents of
the reading, so summary is needed to make it easier to understand. Automatic text
summarization can be used to find text summarization quickly. This research used
9 sentences features to weight the sentences as determinant of the summary results.
The result of the summary uses CR 10%, 20%, and 30%. The accuracy of the
summary is calculated using precision, recall, f-measure, and accuracy. The highest
precision results is 60.99% in CR 10%, the highest recall results is 41.16% in CR
30%, the highest f-measure results is 45.42% in CR 30%, and the highest accuracy
results is 64.18% in CR 10%.
Keywords: sentence feature, text summarization, weighting of sentence

PERINGKASAN DOKUMEN BAHASA INDONESIA
MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT

YOZI SUKMATUL AHDA


Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015

Penguji:
1 Irman Hermadi, SKom, MS, PhD
2 Husnul Khotimah, SKomp, MKom

Judul Skripsi : Peringkasan Dokumen Bahasa Indonesia Menggunakan
Pembobotan Fitur Kalimat
Nama
: Yozi Sukmatul Ahda

NIM
: G64134018

Disetujui oleh

Ir Julio Adisantoso, MKom
Pembimbing

Diketahui oleh

Dr Ir Agus Buwono, MSi, MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala yang
telah memberikan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan
skripsi yang berjudul “Peringkasan Dokumen Bahasa Indonesia Menggunakan
Pembobotan Fitur Kalimat”.

Terima kasih penulis ucapkan kepada Bapak Julio Adisantoso selaku
pembimbing, serta Bapak Irman Hermadi dan Ibu Husnul Khotimah yang telah
banyak memberi saran. Ungkapan terima kasih juga disampaikan kepada kedua
orang tua dan seluruh keluarga, atas segala doa dan kasih sayangnya, serta semua
pihak yang telah banyak membantu dalam menyelesaikan skripsi ini. Tak lupa juga
penulis ucapkan terima kasih kepada rekan-rekan satu bimbingan, Lutfia dan
Rheza, atas bantuan dan kerjasamanya dalam melakukan penelitian ini, serta
kepada rekan-rekan seperjuangan di Ekstensi Ilmu Komputer angkatan 8, atas
dukungan, bantuan, dan kebersamaannya selama menjalani masa studi. Semoga
skripsi ini dapat memberikan kontribusi yang bermakna bagi pengembangan
wawasan para pembaca, khususnya mahasiswa dan masyarakat pada umumnya.
Semoga karya ilmiah ini bermanfaat.

Bogor, Desember 2015
Yozi Sukmatul Ahda

DAFTAR ISI
DAFTAR TABEL

x


DAFTAR GAMBAR

x

PENDAHULUAN

1

Latar Belakang

1

Perumusan Masalah

2

Tujuan Penelitian

2


Manfaat Penelitian

2

Ruang Lingkup Penelitian

2

METODE

2

Pengumpulan Dokumen

3

Parsing Kalimat

3


Fitur Kalimat

5

Seleksi Kalimat

8

Evaluasi

9

HASIL DAN PEMBAHASAN

10

Pengumpulan Dokumen

10


Parsing Kalimat

10

Fitur Kalimat

10

Seleksi Kalimat

13

Evaluasi

13

SIMPULAN DAN SARAN

16


Simpulan

16

Saran

17

DAFTAR PUSTAKA

17

RIWAYAT HIDUP

18

DAFTAR TABEL
1 Matrix confusion
2 Dokumen yang memiliki kalimat yang bernilai 0


9
12

DAFTAR GAMBAR
1
2
3
4
5
6
7

Tahapan proses penelitian
Pemisahan kalimat dan case folding
Filtering kata
Grafik nilai rata-rata precision
Grafik nilai rata-rata recall
Grafik nilai rata-rata f-measure
Grafik nilai rata-rata akurasi

3
4
4
14
15
15
16

PENDAHULUAN
Latar Belakang
Membaca dokumen dengan isi yang panjang memerlukan waktu yang lama
untuk menemukan intisari dari dokumen tersebut. Sehingga dibutuhkan suatu
ringkasan yang memuat intisari dari keseluruhan isi dokumen. Ringkasan dokumen
memudahkan untuk memahami isi dokumen. Peringkasan dokumen merupakan
proses mendapatkan informasi penting dari tiap-tiap subbagian dari keseluruhan
dokumen. Peringkasan dokumen dapat dilakukan secara manual maupun otomatis.
Peringkasan dokumen yang jumlahnya banyak, apabila dilakukan secara manual
membutuhkan waktu yang lama dibandingkan dengan peringkasan teks secara
otomatis (Aristoteles et al. 2012).
Ada beberapa teknik untuk melakukan peringkasan dokumen diantaranya
teknik ekstraksi dan teknik abstraksi (Jezek dan Steiberger 2008). Teknik ekstraksi
yaitu menyalin semua teks tanpa mengubah kalimat teks aslinya, sedangkan teknik
abstraksi yaitu membuat kalimat baru dari isi dokumen aslinya, namun makna
kalimat tetap sama dengan teks dokumen aslinya (Jezek dan Steiberger 2008).
Peringkasan dengan teknik ekstraksi membutuhkan fitur karena fitur
digunakan untuk merepresentasikan dokumen (Zaman dan Winarko 2011).
Peringkasan dokumen otomatis dengan teknik ekstraksi telah banyak dilakukan
diantaranya Fattah dan Ren (2008) membandingkan algoritme genetika dengan
regresi matematika. Hasil penelitian Fattah dan Ren (2008) menunjukkan akurasi
peringkasan teks dengan algoritme genetika 44.94% lebih baik dibandingkan
akurasi menggunakan regresi matematika 43.82%. Aristoteles et al. (2012)
membuat pembobotan fitur teks pada peringkasan teks bahasa Indonesia
menggunakan algoritme genetika.
Pembobotan fitur teks mengindikasikan pentingnya suatu teks dalam
dokumen. Pada penelitian Aristoteles et al. (2012) ada 11 fitur teks yang digunakan
yaitu posisi kalimat, positive keyword, negative keyword, kemiripan antarkalimat,
kalimat yang menyerupai judul dokumen, kalimat yang mengandung nama entiti,
kalimat yang mengandung data numerik, panjang relatif kalimat, koneksi antarkalimat, penjumlahan bobot koneksi antar-kalimat, dan kalimat semantik. Hasil
penelitian tersebut menunjukkan bahwa penggunaan 4 fitur teks dengan
penambahan kalimat semantik merepresentasikan hasil akurasi 11 fitur teks sebesar
46.44%. Selain itu, Marlina (2012) melakukan penelitian untuk menghitung
pembobotan fitur teks menggunakan regresi logistik biner. Penelitian tersebut
menghasilkan akurasi sebesar 42.84% pada compression rate 30%.
Dokumen yang digunakan pada penelitian sebelumnya merupakan dokumen
pendek seperti dokumen berita, sedangkan penggunaan dokumen panjang seperti
karya ilmiah belum digunakan. Oleh karena itu, penelitian ini akan menggunakan
pembobotan fitur kalimat untuk peringkasan dokumen secara ekstraksi pada
dokumen skripsi berbahasa Indonesia.

2
Perumusan Masalah
Perumusan masalah dalam penelitian ini yaitu:
1 Bagaimanakah pengembangan pembobotan kalimat berdasarkan fitur
kalimat untuk peringkasan dokumen otomatis?
2 Apakah pembobotan kalimat dengan fitur kalimat tersebut tepat
digunakan untuk peringkasan dokumen?
3 Bagaimana implementasi dari fitur kalimat tersebut untuk dokumen
skripsi berbahasa Indonesia?

Tujuan Penelitian
Penelitian ini bertujuan untuk:
1 Mengembangkan peringkasan dokumen otomatis menggunakan
pembobotan.
kalimat berdasarkan fitur kalimat.
2 Menganalisis ketepatan penggunaan pembobotan kalimat dengan fitur
kalimat untuk peringkasan dokumen.
3 Mengimplementasikan fitur kalimat untuk dokumen skripsi berbahasa
Indonesia.

Manfaat Penelitian
Manfaat dari penelitian ini yaitu menghasilkan ringkasan yang relevan dan
melakukan peringkasan dokumen secara cepat sehingga dapat digunakan oleh
mahasiswa untuk mencari dokumen skripsi untuk dijadikan acuan penelitiannya.

Ruang Lingkup Penelitian
Ruang lingkup penelitian ini adalah:
1 Dokumen yang digunakan yaitu skripsi Ilmu Komputer berbahasa
Indonesia.
2 Menggunakan fitur kalimat untuk pembobotan kalimat dengan teknik
ekstraksi.

METODE
Penelitian ini dilakukan dengan beberapa tahap yaitu pengumpulan dokumen,
parsing kalimat, hitung fitur kalimat, seleksi kalimat, dan evaluasi yang dapat
dilihat pada Gambar 1.

3
Pengumpulan Dokumen
Penelitian ini menggunakan dokumen skripsi mahasiswa Departemen Ilmu
Komputer Institut Pertanian Bogor yang berjumlah 100 dokumen yang diambil dari
repository.ipb.ac.id. Dokumen ini digunakan untuk membandingkan ringkasan
manual dengan ringkasan sistem. Dokumen dikumpulkan dalam format file.txt dan
diberikan tanda pemisah sebagai berikut:
1 {{bab-pendahuluan}} {{/bab-pendahuluan}} untuk pendahuluan.
2 {{bab-metode}} {{/bab-metode}} untuk metode.
3 {{bab-hasil}} {{/bab-hasil}} untuk hasil dan pembahasan.
4 {{bab-penutup}} {{/bab-penutup}} untuk penutup.
5 {{{subbab1}}} {{{/subbab1}}} untuk subbab.
6 {{{kesimpulan}}} {{{/kesimpulan}}} untuk kesimpulan.
7 {{{{paragraf1}}}} {{{{/paragraf1}}}} untuk paragraf.
Ada beberapa aturan yang digunakan untuk pengumpulan dokumen sebagai
berikut:
1 Tabel, gambar, persamaan, algoritme beserta isinya dihapus dari dokumen.
2 Bukan berupa list pendek, kecuali pada bagian kesimpulan dan saran.
3 Tinjauan pustaka yang ada di dalam dokumen dihilangkan.
4 Judul bab dan subbab dihilangkan.
5 Catatan kaki dihilangkan.

Gambar 1 Tahapan proses penelitian

Parsing Kalimat
Dalam parsing kalimat dilakukan pemisahan kalimat, case folding, dan
filtering kata. Dalam pemisahan kalimat memperhatikan tanda baca seperti tanda
titik (.), tanda tanya (?), dan tanda seru (!). Untuk kalimat kutipan yang

4
menggunakan tanda baca kutip dua (“ “), apabila berada sebelum tanda titik, tanda
tanya, dan tanda seru, maka dianggap satu kalimat.
Tahap case folding merupakan tahapan mengubah huruf dalam kalimat
menjadi huruf yang sama. Dalam penelitian ini semua huruf dalam kalimat akan
diubah menjadi huruf kecil (lower case). Contoh pemisahan kalimat dan case
folding dapat dilihat pada Gambar 2.

Gambar 2 Pemisahan kalimat dan case folding

Gambar 3 Filtering kata
Tahap selanjutnya melakukan filtering kata. Dalam filtering kata dilakukan
pembuangan kata-kata yang sering muncul tapi tidak punya makna yang penting,
disebut juga dengan stopword (Kogilavani dan Balasubramani 2010). Contoh
filtering kata dapat dilihat pada Gambar 3.

5
Fitur Kalimat
Penelitian ini mengacu pada penelitian Aristoteles et al. (2012) yang
menggunakan fitur kalimat sebagai berikut posisi kalimat, kemiripan antarkalimat,
kalimat yang mengandung nama entiti, kalimat yang mengandung data numerik,
kalimat yang menyerupai judul dokumen, dan panjang kalimat.
Posisi Kalimat (f1)
Fitur kalimat berdasarkan posisi kalimat terdiri atas posisi kalimat dalam
pendahuluan, posisi kalimat dalam metode, posisi kalimat dalam hasil dan
pembahasan, dan posisi kalimat dalam kesimpulan.
Posisi Kalimat dalam Pendahuluan (f1a)
Posisi kalimat S dalam setiap subbab pada pendahuluan dapat dihitung
dengan:
P
Skor f1a =
(1)
N
dengan P adalah posisi paragraf di mana kalimat S berada dan N adalah jumlah
paragraf. Berikut ini contoh fitur kalimat berdasarkan posisi kalimat dalam
pendahuluan yang dikutip dari penelitian Mustika (2006).
“Dewasa ini, ketersediaan data semakin melimpah, apalagi ditunjang dengan
banyaknya kegiatan yang sudah dilakukan secara terkomputerisasi. Namun
seringkali data tersebut hanya disimpan tanpa diolah lebih lanjut sehingga
tidak mempunyai nilai guna lebih untuk keperluan di masa mendatang”.

Berdasarkan contoh tersebut diasumsikan posisi paragraf adalah paragraf
pertama dengan jumlah paragraf pada subbab pertama adalah 4, maka perhitungan
skor fitur kalimat berdasarkan posisi kalimat dalam pendahuluan untuk seluruh
1
kalimat pada paragraf pertama adalah , skor untuk seluruh kalimat pada paragraf
2

4

3

kedua adalah , skor untuk seluruh kalimat pada paragraf ketiga adalah , dan skor
4
4

4

untuk seluruh kalimat pada paragraf keempat adalah .
4

Posisi Kalimat dalam Metode (f1b)
Posisi kalimat S dalam setiap subbab pada metode dapat dihitung dengan:
(K - (M - 1))
(2)
Skor f1b =
K
dengan K adalah jumlah kalimat dalam paragraf dan M adalah posisi kalimat S
dalam paragraf. Berikut contoh fitur kalimat berdasarkan posisi kalimat dalam
metode yang dikutip dari penelitian Mustika (2006).
“Dewasa ini, ketersediaan data semakin melimpah, apalagi ditunjang dengan
banyaknya kegiatan yang sudah dilakukan secara terkomputerisasi. Namun
seringkali data tersebut hanya disimpan tanpa diolah lebih lanjut sehingga
tidak mempunyai nilai guna lebih untuk keperluan di masa mendatang”.

Berdasarkan contoh tersebut jumlah kalimat adalah 2, maka skor kalimat
2
1
pertama adalah dan skor kalimat kedua adalah .
2
2

6
Posisi Kalimat dalam Hasil dan Pembahasan (f1c)
Posisi kalimat S dalam setiap subbab hasil dan pembahasan dapat dihitung
dengan:
M
(3)
Skor f1c =
n
dengan n adalah jumlah kalimat dalam paragraf dan M adalah posisi kalimat S
dalam paragraf. Berikut contoh fitur kalimat berdasarkan posisi kalimat dalam hasil
dan pembahasan yang dikutip dari penelitian Mustika (2006).
“Dewasa ini, ketersediaan data semakin melimpah, apalagi ditunjang dengan
banyaknya kegiatan yang sudah dilakukan secara terkomputerisasi. Namun
seringkali data tersebut hanya disimpan tanpa diolah lebih lanjut sehingga
tidak mempunyai nilai guna lebih untuk keperluan di masa mendatang”.
1

Berdasarkan contoh tersebut skor kalimat pertama adalah dan skor kalimat
2

2

kedua adalah .
2
Posisi Kalimat dalam Kesimpulan (f1d)
Posisi kalimat S dalam kesimpulan dapat dihitung dengan:
(j - (Z - 1))
Skor f1d =
j

(4)

dengan j adalah jumlah kalimat dalam paragraf dan Z adalah posisi kalimat S dalam
paragraf. Berikut contoh fitur kalimat berdasarkan posisi kalimat dalam kesimpulan
yang dikutip dari penelitian Mustika (2006).
“Sebagian besar aturan asosiasi memiliki nilai fuzzy confidence yang tinggi
karena nilai fuzzy support gabungan antecedent dengan consequent juga
tinggi. Parameter yang paling mempengaruhi jumlah aturan asosiasi yang
dihasilkan adalah nilai minsup”.
2

Berdasarkan contoh tersebut skor kalimat pertama adalah dan skor kalimat
1

2

kedua adalah .
2
Kemiripan Antarkalimat (f2)
Kemiripan antarkalimat merupakan kata yang muncul dalam suatu kalimat
juga ada dalam kalimat yang lain. Dapat dirumuskan sebagai berikut:
Ks ∩ K o
Skor f2 =
(5)
Ks ∪ K o
dengan Ks adalah kata dalam kalimat S dan Ko adalah kata dalam kalimat lain.
Berikut contoh fitur kalimat berdasarkan kemiripan antarkalimat.
1 Saya pergi ke kampus
2 Kampus saya di Baranangsiang
3 Saya terlambat mengikuti pelajaran

Berdasarkan contoh kalimat pertama memiliki 2 kata yang sama dengan
kalimat kedua dan ketiga, yaitu “saya, kampus”. Kalimat kedua memiliki 2 kata
yang sama dengan kalimat pertama dan ketiga, yaitu “saya, kampus”. Sedangkan
kalimat ketiga memiliki 1 kata yang sama dengan kalimat pertama dan kedua, yaitu

7
2

2

9

9

“saya”. Maka skor kalimat pertama adalah , skor kalimat kedua adalah , dan skor
1

kalimat ketiga adalah .
9
Kalimat yang Mengandung Nama Entitas (f3)
Nama entitas merupakan kumpulan kata yang memiliki makna, seperti nama
institusi, nama orang, nama negara, nama daerah, dan nama pulau. Dapat
dirumuskan sebagai berikut:
E
(6)
Skor f3 =
Ls
dengan E adalah jumlah entitas dalam kalimat S dan Ls adalah panjang kalimat S.
Berikut contoh fitur kalimat berdasarkan kalimat yang mengandung nama entitas
yang dikutip dari penelitian Sofi (2006).
“DKI Jakarta sebagai ibukota negara, saat ini mengalami pembangunan yang
pesat. Pembangunan ini meliputi pembangunan rumah, gedung, perkantoran,
pusat perbelanjaan, pabrik, dan lain sebagainya, yang membuat DKI Jakarta
semakin padat”.

Berdasarkan contoh kalimat yang mengandung nama entitas terdapat pada
kalimat pertama dan kedua, yaitu “DKI Jakarta” merupakan nama provinsi. Maka
1
1
skor kalimat pertama adalah dan skor kalimat kedua adalah 13. Dalam menghitung
7
panjang kalimat, kata yang termasuk stopword tidak ikut dihitung.
Kalimat yang Mengandung Data Numerik (f4)
Kalimat yang mengandung data numerik biasanya terdapat informasi yang
penting. Dapat dirumuskan sebagai berikut:
Nn
Skor f4 =
(7)
Ls
dengan Nn adalah jumlah data numerik dalam kalimat S dan Ls adalah panjang
kalimat S. Berikut contoh fitur kalimat berdasarkan kalimat yang mengandung data
numerik yang dikutip dari penelitian Sofi (2006)..
“Menurut data yang diperoleh dari Dinas Pertanian dan Kehutanan Propinsi
DKI Jakarta tahun 2005, tecatat bahwa di DKI Jakarta terdapat 47 area hutan
yang tersebar di lima kotamadya dan masih produktif sebagai hutan kota.
Keberadaan hutan kota ini jarang diketahui oleh masyarakat pada umumnya
dan masyarakat Jakarta pada khususnya, sehingga pengetahuan masyarakat
akan hutan kota menjadi sangat kurang”.

Berdasarkan contoh kalimat pertama memiliki 2 data numerik sedangkan
2
kalimat kedua tidak memiliki data numerik, maka skor kalimat pertama adalah .
23

Kalimat yang Menyerupai Judul Dokumen (f5)
Kalimat yang menyerupai judul dokumen yaitu kata yang muncul pada
kalimat juga muncul pada judul. Untuk menghitung skor kalimat yang menyerupai
judul dokumen digunakan Cosine Similarity. Cosine Similarity merepresentasikan
kalimat dalam bentuk vektor (Xie dan Liu 2008) sebagai berikut:

8
Skor f5 = sim(s1 , s2 ) =

s2
s⃗⃗⃗1 ∙ ⃗⃗⃗
=
|s⃗⃗⃗1 | |s⃗⃗⃗2 |

∑i s1,i ∙ s2,i

(8)

√∑i s21,i √∑i s22,i

dengan s1 adalah kalimat S dan s2 adalah judul dokumen. Berikut contoh fitur
kalimat berdasarkan kalimat yang menyerupai judul dokumen.
Judul dokumen: Saya Terlambat
1 Saya pergi ke kampus
2 Kampus saya di Baranangsiang
3 Saya terlambat mengikuti pelajaran

Berdasarkan contoh kata “saya” pada judul dokumen muncul pada kalimat
pertama, kedua, dan ketiga, sedangkan kata “terlambat” hanya muncul pada kalimat
1
1
, skor kalimat kedua adalah
, dan
ketiga. Maka skor kalimat pertama adalah
2.45
skor kalimat ketiga adalah

2

2.45

.

2.83

Panjang Kalimat (f6)
Panjang kalimat merupakan jumlah kata dalam kalimat dibagi jumlah kata
unik dalam dokumen.
Nw
Skor f6 =
(9)
Ku
dengan Nw adalah jumlah kata dalam kalimat S, Ku adalah jumlah kata unik dalam
dokumen. Berikut contoh fitur kalimat berdasarkan panjang kalimat yang dikutip
dari penelitian Mustika (2006).
“Dewasa ini, ketersediaan data semakin melimpah, apalagi ditunjang dengan
banyaknya kegiatan yang sudah dilakukan secara terkomputerisasi. Namun
seringkali data tersebut hanya disimpan tanpa diolah lebih lanjut sehingga
tidak mempunyai nilai guna lebih untuk keperluan di masa mendatang”.

Berdasarkan contoh kata dalam kalimat pertama berjumlah 8 (tidak termasuk
stopword), asumsikan kata unik dalam dokumen berjumlah 25 kata, maka skor
8
8
kalimat pertama adalah dan skor kalimat kedua adalah .
25

25

Seleksi Kalimat
Seleksi kalimat dilakukan setelah mendapatkan bobot kalimat. Pembobotan
kalimat dihitung menggunakan persamaan regresi logistik biner. Regresi logistik
merupakan metode untuk menganalisis hubungan variabel respon dan variabel
penjelas yang memiliki dua atau lebih kategori (Hosmer dan Lemeshow 2000).
Variabel respon yang digunakan terdiri atas 2 kategori yaitu 1 dan 0.
Ringkasan manual yang telah dibuat akan dibandingkan dengan dokumen
untuk menentukan kalimat tersebut masuk ke dalam ringkasan atau tidak. Dengan
memberikan tanda y=1 untuk kalimat yang “terambil sebagai ringkasan” dan y=0
untuk kalimat yang “tidak terambil sebagai ringkasan”. Menurut Hosmer dan
Lemeshow (2000) regresi logistik biner adalah:

9
n

π
g = ln(
) = a0 + ∑ ai fi
1-π

(10)

i=1

dengan a0 adalah nilai konstanta regresi, ai adalah nilai dugaan koefisien regresi,
dan fi adalah skor fitur kalimat, di mana i = 1, 2,..., n. Apabila π merupakan peluang
kalimat terambil sebagai ringkasan (y=1) dengan π > = 0.50, maka didapatkan
persamaan untuk mencari peluangnya yaitu:
eg
(11)
π=(
)
1 + eg
Setelah mendapatkan bobot kalimat langkah selanjutnya menyeleksi kalimat
untuk membuat ringkasan menggunakan rasio kompresi ringkasan (CR) 30%, 20%,
dan 10%.

Evaluasi
Pada tahap evaluasi, keakuratan hasil ringkasan manual akan dibandingkan
dengan hasil ringkasan sistem. Untuk menghitung keakuratan tersebut digunakan
perhitungan Precision (P), Recall (R), F-Measure (F-1), dan akurasi dari dokumen.
Precision adalah proporsi kalimat yang diprediksi benar dan kenyataannya masuk
kategori benar, sedangkan recall adalah proporsi kalimat yang termasuk kategori
benar dan tepat masuk dalam kategori benar tersebut (Power 2011). F-Measure
adalah gabungan dari recall dan precision (Zaman dan Winarko 2011). Akurasi
adalah perbandingan jumlah kalimat benar dengan total kalimat keseluruhan.
Dalam memudahkan perhitungan dapat digunakan tabel pendukung (matrix
confusion) seperti Tabel 1. Matrix confusion merupakan matriks yang berisi
informasi pengklasifikasian aktual dan prediksi oleh sistem (Wijakso 2012).
Tabel 1 Matrix confusion
Relevant
tp
fn

Retrieved
Non Retrieved

Non Relevant
fp
tn

Perhitungan precision, recall, f-measure, dan akurasi berdasarkan Tabel 1
menurut Manning et al. (2008) sebagai berikut:
(12)
tp
P=
(tp + fp )
R=
F-1 =
Akurasi =

tp
(tp + fn)

(13)

(2 × R × P)
(R + P)

(14)

(tp + tn)
(tp + fp + fn + tn)

(15)

10
dengan true positive (tp) adalah kalimat yang ada dalam ringkasan manual dan
muncul dalam ringkasan sistem, false positive (fp) adalah kalimat yang tidak ada
dalam ringkasan manual tapi kalimat tersebut muncul dalam ringkasan sistem, false
negative (fn) adalah kalimat yang ada dalam ringkasan manual tapi tidak muncul
dalam ringkasan sistem, dan true negative (tn) adalah kalimat yang tidak ada dalam
ringkasan manual maupun dalam ringkasan sistem.

HASIL DAN PEMBAHASAN
Pengumpulan Dokumen
Dokumen yang digunakan pada penelitian ini adalah skripsi mahasiswa
Departemen Ilmu Komputer yang berjumlah 100 dokumen. Dokumen tersebut
diunduh dari repository.ipb.ac.id dalam format file.pdf. Dokumen tersebut
dikonversi ke dalam bentuk file.txt, misalnya 1.txt. Rata-rata jumlah kalimat awal
untuk 100 dokumen tersebut yaitu 212 dengan jumlah kalimat terendah yaitu 100
pada dokumen 61.txt dan tertinggi yaitu 420 pada dokumen 9.txt. Namun rata-rata
kalimat menjadi 134 setelah dilakukan penghapusan tinjauan pustaka dan kalimat
yang menjelaskan tentang gambar, grafik maupun tabel. Rata-rata perbandingan
kalimat yang terambil setelah dilakukan penghapusan sebesar 65.67% dengan ratarata terendah adalah 35.97% pada dokumen 100.txt dan tertinggi adalah 93.22%
pada dokumen 99.txt. Ukuran dokumen terendah adalah 12 KB dan terbesar 40 KB.
Selanjutnya dokumen tersebut digunakan untuk membuat ringkasan manual.

Parsing Kalimat
Pemisahan kalimat dilakukan berdasarkan aturan yang telah dijelaskan pada
metode penelitian. Jumlah kalimat terendah yaitu 64 pada dokumen 31.txt dan
tertinggi yaitu 308 pada dokumen 9.txt. Namun, dalam prosesnya terdapat kendala
pada penggunaan tanda titik (.). Karena tanda titik (.) bukan hanya digunakan
sebagai tanda akhir kalimat, tapi digunakan juga untuk penulisan bilangan desimal
atau penulisan format file. Sehingga, ditambahkan aturan untuk mengganti tanda
titik (.) pada kasus-kasus tersebut, di antaranya:
1 Tanda titik (.) pada bilangan desimal diganti dengan tanda bintang (*).
Misalnya 25.10 diganti menjadi 25*10.
2 Tanda titik (.) pada penulisan ”et al.” dihilangkan sehingga menjadi ”et
al”.
3 Tanda titik (.) pada format file diganti menjadi tanda bintang (*).
Misalnya .txt diganti menjadi *txt.

Fitur Kalimat
Perhitungan fitur kalimat mengacu pada penelitian yang dilakukan oleh
Aristoteles et al. (2012) dengan menggunakan 9 fitur kalimat yang terdiri atas fitur
kalimat berdasarkan posisi kalimat dalam pendahuluan (f1a), posisi kalimat

11
berdasarkan metode (f1b), posisi kalimat berdasarkan hasil dan pembahasan (f1c),
posisi kalimat berdasarkan kesimpulan (f1d), kemiripan antarkalimat (f2), kalimat
yang mengandung entitas (f3), kalimat yang mengandung data numerik (f4), kalimat
yang menyerupai judul dokumen (f5), dan panjang kalimat (f6).
Posisi Kalimat dalam Pendahuluan (f1a)
Kalimat dalam pendahuluan memiliki nilai rata-rata 0.16 dengan rata-rata
terendah 0.06 pada dokumen 9.txt dan tertinggi 0.27 pada dokumen 44.txt. Pada
dokumen 9.txt jumlah nilai kalimat yang terambil sebagai kalimat dalam
pendahuluan adalah 18.5 menghasilkan rata-rata 0.06 dengan jumlah kalimat 308.
Sedangkan pada dokumen 44.txt jumlah nilai kalimatnya 20.8 menghasilkan ratarata 0.27 dengan jumlah kalimat 78. Dari hasil pengamatan tersebut diperoleh
bahwa jumlah kalimat yang muncul dalam paragraf akan mempengaruhi tinggi
rendahnya jumlah nilai kalimat dan akan mempengaruhi nilai rata-ratanya.
Posisi Kalimat dalam Metode (f1b)
Kalimat dalam metode memiliki nilai rata-rata 0.19 dengan rata-rata terendah
0.05 pada dokumen 11.txt dan tertinggi 0.35 pada dokumen 48.txt. Ada 153 kalimat
yang muncul dalam metode pada dokumen 11.txt dengan jumlah nilai kalimat 7.5
dan pada dokumen 48.txt ada 180 kalimat dengan jumlah nilai kalimat 64. Dari
hasil pengamatan diperoleh bahwa jumlah nilai kalimat yang kecil akan
mempengaruhi rendahnya nilai rata-ratanya apabila jumlah kalimatnya banyak.
Posisi Kalimat dalam Hasil dan Pembahasan (f1c)
Kalimat dalam hasil dan pembahasan memiliki nilai rata-rata 0.28 dengan
ratarata terendah 0.03 pada dokumen 54.txt dengan jumlah nilai kalimat 30 serta
jumlah kalimat 106. Untuk rata-rata tertinggi 0.54 pada dokumen 11.txt dengan
jumlah nilai kalimat 82 serta jumlah kalimat 153. Dari hasil pengamatan diperoleh
bahwa jumlah nilai kalimat yang kecil akan mempengaruhi rendahnya nilai ratarata.
Posisi Kalimat dalam Kesimpulan (f1d)
Kalimat dalam kesimpulan memiliki nilai rata-rata 0.05 dengan rata-rata
terendah 0.02 pada dokumen 65.txt dengan jumlah kalimat 183 dan jumlah nilai
kalimat 3.00. Dokumen 85.txt merupakan dokumen yang memiliki rata-rata
tertinggi sebesar 0.20 dengan jumlah kalimat 159 dan jumlah nilai kalimat 3.17.
Perbedaan jumlah nilai antara rata-rata terendah dan tertinggi tidak terlalu
signifikan disebabkan karena jumlah kalimat yang muncul antara 4 sampai 13.
Kemiripan Antarkalimat (f2)
Hasil pengamatan untuk kemiripan antarkalimat menghasilkan nilai rata-rata
0.016 dengan rata-rata terendah 0.007 pada dokumen 9.txt dan tertinggi 0.028 pada
dokumen 31.txt. Ada 10 dokumen yang memiliki kalimat yang bernilai 0, hal
tersebut berarti tidak ada satu kata pun yang mirip dengan kata pada kalimat lainnya.
Hal ini terjadi juga karena pemisahan kalimat yang belum sempurna, seperti pada
dokumen 48.txt merupakan kalimat sumber yang dijadikan rujukan. Karena kalimat
sebelumnya terdapat tanda titik sehingga sistem membaca kalimat berikutnya

12
adalah satu kalimat baru dan menyebabkan kalimat tersebut bernilai 0. Kalimat
yang tidak memiliki kemiripan dengan kalimat lainnya dapat dilihat pada Tabel 2.
Tabel 2 Dokumen yang memiliki kalimat yang bernilai 0
Dokumen
3.txt
6.txt
19.txt

43.txt
48.txt
51.txt
59.txt
80.txt
88.txt
93.txt

Kalimat
apakah point, polygon, atau line.
Coming together is a beginning, staying together is
process, and working together is success.
direktori-direktori tersebut adalah
/home/ilos/.config, /home/ilos/.gconf,
/home/ilos/.gconfd, dan /home/ilos/.gnome2.
crebrisculpta (Dharma 1988).
(marcus et al 2004).
hal ini dilakukan untuk mempermudah dalam pemrosesan
selanjutnya.
s-p-o-pel-k
semakin besar coverage-nya, maka semakin besar
representasi mikroorganismenya.
unit-unit ini disebut sebagai token.
(jain 2009)

Kalimat yang Mengandung Data Numerik (f4)
Kalimat yang mengandung data numerik memiliki rata-rata 0.05 dengan ratarata terendah 0.005 pada dokumen 3.txt dan 5.txt, sedangkan tertinggi 0.13 pada
dokumen 40.txt. Dari hasil pengamatan walaupun dokumen 3.txt dan 5.tx
merupakan nilai terendah, namun jumlah kalimat yang mengandung data numerik
berbeda. Untuk dokumen 3.txt ada 8 kalimat yang mengandung data numerik
sedangkan dokumen 5.txt memiliki 5 kalimat yang mengandung data numerik.
Panjang kalimat dan jumlah data numerik dalam kalimat juga mempengaruhi nilai
kalimat. Pada dokumen 75.txt merupakan dokumen yang memiliki nilai tertinggi
yaitu sebesar 2, karena data numerik dalam kalimat berjumlah 8 sedangkan panjang
kalimat 4. Hal tersebut terjadi karena kalimat data numerik ada dalam satu kata
yang dipisahkan oleh huruf yaitu: nilai hash yang didapatkan yaitu
932625cac9419081a92c4d6af3b5da44.
Kalimat yang Menyerupai Judul Dokumen (f5)
Dari hasil pengamatan nilai rata-rata untuk kalimat yang menyerupai judul
adalah 0.26 dengan rata-rata terendah 0.01 pada dokumen 76.txt dan tertinggi 0.58
pada dokumen 97.txt. Nilai terendah 0.50 pada dokumen 99.txt dan tertinggi 1 pada
10 dokumen. Ada 48 dokumen yang memiliki rata-rata di atas 0.26. Banyaknya
jumlah kata yang muncul dalam satu kalimat menghasilkan nilai kalimatnya tinggi.
Panjang Kalimat (f6)
Dari hasil pengamatan nilai rata-rata sebesar 0.06 dengan rata-rata terendah
0.03 pada dokumen 9.txt dan tertinggi 0.10 pada dokumen 64.txt. Dengan nilai ratarata panjang kalimat terendah 0.08 pada dokumen 48.txt dan tertinggi 0.38 pada

13
dokumen 41.txt. Walaupun jumlah panjang kalimat dalam suatu kalimat pada
dokumen yang berdeda adalah sama, apabila jumlah kata uniknya besar maka nilai
kalimat kecil.

Seleksi Kalimat
Untuk menyeleksi kalimat yang terambil sebagai ringkasan menggunakan
perhitungan regresi logistik biner. Nilai regresi logistik biner diperoleh dari nilainilai fitur kalimat. Nilai yang dihasilkan yaitu g = (-1.51672) + (-0.02115 f1a) +
(0.45545 f1b) +(-0.28097 f1c) + (0.26993 f1d) + (21.71967 f2) + (1.68182 f3) +
(0.97838 f4) + (1.60137 f5) + (2.39809 f6). Dari persamaan tersebut akan
menghasilkan nilai bobot masing-masing kalimat. Bobot kalimat tersebut diurutkan
dari yang terbesar dengan ketentuan bobot kalimat yang lebih besar sama dengan
0.50 akan terambil sebagai kalimat ringkasan. Bobot kalimat yang telah terurut akan
diseleksi menggunakan CR 30%, 20%, dan 10% untuk dijadikan ringkasan. Pada
ringkasan sistem, kalimat dengan bobot di bawah 0.50 terambil sebagai ringkasan
pada CR 30% karena jumlah kalimat dengan bobot lebih dari 0.50 kurang dari
jumlah kalimat yang dibutuhkan untuk dijadikan ringkasan. selain itu judul
dokumen juga terambil sebagai ringkasan yang muncul pada kalimat terakhir
ringkasan tersebut. Padahal di dalam penghitungan fitur kalimat, judul dokumen
tidak termasuk dalam banyaknya jumlah kalimat.

Evaluasi
Proses evaluasi ini bertujuan untuk membandingkan ringkasan manual
dengan hasil ringkasan sistem. Dari hasil pengamatan pada CR 10% diperoleh
kalimat yang sama sebanyak 1 kalimat untuk nilai terendah yang terdapat pada
dokumen 17.txt dan tertinggi pada 66.txt dengan kalimat yang sama 18 kalimat.
Untuk CR 20% diperoleh kalimat yang sama sebanyak 3 kalimat untuk nilai
terendah yang terdapat pada dokumen 17.txt dan tertinggi pada dokumen 86.txt
sebanyak 32 kalimat yang sama. Sedangkan untuk CR 30% diperoleh kalimat yang
sama sebanyak 6 kalimat pada dokumen 17.txt dan tertinggi sebanyak 46 kalimat
yang sama pada dokumen 70.txt. Untuk melakukan evaluasi digunakan perhitungan
precision, recall, f-measure, dan akurasi.
Evaluasi dengan menggunakan precision dapat dilihat pada Gambar 4. Dari
hasil pengamatan rata-rata perhitungan pada CR 10% yaitu sebesar 60.99% dengan
nilai terendah 7.69% pada dokumen 17.txt dan tertinggi 100% pada dokumen 69.txt.
Untuk CR 20% rata-rata sebesar 54.62% dengan nilai terendah 11.54% pada
dokumen 17.txt dan tertinggi 85.71% pada dokumen 88.txt. Sedangkan CR 30%
rata-rata sebesar 52.02% dengan nilai terendah 15.22% pada dokumen 9.txt dan
tertinggi 90.48% pada dokumen 88.txt. Selain itu juga menghasilkan nilai rata-rata
fp pada CR 10% sebesar 5.49, CR 20% sebesar 12.51, dan CR 30% sebesar 19.74.
Dari hasil tersebut didapatkan bahwa semakin tinggi kompresi ringkasan maka
semakin tinggi jumlah kalimat di sistem yang tidak terambil dalam ringkasan
manual. Dapat disimpulkan bahwa semakin tinggi kompresi ringkasan dan nilai fp
maka semakin kecil nilai precision yang dihasilkan.

14
100

100

90.48

85.71

Rata-rata precision (%)

80
60.99
54.62

60

52.02

40

20

15.22

11.54

7.69
0
10

20

30

Kompresi ringkasan (%)
min

average

max

Gambar 4 Grafik nilai rata-rata precision
Dengan menggunakan recall didapatkan rata-rata perhitungan untuk CR 10%
yaitu sebesar 16.02% dengan nilai terendah 5.00% pada dokumen 17.txt dan
tertinggi 32.14% pada dokumen 19.txt, CR 20% sebesar 28.94% dengan nilai
terendah 15.11% pada dokumen 51.txt dan tertinggi 48.65% pada dokumen 3.txt,
sedangkan CR 30% sebesar 41.16% dengan nilai terendah 23.68% pada dokumen
14.txt dan tertinggi 62.16% pada dokumen 57.txt dapat dilihat pada Gambar 5. Dari
hasil pengamatan pada CR 10% didapatkan nilai rata-rata fn sebesar 41.56, CR 20%
sebesar 35.16, dan CR 30% sebesar 29.04. Hasil tersebut menunjukkan bahwa
semakin tinggi kompresi ringkasan dan nilai fn rendah maka semakin tinggi kalimat
ringkasan manual yang muncul pada sistem. Hal ini terjadi karena jumlah kalimat
ringkasan manual lebih banyak dibanding dengan ringkasan sistem.
Selanjutnya perhitungan dengan f-measure dengan memperhatikan nilai
recall dan precision. Pada penelitian ini nilai precision mengalami penurunan dari
kompresi ringkasan CR 10% sebesar 6.37% terhadap CR 20% dan 8.97% terhadap
CR 30%. Namun mengalami kenaikan sebesar 12% terhadap CR 20% dan 25.16%
terhadap CR 30% pada nilai recall. Dihasilkan nilai rata-rata perhitungan untuk CR
10% yaitu sebesar 25.06% dengan nilai terendah 6.06% pada dokumen 17.txt dan
tertinggi 40.91% pada dokumen 60.txt. Untuk CR 20% sebesar 37.39% dengan nilai
terendah 13.04% pada dokumen 17.txt dan tertinggi 59.02% pada dokumen 3.txt.
Sedangkan CR 30% sebesar 45.42% dengan nilai terendah 20.34% pada dokumen
17.txt dan tertinggi 67.65% pada dokumen 57.txt yang dapat dilihat pada Gambar
6. Sehingga dapat disimpulkan bahwa tingginya kompresi ringkasan, tingginya nilai
precision, dan rendahnya nilai recall menghasilkan tingginya nilai f-measure.

15
100

Rata-rata recall (%)

80
62.16
60

48.65
41.16

40

32.14

20

16.02

28.94

23.68

13.11

5.00
0
10

20
Kompresi ringkasan (%)
min

average

30
max

Gambar 5 Grafik nilai rata-rata recall

Rata-rata f-measure (%)

100
80

67.65
59.02

60

40.91
40

45.42
37.39

25.06
20

20.34

13.04
6.06

0
10

20
Kompresi ringkasan (%)
min

average

30

max

Gambar 6 Grafik nilai rata-rata f-measure
Selain itu untuk perhitungan akurasi didapatkan hasil rata-rata untuk CR 10%
yaitu sebesar 64.18% dengan nilai terendah 50.60% pada dokumen 73.txt dan
tertinggi 87.01% pada dokumen 9.txt, CR 20% sebesar 63.93% dengan nilai
terendah 47.06% pada dokumen 51.txt dan tertinggi 78.99% pada dokumen 3.txt,
dan CR 30% sebesar 63.32% dengan nilai terendah 50% pada dokumen 5.txt serta
51.txt dan tertinggi 78.64% pada dokumen 57.txt dapat dilihat pada Gambar 7.
Hasil tersebut menunjukkan bahwa akurasi tertinggi didapatkan pada CR 10%, hal

16
ini terjadi karena semakin sedikit hasil ringkasan maka peluang kalimat terambil
sebagai ringkasan semakin tinggi. Dari hasil pengamatan pada CR 10% hanya ada
37% dokumen yang akurasinya tinggi dibanding dengan akurasi pada CR 20% dan
CR 30%. Tidak dapat disimpulkan bahwa ringkasan tidak cukup baik, karena 63%
dokumen yang bernilai rendah memiliki nilai akurasi di atas 50%. Hal ini berarti
bahwa 63% dokumen lainnya sudah dapat merepresentasikan isi dokumen.
100
87.01

78.99

78.64

63.93

63.32

Rata-rata akurasi (%)

80
64.18
60
50.60

50.00

47.06

40
20
0
10

20
Kompresi ringkasan (%)
min

average

30

max

Gambar 7 Grafik nilai rata-rata akurasi

SIMPULAN DAN SARAN
Simpulan
Pembobotan kalimat menggunakan pembobotan fitur kalimat menghasilkan
nilai rata-rata tertinggi untuk precision pada CR 10% sebesar 60.99%, recall pada
CR 30% sebesar 41.16%, f-measure pada CR 30% sebesar 45.42%, dan akurasi
pada CR 10% sebesar 64.18%. Berdasarkan hasil tersebut dapat disimpulkan bahwa
hasil peringkasan dokumen menggunakan pembobotan fitur kalimat menunjukkan
nilai akurasi yang cukup baik untuk dokumen yang panjang seperti skripsi karena
untuk membuat ringkasannya tidak mudah dan memerlukan waktu untuk
memahaminya.

17
Saran
Pada penelitian selanjutnya disarankan untuk menambahkan aturan
pembacaan tanda titik (.) pada kalimat yang mengandung sumber rujukan agar
kalimat sesudah tanda titik (.) tersebut tidak dibaca sebagai kalimat baru, serta
menambahkan aturan pembacaan kalimat yang setelah tanda titik(.) tidak ada spasi
padahal kalimat tersebut merupakan kalimat baru.

DAFTAR PUSTAKA
Aristoteles, Herdiyeni Y, Ridha A, Adisantoso J. 2012. Text feature weighting for
summarization of documents in bahasa Indonesia using Genetic Algorithm.
IJCSI. 9(1): 1–6.
Fattah MA, Ren F. 2008. Automatic text summarization. International Journal of
Computer, Electrical, Automation, Control and Information Engineering. 2(1):
90-93.
Hosmer DW, Lemeshow S. 2000. Applied Logistic Regression. Ed ke-2. Canada
(CA): A Wiley-Interscience Publ.
Jezek K, Steiberger J. 2008. Automatic text summarization (the state of the art 2007
and new challenges). Di dalam: Znalosti 2008; Bratislave, 13-15 Feb 2008. hlm
1-12.
Kogilavani A, Balasubramani P. 2010. Clustering and feature specific sentence
extraction based summarization of multiple documents. IJCSIT. 2(4): 99–111.
Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information Retrieval.
Cambridge (GB): Cambridge University Press.
Marlina M. 2012. Sistem peringkasan dokumen berita bahasa Indonesia
menggunakan metode Regresi Logistik Biner [skripsi]. Bogor (ID): Institut
Pertanian Bogor.
Mustika A. 2006. Pengembangan aplikasi Data Mining menggunakan Fuzzy
Association Rules [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Power DMW. 2011. Evaluation: from precision, recall and f-Measure to ROC,
informedness, markedness & correlation. Journal of Machine Learning
Technologies. 2(1): 37–63.
Sofi F. 2006. Pengembangan Sistem Informasi Geografis hutan kota propinsi DKI
Jakarta [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Turney PD, Pantel P. 2010. From frequency to meaning: Vector Space Models of
Semantics. Journal of Artificial Intelligence Research. 37(5): 141–188.
Wijakso B. 2012. Klasifikasi jurnal ilmiah berbahasa Inggris berdasarkan abstrak
menggunakan Algoritma ID3 [skripsi]. Malang (ID): Universitas Brawijaya.
Xie S, Liu Y. 2008. Using corpus and knowledge based Similarity Measure
in Maximum Marginal Relevance for meeting summarization. ICASSP.
4985–4988.
Zaman B, Winarko E. 2011. Analisa fitur kalimat untuk peringkas teks
otomatis pada bahasa Indonesia. IJCCS. 5(2): 60–68.

18

RIWAYAT HIDUP
Penulis dilahirkan di Panyakalan pada tanggal 11 November 1988 dari ayah
Syafrizal dan ibu Roslidawati. Penulis adalah anak kedua dari empat bersaudara.
Tahun 2007 penulis lulus SMA Negeri 1 Solok dan pada tahun yang sama penulis
lulus seleksi masuk Politeknik Universitas Andalas, Jurusan Teknologi Informasi,
Program Studi Manajemen Informatika. Tahun 2013 penulis melanjutkan
pendidikan tingkat sarjana pada program Ekstensi Departemen Ilmu Komputer IPB
angkatan ke-8.