Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode K-Means.

PERINGKASAN DOKUMEN BAHASA INDONESIA
MENGGUNAKAN METODE K-MEANS

MUHAMMAD RHEZA MUZTAHID

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Peringkasan Dokumen
Bahasa Indonesia Menggunakan Metode K-Means adalah benar karya saya
dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun
kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip
dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah
disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, Desember 2015
Muhammad Rheza Muztahid
NIM G64134021

ABSTRAK
MUHAMMAD RHEZA MUZTAHID. Peringkasan Dokumen Bahasa Indonesia
Menggunakan Metode K-Means. Dibimbing oleh JULIO ADISANTOSO.
Membaca dokumen yang memiliki teks yang sangat panjang merupakan
kegiatan yang menghabiskan banyak waktu. Perlu dilakukan peringkasan terhadap
dokumen teks yang besar agar meringankan beban pengguna untuk tidak
membaca dokumen secara keseluruhan. Penelitian ini mengusulkan untuk
pembuatan peringkasan dokumen otomatis menggunakan fitur kata dan metode KMeans. Ringkasan dokumen otomatis dapat digunakan untuk mendapatkan
ringkasan teks dengan cepat sehingga memudahkan pengguna untuk mendapatkan
informasi utama dari sebuah dokumen. Penelitian ini melakukan peringkasan
dokumen dengan menggunakan fitur kata dan metode k-means. Hasil penelitian
yang telah dilakukan menghasilkan rata-rata akurasi 58.51%, recall 22.06%,
precision 43.84%, dan f-measure 27.88%.
Kata kunci: fitur kata, k-means, peringkasan dokumen


ABSTRACT
MUHAMMAD RHEZA MUZTAHID. Text Summarization For Indonesian
Language Using K-Means Method. Supervised by JULIO ADISANTOSO.
Reading a document with very long text is a time-consuming activity.
Therefore, it is necessary to summarize the documents in order to ease the burden
on the reader to not read the whole document. This research proposes automatic
text summarization using word features and K-Means method. Automatic text
summary can be used to get a quick summary of the text by making it easier for
readers to get key information from a document. The result of this research
produces average accuracy 58.51%, recall 22.06%, precision 43.88%, and Fmeasure 27.88%.
Keywords: k-means, text summarization, word features

PERINGKASAN DOKUMEN BAHASA INDONESIA
MENGGUNAKAN METODE K-MEANS

MUHAMMAD RHEZA MUZTAHID

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer

pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015

Penguji:
1 Ahmad Ridha, SKom, MS
2 Husnul Khotimah, SKomp, MKom

Judul Skripsi : Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode KMeans
Nama
: Muhammad Rheza Muztahid
NIM
: G64134021

Disetujui oleh


Ir Julio Adisantoso, MKom
Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi, MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji syukur penulis panjatkan kehadirat Allah SWT yang telah memberikan
rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan skripsi yang
berjudul “Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode KMeans”. Skripsi ini disusun sebagai syarat mendapat gelar Sarjana Komputer
(SKomp) pada Program Sarjana Ilmu Komputer di Fakultas Matematika dan Ilmu
Pengetahuan Alam Institut Pertanian Bogor (IPB).
Penulis mengucapkan terima kasih kepada Bapak Ir. Julio Adisantoso,
M.Kom selaku dosen pembimbing skripsi yang telah memberikan saran, arahan,
serta dukungannya selama penelitian ini. Ungkapan terima kasih juga penulis

sampaikan kepada orang tua tercinta, ibunda Milwani Syam, ayahanda Husen
Sadim, abang Muhammad Aidil Fahmy, dan adik Muhammad Fazri Nahar, atas
segala doa, kasih sayang, dukungan semangat, serta motivasi kepada penulis
untuk kelancaran penelitian ini. Tak lupa juga penulis ucapkan terima kasih
kepada teman-teman satu bimbingan, Lutfia dan Yozi, atas bantuan dan
kerjasamanya dalam melakukan penelitian ini, serta kepada teman-teman Ekstensi
Ilmu Komputer angkatan 8, atas kebersamaannya selama menjalani masa studi.
Semoga skripsi ini dapat memberikan kontribusi yang bermakna bagi
pengembangan wawasan para pembaca, khususnya mahasiswa dan masyarakat
pada umumnya.
Semoga karya ilmiah ini bermanfaat.

Bogor, Desember 2015
Muhammad Rheza Muztahid

DAFTAR ISI
DAFTAR TABEL

vi


DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi

PENDAHULUAN

1

Latar Belakang

1

Perumusan Masalah

2


Tujuan Penelitian

2

Manfaat Penelitian

3

Ruang Lingkup Penelitian

3

METODE

3

Pengumpulan Dokumen

3


Pengindeksan

4

Peringkasan Teks

5

Evaluasi

9

Lingkungan Pengembangan

9

HASIL DAN PEMBAHASAN

10


Pengumpulan Dokumen

10

Pengindeksan

10

Peringkasan Teks

13

Evaluasi Hasil Ringkasan

17

SIMPULAN DAN SARAN

24


Simpulan

24

Saran

24

DAFTAR PUSTAKA

24

LAMPIRAN

26

RIWAYAT HIDUP

32


DAFTAR TABEL
1
2
3
4
5
6
7
8
9
10
11
12

Matriks TFISF
Pendukung untuk menghitung recall, precision, f-measure, dan
akurasi
Record kata
Sebaran nilai IDF
Matriks hasil TFISF dokumen ke-4
Hasil clustering dokumen ke-4
Hasil ringkasan dengan tingkat peringkasan 30%
Hasil ringkasan dengan tingkat peringkasan 20%
Hasil ringkasan dengan tingkat peringkasan 10%
Suatu percobaan hasil peringkasan dokumen 91
Suatu percobaan hasil peringkasan dokumen 9
Percobaan hasil peringkasan dokumen 9 dengan fitur kata baru

7
9
12
13
16
17
18
18
18
20
21
22

DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
11

Diagram alur peringkasan teks otomatis
Skema pemisahan kalimat dan case folding
Algoritma K-Means
Proses seleksi kalimat
Statistik kalimat 100 dokumen
Perbandingan nilai akurasi peringkasan otomatis
Perbandingan nilai recall peringkasan otomatis
Perbandingan nilai precision peringkasan otomatis
Perbandingan nilai f-measure peringkasan otomatis
Perbandingan keseluruhan hasil ringkasan
Dokumen 10.txt yang mengalami perubahan akurasi berlawanan

4
6
8
8
11
19
19
20
22
22
23

1

PENDAHULUAN
Latar Belakang
Peningkatan teknologi informasi yang begitu pesat telah membuat terjadinya
peningkatan dokumen teks digital secara besar-besaran. Riset yang dilakukan MGI
(2011) menerangkan bahwa pada tahun 2010 ada 5 milyar pengguna mobile phone,
300 milyar potongan konten yang dibagikan di facebook setiap bulannya, lebih dari
7 exabyte data baru yang disimpan oleh perusahaan global, sementara konsumen
menyimpan lebih dari 6 exabyte data baru pada perangkat seperti Personal
computer (PC) dan notebook. Data yang mengandung informasi tersebut tersebar
dalam bentuk dokumen teks seperti artikel, berita, buku, makalah ilmiah, dan
lain-lain. Dokumen yang banyak ini juga memiliki teks yang sangat panjang dan
menyebabkan isi dokumen sulit dimengerti dengan cepat.
Mencari informasi utama dari dokumen yang besar adalah pekerjaan yang
sangat sulit. Perlu dilakukan peringkasan terhadap dokumen teks tersebut agar
dapat dengan cepat menghasilkan informasi bagi pengguna. Fungsi ringkasan ini
adalah untuk membantu pengguna mendapatkan informasi yang relevan dengan
cepat tanpa harus membaca dokumen secara keseluruhan.
Agrawal et al. (2014) menerangkan bahwa peringkasan teks adalah suatu
proses untuk menciptakan versi kompresi dari teks tertentu yang menyediakan
informasi yang berguna bagi pengguna. Ringkasan dokumen dapat menghasilkan
informasi inti dokumen secara singkat namun memenuhi keperluan pembaca.
Teknik untuk peringkasan dokumen dapat diklasifikasikan ke dalam dua
kategori: ekstraksi dan abstraksi (Suanmali et al. 2009). Suanmali et al. (2009)
menerangkan bahwa peringkasan dengan teknik ekstraksi adalah menyeleksi
kalimat atau frasa dari teks asli dengan menghitung skor tertinggi dan
menggabungkannya menjadi suatu teks pendek baru atau ringkasan tanpa
mengubah teks sumber, sedangkan teknik abstraksi menggunakan metode
linguistik untuk memeriksa dan menafsirkan teks.
Keuntungan menggunakan teknik ekstraksi adalah mudah untuk diterapkan
dan didasarkan pada fitur-fitur statistik bukan pada hubungan semantik dalam
memilih kalimat penting atau kata kunci dari dokumen. Akan tetapi, kekurangan
teknik ekstraksi yaitu cenderung tidak konsisten dan informasi yang saling
bertentangan tidak dapat disajikan secara akurat. Sementara itu, keuntungan dari
teknik abstraksi yaitu menghasilkan rasio kompresi yang baik, serta mendapatkan
ringkasan yang lebih akurat karena menggunakan hubungan semantik. Akan tetapi,
teknik abstraksi lebih sulit diterapkan karena membutuhkan pemahaman teks asli
(Munot dan Govilkar 2014).
Selain teknik ekstraksi dan abstraksi, terdapat pendekatan lain yaitu
berdasarkan mesin pembelajaran. Pada umumnya terdapat dua jenis algoritme
pembelajaran yaitu supervised learning algorithms dan unsupervised learning
algorithms (Wajeed dan Adilakshmi 2009). Menurut Wajeed dan Adilakshmi
(2012) supervised learning merupakan algoritme yang menyediakan data latih
yang dapat disebut sebagai label kelas atau atribut keputusan, sedangkan

2
unsupervised learning tidak memiliki data latih.
Pada umumnya proses peringkasan dokumen otomatis terdiri atas beberapa
tahapan yaitu pengumpulan dokumen, pengindeksan, pemilihan fitur, pembobotan
kalimat dan pengujian. Hal yang paling penting dalam peringkasan dokumen
otomatis adalah tahap pembobotan kalimat. Tahapan inilah yang menentukan
kalimat-kalimat mana saja yang dipilih dan dimasukkan ke dalam hasil
peringkasan.
Kebanyakan sistem peringkasan teks otomatis dilakukan dengan teknik
ekstraksi.
Suanmali et al. (2009) melakukan ekstraksi kalimat penting
menggunakan aturan fuzzy dan fuzzy set untuk pembobotan kalimat berdasarkan
pada 8 fitur yaitu judul, panjang kalimat, bobot kata, posisi kalimat, kesamaan
kalimat, kata tematik, dan kata benda yang tepat. menghasilkan rata-rata precision
sebesar 49.77%, recall 45.70%, dan f-measure 47.18%. Mustaqhfiri (2011)
menggunakan metode Maximum Marginal Relevance (MMR) untuk pembobotan
kalimat yang menghasilkan rata-rata recall 60%, precision 76% dan f-measure
65% dari evaluasi antara ringkasan otomatis dengan ringkasan manual.
Penelitian yang sudah sering dilakukan umumnya digunakan untuk dokumen
yang pendek seperti dokumen artikel dan berita, sedangkan untuk dokumen yang
panjang seperti dokumen karya ilmiah yang terdiri atas beberapa bab belum terlalu
banyak dilakukan. Oleh karena itu, penelitian yang akan dilakukan adalah
membuat peringkasan dokumen otomatis untuk dokumen karya ilmiah, yaitu
skripsi, dengan menggunakan teknik ekstraksi dengan menggunakan metode
K-Means sebagai pembobotan kalimat. Hal ini karena K-Means mempunyai
kemampuan mengelompokkan data dalam jumlah yang cukup besar dengan waktu
komputasi yang relatif cepat dan efisien (Arai dan Barakbah 2007).
Perumusan Masalah
Perumusan masalah dalam penelitian ini yaitu:
1 Bagaimana metode pembobotan kalimat berdasarkan fitur kata untuk
keperluan peringkasan teks?
2 Apakah metode K-Means tepat digunakan dalam peringkasan teks?
3 Bagaimana implementasi metode K-Means untuk peringkasan dokumen
skripsi?
Tujuan Penelitian
Tujuan dari penelitian ini antara lain:
1 Mengembangkan peringkasan dokumen otomatis menggunakan pembobotan
kalimat berdasarkan fitur kata.
2 Menganalisis ketepatan penggunaan metode K-Means dengan pembobotan
kalimat dalam peringkasan dokumen otomatis.
3 Mengimplementasikan metode K-Means untuk peringkasan dokumen skripsi.

3
Manfaat Penelitian
Penelitian ini diharapkan aplikasi yang dibangun dapat menghasilkan metode
peringkasan yang efektif dan memiliki kinerja yang baik.
Ruang Lingkup Penelitian

1
2
3
4
5
6

Adapun ruang lingkup dari penelitian ini antara lain:
Penelitian ini menggunakan dokumen skripsi Ilmu Komputer berbahasa
Indonesia.
Pembobotan kalimat dilakukan berdasarkan fitur kata dan dengan
menggunakan metode Term Frequency-Inverse Sentence Frequency.
Pemilihan fitur kata dilakukan dengan menggunakan metode Inverse
Document Frequency.
Peneliti menggunakan metode K-Means untuk pengelompokan kalimat.
Penelitian ini dilakukan dengan menggunakan tingkat peringkasan 30%,
20%, dan 10%.
Evaluasi dilakukan dengan membandingkan hasil ringkasan manual dan hasil
ringkasan sistem menggunakan teknik F-Measure.

METODE
Penelitian ini dilakukan dengan beberapa tahap yaitu tahap pengumpulan
dokumen, tahap pengindeksan, proses peringkasan, dan evaluasi. Diagram alur
proses dapat dilihat pada Gambar 1.
Pengumpulan Dokumen
Dokumen yang digunakan dalam penelitian ini adalah 100 dokumen yang
diambil dari repository.ipb.ac.id. Setiap dokumen akan dibuat ringkasan manualnya
dan juga dibuat ringkasan menggunakan sistem peringkasan otomatis. kedua hasil
ringkasan akan dibandingkan guna mengukur seberapa akurat sistem peringkasan
otomatis yang dibuat.
Kumpulan dokumen yang didapat dari repository.ipb.ac.id adalah merupakan
dokumen dengan format PDF. setiap dokumen akan diubah secara manual menjadi
bentuk format TXT. Beberapa aturan yang digunakan pada tahap ini adalah:
1 Tidak melibatkan tabel, gambar, persamaan, algoritme beserta penjelasannya.
2 Bukan berupa list pendek, kecuali pada bagian kesimpulan dan saran.
3 Kutipan tidak dihilangkan.
4 Judul bab dan sub bab dihilangkan.
5 Catatan kaki dihilangkan.
6 Tinjauan pustaka dihilangkan.

4

Gambar 1 Diagram alur peringkasan teks otomatis
Pengindeksan
Pengindeksan terdiri atas dua tahap yaitu pemisahan kata dan pemilihan fitur
kata. Pengindeksan sangatlah penting dilakukan karena pada tahap ini akan
menghasilkan fitur kata untuk dijadikan bahan pembobotan kalimat.
Pemisahan Kata
Tahap pertama dalam pengindeksan yaitu memisahkan kata-kata dari teks
dalam dokumen. Seluruh dokumen akan diproses untuk dijadikan kumpulan kata
yang akan digunakan pada proses selanjutnya yaitu pemilihan fitur kata.
Pemisahan kata dilakukan dengan menggunakan delimiter karakter white space
pada setiap kalimat atau teks, dan juga dilakukan case folding untuk mengubah
semua huruf pada setiap kata menjadi bentuk yang seragam.
Pemilihan Fitur Kata
Penelitian ini menggunakan fitur kata untuk mendapatkan bahan ringkasan.
Pemilihan fitur kata merupakan proses untuk memilih kata-kata yang akan dijadikan

5
kata kunci untuk menentukan penting atau tidaknya sebuah kalimat. Untuk memilih
kata kunci, seluruh kata harus memiliki bobot nilai dan diurutkan berdasarkan nilai
bobot dari yang terbesar hingga terkecil.
Terdapat beberapa cara pemilihan fitur kata antara lain yaitu Mutual
Information (MI), Chi-Square (Chi-square (χ 2 ), dan Inverse Document Frequency
(IDF) (Manning et al. 2008). MI dan Chi-square (χ 2 ) baik digunakan sebagai
metode pemilihan fitur kata untuk klasifikasi teks, sedangkan metode IDF baik
digunakan untuk peringkasan teks (Manning et al. 2008). Maka dari itu, penelitian
ini menggunakan metode Inverse Document Frequency (IDF).
Luthfiarta et al. (2013) menerangkan bahwa IDF adalah perhitungan
logaritma pembagian jumlah dokumen dengan frekuensi dokumen yang memuat
suatu term. Persamaan IDF sebagai berikut:
IDFt = log(

N
)
DFt

(1)

dengan N adalah jumlah seluruh dokumen, DFt adalah jumlah dokumen yang
mengandung kata t. Jika sebuah kata muncul di banyak dokumen, maka hasil dari
IDF akan semakin kecil, begitu pula sebaliknya. Kata-kata yang sering muncul
pada setiap dokumen biasanya adalah kata yang tidak penting. Beberapa contoh
kata yang mungkin sering muncul di setiap dokumen ; “di”, “ke”, “pada”,
“dengan”, “lalu”, dan lain sebagainya.
Peringkasan Teks
Proses peringkasan merupakan tahap inti dari penelitian ini, yang akan
menghasilkan ringkasan sistem yang nantinya akan menjadi bahan pembanding
dengan hasil ringkasan manual untuk dilakukan evaluasi. Proses peringkasan
terdiri dari beberapa tahap yaitu parsing kalimat, pembobotan TF-ISF,
pengelompokan kalimat dengan menggunakan metode K-Means, dan yang terakhir
adalah menyeleksi kalimat dari setiap kelompok untuk dijadikan sebagai
ringkasan.
Pemisahan Kalimat
Tahap pertama dalam proses peringkasan adalah memisahkan dokumen
menjadi kumpulan kalimat. Kalimat adalah gabungan dari dua buah kata atau lebih
yang menghasilkan suatu makna tertentu dan diakhiri dengan suatu tanda titik
sebagai tanda berhenti. Kalimat dapat dipisah dengan memperhatikan beberapa
tanda baca seperti titik (.), tanda seru (!), dan tanda tanya (?).
Pemisahan kalimat berfungsi untuk mengumpulkan kalimat-kalimat yang
terdapat pada dokumen. Pada proses ini juga dilakukan case folding untuk
mengubah semua huruf di dalam dokumen ke dalam bentuk yang seragam. Pada
penelitian ini semua kata diseragamkan dengan huruf kecil (lower case). Contoh
pemisahan kalimat dan case folding dapat dilihat pada Gambar 2.

6

Gambar 2 Skema pemisahan kalimat dan case folding
Pembobotan TF-ISF
Pembobotan Term frequency – inverse sentence frequency (TF-ISF) dilakukan
setelah mendapatkan fitur kata yang akan digunakan. Pada Tahap ini juga nilai
TFISF dari setiap kalimat akan dijumlahkan dan dijadikan sebagai nilai dari suatu
kalimat yang nantinya akan digunakan pada tahap seleksi kalimat. Persamaan ISF
dan TF-ISF dapat dilihat pada persamaan berikut: (Rino et al. 2004).
ISFt = log(

N
)
SFt

T FISFt,s = T Ft,s × ISFt

(2)
(3)

dengan T Ft,s adalah frekuensi kemunculan kata t pada kalimat s, N adalah
banyaknya kalimat dalam dokumen, dan SFt adalah banyaknya kalimat yang
mengandung kata t. Nilai T FISFt,s akan tinggi jika kata t muncul beberapa kali
dalam kalimat dan jarang muncul pada kalimat lain, dan rendah jika kata t muncul
hampir di seluruh kalimat (Manning et al. 2008). Bobot kata ke t pada kalimat ke s
dalam peringkasan dokumen dapat dituliskan sebagai suatu matriks term-sentence
seperti yang dapat dilihat pada Tabel 1.
Clustering Kalimat dengan Metode K-Means
Clustering adalah metode untuk mengatur koleksi data yang besar dengan
partisi beberapa data set secara otomatis, sehingga objek yang memiliki kesamaan
akan dikelompokkan ke dalam suatu kelompok yang berbeda dengan kelompok
lainnya (Muflikhah dan Baharudin 2009). K-means adalah salah satu teknik
clustering dengan tujuan membagi sejumlah objek ke dalam partisi-partisi dengan

7
Tabel 1 Matriks TFISF

t1
t2
t3
t4
t5
...
tm

s1

s2

s3

...

sn

w1,1
w2,1
w3,1
w4,1
w5,1
...
wm,1

w1,2
w2,2
w3,2
w4,2
w5,2
...
wm,2

w1,3
w2,3
w3,3
w4,3
w5,3
...
wm,3

...
...
...
...
...
...
...

w1,n
w2,n
w3,n
w4,n
w5,n
...
wm,n

melihat titik tengah (centroid) yang diberikan (Wadhvani et al. 2013). Suatu objek
data termasuk dalam suatu cluster jika memiliki jarak terpendek terhadap centroid
cluster tersebut.
Clustering yang dilakukan pada penelitian ini digunakan untuk
mengelompokan kalimat. Kalimat yang berada pada satu kelas adalah kalimat
yang memiliki makna yang sama, sehingga nantinya akan dilakukan seleksi
kalimat dengan cara mengambil salah satu kalimat dari setiap cluster sebagai
perwakilan akan makna tertentu. Secara umum algoritme K-Means dapat dilihat
pada Gambar 3.
Banyaknya cluster pada penelitian ini bergantung pada tingkat peringkasan
dan jumlah kalimat pada dokumen yang akan diringkas. Pada penelitian ini terdapat
3 tingkat peringkasan yaitu 30%, 20%, dan 10%. Apabila jumlah kalimat pada
dokumen yang akan diringkas sebanyak 150 kalimat, dengan tingkat peringkasan
sebesar 10%, maka jumlah cluster adalah sebanyak 150 x 0.10 = 15 cluster.
Penentuan centroid awal (initial centroid) dilakukan dengan cara mengambil
data dari tabel matriks TFISF secara acak atau random. Pada pengulangan
berikutnya, centroid dihitung dengan menghitung nilai rata-rata data pada setiap
cluster. Jika centroid baru berbeda dengan centroid sebelumnya, maka proses
dilanjutkan ke langkah berikutnya. Namun Jika centroid yang baru dihitung sama
dengan centroid sebelumnya, maka proses clustering selesai. Rumus yang
digunakan untuk menghitung jarak data dengan centroid adalah rumus euclidean
distance. Adapun rumus euclidean distance dapat dilihat pada persamaan berikut;
s
n

d(xi , c j ) =

∑ (xik − c jk )2

(4)

j=1

dengan d adalah jarak data dengan centroid, j adalah banyaknya data, k adalah
dimensi, c adalah centroid, dan x adalah data. Pengelompokan data dilakukan
dengan memilih data yang memiliki jarak terpendek dengan centroid.
Seleksi Kalimat
Seleksi kalimat adalah proses akhir untuk menghasilkan ringkasan. Kalimat
yang berada pada satu cluster adalah kalimat yang memiliki makna yang sama.

8

Gambar 3 Algoritme K-Means
Oleh karena itu, Seleksi kalimat dilakukan dengan cara mengambil satu kalimat
dari setiap cluster yang dihasilkan dari algoritme K-Means.
Seleksi kalimat dilakukan dengan cara mengurutkan kalimat dari nilai
tertinggi hingga terendah yang didapat dari penjumlahan nilai TFISF. Pengurutan
kalimat dilakukan pada setiap cluster, sehingga pada setiap cluster akan dipilih
satu kalimat yang memiliki nilai tertinggi. Banyaknya kalimat hasil ringkasan
adalah sebanyak jumlah cluster yang bergantung pada banyaknya kalimat pada
dokumen yang akan diringkas dan besarnya tingkat peringkasan. Ilustrasinya dapat
dilihat pada Gambar 4.

Gambar 4 Proses seleksi kalimat

9
Evaluasi
Peringkasan sistem dilakukan pada seluruh dokumen dengan tingkat
peringkasan 30%, 20%, dan 10%. Ada beberapa teknik evaluasi untuk mengukur
kualitas performa dari model clustering kalimat, diantaranya adalah information
metrix, misclassification index, purity, F-Measure (Luthfiarta et al. 2013).
Penelitian ini menggunakan teknik F-measure untuk mengukur kinerja model yang
diusulkan. Pengukuran F-Measure berdasar pada nilai Precision dan Recall.
Luthfiarta et al. (2013) menerangkan bahwa, semakin tinggi nilai Precision
danRecall maka semakin tinggi pula tingat akurasinya.
Recall adalah proporsi kalimat yang ditemukan kembali sebagai ringkasan,
dan Precision adalah proporsi jumlah kalimat yang ditemukan dan dianggap relevan
(Yang et al. 2014). Menurut Manning et al. (2008) untuk memudahkan melakukan
perhitungan, maka digunakan tabel pendukung yang dapat dilihat pada Tabel 2.
Tabel 2 Pendukung untuk menghitung recall, precision, f-measure, dan akurasi

Retrieved
Not Retrieved

Relevant

Non-Relevant

tp
fn

fp
tn

Dari Tabel 2, nilai Recall, Precision, F-Measure, dan Akurasi dapat dihitung
menggunakan rumus sebagai berikut:
Recall =

tp
tp+ fn

Precision =
F − Measure =
Akurasi =

tp
tp+ f p

(5)

(6)

2 × Recall × Precision
Recall + Precision

(7)

t p + tn
t p + f p + f n + tn

(8)

sedangkan t p (true positive) adalah jumlah kalimat relevan yang terambil, f p
(false positive) adalah jumlah kalimat yang tidak relevan yang terambil, f n (false
negative) adalah jumlah kalimat relevan yang tidak terambil, dan tn (true negative)
adalah jumlah kalimat yang tidak relevan yang tidak terambil.
Lingkungan Pengembangan
Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk
penelitian ini sebagai berikut:
1 Perangkat keras berupa komputer personal dengan spesifikasi sebagai berikut:
• Processor Core i7 vPro

10
• RAM 8GB
• Monitor LCD 14.0” HD
• SSD 250 GB
2 Perangkat lunak:
• Sistem Operasi Windows 8
• Bahasa pemrograman PHP
• XAMPP v1.8.0
• Sublime Text 3 digunakan sebagai editor kode program

HASIL DAN PEMBAHASAN
Pengumpulan Dokumen
Kumpulan dokumen yang didapat dari repository.ipb.ac.id adalah merupakan
skripsi mahasiswa Ilmu Komputer Institut Pertanian Bogor sebanyak 100
dokumen. Pengumpulan dokumen dilakukan dengan cara mengunduh secara acak
tanpa memperhatikan indikator apapun. Keseluruhan dokumen tersebut digunakan
sebagai data latih untuk menentukan fitur kata dan juga sebagai data uji untuk
pengujian sistem peringkasan otomatis. Setelah didapat 100 dokumen, dilakukan
konversi secara manual dengan cara melakukan copy-paste setiap kalimat pada
dokumen PDF yang sesuai dengan aturan yang telah dibuat, ke dalam file
berformat TXT. Dokumen yang digunakan pada penelitian ini dapat dilihat pada
Lampiran 1.
Proses pengumpulan dokumen ini memakan waktu yang cukup lama karena
harus memeriksa setiap kalimat dan disesuaikan dengan aturan yang telah dibuat.
Hasil konversi menghasilkan rata-rata 134 kalimat dalam setiap dokumen. Adapun
perbandingan banyaknya kalimat setelah dan sebelum dilakukan konversi dapat
dilihat pada Gambar 5.

Gambar 5 Statistik kalimat 100 dokumen

11
Secara keseluruhan, rata-rata sebesar 34.33% dari isi dokumen adalah
tinjauan pustaka dan kalimat yang menjelaskan tentang gambar, tabel, dan
persamaan/rumus. Oleh karena itu, rata-rata hanya 65.67% dari isi dokumen yang
diikutsertakan dalam proses konversi dokumen. Selain melakukan perubahan
dokumen ke dalam bentuk TXT, juga dilakukan peringkasan manual yang nantinya
akan digunakan sebagai bahan pembanding dengan hasil ringkasan sistem untuk
melakukan evaluasi. Pada penelitian ini diasumsikan bahwa hasil ringkasan
manual adalah baik.
Pengindeksan
Pengindeksan dilakukan dengan cara mengunggah satu persatu seluruh
dokumen TXT ke dalam sistem. Sistem akan melakukan pemisahan kata serta
menyimpan kata-kata yang terdapat pada setiap dokumen. kata yang telah
disimpan akan digunakan untuk pembobotan kata dengan penghitungan IDF.
Pemisahan Kata
Pemisahan kata dilakukan dengan menggunakan delimiter karakter
whitespace dan dijadikan ke dalam bentuk array. adapun potongan kode algoritme
pemisahan kata yang digunakan pada penelitian ini sebagai berikut:
1. $filename = ’./DATA_UPLOAD’.$path;
2. $content = strtolower(file_get_contents($filename));
3. $wordArray = preg_split(’/[^ a-z]/’,$content, -1,
PREG_SPLIT_NO_EMPTY);
4. $wordFrequencyArray = array_count_values($filteredArray);
5. arsort($wordFrequencyArray);
Penelitian ini menggunakan fungsi “array count values()” pada bahasa
pemrograman PHP untuk mendapatkan frekuensi kata dan memfilter kata agar
tidak terjadi redudansi kata pada array yang telah didapat di setiap dokumen.
Potongan kode di atas memisahkan kata pada dokumen dengan memperhatikan
karakter huruf yang dipisahkan oleh whitespace. Sementara itu, untuk angka
dan/atau karakter selain huruf, tidak akan dianggap sebagai kata.
Setelah mendapatkan kumpulan kata pada dokumen, kumpulan kata tersebut
disimpan ke dalam database. Pemisahan kata pada 100 dokumen dalam penelitian
ini telah menghasilkan record sebanyak 59230 kata. Namun, record tersebut masih
mencatat seluruh kata yang keluar pada setiap dokumen. Contoh kasus; kata
‘adalah’ muncul di setiap dokumen yang artinya terdapat 100 record kata ‘adalah’.
Pada record tersebut juga terdapat 4 kata yang hanya terdiri dari 2 karakter yaitu:
“et”, “al”, “id”, dan “ms”.
jika 59230 record dilakukan teknik distinct
(menghilangkan duplikasi) berdasarkan kata juga tidak mengikut sertakan kata
yang hanya terdiri dari 2 karakter, maka akan menghasilkan 11151 kata unik.
Beberapa kata unik dapat dilihat pada Tabel 3.

12
Tabel 3 Record frekuensi kemunculan kata terhadap dokumen
Kata
adalah
dan
proses
metode
sistem
nilai
funsi
model
pengembangan
berbasis
format
evaluasi
fitur
komputer
system
user
query
relevan
sql
video
euclidean
zulkifli
xmlhttprequest

Frekuensi
100
100
96
92
88
87
79
70
66
61
57
53
48
46
39
38
25
25
11
11
4
1
1

Pada Tabel 3 dapat dilihat bahwa ada kata yang memiliki makna yang sama
sperti kata ‘sistem’ dan ‘system’. Kata ‘sistem’ muncul pada 88 dokumen,
sedangkan kata ‘system’ muncul pada 39 dokumen. Hal ini membuat bobot nilai
kedua kata tersebut berbeda yang seharusnya dapat dijadikan 1 kata yang sama.
Namun, pada penelitian ini kasus di atas tetap dijadikan 2 kata yang berbeda dan
bobot yang berbeda karena sulitnya melakukan standarisasi kata dan bahkan
mungkin merupakan suatu ungkapan atau obyek yang berbeda. Penelitian ini juga
tidak menggunakan stemming dalam proses pemisahan kata karena proses
stemming (proses untuk menemukan kata dasar dari sebuah kata) pada bahasa
Indonesia lebih rumit/kompleks karena terdapat variasi imbuhan yang harus
dibuang untuk mendapatkan kata dasar dari sebuah kata.
Pemilihan Fitur Kata
Pemilihan fitur kata didapat dengan menggunakan metode IDF. Pada
penelitian ini, nilai IDF yang diambil sebagai fitur kata adalah nilai IDF yang
terletak pada 0.1 ≤ IDF < 2.0 . Hal ini bertujuan untuk mendapatkan fitur kata
yang keluar lebih dari 10 dokumen dan tidak pada seluruh dokumen. Adapun nilai

13
IDF yang dihasilkan dapat dilihat pada Tabel 4.
Tabel 4 Sebaran nilai IDF
Frekuensi Jumlah Kata
1-13
14-20
21-30
31-40
41-50
51-60
61-70
71-80
81-90
91-100

10195
295
229
140
72
64
39
34
25
58

IDF
4.61 - 2.04
1.97 - 1.61
1.56 - 1.20
1.17 - 0.92
0.89 - 0.69
0.67 - 0.51
0.49 - 0.36
0.34 - 0.22
0.20 - 0.11
0.09 - 0.00

Pada Tabel 4 terlihat bahwa dari 11151 kata, terdapat 10195 kata yang
memiliki frekuensi kemunculan 1-13 dokumen. Apabila fitur kata yang digunakan
memiliki frekuensi kemunculan yang kecil pada dokumen, maka peluang
kemunculan kata tersebut pada suatu kalimat juga semakin kecil. Hal ini akan
mengakibatkan peluang kalimat bernilai nol akan semakin besar sehingga sulit
untuk melakukan pembobotan kalimat. Pada Tabel 4 dapat dilihat bahwa nilai IDF
yang memenuhi persyaratan atau 0.1 ≤ IDF < 2.0 terdapat pada kata-kata dengan
frekuensi kemunculan di antara 14 sampai dengan 90 dokumen. Dari 11151 kata
unik dari seluruh dokumen, terpilih sebanyak 894 kata yang memiliki nilai IDF
antara 0.1 ≤ IDF < 2.0.
Peringkasan Teks
Proses peringkasan otomatis dilakukan dengan cara mengunggah dokumen
kedalam sistem. Sistem akan melakukan beberapa proses terhadap dokumen yang
telah diunggah. Adapun proses yang akan dilakukan yaitu; pemisahan kalimat,
pembobotan TF-ISF, clustering dengan menggunakan metode K-Means, dan proses
terakhir adalah seleksi kalimat.
Pemisahan Kalimat
Pemisahan kalimat dilakukan dengan menggunakan beberapa indikator
seperti titik (.), tanda seru (!), dan tanda tanya (?). kesulitan yang dihadapi adalah
penggunaan tanda baca seperti titik (.) tidak hanya digunakan pada saat
mengakhiri sebuah kalimat. Oleh karena itu, dilakukan perubahan karakter
menggunakan fungsi PHP str replace() pada kasus-kasus tertentu seperti;
1 Tanda titik pada angka yang merupakan bilangan desimal. contoh 25.67 akan
diubah menjadi 25*67.
2 Pada penulisan ”et al.” akan diubah menjadi ”et al*”.

14
3 Pada penulisan yang memberikan informasi format dari sebuah file. seperti
.TXT, .PDF, data.sql, akan diubah menjadi *PDF yang nantinya akan diubah
kembali menjadi tanda titik (.) untuk hasil peringkasan otomatis.
contoh kasus: pada dokumen ke-10 kalimat ke-4:
"Zang et al. (2001) telah menggunakan Support Vector Machine(SVM)
untuk klasifikasi pada sistem temu kembali citra ciri warna."
diubah menjadi:
"Zang et al* (2001) telah menggunakan Support Vector Machine(SVM)
untuk klasifikasi pada sistem temu kembali citra ciri warna."
proses ini hanya untuk menemukan tanda titik pada akhir kalimat. Setelah itu, tanda
“*” akan kembali diganti menjadi tanda “.” seperti:
"Zang et al. (2001) telah menggunakan Support Vector Machine(SVM)
untuk klasifikasi pada sistem temu kembali citra ciri warna."
Pada dasarnya algoritme pemrograman yang dibuat akan memisahkan kalimat
menggunakan tanda titik (.), tanda seru (!), dan tanda tanya (?) yang setelahnya
diikuti dengan karakter white space kecuali pada kasus tertentu seperi penulisan
“et al.”. Hal ini berguna untuk tidak memisahkan kata yang menjelaskan suatu
istilah yang memberikan informasi tertentu seperti .PDF, .TXT, menyatakan suatu
url seperti http://ipb.ac.id, dan lain sebagainya.
Masalah dapat muncul apabila terdapat suatu kalimat yang diakhiri dengan
indikator berhenti namun tidak disertai karakter white space, maka kalimat tidak
akan terpisah hingga menemukan indikator yang disertai dengan white space. Hal
ini akan terjadi apabila terdapat kesalahan penulis dalam menulis teks dokumen
(human error). Namun, pada penelitian ini, dari 100 dokumen tidak terdapat kasus
seperti yang dijelaskan diatas.
Pembobotan TFISF
Pembobotan TFISF dilakukan dengan menggunakan fitur kata yang telah
didapat pada tahap pengindeksan. TFISF dilakukan untuk pembobotan kalimat
pada masing-masing dokumen.
Adapun potongan kode program untuk
menentukan nilai TF sebagai berikut;
1. foreach($fiturkata->result() as $fit){
2. $fitur_kata = " ".$fit->kata." ";
3. $SFkata[$fit->kata]= 0;
4. foreach($sentence->result() as $sen){
5.
$kalimat = $sen->kalimat;
6.
$kalimat = str_replace(array("?", ".", "!", ","), ’ ’,
$kalimat);
7.
$kalimat = " ".$kalimat." ";
8.
$tf[$sen->id_kalimat_sementara][$fit->id] =
substr_count($kalimat, $fitur_kata);
9.
if($tf[$sen->id_kalimat_sementara][$fit->id] !=0){

15
10.
11.
}
12. }
13. }

$SFkata[$fit->kata] += 1;

Pada baris ke-6 kode program di atas, jika terdapat kata yang diikuti dengan
karakter tertentu, maka karakter tersebut akan dihilangkan guna memudahkan
mencari kata yang sesuai dengan fitur kata pada kalimat.
Pada baris ke-8 kode program menggunakan fungsi substr-count untuk
menemukan kata pada kalimat yang sesuai dengan fitur kata. Masalah yang terjadi
adalah fungsi tersebut juga mengikut sertakan kata yang bukan benar-benar sesuai
dengan fitur kata. contoh kasus seperti fitur kata “perlu” akan terdeteksi muncul
pada kalimat yang memiliki kata “perluasan”. Untuk mengatasi masalah tersebut,
dilakukan penambahan white space pada awal dan akhir dari fitur kata seperti yang
dilakukan pada baris ke-2 potongan kode program di atas. Hal ini berguna untuk
menemukan fitur kata yang benar pada setiap kalimat. Oleh karena itu, fitur kata
“perlu” tidak akan terdeteksi pada kata “perluasan”. Potongan
kode program diatas berhasil menghasilkan penghitungan TF dengan cukup baik.
Sementara itu, potongan program pembobotan TFISF sebagai berikut;
1. foreach($sentence->result() as $sen2){
2.
$TF = $tf[$sen2->id_kalimat_sementara][$fit2->id];
3.
$SF = $SFkata[$fit2->kata];
4.
if($TF == 0 || $SF ==0){
5.
$TFISF = 0;
7.
}
8.
else{
9.
$BAG = $jum/$SF;
10.
$ISF = log($BAG,10);
11.
$TFISF = $TF * $ISF;
12.
echo "".$TFISF."";
13. }
14. $total_kalimat[$sen2->id_kalimat_sementara] += $TFISF;
15. $ArrayKmeans[$sen2->id_kalimat_sementara][$BanyakKata]=
$TFISF;
16. }
Kode baris ke-9,10,dan 11 adalah kode program yang disesuaikan dengan
rumus penghitungan TFISF seperti pada Persamaan 3. Pada kode baris ke-14
dilakukan penjumlahan nilai TFISF dari setiap kalimat dan dijadikan sebagai nilai
dari suatu kalimat yang nantinya akan digunakan pada tahap seleksi kalimat.
Adapun hasil matriks pembobotan TFISF pada dokumen ke-4 dapat dilihat pada
Tabel 5.
Pada penelitian ini pembobotan TFISF menghasilkan rata-rata matriks dengan
dimensi 134 x 894, dan pada umumnya berbentuk sparse matriks karena banyak
elemen yang bernilai nol. Hal ini disebabkan karena tidak setiap kata terdapat di

16
Tabel 5 Matriks hasil TFISF dokumen ke-4
Fitur Kata

S1

S2

... S72

S73

... S119

acak
acuan
adanya
adapun
administrator
agar
akhir
akses
aktivitas
akurasi
...
TOTAL

0
0
0
0
0
0
0
0
0
0
...
30.66

0
0
0
0
0
0
0
0
0
0
...
10.94

...
...
...
...
...
...
...
...
...
...
...
...

0
0
2.07
0
0
0
0
0
0
0
...
11.86

...
...
...
...
...
...
...
...
...
...
...
...

0
0
0
0
0
1.30
0
0
0
0
...
6.60

0
0
0
0
0
0
0
0
0
...
21.65

setiap kalimat, maka TFISF akan bernilai nol.
Clustering Kalimat dengan Metode K-Means
Banyaknya cluster pada penelitian ini bergantung pada tingkat peringkasan
dan jumlah kalimat pada dokumen yang akan diringkas. adapun potongan kode
program untuk menentukan banyaknya cluster sebagai berikut:
1. $BanyakCluster = ($BanyakKalimat * 30) / 100 ;
2. $BanyakCluster = floor($BanyakCluster);
Pada baris ke-2 digunakan fungsi floor untuk menghasilkan nilai bulat pada
hasil penghitungan berdasarkan tingkat peringkasan. Misalnya; pada dokumen
ke-10 terdapat 119 kalimat dengan tingkat peringkasan sebesar 30%, maka jumlah
cluster adalah sebanyak 119 x 0.30 = 35,70 akan menjadi 35 cluster.
Pada penelitian ini, penentuan centroid awal (initial centroid) dilakukan
dengan cara mengambil data dari matriks TFISF secara acak atau random. Setelah
itu, centroid berikutnya akan dilakukan penghitungan sesuai dengan Persamaan 4
sampai iterasi ke-n. Masalah yang ditemui adalah pada penghitungan dan iterasi
yang dilakukan memakan waktu yang cukup lama dikarenakan besarnya dimensi
matriks TFISF yang rata-rata berdimensi 134 x 894. Rata-rata membutuhkan
waktu sekitar 10 detik untuk menyelesaikan clustering kalimat. Adapun hasil
clustering pada dokumen ke-4 dengan tingkat peringkasan 30% dapat dilihat pada
Tabel 6.
Setiap cluster dapat memiliki minimal 1 kalimat dan maksimal banyak
kalimat. Sebagai contoh pada Tabel 6, hasil dari cluster 31 (C31) pada dokumen
ke-4 terdapat 4 kalimat yaitu:
1 “dengan menggunakan time constraint 4 bulan, ternyata maksimal item yang
dapat dibentuk pada sebuah sequence adalah 5 (5-sequence).” [bobot = 6.35]
2 “dengan menggunakan time constraint 2 bulan, ternyata maksimal item yang
dapat dibentuk pada sebuah sequence adalah 8 (8-sequence).” [bobot = 6.35]

17
3 “dengan menggunakan time constraint 20 hari, ternyata maksimal item yang
dapat dibentuk pada sebuah sequence adalah 2 (2-sequence).” [bobot = 6.86]
4 “dengan menggunakan time constraint 6 bulan, ternyata maksimal item yang
dapat dibentuk pada sebuah sequence adalah 6 buah (6-sequence).” [bobot =
8.43]
Jika dilihat pada kalimat-kalimat tersebut, secara keseluruhan mambahas
tentang “time constraint”. Oleh karena itu, proses clustering telah berhasil
mengelompokkan kalimat yang memiliki makna yang hampir sama.
Tabel 6 Hasil clustering dokumen ke-4
Cluster Jumlah Kalimat
C1
C2
C3
...
C21
C22
C23
...
C31
C32
C33
C34
C35

3
7
2
...
1
3
7
...
4
1
2
2
1

Seleksi Kalimat
Seleksi kalimat dilakukan dengan cara mengurutkan kalimat dari nilai
tertinggi hingga terendah yang telah didapat dari penjumlahan nilai TFISF pada
tahap pembobotan TFISF. Pengurutan kalimat dilakukan pada setiap cluster,
sehingga setiap cluster akan diwakilkan oleh satu kalimat yang memiliki nilai
tertinggi.
Setiap kalimat pada hasil cluster 31 (C31) pada dokumen ke-4 telah memiliki
bobot nilai yang apabila dilakukan seleksi kalimat pada C31 akan terpilih kalimat
ke-4 dengan bobot nilai 8.43. Kalimat “dengan menggunakan time constraint 6
bulan, ternyata maksimal item yang dapat dibentuk pada sebuah sequence adalah 6
buah (6-sequence)” akan mewakili C31 dan keluar sebagai ringkasan.
Evaluasi
Clustering selalu memberikan hasil yang berbeda-beda. Hal ini disebabkan
karena proses clustering sangat bergantung pada penentuan centroid awal yang
pada penelitian ini dilakukan dengan memilih baris data secara acak. Untuk

18
Tabel 7 Hasil ringkasan dengan tingkat peringkasan 30%
Recall
Precision
F-Measure
Akurasi

Percobaan-1
0.33
0.43
0.37
0.57

Percobaan-2
0.33
0.43
0.37
0.57

Percobaan-3
0.33
0.43
0.37
0.57

Percobaan-4
0.33
0.43
0.37
0.57

Rata-rata
0.33
0.43
0.37
0.57

Tabel 8 Hasil ringkasan dengan tingkat peringkasan 20%
Recall
Precision
F-Measure
Akurasi

Percobaan-1
0.22
0.43
0.29
0.58

Percobaan-2
0.22
0.44
0.29
0.59

Percobaan-3
0.22
0.42
0.28
0.58

Percobaan-4
0.22
0.44
0.29
0.59

Rata-rata
0.22
0.43
0.29
0.58

Tabel 9 Hasil ringkasan dengan tingkat peringkasan 10%
Recall
Precision
F-Measure
Akurasi

Percobaan-1
0.11
0.45
0.17
0.60

Percobaan-2
0.12
0.48
0.18
0.60

Percobaan-3
0.11
0.45
0.18
0.60

Percobaan-4
0.11
0.43
0.17
0.60

Rata-rata
0.11
0.45
0.17
0.60

mengatasi hal ini, setiap dokumen dilakukan peringkasan otomatis sebanyak 4 kali
pada setiap besar tingkat peringkasan dan diambil nilai rata-rata dari setiap
hasilnya. Total percobaan peringkasan otomatis sistem dilakukan sebanyak 1200
kali. Adapun evaluasi hasil ringkasan sistem dengan ringkasan manual dapat
dilihat pada Tabel 7, 8, dan 9.
Nilai evaluasi hasil ringkasan sistem pada tiap percobaan dalam satu tingkat
peringkasan tidak jauh berbeda walau menghasilkan keluaran ringkasan yang
berbeda. Hasil ringkasan sistem pada tingkat peringkasan 30% menghasilkan
rata-rata recall 32.95%, Precision 43.07%, f-measure 36.98%, dan akurasi sebesar
57.11%. Untuk tingkat peringkasan 20% menghasilkan rata-rata recall 22.11%,
Precision 43.40%, f-measure 28.96%, dan akurasi sebesar 58.44%. Sementara itu,
pada tingkat peringkasan 10% hasil ringkasan sistem menghasilkan rata-rata recall
11.13%, Precision 45.06%, f-measure 17.70%, dan akurasi sebesar 60%.
Nilai akurasi terendah adalah sebesar 43.21% pada tingkat peringkasan 20%,
dan nilai akurasi tertinggi adalah sebesar 83.87% yang terdapat pada hasil ringkasan
dengan tingkat peringkasan 10%. Nilai minimum, maksimum, dan rata-rata akurasi
peringkasan otomatis sistem dapat dilihat pada Gambar 6.
Pada Gambar 6 dapat dilihat bahwa rata-rata nilai akurasi berbanding terbalik
dengan tingkat peringkasan sistem. Rata-rata nilai akurasi sistem akan semakin
rendah jika tingkat peringkasan semakin tinggi. Hal ini disebabkan karena semakin
rendah tingkat peringkasan, maka akan menjadi semakin sedikit kalimat ringkasan
yang dihasilkan oleh sistem dan semakin kecil pula peluang kesalahannya.
Selain perbandingan nilai akurasi, dalam evaluasi hasil ringkasan juga
terdapat perbandingan nilai recall, precision, dan f-measure yang dapat dilihat pada

19

Gambar 6 Perbandingan nilai akurasi peringkasan otomatis
Gambar 7, 8, dan 9. Pada Gambar 7 terlihat nilai recall terendah adalah sebesar
4.28% pada tingkat peringkasan 10%, dan nilai recall tertinggi adalah sebesar
41.14% yang terdapat pada hasil ringkasan dengan tingkat peringkasan 30%.

Gambar 7 Perbandingan nilai recall peringkasan otomatis
Rata-rata nilai recall sistem akan semakin tinggi seiring meningkatnya
tingkat peringkasan.
Artinya, semakin besar tingkat peringkasan, akan
menghasilkan semakin banyak kalimat yang muncul sebagai ringkasan sistem, dan
semakin besar pula peluang munculnya kalimat yang sesuai dengan ringkasan
manual.
Pada Gambar 8 terlihat nilai precision terendah adalah sebesar 10.59% pada
tingkat peringkasan 30%, dan nilai precision tertinggi adalah sebesar 71.87% yang
terdapat pada hasil ringkasan dengan tingkat peringkasan 10%. Rata-rata nilai

20

Gambar 8 Perbandingan nilai precision peringkasan otomatis
precision sistem menjadi semakin rendah seiring meningkatnya tingkat
peringkasan. Artinya, semakin besar tingkat peringkasan, semakin kecil pula
proporsi jumlah kalimat ringkasan yang dihasilkan sistem dan dianggap relevan.
Walau begitu, perbedaan nilai precision hasil peringkasan otomatis tidaklah begitu
besar.
Tabel 10 Suatu percobaan hasil peringkasan Dokumen 91
10%

20%

30%

Jumlah Kalimat Ringkasan Sistem
8.00
Jumlah Kalimat Ringkasan Manual 43.00
Jumlah Kalimat pada Dokumen
83.00
TP
6.00
FN
37.00
FP
2.00
TN
38.00
Recall
0.14
Precision
0.75
F-measure
0.24
Akurasi
0.53

16.00
43.00
83.00
13.00
30.00
3.00
37.00
0.30
0.81
0.44
0.60

24.00
43.00
83.00
16.00
27.00
8.00
32.00
0.37
0.67
0.48
0.58

Precision merupakan rasio jumlah kalimat ringkasan sistem yang relevan
dengan total jumlah kalimat yang diambil sistem sebagai ringkasan. Adapun nilai
precision yang tertinggi dari percobaan pada penelitian ini terdapat pada dokumen
91 yaitu sebesar 0.81 dengan jumlah kalimat ringkasan yang dihasilkan sistem
sebesar 16 kalimat dan terdapat 13 kalimat yang relevan dengan ringkasan manual.
Nilai hasil peringkasan pada dokumen 91 dapat dilihat pada Tabel 10.
Nilai precision yang terendah terdapat pada percobaan meringkas dokumen
9 yang memberikan nilai precision sebesar 0.07 dengan jumlah kalimat ringkasan
yang dihasilkan sistem sebesar 30 kalimat dan hanya terdapat 2 kalimat yang relevan

21
Tabel 11 Suatu percobaan hasil peringkasan Dokumen 9
10%

20%

30%

Jumlah Kalimat Ringkasan Sistem
30.00
61.00
92.00
Jumlah Kalimat Ringkasan Manual
28.00
28.00
28.00
Jumlah Kalimat pada Dokumen
307.00 307.00 307.00
TP
2.00
7.00
9.00
FN
26.00
21.00
19.00
FP
28.00
54.00
83.00
TN
251.00 225.00 196.00
Recall
0.07
0.25
0.32
Precision
0.07
0.11
0.10
F-measure
0.07
0.16
0.15
Akurasi
0.53
0.76
0.67
dengan ringkasan manual. Nilai hasil peringkasan pada dokumen 9 dapat dilihat
pada Tabel 11.
Hal ini jelas sangat bergantung dengan seberapa banyak kalimat yang relevan
dan jumlah kalimat yang diambil oleh sistem sebagai hasil ringkasan. Apabila
ringkasan system dibandingkan dengan ringkasan manual, maka baik atau tidaknya
ringkasan manual dan atau ringkasan sistem sangatlah mempengaruhi hasil
evaluasi. Baik atau tidaknya ringkasan manual sangatlah bersifat subyektif.
Sementara itu, baik atau tidaknya hasil ringkasan sistem bergantung pada fitur kata
yang digunakan. Fitur yang digunakan penelitian ini adalah kata yang memiliki
nilai 0.1 ≤ IDF < 2.0.
Pada dokumen 9 yang memiliki precision terkecil, dicoba untuk melakukan
peringkasan dengan fitur kata 0.1 ≤ IDF < 3.5 untuk melihat apakah precision
berubah signifikan ketika fitur kata lebih banyak. Adapun hasil peringkasan
dokumen 9 dengan fitur kata 0.1 ≤ IDF < 3.5 dapat dilihat pada Tabel 12.
Pada Tabel 12 dapat dilihat peningkatan nilai precision ketika fitur kata
diubah. Namun, perubahan tersebut tidaklah begitu besar. Kecilnya nilai precision
pada Dokumen 9 dapat dipengaruhi oleh ringkasan manual yang merupakan acuan
dari evaluasi. Jumlah ringkasan manual yang kecil dan atau kualitas ringkasan
manual yang kurang baik dapat menyebabkan peluang meningkatnya nilai f p .
Pada Gambar 9 terlihat nilai f-measure terendah adalah sebesar 6.25% pada
tingkat peringkasan 10%, dan nilai f-measure tertinggi adalah sebesar 47,54% yang
terdapat pada hasil ringkasan dengan tingkat peringkasan 30%. Rata-rata nilai fmeasure sistem akan semakin tinggi seiring meningkatnya tingkat peringkasan.
Perbandingan keseluruhan baik recall, precision, f-measure, maupun akurasi
dari hasil ringkasan antara tingkat peringkasan 10%, 20%, dan 30% dapat dilihat
pada Gambar 10.
Nilai rata-rata recall meningkat seiring dengan meningkatnya tingkat
peringkasan. Untuk nilai rata-rata precision mengalami penurunan seiring dengan
meningkatnya tingkat peringkasan. namun penurunannya tidak begitu besar. Untuk

22
Tabel 12 Percobaan hasil peringkasan Dokumen 9 dengan fitur kata baru
10%

20%

30%

Jumlah Kalimat Ringkasan Sistem
30.00
61.00
92.00
Jumlah Kalimat Ringkasan Manual
28.00
28.00
28.00
Jumlah Kalimat pada Dokumen
307.00 307.00 307.00
TP
4.00
8.00
12.00
FN
24.00
20.00
16.00
FP
26.00
53.00
80.00
TN
253.00 226.00 199.00
Recall
0.14
0.28
0.42
Precision
0.13
0.13
0.13
F-measure
0.13
0.17
0.20
Akurasi
0.83
0.76
0.68

Gambar 9 Perbandingan nilai f-measure peringkasan otomatis

Gambar 10 Perbandingan keseluruhan hasil ringkasan

23
nilai rata-rata f-measure meningkat seiring dengan meningkatnya tingkat
peringkasan. Sementara itu, nilai rata-rata akurasi cenderung menurun seiring
dengan meningkatnya tingkat peringkasan.
Dikatakan rata-rata karena dari 100 dokumen, ada beberapa dokumen yang
justru memberikan hasil yang berbeda dari perbandingan nilai rata-rata keseluruhan
dokumen. Adapun hal-hal yang terjadi adalah;
1 Terdapat 7 dokumen yang nilai akurasinya berlawanan (meningkat seiring
dengan meningkatnya tingkat peringkasan).
2 Terdapat 13 dokumen dengan nilai precision yang berlawanan (semakin tinggi
seiring meningkatnya tingkat peringkasan).

Gambar 11 Dokumen 10.txt yang mengalami perubahan akurasi berlawanan
Pada Gambar 11 merupakan salah satu contoh dokumen yang menghasilkan
nilai akurasi yang semakin tinggi seiring dengan meningkatnya tingkat
peringkasan. Evaluasi yang dilakukan pada penelitian ini sangat bergantung
kepada ringkasan manual yang dilakukan pada setiap dokumen. Sistem melakukan
dengan menggunakan fitur kata dan metode K-Means untuk menghasilkan
ringkasan.
Sementara itu, ringkasan manual dilakukan oleh manusia dan
merangkum isi dokumen berdasarkan kehendak masing-masing untuk memilih
kalimat mana yang dianggap baik sebagai peringkasan otomatis.
Tingkat peringkasan yang semakin tinggi membuat jumlah kalimat yang
keluar sebagai hasil ringkasan sistem juga meningkat. Nilai t p, f n, f p, dan tn
sangat mempengaruhi hasil precision dan akurasi. Sementara itu, banyaknya
kalimat ringkasan yang dikeluarkan oleh sistem dan baiknya ringkasan manual
yang dibuat oleh manusia juga sangat mempengaruhi nilai t p, f n, f p, dan tn.
Hal yang terjadi pada dokumen yang memiliki nilai akurasi yang berlawanan
adalah; karena hasil evaluasi memiliki nilai penjumlahan tn dengan t p yang
meningkat seiring dengan meningkatnya tingkat peringkasan. Sementara itu, pada
umumnya hasil penjumlahan nilai tn dengan t p akan menurun seiring
meningkatnya tingkat peringkasan.

24

SIMPULAN DAN SARAN
Simpulan
Berdasarkan penelitian yang telah dilakukan, dapat disimpulkan beberapa
hal sebagai berikut:
1 Sistem peringkasan dokumen otomatis berdasarkan fitur kata telah
berhasil dikembangkan.
2 Penggunaan metode K-Means dengan pembobotan kalimat berdasarkan
fitur kata menghasilkan rata-rata akurasi 58.51%, recall 22.06%,
precision 43.84%, dan f-measure 27.88%.
3 Clustering menggunakan K-Means membuat hasil ringkasan mengalami
perubahan disetiap kali percobaan dan membuat tingkat akurasi hasil
ringkasan selalu berubah. Oleh karena itu, peringkasan dokumen dengan
menggunakan metode K-Means tidak menghasilkan ringkasan yang
statis.
Saran
Pembuatan ringkasan manual untuk setiap dokumen sebaiknya dibuat oleh
lebih dari satu orang agar mendapatkan ringkasan yang obyektif (bersifat umum)
dengan harapan akurasi yang didapatkan akan lebih baik.

DAFTAR PUSTAKA
Agrawal, Ayush, Gupta U. 2014. Extraction based approach for text
summarization using K-Means clustering. IJSRP. 4 (11)
Arai K, Barakbah AR. 2007. Hierarchical K-Means: an algorithm for centroids
initialization for K-Means. 1. Saga University. 25-31
Luthfiarta A, Zeniarja J, Salam A. 2013. Algoritma Latent Semantic Analysis
(LSA) pada peringkas dokumen otomatis untuk proses clustering dokumen.
SEMANTIK 2013
Manning CD, Raghavan P, Schütze H. 2008. An Introduction to Information
Retrieval. Cambridge (UK): Cambridge University Press
Manyika J, Chui M, Brown B, Roxburgh C, Byers