Perbandingan Kinerja Algoritme TextRank dengan Algoritme LexRank pada Peringkasan Dokumen Bahasa Indonesia

PERBANDINGAN KINERJA ALGORITME TEXTRANK DENGAN
ALGORITME LEXRANK PADA PERINGKASAN DOKUMEN
BAHASA INDONESIA

YUZAR MARSYAH

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa skripsi berjudul Perbandingan Kinerja
Algoritme TextRank dengan Algoritme LexRank pada Peringkasan Dokumen
bahasa Indonesia adalah benar karya saya dengan arahan dari komisi pembimbing
dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun.
Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun
tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan
dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Juli 2013
Yuzar Marsyah
NIM G64090038

ABSTRAK
YUZAR MARSYAH. Perbandingan Kinerja Algoritme TextRank dengan
Algoritme LexRank pada Peringkasan Dokumen Bahasa Indonesia. Dibimbing
oleh SONY HARTONO WIJAYA.
Peringkasan dokumen merupakan cara yang efektif untuk mendapatkan
informasi dari suatu dokumen tanpa membaca keseluruhan dokumen. Peringkasan
dokumen secara otomatis untuk bahasa Indonesia masih sedikit jumlahnya jika
dibandingkan dengan perkembangan untuk bahasa lainnya. Penelitian ini
mengembangkan peringkasan dokumen otomatis bahasa Indonesia menggunakan
metode berbasis graf yaitu algoritme TextRank dan algoritme LexRank yang
sudah terbukti baik kinerjanya untuk bahasa Inggris. Jumlah kalimat yang
diekstraksi adalah 25% dari total kalimat dalam dokumen. Hasil ringkasan kedua
algoritme dievaluasi dengan metode kappa measure. Hasil perhitungan kappa
measure memperlihatkan algoritme TextRank lebih baik daripada algoritme

LexRank.
Kata Kunci: Dokumen Bahasa Indonesia, LexRank, Peringkasan Dokumen
Otomatis, TextRank.

ABSTRACT
YUZAR MARSYAH. Performance Comparison of LexRank Algorithm and
TextRank Algorithm in Indonesian Text Summarization. Supervised by SONY
HARTONO WIJAYA.
Text summarization is an effective way to obtain information from a document
without reading the whole document. Currently the small number of automatic
text summarizations for Indonesian are available compared to those for other
languages. This study develops an Indonesian automatic text summarization using
the graph-based methods, the TextRank algorithm and the LexRank algorithm. It
has been proven that the methods and the algorithms have good performance in
summarizing texts for English. This work extracts about 25% of the total of
sentences in the document. The kappa measure method is applied to evaluate the
results of the two algorithms. The result based measure kappa on shows that the
TextRank algorithm has better performance than the LexRank algorithm.
Keywords: Automatic Text Summarization, Indonesian Document, LexRank,
TextRank.


PERBANDINGAN KINERJA ALGORITME TEXTRANK DENGAN
ALGORITME LEXRANK PADA PERINGKASAN DOKUMEN
BAHASA INDONESIA

YUZAR MARSYAH

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

Judul Skripsi : Perbandingan Kinerja Algoritme TextRank dengan Algoritme
LexRank pada Peringkasan Dokumen Bahasa Indonesia

Nama
: Yuzar Marsyah
NIM
: G64090038

Disetujui oleh

Sony Hartono Wijaya, SKom MKom
Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang

dipilih dalam penelitian yang dilaksanakan sejak bulan Desember 2012 ini ialah
peringkasan dokumen, dengan judul Perbandingan Kinerja Algoritme TextRank
dengan Algoritme LexRank pada Peringkasan Dokumen bahasa Indonesia.
Penulis menyadari bahwa dalam proses penyusunan skripsi ini terdapat
banyak kekurangan karena keterbatasan pengetahuan dan kemampuan yang
dimiliki. Namun, karya ini berhasil diselesaikan atas bantuan dari berbagai pihak.
Oleh karena itu penulis ingin mengucapkan terima kasih kepada:
1 Allah subhanahu wa ta’ala atas nikmat dan karunia-Nya.
2 Ayah, ibu, adik, dan seluruh keluarga yang memberikan doa serta dukungan
untuk menyelesaikan skripsi ini.
3 Bapak Sony Hartono Wijaya, SKom, MKom atas bimbingan dan pemberian
saran dalam proses penyelesaian skripsi.
4 Bapak Ahmad Ridha, SKom, MS dan Ibu Imas S. Sitanggang, SSi, MKom
sebagai penguji atas kritikan dan masukan yang positif untuk menyempurnakan
skripsi ini.
5 Efta Lupikasari, Catur Wulandari, dan Fairus Muntazin yang telah membantu
dalam pengujian sistem.
6 Seluruh rekan-rekan di Ilmu Komputer 46.
7 Teman-teman satu kontrakan Darmaga Regency: Fachri, Tama, Bias, Kuncoro,
Syarif, Bayu, dan Ikhwan.

8 Semua pihak yang membantu secara langsung maupun tidak langsung yang
tidak bisa penulis sebutkan satu per satu.
Semoga karya ini dapat bermanfaat bagi semua pihak.

Bogor, Juli 2013
Yuzar Marsyah

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi


PENDAHULUAN

1

Latar Belakang

1

Perumusan Masalah

2

Tujuan Penelitian

2

Ruang Lingkup Penelitian

2


METODE

3

Bahan

3

Gambaran Umum Sistem

3

HASIL DAN PEMBAHASAN

6

SIMPULAN DAN SARAN

14


Simpulan

14

Saran

14

DAFTAR PUSTAKA

15

LAMPIRAN

16

RIWAYAT HIDUP

19


DAFTAR TABEL
1
2
3
4
5
6
7
8
9

Hasil proses pemisahan kalimat
Nilai similarity dokumen gatra030203.txt dengan metode Content
Overlap
Nilai similarity dokumen gatra030203.txt dengan metode Idf-modifiedcosine
Hasil akhir proses pemeringkatan dokumen gatra030203.txt
Hasil pengujian ahli terhadap 30 dokumen
Komponen Kappa dan nilai Kappa tiap pasang ahli untuk algoritme
TextRank
Komponen Kappa dan nilai Kappa tiap pasang ahli untuk algoritme

LexRank
Komponen formula PABAK dan nilai PABAK algoritme TextRank
Komponen formula PABAK dan nilai PABAK algoritme LexRank

7
8
8
9
10
10
11
11
11

DAFTAR GAMBAR
1
2
3
4
5
6
7

Metodologi penelitian
Contoh bentuk dokumen
Tingkat relevansi hasil ringkasan
Perbandingan nilai PABAK algoritme TextRank dan algoritme
LexRank
Rata-rata waktu pengembalian hasil ringkasan 30 dokumen
Posisi kalimat yang diekstraksi algoritme TextRank pada dokumen
gatra040303.txt
Posisi kalimat yang diekstraksi algoritme LexRank pada dokumen
gatra040303.txt

3
6
10
12
12
13
13

DAFTAR LAMPIRAN
1
2
3
4

Data hasil penilaian ahli terhadap ringkasan algoritme TextRank
Data hasil penilaian ahli terhadap ringkasan algoritme LexRank
Penyebaran hasil penilaian ahli untuk perhitungan Kappa pada
algoritme TextRank
Penyebaran hasil penilaian ahli untuk perhitungan Kappa pada
algoritme LexRank

16
17
18
18

PENDAHULUAN
Latar Belakang
Peringkasan suatu teks dokumen merupakan cara yang efektif untuk
mendapatkan informasi dari suatu dokumen. Ringkasan membantu seseorang
mendapatkan intisari dari dokumen tanpa harus membaca keseluruhan dokumen
tersebut, sehingga waktu yang dibutuhkan untuk menyerap informasi menjadi
lebih singkat. Peringkasan manual dilakukan dengan membaca keseluruhan
dokumen kemudian diambil intisari dari dokumen tersebut, sedangkan
peringkasan otomatis dilakukan oleh komputer tanpa harus membaca keseluruhan
dokumen dan hasil ringkasan tergantung oleh algoritme yang digunakan pada
sistem. Peringkasan manual membutuhkan waktu yang sangat lama untuk
membuat ringkasan dari jumlah dokumen yang sangat banyak dan isi dokumen
yang panjang. Oleh karena itu, peringkasan teks secara otomatis menjadi solusi
yang bisa mempersingkat waktu peringkasan.
Peringkasan teks otomatis sangat berkembang belakangan ini. Hal ini
disebabkan oleh adanya internet yang terus berkembang dari waktu ke waktu
membuat jumlah dokumen yang ada semakin melimpah jumlahnya. Menurut
Short et al. (2011), pada tahun 2008 server-server di dunia memproses informasi
sebesar 9.57 ZB. Hasil peringkasan teks secara otomatis dapat mempermudah dan
mempercepat pencarian suatu dokumen ataupun memahami suatu dokumen.
Penelitian tentang peringkasan teks otomatis sudah banyak dilakukan sejak
tahun 1958. Akan tetapi, penelitian yang dilakukan hanya pada bahasa tertentu,
seperti bahasa Inggris, Yunani, Cina, dan lain-lain (Zikra 2009). Sementara itu,
untuk bahasa Indonesia masih sedikit penelitian yang dilakukan. Contoh nyata
aplikasi peringkasan teks otomatis bahasa Indonesia adalah Sistem Ikhtisar
Dokumen untuk Bahasa Indonesia (SIDOBI) yang dibuat oleh Badan Pengkajian
dan Penerapan Teknologi (BPPT) pada tahun 2010.
Salah satu metode dalam peringkasan teks otomatis ialah peringkasan teks
menggunakan pemeringkatan berbasis graf. Pada awalnya, metode pemeringkatan
berbasis graf digunakan dalam pemeringkatan halaman web. Beberapa algoritme
berbasis graf yang digunakan dalam pemeringkatan halaman web yaitu Kleinberg
HITS (Kleinberg 1999 di dalam Mihalcea 2004) dan Google PageRank (Brin dan
Page 1998 di dalam Mihalcea 2004). Seiring berjalannya waktu, metode berbasis
graf mulai diimplementasikan untuk peringkasan dokumen. Algoritme
peringkasan dokumen berbasis graf yang ada adalah algoritme LexRank dan
algoritme TextRank. LexRank dan TextRank mengasumsikan graf yang fullyconnected dan graf tidak berarah dengan unit teks (seperti kata atau kalimat)
sebagai vertex dan similarity antarteks unit sebagai edge.
TextRank adalah suatu algoritme peringkasan dokumen tunggal, yaitu satu
ringkasan berasal dari satu dokumen. TextRank (Mihalcea dan Tarau 2004) efektif
diaplikasikan pada peringkasan dokumen dengan bahasa apapun tanpa mengubah
algoritme serta tidak membutuhkan data tambahan dan pengetahuan spesifik
bahasa pada dokumen yang akan diringkas. Hal ini disebabkan algoritme
TextRank tidak memerlukan data training sehingga memungkinkan untuk
digunakan pada segala jenis bahasa. Sementara itu, LexRank merupakan
algoritme untuk peringkasan dokumen tunggal atau multi dokumen, yaitu satu

2
ringkasan berasal dari satu dokumen atau lebih dari satu dokumen. LexRank
menggunakan pendekatan berbasis centroid dalam proses peringkasan. Menurut
Erkan dan Radev (2004), pendekatan berbasis centroid cukup sukses
dibandingkan dengan sistem peringkasan lainnya dalam peringkasan multi
dokumen.
Berdasarkan latar belakang tersebut, dalam penelitian ini dikembangkan
sistem peringkasan teks otomatis untuk bahasa Indonesia dengan menggunakan
algoritme TextRank dan LexRank untuk peringkasan dokumen bahasa Indonesia.
Alasan membandingkan kedua algoritme karena algoritme TextRank dan
algoritme LexRank telah digunakan pada peringkasan untuk bahasa Inggris dan
bahasa lainnya. Selain itu, kedua algoritme tersebut memiliki kelebihan masingmasing seperti yang sudah disebutkan sebelumnya sehingga perlu diteliti
algoritme yang lebih efektif untuk dokumen bahasa Indonesia.

Perumusan Masalah
Peringkasan teks otomatis semakin diperlukan belakangan ini karena
seseorang cenderung ingin mendapatkan informasi yang lengkap tanpa
menghabiskan terlalu banyak waktu. Selain itu, peringkasan teks otomatis dapat
mempercepat pencarian dan memahami suatu dokumen dari jumlah data yang
sangat banyak. Peringkasan teks otomatis untuk bahasa Indonesia salah satunya
menggunakan metode pemeringkatan berbasis graf. Metode pemeringkatan
berbasis graf memiliki beberapa algoritme yang dikhususkan untuk peringkasan
otomatis, yaitu algoritme TextRank dan algoritme LexRank. Kedua algoritme
memiliki kelebihan masing-masing dan telah digunakan pada dokumen bahasa
Inggris. Oleh karena itu, dibutuhkan suatu perbandingan kedua algoritme untuk
menentukan algoritme yang efektif untuk dokumen bahasa Indonesia.

Tujuan Penelitian
Tujuan dari penelitian ini adalah membandingkan kinerja algoritme
TextRank dengan algoritme LexRank dalam peringkasan dokumen bahasa
Indonesia.

Ruang Lingkup Penelitian
Penelitian ini terbatas pada dokumen tunggal yaitu satu dokumen
menghasilkan satu ringkasan yang berisi informasi penting dari dokumen.
Dokumen yang digunakan khusus dokumen bahasa Indonesia. Hasil ringkasan
berupa kalimat-kalimat yang memiliki peringkat paling tinggi berdasarkan
algoritme yang digunakan.

3

METODE
Bahan
Pada penelitian ini jenis dokumen yang digunakan ialah dokumen berbahasa
Indonesia. Semua dokumen menggunakan bahasa Indonesia semi-formal atau
formal. Koleksi dokumen yang digunakan sebanyak 30 dokumen dan merupakan
koleksi korpus pada penelitian Zikra (2009).
Gambaran Umum Sistem
Sistem menerima masukan dokumen sumber berupa file dengan format TXT.
Kemudian, file akan diproses menggunakan dua algoritme, yaitu algoritme
TextRank dan algoritme LexRank. Pemrosesan kedua algoritme melalui tahap
pemisahan kalimat, menghitung similarity, pemeringkatan, dan ekstraksi kalimat.
Hasil proses ekstraksi kalimat merupakan hasil ringkasan dari file dokumen
sumber. Hasil ringkasan memiliki banyak kalimat 25% dari total kalimat
dokumen sumber. Alur sistem bisa dilihat pada Gambar 1.
Pemisahan isi dokumen menjadi
kalimat-kalimat tunggal

Representasi graf

Algoritme TextRank

Algoritme LexRank

Menghitung similarity vertex
dengan content overlap

Menghitung similarity vertex
dengan idf-modified-cosine

Menjalankan algoritme
pemeringkatan TextRank

Menjalankan algoritme
pemeringkatan LexRank

Ekstraksi 25% kalimat
dengan ranking tertinggi

Ekstraksi 25% kalimat
dengan ranking tertinggi

Evaluasi

Gambar 1 Metodologi penelitian

4
Pemisahan Isi Dokumen Menjadi Kalimat-kalimat Tunggal
Dokumen yang terdiri atas beberapa kalimat dipecah menjadi kalimatkalimat tunggal yang disimpan dalam suatu koleksi. Pemecahan dokumen
dilakukan dengan menggunakan splitter berupa tanda baca seperti titik (“.”), tanda
seru (“!”), tanda tanya (“?”), dan newline (Zikra 2009).
Representasi Graf
Pada peringkasan teks dengan metode pemeringkatan berbasis graf, vertex
merepresentasikan kalimat-kalimat yang berada dalam dokumen sedangkan edge
merepresentasikan similarity antara dua kalimat yang saling berelasi. Setiap
kalimat tunggal yang diperoleh dari proses pemisahan kalimat dianggap sebagai
vertex dalam graf.
Pada algortime Textrank formula yang digunakan untuk menghitung
similarity adalah Content Overlap. Formula Content Overlap dituliskan sebagai
berikut (Mihalcea dan Tarau 2004):
a t

|

,

|

(

| |

( )

)

dengan
adalah jumlah kata yang sama antarkalimat
dengan kalimat ,
log(
dan log( ) adalah representasi panjang kalimat. Formula tersebut
diberlakukan ke semua kalimat tunggal yang ada untuk mendapatkan bobot yang
menghubungkan antarkalimat.
Berbeda dengan algoritme Textrank, pada algoritme Lexrank formula
similarity yang digunakan ialah invers document frequency-modified-cosine (idfmodified-cosine). Formula idf-modified-cosine dituliskan sebagai berikut (Erkan
dan Radev 2004):
d

d

d

n

,

dengan
adalah banyak kata
dengan formula sebagai berikut:
d

√∑

(t



,
,

t

d )

,

t

,

(d )

√∑

(t

( )
,

d )

yang muncul pada kalimat . Nilai idf dicari

( )
n

( )

dengan N adalah jumlah kalimat yang ada dalam dokumen dan adalah jumlah
kalimat yang mengandung kata . Sama seperti algoritme Textrank, Formula idfmodified-cosine diberlakukan ke semua kalimat tunggal.
Proses Pemeringkatan
Proses pemeringkatan bertujuan mendapatkan bobot akhir dari suatu vertex.
Semakin besar bobot akhir dari suatu vertex, maka semakin banyak informasi di
dalamnya. Pada penelitian ini, kedua algoritme memiliki proses pemeringkatan
yang berbeda. Pada algoritme TextRank, proses pemeringkatan dilakukan dengan

5
menggunakan formula untuk graf tidak berarah dan terboboti seperti yang
dituliskan sebagai berikut (Mihalcea dan Tarau 2004):
d

d



d( )



d( )

( )

( )

dengan = vertex yang akan dihitung skornya; = vertex yang bertetanggan
dengan ; = vertex yang bertetanggan dengan ; dan d = antara 0 sampai 1
(biasanya 0.85 (Rogers 2002)).
Setiap kalimat tunggal diinisialisasi bobot awal 1 (Rogers 2002). Kemudian
dilakukan iterasi dengan formula (4) sampai error rate di bawah threshold. Error
rate adalah selisih skor vertex pada iterasi k dengan iterasi k+1. Setelah
didapatkan bobot akhir setiap vertex, diurutkan mulai dari yang terbesar sampai
yang terkecil.
Pada algoritme LexRank proses pemeringkatan dilakukan dengan
menghitung degree centrality dari tiap vertex. Degree centrality adalah banyaknya
edge yang terhubung ke suatu vertex. Kemudian nilai similarity diperbaharui
dengan membagi nilai similarity lama dengan degree centrality. Nilai similarity
yang baru dijadikan masukan untuk algoritme power method. Algoritme power
method digunakan untuk mencari nilai eigen terbesar dari suatu matriks sehingga
didapatkan eigenvector yang dominan dari nilai eigen tersebut. Hasil dari
algoritme power method adalah matriks eigenvector yang merupakan bobot akhir
dari setiap vertex. Kemudian bobot vertex diurutkan dari yang terbesar sampai
yang terkecil.
Ekstraksi Kalimat
Proses ekstraksi kalimat dilakukan dengan mengambil 25% kalimat dari
total kalimat yang ada di dokumen. Kalimat yang diekstraksi adalah kalimat yang
memiliki peringkat paling tinggi. Menurut Kupiec et al. (1995), 25% hasil
ekstraksi dari teks sumber memiliki 84% kalimat penting yang dipilih oleh para
ahli untuk menjadi ringkasan. Hasil ekstraksi kalimat dijadikan sebagai hasil
ringkasan.
Evaluasi
Pada penelitian ini evaluasi hasil dari algoritme TextRank dan LexRank
akan dilakukan dengan menggunakan kappa measure. Kappa digunakan untuk
mengukur tingkat kesesuaian dalam menilai klasifikasi data dari beberapa ahli
(Manning et al. 2009). Relevansi klasifikasi data dalam penelitian ini dibagi dua
kategori, yaitu relevan dan non-relevan. Kappa measure memiliki formula:
a a

( )

dengan P(A) adalah jumlah seluruh materi yang bernilai sama dalam penilaian
oleh ahli dan P(E) adalah proporsi materi yang kemungkinan bernilai berbeda saat
penilaian.

6

HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian
Penelitian ini menggunakan dokumen berbahasa Indonesia yang diperoleh
dari penelitian Zikra (2009). Dokumen yang digunakan sebanyak 30 dokumen
dengan format TXT. Dokumen ini berisi tag-tag XML, namun hanya tag Text
yang akan diproses oleh sistem karena tag ini merupakan isi dari dokumen.
Gambar 2 memperlihatkan salah satu bentuk dokumen yang digunakan pada
penelitian ini.

Gambar 2 Contoh bentuk dokumen
Pemisahan Isi Dokumen Menjadi Kalimat-kalimat Tunggal
Proses ini memisahkan isi dokumen yang ingin diringkas menjadi kalimatkalimat tunggal. Pemisahan ini menggunakan splitter b u a tanda ba a t t (“.”),
tanda tan a (‘?”), tanda
u (“!”), dan newline. Proses pemisahan ini dapat
mengenali bentuk-bentuk gelar pada nama seseorang seperti “Prof. Dr. Budi,
M.Sc”. Selain itu, proses ini bisa mengenali singkatan dari nama latin suatu
spesies seperti E. Coli dan mengenal pemisah nominal ribuan seperti 2.350. Hasil
proses ini menghasilkan rata-rata jumlah kalimat tiap dokumen sebanyak 29.97
kalimat dengan total kalimat dari 30 dokumen sebanyak 899 kalimat. Hasil
lengkap dapat dilihat pada Tabel 1.
Representasi Graf Algoritme TextRank
Proses ini merepresentasikan isi dokumen ke dalam bentuk graf. Kalimatkalimat tunggal dari proses sebelumnya dijadikan vertex. Nilai similarity setiap
pasang kalimat dijadikan edge. Untuk mencari nilai similarity, algoritme
TextRank menggunakan formula (1). Content overlap mengidentifikasi jumlah
kata yang sama di setiap pasang kalimat yang ada pada dokumen. Similarity(Si, Sj)
adalah fungsi perhitungan similarity tiap pasang kalimat dalam dokumen.
Banyaknya jumlah kata yang sama di kalimat Si dan Sj kemudian dibagi dengan
panjang kedua kalimat. Banyak kata yang sama dalam satu kalimat tidak
mem n a uh
h tun an. M a n a ata “ ad ” ada a at Sj muncul sebanyak
dua kali maka kata yang overlap bukan dua melainkan satu.

7
Tabel 1 Hasil proses pemisahan kalimat
Dokumen
Dokumen 1
Dokumen 2
Dokumen 3
Dokumen 4
Dokumen 5
Dokumen 6
Dokumen 7
Dokumen 8
Dokumen 9
Dokumen 10
Dokumen 11
Dokumen 12
Dokumen 13
Dokumen 14
Dokumen 15
Dokumen 16
Dokumen 17
Dokumen 18
Dokumen 19
Dokumen 20
Dokumen 21
Dokumen 22
Dokumen 23
Dokumen 24
Dokumen 25
Dokumen 26
Dokumen 27
Dokumen 28
Dokumen 29
Dokumen 30
Jumlah
Rata-rata

Kalimat
7
15
12
11
16
32
9
64
23
12
88
36
14
25
34
22
50
44
11
19
47
34
19
17
15
39
61
61
20
42
899
29.97

Kata
190
304
306
307
377
599
164
1088
376
254
1067
561
249
591
606
616
584
1104
303
410
864
420
244
301
232
744
928
818
341
598
15546
518.20

Hasil percobaan dari 30 dokumen pada koleksi dokumen menunjukan nilai
similarity content overlap bernilai antara 0.0–87.31. Hal ini dipengaruhi oleh
banyaknya kata yang sama setiap pasang kalimat dan panjang setiap kalimat yang
berbeda- beda. Jika tidak ada kata yang sama di setiap pasang kalimat maka nilai
similarity bernilai 0. Nilai content overlap tidak memiliki batas atas. Akan tetapi,
nilai content overlap dapat mencapai maksimal saat setiap pasang kalimat
memiliki jumlah kata yang overlap sama dan panjang kedua kalimat juga sama.
Tabel 2 menunjukan nilai similarity salah satu dokumen uji dengan formula (1).
Edge yang terbentuk adalah nilai similarity yang nilainya lebih dari 0.

8
Tabel 2 Nilai similarity dokumen gatra030203.txt dengan metode Content
Overlap

Kalimat 1

Kalimat
1
-

Kalimat
2
3.111

Kalimat
3
6.285

Kalimat
4
8.699

Kalimat
5
9.611

Kalimat
6
12.542

Kalimat
7
14.999

Kalimat 2

3.111

-

1.827

3.972

4.414

6.684

8.430

Kalimat 3

6.285

1.827

-

1.194

1.642

3.799

5.292

Kalimat 4

8.699

3.972

1.194

-

0.735

2.743

4.379

Kalimat 5

9.611

4.414

1.642

0.735

-

1.056

1.876

Kalimat 6

12.542

6.684

3.799

2.743

1.056

-

1.748

Kalimat 7

14.999

8.430

5.292

4.379

1.876

1.748

-

Representasi Graf Algoritme LexRank
Proses ini sama seperti proses representasi graf algoritme TextRank. Akan
tetapi, perbedaannya ada pada saat menghitung similarity. Pada proses ini
perhitungan similarity dilakukan dengan menggunakan formula (2). Idf-modifiedcosine menghitung bobot dari setiap term yang terdapat di setiap pasang kalimat
dengan pembobotan tf-idf. Hasil dari pembobotan tf-idf untuk term yang terdapat
di kedua kalimat kemudian dinormalisasi. Proses normalisasi dilakukan dengan
membagi hasil tf-idf term yang terdapat di kedua kalimat dengan tf-idf setiap term
pada masing-masing kalimat. Idf-modified-cosine memiliki nilai antara 0.0–18.95
pada percobaan 30 dokumen. Hal ini dipengaruhi oleh frekuensi kata yang muncul
di setiap pasang kalimat dan frekuensi kemunculan kata tersebut di keseluruhan
dokumen serta di kalimat itu sendiri. Jika tidak ada kata yang sama di setiap
pasang kalimat maka nilai similarity idf-modified-cosine bernilai 0. Tabel 3
memperlihatkan nilai similarity salah satu dokumen uji dengan metode idfmodified-cosine. Sama seperti proses representasi graf algoritme TextRank, nilai
similarity yang lebih dari 0 yang akan menjadi edge.
Tabel 3 Nilai similarity dokumen gatra030203.txt dengan metode Idf-modifiedcosine

Kalimat 1

Kalimat
1
-

Kalimat
2
0.138

Kalimat
3
0.110

Kalimat
4
0.202

Kalimat
5
0.031

Kalimat
6
0.105

Kalimat
7
0.114

Kalimat 2

0.138

-

0.035

0.100

0.091

0.066

0.069

Kalimat 3
Kalimat 4
Kalimat 5

0.110
0.202
0.031

0.035
0.100
0.091

0.017
0.050

0.017
0.337

0.050
0.337
-

0.097
0.074
0.069

0.122
0.178
0.660

Kalimat 6

0.105

0.066

0.097

0.074

0.069

-

0.175

Kalimat 7

0.114

0.069

0.122

0.178

0.660

0.175

-

Proses Pemeringkatan
Proses pemeringkatan merupakan proses untuk menentukan bobot akhir
setiap vertex yang ada di dalam suatu graf. Setelah bobot akhir tiap vertex
didapatkan, bobot akhir tiap vertex diurutkan mulai dari yang terbesar sampai
terkecil. Pada algoritme TextRank, bobot akhir setiap vertex dari 30 dokumen

9
setelah proses pemeringkatan bernilai antara 0.1500–8.7155. Pada algoritme
LexRank, proses pemeringkatan menghasilkan bobot akhir setiap vertex dari 30
dokumen antara 0.0000–0.2786. Hasil akhir proses pemeringkatan terhadap salah
satu dokumen bisa dilihat pada Tabel 4.
Tabel 4 Hasil akhir proses pemeringkatan dokumen gatra030203.txt
Algoritme TextRank
Kalimat Bobot Akhir
Kalimat 7
43.358
Kalimat 1
2.160
Kalimat 2
1.143
Kalimat 6
0.595
Kalimat 4
0.312
Kalimat 3
0.303
Kalimat 5
0.274

Algoritme LexRank
Kalimat Bobot Akhir
Kalimat 1
0.279
Kalimat 7
0.279
Kalimat 4
0.200
Kalimat 2
0.064
Kalimat 5
0.064
Kalimat 3
0.057
Kalimat 6
0.057

Ekstraksi Kalimat
Setelah diperoleh bobot akhir setiap vertex berdasarkan kedua algoritme,
proses selanjutnya adalah proses ekstraksi kalimat. Proses ekstraksi kalimat
merupakan proses memilih kalimat dari sebuah dokumen yang akan dijadikan
ringkasan. Penelitian ini menggunakaan tingkat kompresi sebesar 25% dan
kalimat yang dipilih adalah kalimat dengan peringkat paling tinggi. Misalkan
suatu dokumen memiliki 20 kalimat, maka kalimat yang akan diekstraksi
sebanyak 5 kalimat yang peringkatnya paling tinggi. Jika hasil perhitungan 25%
dari total kalimat adalah bilangan desimal maka hasil perhitungan tersebut
dibulatkan ke atas. Misalkan 25% kalimat yang diekstraksi adalah 5.5 maka
banyak kalimat yang dijadikan ringkasan adalah 6 kalimat.
Evaluasi
Setelah didapatkan hasil ringkasan dari kedua algoritme, proses selanjutnya
yaitu evaluasi hasil ringkasan dari kedua algoritme. Proses evaluasi menggunakan
tiga orang ahli dan ringkasan yang dibuat oleh ketiga ahli tersebut serta
perhitungannya menggunakan metode Kappa Measure. Para ahli merupakan
lulusan Sastra Indonesia dan berprofesi sebagai pengajar bahasa Indonesia.
Para ahli menilai hasil ringkasan algoritme TextRank dan ringkasan
algoritme LexRank dengan membandingkan hasil ringkasan kedua algoritme
dengan ringkasan manual. Ringkasan manual adalah ringkasan yang dibuat oleh
para ahli. Kategori penilaian dibagi dua, yaitu relevan dan non-relevan. Hasil
penilaian ketiga ahli terdapat pada Tabel 5 dan untuk lebih lengkapnya dapat
dilihat pada Lampiran 1 dan Lampiran 2.
Tingkat relevansi rata-rata untuk algoritme TextRank sebesar 95.56% dan
untuk algoritme LexRank sebesar 80.00%. Tingkat relevansi kedua algoritme
cukup besar sehingga hasil ringkasan kedua algoritme memungkinkan untuk
dijadikan ringkasan untuk dokumen bahasa Indonesia. Tingkat relevansi kedua
algoritme terdapat pada Gambar 3.

10
Tabel 5 Hasil pengujian ahli terhadap 30 dokumen
Relevansi

Penguji 1 Penguji 2 Penguji 3
TR LR TR LR TR LR

Relevan
Tidak Relevan

29
1

30
0

30
0

18
12

27
3

Rata-rata
TR LR

24 28.67
6 1.33

24
6

Hasil penilaian para ahli kemudian dijadikan masukan untuk perhitungan
nilai kappa. Perhitungan kappa dilakukan secara berpasangan untuk setiap pasang
ahli karena menggunakan lebih dari dua orang ahli (Popescu 2007). Kappa
memiliki nilai antara -1 sampai 1. Semakin besar nilai kappa, semakin tinggi
tingkat kesesuaian penilaian para ahli. Jika nilai kappa lebih dari 0.8 maka
kesesuaiannya mendekati sempurna. Jika kurang dari 0.6 maka penilaian para ahli
tidak sesuai atau tingkat kesesuaiannya buruk (Popescu 2007). Penyebaran hasil
penilaian tiap pasang ahli untuk perhitungan kappa dapat dilihat pada Lampiran 3
dan Lampiran 4. Perhitungan nilai kappa dimulai dari mencari nilai P(A) dan P(E).
Komponen perhitungan kappa untuk algoritme TextRank dan LexRank terdapat
pada Tabel 6 dan Tabel 7.

Rata-rata

Penguji 3
LexRank
TextRank

Penguji 2

Penguji 1
0%

20%

40%

60%

80%

100%

Gambar 3 Tingkat relevansi hasil ringkasan
Tabel 6 Komponen Kappa dan nilai Kappa tiap pasang
ahli untuk algoritme TextRank
P(A)
P(E)
Kappa
P1 & P2
0.9667
0.9672
-0.0169
P1 & P3
0.8667
0.8756
-0.0714
P2 & P3
0.9000
0.9050
-0.0526
Keterangan: P1: Penguji 1; P2: Penguji 2; P3: Penguji 3.

11
Tabel 7 Komponen Kappa dan nilai Kappa tiap pasang
ahli untuk algoritme LexRank
P(A)
P(E)
Kappa
P1 & P2
0.6000
0.6800
-0.2500
P1 & P3
0.8000
0.8200
-0.1111
P2 & P3
0.5333
0.5800
-0.1111
Keterangan: P1: Penguji 1; P2: Penguji 2; P3: Penguji 3.
Algoritme TextRank memiliki nilai kappa rata-rata sebesar -0.0469
sedangkan nilai kappa rata-rata LexRank sebesar -0.15741. Jika nilai kappa kedua
algoritme dibandingkan maka kedua algoritme memiliki nilai kappa yang sangat
kecil dan bernilai negatif yang artinya tingkat kesesuaian para ahli sangat buruk.
Akan tetapi metode kappa memiliki kekurangan yaitu pada saat nilai kesesuaian
tinggi namun nilai kappa kecil (Feinstein dan Cicchetti 1990). Hal ini yang terjadi
pada evaluasi peringkasan dokumen dengan algoritme TextRank dan LexRank.
Pada algoritme TextRank dan LexRank nilai kesesuaian rata-rata tiap pasang ahli
(P(A)) 0.9111 dan 0.6444. Akan tetapi nilai kappa yang dihasilkan bernilai negatif
sehingga nilai kappa kedua algoritme tidak bisa langsung dibandingkan karena
kekurangan metode kappa tersebut.
Menurut Bryt et al. (1993) di dalam Cunningham (2009), solusi untuk
kekurangan kappa tersebut dengan menghitung nilai Prevelance-adjusted biasadjusted kappa (PABAK). Semakin tinggi nilai PABAK semakin tinggi pula
tingkat kesesuaian penilaian para ahli. Formula untuk menghitung PABAK
sebagai berikut:


( )

Berdasarkan formula (6), nilai PABAK dari tiap pasang ahli terdapat pada Tabel 8
dan Tabel 9.
Tabel 8 Komponen formula PABAK dan
nilai PABAK algoritme TextRank
P(A)
PABAK
P1 & P2
0.9667
0.9334
P1 & P3
0.8667
0.7334
P2 & P3
0.9000
0.8000
Keterangan: P1: Penguji 1; P2: Penguji 2; P3: Penguji 3.
Tabel 9 Komponen formula PABAK dan
nilai PABAK algoritme LexRank
P(A)
PABAK
P1 & P2
0.6000
0.2000
P1 & P3
0.8000
0.6000
P2 & P3
0.5333
0.0666
Keterangan: P1: Penguji 1; P2: Penguji 2; P3: Penguji 3.

12
Hasil perhitungan PABAK untuk algoritme TextRank memiliki rata-rata
0.8223 sedangkan untuk algoritme LexRank memiliki nilai PABAK rata-rata
sebesar 0.2889. Algoritme TextRank memiliki nilai PABAK yang lebih tinggi
dari algoritme LexRank. Tingkat relevansi algoritme TextRank terhadap isi
dokumen juga tinggi. Hal ini memperlihatkan bahwa algoritme TextRank lebih
baik dalam peringkasan dokumen bahasa Indonesia dibandingkan dengan
algoritme LexRank. Perbandingan nilai PABAK bisa dilihat pada Gambar 4.
Rata-rata
LexRank

P2 & P3

TextRank
P1 & P3
P1 & P2
0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Gambar 4 Perbandingan nilai PABAK algoritme TextRank dan algoritme
LexRank
Algoritme TextRank dan Algoritme LexRank memiliki waktu yang berbeda
dalam mengembalikan hasil ringkasan. Pada algoritme TextRank rata-rata waktu
untuk mengembalikan hasil ringkasan adalah 0.0294 detik. Algoritme LexRank
memiliki waktu rata-rata untuk mengembalikan hasil ringkasan 0.4312 detik.
Rata-rata waktu pengembalian hasil ringkasan 30 dokumen terdapat pada
Gambar 5.
Analisis Hasil Penilaian Para Ahli
Hasil penilaian untuk menentukan tingkat relevansi dan nilai kappa
bergantung pada pandangan para ahli. Hal ini disebabkan pengujian kappa bersifat
human judgement. Dalam penilaian hasil ringkasan kedua algoritme, para ahli
tidak memperhitungkan banyak kalimat yang overlap antara ringkasan manual
dan ringkasan kedua algoritme. Hal ini terlihat dari tingkat relevansi algoritme
TextRank 95.56% dan algoritme LexRank 80.00%. Akan tetapi, rata-rata kalimat
yang overlap untuk algoritme TextRank 34.06% dan untuk algoritme LexRank
24.02%.
0.50

0.4312

Detik

0.40
0.30
0.20
0.10

0.0294

0.00
TextRank

LexRank

Gambar 5 Rata-rata waktu pengembalian hasil ringkasan 30 dokumen

13
Hasil ringkasan algoritme TextRank menurut para ahli mengandung
kalimat-kalimat yang memiliki informasi lebih banyak dan lebih umum untuk
mewakili dokumen sumber dibandingkan algoritme LexRank. Hal ini dilihat dari
hasil ringkasan algoritme TextRank diekstraksi dari kalimat-kalimat awal dan
akhir dokumen sumber. Sementara itu, algoritme LexRank mengekstraksi
kalimat-kalimat yang posisinya di akhir dokumen sumber. Posisi kalimat yang
diekstraksi pada salah satu dokumen oleh kedua algoritme terlihat pada Gambar 6
dan Gambar 7. Dokumen yang digunakan pada penelitian ini berupa artikel berita
sehingga menurut para ahli kalimat-kalimat awal dari suatu artikel berita biasanya
mengandung informasi inti dari suatu dokumen.

Gambar 6 Posisi kalimat yang diekstraksi
algoritme TextRank pada dokumen
gatra040303.txt

Gambar 7 Posisi kalimat yang diekstraksi
algoritme LexRank pada dokumen
gatra040303.txt

14
Para ahli menilai algoritme TextRank lebih cepat dalam mengeluarkan hasil
ringkasan dibandingkan algoritme LexRank. Algoritme TextRank memiliki waktu
rata-rata untuk mengembalikan hasil ringkasan tiap dokumen 0.0294 detik
sedangkan algoritme LexRank 0.4312 detik. Pada algoritme TextRank, proses
yang dilakukan dalam menghitung similarity dan pemeringkatan hanya operasi
matematika biasa seperti penjumlahan, perkalian, pembagian, dan logaritma. Pada
algoritme LexRank, selain operasi matematika biasa terdapat operasi perkalian
matriks. Hal ini yang menyebabkan waktu pengembalian hasil ringkasan
algoritme LexRank lebih lama dibandingkan algoritme TextRank.

SIMPULAN DAN SARAN
Simpulan
Pada penelitian ini telah berhasil dibuat dan dibandingkan kinerja algoritme
TextRank dengan algoritme LexRank pada peringkasan dokumen bahasa
Indonesia. Algoritme TextRank memperlihatkan kinerja yang lebih baik dalam
meringkas dokumen bahasa Indonesia dibandingkan dengan algoritme LexRank.
Hal ini terlihat dari tingkat relevansi rata-rata algoritme TextRank sebesar 95.56%
dan nilai PABAK rata-rata 0.8223 lebih tinggi dari algoritme LexRank yang
memiliki tingkat relevansi rata-rata 80.00% dan nilai PABAK rata-rata 0.2889.
Jika dilihat dari waktu pengembalian hasil ringkasan, algoritme TextRank lebih
cepat dalam mengembalikan hasil ringkasan dibandingkan dengan algoritme
LexRank.
Saran
Pengembangan lebih lanjut perlu dilakukan untuk menghasilkan sistem
peringkasan otomatis dokumen bahasa Indonesia yang lebih baik. Beberapa saran
untuk pengembangan lebih lanjut sebagai berikut :
1 Melakukan proses stemming untuk menghilangkan imbuhan sehingga kata
yang memiliki kata dasar yang sama dianggap sama dalam perhitungan
similarity kedua algoritme, misalkan kata menyapu dengan kata sapu akan
dianggap sama setelah proses stemming.
2 Melakukan proses menghilangkan stop word untuk menghilangkan kata-kata
yang tidak memiliki makna seperti kata hubung sehingga tidak masuk dalam
perhitungan nilai similarity.
3 Menggunakan metode pengujian yang lain seperti recall precision, Fmeasure atau Dice Coefficient.
4 Menggunakan dokumen uji yang lebih banyak.

15

DAFTAR PUSTAKA
Cunningham M. 2009. More than just the kappa coefficient: a program to fully
characterize inter-rater reliability between two raters. Di dalam: SAS Global
Forum 2009 Proceedings [Internet]; 2009 Mar 22-25; Washington DC,
Amerika Serikat. Washington (US); [diunduh 2013 Jun 16]. Tersedia pada:
http://support.sas.com/resources/papers/proceedings09/242-2009.pdf.
Erkan G, Radev DR. 2004. LexRank: graph-based lexical centrality as salience in
text summarization. Journal of Artificial Intelligence Research. 22(2004):
457-479.
Feinstein AR, Cicchetti DV. 1990. High agreement but low kappa: I. The
problems of two paradoxes. Journal of Clinical Epidemiology. 6(1990):543549.
Kupiec J, Pedersen J, Chen F. 1995. A trainable document summarizer. Di dalam:
Proceedings of the 18th annual international ACM SIGIR conference on
Research and development in information retrieval; 1995 Jul 9-13; Seattle,
Amerika Serikat. Seattle (US): ACM. hlm 68-73.
Manning C, Raghavan P, Schutze H. 2009. An Introduction to Information
Retrieval. Cambridge (GB): Cambridge University Press.
Mihalcea R, Tarau P. 2004. TextRank : Bringing Order into Texts. Di dalam:
Proceedings of the Conference on Empirical Methods in Natural Language
Processing (EMNLP 2004); 2004 Jul 25-26; Barcelona, Spanyol.
Pennsylvania (US): Association for Computational Linguistics. hlm 404411.
Popescu A. 2007. The kappa measure of inter-coder agreement on classification
tasks. http://andreipb.free.fr/textes/apb-kappa-181207.pdf [3 Jun 2013].
Rogers I. 2002. The Google pagerank algorithm and how it works.
http://www.iprcom.com/papers/pagerank [16 Okt 2012].
Short JE, Bohn RE, Baru C. 2011. How much information? Report on enterprise
server information. http://hmi.ucsd.edu/pdf/HMI_2010_EnterpriseReport_
Jan_2011.pdf [24 Jun 2013].
Zikra H. 2009. Sistem peringkasan teks otomatis menggunakan algoritme
pagerank [skripsi]. Bogor (ID): Institut Pertanian Bogor.

16
Lampiran 1 Data hasil penilaian ahli terhadap ringkasan algoritme TextRank
No Penguji 1 Penguji 2 Penguji 3
1
R
R
R
2
R
R
R
3
R
R
R
4
R
R
TR
5
R
R
R
6
R
R
R
7
TR
R
R
8
R
R
R
9
R
R
TR
10 R
R
R
11 R
R
R
12 R
R
R
13 R
R
R
14 R
R
R
15 R
R
R
16 R
R
R
17 R
R
R
18 R
R
R
19 R
R
R
20 R
R
R
21 R
R
R
22 R
R
R
23 R
R
R
24 R
R
R
25 R
R
R
26 R
R
R
27 R
R
R
28 R
R
R
29 R
R
R
30 R
R
TR
Keterangan: R: Relevan; TR: Tidak Relevan

17
Lampiran 2 Data hasil penilaian ahli terhadap ringkasan algoritme LexRank
No Penguji 1 Penguji 2 Penguji 3
1
R
TR
R
2
R
TR
R
3
R
R
R
4
R
R
TR
5
R
TR
R
6
R
R
R
7
R
R
R
8
R
TR
R
9
R
R
R
10 R
R
TR
11 R
TR
R
12 R
R
R
13 R
R
R
14 R
R
TR
15 R
R
R
16 R
TR
R
17 R
TR
R
18 R
TR
R
19 R
TR
TR
20 R
R
TR
21 R
R
R
22 R
TR
R
23 R
TR
R
24 R
TR
TR
25 R
R
R
26 R
R
R
27 R
R
R
28 R
R
R
29 R
R
R
30 R
R
R
Keterangan: R: Relevan; TR: Tidak Relevan

18
Lampiran 3 Penyebaran hasil penilaian ahli untuk perhitungan Kappa pada
algoritme TextRank
Penguji 2
Relevan Tidak Relevan
Penguji 1 Relevan
29
0
Tidak Relevan
1
0
Penguji 3
Relevan Tidak Relevan
Penguji 1 Relevan
26
3
Tidak Relevan
1
0
Penguji 3
Relevan Tidak Relevan
Penguji 2 Relevan
27
3
Tidak Relevan
0
0

Lampiran 4 Penyebaran hasil penilaian ahli untuk perhitungan Kappa pada
algoritme LexRank
Penguji 2
Relevan Tidak Relevan
Penguji 1 Relevan
18
12
Tidak Relevan
0
0
Penguji 3
Relevan Tidak Relevan
Penguji 1 Relevan
24
6
Tidak Relevan
0
0
Penguji 3
Relevan Tidak Relevan
Penguji 2 Relevan
14
4
Tidak Relevan
10
2

19

RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 7 Mei 1992 dan merupakan anak
pertama dari tiga bersaudara dari pasangan Drs. H. Muh. Firmansyah, MSi dan Hj.
Susi Marlena, SE, MM.
Penulis mengawali pendidikan pada tahun 1997 sampai tahun 2003 di SD
Negeri 03 Pagi Utan Kayu Utara. Selanjutnya, penulis meneruskan ke pendidikan
lanjutan tingkat pertama dari tahun 2003 sampai tahun 2006 di SMP Negeri 7
Jakarta. Setelah itu, penulis melanjutkan pendidikan menengah atas di SMA
Negeri 68 Jakarta dan lulus pada tahun 2009.
Pada tahun 2009, penulis diterima di Institut Pertanian Bogor (IPB) melalui
jalur USMI kemudian terdaftar sebagai mahasiswa Fakultas Matematika dan IPA
(FMIPA) pada Departemen Ilmu Komputer.
Selama menjadi mahasiswa, penulis aktif di beberapa organisasi. Pada
tingkat pertama, penulis aktif di Organisasi Mahasiswa Daerah Jakarta
Community sebagai anggota. Pada tingkat kedua, penulis aktif sebagai ketua di
Organisasi Mahasiswa Daerah Jakarta Community dan aktif sebagai anggota
divisi HRD di Himpunan Mahasiswa Ilmu Komputer (Himalkom). Pada tingkat
ketiga, penulis kembali aktif di Himalkom sebagai ketua.