Peringkasan Teks Bahasa Indonesia dengan Pemilihan Fitur C4.5 dan Klasifikasi Naive Bayes

PERINGKASAN TEKS BAHASA INDONESIA DENGAN
PEMILIHAN FITUR C4.5 DAN KLASIFIKASI
NAIVE BAYES

SEPTIANDI WIBOWO

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul “Peringkasan Teks
Bahasa Indonesia dengan Pemilihan Fitur C4.5 dan Klasifikasi Naive Bayes”
adalah benar karya saya dengan arahan dari komisi pembimbing dan belum
diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Juni 2013

Septiandi Wibowo
NIM G64104003

ABSTRAK
SEPTIANDI WIBOWO. Peringkasan Teks Bahasa Indonesia dengan Pemilihan
Fitur C4.5 dan Klasifikasi Naive Bayes. Dibimbing oleh AHMAD RIDHA.
Penelitian ini meringkas dokumen teks bahasa Indonesia dengan metode
klasifikasi Naive Bayes (NB). Segmentasi dokumen menjadi beberapa kalimat dan
penghitungan fitur kalimat merupakan tahap awal pelatihan sistem untuk
menentukan kalimat yang diklasifikasi sebagai ringkasan. Klasifikasi
menggunakan 11 fitur (f1-f11). Fitur-fitur kalimat dipilih dengan decision tree
C4.5 untuk menentukan fitur-fitur kalimat yang berpengaruh pada hasil ringkasan,
mengurangi jumlah fitur, dan mempercepat peringkasan dokumen. Akurasi hasil
ringkasan dengan 10 fitur kalimat (f1-f10) adalah 34.63%, 37.96%, dan 28.14%
untuk masing-masing Compression Rate (CR) 10%, 20%, dan 30%. Penambahan
f11 dan pemilihan fitur C4.5 menghasilkan akurasi 52.45%, 51.49%, dan 51.35%

untuk masing-masing CR 10%, 20%, dan 30%. Peringkasan teks menggunakan
klasifikasi NB, pemilihan fitur C4.5, dan penambahan fitur f11 menghasilkan
akurasi ringkasan yang lebih baik dan waktu peringkasan yang lebih cepat.
Kata kunci: C4.5, naive bayes, pemilihan fitur, peringkasan teks

ABSTRACT
SEPTIANDI WIBOWO. Indonesian Teks Summarization Using C4.5 Feature
Selection and Naive Bayes Classification. Supervised by AHMAD RIDHA.
This research summarized Indonesian text documents using naive bayes
(NB) classification method. Segmentation of the documents into sentences and
feature computation are the initial stages of training the system to determine
which sentences are classified as summary. The classification used 11 features
(f1-f11). The features are selected using C4.5 decision tree to determine the
features that affect the summary, reduce the number of features and speed up the
summarization. The accuracy of summarization using 10 features (f1-f10) was
34.63%, 37.96%, and 28.14% for compression rate (CR) of 10%, 20%, and 30%,
respectively. Adding f11 and C4.5 produced an accuracy of 52.45%, 51.49% and
51.35% for CR 10%, 20%, and 30%, respectively. Text summarization using NB
classification, C4.5 feature selection, and additional f11 feature produced better
accuracy and faster summarization.

Keyword: C4.5, feature selection, naive bayes, text summarization

PERINGKASAN TEKS BAHASA INDONESIA DENGAN
PEMILIHAN FITUR C4.5 DAN KLASIFIKASI
NAIVE BAYES

SEPTIANDI WIBOWO

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Ilmu Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

Judul Skripsi : Peringkasan Teks Bahasa Indonesia dengan Pemilihan Fitur C4.5
dan Klasifikasi Naive Bayes
Nama
: Septiandi Wibowo
NIM
: G64104003

Disetujui oleh

Ahmad Ridha, SKom MS
Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA

Alhamdulillahi rabbil a’lamin karya ilmiah ini telah berhasil diselesaikan
oleh penulis. Judul karya ilmiah ini adalah Peringkasan Teks Bahasa Indonesia
dengan Pemilihan Fitur C4.5 dan Klasifikasi Naive Bayes. Penulis mengucapkan
terima kasih kepada Sumedi dan Ani Sri Dharmawati sebagai orang tua dan
keluarga besar yang selalu mendoakan dan memberi dukungan kepada penulis.
Shinta Bela Dewanti sebagai teman dekat yang memberi dukungan kepada
penulis. Serta tak lupa bapak Ahmad Ridha, SKom MS sebagai pembimbing yang
selalu mengarahkan penulis saat penelitian beserta teman seperjuangan alih jenis
ilmu komputer yang menjadi pelengkap suksesnya penulis menyelesaikan karya
ilmiah ini.
Bogor, Juni 2013

Septiandi Wibowo

DAFTAR ISI
DAFTAR TABEL

viii

DAFTAR GAMBAR

viii

DAFTAR LAMPIRAN

viii

PENDAHULUAN

1

Latar Belakang

1

Tujuan Penelitian

1

Ruang Lingkup

2

Manfaat Penelitian

2

METODE PENELITIAN

2

Pengumpulan Dokumen Teks

3

Segmentasi Dokumen

3

Ekstraksi Fitur Teks

3

Klasifikasi Naive Bayes

6

Pemilihan Fitur C4.5

7

Pengujian N-gram

7

Spesifikasi Perangkat Lunak dan Perangkat Keras

7

HASIL DAN PEMBAHASAN

8

Penghitungan Fitur Kalimat

8

Naive Bayes

8

Pemilihan Fitur

9

Implementasi Program

10

Evaluasi Hasil Ringkasan

11

SIMPULAN DAN SARAN

14

Simpulan

14

Saran

14

DAFTAR PUSTAKA

15

LAMPIRAN

16

DAFTAR TABEL
1
2
3
4

Contoh ekstraksi fitur dan pemberian kelas pada sebuah dokumen
Rata-rata dan varian 11 fitur dengan CR 10% dan kelas masuk
ringkasan
Fitur kalimat yang terpilih di setiap compression rate
Fitur kalimat terpilih menggunakan data uji

8
9
10
10

DAFTAR GAMBAR
1
2
3
4
5
6

Metode penelitian peringkasan teks
Diagram alir kode program peringkasan teks
Akurasi ringkasan menggunakan fitur f1-f10
Waktu peringkasan menggunakan fitur f1-f10
Akurasi ringkasan menggunakan fitur f1-f11
Waktu peringkasan menggunakan fitur f1-f11

2
11
12
12
13
13

DAFTAR LAMPIRAN
1
2
3
4
5

Contoh data korpus berformat XML
Penghitungan fitur teks
Nilai rata-rata dan varian setiap kelas dan CR
Hasil pengujian akurasi peringkasan dengan 11 fitur pada CR 30%
Hasil pengujian waktu peringkasan dengan 11 fitur pada CR 30%

16
17
18
19
20

1

PENDAHULUAN
Latar Belakang
Pemahaman dokumen teks secara utuh memerlukan waktu yang lama jika
dibandingkan dengan dokumen teks yang sudah diringkas. Ringkasan teks
idealnya terdiri atas kalimat-kalimat yang diperlukan saja untuk mengurangi
waktu pemahaman. Tidak semua kalimat menunjukkan intisari dari dokumen
secara utuh.
Peringkasan teks merupakan proses mengurangi panjang atau kompleksitas
dokumen teks asli tanpa kehilangan pikiran utama dari dokumen teks tersebut.
Hasil ringkasan perlu diuji ketepatannya karena setiap kalimat yang masuk dalam
ringkasan harus memiliki nilai penting dalam pemahaman dokumen.
Hasil ringkasan teks berdasarkan bentuk terdiri dari ekstraksi dan abstraksi.
Bentuk ekstraksi meringkas dokumen teks dengan cara memenggal dokumen
menjadi beberapa kalimat yang penting dan informatif, sedangkan abstraksi
meringkas dokumen teks dengan mengambil intisarinya kemudian menciptakan
kalimat-kalimat baru dalam bentuk berbeda (Jezek dan Steinberger 2008).
Keuntungan bentuk ekstraksi adalah kemudahan saat proses pembuatan ringkasan,
tetapi kekurangannya adalah hasil ringkasan dapat menghasilkan kalimat yang
tidak bersesuaian dengan intisari dokumen. Oleh sebab itu penelitian ini
menggunakan bentuk ringkasan yang mudah dalam peringkasan yaitu bentuk
ekstraksi.
Fattah dan Ren (2008) melakukan peringkasan dengan 10 fitur yang dia
ajukan untuk menghitung fitur di setiap kalimat dan genetic algorithm (GA)
digunakan untuk menentukan kalimat ringkasan. Kemudian penelitian Aristoteles
(2011) melakukan hal yang sama dengan Fattah dan Ren (2008) dengan
penambahan fitur kalimat semantik. Pemodelan GA membutuhkan waktu yang
lama untuk menciptakan nilai kromosom untuk pembobotan fitur. Marlina (2012)
melakukan hal yang sama tetapi menggunakan metode regresi logistik biner untuk
menghasilkan model pengujian. Hasil penelitian-penelitian sebelumnya
membutuhkan waktu komputasi yang lama pada tahap pelatihan karena
melibatkan GA untuk pemilihan fitur. Oleh sebab itu, penelitian ini mengajukan
pemilihan fitur lain dengan metode decision tree C4.5 dan klasifikasi naive Bayes
untuk menghasilkan ringkasan dokumen teks.

Tujuan Penelitian
1
2
3

Tujuan dari penelitian ini adalah:
Menghasilkan ringkasan dari dokumen teks utuh.
Mencari beberapa fitur teks yang paling berpengaruh.
Mengetahui kinerja peringkasan teks menggunakan metode naive
Bayes.

2
Ruang Lingkup
1
2

Batasan atau ruang lingkup dari penelitian ini adalah sebagai berikut:
Peringkasan yang dilakukan hanya pada dokumen bahasa Indonesia.
Dokumen yang diringkas hanya berjenis teks.

Manfaat Penelitian
Manfaat dari penelitian ini adalah mengoptimalkan hasil ringkasan teks dan
mempersingkat waktu peringkasan.

METODE PENELITIAN
Penelitian ini menggunakan 3 tahap yaitu tahap pengumpulan dokumen teks,
tahap pelatihan dokumen, dan tahap pengujian dokumen. Secara terperinci dapat
dilihat pada Gambar 1.

Dokumen Latih

Dokumen Uji

Pelatihan
Penghitungan fitur
kalimat

Pelabelan Kelas
Ringkasan

Pengujian

Penghitungan fitur
kalimat
Ringkasan
Manual

Penghitungan
Naive Bayes

Model

Ringkasan
Dokumen

Gambar 1 Metode penelitian peringkasan teks

3
Pengumpulan Dokumen Teks
Penelitian ini menggunakan 100 dokumen teks yang digunakan oleh
Aristoteles (2011) dan Marlina (2012) yaitu dokumen teks yang berasal dari
dokumen berita nasional. Dokumen tersebut berasal dari berita online Kompas
yang didapat dari korpus penelitian Ridha et al. (2002). Tahap pelatihan
menggunakan 50 dokumen dan tahap pengujian menggunakan 50 dokumen.
Seluruh dokumen terdapat ringkasan manualnya masing-masing. Ringkasan
manual dilakukan secara individual pada penelitian sebelumnya. Salah satu
contoh dokumen teks berformat XML dapat dilihat pada Lampiran 1.

Segmentasi Dokumen
Segmentasi atau pemenggalan dokumen diperlukan untuk menghasilkan
ringkasan. Penelitian ini menggunakan bentuk ringkasan ekstraksi, maka hasil
ringkasan merupakan kumpulan beberapa kalimat yang ada pada dokumen teks
yang diuji. Sebuah kalimat ditentukan sebagai deretan kata yang diakhiri tanda
titik (.). Beberapa tanda titik (.) dianggap bukan akhir dari kalimat yaitu:
 Ungkapan waktu
Contoh: Saya akan pergi pada pukul 19.30 dengan dia.
 Nama gelar
Contoh: Ir. Soekarno memproklamasikan kemerdekaan Indonesia.
 Rangkaian angka
Contoh: Harga beras bulan ini adalah Rp 10.000 per Kg.
 Kalimat langsung
Contoh: “Jadi, saya katakan masalah radikalisme di Indonesia punya kaitan
dengan masalah ekonomi. Maka saya yakin bila masalah ekonomi ini bisa
dipulihkan di Indonesia." kata Hamzah Haz.

Ekstraksi Fitur Teks
Ekstraksi fitur teks dihasilkan dari penghitungan 11 fitur yang digunakan,
yaitu posisi kalimat setiap paragraf (f1), positive keyword (f2), negative
keyword (f3), kemiripan antarkalimat (f4), kalimat yang menyerupai judul
dokumen (f5), kalimat yang mengandung entitas bernama (f6), kalimat yang
mengandung data numerik (f7), panjang kalimat (f8), koneksi antar kalimat (f9),
penjumlahan bobot koneksi antar kalimat (f10), dan posisi kalimat setiap
dokumen (f11). Persamaan 10 fitur kalimat pertama merupakan persamaan yang
diajukan Fattah dan Ren (2008). Fitur f11 merupakan tambahan fitur dari
penelitian sebelumnya. Ekstraksi fitur dilakukan setelah segmentasi dokumen.
Penghitungan fitur dilakukan di setiap kalimat pada seluruh dokumen. Berikut 10
fitur dan 1 fitur tambahan yang digunakan.
Posisi Kalimat Setiap Paragraf (f1)
Posisi kalimat setiap paragraf adalah letak kalimat dalam sebuah paragraf.
Kalimat yang berada pada posisi pertama merupakan kalimat yang paling penting.

4
Penghitungan nilai pada kalimat kedua memiliki nilai yang menurun dari kalimat
pertama, begitu pun selanjutnya. Variabel x pada Persamaan 1 menandakan posisi
kalimat, N adalah banyaknya kalimat yang ada pada sebuah paragraf, dan s adalah
kalimat dalam ringkasan dokumen. Jika kalimat pada posisi pertama maka nilai
variabel x sama dengan N, jika kalimat kedua variabel x = N-1, begitupun
selanjutnya.
Nilaif1(s) =

x

(1)

N

Positive Keyword (f2)
Kata yang paling banyak muncul pada suatu dokumen adalah pengertian
dari positive keyword. Keyword dibentuk dari kata-kata dalam dokumen yang
sudah dibuang berdasarkan stoplist. Daftar stoplist dihasilkan dari penelitian
sebelumnya.
Nilaif2(s) =

1
length(s)

n
i=1 tfi *P

s S keywordi )

(2)

Jika s adalah kalimat dalam ringkasan dokumen, S adalah kalimat dalam
dokumen, fitur f2 adalah fitur positive keyword, n adalah jumlah keyword dalam
kalimat, �� adalah banyak keyword yang muncul ke-i yang muncul dalam
kalimat.
P s

S keywordi ) =

P keywordi s

S) =

P s

S =

P(keywordi ) =

P keywordi s

S) P(s

S )

(3)

P(keywordi )
(Jumlah kalimat dalam ringkasan yang mengandung keywordi )
(Jumlah kalimat dalam ringkasan)
(Jumlah kalimat dalam korpus pelatihan dan dalam ringkasan)
(Jumlah kalimat dalam korpus pelatihan)
(Jumlah kalimat dalam korpus pelatihan yang mengadung keywordi)
(Jumlah kalimat dalam korpus pelatihan)

(4)
(5)
(6)

P s S keywordi ) adalah penghitungan dari korpus pelatihan (ringkasan
manual), �� , n dan panjang kalimat dihitung menggunakan kalimat s pada tahap
pengujian. Persamaan 2 dihitung dengan menggunakan Persamaan 3-6.
Negative Keyword (f3)
Negative keyword adalah kata yang sedikit muncul pada sebuah dokumen.
Jika s adalah kalimat dalam ringkasan dokumen, S adalah kalimat dalam dokumen
(lihat Persamaan 7). Fitur f3 adalah fitur teks negative keyword, n adalah jumlah
keyword dalam kalimat, dan �� adalah banyaknya keyword ke-i yang muncul
dalam kalimat.
Nilaif3(s) =

1
length(s)

n
i=1 tfi

*P s

S keywordi )

(7)

Kemiripan Antarkalimat (f4)
Kemiripan antarkalimat adalah munculnya kata pada kalimat dan kalimat
lain dalam sebuah dokumen. Jumlah keyword yang beririsan dengan kalimat yang

5
lain dibagi dengan jumlah gabungan keyword yang ditemukan, hasilnya adalah
merupakan nilai f4 pada kalimat itu sendiri (lihat Persamaan 8).
Nilaif4(s) =

Keyword dalam s ∩ Keyword dalam antarkalimat
Keyword dalam s ∪ Keyword dalam antarkalimat

(8)

Kalimat yang Menyerupai Judul Dokumen (f5)
Kalimat yang menyerupai judul dokumen adalah kalimat memiliki kata
yang menyerupai judul dokumen. Keyword yang berada ditubuh dokumen
beririsan dengan keyword di judul dokumen dibagi dengan jumlah keyword yang
ditemukan, hasilnya untuk nilai kalimat itu sendiri (lihat Persamaan 9).
Nilaif5(s) =

Keyword dalam s ∩ Keyword dalam judul
Keyword dalam s ∪ Keyword dalam judul

(9)

Kalimat yang Mengandung Entitas Bernama (f6)
Kalimat yang mengandung entitas bernama adalah kalimat yang memiliki
sekumpulan kata yang memiliki makna nama sebuah institusi, nama orang, nama
pulau, dan nama lainnya. Jumlah entitas bernama dibagi panjang s merupakan
nilai f6 (lihat Persamaan 10) dengan panjang s merupakan banyaknya kata dalam
sebuah kalimat yang tidak termasuk di dalam stoplist. Entitas bernama diperoleh
dari data entitas bernama penelitian sebelumnya yang disimpan di fail terpisah
dengan kode program utama.
Nilaif6(s) =

Jumlah entitas bernama dalam s
Panjang s

(10)

Kalimat yang Mengandung Data Numerik (f7)
Peringkasan teks yang mengandung data numerik dapat dianggap penting
karena memiliki informasi yang detail di sisi pemahaman dan mengandung nilai
statistik dari informasi dalam dokumen. Jumlah data numerik dalam s dibagi
dengan panjang s merupakan nilai f7 (lihat Persamaan 11).
Nilaif7 (s) =

Jumlah data numerik dalam s
Panjang s

(11)

Panjang Kalimat (f8)
Panjang kalimat pada sebuah dokumen dapat diukur dengan
membandingkan jumlah kata unik yang tidak termasuk stoplist dibagi dengan total
kata unik yang berada sebuah dokumen (lihat Persamaan 12).
Nilaif8(s) =

Jumlah kata dalam s
Kata unik dalam dokumen

(12)

Koneksi Antarkalimat (f9)
Koneksi antarkalimat adalah banyaknya kalimat yang memiliki kata yang
sama dengan kalimat lain pada 1 dokumen (lihat Persamaan 13). Nilai dari fitur
ini harus dinormalisasi menjaga nilai tetap di antara 0 atau 1.
Nilaif9(s)= #jumlah koneksi antarkalimat

(13)

6
Penjumlahan Bobot Koneksi Antarkalimat (f10)
Fitur ini adalah menjumlahkan bobot koneksi antarkalimat. Jika s adalah
kalimat, f10 adalah fitur teks penjumlahan bobot koneksi antarkalimat (lihat
Persamaan 14).
Nilaif10(s) =

koneksi antarkalimat

(14)

Posisi Kalimat Setiap Dokumen (f11)
Posisi kalimat setiap dokumen adalah penghitungan posisi kalimat pertama
di setiap dokumen merupakan kalimat penting dan terus menurun nilainya hingga
kalimat terakhir di setiap dokumen. Variabel x pada Persamaan 15 menandakan
posisi kalimat dan NN adalah banyaknya kalimat yang ada pada sebuah dokumen.
Jika kalimat pada posisi pertama, nilai variabel x sama dengan NN, jika kalimat
kedua variabel x = NN-1, begitupun selanjutnya.
Nilaif11(s) =

x

(15)

NN

Klasifikasi Naive Bayes
Klasifikasi naive Bayes merupakan klasifikasi statistik yang dapat
memprediksi kelas suatu anggota data. Naive Bayes mengasumsikan bahwa
seluruh fitur yang dihitung tidak berhubungan dengan fitur lainnya (Manning et al.
2008). Setiap fitur-fitur kalimat dijadikan sebagai parameter penghitungan naive
Bayes. Parameter naive Bayes pada penelitian ini memiliki data bersifat kontinu
yang terkait terhadap masing-masing kelas yang didistribusikan menggunakan
distribusi Gaussian.
Klasifikasi kalimat masuk ringkasan atau tidak menggunakan data latih
sebagai pengetahuan sebelumnya untuk menentukan kelas dari suatu kalimat
(lihat Persamaan 16). Nilai P(C) merupakan jumlah kalimat di setiap kelas dan
compression rate (CR) pada dokumen latih. Variabel f1-fn merupakan nilai fiturfitur kalimat.
Distribusi Gaussian menggunakan informasi rata-rata dan varian untuk
mendapatkan nilai kemungkinan setiap kalimat (lihat Persamaan 17). Rata-rata
setiap fitur kalimat dilambangkan oleh �� dan varian setiap fitur kalimat
dilambangkan oleh ��2 untuk proses penghitungan nilai kemungkinan setiap
kalimat.
P C f1 , …,f� ) =
P x=v C) =

P C P f1 , … , fn | C
P(f1 , … , fn )

1

-

e

2
(v- μc )
2σ2
c

(16)

(17)

2πσ2c

Dalam tahap pertama (pelatihan), dokumen teks dipecah menjadi beberapa
kalimat, kemudian kalimat-kalimat tersebut dihitung 11 fitur kalimatnya.
Penghitungan 11 fitur ini akan berpengaruh terhadap hasil ringkasan. Nilai ratarata dan varian untuk setiap fitur pada dokumen latih dihitung. Saat pelatihan

7
dengan menggunakan naive bayes menghasilkan model yang digunakan untuk
proses pengujian dokumen. Dalam tahap kedua (pengujian), semua kalimat pada
setiap dokumen dihitung nilai kemungkinan kelas masuk ringkasannya lalu
diurutkan dari yang terbesar kemudian diambil beberapa kalimat teratas sesuai
besar CR-nya. Kalimat-kalimat yang diambil tersebut merupakan hasil ringkasan
di setiap pengujian.

Pemilihan Fitur C4.5
Peringkasan teks mengandung tahapan proses penghitungan fitur-fitur
kalimat yang memiliki waktu komputasi di setiap proses penghitungannya. Proses
pemilihan beberapa fitur bertujuan mempersingkat waktu sistem untuk
menghitung nilai fitur di setiap kalimat. Jika waktu penghitungan fitur bisa
ditekan menjadi lebih cepat maka berimplikasi kepada total waktu peringkasan di
setiap dokumen.
Decision tree C4.5 menghasilkan diagram pohon keputusan yang terdiri dari
node dan leaf node (Quinlan 1993), node sebagai fitur teks dan leaf node sebagai
kelas klasifikasi. Fitur kalimat yang termasuk ke dalam node-node pada pemilihan
fitur C4.5 akan menjadi parameter terpilih untuk proses penghitungan klasifikasi.
Fitur kalimat yang tidak termasuk pada node tree tidak berguna untuk dijadikan
suatu parameter (Martinez dan Fuentes 2005). Fitur-fitur yang berada pada node
C4.5 merupakan fitur-fitur terpilih yang akan menjadi parameter penghitungan
naive bayes.

Pengujian N-gram
Hasil ringkasan dapat diukur ketepatannya dengan metode N-gram. Dice
coefficient salah satu metode untuk membandingkan dua hasil, yaitu banyaknya
kalimat yang dihasilkan sistem dan banyaknya kalimat yang diringkas secara
manual. Dice coefficient dihitung dengan Persamaan 18.
Dice =

2|X ∩ Y|
X +|Y|

(18)

Variabel X pada Persamaan 18 adalah banyaknya kalimat yang dihasilkan
oleh sistem dan Y adalah banyaknya kalimat yang diringkas secara manual.
Spesifikasi Perangkat Lunak dan Perangkat Keras
Lingkungan perangkat lunak yang digunakan pada penelitian ini adalah
Windows 7 32-bit sebagai sistem operasi, Notepad++ sebagai text editor, XAMPP
1.7.2 sebagai perangkat server web, dan Weka 3.6.9 dan Matlab 7.7.0 (R2008b)
sebagai alat bantu hitung untuk pelatihan sistem. Perangkat keras yang digunakan
pada penelitian ini adalah AMD Phenom™ II X3 Triple-Core N830, RAM 4GB,
dan harddisk dengan kapasitas 320GB.

8

HASIL DAN PEMBAHASAN
Penghitungan Fitur Kalimat
Penghitungan fitur dokumen latih dan uji menghasilkan data statistik fitur
setiap kalimat. Contoh hasil penghitungan fitur kalimat dapat dilihat pada Tabel 1.
Label R pada Tabel 1 merupakan kelas ringkasan di setiap kalimat. Kolom R
diberi nilai 1 menunjukkan bahwa kalimat tersebut masuk dalam ringkasan
manual, jika diberi nilai 0 maka kalimat tersebut tidak masuk ke dalam ringkasan
manual. Contoh lengkap penghitungan fitur terdapat pada Lampiran 2.
Tabel 1 Contoh ekstraksi fitur dan pemberian kelas pada sebuah dokumen
Kalimat
1
2
3
4
5

f1
1.000
0.500
1.000
1.000
1.000

f2
0.184
0.222
0.202
0.146
0.222

f3
0.816
0.778
0.798
0.854
0.876

16
17
18
19
20

1.000
1.000
0.500
1.000
1.000

0.156
0.276
0.245
0.197
0.245

0.840
0.850
0.755
0.803
0.755

f4
f5
0.040 0.008
0.020 0.004
0.059 0.004
0.036 0.000
0.029 0.286
...
0.143 0.250
0.021 0.000
0.036 0.000
0.016 0.000
0.012 0.004

….
…

…

f9
0.000
0.000
0.000
0.100
0.710

f10
0.000
0.000
0.000
0.148
0.106

R
1
1
1
1
0

0.000
0.000
0.300
0.000
0.000

0.000
0.000
0.369
0.000
0.000

0
0
0
1
1

Naive Bayes
Proses pelatihan naive bayes menghasilkan rata-rata dan varian yang
berbeda-beda setiap kelas dan CR. Tabel 2 menunjukkan hasil rata-rata dan varian
untuk 11 fitur dan kelas masuk ringkasan dengan CR 10%, secara lengkap dapat
dilihat pada Lampiran 3.
Persamaan naive bayes untuk pengujian 11 fitur terdapat di Persamaan 19.
Variabel X merupakan kelas dari kalimat. Peluang jumlah kalimat berdasarkan CR
yang dihitung dari semua dokumen disimbolkan oleh P(C=X).
P f1 , … , f11 | C = X mencari nilai kemungkinan 11 fitur berdasarkan hasil operasi
Gaussian di setiap kelas X yang dihitung. Pembagian dengan seluruh
kemungkinan P(f1 , … , f11 ) berfungsi menormalisasi nilai kemungkinan.
P C = X f1 , … ,f11 ) =

P C = X P f1 , … , f11 | C = X
P(f1 , … , f11 )

(19)

Persamaan naive Bayes yang dibentuk setelah pemilihan fitur akan
menghasilkan persamaan yang berbeda. Perbedaan terdapat pada fitur-fitur
kalimat yang digunakan. Fitur-fitur kalimat yang dihasilkan oleh proses pemilihan
fitur merupakan fitur-fitur yang akan digunakan klasifikasi naive Bayes untuk
penghitungan nilai kemungkinan kalimat masuk ringkasan.

9

Tabel 2 Rata-rata dan varian 11 fitur dengan CR 10% dan
kelas masuk ringkasan
Fitur

f1
f2
f3
f4
f5
f6
f7
f8
f9
f10
f11

Rata-rata

0.806365627
0.138193103
0.861800000
0.018262069
0.111048276
0.065772414
0.014572414
0.044944828
0.006793103
0.032779310
0.680468966

Varian

0.069357770
0.002383962
0.002383606
0.000246056
0.036423824
0.004325524
0.001390177
0.001442677
0.001979526
0.046669034
0.112719695

Pemilihan Fitur
Pemilihan fitur decision tree C4.5 menghasilkan beberapa fitur yang
menjadi parameter klasifikasi naive bayes. Setiap pemilihan fitur dengan kandidat
dan compression rate yang berbeda akan menghasilkan fitur terpilih yang berbeda
pula. Tabel 3 merupakan penghitungan C4.5 untuk kandidat f1 sampai dengan f10
menghasilkan fitur terpilih fitur f1, f4, f5, f7, dan f9 untuk CR 10%, fitur f2, f5, f6,
f8, dan f10 untuk CR 20%, dan fitur f1, f4, f5,dan f6 untuk CR 30%. Kandidat
dari fitur f1 sampai dengan f11 menghasilkan fitur terpilih yang berbeda yaitu
f1,f2,dan f11 untuk CR 10%, fitur f1, f2, f5, f8, f9, dan f11 untuk CR 20%, dan
fitur f1, f2, f3, f5, f6, f7, f8, f9 dan f11 untuk CR 30%. Pengujian sistem akan
menggunakan pemilihan fitur tersebut.
Percobaan selanjutnya adalah menggunakan dokumen uji untuk proses
pemilihan fitur. Pertukaran data latih dengan data uji pada proses pemilihan fitur
bertujuan untuk melihat pola data korpus yang diperoleh. Seluruh dokumen uji
dihitung fitur teksnya kemudian dilakukan pelabelan kelas R berdasarkan
ringkasan manual dokumen uji. Pembuatan pohon keputusan C4.5 dengan data
dokumen uji menghasilkan fitur terpilih pada Tabel 4.
Fitur-fitur yang terpilih dipengaruhi oleh statistik data fitur kalimat dan
kelas ringkasan manual. Statistik data fitur kalimat dihasilkan dari penghitungan
11 fitur pada tahap sebelum pemilihan fitur. Kemudian kelas ringkasan manual
dihasilkan oleh pembuat ringkasan manual dan CR.
Pemilihan fitur C4.5 dengan pertukaran data latih dengan data uji
menunjukkan hasil yang berbeda. Berdasarkan hasil pada Tabel 4, pola data
korpus yang didapat belum menghasilkan pemilihan fitur yang maksimal, maka
diperlukan penambahan ratusan data korpus lagi untuk penelitian selanjutnya saat
proses pelatihan sistem. Penambahan data korpus bertujuan untuk meminimalkan
bias yang terjadi.

10

Tabel 3 Fitur kalimat yang terpilih di setiap compression rate
Kandidat fitur

Fitur terpilih pada CR
10%

20%

30%

f1, f2, f3, f4, f5, f6, f7, f8,
f9, dan f10

f1, f4, f5, f7, dan
f9

f2, f5, f6, f8, dan
f10

f1, f4, f5, dan f6

f1, f2, f3, f4, f5, f6, f7, f8,
f9, f10, dan f11

f1, f2, dan f11

f1, f2, f5, f8, f9, dan
f11

f1, f2, f3, f5, f6, f7,
f8, f9, dan f11

Tabel 4 Fitur kalimat terpilih menggunakan data uji
Kandidat fitur

Fitur terpilih pada CR
10%

20%

30%

f1, f2, f3, f4, f5, f6, f7, f8,
f9, dan f10

f1, f2, f4, f5, f6
f7, f8, dan f9

f2, f4, f5, f6, f7, f8,
dan f9

f2, f4, f5, f7 dan f9

f1, f2, f3, f4, f5, f6, f7, f8,
f9, f10, dan f11

f1, f2, f4, f5, f7,
f8, f10, dan f11

f1, f2, f4, f5, f6, f7,
f8, f9, dan f11

f1, f2, f4, f5, f6, f7,
f8, f9, dan f11

Faktor lain yang mempengaruhi hasil pemilihan fitur setelah pertukaran data
latih dengan data uji adalah ringkasan manual pada data uji yang tidak konsisten.
Dokumen uji memiliki ringkasan manual yang tidak inklusif di setiap CR.
Ringkasan manual pada CR 10% belum tentu masuk ke dalam ringkasan CR 20%
maupun CR 30%. Ringkasan manual yang tidak konsisten ini mempengaruhi data
statistik penghitungan fitur kalimat beserta kelas ringkasannya.

Implementasi Program
Aplikasi peringkasan dokumen teks bahasa Indonesia ditulis menggunakan
bahasa pemograman Perl. Kode program penghitungan fitur kalimat berasal dari
penelitian Aristoteles (2011). Penghitungan fitur f1 dan f5 tidak sesuai dengan
definisi fitur kalimat yang dijelaskan Fattah dan Ren (2008). Oleh sebab itu, pada
penelitian ini dilakukan evaluasi kode dari kode program sebelumnya.
Penghitungan kemungkinan kalimat masuk atau tidak masuk ringkasan
dengan metode naive Bayes dilakukan setelah penghitungan rata-rata dan varian
fitur-fitur kalimat pada dokumen uji. Setiap jenis CR menghasilkan rata-rata dan
varian yang berbeda. Peringkasan dimulai dengan membaca dokumen sampai
dengan menghasilkan ringkasan dokumen. Gambar 2 menunjukkan diagram alir
kode program yang telah diimplementasikan.

11

Mulai

Pengurutan Terbesar
Berdasarkan
Nilai Kemungkinan Kelas
Masuk Ringkasan

Membaca Dokumen
Kalimat
Ringkasan
Segmentasi Dokumen
Pengurutan Kalimat
Berdasarkan
Urutan Kalimat
Penghitungan fitur

Hasil Ringkasan
Penghitungan
Naive Bayes

Selesai

Gambar 2 Diagram alir kode program peringkasan teks

Evaluasi Hasil Ringkasan
Peringkasan dokumen uji menggunakan fitur f1 sampai dengan f10 sebagai
parameter penghitungan naive Bayes menghasilkan nilai akurasi ringkasan
34.63% pada CR 30%, 37.96% pada CR 20%, dan 28.14% pada CR 10%. Waktu
peringkasan 50 dokumen yang diuji pada CR 30%, CR 20%, dan CR 10%
masing-masing adalah 374.05, 372.13, dan 371.92 detik. Kemudian menggunakan
fitur terpilih dengan kandidat f1 sampai dengan f10 menghasilkan ringkasan
dengan akurasi ringkasan 39.40% pada CR 30%, 24.41% pada CR 20%, dan
28.06% pada CR 10%. Hasil skenario ini tidak menunjukkan pola akurasi
ringkasan yang konsisten. Akurasi ringkasan mengalami peningkatan setelah
pemilihan fitur pada CR 30% tetapi terjadi penurunan pada CR 20% dan CR 10%.
Penghitungan fitur terpilih pada CR 30%, CR 20%, dan CR 10%
memerlukan waktu masing masing 366.13, 371.06, dan 370.57 detik. Waktu
peringkasan tidak berubah secara signifikan setelah pemilihan fitur untuk kandidat
f1 sampai dengan f10. Skenario ini mempengaruhi hasil akurasi peringkasan tetapi
tidak mempengaruhi waktu peringkasan secara signifikan. Waktu peringkasan
menggunakan f1-f10 dengan fitur terpilih tidak berbeda jauh, disebabkan oleh
penghitungan beberapa fitur bergantung pada fitur lain seperti f4 dengan f9 dan
f10 saling ketergantungan karena beberapa struktur kode program penghitungan
f9 dan f10 secara inklusif dilakukan pada fungsi penghitungan f4. Perbandingan
akurasi dan waktu peringkasan dapat dilihat pada Gambar 3 dan Gambar 4.

12

Akurasi ringaksan (%)

70

Semua fitur

Fitur terpilih

60
50
40
30
20
10
0
CR 30

CR 20

CR 10

Compression rate (%)
Gambar 3 Akurasi ringkasan menggunakan fitur f1-f10

Waktu peringkasan (detik)

600

Semua fitur

Fitur terpilih

500
400
300

200
100
0
CR 30

CR 20

CR 10

Compression rate (%)
Gambar 4 Waktu peringkasan menggunakan fitur f1-f10
Pengajuan fitur ke-11 berpengaruh terhadap fitur terpilih yang dihasilkan.
Gambar 5 menunjukkan hasil akurasi ringkasan mengalami peningkatan
dibandingkan dengan peringkasan yang menggunakan 10 fitur saja. Akurasi
ringkasan mengalami peningkatan 14.37% pada CR 10%, 13.42% pada CR 20%,
dan 17.84% pada CR 30%. Akurasi ringkasan untuk CR 30% dapat dilihat pada
Lampiran 4. Gambar 6 menunjukkan waktu peringkasan yang melibatkan 11 fitur
mengalami penambahan waktu peringkasan untuk CR 30%, CR 20%, dan CR
10% masing masing 384.95, 386.04, dan 382.43 detik.

13

Semua fitur

Akurasi Ringaksan (%)

70

Fitur terpilih

60
50
40
30
20
10
0
CR 30
CR 20
Compression Rate (%)

CR 10

Gambar 5 Akurasi ringkasan menggunakan fitur f1-f11

Semua fitur

Waktu Peringkasan (detik)

600

Fitur terpilih

500
400
300
200
100
0
CR 30

CR 20

CR 10

Compression Rate (%)

Gambar 6 Waktu peringkasan menggunakan fitur f1-f11
Percobaan selanjutnya melakukan pemilihan fitur dari 11 kandidat fitur.
Akurasi ringkasan pada CR 30%, CR 20%, dan CR 10% masing-masing
menghasilkan akurasi 51.35%, 51.49%, dan 52.45%. Tidak ada peningkatan yang
berarti untuk CR 30% dan CR 20% tetapi, pada CR 10% mengalami peningkatan
yang signifikan. CR 10% mengalami peningkatan sebesar 9.95%.
Waktu peringkasan mengalami penurunan setelah dilakukan pemilihan fitur.
CR 30% mengalami penurunan waktu peringkasan menjadi 386.66 detik (lihat
Lampiran 5), CR 20% membutuhkan 291.1 detik, dan CR 10% hanya

14
membutuhkan 168.29 detik untuk meringkas 50 dokumen uji. Akurasi ringkasan
pada CR 10% dengan fitur terpilih dari 11 fitur kalimat merupakan akurasi
tertinggi kedua setelah akurasi ringkasan pada CR 30% tanpa pemilihan 10 fitur.
Waktu peringkasan tercepat dimiliki oleh CR 10% setelah pemilihan 11 fitur.
Waktu peringkasan pada CR 30% tidak mengalami penurunan setelah
pemilihan fitur, karena fitur yang terpilih cukup banyak yaitu berjumlah 9 fitur
dari 11 kandidat fitur. Faktor selanjutnya adalah penghitungan pada 11 fitur
terpilih, f9 melibatkan fungsi penghitungan f4 pada implementasi program,
meskipun f4 tidak termasuk ke dalam fitur terpilih.
Skenario percobaan terbaik adalah peringkasan teks menggunakan
pemilihan 11 fitur kalimat pada CR 10%. Akurasi ringkasan yang dihasilkan
mencapai 52.45% dengan waktu peringkasan hanya 168.29 detik. Skenario
terburuk adalah peringkasan teks menggunakan 10 fitur dengan pemilihan fitur
pada CR 20%. Akurasi ringkasan yang dihasilkan 24.41% dengan waktu
peringkasan mencapai 371.06 detik. Penambahan fitur f11 mempengaruhi hasil
akurasi peringkasan dan waktu peringkasan di setiap CR-nya.

SIMPULAN DAN SARAN
Simpulan
Penelitian ini berhasil menghasilkan aplikasi peringkasan dokumen teks
bahasa Indonesia. Nilai kemungkinan masuk ringkasan yang digunakan untuk
memilih kalimat ringkasan dipengaruhi oleh data statistik nilai fitur kalimat dan
CR saat proses pelatihan. Klasifikasi naive bayes dapat digunakan untuk
menentukan kalimat ringkasan. Pemilihan fitur C4.5 dapat memilih kombinasi
fitur kalimat yang menghasilkan akurasi yang baik. Pemilihan fitur C4.5
menghasilkan fitur-fitur terpilih bergantung pada kandidat awal fitur kalimat dan
jenis CR-nya. Kombinasi klasifikasi naive bayes, pemilihan fitur C4.5, dan
penambahan fitur f11 dapat mengoptimalkan hasil ringkasan dokumen dan waktu
peringkasan.

Saran
1
2
3

Saran untuk penelitian selanjutnya adalah sebagai berikut :
Memperbaiki dokumen ringkasan manual supaya tidak bersifat subjektif.
Melakukan stemming pada setiap kata di setiap dokumen untuk mencari
kesamaan kata berdasarkan kata dasarnya.
Menggunakan metode peringkasan lainnya untuk dibandingkan hasilnya
dengan klasifikasi naive Bayes.

15

DAFTAR PUSTAKA
Aristoteles. 2011. Pembobotan fitur pada peringkasan teks bahasa Indonesia
menggunakan algoritme genetika [tesis]. Bogor (ID): Institut Pertanian Bogor.
Fattah MA, Ren F. 2008. Automatic text summarization. Di dalam: Proceeding of
Word Academic of Science, Engineering and Technology; 2008 Apr 25; Roma
(IT). hlm 192-195.
Jezek K, Steinberger J. 2008. Automatic text summarization (the state of the
art 2007 and new challenges). Di dalam: Proceeding Znalosti 2008; 2008
Feb 13-15; Bratislave (SK). hlm 1-12.
Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information
Retrieval. Cambridge (GB): Cambridge University Press.
Marlina M. 2012. Sistem peringkasan dokumen berita bahasa Indonesia
menggunakan metode regresi linear [skripsi]. Bogor (ID): Institut Pertanian
Bogor.
Martinez J, Fuentes O. 2005. Using C4.5 as variable selection criterion in
classification tasks. Di dalam: Proceeding of the Ninth IASTED International
Conference; 2005 Sep 12-14; Benidorm (ES). hlm 171-176.
Quinlan JR. 1993. C4.5: Programs for Machine Learning. California (US):
Morgan Kaufmann.
Ridha A, Adisantoso J, Bukhari F. 2002. Pengindeksan otomatis dengan istilah
tunggal untuk dokumen berbahasa Indonesia. Di dalam: Prosiding Seminar
Nasional Ilmu Komputer V (SNIKTI V); 2004 Sep 2-3; Bogor (ID). hlm 328335.

16
Lampiran 1 Contoh data korpus berformat XML

Akil Mochtar Persoalkan Kasasi Praperadilan Ginandjar.

Jakarta, Kompas - Anggota Komisi II Dewan Perwakilan Rakyat (DPR) M
Akil Mochtar mempersoalkan putusan kasasi Mahkamah Agung (MA) yang
diberikan kepada Kejaksaan Agung atas penahanan mantan Menteri
Pertambangan dan Energi Ginandjar Kartasasmita. Akil menilai MA telah
menimbulkan kekacauan dalam penegakan hukum.
"Menjadi pertanyaan saya dan menjadi problem hukum ketika yang kalah di
tingkat pengadilan itu tersangka, MA harus menerima juga kasasi. Maksud
saya, konsistensi kita terhadap hukum acara pidana sudah tidak ada sama
sekali. MA ikut memberikan kontribusi dalam kekacauan di bidang penegakan
hukum," kata Akil kepada wartawan usai rapat intern Fraksi Partai Golkar
dengan Dewan Pimpinan Pusat (DPP) Partai Golkar di DPR, Kamis (28/3)
lalu.
Akil membantah memberikan pernyataan ini, mengingat yang terkena kasus
adalah Ginandjar Kartasasmita yang juga anggota penasihat Partai Golkar.
Menurut dia, dalam Kitab Undang-undang Hukum Acara Pidana (KUHAP)
sudah jelas bahwa praperadilan tidak bisa dikasasi dalam soal
penangkapan/penahanan sah atau tidak, tidak bisa dimintakan upaya hukum
karena adalah proses acara cepat. Kalau penahanan itu berkaitan dengan berkas
yang sudah dilimpahkan ke pengadilan, maka konsekuensi hukumnya
praperadilan gugur.
"Tetapi, ini kan tidak. Dia masuk terus ke pengadilan, ke MA, diputuskan.
Kebetulan saja kasusnya Ginandjar Kartasasmita. Menurut saya, keputusan itu
cacat hukum. Tidak bisa dieksekusi karena melampaui kewenangan hakim.
Hakim pidana tidak boleh melampaui kewenangan," kata Ketua Tim Advokasi
F-PG DPR itu.
Setelah membaca putusan MA itu, menurut Akil, majelis hakim agung ternyata
tidak memberi pertimbangan hukum, mengapa melampaui kewenangan itu
boleh. "Mestinya majelis hakim agung memberikan pertimbangan hukum, baru
ke soal perkaranya. Kalau itu dia berikan, ada pendapat hukum di masyarakat,"
katanya.

LAMPIRAN

17
Lampiran 2 Penghitungan fitur teks
kalimat

f1

f2

f3

f4

f5

f6

f7

f8

f9

f10

f11

R

1

1.00

0.27

0.73

0.09

0.02

0.06

0.00

0.20

0.00

0.00

1.00

1

2

1.00

0.24

0.76

0.15

0.00

0.07

0.17

0.24

0.10

0.15

0.90

0

3

1.00

0.22

0.79

0.06

0.01

0.06

0.00

0.19

0.10

0.11

0.80

0

4

1.00

0.31

0.69

0.09

0.00

0.00

0.12

0.10

0.10

0.11

0.70

1

5

0.75

0.23

0.77

0.04

0.00

0.07

0.00

0.09

0.00

0.00

0.60

0

6

0.50

0.41

0.59

0.04

0.00

0.00

0.00

0.05

0.30

0.37

0.50

0

7

0.25

0.32

0.68

0.02

0.00

0.00

0.00

0.04

0.00

0.00

0.40

0

8

1.00

0.23

0.77

0.02

0.00

0.00

0.00

0.04

0.00

0.00

0.30

0

9

0.67

0.23

0.77

0.01

0.00

0.00

0.00

0.04

0.00

0.00

0.20

0

10

0.33

0.30

0.70

0.06

0.00

0.05

0.00

0.13

0.30

0.53

0.10

1

18
Lampiran 3 Nilai rata-rata dan varian setiap kelas dan CR
Kelas tidak masuk ringkasan dan CR 10%
Fitur
f1
f2
f3
f4
f5
f6
f7
f8
f9
f10
f11

Rata-rata

0.708093963
0.135171888
0.864832129
0.016073092
0.050709237
0.059491566
0.019917269
0.039560643
0.009743775
0.060167068
0.499071486

Varian

0.075945355
0.003160392
0.003160124
0.000209685
0.015613861
0.005006956
0.002034095
0.001187025
0.002502869
0.182441535
0.076607689

Kelas masuk ringkasan dan CR 20%
Fitur
f1
f2
f3
f4
f5
f6
f7
f8
f9
f10
f11

Rata-rata

Varian

0.758231
0.140381
0.859619
0.017255
0.08543
0.062871
0.013462
0.040762
0.007556
0.025654
0.584927

0.074958
0.002859
0.002858
0.000228
0.026888
0.00456
0.001276
0.001134
0.0024
0.029761
0.10784

Kelas tidak masuk ringkasan dan CR 20%
Fitur
f1
f2
f3
f4
f5
f6
f7
f8
f9
f10
f11

Rata-rata

Varian

0.708013
0.134219
0.865784
0.016054
0.048051
0.059441
0.020888
0.039957
0.009923
0.065511
0.500655

0.075958
0.00313
0.00313
0.00021
0.015174
0.005036
0.002138
0.001237
0.002461
0.203928
0.075664

Kelas masuk ringkasan dan CR 30%
Fitur
f1
f2
f3
f4
f5
f6
f7
f8
f9
f10
f11

Rata-rata

Varian

0.746688
0.140523
0.859477
0.017345
0.079095
0.061214
0.017505
0.04087
0.009252
0.039161
0.579343

0.075782
0.003035
0.003034
0.000207
0.025818
0.004701
0.001601
0.001043
0.002469
0.077309
0.095699

Kelas tidak masuk ringkasan dan CR 30%
Fitur
f1
f2
f3
f4
f5
f6
f7
f8
f9
f10
f11

Rata-rata

Varian

0.705218
0.133155
0.866849
0.015818
0.044925
0.059653
0.020219
0.039776
0.009521
0.065716
0.48958

0.075798
0.003085
0.003085
0.000216
0.013732
0.00505
0.002139
0.001296
0.00244
0.210353
0.075206

19
Lampiran 4 Hasil pengujian akurasi peringkasan dengan 11 fitur pada CR 30%
Dokumen
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100

Jumlah
Kalimat
59
16
57
13
14
14
17
77
23
46
9
40
16
17
17
42
29
104
85
73
36
17
9
17
23
11
26
26
16
23
34
50
27
8
18
22
9
14
24
13
17
13
34
20
11
7
19
28
6
24

Sistem

Manual

Sᴖ M

N-gram

18
5
17
4
4
4
5
23
7
14
3
12
5
5
5
13
9
31
26
22
11
5
3
5
7
3
8
8
5
7
10
15
8
2
5
7
3
4
7
4
5
4
10
6
3
2
6
8
2
7
Hasil n-gram

18
5
17
4
4
4
5
17
8
12
3
13
6
5
5
14
7
28
23
20
11
6
3
5
7
3
8
8
5
7
10
15
8
2
6
8
3
4
7
4
5
4
10
6
3
3
6
8
2
7

10
3
1
2
3
2
1
12
2
9
2
4
2
2
3
6
7
10
16
14
5
4
2
2
1
2
4
6
4
5
4
6
5
1
2
3
2
2
5
2
3
2
6
4
1
1
5
4
0
6

0.56
0.60
0.06
0.50
0.75
0.50
0.20
0.60
0.27
0.69
0.67
0.32
0.36
0.40
0.60
0.44
0.88
0.34
0.65
0.67
0.45
0.73
0.67
0.40
0.14
0.67
0.50
0.75
0.80
0.71
0.40
0.40
0.63
0.50
0.36
0.40
0.67
0.50
0.71
0.50
0.60
0.50
0.60
0.67
0.33
0.40
0.83
0.50
0.00
0.86
0.52

20
Lampiran 5 Hasil pengujian waktu peringkasan dengan 11 fitur pada CR 30%
Dokumen
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100

Jumlah
Waktu 1
Waktu 2
Kalimat
59
17.19
16.55
16
2.5
2.34
57
12.78
12.38
13
2.11
1.79
14
1.92
1.88
14
2.47
2.3
17
3.23
2.92
77
31.6
30.59
23
6.8
6.62
46
18.37
17.95
9
1.26
1.18
40
9.31
9.24
16
2.54
2.51
17
4.23
4.05
17
2.62
2.5
42
13.34
13.11
29
6.35
6.03
104
37.4
36.99
85
41.43
40.87
73
35.34
36.97
36
7.96
7.8
17
5.48
5.45
9
1.59
1.39
17
2.51
2.33
23
5.43
5.22
11
2.12
1.93
26
7.43
7.15
26
6.04
5.76
16
3.25
3.17
23
5.86
5.77
34
6.04
5.91
50
12.53
12.23
27
5.89
5.66
8
1.08
1.05
18
3.4
3.35
22
3.49
3.47
9
1.17
1.12
14
2.12
2
24
4.14
4.1
13
2.04
2
17
2.65
2.57
13
4.12
3.96
34
7.5
9.03
20
4.44
7.62
11
1.6
2.73
7
1.54
2.63
19
3.31
4.4
28
8.08
5.19
6
1.85
1.83
24
4.33
4.22
Total waktu peringkasan

Waktu 3
16.75
2.38
12.45
1.82
1.96
2.32
2.99
31.04
6.85
18.42
1.18
9.31
2.53
4.16
2.54
16.66
6.2
38.18
47.22
42.77
7.77
5.43
1.41
2.35
7.96
3.37
12.48
5.83
3.16
5.89
5.94
12.28
5.68
1.06
4
4.01
1.12
2.01
5.46
2.01
2.57
3.97
8.46
4.4
1.57
1.52
3.08
5.32
2.33
6.96

Rata-rata
waktu
16.83
2.41
12.54
1.91
1.92
2.36
3.05
31.08
6.76
18.25
1.21
9.29
2.53
4.15
2.55
14.37
6.19
37.52
43.17
38.36
7.84
5.45
1.46
2.40
6.20
2.47
9.02
5.88
3.19
5.84
5.96
12.35
5.74
1.06
3.58
3.66
1.14
2.04
4.57
2.02
2.60
4.02
8.33
5.49
1.97
1.90
3.60
6.20
2.00
5.17
389.57

21

RIWAYAT HIDUP
Septiandi Wibowo dilahirkan pada tanggal 19 September 1990 di Sukabumi
Jawa barat. Putra pertama dari pasangan Sumedi dan Ani Sri Dharmawati. Penulis
mengawali pendidikan dasar di SD Islam Al-Azhar 7 Sukabumi, SMP Negeri 1
Sukabumi, dan SMA Negeri 3 Sukabumi. Penulis meneruskan ke jenjang
Diploma III di Institut Pertanian Bogor (IPB) jurusan Teknik Komputer pada
tahun 2007, lalu penulis melanjutkan ke Alih Jenis Ilmu Komputer IPB pada
tahun 2010.

Peringkasan Teks Bahasa Indonesia dengan Pemilihan Fitur C4.5 dan Klasifikasi Naive Bayes

Dokumen yang terkait

PERBANDINGAN AKURASI DAN PEMBOBOTAN FITUR TEKS PADA PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN ALGORITMA GENETIKA

Pembobotan fitur pada peringkasan teks bahasa Indonesia menggunakan algoritme genetika

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN TEKS BERITA MEDIA ONLINE BAHASA INDONESIA DENGAN PEMILIHAN BOBOT FITUR BERBASIS GENETIC ALGORITHM.

Klasifikasi Supervised Learning Pada Teks Bahasa Bali Dengan Metode Information Gain Dan Naive Bayes Classifier.

Klasifikasi Berita Online Menggunakan Naive Bayes Classifier dengan Seleksi Fitur Mutual Information.

Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika

KLASIFIKASI PELANGGAN PRODUK INDIHOME MENGGUNAKAN NAIVE BAYES CLASSIFIER DENGAN SELEKSI FITUR ALGORITMA GENETIK

Peringkasan Literatur Ilmu Komputer Bahasa Indonesia Berbasis Fitur Statistik dan Linguistik menggunakan Metode Gaussian Naïve Bayes

09 Klasifikasi Dokumen dengan Naive Bayes

KLASIFIKASI CITRA RONTGEN PARU-PARU DENGAN EKSTRAKSI FITUR HISTOGRAM DAN METODE NAIVE BAYES CLASSIFIER

Dukungan

Links

Peringkasan Teks Bahasa Indonesia dengan Pemilihan Fitur C4.5 dan Klasifikasi Naive Bayes

Dokumen yang terkait

PERBANDINGAN AKURASI DAN PEMBOBOTAN FITUR TEKS PADA PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN ALGORITMA GENETIKA

Pembobotan fitur pada peringkasan teks bahasa Indonesia menggunakan algoritme genetika

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN TEKS BERITA MEDIA ONLINE BAHASA INDONESIA DENGAN PEMILIHAN BOBOT FITUR BERBASIS GENETIC ALGORITHM.

Klasifikasi Supervised Learning Pada Teks Bahasa Bali Dengan Metode Information Gain Dan Naive Bayes Classifier.

Klasifikasi Berita Online Menggunakan Naive Bayes Classifier dengan Seleksi Fitur Mutual Information.

Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika

KLASIFIKASI PELANGGAN PRODUK INDIHOME MENGGUNAKAN NAIVE BAYES CLASSIFIER DENGAN SELEKSI FITUR ALGORITMA GENETIK

Peringkasan Literatur Ilmu Komputer Bahasa Indonesia Berbasis Fitur Statistik dan Linguistik menggunakan Metode Gaussian Naïve Bayes

09 Klasifikasi Dokumen dengan Naive Bayes

KLASIFIKASI CITRA RONTGEN PARU-PARU DENGAN EKSTRAKSI FITUR HISTOGRAM DAN METODE NAIVE BAYES CLASSIFIER

Dokumen yang Anda mencari sudah siap untuk unduhkan