20
2.3.2 Langkah Pengerjaan
Langkah-langkah pengerjaan
peringkasan teks
otomatis dengan
menggunakan metode TF-IDF yang dilakukan dalam penelitian ini adalah sebagai berikut :
1. Menghitung jumlah kalimat D pada dokumen berbahasa Jawa. 2. Proses penghapusan kata umum stopword untuk mengurangi jumlah
kemunculan kata yang tidak memiliki makna berarti. 3. Proses pengembalian sebuah kata stemming yang terdapat dalam suatu
kalimat D ke dalam bentuk kata t dasar. 4. Menghitung term frequency TF yaitu jumlah frekuensi kemunculan
kata t pada kalimat D. 5. Menghitung document frequency df yaitu jumlah frekuensi kalimat D
yang mengandung kata t. 6. Menghitung inverse document frequency IDF
dengan cara log dari jumlah total kalimat D dalam dokumen berbahasa Jawa dibagi
document frequency df. 7. Menghitung W bobot setiap kata t dalam kalimat D dengan cara
mengalikan term frequency TF dengan inverse document frequency IDF.
8. Menghitung bobot total kalimat D dengan cara menjumlahkan W bobot setiap kata t dalam kalimat D.
21 9. Berdasarkan hasil perhitungan bobot total kalimat D, akan diambil
40 Hovy, Mitkov, 2005
dari jumlah bobot kalimat D yang memiliki score paling tinggi .
10. Dari langkah-langkah tersebut maka menghasilkan kumpulan kalimat D yang berisi bagian penting dari dokumen berbahasa Jawa.
2.3.3 Contoh Pengerjaan
Djaka Lodhang No 01 Tahun XXXIII 7 Juni 2003 Hal 4
Ora Kena Mlebu Aceh Dening RS Rudatan
Indonesia lagi ribet. Propinsi Aceh lagi panas. Perang TNI lumawan kelompok mbalela separatis GAM. Sing dha gugur wis akeh, kejaba wong-wong
GAM, anggota TNI utawa Polri wis ana sing dadi tumbal kelangan nyawa. Nalare, tumrape TNI lan pemerintah, mbrasta kaum pemberontakan kaya GAM
kuwi mau dudu barang sing gampang. Ragade bisa nyandhak milyaran rupiah lan nyawa para prajurit dinggo totohan mung pamrih NKRI tetep wutuh. Pokoke
ribet, tur ya ora gampang. Ing tengah kahanan ngono mau, akeh LSM Lembaga Swadaya
Masarakat sing bengok-bengok protes tekan luwar negeri. Alesane arep mbiyantu masarakat Aceh sing lagi keterak perang, kok dielikke dilarang dening
pemerintah. LSM mau, klebu LSM Indonesia lan LSM manca sing ora seneng.
22 Mula banjur nyuwara sing tundhone mung mojokke pemerintah Indonesia Lan
mojokke TNI.
Langkah 1. Menghitung jumlah kalimat D pada dokumen berbahasa Jawa.
Indonesia lagi ribetD1. Propinsi Aceh lagi panasD2. Perang TNI lumawan kelompok mbalela separatis GAMD3. Sing dha gugur wis akeh, kejaba
wong-wong GAM, anggota TNI utawa Polri wis ana sing dadi tumbal kelangan
nyawaD4. Nalare, tumrape TNI lan pemerintah, mbrasta kaum pemberontakan kaya GAM kuwi mau dudu barang sing gampangD5. Ragade bisa nyandhak
milyaran rupiah lan nyawa para prajurit dinggo totohan mung pamrih NKRI tetep
wutuhD6. Pokoke ribet, tur ya ora gampangD7.
Ing tengah kahanan ngono mau, akeh LSM Lembaga Swadaya
Masarakat sing bengok-bengok protes tekan luwar negeriD8. Alesane arep
mbiyantu masarakat Aceh sing lagi keterak perang, kok dielikke dilarang dening
pemerintahD9. LSM mau, klebu LSM Indonesia lan LSM manca sing ora senengD10. Mula banjur nyuwara sing tundhone mung mojokke pemerintah
Indonesia Lan mojokke TNID11.
Langkah 2. Proses penghapusan kata umum stopword
Proses : indonesia lagi ribet. propinsi aceh lagi panas. perang tni lumawan
kelompok mbalela separatis gam. sing dha gugur wis akeh, kejaba wong-wong gam, anggota tni utawa polri wis ana sing dadi tumbal kelangan nyawa. nalare,
23
tumrape tni lan pemerintah, mbrasta kaum pemberontakan kaya gam kuwi mau dudu barang sing gampang. ragade bisa nyandhak milyaran rupiah lan nyawa
para prajurit dinggo totohan mung pamrih nkri tetep wutuh. pokoke ribet, tur ya ora gampang.
ing tengah kahanan ngono mau, akeh lsm lembaga swadaya masarakat sing bengok-bengok protes tekan luwar negeri. alesane arep mbiyantu masarakat
aceh sing lagi keterak perang, kok dielikke dilarang dening pemerintah. lsm mau, klebu lsm indonesia lan lsm manca sing ora seneng. mula banjur nyuwara
sing tundhone mung mojokke pemerintah indonesia lan mojokke tni.
Hasil :
indonesia ribet. propinsi aceh panas. perang tni lumawan kelompok mbalela separatis gam. dha gugur akeh, kejaba gam, anggota tni polri tumbal
kelangan nyawa. nalare, tumrape tni pemerintah, mbrasta kaum pemberontakan gam kuwi barang gampang. ragade nyandhak milyaran rupiah nyawa prajurit
dinggo totohan pamrih nkri wutuh. pokoke ribet, tur gampang. tengah, akeh lsm lembaga swadaya masarakat bengok-bengok protes
tekan luwar negeri. alesane arep mbiyantu masarakat aceh keterak perang, dielikke dilarang dening pemerintah. lsm, klebu lsm indonesia lsm manca
seneng. mula nyuwara tundhone mojokke pemerintah indonesia mojokke tni.
24
Langkah 3. Proses pengembalian kata dasar stemming Proses :
indonesia ribet. propinsi aceh panas. perang tni lumawan kelompok
mbalela separatis gam. dha gugur akeh, kejaba gam, anggota tni polri tumbal kelangan nyawa.
nalare, tumrape tni
pemerintah, mbrasta kaum
pemberontakan gam kuwi barang gampang. ragade nyandhak milyaran rupiah nyawa prajurit dinggo totohan pamrih nkri wutuh. pokoke ribet, tur gampang.
tengah, akeh lsm lembaga swadaya masarakat bengok-bengok protes tekan luwar negeri. alesane arep mbiyantu masarakat aceh keterak perang,
dielikke dilarang dening pemerintah. lsm, klebu lsm indonesia lsm manca seneng. mula nyuwara tundhone mojokke pemerintah indonesia mojokke tni.
Hasil :
indonesia ribet. propinsi aceh panas. perang tni lumawan kelompok
mbalela separatis gam. dha gugur akeh, jaba gam, anggota tni polri tumbal langan nyawa. nalar, tumrap tni pemerintah, brasta kaum pemberontakan gam
kuwi barang gampang. ragad nyandhak milyar rupiah nyawa prajurit dinggo totoh pamrih nkri wutuh. pokok ribet, tur gampang.
tengah, akeh lsm lembaga swadaya masarakat bengok protes tekan luwar negeri. alesan arep biyantu masarakat aceh terak perang, dielikke larang
dening pemerintah. lsm, klebu lsm indonesia lsm manca seneng. mula nyuwara
tundho mojok pemerintah indonesia mojok tni.
25
Langkah 4. Menghitung term frequency TF yaitu jumlah frekuensi kemunculan
kata t pada kalimat D.
Langkah 5. Menghitung document frequency df yaitu jumlah frekuensi kalimat
D yang mengandung kata t.
Tabel 2.5 Tabel Perhitungan TF dan df
Kata t D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11
df
indonesia 1
1 1
3 ribet
1 1
2 propinsi
1 1
aceh 1
1 2
panas 1
1 perang
1 1
2 tni
1 1
1 1
4 lumawan
1 1
kelompok 1
1 mbalela
1 1
separatis 1
1 gam
1 1
1 3
dha 1
1 gugur
1 1
akeh 1
1 2
jaba 1
1 anggota
1 1
polri 1
1 tumbal
1 1
langan 1
1 nyawa
1 1
2
26
Kata t D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11
df
nalar 1
1 tumrap
1 1
pemerintah 1
1 1
3 brasta
1 1
kaum 1
1 pemberontakan
1 1
kuwi 1
1 barang
1 1
gampang 1
1 2
ragad 1
1 nyandhak
1 1
milyar 1
1 rupiah
1 1
prajurit 1
1 dinggo
1 1
totoh 1
1 pamrih
1 1
nkri 1
1 wutuh
1 1
pokok 1
1 tur
1 1
tengah 1
1 lsm
1 1
2 lembaga
1 1
swadaya 1
1 masarakat
1 1
2 bengok
1 1
protes 1
1 tekan
1 1
27
Kata t D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11
df
luwar 1
1 negeri
1 1
alesan 1
1 arep
1 1
biyantu 1
1 terak
1 1
dielikke 1
1 larang
1 1
dening 1
1 klebu
1 1
manca 1
1 seneng
1 1
mula 1
1 nyuwara
1 1
tundho 1
1 mojok
1 1
28
Langkah 6. Menghitung inverse document frequency IDF dengan cara log dari jumlah total kalimat D dalam dokumen berbahasa
Jawa dibagi document frequency df.
Langkah 7. Menghitung W bobot setiap kata t dalam kalimat D dengan cara mengalikan term frequency TF dengan inverse
document frequency IDF.
Langkah 8. Menghitung bobot total kalimat D dengan cara menjumlahkan W bobot setiap kata t dalam kalimat D.
Tabel 2.6 Tabel Perhitungan Bobot Kata W
Kata t D1
D2 D3
D4 D5
D6 D7
D8 D9
D10 D11
df IDF
TF IDF
D1 D2
D3 D4
D5 D6
D7 D8
D9 D10
D11
indonesia 1
1 1
3
0.564
0.564 0.564
0.564 ribet
1 1
2
0.740
0.740 0.740
propinsi 1
1
1.041
1.041 aceh
1 1
2
0.740
0.740 0.740
panas 1
1
1.041
1.041 perang
1 1
2
0.740
0.740 0.740
tni 1
1 1
1 4
0.439
0.439 0.439
0.439 0.439
lumawan 1
1
1.041
1.041 kelompok
1 1
1.041
1.041 mbalela
1 1
1.041
1.041 separatis
1 1
1.041
1.041
29
Kata t D1
D2 D3
D4 D5
D6 D7
D8 D9
D10 D11
df IDF
TF IDF
D1 D2
D3 D4
D5 D6
D7 D8
D9 D10
D11
gam 1
1 1
3
0.564
0.564 0.564
0.564 dha
1 1
1.041
1.041 gugur
1 1
1.041
1.041 akeh
1 1
2
0.740
0.740 0.740
jaba 1
1
1.041
1.041 anggota
1 1
1.041
1.041 polri
1 1
1.041
1.041 tumbal
1 1
1.041
1.041 langan
1 1
1.041
1.041 nyawa
1 1
2
0.740
0.740 0.740
nalar 1
1
1.041
1.041 tumrap
1 1
1.041
1.041 pemerintah
1 1
1 3
0.564
0.564 0.564
0.564 brasta
1 1
1.041
1.041 kaum
1 1
1.041
1.041 pemberontakan
1 1
1.041
1.041 kuwi
1 1
1.041
1.041 barang
1 1
1.041
1.041 gampang
1 1
2
0.740
0.740 0.740
ragad 1
1
1.041
1.041 nyandhak
1 1
1.041
1.041 milyar
1 1
1.041
1.041
30
Kata t D1
D2 D3
D4 D5
D6 D7
D8 D9
D10 D11
df IDF
TF IDF
D1 D2
D3 D4
D5 D6
D7 D8
D9 D10
D11
prajurit 1
1
1.041
1.041 dinggo
1 1
1.041
1.041 totoh
1 1
1.041
1.041 pamrih
1 1
1.041
1.041 nkri
1 1
1.041
1.041 wutuh
1 1
1.041
1.041 pokok
1 1
1.041
1.041 tur
1 1
1.041
1.041 tengah
1 1
1.041
1.041 lsm
1 1
2
0.740
0.740 0.740
lembaga 1
1
1.041
1.041 swadaya
1 1
1.041
1.041 masarakat
1 1
2
0.740
0.740 0.740
bengok 1
1
1.041
1.041 protes
1 1
1.041
1.041 tekan
1 1
1.041
1.041 luwar
1 1
1.041
1.041 negeri
1 1
1.041
1.041 alesan
1 1
1.041
1.041 arep
1 1
1.041
1.041 biyantu
1 1
1.041
1.041 terak
1 1
1.041
1.041
31
Kata t D1
D2 D3
D4 D5
D6 D7
D8 D9
D10 D11
df IDF
TFIDF
D1 D2
D3 D4
D5 D6
D7 D8
D9 D10
D11
dielikke 1
1
1.041
1.041 larang
1 1
1.041
1.041 dening
1 1
1.041
1.041 klebu
1 1
1.041
1.041 manca
1 1
1.041
1.041 seneng
1 1
1.041
1.041 mula
1 1
1.041
1.041 nyuwara
1 1
1.041
1.041 tundho
1 1
1.041
1.041 mojok
1 1
1.041
1.041
JUM LAH 1.305
2.823 5.909
9.774 9.598
11.154 3.563
10.552 10.075
4.428
5.733
U RUTAN 11
10 6
4 5
1 9
2 3
8 7
32
Langkah 9. Berdasarkan hasil perhitungan bobot total kalimat D, akan diambil
40 Hovy, Mitkov, 2005
dari jumlah bobot kalimat D yang memiliki score paling tinggi.
Langkah 10. Dari langkah-langkah tersebut maka menghasilkan kumpulan
kalimat D yang berisi bagian penting dari dokumen berbahasa Jawa.
Hasil :
- Sing dha gugur wis akeh, kejaba wong-wong GAM, anggota TNI utawa Polri wis ana sing dadi tumbal kelangan nyawa.
- Ragade bisa nyandhak milyaran rupiah lan nyawa para prajurit dinggo totohan mung pamrih NKRI tetep wutuh.
- Ing tengah kahanan ngono mau, akeh LSM Lembaga Swadaya Masarakat sing bengok-bengok protes tekan luwar negeri.
- Alesane arep mbiyantu masarakat Aceh sing lagi keterak perang, kok dielikke dilarang dening pemerintah.
33
BAB III ANALISIS DAN PERANCANGAN SISTEM
3.1 Gambaran Sistem Penelitian
Pada penelitian ini akan dibangun sistem peringkasan teks otomatis pada dokumen berbahasa Jawa. Sistem ini bertujuan untuk menghasilkan sebuah
ringkasan yang berisi bagian penting dari keseluruhan dokumen berbahasa Jawa. Ringkasan tersebut akan membantu pembaca dalam memahami isi dari dokumen
tanpa harus membaca keseluruhan dokumen berbahasa Jawa. Untuk arsitektur sistem ini ditunjukan pada Gambar 3.1. Pada sistem ini
terdapat 2 aktor yaitu admin dan pengguna. Admin bertujuan untuk memasukkan data dokumen. Data dokumen tersebut akan ditampilkan pada halaman utama
sebagai data koleksi dokumen. Sedangkan pengguna dapat melakukan peringkasan teks otomatis dengan cara memasukkan data dokumen berbahasa
Jawa. Data dokumen tersebut akan diproses oleh sistem menjadi sebuah ringkasan. Untuk menjadi sebuah ringkasan, sistem akan memprosesnya dengan
melakukan preprocessing yaitu pemisahan kata tokenizing, penghapusan kata umum stopword, pengembalian kata dasar stemming. Kemudian sistem akan
melakukan perhitungan TF-IDF untuk mendapatkan jumlah bobot kalimat. Bobot kalimat dengan score tinggi merupakan kalimat penting dalam sebuah dokumen
berbahasa Jawa. Berdasarkan perhitungan TF-IDF, kalimat-kalimat tersebut yang akan dijadikan sebagai sebuah ringkasan.