Langkah Pengerjaan Contoh Pengerjaan

20

2.3.2 Langkah Pengerjaan

Langkah-langkah pengerjaan peringkasan teks otomatis dengan menggunakan metode TF-IDF yang dilakukan dalam penelitian ini adalah sebagai berikut : 1. Menghitung jumlah kalimat D pada dokumen berbahasa Jawa. 2. Proses penghapusan kata umum stopword untuk mengurangi jumlah kemunculan kata yang tidak memiliki makna berarti. 3. Proses pengembalian sebuah kata stemming yang terdapat dalam suatu kalimat D ke dalam bentuk kata t dasar. 4. Menghitung term frequency TF yaitu jumlah frekuensi kemunculan kata t pada kalimat D. 5. Menghitung document frequency df yaitu jumlah frekuensi kalimat D yang mengandung kata t. 6. Menghitung inverse document frequency IDF dengan cara log dari jumlah total kalimat D dalam dokumen berbahasa Jawa dibagi document frequency df. 7. Menghitung W bobot setiap kata t dalam kalimat D dengan cara mengalikan term frequency TF dengan inverse document frequency IDF. 8. Menghitung bobot total kalimat D dengan cara menjumlahkan W bobot setiap kata t dalam kalimat D. 21 9. Berdasarkan hasil perhitungan bobot total kalimat D, akan diambil 40 Hovy, Mitkov, 2005 dari jumlah bobot kalimat D yang memiliki score paling tinggi . 10. Dari langkah-langkah tersebut maka menghasilkan kumpulan kalimat D yang berisi bagian penting dari dokumen berbahasa Jawa.

2.3.3 Contoh Pengerjaan

Djaka Lodhang No 01 Tahun XXXIII 7 Juni 2003 Hal 4 Ora Kena Mlebu Aceh Dening RS Rudatan Indonesia lagi ribet. Propinsi Aceh lagi panas. Perang TNI lumawan kelompok mbalela separatis GAM. Sing dha gugur wis akeh, kejaba wong-wong GAM, anggota TNI utawa Polri wis ana sing dadi tumbal kelangan nyawa. Nalare, tumrape TNI lan pemerintah, mbrasta kaum pemberontakan kaya GAM kuwi mau dudu barang sing gampang. Ragade bisa nyandhak milyaran rupiah lan nyawa para prajurit dinggo totohan mung pamrih NKRI tetep wutuh. Pokoke ribet, tur ya ora gampang. Ing tengah kahanan ngono mau, akeh LSM Lembaga Swadaya Masarakat sing bengok-bengok protes tekan luwar negeri. Alesane arep mbiyantu masarakat Aceh sing lagi keterak perang, kok dielikke dilarang dening pemerintah. LSM mau, klebu LSM Indonesia lan LSM manca sing ora seneng. 22 Mula banjur nyuwara sing tundhone mung mojokke pemerintah Indonesia Lan mojokke TNI. Langkah 1. Menghitung jumlah kalimat D pada dokumen berbahasa Jawa. Indonesia lagi ribetD1. Propinsi Aceh lagi panasD2. Perang TNI lumawan kelompok mbalela separatis GAMD3. Sing dha gugur wis akeh, kejaba wong-wong GAM, anggota TNI utawa Polri wis ana sing dadi tumbal kelangan nyawaD4. Nalare, tumrape TNI lan pemerintah, mbrasta kaum pemberontakan kaya GAM kuwi mau dudu barang sing gampangD5. Ragade bisa nyandhak milyaran rupiah lan nyawa para prajurit dinggo totohan mung pamrih NKRI tetep wutuhD6. Pokoke ribet, tur ya ora gampangD7. Ing tengah kahanan ngono mau, akeh LSM Lembaga Swadaya Masarakat sing bengok-bengok protes tekan luwar negeriD8. Alesane arep mbiyantu masarakat Aceh sing lagi keterak perang, kok dielikke dilarang dening pemerintahD9. LSM mau, klebu LSM Indonesia lan LSM manca sing ora senengD10. Mula banjur nyuwara sing tundhone mung mojokke pemerintah Indonesia Lan mojokke TNID11. Langkah 2. Proses penghapusan kata umum stopword Proses : indonesia lagi ribet. propinsi aceh lagi panas. perang tni lumawan kelompok mbalela separatis gam. sing dha gugur wis akeh, kejaba wong-wong gam, anggota tni utawa polri wis ana sing dadi tumbal kelangan nyawa. nalare, 23 tumrape tni lan pemerintah, mbrasta kaum pemberontakan kaya gam kuwi mau dudu barang sing gampang. ragade bisa nyandhak milyaran rupiah lan nyawa para prajurit dinggo totohan mung pamrih nkri tetep wutuh. pokoke ribet, tur ya ora gampang. ing tengah kahanan ngono mau, akeh lsm lembaga swadaya masarakat sing bengok-bengok protes tekan luwar negeri. alesane arep mbiyantu masarakat aceh sing lagi keterak perang, kok dielikke dilarang dening pemerintah. lsm mau , klebu lsm indonesia lan lsm manca sing ora seneng. mula banjur nyuwara sing tundhone mung mojokke pemerintah indonesia lan mojokke tni. Hasil : indonesia ribet. propinsi aceh panas. perang tni lumawan kelompok mbalela separatis gam. dha gugur akeh, kejaba gam, anggota tni polri tumbal kelangan nyawa. nalare, tumrape tni pemerintah, mbrasta kaum pemberontakan gam kuwi barang gampang. ragade nyandhak milyaran rupiah nyawa prajurit dinggo totohan pamrih nkri wutuh. pokoke ribet, tur gampang. tengah, akeh lsm lembaga swadaya masarakat bengok-bengok protes tekan luwar negeri. alesane arep mbiyantu masarakat aceh keterak perang, dielikke dilarang dening pemerintah. lsm, klebu lsm indonesia lsm manca seneng. mula nyuwara tundhone mojokke pemerintah indonesia mojokke tni. 24 Langkah 3. Proses pengembalian kata dasar stemming Proses : indonesia ribet. propinsi aceh panas. perang tni lumawan kelompok mbalela separatis gam. dha gugur akeh, kejaba gam, anggota tni polri tumbal kelangan nyawa. nalare, tumrape tni pemerintah, mbrasta kaum pemberontakan gam kuwi barang gampang. ragade nyandhak milyaran rupiah nyawa prajurit dinggo totohan pamrih nkri wutuh. pokoke ribet, tur gampang. tengah, akeh lsm lembaga swadaya masarakat bengok-bengok protes tekan luwar negeri. alesane arep mbiyantu masarakat aceh keterak perang, dielikke dilarang dening pemerintah. lsm, klebu lsm indonesia lsm manca seneng. mula nyuwara tundhone mojokke pemerintah indonesia mojokke tni. Hasil : indonesia ribet. propinsi aceh panas. perang tni lumawan kelompok mbalela separatis gam. dha gugur akeh, jaba gam, anggota tni polri tumbal langan nyawa. nalar, tumrap tni pemerintah, brasta kaum pemberontakan gam kuwi barang gampang. ragad nyandhak milyar rupiah nyawa prajurit dinggo totoh pamrih nkri wutuh. pokok ribet, tur gampang. tengah, akeh lsm lembaga swadaya masarakat bengok protes tekan luwar negeri. alesan arep biyantu masarakat aceh terak perang, dielikke larang dening pemerintah. lsm, klebu lsm indonesia lsm manca seneng. mula nyuwara tundho mojok pemerintah indonesia mojok tni. 25 Langkah 4. Menghitung term frequency TF yaitu jumlah frekuensi kemunculan kata t pada kalimat D. Langkah 5. Menghitung document frequency df yaitu jumlah frekuensi kalimat D yang mengandung kata t. Tabel 2.5 Tabel Perhitungan TF dan df Kata t D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 df indonesia 1 1 1 3 ribet 1 1 2 propinsi 1 1 aceh 1 1 2 panas 1 1 perang 1 1 2 tni 1 1 1 1 4 lumawan 1 1 kelompok 1 1 mbalela 1 1 separatis 1 1 gam 1 1 1 3 dha 1 1 gugur 1 1 akeh 1 1 2 jaba 1 1 anggota 1 1 polri 1 1 tumbal 1 1 langan 1 1 nyawa 1 1 2 26 Kata t D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 df nalar 1 1 tumrap 1 1 pemerintah 1 1 1 3 brasta 1 1 kaum 1 1 pemberontakan 1 1 kuwi 1 1 barang 1 1 gampang 1 1 2 ragad 1 1 nyandhak 1 1 milyar 1 1 rupiah 1 1 prajurit 1 1 dinggo 1 1 totoh 1 1 pamrih 1 1 nkri 1 1 wutuh 1 1 pokok 1 1 tur 1 1 tengah 1 1 lsm 1 1 2 lembaga 1 1 swadaya 1 1 masarakat 1 1 2 bengok 1 1 protes 1 1 tekan 1 1 27 Kata t D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 df luwar 1 1 negeri 1 1 alesan 1 1 arep 1 1 biyantu 1 1 terak 1 1 dielikke 1 1 larang 1 1 dening 1 1 klebu 1 1 manca 1 1 seneng 1 1 mula 1 1 nyuwara 1 1 tundho 1 1 mojok 1 1 28 Langkah 6. Menghitung inverse document frequency IDF dengan cara log dari jumlah total kalimat D dalam dokumen berbahasa Jawa dibagi document frequency df. Langkah 7. Menghitung W bobot setiap kata t dalam kalimat D dengan cara mengalikan term frequency TF dengan inverse document frequency IDF. Langkah 8. Menghitung bobot total kalimat D dengan cara menjumlahkan W bobot setiap kata t dalam kalimat D. Tabel 2.6 Tabel Perhitungan Bobot Kata W Kata t D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 df IDF TF IDF D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 indonesia 1 1 1 3 0.564 0.564 0.564 0.564 ribet 1 1 2 0.740 0.740 0.740 propinsi 1 1 1.041 1.041 aceh 1 1 2 0.740 0.740 0.740 panas 1 1 1.041 1.041 perang 1 1 2 0.740 0.740 0.740 tni 1 1 1 1 4 0.439 0.439 0.439 0.439 0.439 lumawan 1 1 1.041 1.041 kelompok 1 1 1.041 1.041 mbalela 1 1 1.041 1.041 separatis 1 1 1.041 1.041 29 Kata t D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 df IDF TF IDF D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 gam 1 1 1 3 0.564 0.564 0.564 0.564 dha 1 1 1.041 1.041 gugur 1 1 1.041 1.041 akeh 1 1 2 0.740 0.740 0.740 jaba 1 1 1.041 1.041 anggota 1 1 1.041 1.041 polri 1 1 1.041 1.041 tumbal 1 1 1.041 1.041 langan 1 1 1.041 1.041 nyawa 1 1 2 0.740 0.740 0.740 nalar 1 1 1.041 1.041 tumrap 1 1 1.041 1.041 pemerintah 1 1 1 3 0.564 0.564 0.564 0.564 brasta 1 1 1.041 1.041 kaum 1 1 1.041 1.041 pemberontakan 1 1 1.041 1.041 kuwi 1 1 1.041 1.041 barang 1 1 1.041 1.041 gampang 1 1 2 0.740 0.740 0.740 ragad 1 1 1.041 1.041 nyandhak 1 1 1.041 1.041 milyar 1 1 1.041 1.041 30 Kata t D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 df IDF TF IDF D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 prajurit 1 1 1.041 1.041 dinggo 1 1 1.041 1.041 totoh 1 1 1.041 1.041 pamrih 1 1 1.041 1.041 nkri 1 1 1.041 1.041 wutuh 1 1 1.041 1.041 pokok 1 1 1.041 1.041 tur 1 1 1.041 1.041 tengah 1 1 1.041 1.041 lsm 1 1 2 0.740 0.740 0.740 lembaga 1 1 1.041 1.041 swadaya 1 1 1.041 1.041 masarakat 1 1 2 0.740 0.740 0.740 bengok 1 1 1.041 1.041 protes 1 1 1.041 1.041 tekan 1 1 1.041 1.041 luwar 1 1 1.041 1.041 negeri 1 1 1.041 1.041 alesan 1 1 1.041 1.041 arep 1 1 1.041 1.041 biyantu 1 1 1.041 1.041 terak 1 1 1.041 1.041 31 Kata t D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 df IDF TFIDF D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 dielikke 1 1 1.041 1.041 larang 1 1 1.041 1.041 dening 1 1 1.041 1.041 klebu 1 1 1.041 1.041 manca 1 1 1.041 1.041 seneng 1 1 1.041 1.041 mula 1 1 1.041 1.041 nyuwara 1 1 1.041 1.041 tundho 1 1 1.041 1.041 mojok 1 1 1.041 1.041 JUM LAH 1.305 2.823 5.909 9.774 9.598 11.154 3.563 10.552 10.075 4.428 5.733 U RUTAN 11 10 6 4 5 1 9 2 3 8 7 32 Langkah 9. Berdasarkan hasil perhitungan bobot total kalimat D, akan diambil 40 Hovy, Mitkov, 2005 dari jumlah bobot kalimat D yang memiliki score paling tinggi. Langkah 10. Dari langkah-langkah tersebut maka menghasilkan kumpulan kalimat D yang berisi bagian penting dari dokumen berbahasa Jawa. Hasil : - Sing dha gugur wis akeh, kejaba wong-wong GAM, anggota TNI utawa Polri wis ana sing dadi tumbal kelangan nyawa. - Ragade bisa nyandhak milyaran rupiah lan nyawa para prajurit dinggo totohan mung pamrih NKRI tetep wutuh. - Ing tengah kahanan ngono mau, akeh LSM Lembaga Swadaya Masarakat sing bengok-bengok protes tekan luwar negeri. - Alesane arep mbiyantu masarakat Aceh sing lagi keterak perang, kok dielikke dilarang dening pemerintah. 33

BAB III ANALISIS DAN PERANCANGAN SISTEM

3.1 Gambaran Sistem Penelitian

Pada penelitian ini akan dibangun sistem peringkasan teks otomatis pada dokumen berbahasa Jawa. Sistem ini bertujuan untuk menghasilkan sebuah ringkasan yang berisi bagian penting dari keseluruhan dokumen berbahasa Jawa. Ringkasan tersebut akan membantu pembaca dalam memahami isi dari dokumen tanpa harus membaca keseluruhan dokumen berbahasa Jawa. Untuk arsitektur sistem ini ditunjukan pada Gambar 3.1. Pada sistem ini terdapat 2 aktor yaitu admin dan pengguna. Admin bertujuan untuk memasukkan data dokumen. Data dokumen tersebut akan ditampilkan pada halaman utama sebagai data koleksi dokumen. Sedangkan pengguna dapat melakukan peringkasan teks otomatis dengan cara memasukkan data dokumen berbahasa Jawa. Data dokumen tersebut akan diproses oleh sistem menjadi sebuah ringkasan. Untuk menjadi sebuah ringkasan, sistem akan memprosesnya dengan melakukan preprocessing yaitu pemisahan kata tokenizing, penghapusan kata umum stopword, pengembalian kata dasar stemming. Kemudian sistem akan melakukan perhitungan TF-IDF untuk mendapatkan jumlah bobot kalimat. Bobot kalimat dengan score tinggi merupakan kalimat penting dalam sebuah dokumen berbahasa Jawa. Berdasarkan perhitungan TF-IDF, kalimat-kalimat tersebut yang akan dijadikan sebagai sebuah ringkasan.