Peringkasan teks otomatis pada dokumen berbahasa Jawa menggunakan metode TF-IDF.

(1)

ABSTRAKSI

Membaca keseluruhan dokumen membutuhkan waktu yang lama, apalagi dokumen yang dibaca adalah dokumen berbahasa Jawa. Bagi pembaca yang belum paham tentang bahasa Jawa, membaca keseluruhan dokumen untuk memahaminya akan sangat melelahkan. Namun jika terdapat ringkasan pendek dari sebuah dokumen, maka akan membantu pembaca dalam memahami isi dokumen berbahasa Jawa.

Membuat ringkasan secara manual akan membutuhkan waktu yang lama. Oleh karena itu untuk mengatasi masalah waktu baca, akan dibuat sistem peringkasan teks otomatis. Peringkasan ini akan secara otomatis meringkas keseluruhan isi dari sebuah dokumen untuk mendapatkan intisari dari dokumen berbahasa Jawa, sehingga pembaca dapat memahami isi dokumen tanpa harus membaca keseluruhan dokumen berbahasa Jawa.

Pada penelitian ini metode yang digunakan untuk peringkasan teks otomatis adalah TF-IDF, dimana metode ini menggunakan cara pembobotan untuk setiap kata dalam kalimat. Sehingga kata dengan kemunculan terbanyak merupakan sebuah kalimat yang penting. Dari perhitungan tersebut akan menghasilkan kumpulan kalimat yang berisi bagian penting dari keseluruhan dokumen berbahasa Jawa.

Pengujian sistem dilakukan kepada 3 responden, dimana responden harus mengoreksi secara manual ringkasan yang dihasilkan oleh sistem termasuk


(2)

relevan atau tidak relevan. Terdapat 50 dokumen berbahasa Jawa yang akan diujikan ke dalam sistem, dokumen tersebut bersumber dari DjakaLodang.

Dari hasil pengujian sistem yang telah dilakukan kepada 3 responden secara manual, menghasilkan nilai rata-rata akurasi sebesar 64%. Dengan demikian diketahui nilai rata-rata akurasi sistem ini dalam membantu pembaca untuk memperoleh intisari dari dokumen berbahasa Jawa, sehingga dapat membuat keputusan melanjutkan membaca keseluruhan dokumen atau cukup dengan mambaca ringkasan.


(3)

ABSTRACT

Reading a whole content of a document will take a long time, moreover

the document that is being read is Javanese document. For the readers who have

not really understand Javanese language well, reading and understanding a whole

document will be really tiring. However, if there is a summary of a document, it

will be helpful for the readers to understand the content of Javanese document.

Making a summary in a manual way will take a long time. Therefore, to

solve the problem of timing, itwill be made the system of summarizing the text

automatically. This program will summarize the whole content of Javanese

documentautomatically and get the main idea from the document, so the readers

will understand the content of the Javanese document without reading a whole of

it.

In this research, the method that is used in the program of summary is

TF-IDF which means this method use weighting way in every word. So, the word

with the highest appearances areconsidered as the important sentence. The

calculation will produce the document compilation containing the important part

from the whole Javanese document.

The system of examination is done by three respondents, which the

respondents should check the summary result of the system manually whether the

result is the relevant or not relevant. There are 50 Javanese documents which will


(4)

From the result of examination that was done by 3 respondents manually

and it brings out the average value of 64%. Thus, it is known how much the level

of accuracy in helping the readers to get the main idea of the Javanese document

so that they can make the decision to continue reading a whole document or just


(5)

i

PERINGKASAN TEKS OTOMATIS

PADA DOKUMEN BERBAHASA JAWA

MENGGUNAKAN METODE TF-IDF

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Teknik Informatika (S.Kom)

Program Studi Teknik Informatika

Oleh

AGUSTINUS WIDIANTORO 105314062

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA


(6)

ii

AUTOMATIC TEXT SUMMARY

IN JAVANESE LANGUAGE DOCUMENT

USING TF-IDF METHOD

THESIS

Presented as Partial Fullfilment of the Requirements To Obtain the Computer Bachelor Degree

In Informatics Engineering

By

AGUSTINUS WIDIANTORO 105314062

INFORMATICS ENGINEERING STUDY PROGRAM

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA


(7)

(8)

(9)

v

PERNYATAAN KEASLIAN KARYA

Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini

tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan

dalam kutipan dan daftar pustaka sebagaimana layaknya karya ilmiah.

Yogyakarta, 10 November 2014

Penulis


(10)

vi

HALAMAN MOTTO

"Musuh yang paling berbahaya di atas dunia ini adalah penakut dan bimbang. Teman yang paling setia, hanyalah keberanian dan keyakinan yang teguh."

(Andrew Jackson)

"Pendidikan merupakan perlengkapan paling baik untuk hari tua."


(11)

vii

HALAMAN PERSEMBAHAN

Hasil karya skripsi ini, kupersembahakan kepada :

Tuhan Yesus dan Bunda Maria Alm. F.X.Susilo S.Pd Christiana Wagiyem S.Pd Veronika Suci Anggraeni S.Pd


(12)

viii

ABSTRAKSI

Membaca keseluruhan dokumen membutuhkan waktu yang lama, apalagi dokumen yang dibaca adalah dokumen berbahasa Jawa. Bagi pembaca yang belum paham tentang bahasa Jawa, membaca keseluruhan dokumen untuk memahaminya akan sangat melelahkan. Namun jika terdapat ringkasan pendek dari sebuah dokumen, maka akan membantu pembaca dalam memahami isi dokumen berbahasa Jawa.

Membuat ringkasan secara manual akan membutuhkan waktu yang lama. Oleh karena itu untuk mengatasi masalah waktu baca, akan dibuat sistem peringkasan teks otomatis. Peringkasan ini akan secara otomatis meringkas keseluruhan isi dari sebuah dokumen untuk mendapatkan intisari dari dokumen berbahasa Jawa, sehingga pembaca dapat memahami isi dokumen tanpa harus membaca keseluruhan dokumen berbahasa Jawa.

Pada penelitian ini metode yang digunakan untuk peringkasan teks otomatis adalah TF-IDF, dimana metode ini menggunakan cara pembobotan untuk setiap kata dalam kalimat. Sehingga kata dengan kemunculan terbanyak merupakan sebuah kalimat yang penting. Dari perhitungan tersebut akan menghasilkan kumpulan kalimat yang berisi bagian penting dari keseluruhan dokumen berbahasa Jawa.

Pengujian sistem dilakukan kepada 3 responden, dimana responden harus mengoreksi secara manual ringkasan yang dihasilkan oleh sistem termasuk


(13)

ix

relevan atau tidak relevan. Terdapat 50 dokumen berbahasa Jawa yang akan diujikan ke dalam sistem, dokumen tersebut bersumber dari DjakaLodang.

Dari hasil pengujian sistem yang telah dilakukan kepada 3 responden secara manual, menghasilkan nilai rata-rata akurasi sebesar 64%. Dengan demikian diketahui nilai rata-rata akurasi sistem ini dalam membantu pembaca untuk memperoleh intisari dari dokumen berbahasa Jawa, sehingga dapat membuat keputusan melanjutkan membaca keseluruhan dokumen atau cukup dengan mambaca ringkasan.


(14)

x

ABSTRACT

Reading a whole content of a document will take a long time, moreover

the document that is being read is Javanese document. For the readers who have

not really understand Javanese language well, reading and understanding a whole

document will be really tiring. However, if there is a summary of a document, it

will be helpful for the readers to understand the content of Javanese document.

Making a summary in a manual way will take a long time. Therefore, to

solve the problem of timing, itwill be made the system of summarizing the text

automatically. This program will summarize the whole content of Javanese

documentautomatically and get the main idea from the document, so the readers

will understand the content of the Javanese document without reading a whole of

it.

In this research, the method that is used in the program of summary is

TF-IDF which means this method use weighting way in every word. So, the word

with the highest appearances areconsidered as the important sentence. The

calculation will produce the document compilation containing the important part

from the whole Javanese document.

The system of examination is done by three respondents, which the

respondents should check the summary result of the system manually whether the

result is the relevant or not relevant. There are 50 Javanese documents which will


(15)

xi

From the result of examination that was done by 3 respondents manually

and it brings out the average value of 64%. Thus, it is known how much the level

of accuracy in helping the readers to get the main idea of the Javanese document

so that they can make the decision to continue reading a whole document or just


(16)

xii

LEMBAR PERNYATAAN PERSETUJUAN

PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma :

Nama : Agustinus Widiantoro NIM : 105314062

Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan Universitas Sanata Dharma karya ilmiah yang berjudul :

PERINGKASAN TEKS OTOMATIS PADA DOKUMEN BERBAHASA JAWA

MENGGUNAKAN METODE TF-IDF

Beserta perangkat yang diperlukan. Dengan demikian saya memberikan kepada Perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain, mengolahnya dalam bentuk pangkalan data, mendistribusikan secara terbatas dan mempublikasikannya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta izin dari saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis.

Demikian pernyataan ini saya buat dengan sebenarnya.

Yogyakarta, 10 November 2014 Penulis


(17)

xiii

KATA PENGANTAR

Puji dan syukur penulis panjatkan ke hadirat Tuhan Yang Maha Esa atas segala berkat dan karunianya yang melimpah sehingga penulis dapat menyelesaikan skripsi ini dengan baik. Adapun tujuan penulis adalah untuk memenuhi persyaratan dalam memperoleh gelar Sarjana Teknik Informatika (S.Kom) Universitas Sanata Dharma.

Penyusun skripsi ini tidak terlepas dari bantuan, bimbingan, dan peran berbagai pihak. Oleh karena itu pada kesempatan ini penulis mengucapkan terima kasih kepada pihak-pihak berikut :

1. Tuhan Yesus Kristus dan Bunda Maria yang selalu membimbing dan menuntun untuk menyelesaikan skripsi ini.

2. Ibu Paulina Heruningsih Prima Rosa, S.Si., M.Sc., selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma.

3. Ibu Sri Hartati Wijono, S.Si., M.Kom., selaku Dosen Pembimbing yang telah meluangkan banyak waktu untuk membimbing dengan sabar, memberikan masukan, saran dan memotivasi selama mengerjakan skripsi ini.

4. Ibu Ridowati Gunawan, S.Kom., M.T., selaku Dosen sekaligus Kepala Program Studi Teknik Informatika.

5. Bapak JB. Budi Darmawan, S.T., M.Sc., dan bapak Puspaningtyas Sanjoyo Adi, S.T., M.T., sebagai Dosen Penguji.

6. Seluruh Staff dan Dosen Program Studi Teknik Informatika Universitas Sanata Dharma yang telah memberikan bekal ilmu kepada penulis.


(18)

xiv

7. Ketiga responden kuesioner yang telah memberikan waktu luang dalam melakukan proses pengujian.

8. Alm. F.X. Susilo S.Pd, Ibu Christiana Wagiyem S.Pd, Kakak Veronika Suci Anggraeni S.Pd serta seluruh keluarga besar yang terus memberikan doa, dukungan dan semangat sehingga dapat menyelesaikan skripsi ini.

9. Sahabat-sahabat, teman-teman Teknik Informatika angkatan 2010 atas kekompakan serta kebersamaan selama ini.

10. Semua pihak yang tidak dapat disebutkan satu per satu yang terlibat dalam penyusunan skripsi ini sehingga dapat selesai dengan baik.

Dengan rendah hati penulis menyadari bahwa skripsi ini masih belum sempurna, oleh karena itu berbagai kritik dan saran untuk perbaikan skripsi ini sangat penulis harapkan. Akhir kata, semoga penyusunan skripsi ini bermanfaat bagi pengembangan ilmu pengetahuan. Terima kasih.

Yogyakarta, 10 November 2014

Penulis


(19)

xv

DAFTAR ISI

HALAMAN JUDUL BAHASA INDONESIA ... i

HALAMAN JUDUL BAHASA INGGRIS ... ii

HALAMAN PERSETUJUAN ... iii

HALAMAN PENGESAHAN ... iv

HALAMAN KEASLIAN KARYA ... v

HALAMAN MOTTO ... vi

HALAMAN PERSEMBAHAN ... vii

ABSTRAKSI ... viii

ABSTRACT ... x

LEMBAR PERNYATAAN PERSETUJUAN... xii

KATA PENGANTAR ... xiii

DAFTAR ISI ... xv

DAFTAR TABEL ... xx

DAFTAR GAMBAR ... xxi

DAFTAR LISTING ... xxiii

BAB I PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 3

1.3 Tujuan Penalitian ... 3

1.4 Manfaat Penelitian ... 3


(20)

xvi

1.6 Metodologi Penelitian ... 4

1.7 Sistematika Penulisan ... 6

BAB II LANDASAN TEORI ... 8

2.1 Pemerolehan Informasi ... 8

2.1.1 Konsep Pemerolehan Informasi ... 8

2.1.2 Langkah Pemerolahan Informasi... 8

2.1.2.1 Text Preprocessing ... 8

2.1.2.1.1 Tokenizing ... 8

2.1.2.1.2 Stopword ... 9

2.1.2.1.3 Stemming ... 10

2.1.2.2 Indexing ... 14

2.1.2.3 LinkedList ... 15

2.1.2.4 ArrayList ... 16

2.2 Peringkasan Otomatis ... 16

2.3 Metode Peringkasan Teks Otomatis ... 17

2.3.1 Metode Pembobotan TF-IDF ... 17

2.3.1.1 Langkah Pengerjaan ... 20

2.3.1.2 Contoh Pengerjaan ... 21

BAB III ANALISIS DAN PERANCANGAN SISTEM ... 33

3.1 Gambaran Sistem Penelitian ... 33

3.2 Analisis Kebutuhan ... 35

3.3 Perancangan Sistem... 36


(21)

xvii

3.3.1.1 Skenario Use Case ... 37

3.3.1.1.1 Skenario Login ... 37

3.3.1.1.2 Skenario Memasukkan Data Koleksi Dokumen ... 38

3.3.1.1.3 Skenario Logout ... 39

3.3.1.1.4 Skenario Memasukkan Data Dokumen ... 39

3.3.1.1.5 Skenario Melihat Hasil Ringkasan... 40

3.3.1.1.6 Skenario Melihat Data Koleksi Dokumen... 41

3.3.2 Diagram Aktifitas ... 42

3.3.2.1 Diagram Aktifitas Login ... 42

3.3.2.2 Diagram Aktifitas Memasukkan Data Koleksi Dokumen ... 43

3.3.2.3 Diagram Aktifitas Logout ... 44

3.3.2.4 Diagram Aktifitas Memasukkan Data Dokumen ... 45

3.3.2.5 Diagram Aktifitas Melihat Hasil Ringkasan ... 46

3.3.2.6 Diagram Aktifitas Melihat Data Koleksi Dokumen ... 47

3.3.3 Diagram Sekuensial ... 48

3.3.3.1 Diagram Sekuensial Login ... 48

3.3.3.2 Diagram Sekuensial Memasukkan Data Koleksi Dokumen ... 49

3.3.3.3 Diagram Sekuensial Logout ... 50

3.3.3.4 Diagram Sekuensial Memasukkan Data Dokumen ... 51

3.3.3.5 Diagram Sekuensial Melihat Hasil Ringkasan ... 52


(22)

xviii

3.3.4 Diagram MVC (Model View Control) ... 54 3.3.4.1 Struktur Kelas MVC ... 54 3.3.4.2 Diagram Analisis Kelas MVC ... 54 3.3.4.3 Diagram Kelas Model ... 56 3.4 Perancangan Antar Muka (User Interface) ... 57 3.4.1 Halaman Utama ... 58 3.4.2 Halaman Memasukkan Data Koleksi Dokumen ... 59 3.4.3 Halaman Melihat Data Koleksi Dokumen ... 50 3.4.4 Halaman Peringkasan Teks Otomatis ... 61 3.4.5 Halaman Melihat Hasil Ringkasan ... 62 3.5 Skenario Pengujian Sistem ... 63 3.6 Data ... 65 BAB IV IMPLEMENTASI... 66 4.1 Spesifikasi Software dan Hardware yang Digunakan ... 66 4.1.1 Spesifikasi Software ... 66 4.1.2 Spesifikasi Hardware ... 66 4.2 Implementasi Program ... 67 4.2.1 Implementasi Text Preprocessing ... 67 4.2.2 Implementasi Penghapusan Kata Umum (Stopword) ... 69 4.2.3 Implementasi Pengembalian Kata Dasar (Stemming) ... 70 4.2.4 Implementasi Term Frequency (TF)... 76 4.2.5 Implementasi Document Frequency (df) ... 77 4.2.6 Implementasi Inverse Document Frequency (IDF) ... 77


(23)

xix

4.2.7 Implementasi Bobot Kata (W) ... 78 4.2.8 Implementasi Bobot Total Kalimat (D) ... 79 4.2.9 Implementasi Pengambilan Kalimat (D) ... 79 4.2.10 Implementasi Menampilkan Hasil Ringkasan... 81 4.3 Implementasi Antar Muka (User Interface) ... 82 4.3.1 Halaman Utama ... 82 4.3.2 Halaman Memasukkan Data Koleksi Dokumen ... 83 4.3.3 Halaman Melihat Data Koleksi Dokumen ... 84 4.3.4 Halaman Peringkasan Teks Otomatis ... 86 4.3.5 Halaman Melihat Hasil Ringkasan ... 87 BAB V ANALISIS HASIL DAN PEMBAHASAN ... 88 5.1 Analisis Pengujian Sistem ... 88 5.1.1 Pengujian Kepada Responden ... 88 5.1.2 Hasil Pengujian Sistem ... 91 5.2 Pembahasan Pengujian Sistem ... 92 BAB VI KESIMPULAN DAN SARAN ... 102 6.1 Kesimpulan ... 102 6.2 Saran ... 102 DAFTAR PUSTAKA ... 103 LAMPIRAN ... 105


(24)

xx

DAFTAR TABEL

Tabel 2.1 Aturan Subtitusi/Penghapusan ... 10 Tabel 2.2 Tabel Rule Untuk Suffix ... 10 Tabel 2.3 Tabel Rule Untuk Prefix ... 11 Tabel 2.4 Tabel Rule Untuk Infix ... 12 Tabel 2.5 Tabel Perhitungan TFdan df ... 25 Tabel 2.6 Tabel Perhitungan Bobot Kata (W) ... 28 Tabel 3.1 Tabel Analisis Kebutuhan ... 35 Tabel 3.2 Skenario Login ... 37 Tabel 3.3 Skenario Memasukkan Data Koleksi Dokumen ... 38

Tabel 3.4 Skenario Logout ... 39 Tabel 3.5 Skenario Memasukkan Data Dokumen ... 39 Tabel 3.6 Skenario Melihat Hasil Ringkasan ... 40 Tabel 3.7 Skenario Melihat Data Koleksi Dokumen ... 41 Tabel 3.8 Struktur Kelas MVC ... 54 Tabel 3.9 Diagram Kelas ... 56 Tabel 3.10 Contoh Pengujian Sistem ... 63 Tabel 5.1 Hasil Pengujian Kepada Responden ... 89


(25)

xxi

DAFTAR GAMBAR

Gambar 2.1 Proses Tokenizing ... 9 Gambar 2.2 Proses Pengindeksan ... 15 Gambar 2.3 Perhitungan RIDF ... 17 Gambar 2.4 Perhitungan Wik ... 19

Gambar 2.5 Perhitungan ntfik ... 19

Gambar 2.6 Perhitungan nidfk ... 19

Gambar 3.1 Gambaran Sistem Keseluruhan ... 34 Gambar 3.2 Diagram Use Case ... 36 Gambar 3.3 Diagram Aktifitas Login ... 42 Gambar 3.4 Diagram Aktifitas Memasukkan Data Koleksi Dokumen ... 43

Gambar 3.5 Diagram Aktifitas Logout... 44 Gambar 3.6 Diagram Aktifitas Memasukkan Data Dokumen... 45 Gambar 3.7 Diagram Aktifitas Melihat Hasil Ringkasan ... 46 Gambar 3.8 Diagram Aktifitas Melihat Data Koleksi Dokumen ... 47 Gambar 3.9 Diagram Sekuensial Login ... 48 Gambar 3.10 Diagram Sekuensial Memasukkan Data Koleksi Dokumen ... 49

Gambar 3.11 Diagram Sekuensial Logout ... 50 Gambar 3.12 Diagram Sekuensial Memasukkan Data Dokumen ... 51 Gambar 3.13 Diagram Sekuensial Melihat Hasil Ringkasan ... 52 Gambar 3.14 Diagram Sekuensial Melihat Data Koleksi Dokumen ... 53 Gambar 3.15 Diagram Kelas Admin ... 54


(26)

xxii

Gambar 3.16 Diagram Kelas Pengguna ... 55 Gambar 3.17 Halaman Utama ... 57 Gambar 3.18 Halaman Memasukkan Data Koleksi Dokumen ... 58

Gambar 3.19 Halaman Melihat Data Koleksi Dokumen ... 59 Gambar 3.20 Halaman Melihat Ringkasan Data Koleksi Dokumen ... 60 Gambar 3.21 Halaman Peringkasan Teks Otomatis ... 61 Gambar 3.22 Halaman Melihat Hasil Ringkasan ... 62 Gambar 3.23 Rumus Perhitungan Rata-rata ... 64 Gambar 3.24 Contoh Perhitungan Rata-rata ... 64 Gambar 4.1 Rangkain Proses Text Preprocessing ... 67 Gambar 4.2 Halaman Utama ... 82 Gambar 4.3 Halaman Memasukkan Data Koleksi Dokumen ... 83

Gambar 4.4 Halaman Melihat Data Koleksi Dokumen ... 84 Gambar 4.5 Halaman Melihat Ringkasan Data Koleksi Dokumen ... 85 Gambar 4.6 Halaman Peringkasan Teks Otomatis ... 86 Gambar 4.7 Halaman Melihat Hasil Ringkasan ... 87 Gambar 5.1 Hasil Perhitungan Rata-rata ... 91


(27)

xxiii

DAFTAR LISTING

Listing Program 4.1 Implementasi Text Preprocessing ... 67 Listing Program 4.2 Implementasi Penghapusan Kata Umum ... 69 Listing Program 4.3 Implementasi Pengembalian Kata Dasar ... 70 Listing Program 4.4 Implementasi Method delSuffix() ... 71 Listing Program 4.5 Implementasi Method delPrefix() ... 73 Listing Program 4.6 Implementasi Method delDuplikasi() ... 75 Listing Program 4.7 Implementasi Term Frequency (TF) ... 76 Listing Program 4.8 Implementasi Document Frequency (df) ... 77 Listing Program 4.9 Implementasi Inverse Document Frequency (IDF) .. 77 Listing Program 4.10 Implementasi Bobot Kata (Wtd)... 78

Listing Program 4.11 Implementasi Bobot Total Kalimat (D) ... 79 Listing Program 4.12 Implementasi Pengambilan Kalimat (D) ... 79 Listing Program 4.13 Implementasi Menampilkan Hasil Ringkasan ... 81


(28)

1 BAB I PENDAHULUAN

1.1 Latar Belakang

Saat ini, kita dapat mengakses dokumen berbahasa Jawa melalui situs-situs di internet dan banyak juga dokumen, buku dan majalah berbahasa Jawa yang dapat kita peroleh di perpustakaan-perpustakaan. Sementara itu, banyak generasi muda yang berasal dari Jawa tidak memahami bahasa Jawa. Sayang sekali jika bahasa Jawa semakin lama semakin tidak digunakan dan akhirnya punah.

Membuat dan membaca dokumen berbahasa Jawa merupakan salah satu cara melestarikan penggunaan bahasa Jawa. Bagi mereka yang belum paham tentang bahasa Jawa, membaca keseluruhan dokumen untuk memahaminya akan sangat melelahkan. Namun jika terdapat ringkasan pendek dari sebuah dokumen, maka akan membantu pembaca mendapatkan intisari dari sebuah dokumen berbahasa Jawa.

Membuat ringkasan secara manual membutuhkan waktu lama jika dokumen yang diringkas berjumlah sangat banyak. Maka membutuhkan peringkasan teks otomatis untuk membantu proses ekstraksi dalam penyusunan kalimat mengenai intisari dari dokumen serta menggabungkan menjadi suatu ringkasan (Jezek, Steinberger, 2008). Diharapkan dari membaca ringkasan, akan menumbuhkan niat membaca dokumen berbahasa Jawa menjadi lebih meningkat. Membuat peringkasan teks otomatis dilakukan dengan cara pemberian bobot untuk setiap kata dalam kalimat. Dalam penelitian ini ringkasan yang


(29)

2

dihasilkan merupakan kumpulan kalimat dari hasil perhitungan dengan metode TF-IDF (Savoy, 1993). Metode ini bertujuan untuk mengambil sebagian kalimat dari keseluruhan dokumen berbahasa Jawa yang penting, ditandai dengan bobot

tinggi dari hasil perhitungan dengan metode TF-IDF. Ringkasan yang dihasilkan

tersebut akan menampilkan sebuah ringkasan dokumen yang diharapkan sesuai

dengan kebutuhan pembaca. Hasil ringkasan dari sistem secara otomatis tersebut

akan dilakukan pengujian kepada 3 responden berbahasa Jawa secara manual.

Dokumen yang akan diujikan ke dalam sistem berjumlah 50 dokumen berbahasa

Jawa yang bersumber dari DjakaLodang. Dari hasil pengujian akan dilakukan

perhitungan nilai rata-rata untuk mendapatkan hasil akurasinya. Dengan demikian

diketahui nilai rata-rata akurasi sistem ini dalam membantu pembaca untuk memperoleh intisari dari dokumen berbahasa Jawa, sehingga dapat membuat keputusan untuk melanjutkan membaca keseluruhan dokumen atau cukup dengan mambaca ringkasan.

Pada penelitian ini akan dibangun sebuah website majalah bahasa Jawa yang berisi kumpulan dokumen berbahasa Jawa serta dapat melakukan

peringkasan teks otomatis dokumen berbahasa Jawa secara cepat dan akurat,

sehingga dapat menghasilkan ringkasan yang sesuai dengan kebutuhan pengguna.

Diharapkan website majalah bahasa Jawa ini dapat diakses secara umum oleh

pengguna agar dapat digunakan untuk melakukan peringkasan teks dokumen


(30)

3

1.2 Rumusan Masalah

Berdasarkan latar belakang di atas maka terdapat rumusan masalah

sebagai berikut :

1. Bagaimana menggunakan metode TF-IDF pada program aplikasi

peringkasan teks otomatis pada dokumen berbahasa Jawa?

2. Bagaimana mengukur akurasi sistem peringkasan teks otomatis

menggunakan metode TF-IDF pada dokumen berbahasa jawa?

1.3 Tujuan Penelitian

Tujuan dari penelitian ini adalah membuat sebuah website majalah bahasa

Jawa yang dapat melakukan peringkasan teks otomatis pada dokumen berbahasa

Jawa dengan metode TF-IDF, serta dapat menghasilkan ringkasan dari dokumen

berbahasa Jawa yang sesuai dengan kebutuhan pengguna.

1.4 Manfaat Penelitian

Manfaat dari penelitian ini adalah menghasilkan ringkasan yang berisi

kumpulan kalimat mengenai intisari dari keseluruhan dokumen berbahasa Jawa.

Ringkasan tersebut akan membantu pembaca dalam memahami intisari dari

dokumen tanpa harus membaca keseluruhan dokumen berbahasa Jawa. Dengan

membaca ringkasan, pembaca dapat membuat keputusan untuk melanjutkan

membaca keseluruhan dokumen atau cukup dengan membaca ringkasan.

Membaca ringkasan berbahasa Jawa diharapkan dapat meningkatkan minat


(31)

4

1.5 Batasan Masalah

Ruang lingkup dibatasi pada :

1. Ekstraksi teks yang digunakan adalah pada dokumen berbahasa Jawa.

2. Dokumen yang digunakan bersumber dari Djakalodang tahun 1978,

2002 dan 2003.

3. Teks input diambil dari file teks.

4. Pengujian sistem akan dilakukan kepada 3 responden secara manual

dengan dokumen berjumlah 50, dari hasil pengujian tersebut akan

dihitung nilai rata-rata untuk mendapatkan hasil akurasi peringkasan

teks otomatis pada dokumen berbahasa Jawa.

5. Sistem berbasis web dengan menggunakan jsp.

6. Pembuatan program aplikasi peringkasan teks otomatis menggunakan

java dengan IDE Netbeans 6.9.1.

1.6 Metodologi Penelitian

Pada penelitian ini akan dilakukan dengan beberapa tahap sebagai berikut :

1. Studi Pustaka

Pada tahap ini dilakukan pengumpulan informasi dengan cara

membaca buku referensi, jurnal dan mencari informasi di internet

mengenai pemerolehan informasi serta metode TF-IDF yang


(32)

5

2. Pengumpulan Dokumen Berbahasa Jawa

Pada tahap ini dilakukan pengumpulan data dokumen berbahasa

Jawa, dimana data dokumen tersebut akan digunakan untuk pengujian

sistem peringkasan teks otomatis. Dokumen berbahasa Jawa yang

digunakan bersumber dari DjokoLodang, mengenai cerita wayang atau

artikel berita.

3. Perancangan Sistem

Pada tahap ini dilakukan proses perancangan sistem atau rancangan

alur jalannya program. Perancangan akan dilakukan secara terstruktur

dengan langkah pembuatan diagram use case, diagram aktifitas,

diagram sekuensial, diagram kelas untuk memprosesnya, merancang

setiap proses dengan algoritma, serta merancang user interface.

4. Implementasi Perangkat Lunak

Pada tahap ini membangun sistem berbasis komputer berdasarkan

hasil perancangan yang telah dibuat. Sehingga implementasi rancangan

ke dalam program komputer dapat menghasilkan perangkat lunak yang

sesuai dengan kebutuhan.

5. Pengujian Perangkat lunak

Pada tahap ini akan dilakukan analisa perangkat lunak. Apakah


(33)

6 6. Pengujian Sistem

Pada tahap ini perangkat lunak yang sudah jadi akan dilakukan

pengujian sistem. Pengujian dilakukan kepada 3 responden secara

manual dengan dokumen berbahasa Jawa berjumlah 50.

7. Evaluasi Pengujian Sistem

Pada tahap ini dilakukan penghitungan dari pengujian sistem yang

sudah dilakukan. Dari hasil pengujian tersebut akan dihitung nilai

rata-rata untuk mendapatkan hasil akurasi sistem. Mengapa hasil dari sistem

sesuai? dan Mengapa hasil dari sistem tidak sesuai? akan dianalisa.

1.7 Sistematika Penulisan

Sistematika penulisan pada penelitian ini dibagi menjadi beberapa bagian sebagai berikut :

BAB I PENDAHULUAN

Bab ini berisi gambaran umum permasalahan yang akan diteliti, meliputi : latar belakang, rumusan masalah, tujuan penelitian, manfaat penelitian, batasan masalah, metodologi penelitian dan sistematika penulisan.

BAB II LANDASAN TEORI

Bab ini berisi konsep pemerolehan informasi, langkah-langkah pemerolehan informasi, metode yang digunakan dalam penelitian ini, serta langkah-langkah pengerjaan metode tersebut.


(34)

7

BAB III ANALISIS DAN PERANCANGAN SISTEM

Bab ini berisi gambaran umum sistem, analisis kebutuhan, perancangan sistem meliputi : diagram use case, diagram aktifitas, diagram sekuensial, diagram kelas, user interface dan skenario pengujian.

BAB IV IMPLEMENTASI

Bab ini berisi implementasi dan penjelasan fungsi program yang dibuat berdasarkan analisis dan perancangan sistem.

BAB V ANALISIS HASIL DAN PEMBAHASAN

Bab ini berisi analisis hasil pengujian sistem dan pembahasan pengujian sistem.

BAB VI KESIMPULAN DAN SARAN

Bab ini berisi kesimpulan dan saran dari hasil analisis sistem, implementasi sistem dan pengujian sistem.


(35)

8

BAB II LANDASAN TEORI

2.1 Pemerolehan Informasi ( Information Retrieval ) 2.1.1 Konsep Pemerolehan Informasi

Pemerolehan informasi (Information Retrieval) adalah menemukan bahan (biasanya dokumen) dari sesuatu tidak terstruktur (biasanya teks) yang memenuhi kebutuhan informasi dari koleksi besar (biasanya disimpan pada komputer) (Manning, 2009).

Adapun tahap dalam memproses data untuk mendapatkan informasi mengenai kalimat penting dalam sebuah dokumen berbahasa Jawa, yaitu pemisahan setiap kata dalam kalimat (tokenizing), penghapusan kata umum (stopword), pemisahan imbuhan kata untuk mendapatkan kata dasar (stemming), dan penataan data (indexing).

2.1.2 Langkah Pemerolehan Informasi 2.1.2.1 Text Preprocessing

2.1.2.1.1 Tokenizing

Tokenizing adalah proses pemisahan setiap kata dalam kalimat menjadi kata tunggal. Setiap kata dalam kalimat dipisahkan menggunakan karakter spasi. Pada langkah ini juga menghilangkan tanda baca dan mengubah semua token ke dalam bentuk huruf kecil (lower case). Contoh proses pemotongan kata :


(36)

9

Input :

Output :

Gambar 2.1 Proses Tokenizing

Pada Gambar 2.1, masukkan dari sebuah dokumen adalah berbentuk kalimat, kemudian kalimat tersebut dilakukan proses tokenizing maka akan didapat potongan kata tunggal. Dari proses pemisahan inilah yang nantinya digunakan untuk menghitung bobot setiap kata, sehingga dapat menghasilkan hitungan setiap kata dalam kalimat. Langkah berikutnya akan dilakukan proses stopword.

2.1.2.1.2 Stopword

Beberapa kata umum yang digunakan akan mengakibatkan suatu nilai menjadi kecil dalam membantu memilih dokumen yang sesuai dengan kebutuhan pengguna. Kata umum tersebut adalah stopword. (Manning, 2009).

Contoh stopword dalam bahasa Jawa : "apa", "ana", "amarga", "dadi", "dudu", "gawe", "iki", "iku", "ing", "kabeh", "kalebu", "kang", "kanggo", "karo", "kowe", "lagi", "lan", "mau", "nalika", "nanging", "nganti", "ora", "padha", "punika", "sami", "saka", "sang", "tetep", "utawa", "wae", "yaiku", dll. Pada langkah ini akan dilakukan proses penghapusan kata umum untuk mengurangi jumlah kemunculan kata yang tidak memiliki makna berarti. Setelah proses tokenizing dan stopword selesai maka dilanjutkan dengan proses stemming.

Mataram iku negara kondhang


(37)

10

2.1.2.1.3 Stemming

Stemming adalah proses pengembalian sebuah kata yang terdapat dalam suatu dokumen ke dalam bentuk kata dasar. Proses penghilangan semua imbuhan (affix) yang terdiri dari awalan (prefix), sisipan (infix), akhiran (suffix) dan duplikasi. Dalam stemming untuk bahasa Jawa, sebelumnya terlebih dahulu membuat stemmer rule dengan menggunakan simbol sebagai berikut (Wijono, 2011) :

1. Aturan substitusi/ penghapusan menggunakan tanda =>.

Tabel 2.1 Aturan Substitusi/ Penghapusan

2. Simbol <> digunakan untuk menyatakan tingkat (affix) yang

mempengaruhi urutan pengecekan pada algoritma stemming.

Rule yang digunakan adalah sebagai berikut :

Tabel 2.2 Tabel Rule Untuk Suffix

SUFFIX

<1> e=>"",n=>"",a=>"",i=>"",ing=>"", ku=>"",mu=>""

<2> ke=>"", ki=>"",wa=>"", ya=>"",na=>"",ne=>"",en=>"",an=>"",ni=>"",nira=>"", ipun=>"", on=>"u", ning=>""

<3> ake=>"", en=>"i", kna=>"n", kno=>"n", ana=>"", ono=>"", ane=>"", kne=>"", nan=>"", yan=>"", nipun=>"", oni=>"u", eni=>"i"

ny =>”” (ny dihapus)


(38)

11

<4> kake=>"n", ken=>"" ,kke=>"",nana=>"",nono=>"", nane=>"", nen=>"",kna=>"",kno=>"", ekne=>"i", onan=>"u",enan=>"i"

<5> kake=>"",kken=>"",aken=>"",kke=>"n",enana=>"i",enono=>"i",onen=>"u",enen=>"i",onana=> "u",onono=>"u", ekna=>"i",ekno=>"i",okno=>"u",okna=>"u"

<6> ekken=>"i",kaken=>"n",okken=>"u",ekake=>"i",ekke=>"i",okake=>"u",okke=>"u", kaken=>"", kken=>"n"

<7> ekaken=>"i",okaken=>"u"

Tabel 2.3 Tabel Rule Untuk Prefix

PREFIX

<1> dipun=>"",peng=>"",peny=>"",pem=>"",pam=>"",pany=>"",pra=>"",kuma=>"",kapi=>"", bok=>"",mbok=>"",dak=>"",tak=>"",kok=>"",tok=>"",ing=>"",ang=>"",any=>"", am=>"", sak=>"",

se=>"",su=>"",mang=>"",meng=>"",nge=>"",nya=>"",pi=>"",ge=>"",ke=>"",u=>"", po=>"u",ke=>"u"

<2> mer=>"",mra=>"",mi=>"",sa=>"",ku=>"",an=>"",ka=>"",ny=>"s",ng=>"k",di=>"",peng=>" k",pang=>"k",pany=>"c", pam=>"p",ke=>"i",mang=>"k",meng=>"k"

<3> a=>"",k=>"",pam=>"w",pan=>"t", pen=>"t",mang=>"w",meng=>"w", ny=>"c",ng=>"" <4> n=>"t", pan=>"s", pen=>"s",man=>"s",men=>"s"

<5> pan=>"",pen=>"",man=>"t",men=>"t",n=>"" <6> pa=>"",pe=>"",man=>"",men=>""

<7> p=>"",ma=>"",me=>"" <8> m=>"w"

<9> m=>"p" <10> m=>""


(39)

12

Tabel 2.4 Tabel Rule Untuk Infix

INFIX

<1> gum=>"b",gem=>"b",kum=>"p",kem=>"p"

<2> kum=>"w", kem=>”w”

Algoritma untuk melakukan proses stemming terhadap kata tunggal atau

duplikasi.

1. Kata berimbuhan adalah word. Kata sebagai hasil adalah stemW

2. Cek jumlah karakter word, jika < 2. Keluar.

3. Jika word mengandung “-“, maka pecah kata berdasar “-“ menjadi w1 dan w2.

Dan lakukan langkah 4-13

4. w11 = w1 tanpa vokal dan w21 = w2 tanpa vokal.

5. Jika w11 = w21 dan panjang w1=w2 maka lakukan langkah 6-8

6. Jika w2 ada di kamus maka stemW=w2 dan keluar.

7. Jika w2 tidak ada di kamus, w22= hilangkan imbuhan(w2).

8. Jika w22 ada di kamus maka stemW=w22, jika tidak stemW=w1-w2 dan

keluar.

9. Jika w11 != w21, lakukan langkah 10-13

10.ws11=hilangkan imbuhan(w1) dan ws21 = hilangkan imbuhan(w2).

11.Cek ws21 di kamus, jika ada maka stemW=ws21 dan keluar.

12.Cek ws11 di kamus, jika ada maka stemW=ws11 dan keluar.


(40)

13

14. stemW = hilangkan imbuhan(stemW). Cek stemW di dictionary. Jika ada

stemW dikembalikan dan keluar.

Algoritma untuk menghilangkan afiks pada kata berimbuhan.

1. Kata yang akan dihilangkan imbuhan adalah word.

2. ws1=hapus suffix (word). Cek di dictionary. Jika ada kembalikan kata.

3. ws1s2=hapus suffix (ws1). Cek di dictionary. Jika ada kembalikan kata.

4. ws1i1=hapus infix (ws1). Cek di dictionary. Jika ada kembalikan kata.

5. dws1= pengulangan parsial (ws1). Cek di dictionary. Jika ada kembalikan

kata.

6. dws1s2= pengulangan parsial (ws1s2). Cek di dictionary. Jika ada kembalikan

kata.

7. wp1=hapus prefix (word). Cek di dictionary. Jika ada kembalikan kata.

8. dwp1= pengulangan parsial (wp1). Cek di dictionary. Jika ada kembalikan

kata.

9. wp1s1=hapus suffix(wp1). Cek di dictionary. Jika ada kembalikan kata.

10.dwp1s1= pengulangan parsial (wp1s1). Cek di dictionary. Jika ada

kembalikan kata.

11.wp1s1s2=hapus suffix (wp1s1). Cek di dictionary. Jika ada kembalikan kata.

12.wp1p2=hapus prefix (wp1). Cek di dictionary. Jika ada kembalikan kata.

13.wp1p2s1=hapus suffix (wp1p2). Cek di dictionary. Jika ada kembalikan kata.

14.wp1p2s1s2=hapus suffix (wp1p2s1). Cek di dictionary. Jika ada kembalikan


(41)

14

15.wi1=hapus infix (word). Cek di dictionary. Jika ada kembalikan kata.

16.wi1s1=hapus suffix (wi1). Cek di dictionary. Jika ada kembalikan kata.

2.1.2.2 Indexing

Indexing (pengindeksan) adalah proses penyimpanan kembali dokumen secara urut dengan aturan tertentu. Proses penyimpanan tersebut berguna untuk mempercepat proses pencarian dokumen yang sesuai dengan kebutuhan pengguna. Langkah-langkah dalam membuat indeks adalah sebagai berikut (Manning, 2009) :

1. Kumpulkan dokumen yang akan di indeks.

Friends, Romans, countrymen. So let it be with Caesar

2. Lakukan proses pemisahan kata untuk mendapatkan daftar token. Friends Romans countrymen So

3. Dapat dilakukan aturan tertentu untuk mendapatkan daftar token yang sudah dinormalisasi sebelum dilakukan pengindeksan.

friend roman countrymen so

4. Indeks dokumen untuk setiap daftar token akan membuat Inverted Index. Pada Gambar 2.2 berikut adalah proses membuat indeks pada kumpulan dokumen. Terdapat 2 bagian yaitu (Doc 1 dan Doc 2). Bagian Doc 1 menggambarkan setiap dokumen telah dipecah menjadi kata (term) tunggal, kemudian dilakukan pengurutan berdasarkan abjad (a-z). Bagian Doc 2 menggambarkan kemunculan setiap kata (term) dan menuliskannya kembali jumlah kemunculan kata (term) dengan menunjuk posting lists.


(42)

15

Gambar 2.2 Proses Pengindeksan

2.1.2.3 LinkedList

LinkedList adalah stuktur data yang berbentuk node dimana node lainnya menunju dengan menggunakan pointer. Ukuran LinkedList menjadi dinamis karena ukurannya bertambah mengikuti jumlah node yang dimasukkan ke dalam rantai node (Kruse, 1994).


(43)

16

2.1.2.4 ArrayList

Objek ArrayList adalah perkembangan dari larik (array) satu dimensi. Objek ArrayList mendukung untuk melakukan akses elemen secara acak, dimana setiap elemen dapat diakses dalam waktu yang konstan. Tidak seperti larik (array), objek ArrayList ukurannya dapat dikelola secara otomatis saat program sedang berjalan (Sommerville, 2009).

2.2 Peringkasan Teks Otomatis

Ringkasan adalah suatu teks yang dihasilkan dari satu atau lebih teks yang

berisi bagian informasi yang signifikan dalam teks asal, dan yang tidak lebih dari

setengah teks aslinya (Hovy, Mitkov, 2005). Ringkasan teks (text summarization)

adalah suatu proses penyulingan sebagian besar infromasi penting dari sumber

(beberapa sumber) untuk menghasilkan suatu ringkasan bagi pengguna (Mani,

House, Klein, 1999). Terdapat 2 teknik kriteria peringkasan teks yaitu

peringkasan teks berdasarkan ekstraksi dan abstraksi (Jezek, Steinberger, 2008).

Teknik ekstraksi adalah teknik penyusunan kalimat mengenai intisari dari

dokumen serta menggabungkan menjadi suatu ringkasan. Sedangkan teknik

abstraksi adalah teknik pengambilan intisari dari dokumen serta membuat kalimat


(44)

17

2.3 Metode Peringkasan Teks Otomatis

2.3.1 Term Frequency-Inverse Document Frequency (TF-IDF)

Banyak sekali metode yang digunakan untuk menghasilkan suatu

ringkasan. Metode yang sudah pernah dilakukan adalah dengan menggunakan

metode Maximum Marginal Relevance. Data uji coba diambil dari surat kabar

berbahasa Indonesia online berjumlah 30 berita. Hasil pengujian dibandingkan

dengan ringkasan manual yang menghasilkan rata-rata recall 60%, precision 77%

dan f-measure 66% (Mustaqhfitri, Abidin, Kusumawati, 2009).

Peringkasan teks otomatis dengan menggunakan metode TF-IDF pada

dokumen berbahasa Indonesia. Data yang diujikan berjumlah 50 dokumen teks

berbahasa Indonesia. Dari hasil pengujian sistem secara manual terdapat 31 hasil

peringkasan yang sesuai. Sehingga nilai akurasinya adalah 62% (Mulyana,

Ramadona, Herfina, 2012).

Berdasarkan (Orasan, Pekar, Hasler, 2004) metode TF-RIDF adalah salah

satu varian dari metode TF-IDF dalam peringkasan teks. Residual IDF, disebut

sebagai RIDF (Manning, Schutze, 1999) adalah fungsi yang menjelaskan ke

dalam estimasi IDF yaitu bagian dari skema TF-IDF, berikut rumus yang

digunakan :

RIDF (t) = IDF - log (1 - p (0;

λt

))

Gambar 2.3 Perhitungan RIDF


(45)

18 | D |

Dimana IDF adalah log | Dt |, dan p adalah Poisson distribusi dengan

parameter λt, jumlah rata-rata kata (t) per dokumen dan 1 - p (0; λt) adalah

kemungkinan kata (t) muncul dalam dokumen. Pada percobaan evaluasi, data

yang digunakan dari corpus berjumlah 147 teks Newsware (Rose, 2002). Evaluasi

dari 15 mahasiswa dengan menerima satu ringkasan dari setiap teks dan diminta

untuk menjawab pertanyaan tentang teks tersebut menghasilkan akurasi sebesar

69%.

Dalam penelitian ini, metode yang digunakan untuk peringkasan teks otomatis adalah menggunakan metode TF-IDF (Mulyana, Ramadona, Herfina, 2012). Metode ini dilakukan dengan cara pemberian bobot hubungan suatu kata (t) terhadap dokumen (D). Untuk dokumen tunggal, setiap kalimat dianggap sebagai dokumen. Metode ini menggunakan 2 konsep perhitungan bobot yaitu term frequency (TF) dan inverse document frequency (IDF). Term frequency (TF) adalah jumlah frekuensi kemunculan kata (t) pada kalimat (D). Inverse document frequency (IDF) dihitung menggunakan document frequency (df). Document frequency adalah jumlah kalimat (D) yang mengandung kata (t).

Pada metode ini pembobotan kata dalam sebuah dokumen dilakukan dengan mengalikan nilai TF dan IDF. Bobot suatu istilah semakin besar jika istilah tersebut sering muncul dalam suatu dokumen dan semakin kecil jika istilah tersebut muncul dalam banyak dokumen (Grossman, 1998). Skema normalisasi pembobotan TF-IDF dihitung menggunakan rumus 1 sebagai berikut (Savoy, 1993) :


(46)

19

W

ik

= ntf

ik

* nidf

k (1)

Gambar 2.4 Perhitungan Wik

Dimana aturan ntfik dan nidfk terdapat pada rumus 2 dan rumus 3 berikut :

tf

ik

ntf

ik

=

(2)

Max

j

tf

ij

Gambar 2.5 Perhitungsn ntfik

n

log

df

k

nidf

k

=

(3)

log (

n

)

Gambar 2.6 Perhitungsn nidfk Keterangan :

Wik = bobot istilah k pada dokumen i.

tfik = frekuensi dari istilah k pada dokumen i.

n = jumlah dokumen dalam koleksi dokumen. dfk = jumlah dokumen yang mengandung istilah k.


(47)

20

2.3.2 Langkah Pengerjaan

Langkah-langkah pengerjaan peringkasan teks otomatis dengan menggunakan metode TF-IDF yang dilakukan dalam penelitian ini adalah sebagai berikut :

1. Menghitung jumlah kalimat (D) pada dokumen berbahasa Jawa. 2. Proses penghapusan kata umum (stopword) untuk mengurangi jumlah

kemunculan kata yang tidak memiliki makna berarti.

3. Proses pengembalian sebuah kata (stemming) yang terdapat dalam suatu kalimat (D) ke dalam bentuk kata (t) dasar.

4. Menghitung term frequency (TF) yaitu jumlah frekuensi kemunculan kata (t) pada kalimat (D).

5. Menghitung document frequency (df) yaitu jumlah frekuensi kalimat (D) yang mengandung kata (t).

6. Menghitung inverse document frequency (IDF) dengan cara log dari jumlah total kalimat (D) dalam dokumen berbahasa Jawa dibagi document frequency (df).

7. Menghitung (W) bobot setiap kata (t) dalam kalimat (D) dengan cara mengalikan term frequency (TF) dengan inverse document frequency (IDF).

8. Menghitung bobot total kalimat (D) dengan cara menjumlahkan (W) bobot setiap kata (t) dalam kalimat (D).


(48)

21

9. Berdasarkan hasil perhitungan bobot total kalimat (D), akan diambil

40% (Hovy, Mitkov, 2005) dari jumlah bobot kalimat (D) yang

memiliki score paling tinggi .

10. Dari langkah-langkah tersebut maka menghasilkan kumpulan kalimat (D) yang berisi bagian penting dari dokumen berbahasa Jawa.

2.3.3 Contoh Pengerjaan

<Djaka Lodhang No 01 Tahun XXXIII 7 Juni 2003>

<Hal 4>

Ora Kena Mlebu Aceh

(Dening RS Rudatan)

Indonesia lagi ribet. Propinsi Aceh lagi panas. Perang TNI lumawan

kelompok mbalela separatis GAM. Sing dha gugur wis akeh, kejaba wong-wong

GAM, anggota TNI utawa Polri wis ana sing dadi tumbal kelangan nyawa.

Nalare, tumrape TNI lan pemerintah, mbrasta kaum pemberontakan kaya GAM

kuwi mau dudu barang sing gampang. Ragade bisa nyandhak milyaran rupiah lan

nyawa para prajurit dinggo totohan mung pamrih NKRI tetep wutuh. Pokoke

ribet, tur ya ora gampang.

Ing tengah kahanan ngono mau, akeh LSM (Lembaga Swadaya

Masarakat) sing bengok-bengok protes tekan luwar negeri. Alesane arep mbiyantu

masarakat Aceh sing lagi keterak perang, kok dielikke (dilarang) dening


(49)

22

Mula banjur nyuwara sing tundhone mung mojokke pemerintah Indonesia Lan

mojokke TNI.

Langkah 1. Menghitung jumlah kalimat (D) pada dokumen berbahasa Jawa.

Indonesia lagi ribet(D1). Propinsi Aceh lagi panas(D2). Perang TNI

lumawan kelompok mbalela separatis GAM(D3). Sing dha gugur wis akeh, kejaba

wong-wong GAM, anggota TNI utawa Polri wis ana sing dadi tumbal kelangan

nyawa(D4). Nalare, tumrape TNI lan pemerintah, mbrasta kaum pemberontakan

kaya GAM kuwi mau dudu barang sing gampang(D5). Ragade bisa nyandhak

milyaran rupiah lan nyawa para prajurit dinggo totohan mung pamrih NKRI tetep

wutuh(D6). Pokoke ribet, tur ya ora gampang(D7).

Ing tengah kahanan ngono mau, akeh LSM (Lembaga Swadaya

Masarakat) sing bengok-bengok protes tekan luwar negeri(D8). Alesane arep

mbiyantu masarakat Aceh sing lagi keterak perang, kok dielikke (dilarang) dening

pemerintah(D9). LSM mau, klebu LSM Indonesia lan LSM manca sing ora

seneng(D10). Mula banjur nyuwara sing tundhone mung mojokke pemerintah

Indonesia Lan mojokke TNI(D11).

Langkah 2. Proses penghapusan kata umum (stopword)

Proses :

indonesia lagi ribet. propinsi aceh lagi panas. perang tni lumawan

kelompok mbalela separatis gam. sing dha gugur wis akeh, kejaba wong-wong


(50)

23

tumrape tni lan pemerintah, mbrasta kaum pemberontakan kaya gam kuwi mau

dudu barang sing gampang. ragade bisa nyandhak milyaran rupiah lan nyawa

para prajurit dinggo totohan mung pamrih nkri tetep wutuh. pokoke ribet, tur ya

ora gampang.

ing tengah kahanan ngonomau, akeh lsm (lembaga swadaya masarakat)

sing bengok-bengok protes tekan luwar negeri. alesane arep mbiyantu masarakat

aceh sing lagi keterak perang, kok dielikke (dilarang) dening pemerintah. lsm

mau, klebu lsm indonesia lan lsm manca singora seneng. mula banjur nyuwara

sing tundhone mung mojokke pemerintah indonesia lan mojokke tni.

Hasil :

indonesia ribet. propinsi aceh panas. perang tni lumawan kelompok

mbalela separatis gam. dha gugur akeh, kejaba gam, anggota tni polri tumbal

kelangan nyawa. nalare, tumrape tni pemerintah, mbrasta kaum pemberontakan

gam kuwi barang gampang. ragade nyandhak milyaran rupiah nyawa prajurit

dinggo totohan pamrih nkri wutuh. pokoke ribet, tur gampang.

tengah, akeh lsm (lembaga swadaya masarakat) bengok-bengok protes

tekan luwar negeri. alesane arep mbiyantu masarakat aceh keterak perang,

dielikke (dilarang) dening pemerintah. lsm, klebu lsm indonesia lsm manca


(51)

24

Langkah 3. Proses pengembalian kata dasar (stemming) Proses :

indonesia ribet. propinsi aceh panas. perang tni lumawan kelompok

mbalela separatis gam. dha gugur akeh, kejaba gam, anggota tni polri tumbal

kelangan nyawa. nalare, tumrape tni pemerintah, mbrasta kaum

pemberontakan gam kuwi barang gampang. ragade nyandhak milyaran rupiah

nyawa prajurit dinggo totohan pamrih nkri wutuh. pokoke ribet, tur gampang.

tengah, akeh lsm (lembaga swadaya masarakat) bengok-bengok protes

tekan luwar negeri. alesane arep mbiyantu masarakat aceh keterak perang,

dielikke (dilarang) dening pemerintah. lsm, klebu lsm indonesia lsm manca

seneng. mula nyuwara tundhonemojokke pemerintah indonesia mojokke tni.

Hasil :

indonesia ribet. propinsi aceh panas. perang tni lumawan kelompok

mbalela separatis gam. dha gugur akeh, jaba gam, anggota tni polri tumbal

langan nyawa. nalar, tumrap tni pemerintah, brasta kaum pemberontakan gam

kuwi barang gampang. ragad nyandhak milyar rupiah nyawa prajurit dinggo

totoh pamrih nkri wutuh. pokok ribet, tur gampang.

tengah, akeh lsm (lembaga swadaya masarakat) bengok protes tekan luwar

negeri. alesan arep biyantu masarakat aceh terak perang, dielikke (larang)

dening pemerintah. lsm, klebu lsm indonesia lsm manca seneng. mula nyuwara


(52)

25

Langkah 4. Menghitung term frequency (TF) yaitu jumlah frekuensi kemunculan kata (t) pada kalimat (D).

Langkah 5. Menghitung document frequency (df) yaitu jumlah frekuensi kalimat (D) yang mengandung kata (t).

Tabel 2.5 Tabel Perhitungan TFdan df

Kata (t) D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 df

indonesia 1 1 1 3

ribet 1 1 2

propinsi 1 1

aceh 1 1 2

panas 1 1

perang 1 1 2

tni 1 1 1 1 4

lumawan 1 1

kelompok 1 1

mbalela 1 1

separatis 1 1

gam 1 1 1 3

dha 1 1

gugur 1 1

akeh 1 1 2

jaba 1 1

anggota 1 1

polri 1 1

tumbal 1 1

langan 1 1


(53)

26

Kata (t) D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 df

nalar 1 1

tumrap 1 1

pemerintah 1 1 1 3

brasta 1 1

kaum 1 1

pemberontakan 1 1

kuwi 1 1

barang 1 1

gampang 1 1 2

ragad 1 1

nyandhak 1 1

milyar 1 1

rupiah 1 1

prajurit 1 1

dinggo 1 1

totoh 1 1

pamrih 1 1

nkri 1 1

wutuh 1 1

pokok 1 1

tur 1 1

tengah 1 1

lsm 1 1 2

lembaga 1 1

swadaya 1 1

masarakat 1 1 2

bengok 1 1

protes 1 1


(54)

27

Kata (t) D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 df

luwar 1 1

negeri 1 1

alesan 1 1

arep 1 1

biyantu 1 1

terak 1 1

dielikke 1 1

larang 1 1

dening 1 1

klebu 1 1

manca 1 1

seneng 1 1

mula 1 1

nyuwara 1 1

tundho 1 1


(55)

28

Langkah 6. Menghitung inverse document frequency (IDF)dengan cara log dari jumlah total kalimat (D) dalam dokumen berbahasa Jawa dibagi document frequency (df).

Langkah 7. Menghitung (W) bobot setiap kata (t) dalam kalimat (D) dengan cara mengalikan term frequency (TF) dengan inverse document frequency (IDF).

Langkah 8. Menghitung bobot total kalimat (D) dengan cara menjumlahkan (W) bobot setiap kata (t) dalam kalimat (D).

Tabel 2.6 Tabel Perhitungan Bobot Kata (W)

Kata (t) D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 df IDF

TF * IDF

D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11

indonesia 1 1 1 3 0.564 0.564 0.564 0.564

ribet 1 1 2 0.740 0.740 0.740

propinsi 1 1 1.041 1.041

aceh 1 1 2 0.740 0.740 0.740

panas 1 1 1.041 1.041

perang 1 1 2 0.740 0.740 0.740

tni 1 1 1 1 4 0.439 0.439 0.439 0.439 0.439

lumawan 1 1 1.041 1.041

kelompok 1 1 1.041 1.041

mbalela 1 1 1.041 1.041


(56)

29 Kata (t) D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 df IDF

TF * IDF

D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11

gam 1 1 1 3 0.564 0.564 0.564 0.564 dha 1 1 1.041 1.041

gugur 1 1 1.041 1.041

akeh 1 1 2 0.740 0.740 0.740

jaba 1 1 1.041 1.041

anggota 1 1 1.041 1.041

polri 1 1 1.041 1.041

tumbal 1 1 1.041 1.041

langan 1 1 1.041 1.041

nyawa 1 1 2 0.740 0.740 0.740

nalar 1 1 1.041 1.041

tumrap 1 1 1.041 1.041

pemerintah 1 1 1 3 0.564 0.564 0.564 0.564

brasta 1 1 1.041 1.041

kaum 1 1 1.041 1.041

pemberontakan 1 1 1.041 1.041

kuwi 1 1 1.041 1.041

barang 1 1 1.041 1.041

gampang 1 1 2 0.740 0.740 0.740

ragad 1 1 1.041 1.041

nyandhak 1 1 1.041 1.041


(57)

30 Kata (t) D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 df IDF

TF * IDF

D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11

prajurit 1 1 1.041 1.041

dinggo 1 1 1.041 1.041

totoh 1 1 1.041 1.041

pamrih 1 1 1.041 1.041

nkri 1 1 1.041 1.041

wutuh 1 1 1.041 1.041

pokok 1 1 1.041 1.041

tur 1 1 1.041 1.041

tengah 1 1 1.041 1.041

lsm 1 1 2 0.740 0.740 0.740

lembaga 1 1 1.041 1.041

swadaya 1 1 1.041 1.041

masarakat 1 1 2 0.740 0.740 0.740

bengok 1 1 1.041 1.041

protes 1 1 1.041 1.041

tekan 1 1 1.041 1.041

luwar 1 1 1.041 1.041

negeri 1 1 1.041 1.041

alesan 1 1 1.041 1.041

arep 1 1 1.041 1.041

biyantu 1 1 1.041 1.041


(58)

31 Kata (t) D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 df IDF

TF*IDF

D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11

dielikke 1 1 1.041 1.041

larang 1 1 1.041 1.041

dening 1 1 1.041 1.041

klebu 1 1 1.041 1.041

manca 1 1 1.041 1.041

seneng 1 1 1.041 1.041

mula 1 1 1.041 1.041

nyuwara 1 1 1.041 1.041

tundho 1 1 1.041 1.041

mojok 1 1 1.041 1.041

JUM LAH 1.305 2.823 5.909 9.774 9.598 11.154 3.563 10.552 10.075 4.428 5.733


(59)

32

Langkah 9. Berdasarkan hasil perhitungan bobot total kalimat (D), akan diambil

40% (Hovy, Mitkov, 2005) dari jumlah bobot kalimat (D) yang

memiliki score paling tinggi.

Langkah 10. Dari langkah-langkah tersebut maka menghasilkan kumpulan kalimat (D) yang berisi bagian penting dari dokumen berbahasa Jawa.

Hasil :

- Sing dha gugur wis akeh, kejaba wong-wong GAM, anggota TNI utawa Polri

wis ana sing dadi tumbal kelangan nyawa.

- Ragade bisa nyandhak milyaran rupiah lan nyawa para prajurit dinggo totohan

mung pamrih NKRI tetep wutuh.

- Ing tengah kahanan ngono mau, akeh LSM (Lembaga Swadaya Masarakat) sing

bengok-bengok protes tekan luwar negeri.

- Alesane arep mbiyantu masarakat Aceh sing lagi keterak perang, kok dielikke

(dilarang) dening pemerintah.


(60)

33

BAB III

ANALISIS DAN PERANCANGAN SISTEM

3.1 Gambaran Sistem Penelitian

Pada penelitian ini akan dibangun sistem peringkasan teks otomatis pada dokumen berbahasa Jawa. Sistem ini bertujuan untuk menghasilkan sebuah ringkasan yang berisi bagian penting dari keseluruhan dokumen berbahasa Jawa. Ringkasan tersebut akan membantu pembaca dalam memahami isi dari dokumen tanpa harus membaca keseluruhan dokumen berbahasa Jawa.

Untuk arsitektur sistem ini ditunjukan pada Gambar 3.1. Pada sistem ini terdapat 2 aktor yaitu admin dan pengguna. Admin bertujuan untuk memasukkan data dokumen. Data dokumen tersebut akan ditampilkan pada halaman utama sebagai data koleksi dokumen. Sedangkan pengguna dapat melakukan peringkasan teks otomatis dengan cara memasukkan data dokumen berbahasa Jawa. Data dokumen tersebut akan diproses oleh sistem menjadi sebuah ringkasan. Untuk menjadi sebuah ringkasan, sistem akan memprosesnya dengan melakukan preprocessing yaitu pemisahan kata (tokenizing), penghapusan kata umum (stopword), pengembalian kata dasar (stemming). Kemudian sistem akan melakukan perhitungan TF-IDF untuk mendapatkan jumlah bobot kalimat. Bobot kalimat dengan score tinggi merupakan kalimat penting dalam sebuah dokumen berbahasa Jawa. Berdasarkan perhitungan TF-IDF, kalimat-kalimat tersebut yang akan dijadikan sebagai sebuah ringkasan.


(61)

34

Ringkasan adalah suatu teks yang dihasilkan dari satu atau lebih teks yang

berisi bagian informasi yang signifikan dalam teks asal, dan yang tidak lebih dari

setengah teks aslinya (Hovy, Mitkov, 2005). Maka pada penelitian ini

kalimat-kalimat yang diambil untuk dijadikan sebuah ringkasan adalah sebesar 40% dari

total kalimat yang ada dalam sebuah dokumen. Misalkan ada 50 kalimat dalam

sebuah dokumen, maka dalam penelitian ini akan diambil sekitar 20 kalimat yang

memiliki score tinggi. Karena jika kalimat yang diambil dalam sebuah dokumen

terlalu sedikit maka hasil ringkasan menjadi tidak sesuai dengan isi dokumen, hal

ini yang menyebabkan ringkasan tidak relevan.

Pengguna Sistem Admin

Pengguna Admin

Gambar 3.1 Gambaran Sistem Keseluruhan

Koleksi Data Dokumen Prepocessing :

Tokenizing. Stopword, Stemming

Perhitungan TF-IDF Hasil

Ringkasan Input Data

Dokumen

Input Data Dokumen


(62)

35

3.2 Analisis Kebutuhan

Dalam sistem ini terdapat 2 aktor yaitu admin dan pengguna. Tabel berikut menjelaskan kebutuhan setiap aktor :

Tabel 3.1 Tabel Analisis Kebutuhan

Pengguna Sistem Kebutuhan

Admin 1. Dapat memasukkan data dokumen ke

dalam sistem.

Pengguna 1. Dapat melakukan peringkasan teks

otomatis dengan dokumen berbahasa Jawa sesuai kebutuhan.

2. Dapat melihat hasil ringkasan dari sistem.

3. Dapat melihat data koleksi dokumen dan ringkasan dari sistem yang telah dimasukkan Admin.


(63)

36

<<include>>

<<include>>

<<include>>

3.3 Perancangan Sistem 3.3.1 Diagram Use Case

Diagram use case menjelaskan alur penggunaan sistem peringkasan teks otomatis dokumen berbahasa Jawa. Dalam sistem ini terdapat 2 aktor yaitu admin dan pengguna. Admin bertujuan untuk memasukkan data dokumen. Data dokumen tersebut akan ditampilkan pada halaman utama sebagai data koleksi dokumen. Sedangkan pengguna dapat melihat data koleksi dokumen serta dapat melakukan peringkasan teks otomatis dengan cara memasukkan data dokumen berbahasa Jawa yang ingin diringkas.

Pengguna

Admin

Gambar 3.2. Diagram Use case

Subsist em Peringkasan Teks Otom at is

Memasukkan data dokumen

Melihat hasil ringkasan

Melihat data koleksi dokumen

Subsist em Oper asi Teks

Memasukkan data koleksi dokumen

Login


(64)

37

3.3.1.1 Skenario Use Case 3.3.1.1.1 Skenario Login

Tabel 3.2 SkenarioLogin

Nama use case Login

Aktor Admin

Diskripsi Admin memasukkan username dan password untuk masuk dan

menggunakan sistem.

Prakondisi Admin mempunyai username dan password.

Langkah kerja Aksi aktor Reaksi sistem

1.Admin memasukkan

username dan password.

2.Admin menekan tombol

"Login".

3. Sistem memverifikasi

kebenaran username dan

password.

4. Jika benar maka sistem

menampilkan halaman

Admin.

Alternatif 4. Jika salah sistem

menampilkan halaman utama


(65)

38

3.3.1.1.2. Skenario Memasukkan Data Koleksi Dokumen

Tabel 3.3 Skenario Memasukkan Data Koleksi Dokumen

Nama use case Memasukkan Data Koleksi Dokumen

Aktor Admin

Diskripsi Admin memasukkan data dokumen ke dalam sistem, data dokumen

tersebut akan ditampilkan pada halaman utama sebagai data koleksi

dokumen.

Prakondisi Admin sudah melakukan login dan masuk ke dalam sistem.

Langkah kerja Aksi aktor Reaksi sistem

1. Sistem menampilkan form

untuk memasukkan data

dokumen.

2. Admin memasukkkan data

dokumen ke dalam sistem.

3. Admin menekan tombol

"Simpan".

4. Sistem menyimpan data

dokumen ke dalam sistem


(66)

39

3.3.1.1.3. Skenario Logout

Tabel 3.4 Skenario Logout

3.3.1.1.4. Skenario Memasukkan Data Dokumen

Tabel 3.5 Skenario Memasukkan Data Dokumen

Nama use case Memasukkan Data Dokumen

Aktor Pengguna

Diskripsi Pengguna memasukkan data dokumen berbahasa Jawa yang ingin

diringkas.

Prakondisi Pengguna memiliki data dokumen yang ingin diringkas

Langkah kerja Aksi aktor Reaksi sistem

1. Aktor menekan tombol

"Summarization".

Nama use case Logout

Aktor Admin

Diskripsi Admin menekan tombol logout.

Prakondisi Admin sudah melakukan login dan masuk ke dalam sistem.

Langkah kerja Aksi aktor Reaksi sistem

1. Admin menekan tombol

logout.

2. Akan keluar dari sistem dan


(67)

40

2. Sistem menampilkan form

untuk memasukkan data

dokumen.

3. Aktor memasukkan data

dokumen yang ingin

diringkas pada sistem.

4. Aktor menekan tombol "Ok".

5. Sistem memproses dokumen

menjadi ringkasan serta

menampilkan hasil ringkasan.

3.3.1.1.5. Skenario Melihat Hasil Ringkasan

Tabel 3.6 Skenario Melihat Hasil Ringkasan

Nama use case Melihat Hasil Ringkasan

Aktor Pengguna

Diskripsi Penggina melihat hasil ringkasan dari data dokumen yang

dimasukkan ke dalam sistem.

Prakondisi Pengguna sudah memasukkan data dokumen untuk diringkas.

Langkah kerja Aksi aktor Reaksi sistem

1. Sistem menampilkan hasil


(68)

41

3.3.1.1.6. Skenario Melihat Data Koleksi Dokumen

Tabel 3.7 Skenario Melihat Data Koleksi Dokumen

Nama use case Melihat Data Koleksi Dokumen

Aktor Pengguna

Diskripsi Pengguna melihat data koleksi dokumen yang ada pada sistem,

terdapat pada halaman utama.

Prakondisi Pengguna berada pada halaman utama.

Langkah kerja Aksi aktor Reaksi sistem

1. Aktor berada pada halaman

utama.

2. Aktor menekan tombol

Continue Reading”.

3. Sistem menampilkan data


(69)

42

valid invalid

Benar Salah

3.3.2 Diagram Aktifitas 3.3.2.1. Diagram Aktifitas Login

Admin dapat melakukan login dengan cara memasukkan username dan password yang sudah ditentukan. Namun jika username dan password tidak sesuai maka sistem akan kembali ke halaman utama. Berikut adalah Diagram Aktifitas Login, Gambar 3.3.

Aktor Sistem

Gambar 3.3 Diagram Aktifitas Login

M asukkan username

dan passw ord

Verifikasi usernam e

dan passw ord

M asuk ke sistem M enekan t om bol


(70)

43

ya t idak

TIDAK

3.3.2.2. Diagram Aktifitas Memasukkan Data Koleksi Dokumen

Setelah melakukan login, admin dapat memasukkan data dokumen sesuai

dengan form inputan pada sistem. Data dokumen tersebut akan ditampilkan dalam

halaman utama sebagai data koleksi dokumen. Berikut adalah Diagram Akrifitas

Memasukkan Data Koleksi Dokumen, Gambar 3.4.

Aktor Sistem

Gambar 3.4Diagram Aktifitas Memasukkan Data Koleksi Dokumen

Login Sist em m enam pilkan form

input an dat a koleksi dokum en

Sist em m enyim pan dalam dat a koleksi dokumen M em asukkan dat a

koleksi dokum en

M enekan t ombol " Sim pan"


(71)

44

3.3.2.3. Diagram Aktifitas Logout

Admin dapat menghentikan tugasnya memasukkan data koleksi dokumen

dengan cara menekan tombol "Logout". Berikut adalah Diagram Aktifitas Logout,

Gambar 3.5.

Aktor Sistem

Gambar 3.5 Diagram Aktifitas Logout

Akan keluar dar i halam an adm in M enekan t ombol

“ Logout ”

M enam pilkan halam an ut ama


(72)

45

ya t idak

YA TIDAK

3.3.2.4. Diagram Aktifitas Memasukkan Data Dokumen

Pengguna dapat memasukkan data dokumen berbahasa Jawa untuk

dijadikan sebuah ringkasan. Kemudian sistem akan menampilkan hasil

ringkasannya. Berikut adalah Diagram Aktifitas Memasukkan Data Dokumen,

Gambar 3.6.

Aktor Sistem

Gambar 3.6 Diagram Aktifitas Memasukkan Data Dokumen

M enekan t ombol "Summarizat ion"

Sist em m enam pilkan form input an dat a dokum en

Sist em m emproses m enj adi r ingkasan M em asukkan dat a

dokum en yang diringkas

M enekan t ombol " Ok"

Sist em m enam pilkan hasil ringkasan


(73)

46

3.3.2.5. Diagram Aktifitas Melihat Hasil Ringkasan

Setelah pengguna memasukkan data dokumen berbahasa Jawa, maka

sistem akan menampilkan hasil ringkasan dari dokumen tersebut. Berikut adalah

Diagram Aktifitas Melihat Hasil Ringkasan. Gambar 3.7.

Aktor Sistem

Gamabr 3.7 Diagram Aktifitas Melihat Hasil Ringkasan

M em asukkan dat a dokum en yang

diringkas

Sist em m enam pilkan hasil


(74)

47

3.3.2.6. Diagram Aktifitas Melihat Data Koleksi Dokumen

Selain dapat memasukkan dokumen berbahasa Jawa untuk diringkas,

Pengguna juga dapat melihat data koleksi dokumen yang terdapat pada halaman

utama. Berikut adalah Diagram Aktifitas Melihat Data Koleksi Dokumen,

Gambar 3.8.

Aktor Sistem

Gambar 3.8 Diagram Aktifitas Melihat Data Koleksi Dokumen

M enekan t ombol “ Continue Reading” pada halam an ut am a

Sist em m enam pilkan dat a koleksi dokumen


(75)

48

username &

password getParameter

(username, password)

Invalid

Request page cekValidasi (username, password) 3.3.3 Diagram Sekuensial

Diagram Sekuensial adalah suatu diagram yang menjelaskan bagaimana suatu operasi atau sistem dijalankan secara bertahap.

3.3.3.1. Diagram Sekuensial Login

Username dan password yang sudah dimasukkan akan divalidasi oleh

sistem. Jika sesuai maka admin akan masuk pada halaman inputDataMajalah.jsp,

sedangkan jika salah maka akan kembali pada halaman utama (index.jsp) serta

menampilkan pesan invalid. Berikut adalah proses Login, Gambar 3.9.

<Kontroler> <Model> <View> index.jsp ProcessLoginServlet.java LoginModel.java inputDataMajalah.jsp

Admin


(76)

49

tanggal, sumber, judul, data

majalah getParameter

(tanggal, sumber, judul, data majalah)

)

Request page

input (tanggal, sumber, judul, data majalah)

3.3.3.2. Diagram Sekuensial Memasukkan Data Koleksi Dokumen

Setelah Login, admin dapat memasukkan data koleksi dokumen yang

berisi tanggal, sumber majalah, judul majalah dan data majalah. Data dokumen

akan disimpan oleh sistem dan ditampilkan pada halaman utama (index.jsp)

sebagai data koleksi dokumen. Berikut adalah proses Memasukkan Data Koleksi

Dokumen, Gambar 3.10.

<View> <Kontroler> <Model> inputDataMajalah.jsp ProcessInputMajalah.java MajalahModel.java

Admin


(77)

50

Request Logout

Request page 3.3.3.3. Diagram Sekuensial Logout

Admin dapat menghentikan tugasnya memasukkan data koleksi dokumen

pada halaman inputDataMajalah.jsp dengan cara menekan tombol "Logout".

Kemudian admin akan kembali pada halaman utama (index.jsp). Berikut adalah

proses Logout, Gambar 3.11.

<View>

inputDataMajalah.jsp index.jsp

Admin


(78)

51

data dokumen

getParameter (data dokumen)

sendRedirect

isStopword (tempKata[j])

setWord (tempKata[j]) summarization

(data dokumen)

Hasil Proprocessing

Hasil perhitungan tf-idf

Request page 3.3.3.4. Diagram Sekuensial Memasukkan Data Dokumen

Pengguna dapat memasukkan data dokumen berbahasa Jawa pada halaman inputDataDokumen.jsp untuk dijadikan sebuah

ringkasan. Kemudian sistem akan menampilkan hasil ringkasannya pada halaman viewDataDokumen.jsp. Berikut adalah proses

Memasukkan Data Dokumen, Gambar 3.12.

<View> <Kontroler> <Model> <Model> <Model> <View> inputDataDokumen.jsp ProcessSummarization.java TF-IDFl.java Stopword Stemming viewDataDokumen.java

Pengguna


(79)

52

data dokumen

Request page

3.3.3.5. Diagram Sekuensial Melihat Hasil Ringkasan

Setelah pengguna memasukkan data dokumen berbahasa Jawa pada

halaman inputDataDokumen.jsp, maka sistem akan menampilkan hasil ringkasan

dari dokumen tersebut pada halaman viewDataDokumen.jsp. Berikut adalah

proses Melihat Hasil Ringkasan. Gambar 3.13.

<View> <View> inputDataDokumen.jsp viewDataDokumen.jsp

Pengguna


(80)

53

Request data koleksi dokumen

Request page

3.3.3.6. Diagram Sekuensial Melihat Data Koleksi Dokumen

Selain dapat memasukkan dokumen berbahasa Jawa untuk diringkas,

pengguna juga dapat melihat data koleksi dokumen yang terdapat pada halaman

utama (index.jsp). Berikut adalah proses Melihat Data Koleksi Dokumen, Gambar

3.14.

<View> <View> index.jsp viewDataMajalah.jsp

Pengguna


(81)

54

3.3.4 Diagram MVC (Model View Control)

Diagram MVC adalah diagram yang menjelaskan bagaimana suatu operasi dijalankan dengan melihat kelas MVC (Model View Control).

3.3.4.1. Struktur Kelas MVC (Model View Control)

Tabel 3.8 Struktur Kelas Model View Control

Model View Control

LoginModel.java MajalahModel.java StemWord.java StopWord.java TF-IDF.java

index.jsp

inputDataDokumen.jsp inputDataMajalah.jsp viewDataDokumen.jsp viewDataMajalah.jsp viewRingkasanMajalah.jsp

ProcessInputMajalah.java ProcessLoginServlet.java ProcessSummarization.java

3.3.4.1.1. Diagram Analisis Kelas MVC (Model View Control)

index.jsp ProcessLoginServlet.java LoginModel.java

Admin

inputDataMajalah.jsp ProcessInputMajalah.java

MajalahModel.java


(82)

55

index.jsp viewDataMajalah.jsp viewRingkasanMajalah.jsp

Pengguna inputDataDokumen.jsp ProcessSummarization.java TF-IDF.java StopWord.java

viewDataDokumen.jsp StemWord.java


(83)

56

Tabel 3.9 Diagram Kelas

MajalahModel.java LoginModel.java

- tanggalMajalah : String - sumberMajalah : String - judulMajalah : String - dataMajalah : String

- username : String - password : String

<<constructor>> LoginModel() + setUsername (String) : void + getUsername : String + setPassword (String) : void + getPassword : String + getAdmin()

<<constructor>> MajalahModel() + setTanggalMajalah (String) : void + getTanggalMajalah : String + setSumberMajalah (String) : void + getSumberMajalah : String + setJudulMajalah (String) : void + getJudulMajalah : String + setDataMajalah (String) : void + getDataMajalah : String + inputMajalah()

+ readMajalah() + viewMajalah()

TF_IDF.java StopWord.java

<<constructor>>TF_IDF() + summarization()

- stopword : List<String> <<constructor>>StopWord() + isStopword () : boolean

StemWord.java

- word : String

- directory : List<String> <<constructor>>StemWord() + setWord (String) : void + getWord : String + delSuffix () : String + delPrefix () : String + delDuplikasi () : String


(1)

100

- "Angger guru kreatif, ora wedi kesel, senajan ibarate gaji ora cukup, babagan prestasi ora angel olehe ngranggeh," kandhane Moh.

- Durori, wis wektune guru-guru saiki padha nggolek rekadaya, nyipta modhel anyar piye bisane muride pinter, seneng ana sekolahan, lan tamatane mumpuni trep karo mutu lulusane.

- Pohon ilmu gawe saka pang wit sing dicet nuli diwenehi canthelan.

- Gunane angger bocah sing garapane entuk biji paling dhuwur kertase dipasang ing pang pucuk.

- Bocah sing ora bisa njawab soal supaya nggolek jawaban sing bener ing kothak ajaib sawise garapane dibiji.

- Nanging guru kudu tansah nyiapake menu garapan sing bisa gawe swasana sinaune bocah tansah grengseng, ora mboseni.

- Durori dihadhiyahi bebungah Rp 14 juta saka Dinas Pendhidhikan.

- Arahe saka Yogyakarta nuju Purwokerto, mudhun Kantor Dinas Pendhidhikan Kec.


(2)

101

Berdasarkan ringkasan yang dihasilkan sistem, ada beberapa kalimat yang tidak sesuai dengan isi dokumen. Misalnya dalam kalimat pertama sedang membahas 1 topik kemudian pada kalimat kedua membahas topik lain, jadi kalimat-kalimat tersebut tidak ada kesesuaian. Kemudian untuk ringkasan yang bercetak tebal, ada beberapa kata yang berisi singkatan. Misalnya kata “Kecamatan” disingkat “Kec” dan kata “Mohamad” disingkat “Moh”. Karena perhitungan bobot kalimat dalam penelitian ini menggunakan karakter titik “.”

untuk memisah antar kalimat. Singkatan-singkatan kata tersebut juga menyebabkan ringkasan menjadi tidak relevan.


(3)

102 BAB VI

KESIMPULAN DAN SARAN

6.1 Kesimpulan

Berdasarkan penelitian yang telah dilakukan dapat disimpulkan bahwa :

1. Penerapan metode TF-IDF pada peringkasan teks otomatis dengan

dokumen berbahasa Jawa terdapat nilai rata-rata akurasi yang

dihasilkan oleh sistem sebesar 64%.

2. Karena perhitungan bobot kalimat dalam penelitian ini menggunakan

karakter titik “.” untuk memisah antar kalimat. Maka penulisan kata

dalam dokumen yang berisi singkatan-singkatan, seperti alamat dan

nama gelar sebaiknya dituliskan lengkap. Hal ini menjadi penting

karena penulisan kata yang baik akan mempengaruhi relevan atau

tidaknya ringkasan yang dihasilkan oleh sistem.

6.2 Saran

Berdasarkan hasil pengujian yang sudah dilakukan dapat dilihat bahwa

sistem masih belum sempurna. Saran dari penulis untuk penelitian selanjutnya :

1. Sistem perlu penambahan daftar kata umum (stopword) berbahasa Jawa

yang lengkap.

2. Sistem mampu menangani dokumen yang berisi singkatan-singkatan


(4)

103

DAFTAR PUSTAKA

Grossman D, Ophir F. Information Retrieval : Algorithm and Heuristics. Kuwer

Academic Publisher. (1998).

Hovy, E. H. 2005. Automated Text Summarization. In.R. Mitkov (ed), The Oxford

Handbook of Computational Linguistics, chapter 32, page 583-598. Oxford

University Press.

Jazek K, Steinberger J. 2008. Automatic text summarization (The state of the art

2007 and new challenges). Znalosti 2008, page 1-12.

Kruse, Robert L, Data Stucture and Program Design Third Edition. Prentice Hall

International, Inc, London (1994).

Mani, I., House, D., Klein, G., et al. 1999. The TIPSTER SUMMAC Text

Summarization Evaluation. Proceedings of EACL.

Manning, Christopher D., Hinrich Schutze, 1999. Foundations of statistical

natural language processing. The MIT Press.

Manning, Christopher, D., Raghavan, Prabhakar., Schutze, Hinrich. (2009). An

Introduction to Information Retrieval. England : Cambridge University

Press.

Mulyana I, Ramadona S, Herfina. 2012. Penerapan Terms Frequency-Inverse

Document Frequency Pada Sistem Peringkasan Teks Otomatis Dokumen


(5)

104

Mustaqhfitri M, Abidin Z, Kusumawati R. 2009. Peringkasan Teks Otomatis

Berita Berbahasa Indonesia Menggunakan Metode Maximum Marginal

Relevance. Jurnal MATICS (Vol. 4 No. 4; 09-2011)

Orasan, C., Pekar, V. and Hasler, L. 2004. A comparison of summarisation

methods based on term specificity estimation. University of

WolverHampton.

Rose, T. G., M. Stevenson, and M. Whitehead. 2002. The Reuters corpus volume

1 – from yesterday’s news to tommorow’s language resources. In

Proceedings of LREC2004. Las Palmas de Gran Canaria, Spain.

Savoy J. “A Learning Scheme for Information Retrieval in Hypertext”.

Information Processing & Management. (1993)

Sommerville, Ian. Software Engineering, 9th Edition. Pearson Education. United

States of America. (2011).

Wijono, Sri Hartati, et al. 2011. Studi Pengaruh Stemming untuk Pemerolehan


(6)

105 LAMPIRAN