Peringkasan teks berita secara Otomatis menggunakan TF.IDF
PERINGKASAN TEKS BERITA SECARA OTOMATIS
MENGGUNAKAN TERM FREQUENCY INVERSE
DOCUMENT FREQUENCY (TF-IDF)
SKRIPSI
DANDUNG TRI SETIAWAN
071402054
PROGRAM STUDI TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2014
(2)
PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN
TERM FREQUENCY-INVERSE DOCUMENT FREQUENCY (TF-IDF)
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi
DANDUNG TRI SETIAWAN 071402054
PROGRAM STUDI TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATER UTARA
MEDAN 2014
(3)
ii
PERSETUJUAN
Judul : PERINGKASAN TEKS BERITA SECARA
OTOMATIS MENGGUNAKAN TF.IDF
Kategori : SKRIPSI
Nama : DANDUNG TRI SETIAWAN
Nomor Induk Mahasiswa : 071402054
Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI
Departemen : TEKNOLOGI INFORMASI
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI
INFORMASI UNIVERSITAS SUMATERA UTARA
Diluluskan di
Medan, Agustus 2014
Komisi Pembimbing :
Pembimbing 2 Pembimbing 1
M Anggia Muchtar, ST, M.MIT Prof. Dr. Opim Salim Sitompul, M.Sc NIP. 19800110 200801 1 010 NIP. 19610817 198701 1 001
Diketahui/Disetujui oleh
Program Studi S1 Teknologi Informasi Ketua,
M Anggia Muchtar, ST, M.MIT NIP. 19800110 200801 1 010
(4)
iii
PERNYATAAN
PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF)
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, Agustus 2014
Dandung Tri Setiawan 071402054
(5)
iv
UCAPAN TERIMA KASIH
Alhamdulillah, segala puji dan syukur penulis ucapkan kehadirat Allah SWT, serta shalawat dan salam kepada junjungan alam nabi Muhammad SAW, karena atas berkah, rahmat dan hidayah-Nya penulis mampu menyelesaikan skripsi ini.
Dalam penulisan skripsi ini penulis banyak mendapatkan bantuan serta dorongan dari pihak lain. Dalam kesempatan ini dengan segala kerendahan hati, penulis mengucapkan terima kasih sebesar-besarnya kepada:
1. Umi dan Papa selaku kedua orang tua penulis Fatimah dan M. Yahmin, karena berkat dukungannya baik secara moril maupun materil secara terus disetiap saat, sehingga penulis dapat menyelesaikan skripsi ini.
2. Pihak keluarga, kakak, abang, adik dan seluruh keluarga.
3. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc, Bapak M. Anggia Muchtar, ST, M.MIT selaku dosen pembimbing penulis yang telah bersedia meluangkan waktu untuk memberikan saran dalam menyelesaikan skripsi ini.
4. Ketua dan Sekretaris Program Studi S-1 Teknologi Informasi Bapak M. Anggia Muchtar, ST, M.MIT dan Bapak M. Fadhly Syahputra, M.Sc.
5. Dekan dan Pembantu Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara serta semua dosen dan pegawai di Program Studi S-1 Teknologi Informasi.
6. Ibu Dr. Erna Budhiarti Nababan, M.IT dan Bapak Dr. Syahril Effendi, S.Si, M.IT selaku dosen pembanding dan penguji yang telah banyak memberikan saran dan kritik dalam menyelesaikan skripsi ini.
7. Seluruh rekan-rekan kuliah sejawat yang tidak dapat disebutkan satu persatu.
Dalam penyusunan skripsi ini penulis menyadari bahwa masih banyak kekurangan, untuk itu penulis mengharapkan saran dan kritik yang bersifat membangun dari semua pihak demi kesempuranaan skripsi ini.
Akhir kata penulis mengharapkan semoga skripsi ini dapat bermanfaat dan membantu semua pihak yang memerlukannya.
(6)
v
ABSTRAK
Perkembangan teknologi internet berdampak bertambahnya jumlah situs berita dan menciptakan ledakan informasi. Hal tersebut menuntut semua informasi bisa diakses dengan cepat dan tidak harus membutuhkan banyak waktu dalam membaca sebuah berita. Teknologi peringkas teks otomatis menawarkan solusi untuk membantu pencarian isi berita berupa deskripsi singkat. Penelitian diawali dengan tahap text preprocessing, feature selection dan proses selanjutnya menghitung bobot tf-idf. Hasil dari penelitian ini menunjukkan bahwa metode tf-idf dapat digunakan untuk meringkas teks secara otomatis meskipun tidak sampai pada proses stemming. Sistem dengan metode tf-idf masih memiliki kelemahan yaitu ringkasan teks yang dihasilkan kurang mencerminkan isi berita dan secara tata bahasa masih belum baik.
Kata Kunci : ringkasan, ringkasan teks, peringkasan teks otomatis, tf-idf, berita.
(7)
vi
THE AUTOMATIC NEWS TEXT SUMMARIZATION BY USING TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF)
ABSTRACT
The development of internet technology affect the increasing of news web and create an information explosion. This make all information can be accessed fast and not need so much time in reading a news. The automaic summarizaton technology of text give solution in searching the content of news in short description. This study begins with the processing text step, feature selection and count the amount tf-idf. The result of this study show that tf-idf can be used to summarize text automatcally though it cannot reach stemming process. The system of tf.idf method still has some weaknesses that is the result of text does not interprete the content of text and there are also some of text grammar.
Keywords : summary, teks summarization, automatic text summarization, term frequency, inverse document frequency, tf-idf, news.
(8)
vii
DAFTAR ISI
Hal.
Persetujuan ii
Pernyataan iii
Ucapan Terima Kasih iv
Abstrak v
Abstract vi
Daftar Isi vii
Daftar Tabel ix
Daftar Gambar x
1 Bab 1 Pendahuluan 1
1.1. Latar Belakang 1
1.2. Rumusan Masalah 2
1.3. Tujuan Penelitian 2
1.4. Manfaat Penelitian 2
1.5. Batasan Masalah 3
1.6. Metodologi Penelitian 3
1.7. Sistematika Penulisan 4
2 Bab 2 Landasan Teori 6
2.1. Peringkasan Teks Otomatis 6
2.2. Berita 9
2.2.1. Nilai-Nilai Berita 9
2.2.2. Unsur-Unsur Berita 10
2.2.3. Anatomi Berita 10
2.3. Text Mining 12
2.4. Kata 13
2.5. Kalimat 14
2.6. Paragraf 14
(9)
viii
2.7. Term Frequency Inverse Document Frequency (TF-IDF) 15
2.8. Flowchart 17
2.9. Penelitian Terdahulu 18
3 Bab 3 Analisis dan Perancangan 21
3.1. Analisis Data 21
3.1.1. Data Berita 21
3.1.2. Data Stopword 23
3.1.3. Data Kata Dasar 23
3.2. Analisis Sistem 24
3.2.1. Text Preprocessing 24
3.2.2. Feature Selection 26
3.2.3. Contoh penggunaan algoritma (tf/idf) 28
3.3. Perancangan Sistem 31
3.3.1. Diagram konteks 31
3.3.2. DFD level 1 32
3.4. Perancangan Antarmuka Sistem 33
4 Bab 4 Implementasi dan Pengujian 35
4.1. Implementasi Sistem 35
4.1.1. Spesifikasi Perangkat Keras dan Perangkat Lunak 35
4.1.2. Tampilan Awal 36
4.1.3. Tampilan Proses Sistem 36
4.1.4. Tampilan Hasil Sistem 37
4.2. Pengujian Sistem 38
5 Bab 5 Kesimpulan dan Saran 40
5.1. Kesimpulan 40
5.2. Saran 40
(10)
ix
DAFTAR TABEL
Hal.
Tabel 2.1 Fungsi simbol-simbol flowchart 18
Tabel 2.2 Penelitian terdahulu 20
Tabel 3.1 Tabel Berita 22
Tabel 3.2 Tabel Stopword 23
Tabel 3.3 Tabel kata dasar 23
Tabel 3.4 Hasil dari proses text preprocessing 26
Tabel 3.5 Hasil dari proses text preprocessing yang dijadikan input. 27
Tabel 3.6 Kumpulan stopword 27
Tabel 3.7 Hasil dari proses filtering 28
Tabel 3.8 Menghitung tf 29
Tabel 3.9 Menghitung df 29
Tabel 3.10 Menghitung idf (1) 30
Tabel 3.11 Menghitung idf (2) 30
Tabel 3.12 Menghitung tf.id 31
Tabel 4.1 Rancangan Pengujian Tampilan Sistem 38
Tabel 4.2 Hasil Pengujian Tampilan Sistem 39
(11)
x
DAFTAR GAMBAR
Hal.
Gambar 2.1 Mesin Peringkas Teks 8
Gambar 2.2 Modul Peringkas Teks 9
Gambar 2.3 Anatomi Berita 11
Gambar 2.4 Tahapan-tahapan peringkasan teks otomatis metode TF-IDF 17
Gambar 3.1 Skema proses pengambilan berita 21
Gambar 3.2 Flowchart Text Preprocessing 25
Gambar 3.3 Contoh kalimat yang akan diinput 25
Gambar 3.4 Contoh kalimat setelah ToLowerCase 25
Gambar 3.5 Flowchart proses filtering 27
Gambar 3.6 Konteks Diagram Peringkas Teks Otomatis 32
Gambar 3.7 DFD peringkas teks otomatis 32
Gambar 3.8 Tampilan Antarmuka Sistem 33
Gambar 4.1 Tampilan Awal Sistem 36
Gambar 4.2 Tampilan Proses Pemilihan 37
Gambar 4.3 Tampilan Hasil Proses Pemilihan 37
(12)
v
ABSTRAK
Perkembangan teknologi internet berdampak bertambahnya jumlah situs berita dan menciptakan ledakan informasi. Hal tersebut menuntut semua informasi bisa diakses dengan cepat dan tidak harus membutuhkan banyak waktu dalam membaca sebuah berita. Teknologi peringkas teks otomatis menawarkan solusi untuk membantu pencarian isi berita berupa deskripsi singkat. Penelitian diawali dengan tahap text preprocessing, feature selection dan proses selanjutnya menghitung bobot tf-idf. Hasil dari penelitian ini menunjukkan bahwa metode tf-idf dapat digunakan untuk meringkas teks secara otomatis meskipun tidak sampai pada proses stemming. Sistem dengan metode tf-idf masih memiliki kelemahan yaitu ringkasan teks yang dihasilkan kurang mencerminkan isi berita dan secara tata bahasa masih belum baik.
Kata Kunci : ringkasan, ringkasan teks, peringkasan teks otomatis, tf-idf, berita.
(13)
vi
THE AUTOMATIC NEWS TEXT SUMMARIZATION BY USING TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF)
ABSTRACT
The development of internet technology affect the increasing of news web and create an information explosion. This make all information can be accessed fast and not need so much time in reading a news. The automaic summarizaton technology of text give solution in searching the content of news in short description. This study begins with the processing text step, feature selection and count the amount tf-idf. The result of this study show that tf-idf can be used to summarize text automatcally though it cannot reach stemming process. The system of tf.idf method still has some weaknesses that is the result of text does not interprete the content of text and there are also some of text grammar.
Keywords : summary, teks summarization, automatic text summarization, term frequency, inverse document frequency, tf-idf, news.
(14)
1BAB 1 PENDAHULUAN
1.1.Latar Belakang
Seiring perkembangan teknologi informasi mengakibatkan teknologi internet semakin pesat yang berdampak pada penggunaan internet. Tujuannya adalah untuk mendapatkan informasi dengan cepat dan akurat. Seiring bertambahnya informasi, maka berbanding lurus dengan dokumen yang ada di dunia internet, salah satu contohnya adalah dokumen berita.
Dokumen berita merupakan kumpulan informasi tentang banyak peristiwa penting terjadi dan terbaru secara berkala. Memahami isi dokomen berita melalui ringkasan teks memerlukan waktu yang lebih singkat dibandingkan membaca seluruh isi dokumen, sehingga ringkasan teks menjadi sangat penting. Dengan adanya ringkasan, diharapkan pembaca dapat dengan cepat dan mudah memahami makna sebuah teks tanpa harus membaca keseluruhan teks. Selain dapat menghemat waktu, pembaca juga dapat menghindari pembacaan teks yang tidak relevan dengan informasi yang diharapkan oleh pembaca, terutama ketika sangat banyak informasi tersedia di internet.
Ringkasan dibutuhkan untuk mendapatkan isi artikel secara ringkas. Konsep sederhana ringkasan adalah mengambil bagian penting dari keseluruhan isi dari artikel. Menurut Mani dan Maybury, ringkasan adalah mengambil isi yang paling penting dari sumber informasi yang kemudian menyajikannya kembali dalam bentuk yang lebih ringkas bagi penggunanya (Mani dan Maybury, 1999). Namun demikian, membuat ringkasan manual dengan dokumen yang banyak akan memerlukan waktu dan biaya yang besar. Sehingga diperlukan suatu sistem peringkasan secara otomatis untuk mengatasi masalah waktu baca dan biaya.
(15)
2
Peringkasan teks otomatis (automatic text summarization) adalah proses menghasilkan teks yang lebih pendek daripada teks aslinya menggunakan perangkat berbasis komputer. Banyak instansi yang bergerak dalam penyaluran informasi masyarakat atau berita yang pada awalnya menyampaikan berita melalui media Televisi, Surat Kabar, Majalah atau Radio sudah mulai menggunakan sistem berbasis
web untuk menyampaikan beritanya secara up to date (Fajar, 2008). Aplikasi peringkasan teks otomatis merupakan teknologi yang menawarkan solusi untuk mencari informasi dengan menghasilkan ringkasan (summary) berita.
Term frequency inverse document frequency (TF-IDF) adalah salah satu
metode yang dapat digunakan untuk melakukan peringkasan teks. Metode TF-IDF adalah cara pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua konsep untuk penghitungan bobot, yaitu Term Frequency (TF) merupakan frekuensi kemunculan kata (t) pada kalimat (d). Document Frequency
(DF) adalah banyaknya kalimat dimana suatu kata (t) muncul.
Berdasarkan dari uraian latar belakang diatas, maka penulis memilih judul “peringkasan teks berita secara otomatis menggunakan term frequency inverse
document frequency“.
1.2.Rumusan Masalah
Berdasarkan latar belakang di atas maka rumusan masalah pada penelitian ini adalah bagaimana mendapatkan ringkasan pada sebuah berita secara otomatis.
1.3.Tujuan Penelitian
Tujuan dari penelitian ini adalah penggunaan TF-IDF (term frequency inverse
document frequency) untuk memperoleh ringkasan berita secara otomatis dan
mengetahui ringkasan dari suatu berita dengan cepat.
1.4.Manfaat Penelitian
Manfaat yang dapat diperoleh dari penelitian ini adalah:
1. Memberikan efisiensi waktu bagi para pembaca berita dalam memahami berita melalui ringkasan berita.
(16)
3
2. Mengetahui kemampuan TF-IDF (term frequency inverse document frequency) untuk memperoleh ringkasan berita secara otomatis.
3. Menambah ilmu pengetahuan serta menjadi bahan referensi dan perbandingan untuk penelitian yang berkaitan dengan penggunaan term frequency inverse document frequency.
1.5.Batasan Masalah
Guna mencegah meluasnya cakupan permasalahan yang akan dibahas dalam studi ini dan untuk membuat studi ini lebih terarah, maka dilakukan pembatasan masalah sebagai berikut:
1. Algoritma yang digunakan dalam peringkasan ini adalah term frequency
inverse document frequency.
2. Data yang digunakan adalah berita politik 3. Jumlah data yang digunakan 50 berita
4. Berita yang digunakan dalam penelitian ini hanya berita berbahasa Indonesia. 5. Berita yang dimasukkan ke dalam sistem peringkasan adalah berita yang sudah
dinyatakan layak untuk dipublikasikan.
6. Penelitian ini tidak melakukan perbandingan algoritma.
7. Perancangan program aplikasi sistem peringkas teks berita ini menggunakan bahasa pemrograman PHP.
8. Sistem ini dibangun tidak disatukan dengan media berita yang sudah ada tetapi dengan membuat homepage sendiri dan mengunakan jaringan offline.
1.6.Metodologi Penelitian
Dalam penelitian ini, penulis melakukan beberapa metode untuk memperoleh data atau informasi dalam menyelesaikan permasalahan. Metode yang dilakukan tersebut antara lain :
1. Studi Literatur
Dilakukan studi literatur atau studi pustaka yaitu mengumpulkan bahan-bahan referensi baik dari buku, artikel, paper, jurnal, makalah, maupun situs internet.
2. Analisis
Hal-hal yang dilakukan tahap ini adalah :
(17)
4
a. Menganalisis tahap demi tahap dari proses peringkasan teks.
b. Cara kerja dari algoritma term frequency invers document frequency dalam meringkas teks.
3. Perancangan
Pada tahap ini dilakukan perancangan arsitektur, perancangan data, dan perancangan antarmuka.
4. Pengkodean
Pada tahap ini akan dilakukan proses implementasi pengkodean program dalam aplikasi komputer menggunakan bahasa pemrograman yang telah ditentukan.
5. Pengujian
Pada tahap ini dilakukan proses pengujian dan percobaan terhadap sistem sesuai dengan spesifikasi yang ditentukan sebelumnya serta memastikan program yang dibuat dapat berjalan seperti yang diharapkan.
6. Penyusunan Laporan
Pada tahap ini dilakukan penulisan dokumentasi hasil analisis dan implementasi.
1.7.Sistematika Penulisan
Tugas akhir ini disusun dalam lima bab dengan sistematika penulisan sebagai berikut :
BAB 1 : Pendahuluan
Pada bab ini dibahas mengenai latar belakang penulisan, rumusan masalah, batasan masalah, tujuan, manfaat, metodologi penelitian dan sistematika penulisan.
BAB 2 : Tinjauan Pustaka
Pada bab tinjauan pustaka berisi landasan teori, kerangka pikir dan hipotesis yang diperoleh dari acuan yang mendasari dalam melakukan penelitian ini.
(18)
5
Pada bab ini dibahas mengenai analisis terhadap permasalahan dan penyelesaian persoalan dalam pembuatan aplikasi serta menjelaskan tentang rancangan struktur program dan antarmuka dari aplikasi perangkat lunak yang akan dibuat.
BAB 4 : Implementasi dan Pengujian
Pada bab ini dibahas implementasi dari perangkat lunak serta berisikan gambaran antarmuka dari perangkat lunak yang akan dibuat. Selain itu, juga dilakukan pengujian untuk melihat perangkat lunak yang dibuat berhasil dijalankan atau tidak serta untuk menemukan kesalahan (error).
BAB 5 : Kesimpulan dan Saran
Pada bab ini berisi tentang kesimpulan yang didapat dari pembuatan skripsi dan saran-saran yang diharapkan dapat dikembangkan untuk penelitian selanjutnya.
(19)
2BAB 2
LANDASAN TEORI
2.1.Peringkasan Teks Otomatis
Sering kali kita membutuhkan ringkasan dari sebuah bacaan untuk mendapatkan secara ringkas dan cepat isi dari bacaan. Konsep sederhana dari ringkasan adalah mengambil bagian penting yang menggambarkan keseluruhan isi dari dokumen asal. Menurut Mani dan Maybury (Mani and Maybury, 1999), ringkasan adalah mengambil isi yang paling penting dari sumber informasi yang kemudian menyajikan kembali dalam bentuk yang lebih ringkas bagi penggunanya.Dalam Hovy (2001), summary
atau ringkasan didefinisikan sebagai sebuah teks yang dihasilkan dari satu atau lebih teks, mengandung informasi dari teks asli dan panjangnya tidak lebih dari setengah teks asli.
Peringkasan teks otomatis (automatic text summarization) adalah pembuatan versi yang lebih singkat dari sebuah teks dengan memanfaatkan aplikasi yang dijalankan pada komputer. Hasil peringkasan ini mengandung poin -poin penting dari teks asli.
2.1.1.Tipe Ringkasan
Berdasar teknik pembuatan, suatu ringkasan diambil dari bagian terpenting dari teks aslinya (Mani, 2001), terdapat 2 tipe yaitu :
1. Abstraktif
Tipe peringkasan abstraktif menghasilkan sebuah interpretasi terhadap teks aslinya. Dimana sebuah kalimat akan ditransformasikan menjadi kalimat yang lebih singkat dan kalimat baru yang tidak terdapat dalam dokumen yang asli atau dengan kalimat yang berbeda.
(20)
7
2. Ekstraktif
Tipe peringkasan ekstraktif menghasilkan suatu ringkasan dengan memilih sebagian dari kalimat yang ada dalam dokumen asli. Metode ini menggunakan metode statistical, linguistical dan heuristic atau kombinasi dari semuanya dalam menetapkan ringkasan suatu teks.
Berdasarkan teori, hasil ringkasan ekstraktif lebih baik dibandingkan dengan ringkasan abstraktif. Hal ini dikarenakan peringkasan abstraktif, seperti representasi semantik, inferens dan pembangun natural language relatif lebih sulit, dibandingkan pendekatan data driven, seperti ekstraksi kalimat (Erkan dan Radev, 2004). Sehingga kebanyakan penelitian dilakukan menggunakan metode ekstraktif.
Sedangkan model peringkasan teks otomatis ada dua yaitu ringkasan yang umum (generic summary) merupakan perwakilan dari teks asli yang mencoba untuk mempresentasikan semua fitur penting dari sebuah teks asal. Mengikuti pendekatan
bottom up (information retrieval) dan yang kedua ringkasan berpusat pada pemakai
(query driven) yaitu peringkasan bersandar pada spesifikasi kebutuhan informasi
pemakai, seperti topik atau query dan mengikuti pendekatan top down (information extraction).
Tujuan dari peringkasan teks (teks summarization) dapat dikategorikan berdasarkan maksud, fokus dan cakupannya (Firmin dan Chrzanowski, 1999), sebagai berikut :
1. Informatif
Informatif, ringkasan ini menyatakan informasi - informasi penting yang terdapat pada dokumen asal.
2. Indikatif
Indikatif, tujuan dari ringkasan ini adalah untuk dijadikan sebuah referensi, yang membantu pembaca untuk mengetahui isi dari teks daripada membaca keseluruhan teks yang ada. Ringkasan ini meliputi topik kunci dari teks asal. 3. Evaluatif
Evaluatif, atau ringkasan yang melibatkan pembuatan sebuah pertimbangan pada teks asal, seperti suatu tinjauan ulang atau opini.
(21)
8
4. User-focused (query-relevant)
User-focused, ringkasan yang dibuat berdasarkan topik yang dipilih oleh user, sering merupakan jawaban dari query yang dimiliki oleh user.
5. Generic
Generic, disebut juga author-focused, sifatnya lebih umum dan berdasarkan
pada teks aslinya.
6. Dokumen tunggal (single document)
Dokumen tunggal, ringkasan merupakan ringkasan dari satu dokumen. 7. Banyak dokumen (multi document)
Banyak dokumen, ringkasan merupakan hasil ringkasan dari banyak dokumen. Berikut gambar mesin dan modul peringkasan teks menurut (Hovy dan Marcu, 1998) :
(22)
9
Serta gambar modul peringkasan teks :
Gambar 2.2 Modul Peringkas Teks 2.2.Berita
Kata "berita" berasal dari bahasa sansekerta yaitu dari kata "vrit" yang sebenarnya berarti "terjadi" atau "ada" (Djuroto, 2004). Berita (news) adalah laporan mengenai suatu peristiwa atau kejadian yang terbaru (aktual); laporan mengenai fakta-fakta yang aktual, menarik perhatian, dinilai penting, atau luar biasa (Budiman, 2011).
Berita adalah informasi baru tentang kejadian yang baru, penting, dan bermakna, yang berpengaruh pada para pendengarnya serta relevan dan layak dinikmati (Maeseneer, 1999).
2.2.1.Nilai-Nilai Berita
Dalam menulis berita, ada beberapa hal yang perlu diperhatikan terkait nilai berita itu sendiri (Djuroto, 2004). Ada beberapa nilai berita yang dapat dikelompokkan sebagai acuan dalam sebuah penulisan. Beberapa nilai berita tesebut adalah sebagai berikut :
1. Magnitude (pengaruh) artinya seberapa luas pengaruh suatu berita terhadap
khalayak.
(23)
10
2. Significant (Arti) artinya seberapa penting arti dari suatu kejadian atau
peristiwa.
3. Actuality (Aktualitas) artinya seberapa besar tingkat aktualitas suatu kejadian atau peristiwa.
4. Proximity (Kedekatan) artinya bertia lokal lebih pas diberitakan di daerah
bersangkutan.
5. Prominence (Keakraban) artinya akrabnya suatu peristiwa terhadap khalayak.
6. Surprise (Kejutan).
7. Clarity (Kejelasan) kejadian atau peristiwa.
8. Dampak (Impact) artinya berdampak apakah berita tersebut terhadap khalayak. 9. Konflik.
10. Human Interest artinya kemampuan suatu peristiwa menyentuh perasaan
khalayak.
2.2.2.Unsur-Unsur Berita
Dalam penulisan berita kita harus memahami unsur dari suatu berita supaya memberi kemudahan kita dalam mendeskripsikan berita tersebut dan berita yang kita buat mudah untuk dipahami oleh khalayak ramai (Olii, 2007). Unsur-unsur berita tersebut adalah:
1. What (apa) artinya apa yang tengah terjadi. Peristiwa apa yang tengah terjadi. 2. Who (siapa) artinya siapa saja yang terlibat dalam peristiwa itu.
3. Where (dimana) artinya dimana lokasi terjadinya peristiwa itu.
4. When (kapan) artinya kapan perisitiwa itu berlangsung.
5. Why (mengapa) artinya mengapa kejadian itu bisa terjadi.
6. How (bagaimana) artinya bagaimana kejadian itu bisa berlangsung.
2.2.3.Anatomi Berita
Seperti tubuh manusia, berita juga mempunyai bagian-bagian, diantaranya adalah sebagai berikut (Budiman, 2011) :
1. Judul atau Kepala Berita (Headline)
Headline mewakili isi berita yang ingin disampaikan dan memiliki daya tarik
(24)
11
2. Baris Tanggal (Dateline)
Dateline terdiri atas nama media massa, tempat kejadian dan tanggal kejadian.
Tujuannya adalah untuk menunjukkan tempat kejadian dan inisial media.
3. Teras Berita (Lead atau Intro)
Lead biasanya ditulis pada paragrap pertama sebuah berita. Lead merupakan unsur yang paling penting dari sebuah berita, yang menentukan apakah isi berita akan dibaca atau tidak.
4. Tubuh Berita (Body)
Body isinya menceritakan peristiwa yang dilaporkan dengan bahasa yang singkat, padat, dan jelas baik yang sudah dikemukakan dalam teras maupun yang belum diungkapkan.
Gambar 2.3 Anatomi Berita
Bagian yang disebutkan membentuk anatomi yang tersusun sebagai sebuah struktur yang utuh dan terpadu, yang sering dinamakan sebagai gaya piramida terbalik
(inverted pyramid style) seperti yang terlihat pada Gambar 2.3. Disebut demikian
karena bagian tubuh berita disusun dengan pola pengembangan umum ke khusus (dimulai dari hal umum, lalu secara berangsur-angsur menuju ke hal-hal yang semakin khusus) atau klimaks-antiklimaks (dari yang paling pokok atau penting beralih secara berturut-turut ke yang kurang pokok atau penting). Tujuannya adalah untuk memudahkan atau mempercepat pembaca dalam mengetahui apa yang diberitakan.
Headline
Baris Tanggal
Teras Berita
Tubuh Berita
(25)
12
2.3.Text Mining
Text mining (penambangan teks) adalah penambangan yang dilakukan oleh komputer
untuk mendapatkan sesuatu yang baru, sesuatu yang tidak diketahui sebelumnya atau menemukan kembali informasi yang tersirat secara implisit, yang berasal dari informasi yang di-ekstrak secara otomatis dari sumber-sumber data teks yang berbeda-beda (Feldman & Sanger, 2007). Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction dan information retrival (Berry & Kogan, 2010).
Pada dasarnya proses kerja dari text mining banyak mengapdopsi dari penelitian data mining namun yang menjadi perbedaan adalah pola yang digunakan oleh text mining diambil dari sekumpulan bahasa alami yang tidak terstruktur sedangkan dalam data mining pola yang diambil dari database yang terstruktur (Han & Kamber, 2006).
2.3.1.Tahap – Tahap Text Mining
Tahap-tahap text mining secara umum adalah text preprocessing dan feature selection
(Feldman & Sanger 2007, Berry & Kogan 2010) . Dimana penjelasan dari tahap-tahap tersebut adalah sebagai berikut :
1. Text Preprocessing
Tahap text preprocessing adalah tahap awal dari text mining. Tahap ini mencakup semua rutinitas, dan proses untuk mempersiapkan data yang akan digunakan pada operasi knowledge discovery sistem text mining (Feldman & Sanger, 2007). Tindakan yang dilakukan pada tahap ini adalah toLowerCase, yaitu mengubah semua karakter huruf menjadi huruf kecil, dan Tokenizing
yaitu proses penguraian deskripsi yang semula berupa kalimat – kalimat menjadi kata-kata dan menghilangkan delimiter-delimiter seperti tanda titik (.), koma (,), spasi dan karakter angka yang ada pada kata tersebut (Weiss et al, 2005).
2. Feature Selection
Tahap seleksi fitur (feature selection) bertujuan untuk mengurangi dimensi dari suatu kumpulan teks, atau dengan kata lain menghapus kata-kata yang dianggap tidak penting atau tidak menggambarkan isi dokumen sehingga
(26)
13
proses pengklasifikasian lebih efektif dan akurat (Do et al, 2006., Feldman & Sanger, 2007., Berry & Kogan 2010). Pada tahap ini tindakan yang dilakukan adalah menghilangkan stopword ( stopword removal ) dan stemming terhadap kata yang berimbuhan (Berry & Kogan 2010., Feldman & Sanger 2007). Namun pada penelitian ini proses stemming tidak dilakukan.
Stopword adalah kosakata yang bukan merupakan ciri ( kata unik ) dari suatu
dokumen (Dragut et al. 2009). Misalnya “di”, “oleh”, “pada”, “sebuah”, “karena” dan lain sebagainya. Sebelum proses stopword removal dilakukan, harus dibuat daftar
stopword (stoplist). Jika termasuk di dalam stoplist maka kata-kata tersebut akan
dihapus dari deskripsi sehingga kata-kata yang tersisa di dalam deskripsi dianggap sebagai kata-kata yang mencirikan isi dari suatu dokumen atau keywords. Daftar kata
stopword di penelitian ini bersumber dari Tala (2003).
2.4.Kata
Kata adalah kesatuan terkecil yang diperoleh sesudah kalimat dibagi atas bagian-bagiannya dan mengandung suatu ide.
Kategori kata berdasarkan sintaksisnya terdiri dari lima kata (Putrayasa, 2007), yaitu :
1. Kata Benda (Nomina)
Kata benda adalah kata yang mengacu pada manusia, binatang, benda dan konsep atau pengertian.
2. Kata Kerja (Verba)
Kata kerja adalah kata yang menyatakan tindakan. 3. Kata Sifat (Adjektiva)
Kata sifat adalah kata yang memberi keterangan yang lebih khusus tentang sesuatu yang dinyatakan oleh nomina dalam kalimat.
4. Kata Keterangan (adverbia)
Kata keterangan adalah kategori yang dapat mendampingi adjektiva, numeralia atau preposisi dalam konstruksi sintaksis.
5. Kata Tugas
Kata tugas adalah kata yang hanya memiliki arti gramatikal dan tidak memiliki arti leksikal.
(27)
14
2.5.Kalimat
Kalimat adalah satuan bahasa terkecil dalam wujud lisan atau tulisan, yang mengungkapkan pikiran yang utuh. Kalimat terdiri atas deret kata yang dimulai dengan huruf kapital dan diakhiri dengan tanda titik (.), tanda tanya (?), atau tanda seru (!).
Unsur-unsur kalimat terdiri dari kata, kelompok kata dan lagu kalimat. Di dalam kalimat terdapat pengaturan hubungan kedudukan antara bagian-bagiannya. Ada bagian didalam kalimat yang menunjukkan sebagai “pelaku”, ada bagian yang menunjukkan sebagai “perbuatan”, ada bagian yang menunjukkan “bagaimana perbuatan itu dilakukan”. Berdasarkan jabatannya kalimat terdiri dari :
1. Subyek, yaitu bagian yang menjadi pangkal atau pokok pembicaraan.
2. Predikat, yaitu bagian yang menerangkan subyek, biasanya berdiri sesudah subyek.
3. Obyek, yaitu bagian yang menjadi tujuan.
4. Keterangan, yaitu bagian yang menunjukkan waktu (keterangan waktu), tempat (keterangan tempat), alat (keterangan alat) dan sebagainya.
Sedangkan kalimat berdasarkan fungsinya, dapat dikategorikan sebagai berikut:
1. Kalimat pernyataan 2. Kalimat pertanyaan 3. Kalimat perintah 4. Kalimat seruan
2.6.Paragraf
Paragraf disebut juga alinea. Kata paragraf merupakan kata serapan dari bahasa Inggris paragraph, sedangkan kata alinea dari bahasa Belanda dengan ejaan yang sama. Paragraf adalah seperangkat kalimat yang membicarakan suatu gagasan atau topik. Terdapat dua syarat dalam membentuk paragraf :
1. Menulis pernyataan (kalimat) tentang pokok bahasan dengan baik. 2. Mengangkat pola susunan rincian dengan patut.
(28)
15
2.7.Term Frequency Inverse Document Frequency (TF-IDF)
Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah cara pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot, yaitu Term frequency (TF) merupakan frekuensi kemunculan kata (t) pada kalimat (d). Document frequency (DF) adalah banyaknya kalimat dimana suatu kata (t) muncul. Frekuensi kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut. Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata tersebut. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen (Robertson, 2004). Pada Metode ini pembobotan kata dalam sebuah dokumen dilakukan dengan mengalikan nilai TF dan IDF.
Pada penelitian ini, peringkasan teks otomatis yang di kembangkan merupakan sistem peringkasan dengan inputan berupa single dokumen dan secara otomatis menghasilkan ringkasan (summary). Proses text preprosessing yang dilakukan pada peringkasan teks otomatis ini hanya proses tokenizing yaitu proses pemotongan string input berdasarkan tiap kata yang menyusunnya. Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan me-scan kalimat dengan pemisah (delimiter) white space
(spasi, tab dan newline)( Tala, 2003).
Adapun tahapan-tahapan peringkasan teks otomatis metode TF-IDF adalah sebagai berikut :
1. Menginput dokumen yang akan dibuat ringkasannya 2. Memilah dokumen menjadi beberapa kalimat.
Pemilahan kalimat dilakukan dengan memecah string teks dari dokumen yang panjang menjadi kalaimat-kalimat mengunakan fungsi split(), dengan tanda titik ”.”, tanda tanya ”?” dan tanda seru ”!” sebagai delimiter untuk memotong string dokumen.
3. Memilah kalimat yang terbentuk menjadi beberapa kata dan simpan dalam variable array. Untuk memilah kalimat menjadi kata digunakan proses
tokenizing.
(29)
16
4. Pembobotan TF-IDF
Pembobotan diperoleh berdasarkan jumlah kemunculan term dalam kalimat (TF) dan jumlah kemunculan term pada seluruh kalimat dalam dokumen (IDF). Bobot suatu istilah semakin besar jika istilah tersebut sering muncul dalam suatu dokumen dan semakin kecil jika istilah tersebut muncul dalam banyak dokumen (Grossman, 1998). Nilai IDF sebuah term dihitung menggunakan persamaan 1.
(1)
dengan:
N = jumlah kalimat yang berisi term(t)
dfi = jumlah kemunculan kata (term) terhadap D
5. Menghitung bobot (W) masing-masing dokumen dengan persamaan 2 (Mustaqhfiri, 2011).
(2)
dengan :
d = kalimat ke-d
t = kata(term) ke –t
TF = term freqency
W = bobot kalimat ke-d terhadap kata(term)ke- t
IDF = inverse document f reqency
6. Melakukan proses pengurutan (sorting) nilai kumulatif dari W untuk setiap kalimat.
7. Tiga kalimat dengan nilai W terbesar dijadikan sebagai hasil dari ringkasan atau sebagai output dari peringkasan teks otomatis.
Tahapan-tahapan Peringkasan Teks Otomatis dengan metode TF -IDF di atas ditunjukan pada Gambar 2.4.
(30)
17
Gambar 2.4 Tahapan-tahapan peringkasan teks otomatis metode TF-IDF 2.8.Flowchart
Flowchart adalah penggambaran secara grafik dari langkah-langkah dan urutan-urutan
prosedur suatu program (Setiawan, 2006). Simbol-simbol dari flowchart memiliki fungsi yang berbeda antara satu simbol dengan simbol lainnya (Davis, 1999). Fungsi dari simbol-simbol flowchart adalah sebagai berikut :
(31)
18
Tabel 2.1 Fungsi simbol-simbol flowchart.
Simbol Fungsi
simbol process, yaitu menyatakan suatu tindakan (proses) yang dilakukan di dalam program.
Simbol offline connector yaitu menyatakan penghubung bila flowchart terputus disebabkan oleh pergantian halaman (misalnya tidak cukup dalam satu halaman).
Simbol online connector, berfungsi untuk menyatakan sambungan dari prose ke proses yang lainnya dalam halaman yang sama.
Simbol arus/flowline, yaitu
menyatakan jalannya arus suatu proses.
Simbol decision yaitu menunjukkan suatu kondisi tertentu yang akan menghasilkan dua kemungkinan jawaban yaitu ya/ tidak.
Simbol input/output, menyatakan proses input atau output tanpa tergantung jenis peralatannya.
Simbol terminal yaitu menyatakan permulaan atau akhir suatu program.
Simbol document, mencetak keluaran dalam bentuk dokumen.
2.9.Penelitian Terdahulu
Metode Term Frequency Inverse Document Frequency telah banyak digunakan dalam menyelesaikan berbagai macam permasalahan dalam hal pembobotan kata. Dari permasalahan yang kecil hingga permasalahan yang cukup kompleks dengan berbagai metode dalam penyelesaiannya.
(32)
19
Zafikri, (2008) melakukan penelitian untuk menyelesaikan permasalahan dalam pencarian informasi yang akurat dan efektif pada mesin pencari. Dalam penelitiannya mencoba menerapkangabungan antara metode Term Frequency Inverse
Document Frequency (TF-IDF) dan model ruang vektor (vector space model) pada
mesin pencari. Hasilnya metode pembobotan dokumen TF-IDF tidak selalu memberikan hasil performansi yang baik.
Akbar (2011) dalam penelitiannya menyelesaikan permasalahan dalam menentukan nilai tes esai online. Dalam halini Akbar (2011) menggunakan algoritma
Latent Semantic Analysis (LSA) dengan pembobotan Term Frequency/Inverse
Document Frequency (TF/IDF) untuk menyelesaikan permasalahannya yakni sebagai
alternatif solusi penilaian esai kepada user ssecara konsisten tanpa mengikutsertakan subjektivitas penilai, seperti suasana hati dan tingkat pengetahuan. Algoritma TF/IDF-LSA memiliki tingkat keakuratan cukup tinggi dalam pemeriksaan jawaban esai dengan jumlah kata yang banyak.
Sulthan (2012) menggunakan algoritma Hill Climbing dalam meringkas teks, hasil dari peringkasan menggunakan algoritma Hill Climbing cukup baik. Metode text
mining juga pernah dilakukan Kurniawan (2012) dalam klasifikasi berita, dan hasil
dari metode text mining cukup berhasil.
Aristoteles (2013) melakukan penelitian peringkasan teks dokumen bahasa Indonesia menggunakan algoritma genetika, hasilnya bahwa algoritma genetika dapat digunakan untuk mencari tingkat kepentingan yang optimal dari tiap fitur teks. Nilai akurasi 47.46% pada pemampatan 30%. Sedangkan hasil tidak optimal pada pemampatan 10%.
(33)
20
Tabel 2.2 Penelitian terdahulu
No Peneliti / Tahun Judul Keterangan
1 Zafikri (2008) Implementasi Metode Term Frequency Inverse Document Frequency (TF-IDF) pada Sistem Temu Kembali informasi.
2 Akbar (2011) Menentukan Nilai Tes Esai Online Menggunakan AlgoritmaLatent Semantic Analysis (LSA) dengan Pembobotan Term Frequency/ Inverse Document Frequency
3 Sulthan (2012) Peringkasan Teks Otomatis Berbasis Web Menggunakan AlgoritmaHill Climbing
4 Kurniawan (2012) Klasifikasi Konten Berita menggunakan
Text Mining
5 Aristoteles (2013) Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia
(34)
3BAB 3
ANALISIS DAN PERANCANGAN
Pada bab ini akan membahas beberapa hal diantaranya data yang digunakan, flowchart
system, tampilan antar-muka serta analisis perancangan yang bertujuan untuk
mengindentifikasi permasalahan yang ada pada sistem tersebut. Analisis ini diperlukan sebagai dasar perancangan sistem untuk mengimplementasikan tf-idf dalam meringkas teks.
3.1.Analisis Data
Dalam penelitian ini data terdiri dari 3 bagian yaitu data berita, data stopword dan data kata dasar.
3.1.1.Data Berita
Data berita dalam penelitian ini didapat dari beberapa media berita online yang kemudian dimasukkan kedalam database. Skema dari proses pengambilan berita dapat dilihat pada gambar 3.1.
Data berita berjumlah 50 dokumen berita politik.Untuk memperoleh ketepatan dan mempermudah proses pengujian maka berita diambil dari situs media berita
online. Berikut tabel 3.1.
Database penyimpan
berita Mengambil berita
dari media berita online
Menyimpan berita kedalam
database Media
berita online pengunggah
Gambar 3.1 Skema proses pengambilan berita
(35)
22
Tabel 3.1 Tabel Berita
id_berita Judul Berita Isi Berita
1 Kontras Kritik Penunjukan Hendropriyono
Koordinator Komisi untuk Orang Hilang dan Korban Tindak Kekerasan (Kontras),
Haris Azhar mengatakan dipilihnya AM Hendropriyono sebagai penasihat tim
transisi Jokowi-JK tidak mendukung penuntasan kasus hak asasi manusia di
Indonesia.
Kontras menilai terpilihnya
Hendropriyono mencerminkan sikap Joko Widodo yang kurang serius terhadap persoalan HAM. “Antara tidak serius, tidak mengerti, atau rentan diintervensi (berbagai kepentingan),” ujarnya dikutip
BBC, Kamis (14/8). .... 2 Presiden Baru, Rakyat
Akan Kembali Kecewa
KH M Shoffar Mawardi menyatakan rakyat akan kembali kecewa pasca pemilu 2014 lantaran harapan presiden yang baru
akan membawa Indonesia menuju kehidupan yang adil dan makmur tidak
akan tercapai. “Pada akhirnya, banyak rakyat yang sedih dan kecewa saat harapannya tidak kunjung menjadi nyata,”
ungkap Pengasuh Ma’had Daarul Muwahhid Srengseng Jakarta Barat tersebut seperti dilansir tabloid Media Umat Edisi 132: Presiden Baru, Umat Siap
Kecewa, Jum’at (18 Juli-21 Agustus)...
3 Israel Gunakan Bom
Fosfor Putih di Gaza
Laporan terakhir mengatakan pasukan udara dan darat Israel menggunakan bom fosfor putih untuk menghantam beberapa wilayah pemukiman di Jalur Gaza yang
terkepung.
Bom-bom mematikan itu melanggar semua konvensi internasional dan dianggap sebagai senjata terlarang untuk
digunakan di wilayah penduduk sipil. 4 Sengketa PLN Pertamina
Ancam Listrik Padam
Perusahaan Listrik Negara mengatakan berkurangnya pasokan solar dari Pertamina sekitar 50% akan diatasi dengan
pasokan dari tempat lain guna mengantisipasi listrik tidak padam. Pertamina mengurangi pasokan solar sebanyak 50% kepada pembangkit listrik di seluruh Indonesia sejak 10 Agustus lalu.
(36)
23
3.1.2.Data Stopword
Data stopword didapat dari jurnal Tala (2003) dimana datanya berjumlah 753 data dan dari berita-berita yang digunakan dalam penelitian. Data stopword di dalam database. Rancangan tabel stopword dapat dilihat pada Tabel 3.2
Tabel 3.2 Tabel Stopword
id_stopword Stopword
1 Di
2 Ada
3 Itu
4 Dan
5 Ke
6 Untuk
7 Dengan
8 Namun
9 Kepada
10 Akan
11 Agar
12 Dari
13 Karena
14 Ini
15 Pun
3.1.3.Data Kata Dasar
Data kata dasar didapat dari kamus bahasa Indonesia online dimana datanya berjumlah 28533 data. Data kata dasar disimpan di dalam database. Rancangan tabel kata dasar dapat dilihat pada Tabel 3.3.
Tabel 3.3 Tabel kata dasar
id_katadasar Katadasar
1 Lari
2 Ajar
3 Makan
4 Lari
5 Belajar
(37)
24
3.2.Analisis Sistem
Analisis sistem bertujuan untuk mengidentifikasi permasalahan-permasalahan yang ada pada sistem yang meliputi perangkat lunak (software), pengguna (user) serta hasil analisis terhadap sistem dan elemen-elemen yang terkait. Analisis ini diperlukan sebagai dasar bagi tahapan perancangan sistem. Analisis sistem ini meliputi desain data, deskripsi sistem, dan implementasi desain dan semua yang diperlukan dalam aplikasi peringkasan teks otomatis.
Dalam penelitian ini sistem mempunyai 2 tahapan proses yaitu tahapan pertama adalah tahap text Preprocessing yaitu tahap awal dari text mining. Tahap ini mencakup semua rutinitas, dan proses untuk mempersiapkan data yang akan digunakan pada operasi knowledge discovery sistem text mining (Feldman & Sanger, 2007). Tindakan yang dilakukan pada tahap ini adalah toLowerCase, yaitu mengubah semua karakter huruf menjadi huruf kecil dan Tokenizing yaitu proses penguraian deskripsi yang semula berupa kalimat-kalimat menjadi kata-kata dan menghilangkan delimiter-delimiter seperti tanda titik (.), koma (,), spasi dan karakter angka yang ada pada kata tersebut (Weiss et al, 2005). Sedangkan tahap kedua adalah Tahap seleksi fitur (feature selection) bertujuan untuk mengurangi dimensi dari suatu kumpulan teks, atau dengan kata lain menghapus kata-kata yang dianggap tidak penting atau tidak menggambarkan isi dokumen sehingga proses pengklasifikasian lebih efektif dan akurat (Do et al, 2006., Feldman & Sanger, 2007., Berry & Kogan 2010). Pada tahap ini tindakan yang dilakukan adalah menghilangkan stopword (stopword
removal) dan stemming terhadap kata yang berimbuhan (Berry & Kogan 2010.,
Feldman & Sanger 2007).
3.2.1.Text Preprocessing
Langkah-langkah proses text preprocessing adalah sebagai berikut :
1. Setelah teks dokumen dimasukkan maka sistem akan merubah semua karakter huruf menjadi huruf kecil melalui proses toLowerCase.
2. Kemudian dilakukan penghapusan delimiter yaitu karakter angka dan karakter simbol kecuali karakter huruf serta penguraian terhadap kalimat-kalimat yang ada di teks dokumen tersebut.
(38)
25
4. Proses text preprocessing selesai. Flowchart dari proses text preprocessing
adalah sebagai berikut:
Mulai
Teks dokumen
toLowerCase
Menghilangkan delimiter dan penguraian kalimat
Kata-kata penyusun kalimat
Selesai
Gambar 3.2 Flowchart Text Preprocessing
Contoh :
Misal terdapat input kalimat seperti :
Maka setelah melalui proses ToLowerCase maka huruf besar dalam kalimat tersebut berubah menjadi huruf kecil :
Kemudian setelah proses penghilangan delimiter dan penguraian kalimat maka Kemudian setelah proses penghilangan delimiter dan penguraian kalimat maka hasilnya adalah sebagai berikut :
Gambar 3.4 Contoh kalimat setelah ToLowerCase
dalam penelitian ini data terdiri 3 bagian yaitu data berita, data unik, dan data kata dasar.
Dalam penelitian ini data terdiri 3 bagian yaitu data berita, data unik, dan data kata dasar.
Gambar 3.3 Contoh kalimat yang akan diinput
(39)
26
Tabel 3.4 Hasil dari proses text preprocessing
dalam penelitian ini terdiri
bagian yaitu data berita
data unik dan data
kata dasar
3.2.2.Feature Selection
Pada tahap ini terdapat dua proses yang dilakukan, adalah sebagai berikut :
1. Stopword Removal (Filtering)
Langkah-langkah untuk proses filtering adalah sebagai berikut :
a. Kata-kata penyusun kalimat hasil dari tahap text preprocessing dijadikan sebagai masukkan.
b. Kemudian dibandingkan dengan kata-kata yang ada di database stopword.
c. Jika kata yang dimasukkan sama dengan kata di database stopword maka kata yang dimasukkan dihapus. Namun jika kata yang dimasukkan tidak sama dengan kata yang ada di database stopword maka tersebut tidak dihapus
d. Proses filtering selesai. Flowchart dari proses filtering adalah sebagai berikut :
(40)
27
Mulai
Kata-kata hasil text processing
Membandingkan kata yang diinput dengan dengan kata-kata yang ada di database stopword
Kata yang diinput = kata yang ada didatabase stopword
Kata-kata yang bukan
stopword
Selesai
Ya hapus
Tidak
Gambar 3.5 Flowchart proses filtering
Contoh :
Misalkan terdapat masukkanyang merupakan hasil dari proses text processing
sebagai berikut :
Tabel 3.5 Hasil dari proses text preprocessing yang dijadikan input.
dalam penelitian ini terdiri
bagian yaitu data berita
data unik dan data
kata dasar
Dan misalnya terdapat stopword yang dalam database stopword sebagai berikut :
Tabel 3.6 Kumpulan stopword
dan dari ingin ini
kepada dalam selalu lalu
yaitu bahwa terdiri sekali
dulu sekalian enggak bagian
(41)
28
Kemudian sistem akan membandingkan antara kata-kata yang dimasukkan dengan kata-kata yang ada di dalam database stopword. Selanjutnya sistem akan menghapus kata-kata yang dimasukkan apabila kata-kata yang dimasukkan sama dengan kata-kata yang ada di database stopword. Maka ouput-nya menjadi sebagai berikut :
Tabel 3.7 Hasil dari proses filtering
penelitian data berita data
unik data kata dasar
3.2.3.Contoh penggunaan algoritma (tf/idf)
Berikut simulasi perhitungan nilai tf*idf bisa dilihat pada bagian dibawah ini : Terdapat kalimat:
Saya sedang belajar menghitung tf.idf. Tf.idf merupakan frekuensi kemunculan term pada dokumen. Langkah awal perhitungan tersebut adalah menghitung tf, kemudian menghitung df dan idf. Langkah terakhir menghitung nilai tf.idf. Mari kita belajar!
Catatan: tiap kalimat dianggap sebagai dokumen. Setelah di pisah akan menjadi seperti berikut : D1 Saya sedang belajar menghitung tf.idf.
D2 Tf.idf merupakan frekuensi kemunculan term pada dokumen.
D3 Langkah awal perhitungan tersebut adalah menghitung tf, kemudian menghitung df dan idf.
D4 Langkah terakhir menghitung nilai tf.idf. D5 Mari kita belajar!
Menghitung Term Frequency (tf)
Term frequency (tf) merupakan frekuensi kemunculan term (t) pada dokumen (d).
Data tulisan tersebut mengalami proses tokenisasi, stop words dan steaming sehingga menjadi :
(42)
29
Tabel 3.8 Menghitung tf
Term (t) D1 D2 D3 D4 D5
Akhir 0 0 0 1 0
Awal 0 0 1 0 0
Belajar 1 0 0 0 1
Dokumen 0 1 0 0 0
Frekuensi 0 1 0 0 0
Hitung 1 0 3 1 0
Idf 1 1 1 1 0
Kita 0 0 0 0 1
Langkah 0 0 1 1 0
Muncul 0 1 0 0 0
Saya 1 0 0 0 0
Term 0 1 0 0 0
Tf 1 1 1 1 0
Menghitung document frequency (df)
Document frequency (df) adalah banyaknya dokumen dimana suatu term (t) muncul.
Tabel 3.9 Menghitung df Term (t) df
Akhir 1
Awal 1
Belajar 2 Dokumen 1 Frekuensi 1 Hitung 3
Idf 4
Kita 1
Langkah 2 Muncul 1
Saya 1
Term 1
Tf 4
(43)
30
Menghitung invers document frequency (idf) Menggunakan rumus (1)
IDF = 1 / df
Tabel 3.10 Menghitung idf (1)
Term (t) df idf
Akhir 1 1
Awal 1 1
Belajar 2 ½=0.5
Dokumen 1 1
Frekuensi 1 1
Hitung 3 1/3=0.3
Idf 4 ¼=0.25
Kita 1 1
Langkah 2 ½=0.5
Muncul 1 1
Saya 1 1
Term 1 1
Tf 4 ¼=0.25
Menggunakan rumus (2) IDF = Log ( N/df )
Tabel 3.11 Menghitung idf (2)
Term (t) df idf
Akhir 1 Log (5/1) = 0.699
Awal 1 Log (5/1) = 0.699
Belajar 2 Log (5/2) = 0.398
Dokumen 1 Log (5/1) = 0.699
Frekuensi 1 Log (5/1) = 0.699
Hitung 3 Log (5/3) = 0.221
Idf 4 Log (5/4) = 0.097
Kita 1 Log (5/1) = 0.699
Langkah 2 Log (5/2) = 0.398
Muncul 1 Log (5/1) = 0.699
Saya 1 Log (5/1) = 0.699
Term 1 Log (5/1) = 0.699
(44)
31
Menghitung tf.idf Hasil kali tf x idf
Tabel 3.12 Menghitung tf.idf
Term (t) D1 D2 D3 D4 D5 idf tf.idf
D1 D2 D3 D4 D5
Akhir 0 0 0 1 0 Log (5/1) = 0.699 0 0 0 0.699 0 Awal 0 0 1 0 0 Log (5/1) = 0.699 0 0 0.699 0 0 Belajar 1 0 0 0 1 Log (5/2) = 0.398 0.398 0 0 0 0.398 Dokumen 0 1 0 0 0 Log (5/1) = 0.699 0 0.699 0 0 0 Frekuensi 0 1 0 0 0 Log (5/1) = 0.699 0 0.699 0 0 0 Hitung 1 0 3 1 0 Log (5/3) = 0.222 0.222 0 0.666 0.222 0 Idf 1 1 1 1 0 Log (5/4) = 0.097 0.097 0.097 0.097 0.097 0 Kita 0 0 0 0 1 Log (5/1) = 0.699 0 0 0 0 0.699 Langkah 0 0 1 1 0 Log (5/2) = 0.398 0 0 0.398 0.398 0 Muncul 0 1 0 0 0 Log (5/1) = 0.699 0 0.699 0 0 0 Saya 1 0 0 0 0 Log (5/1) = 0.699 0.699 0 0 0 0 Term 0 1 0 0 0 Log (5/1) = 0.699 0 0.699 0 0 0 Tf 1 1 1 1 0 Log (5/4) = 0.097 0.097 0.097 0.097 0.097 0
Total W 1.513 2.99 1.957 1.513 1.097
3.3.Perancangan Sistem
Perancangan proses perlu dilakukan untuk mengetahui proses-proses yang diperlukan dalampembuatan aplikasi, aliran data pada tiap-tiap proses hingga aktor yang terlibat di dalamnya. Perancangan ini bertujuan untuk mengetahui proses transformasi data dari input berupa dokumen hingga menjadi output berupa hasil ringkasan.
3.3.1.Diagram konteks
Diagram konteks dibuat untuk menggambarkan sistem secara umum dan entitas-entitas yangterlibat di dalamnya. Dalam konteks diagram Peringkas Teks Otomatis pada Bahasa Indonesia terdapat satu eksternal yakni pengguna, yakni orang yang menggunakan sistem. Pengguna memasukkan dokumen, kemudian sistem akan memberikan output berupa hasil ringkasan.
Diagram konteks ini seperti gambar 3.6 berikut.
(45)
32
Pengguna 1
Peringkasan Teks berita secara otomatis + Dokumen Ringkasan
Gambar 3.6 Konteks Diagram Peringkas Teks Otomatis
3.3.2.DFD level 1
Dari konteks diagram gambar 3.6, dijabarkan menjadi DFD Level 1 seperti terlihat pada gambar 3.7. Dari gambar tersebut terdapat 5 proses yakni Pra Proses, Pembagian dokumen menjadi topik, penghitungan bobot relatif topik, dan pemilihan kalimat paling penting dari topik. Dokumen dari pengguna akan diproses pada pra proses, kemudian representasi dokumen yang dihasilkan pada proses ini akan dijadikan masukan pada proses pembagian dokumen menjadi topik. Keluaran dari proses sebelumnya yang berupa topik dijadikan sebagai masukan untuk dilakukan proses perhitungan bobot topik. Kemudian proses terakhir pada level ini adalah pemilihan kalimat paling penting dari topik. Masing-masing proses terdapat sub proses yang merupakan dekomposisi dari proses tersebut, kecuali untuk proses penghitungan bobot topik yang tidak memiliki sub proses karena sudah cukup ditangani pada proses itu.
Gambar 3.7 DFD peringkas teks otomatis Pengguna Dokumen 1.1 Pra Proses + 1.2 Pembagian dokumen menjadi topik + 1.3 Penghitungan bobot + Representasi dokumen Topik 1.4 Pemilihan kalimat paling penting dari topik Kalimat Ringkasan
(46)
33
Pilih File
Set Kompresi %
Teks Asli Ringkasan
Proses
3.4.Perancangan Antarmuka Sistem
3.4.1.Antarmuka Sistem
Antar muka sistem merupakan tampilan sistem yang berfungsi untuk membantu pengguna dalam menggunakan sistem.
Antarmuka sistem pada penelitian ini dibuat sesederhana mungkin dengan tujuan untuk mengurangi penggunaan waktu yang tidak relevan pada proses sistem serta membantu pengguna dalam memahami dan menggunakan sistem. Adapun rancangan antarmuka sistem terdiri atas beberapa komponen dasar, yaitu : tombol pilih file, kolom set tingkat kompresi, kolom teks asli, kolom ringkasan dan tombol proses.
Adapun bentuk ataupun gambaran dari antarmuka sistem yang akan dibuat dapat dilihat pada Gambar 3.8 berikut :
Gambar 3.8 Tampilan Antarmuka Sistem
(47)
34
Berikut ini merupakan rincian dari rancangan tampilan antarmuka sistem pada Gambar 3.8 yang akan dibuat, yaitu :
a. Tombol Pilih File, dimana user dapat memilih salah satu file berita yang telah di simpan di direktori.
b. Kolom set tingkat kompresi, dimana user dapat menentukan berapa persen tingkat dari hasil ringkasan. Interval yang diberikan 0 sampai 100 persen. c. Kolom teks asli, akan menampilkan teks asli dari berita yang dipilih.
d. Kolom ringkasan, akan menampilkan hasil ringkasan dari berita yang dipilih.
e. Tombol proses, setelah user memilih file berita dan menentukan tingkat kompresi ringkasan maka user bisa meng-klik perintah proses.
(48)
4BAB 4
IMPLEMENTASI DAN PENGUJIAN
Dalam bab ini akan dibahas mengenai implementasi peringkasan teks berita secara otomatis menggunakan term frequency inverse document frequency. Untuk mengetahui apakah implementasi aplikasi tersebut berhasil atau tidak, serta dilakukan pengujian terhadap sistem. Berikut ini hasil implementasi dari aplikasi yang telah dibangun.
4.1.Implementasi Sistem
Berdasarkan hasil analisis dan perancangan sistem yang telah dilakukan, maka dilakukan implementasi sistem peringkasan teks berita secara otomatis menggunakan
term frequency inverse document frequency ke dalam bentuk program dengan
menggunakan bahasa pemrograman PHP. Artinya sistem akan dijalankan pada
browser sebagai media pemrosesan dan interface sistem dengan menggunakan
software XAMPP.
4.1.1.Spesifikasi Perangkat Keras dan Perangkat Lunak
Lingkungan implementasi merupakan lingkungan perangkat lunak yang digunakan untuk membangun dan mengoperasikan perangkat lunak. Berikut ini merupakan spesifikasi perangkat keras dan perangkat lunak yang digunakan dalam pembuatan sistem, yaitu:
Spesifikasi perangkat keras yang digunakan :
1. Processor AMD C60 APU with Radeon(tm) HD Graphics 1.00 GHz 2. Memory RAM yang digunakan 2 GB
3. Kapasitas Hardisk 320GB
Spesifikasi perangkat lunak yang digunakan :
1. Sistem Operasi yang digunakan Windows 7 Ultimate 32-bit
(49)
36
2. XAMPP win32-1.8.3-4-VC11 3. PHP 5.6
4. Mozilla Firefox 30.0
4.1.2.Tampilan Awal
Pada tampilan awal sistem dibuat sederhana agar mudah dalam menggunakan sistem serta membuang waktu yang tidak relevan, dengan rincian sebagai berikut :
1. Tombol Pilih File untuk mencari dan memilih file txt yang akan diuji
2. Kolom Set Tingkat Kompresi untuk membatasi jumlah maksimum kalimat hasil ringkasan.
3. Kolom Teks Asli sebagai media untuk menampilkan teks berita hasil dari pemilihan file berita.
4. Kolom Ringkasan sebagai media untuk menampilkan ringkasan teks hasil dari proses peringkasan teks berita.
5. Tombol Proses untuk memulai eksekusi proses peringkasan. Tampilan awal sistem dapat dilihat pada Gambar 4.1 berikut:
Gambar 4.1 Tampilan Awal Sistem
4.1.3.Tampilan Proses Sistem
Pada Gambar 4.2 menampilkan proses pemilihan dari peringkasan teks berita dimana user memilih file teks berita dan menentukan tingkat kompresi ringkasan.
(50)
37
Gambar 4.2 Tampilan Proses Pemilihan
Setelah kita memilih file teks berita dan menentukan tingkat kompresi ringkasan, maka akan didapat tampilan hasil proses pemilihan seperti terlihat pada Gambar 4.1 berikut :
Gambar 4.3 Tampilan Hasil Proses Pemilihan
4.1.4.Tampilan Hasil Sistem
Setelah kita melewati tahap pemilihan file berita dan menentukan tingkat kompresi hasil ringkasan, kemudian eksekusi proses peringkasan dengan tombol proses maka hasil ringkasan akan terlihat seperti Gambar 4.4 berikut :
(51)
38
Gambar 4.4 Tampilan Hasil Ringkasan 4.2.Pengujian Sistem
Pengujian yang dilakukan pada sistem adalah melihat hasil ringkasan teks berita yang menggunakan term frequency inverse document frequency. Hal ini dilakukan untuk mengetahui seberapa besar pengaruhnya dan perbedaan teks asli terhadap hasil ringkasan.
4.2.1.Pengujian Tampilan Sistem
Pengujian yang dilakukan pada tampilan sistem berupa fungsi dari tiap komponen, algoritma serta teknik yang digunakan. Rancanagn pengujian dapat dilihat pada Tabel 4.1 dan dilanjutkan dengan hasil pengujian pada Tabel 4.2 berikut ini :
Tabel 4.1 Rancangan Pengujian Tampilan Sistem
No Komponen Sistem Yang Diuji Butir Uji
1 Tombol Pilih File mencari dan memilih file txt yang akan diuji
2 Kolom Set Tingkat Kompresi membatasi jumlah maksimum kalimat hasil ringkasan
3 Kolom Teks Asli menampilkan teks berita hasil dari pemilihan file berita
4 Kolom Ringkasan menampilkan ringkasan teks hasil dari proses peringkasan teks berita
5 Tombol Proses memulai eksekusi proses peringkasan
(52)
39
No Komponen Sistem Yang Diuji Hasil Pengujian
1 Tombol Pilih File Berhasil
2 Kolom Set Tingkat Kompresi Berhasil
3 Kolom Teks Asli Berhasil
4 Kolom Ringkasan Berhasil
5 Tombol Proses Berhasil
Berdasarkan pada Gambar 4.4 terlihat hasil implementasi dan pengujian sistem, maka dapat disimpulkan bahwa algoritma term frequency inverse document frequency dapat digunakan untuk meringkas teks.
(53)
5BAB 5
KESIMPULAN DAN SARAN
Pada bab ini akan dibahas mengenai kesimpulan dan saran berdasarkan analisis dan pengujian yang dilakukan dalam menyelesaikan permasalahannya, yaitu meringkas teks berita secara otomatis menggunakan term frequency inverse document frequency.
5.1.Kesimpulan
Dari penelitian yang telah dilakukan dapat disimpulkan bahwa metode TF-IDF (Term
Frequency and Inverse Document Frequency) dapat digunakan untuk meringkas teks
secara otomatis meskipun tidak melalui proses stemming. Dan menghasilkan ringkasan teks yang tetap memiliki bagian-bagian yang penting dan dominan dari teks asli meskipun secara makna dan tata bahasa belum baik.
5.2.Saran
Pada penelitian selanjutnya disarankan untuk menggunakan metode dan algoritma yang lebih baik lagi. Hasil ringkasan teks otomatis perlu dilakukan perbandingan terhadap hasil ringkasan secara manual serta tidak hanya untuk meringkas teks berbahasa Indonesia saja melainkan bahasa asing yang lain, seperti bahasa Inggris dan lainnya.
(54)
DAFTAR PUSTAKA
Adriani, M., Asian, J., Nazief, B., Tahaghoghi, S.M.M. & Williams, H.E. 2007. Stemming Indonesian : A Confix-Stripping Approach. Transaction on Asian Langeage Information Processing. Vol. 6, No. 4, Articel 13. Association for Computing Machinery : New York .
Agusta, L. 2009. Perbandingan Algoritma stemming Porter dengan algoritma Nazief & Adriani untuk Stemming Dokumen Teks Bahasa Indonesia.Prosiding
Konferensi Nasional Sistem dan Informatika, pp. 196-201.
Akbar, Fakhreza. 2011. Menentukan Nilai Tes Esai Online Menggunakan Algoritma Latent Semantic Analysis (LSA) dengan Pembobotan Term Frequency/
Inverse Document Frequency. Skripsi. Medan, Indonesia: Universitas
Sumatera Utara.
Alwi, H., Dardjowidjojo, S. &Lapoliwa, A.M., 2003. Tata Bahasa Baku Bahasa Indonesia.Edisi Ketiga. Balai Pustaka : Jakarta.
Aristoteles. 2013. Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen
Bahasa Indonesia. Skripsi. Lampung. Indonesia: Universitas Lampung.
Asian, J., Williams, H.E. & Tahaghoghi, S.M.M. 2005. Stemming Indonesia.
Proceedings of the Twenty-eighth Australasian conference on Computer
Science.Vol. 38, hal. Australia : Association for Computing Machinery.
Berry, M.W. & Kogan, J. 2010. Text Mining Aplication and theory. WILEY : United Kingdom.
Budiman, K. 2011. Dasar-dasar Jurnalistik. (Online)
http://www.akirahmedia.com/main/articledetail/7 (24 Desember 2013).
Djuroto, Totok. 2004. Manajemen Penerbitan Pers. Bandung : PT Remaja Rosdakarya.
Dragut, E., Fang, F., Sistla, P., Yu, S. & Meng, W. 2009. Stop Word and Related
Problems in Web Interface Integration.(Online)http://www.vldb.org/pvldb/2/vldb09-384.pdf (24
Desember 2013).
Dharwiyanti, S dan Wahono, S.R., 2003. Pengantar Unified Modeling Language.
(Online) http://IlmuKomputer.com.
Davis, S.T. 1999. Chapter-Five : Logic (process) Flowchart. CRC Press : United State.
(55)
42
Erkan, Gunes & Radev Dragomir R.. “LexRank : Graph-Based Centrality as Salience in Text Summarization.” Journal of Artificial Intelegence Research 22, 2004: 1-23.
Fajar, M. 2008. Media cetak era digital. (Online) www.emfajar.net/internet/media-cetak-di-era-digital/(24Desember 2013).
Feldman, R & Sanger, J. 2007. The Text Mining Handbook : Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press : New York.
Firmin, T. &M.J Chrzanowski. 1999. An Evaluation of Automatic Text Summarization System. The MIT Press : Cambrige.
Han, J & Kamber, M. 2006 Data Mining: Concepts and Techniques Second Edition. Morgan Kaufmann publisher : San Francisco.
Hariyanto, B., 2004. Rekayasa Sistem Berorientasi Objek. Bandung: Informatika Bandung.
Hovy, E. 2001. Automated Text Summarization. In R. Mitkov. (Eds).Handbook of
computation linguistics. Oxford:Oxford University Press.
Hovy, E & Marcu, D. 1998. Automated Text summarization Tutorial, Information Sciences Institute, University of Southern California.
Kurniawan, Bambang. 2012. Klasifikasi Konten Berita Menggunakan Text Mining.
Skripsi. Medan. Indonesia: Universitas Sumatera Utara.
Kridalaksana, H. 2009. Pembentukkan Kata dalam Bahasa Indonesia. Gramedia Pustaka Utama : Jakarta.
Maeseener, P. D. 1999. Here’s The News : A Radio News Manual. United States : Unesco Asosiate.
Mani, Inderjeet. 2001. Summarization Evaluation: An Overview. The MITRE Corporation, W640 11493 Sunset Hills Road Reston, VA 20190-5214 USA.
Mani, I. &Maybury, M. T. 1999. Advance in Automatic Text Summarization. The MIT Press: Cambrige.
Muslich, M., 2008. Tata Bentuk Bahasa Indonesia : Kajian ke Arah Tata Bahasa Deskriptif. Bumi Aksara : Jakarta.
Mustaqhfiri, M., Abidin Z. &Kusumawati, R.2011. Peringkasan Teks Otomatis Berbahasa Indonesia Menggunakan Metode Maximum Marginal Relevance.Ejournal Matics4(4) : 135-147.
(56)
43
Robertson, S., 2004. “Understanding Inverse Document Frequency: On theoretical arguments for IDF”, Journal ofDocumentation, Vol.60, no.5, pp. 503-520.
Setiawan, I. 2006. Progrmmable Logic Controller dan Teknik Perancangan Sistem Kontrol. Andi : Yogyakarta.
Sulthan, Aniesma. 2012. Peringkasan Teks Otomatis Berbasis Web Menggunakan
Algoritma Hill Climbing. Skripsi. Jakarta, Indonesia: Universitas Mercu Buana.
Tala, Fadillah Z. 2003. A Study of Stemming Efects on Information Retrieval in Bahasa Indonesia. Institute for Logic, Language and ComputationUniversiteit van Amsterdam The Netherlands.
(Online)http://www.illc.uva.nl/Research/Reports/MoL-2003-02.text.pdf. (04 Januari
2014).
Weiss, S.M., Indurkhya, N., Zhang, T. &Damerau, F.J. (Editor). 2005. Text Mining :
Predictive Methods fo Analyzing Unstructered Information. Springer : New
York.
Zafikri, Atika. 2008. Implementasi Metode Term Frequency Inverse Document
Frequency (TF-IDF) pada Sistem Temu Kembali informasi. Skripsi. Medan.
Indonesia: Universitas Sumatera Utara.
(1)
38
Gambar 4.4 Tampilan Hasil Ringkasan
4.2.Pengujian Sistem
Pengujian yang dilakukan pada sistem adalah melihat hasil ringkasan teks berita yang menggunakan term frequency inverse document frequency. Hal ini dilakukan untuk mengetahui seberapa besar pengaruhnya dan perbedaan teks asli terhadap hasil ringkasan.
4.2.1.Pengujian Tampilan Sistem
Pengujian yang dilakukan pada tampilan sistem berupa fungsi dari tiap komponen, algoritma serta teknik yang digunakan. Rancanagn pengujian dapat dilihat pada Tabel 4.1 dan dilanjutkan dengan hasil pengujian pada Tabel 4.2 berikut ini :
Tabel 4.1 Rancangan Pengujian Tampilan Sistem No Komponen Sistem Yang Diuji Butir Uji
1 Tombol Pilih File mencari dan memilih file txt yang akan diuji
2 Kolom Set Tingkat Kompresi membatasi jumlah maksimum kalimat hasil ringkasan
3 Kolom Teks Asli menampilkan teks berita hasil dari pemilihan file berita
4 Kolom Ringkasan menampilkan ringkasan teks hasil dari proses peringkasan teks berita
(2)
39
No Komponen Sistem Yang Diuji Hasil Pengujian
1 Tombol Pilih File Berhasil
2 Kolom Set Tingkat Kompresi Berhasil
3 Kolom Teks Asli Berhasil
4 Kolom Ringkasan Berhasil
5 Tombol Proses Berhasil
Berdasarkan pada Gambar 4.4 terlihat hasil implementasi dan pengujian sistem, maka dapat disimpulkan bahwa algoritma term frequency inverse document frequency dapat digunakan untuk meringkas teks.
(3)
5BAB 5
KESIMPULAN DAN SARAN
Pada bab ini akan dibahas mengenai kesimpulan dan saran berdasarkan analisis dan pengujian yang dilakukan dalam menyelesaikan permasalahannya, yaitu meringkas teks berita secara otomatis menggunakan term frequency inverse document frequency.
5.1.Kesimpulan
Dari penelitian yang telah dilakukan dapat disimpulkan bahwa metode TF-IDF (Term Frequency and Inverse Document Frequency) dapat digunakan untuk meringkas teks secara otomatis meskipun tidak melalui proses stemming. Dan menghasilkan ringkasan teks yang tetap memiliki bagian-bagian yang penting dan dominan dari teks asli meskipun secara makna dan tata bahasa belum baik.
5.2.Saran
Pada penelitian selanjutnya disarankan untuk menggunakan metode dan algoritma yang lebih baik lagi. Hasil ringkasan teks otomatis perlu dilakukan perbandingan terhadap hasil ringkasan secara manual serta tidak hanya untuk meringkas teks berbahasa Indonesia saja melainkan bahasa asing yang lain, seperti bahasa Inggris dan lainnya.
(4)
DAFTAR PUSTAKA
Adriani, M., Asian, J., Nazief, B., Tahaghoghi, S.M.M. & Williams, H.E. 2007. Stemming Indonesian : A Confix-Stripping Approach. Transaction on Asian Langeage Information Processing. Vol. 6, No. 4, Articel 13. Association for Computing Machinery : New York .
Agusta, L. 2009. Perbandingan Algoritma stemming Porter dengan algoritma Nazief & Adriani untuk Stemming Dokumen Teks Bahasa Indonesia.Prosiding Konferensi Nasional Sistem dan Informatika, pp. 196-201.
Akbar, Fakhreza. 2011. Menentukan Nilai Tes Esai Online Menggunakan Algoritma Latent Semantic Analysis (LSA) dengan Pembobotan Term Frequency/ Inverse Document Frequency. Skripsi. Medan, Indonesia: Universitas Sumatera Utara.
Alwi, H., Dardjowidjojo, S. &Lapoliwa, A.M., 2003. Tata Bahasa Baku Bahasa Indonesia.Edisi Ketiga. Balai Pustaka : Jakarta.
Aristoteles. 2013. Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia. Skripsi. Lampung. Indonesia: Universitas Lampung.
Asian, J., Williams, H.E. & Tahaghoghi, S.M.M. 2005. Stemming Indonesia.
Proceedings of the Twenty-eighth Australasian conference on Computer Science.Vol. 38, hal. Australia : Association for Computing Machinery.
Berry, M.W. & Kogan, J. 2010. Text Mining Aplication and theory. WILEY : United Kingdom.
Budiman, K. 2011. Dasar-dasar Jurnalistik. (Online)
http://www.akirahmedia.com/main/articledetail/7 (24 Desember 2013).
Djuroto, Totok. 2004. Manajemen Penerbitan Pers. Bandung : PT Remaja Rosdakarya.
Dragut, E., Fang, F., Sistla, P., Yu, S. & Meng, W. 2009. Stop Word and Related
Problems in Web Interface Integration.(Online)http://www.vldb.org/pvldb/2/vldb09-384.pdf (24
Desember 2013).
Dharwiyanti, S dan Wahono, S.R., 2003. Pengantar Unified Modeling Language.
(Online) http://IlmuKomputer.com.
Davis, S.T. 1999. Chapter-Five : Logic (process) Flowchart. CRC Press : United State.
(5)
42
Erkan, Gunes & Radev Dragomir R.. “LexRank : Graph-Based Centrality as Salience in Text Summarization.” Journal of Artificial Intelegence Research 22, 2004: 1-23.
Fajar, M. 2008. Media cetak era digital. (Online) www.emfajar.net/internet/media-cetak-di-era-digital/(24Desember 2013).
Feldman, R & Sanger, J. 2007. The Text Mining Handbook : Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press : New York. Firmin, T. &M.J Chrzanowski. 1999. An Evaluation of Automatic Text
Summarization System. The MIT Press : Cambrige.
Han, J & Kamber, M. 2006 Data Mining: Concepts and Techniques Second Edition. Morgan Kaufmann publisher : San Francisco.
Hariyanto, B., 2004. Rekayasa Sistem Berorientasi Objek. Bandung: Informatika Bandung.
Hovy, E. 2001. Automated Text Summarization. In R. Mitkov. (Eds).Handbook of computation linguistics. Oxford:Oxford University Press.
Hovy, E & Marcu, D. 1998. Automated Text summarization Tutorial, Information Sciences Institute, University of Southern California.
Kurniawan, Bambang. 2012. Klasifikasi Konten Berita Menggunakan Text Mining.
Skripsi. Medan. Indonesia: Universitas Sumatera Utara.
Kridalaksana, H. 2009. Pembentukkan Kata dalam Bahasa Indonesia. Gramedia Pustaka Utama : Jakarta.
Maeseener, P. D. 1999. Here’s The News : A Radio News Manual. United States : Unesco Asosiate.
Mani, Inderjeet. 2001. Summarization Evaluation: An Overview. The MITRE Corporation, W640 11493 Sunset Hills Road Reston, VA 20190-5214 USA. Mani, I. &Maybury, M. T. 1999. Advance in Automatic Text Summarization. The
MIT Press: Cambrige.
Muslich, M., 2008. Tata Bentuk Bahasa Indonesia : Kajian ke Arah Tata Bahasa Deskriptif. Bumi Aksara : Jakarta.
Mustaqhfiri, M., Abidin Z. &Kusumawati, R.2011. Peringkasan Teks Otomatis Berbahasa Indonesia Menggunakan Metode Maximum Marginal Relevance.Ejournal Matics4(4) : 135-147.
(6)
43
Robertson, S., 2004. “Understanding Inverse Document Frequency: On theoretical arguments for IDF”, Journal ofDocumentation, Vol.60, no.5, pp. 503-520. Setiawan, I. 2006. Progrmmable Logic Controller dan Teknik Perancangan Sistem
Kontrol. Andi : Yogyakarta.
Sulthan, Aniesma. 2012. Peringkasan Teks Otomatis Berbasis Web Menggunakan Algoritma Hill Climbing. Skripsi. Jakarta, Indonesia: Universitas Mercu Buana. Tala, Fadillah Z. 2003. A Study of Stemming Efects on Information Retrieval in
Bahasa Indonesia. Institute for Logic, Language and ComputationUniversiteit van Amsterdam The Netherlands.
(Online)http://www.illc.uva.nl/Research/Reports/MoL-2003-02.text.pdf. (04 Januari 2014).
Weiss, S.M., Indurkhya, N., Zhang, T. &Damerau, F.J. (Editor). 2005. Text Mining : Predictive Methods fo Analyzing Unstructered Information. Springer : New York.
Zafikri, Atika. 2008. Implementasi Metode Term Frequency Inverse Document Frequency (TF-IDF) pada Sistem Temu Kembali informasi. Skripsi. Medan. Indonesia: Universitas Sumatera Utara.