Peringkasan teks berita secara Otomatis menggunakan TF.IDF

(1)

PERINGKASAN TEKS BERITA SECARA OTOMATIS

MENGGUNAKAN TERM FREQUENCY INVERSE

DOCUMENT FREQUENCY (TF-IDF)

SKRIPSI

DANDUNG TRI SETIAWAN

071402054

PROGRAM STUDI TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

2014


(2)

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN

TERM FREQUENCY-INVERSE DOCUMENT FREQUENCY (TF-IDF)

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi

DANDUNG TRI SETIAWAN 071402054

PROGRAM STUDI TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATER UTARA

MEDAN 2014


(3)

ii

PERSETUJUAN

Judul : PERINGKASAN TEKS BERITA SECARA

OTOMATIS MENGGUNAKAN TF.IDF

Kategori : SKRIPSI

Nama : DANDUNG TRI SETIAWAN

Nomor Induk Mahasiswa : 071402054

Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI

Departemen : TEKNOLOGI INFORMASI

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI

INFORMASI UNIVERSITAS SUMATERA UTARA

Diluluskan di

Medan, Agustus 2014

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

M Anggia Muchtar, ST, M.MIT Prof. Dr. Opim Salim Sitompul, M.Sc NIP. 19800110 200801 1 010 NIP. 19610817 198701 1 001

Diketahui/Disetujui oleh

Program Studi S1 Teknologi Informasi Ketua,

M Anggia Muchtar, ST, M.MIT NIP. 19800110 200801 1 010


(4)

iii

PERNYATAAN

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF)

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, Agustus 2014

Dandung Tri Setiawan 071402054


(5)

iv

UCAPAN TERIMA KASIH

Alhamdulillah, segala puji dan syukur penulis ucapkan kehadirat Allah SWT, serta shalawat dan salam kepada junjungan alam nabi Muhammad SAW, karena atas berkah, rahmat dan hidayah-Nya penulis mampu menyelesaikan skripsi ini.

Dalam penulisan skripsi ini penulis banyak mendapatkan bantuan serta dorongan dari pihak lain. Dalam kesempatan ini dengan segala kerendahan hati, penulis mengucapkan terima kasih sebesar-besarnya kepada:

1. Umi dan Papa selaku kedua orang tua penulis Fatimah dan M. Yahmin, karena berkat dukungannya baik secara moril maupun materil secara terus disetiap saat, sehingga penulis dapat menyelesaikan skripsi ini.

2. Pihak keluarga, kakak, abang, adik dan seluruh keluarga.

3. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc, Bapak M. Anggia Muchtar, ST, M.MIT selaku dosen pembimbing penulis yang telah bersedia meluangkan waktu untuk memberikan saran dalam menyelesaikan skripsi ini.

4. Ketua dan Sekretaris Program Studi S-1 Teknologi Informasi Bapak M. Anggia Muchtar, ST, M.MIT dan Bapak M. Fadhly Syahputra, M.Sc.

5. Dekan dan Pembantu Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara serta semua dosen dan pegawai di Program Studi S-1 Teknologi Informasi.

6. Ibu Dr. Erna Budhiarti Nababan, M.IT dan Bapak Dr. Syahril Effendi, S.Si, M.IT selaku dosen pembanding dan penguji yang telah banyak memberikan saran dan kritik dalam menyelesaikan skripsi ini.

7. Seluruh rekan-rekan kuliah sejawat yang tidak dapat disebutkan satu persatu.

Dalam penyusunan skripsi ini penulis menyadari bahwa masih banyak kekurangan, untuk itu penulis mengharapkan saran dan kritik yang bersifat membangun dari semua pihak demi kesempuranaan skripsi ini.

Akhir kata penulis mengharapkan semoga skripsi ini dapat bermanfaat dan membantu semua pihak yang memerlukannya.


(6)

v

ABSTRAK

Perkembangan teknologi internet berdampak bertambahnya jumlah situs berita dan menciptakan ledakan informasi. Hal tersebut menuntut semua informasi bisa diakses dengan cepat dan tidak harus membutuhkan banyak waktu dalam membaca sebuah berita. Teknologi peringkas teks otomatis menawarkan solusi untuk membantu pencarian isi berita berupa deskripsi singkat. Penelitian diawali dengan tahap text preprocessing, feature selection dan proses selanjutnya menghitung bobot tf-idf. Hasil dari penelitian ini menunjukkan bahwa metode tf-idf dapat digunakan untuk meringkas teks secara otomatis meskipun tidak sampai pada proses stemming. Sistem dengan metode tf-idf masih memiliki kelemahan yaitu ringkasan teks yang dihasilkan kurang mencerminkan isi berita dan secara tata bahasa masih belum baik.

Kata Kunci : ringkasan, ringkasan teks, peringkasan teks otomatis, tf-idf, berita.


(7)

vi

THE AUTOMATIC NEWS TEXT SUMMARIZATION BY USING TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF)

ABSTRACT

The development of internet technology affect the increasing of news web and create an information explosion. This make all information can be accessed fast and not need so much time in reading a news. The automaic summarizaton technology of text give solution in searching the content of news in short description. This study begins with the processing text step, feature selection and count the amount tf-idf. The result of this study show that tf-idf can be used to summarize text automatcally though it cannot reach stemming process. The system of tf.idf method still has some weaknesses that is the result of text does not interprete the content of text and there are also some of text grammar.

Keywords : summary, teks summarization, automatic text summarization, term frequency, inverse document frequency, tf-idf, news.


(8)

vii

DAFTAR ISI

Hal.

Persetujuan ii

Pernyataan iii

Ucapan Terima Kasih iv

Abstrak v

Abstract vi

Daftar Isi vii

Daftar Tabel ix

Daftar Gambar x

1 Bab 1 Pendahuluan 1

1.1. Latar Belakang 1

1.2. Rumusan Masalah 2

1.3. Tujuan Penelitian 2

1.4. Manfaat Penelitian 2

1.5. Batasan Masalah 3

1.6. Metodologi Penelitian 3

1.7. Sistematika Penulisan 4

2 Bab 2 Landasan Teori 6

2.1. Peringkasan Teks Otomatis 6

2.2. Berita 9

2.2.1. Nilai-Nilai Berita 9

2.2.2. Unsur-Unsur Berita 10

2.2.3. Anatomi Berita 10

2.3. Text Mining 12

2.4. Kata 13

2.5. Kalimat 14

2.6. Paragraf 14


(9)

viii

2.7. Term Frequency Inverse Document Frequency (TF-IDF) 15

2.8. Flowchart 17

2.9. Penelitian Terdahulu 18

3 Bab 3 Analisis dan Perancangan 21

3.1. Analisis Data 21

3.1.1. Data Berita 21

3.1.2. Data Stopword 23

3.1.3. Data Kata Dasar 23

3.2. Analisis Sistem 24

3.2.1. Text Preprocessing 24

3.2.2. Feature Selection 26

3.2.3. Contoh penggunaan algoritma (tf/idf) 28

3.3. Perancangan Sistem 31

3.3.1. Diagram konteks 31

3.3.2. DFD level 1 32

3.4. Perancangan Antarmuka Sistem 33

4 Bab 4 Implementasi dan Pengujian 35

4.1. Implementasi Sistem 35

4.1.1. Spesifikasi Perangkat Keras dan Perangkat Lunak 35

4.1.2. Tampilan Awal 36

4.1.3. Tampilan Proses Sistem 36

4.1.4. Tampilan Hasil Sistem 37

4.2. Pengujian Sistem 38

5 Bab 5 Kesimpulan dan Saran 40

5.1. Kesimpulan 40

5.2. Saran 40


(10)

ix

DAFTAR TABEL

Hal.

Tabel 2.1 Fungsi simbol-simbol flowchart 18

Tabel 2.2 Penelitian terdahulu 20

Tabel 3.1 Tabel Berita 22

Tabel 3.2 Tabel Stopword 23

Tabel 3.3 Tabel kata dasar 23

Tabel 3.4 Hasil dari proses text preprocessing 26

Tabel 3.5 Hasil dari proses text preprocessing yang dijadikan input. 27

Tabel 3.6 Kumpulan stopword 27

Tabel 3.7 Hasil dari proses filtering 28

Tabel 3.8 Menghitung tf 29

Tabel 3.9 Menghitung df 29

Tabel 3.10 Menghitung idf (1) 30

Tabel 3.11 Menghitung idf (2) 30

Tabel 3.12 Menghitung tf.id 31

Tabel 4.1 Rancangan Pengujian Tampilan Sistem 38

Tabel 4.2 Hasil Pengujian Tampilan Sistem 39


(11)

x

DAFTAR GAMBAR

Hal.

Gambar 2.1 Mesin Peringkas Teks 8

Gambar 2.2 Modul Peringkas Teks 9

Gambar 2.3 Anatomi Berita 11

Gambar 2.4 Tahapan-tahapan peringkasan teks otomatis metode TF-IDF 17

Gambar 3.1 Skema proses pengambilan berita 21

Gambar 3.2 Flowchart Text Preprocessing 25

Gambar 3.3 Contoh kalimat yang akan diinput 25

Gambar 3.4 Contoh kalimat setelah ToLowerCase 25

Gambar 3.5 Flowchart proses filtering 27

Gambar 3.6 Konteks Diagram Peringkas Teks Otomatis 32

Gambar 3.7 DFD peringkas teks otomatis 32

Gambar 3.8 Tampilan Antarmuka Sistem 33

Gambar 4.1 Tampilan Awal Sistem 36

Gambar 4.2 Tampilan Proses Pemilihan 37

Gambar 4.3 Tampilan Hasil Proses Pemilihan 37


(12)

v

ABSTRAK

Perkembangan teknologi internet berdampak bertambahnya jumlah situs berita dan menciptakan ledakan informasi. Hal tersebut menuntut semua informasi bisa diakses dengan cepat dan tidak harus membutuhkan banyak waktu dalam membaca sebuah berita. Teknologi peringkas teks otomatis menawarkan solusi untuk membantu pencarian isi berita berupa deskripsi singkat. Penelitian diawali dengan tahap text preprocessing, feature selection dan proses selanjutnya menghitung bobot tf-idf. Hasil dari penelitian ini menunjukkan bahwa metode tf-idf dapat digunakan untuk meringkas teks secara otomatis meskipun tidak sampai pada proses stemming. Sistem dengan metode tf-idf masih memiliki kelemahan yaitu ringkasan teks yang dihasilkan kurang mencerminkan isi berita dan secara tata bahasa masih belum baik.

Kata Kunci : ringkasan, ringkasan teks, peringkasan teks otomatis, tf-idf, berita.


(13)

vi

THE AUTOMATIC NEWS TEXT SUMMARIZATION BY USING TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF)

ABSTRACT

The development of internet technology affect the increasing of news web and create an information explosion. This make all information can be accessed fast and not need so much time in reading a news. The automaic summarizaton technology of text give solution in searching the content of news in short description. This study begins with the processing text step, feature selection and count the amount tf-idf. The result of this study show that tf-idf can be used to summarize text automatcally though it cannot reach stemming process. The system of tf.idf method still has some weaknesses that is the result of text does not interprete the content of text and there are also some of text grammar.

Keywords : summary, teks summarization, automatic text summarization, term frequency, inverse document frequency, tf-idf, news.


(14)

1BAB 1 PENDAHULUAN

1.1.Latar Belakang

Seiring perkembangan teknologi informasi mengakibatkan teknologi internet semakin pesat yang berdampak pada penggunaan internet. Tujuannya adalah untuk mendapatkan informasi dengan cepat dan akurat. Seiring bertambahnya informasi, maka berbanding lurus dengan dokumen yang ada di dunia internet, salah satu contohnya adalah dokumen berita.

Dokumen berita merupakan kumpulan informasi tentang banyak peristiwa penting terjadi dan terbaru secara berkala. Memahami isi dokomen berita melalui ringkasan teks memerlukan waktu yang lebih singkat dibandingkan membaca seluruh isi dokumen, sehingga ringkasan teks menjadi sangat penting. Dengan adanya ringkasan, diharapkan pembaca dapat dengan cepat dan mudah memahami makna sebuah teks tanpa harus membaca keseluruhan teks. Selain dapat menghemat waktu, pembaca juga dapat menghindari pembacaan teks yang tidak relevan dengan informasi yang diharapkan oleh pembaca, terutama ketika sangat banyak informasi tersedia di internet.

Ringkasan dibutuhkan untuk mendapatkan isi artikel secara ringkas. Konsep sederhana ringkasan adalah mengambil bagian penting dari keseluruhan isi dari artikel. Menurut Mani dan Maybury, ringkasan adalah mengambil isi yang paling penting dari sumber informasi yang kemudian menyajikannya kembali dalam bentuk yang lebih ringkas bagi penggunanya (Mani dan Maybury, 1999). Namun demikian, membuat ringkasan manual dengan dokumen yang banyak akan memerlukan waktu dan biaya yang besar. Sehingga diperlukan suatu sistem peringkasan secara otomatis untuk mengatasi masalah waktu baca dan biaya.


(15)

2

Peringkasan teks otomatis (automatic text summarization) adalah proses menghasilkan teks yang lebih pendek daripada teks aslinya menggunakan perangkat berbasis komputer. Banyak instansi yang bergerak dalam penyaluran informasi masyarakat atau berita yang pada awalnya menyampaikan berita melalui media Televisi, Surat Kabar, Majalah atau Radio sudah mulai menggunakan sistem berbasis

web untuk menyampaikan beritanya secara up to date (Fajar, 2008). Aplikasi peringkasan teks otomatis merupakan teknologi yang menawarkan solusi untuk mencari informasi dengan menghasilkan ringkasan (summary) berita.

Term frequency inverse document frequency (TF-IDF) adalah salah satu

metode yang dapat digunakan untuk melakukan peringkasan teks. Metode TF-IDF adalah cara pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua konsep untuk penghitungan bobot, yaitu Term Frequency (TF) merupakan frekuensi kemunculan kata (t) pada kalimat (d). Document Frequency

(DF) adalah banyaknya kalimat dimana suatu kata (t) muncul.

Berdasarkan dari uraian latar belakang diatas, maka penulis memilih judul “peringkasan teks berita secara otomatis menggunakan term frequency inverse

document frequency“.

1.2.Rumusan Masalah

Berdasarkan latar belakang di atas maka rumusan masalah pada penelitian ini adalah bagaimana mendapatkan ringkasan pada sebuah berita secara otomatis.

1.3.Tujuan Penelitian

Tujuan dari penelitian ini adalah penggunaan TF-IDF (term frequency inverse

document frequency) untuk memperoleh ringkasan berita secara otomatis dan

mengetahui ringkasan dari suatu berita dengan cepat.

1.4.Manfaat Penelitian

Manfaat yang dapat diperoleh dari penelitian ini adalah:

1. Memberikan efisiensi waktu bagi para pembaca berita dalam memahami berita melalui ringkasan berita.


(16)

3

2. Mengetahui kemampuan TF-IDF (term frequency inverse document frequency) untuk memperoleh ringkasan berita secara otomatis.

3. Menambah ilmu pengetahuan serta menjadi bahan referensi dan perbandingan untuk penelitian yang berkaitan dengan penggunaan term frequency inverse document frequency.

1.5.Batasan Masalah

Guna mencegah meluasnya cakupan permasalahan yang akan dibahas dalam studi ini dan untuk membuat studi ini lebih terarah, maka dilakukan pembatasan masalah sebagai berikut:

1. Algoritma yang digunakan dalam peringkasan ini adalah term frequency

inverse document frequency.

2. Data yang digunakan adalah berita politik 3. Jumlah data yang digunakan 50 berita

4. Berita yang digunakan dalam penelitian ini hanya berita berbahasa Indonesia. 5. Berita yang dimasukkan ke dalam sistem peringkasan adalah berita yang sudah

dinyatakan layak untuk dipublikasikan.

6. Penelitian ini tidak melakukan perbandingan algoritma.

7. Perancangan program aplikasi sistem peringkas teks berita ini menggunakan bahasa pemrograman PHP.

8. Sistem ini dibangun tidak disatukan dengan media berita yang sudah ada tetapi dengan membuat homepage sendiri dan mengunakan jaringan offline.

1.6.Metodologi Penelitian

Dalam penelitian ini, penulis melakukan beberapa metode untuk memperoleh data atau informasi dalam menyelesaikan permasalahan. Metode yang dilakukan tersebut antara lain :

1. Studi Literatur

Dilakukan studi literatur atau studi pustaka yaitu mengumpulkan bahan-bahan referensi baik dari buku, artikel, paper, jurnal, makalah, maupun situs internet.

2. Analisis

Hal-hal yang dilakukan tahap ini adalah :


(17)

4

a. Menganalisis tahap demi tahap dari proses peringkasan teks.

b. Cara kerja dari algoritma term frequency invers document frequency dalam meringkas teks.

3. Perancangan

Pada tahap ini dilakukan perancangan arsitektur, perancangan data, dan perancangan antarmuka.

4. Pengkodean

Pada tahap ini akan dilakukan proses implementasi pengkodean program dalam aplikasi komputer menggunakan bahasa pemrograman yang telah ditentukan.

5. Pengujian

Pada tahap ini dilakukan proses pengujian dan percobaan terhadap sistem sesuai dengan spesifikasi yang ditentukan sebelumnya serta memastikan program yang dibuat dapat berjalan seperti yang diharapkan.

6. Penyusunan Laporan

Pada tahap ini dilakukan penulisan dokumentasi hasil analisis dan implementasi.

1.7.Sistematika Penulisan

Tugas akhir ini disusun dalam lima bab dengan sistematika penulisan sebagai berikut :

BAB 1 : Pendahuluan

Pada bab ini dibahas mengenai latar belakang penulisan, rumusan masalah, batasan masalah, tujuan, manfaat, metodologi penelitian dan sistematika penulisan.

BAB 2 : Tinjauan Pustaka

Pada bab tinjauan pustaka berisi landasan teori, kerangka pikir dan hipotesis yang diperoleh dari acuan yang mendasari dalam melakukan penelitian ini.


(18)

5

Pada bab ini dibahas mengenai analisis terhadap permasalahan dan penyelesaian persoalan dalam pembuatan aplikasi serta menjelaskan tentang rancangan struktur program dan antarmuka dari aplikasi perangkat lunak yang akan dibuat.

BAB 4 : Implementasi dan Pengujian

Pada bab ini dibahas implementasi dari perangkat lunak serta berisikan gambaran antarmuka dari perangkat lunak yang akan dibuat. Selain itu, juga dilakukan pengujian untuk melihat perangkat lunak yang dibuat berhasil dijalankan atau tidak serta untuk menemukan kesalahan (error).

BAB 5 : Kesimpulan dan Saran

Pada bab ini berisi tentang kesimpulan yang didapat dari pembuatan skripsi dan saran-saran yang diharapkan dapat dikembangkan untuk penelitian selanjutnya.


(19)

2BAB 2

LANDASAN TEORI

2.1.Peringkasan Teks Otomatis

Sering kali kita membutuhkan ringkasan dari sebuah bacaan untuk mendapatkan secara ringkas dan cepat isi dari bacaan. Konsep sederhana dari ringkasan adalah mengambil bagian penting yang menggambarkan keseluruhan isi dari dokumen asal. Menurut Mani dan Maybury (Mani and Maybury, 1999), ringkasan adalah mengambil isi yang paling penting dari sumber informasi yang kemudian menyajikan kembali dalam bentuk yang lebih ringkas bagi penggunanya.Dalam Hovy (2001), summary

atau ringkasan didefinisikan sebagai sebuah teks yang dihasilkan dari satu atau lebih teks, mengandung informasi dari teks asli dan panjangnya tidak lebih dari setengah teks asli.

Peringkasan teks otomatis (automatic text summarization) adalah pembuatan versi yang lebih singkat dari sebuah teks dengan memanfaatkan aplikasi yang dijalankan pada komputer. Hasil peringkasan ini mengandung poin -poin penting dari teks asli.

2.1.1.Tipe Ringkasan

Berdasar teknik pembuatan, suatu ringkasan diambil dari bagian terpenting dari teks aslinya (Mani, 2001), terdapat 2 tipe yaitu :

1. Abstraktif

Tipe peringkasan abstraktif menghasilkan sebuah interpretasi terhadap teks aslinya. Dimana sebuah kalimat akan ditransformasikan menjadi kalimat yang lebih singkat dan kalimat baru yang tidak terdapat dalam dokumen yang asli atau dengan kalimat yang berbeda.


(20)

7

2. Ekstraktif

Tipe peringkasan ekstraktif menghasilkan suatu ringkasan dengan memilih sebagian dari kalimat yang ada dalam dokumen asli. Metode ini menggunakan metode statistical, linguistical dan heuristic atau kombinasi dari semuanya dalam menetapkan ringkasan suatu teks.

Berdasarkan teori, hasil ringkasan ekstraktif lebih baik dibandingkan dengan ringkasan abstraktif. Hal ini dikarenakan peringkasan abstraktif, seperti representasi semantik, inferens dan pembangun natural language relatif lebih sulit, dibandingkan pendekatan data driven, seperti ekstraksi kalimat (Erkan dan Radev, 2004). Sehingga kebanyakan penelitian dilakukan menggunakan metode ekstraktif.

Sedangkan model peringkasan teks otomatis ada dua yaitu ringkasan yang umum (generic summary) merupakan perwakilan dari teks asli yang mencoba untuk mempresentasikan semua fitur penting dari sebuah teks asal. Mengikuti pendekatan

bottom up (information retrieval) dan yang kedua ringkasan berpusat pada pemakai

(query driven) yaitu peringkasan bersandar pada spesifikasi kebutuhan informasi

pemakai, seperti topik atau query dan mengikuti pendekatan top down (information extraction).

Tujuan dari peringkasan teks (teks summarization) dapat dikategorikan berdasarkan maksud, fokus dan cakupannya (Firmin dan Chrzanowski, 1999), sebagai berikut :

1. Informatif

Informatif, ringkasan ini menyatakan informasi - informasi penting yang terdapat pada dokumen asal.

2. Indikatif

Indikatif, tujuan dari ringkasan ini adalah untuk dijadikan sebuah referensi, yang membantu pembaca untuk mengetahui isi dari teks daripada membaca keseluruhan teks yang ada. Ringkasan ini meliputi topik kunci dari teks asal. 3. Evaluatif

Evaluatif, atau ringkasan yang melibatkan pembuatan sebuah pertimbangan pada teks asal, seperti suatu tinjauan ulang atau opini.


(21)

8

4. User-focused (query-relevant)

User-focused, ringkasan yang dibuat berdasarkan topik yang dipilih oleh user, sering merupakan jawaban dari query yang dimiliki oleh user.

5. Generic

Generic, disebut juga author-focused, sifatnya lebih umum dan berdasarkan

pada teks aslinya.

6. Dokumen tunggal (single document)

Dokumen tunggal, ringkasan merupakan ringkasan dari satu dokumen. 7. Banyak dokumen (multi document)

Banyak dokumen, ringkasan merupakan hasil ringkasan dari banyak dokumen. Berikut gambar mesin dan modul peringkasan teks menurut (Hovy dan Marcu, 1998) :


(22)

9

Serta gambar modul peringkasan teks :

Gambar 2.2 Modul Peringkas Teks 2.2.Berita

Kata "berita" berasal dari bahasa sansekerta yaitu dari kata "vrit" yang sebenarnya berarti "terjadi" atau "ada" (Djuroto, 2004). Berita (news) adalah laporan mengenai suatu peristiwa atau kejadian yang terbaru (aktual); laporan mengenai fakta-fakta yang aktual, menarik perhatian, dinilai penting, atau luar biasa (Budiman, 2011).

Berita adalah informasi baru tentang kejadian yang baru, penting, dan bermakna, yang berpengaruh pada para pendengarnya serta relevan dan layak dinikmati (Maeseneer, 1999).

2.2.1.Nilai-Nilai Berita

Dalam menulis berita, ada beberapa hal yang perlu diperhatikan terkait nilai berita itu sendiri (Djuroto, 2004). Ada beberapa nilai berita yang dapat dikelompokkan sebagai acuan dalam sebuah penulisan. Beberapa nilai berita tesebut adalah sebagai berikut :

1. Magnitude (pengaruh) artinya seberapa luas pengaruh suatu berita terhadap

khalayak.


(23)

10

2. Significant (Arti) artinya seberapa penting arti dari suatu kejadian atau

peristiwa.

3. Actuality (Aktualitas) artinya seberapa besar tingkat aktualitas suatu kejadian atau peristiwa.

4. Proximity (Kedekatan) artinya bertia lokal lebih pas diberitakan di daerah

bersangkutan.

5. Prominence (Keakraban) artinya akrabnya suatu peristiwa terhadap khalayak.

6. Surprise (Kejutan).

7. Clarity (Kejelasan) kejadian atau peristiwa.

8. Dampak (Impact) artinya berdampak apakah berita tersebut terhadap khalayak. 9. Konflik.

10. Human Interest artinya kemampuan suatu peristiwa menyentuh perasaan

khalayak.

2.2.2.Unsur-Unsur Berita

Dalam penulisan berita kita harus memahami unsur dari suatu berita supaya memberi kemudahan kita dalam mendeskripsikan berita tersebut dan berita yang kita buat mudah untuk dipahami oleh khalayak ramai (Olii, 2007). Unsur-unsur berita tersebut adalah:

1. What (apa) artinya apa yang tengah terjadi. Peristiwa apa yang tengah terjadi. 2. Who (siapa) artinya siapa saja yang terlibat dalam peristiwa itu.

3. Where (dimana) artinya dimana lokasi terjadinya peristiwa itu.

4. When (kapan) artinya kapan perisitiwa itu berlangsung.

5. Why (mengapa) artinya mengapa kejadian itu bisa terjadi.

6. How (bagaimana) artinya bagaimana kejadian itu bisa berlangsung.

2.2.3.Anatomi Berita

Seperti tubuh manusia, berita juga mempunyai bagian-bagian, diantaranya adalah sebagai berikut (Budiman, 2011) :

1. Judul atau Kepala Berita (Headline)

Headline mewakili isi berita yang ingin disampaikan dan memiliki daya tarik


(24)

11

2. Baris Tanggal (Dateline)

Dateline terdiri atas nama media massa, tempat kejadian dan tanggal kejadian.

Tujuannya adalah untuk menunjukkan tempat kejadian dan inisial media.

3. Teras Berita (Lead atau Intro)

Lead biasanya ditulis pada paragrap pertama sebuah berita. Lead merupakan unsur yang paling penting dari sebuah berita, yang menentukan apakah isi berita akan dibaca atau tidak.

4. Tubuh Berita (Body)

Body isinya menceritakan peristiwa yang dilaporkan dengan bahasa yang singkat, padat, dan jelas baik yang sudah dikemukakan dalam teras maupun yang belum diungkapkan.

Gambar 2.3 Anatomi Berita

Bagian yang disebutkan membentuk anatomi yang tersusun sebagai sebuah struktur yang utuh dan terpadu, yang sering dinamakan sebagai gaya piramida terbalik

(inverted pyramid style) seperti yang terlihat pada Gambar 2.3. Disebut demikian

karena bagian tubuh berita disusun dengan pola pengembangan umum ke khusus (dimulai dari hal umum, lalu secara berangsur-angsur menuju ke hal-hal yang semakin khusus) atau klimaks-antiklimaks (dari yang paling pokok atau penting beralih secara berturut-turut ke yang kurang pokok atau penting). Tujuannya adalah untuk memudahkan atau mempercepat pembaca dalam mengetahui apa yang diberitakan.

Headline

Baris Tanggal

Teras Berita

Tubuh Berita


(25)

12

2.3.Text Mining

Text mining (penambangan teks) adalah penambangan yang dilakukan oleh komputer

untuk mendapatkan sesuatu yang baru, sesuatu yang tidak diketahui sebelumnya atau menemukan kembali informasi yang tersirat secara implisit, yang berasal dari informasi yang di-ekstrak secara otomatis dari sumber-sumber data teks yang berbeda-beda (Feldman & Sanger, 2007). Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction dan information retrival (Berry & Kogan, 2010).

Pada dasarnya proses kerja dari text mining banyak mengapdopsi dari penelitian data mining namun yang menjadi perbedaan adalah pola yang digunakan oleh text mining diambil dari sekumpulan bahasa alami yang tidak terstruktur sedangkan dalam data mining pola yang diambil dari database yang terstruktur (Han & Kamber, 2006).

2.3.1.Tahap – Tahap Text Mining

Tahap-tahap text mining secara umum adalah text preprocessing dan feature selection

(Feldman & Sanger 2007, Berry & Kogan 2010) . Dimana penjelasan dari tahap-tahap tersebut adalah sebagai berikut :

1. Text Preprocessing

Tahap text preprocessing adalah tahap awal dari text mining. Tahap ini mencakup semua rutinitas, dan proses untuk mempersiapkan data yang akan digunakan pada operasi knowledge discovery sistem text mining (Feldman & Sanger, 2007). Tindakan yang dilakukan pada tahap ini adalah toLowerCase, yaitu mengubah semua karakter huruf menjadi huruf kecil, dan Tokenizing

yaitu proses penguraian deskripsi yang semula berupa kalimat – kalimat menjadi kata-kata dan menghilangkan delimiter-delimiter seperti tanda titik (.), koma (,), spasi dan karakter angka yang ada pada kata tersebut (Weiss et al, 2005).

2. Feature Selection

Tahap seleksi fitur (feature selection) bertujuan untuk mengurangi dimensi dari suatu kumpulan teks, atau dengan kata lain menghapus kata-kata yang dianggap tidak penting atau tidak menggambarkan isi dokumen sehingga


(26)

13

proses pengklasifikasian lebih efektif dan akurat (Do et al, 2006., Feldman & Sanger, 2007., Berry & Kogan 2010). Pada tahap ini tindakan yang dilakukan adalah menghilangkan stopword ( stopword removal ) dan stemming terhadap kata yang berimbuhan (Berry & Kogan 2010., Feldman & Sanger 2007). Namun pada penelitian ini proses stemming tidak dilakukan.

Stopword adalah kosakata yang bukan merupakan ciri ( kata unik ) dari suatu

dokumen (Dragut et al. 2009). Misalnya “di”, “oleh”, “pada”, “sebuah”, “karena” dan lain sebagainya. Sebelum proses stopword removal dilakukan, harus dibuat daftar

stopword (stoplist). Jika termasuk di dalam stoplist maka kata-kata tersebut akan

dihapus dari deskripsi sehingga kata-kata yang tersisa di dalam deskripsi dianggap sebagai kata-kata yang mencirikan isi dari suatu dokumen atau keywords. Daftar kata

stopword di penelitian ini bersumber dari Tala (2003).

2.4.Kata

Kata adalah kesatuan terkecil yang diperoleh sesudah kalimat dibagi atas bagian-bagiannya dan mengandung suatu ide.

Kategori kata berdasarkan sintaksisnya terdiri dari lima kata (Putrayasa, 2007), yaitu :

1. Kata Benda (Nomina)

Kata benda adalah kata yang mengacu pada manusia, binatang, benda dan konsep atau pengertian.

2. Kata Kerja (Verba)

Kata kerja adalah kata yang menyatakan tindakan. 3. Kata Sifat (Adjektiva)

Kata sifat adalah kata yang memberi keterangan yang lebih khusus tentang sesuatu yang dinyatakan oleh nomina dalam kalimat.

4. Kata Keterangan (adverbia)

Kata keterangan adalah kategori yang dapat mendampingi adjektiva, numeralia atau preposisi dalam konstruksi sintaksis.

5. Kata Tugas

Kata tugas adalah kata yang hanya memiliki arti gramatikal dan tidak memiliki arti leksikal.


(27)

14

2.5.Kalimat

Kalimat adalah satuan bahasa terkecil dalam wujud lisan atau tulisan, yang mengungkapkan pikiran yang utuh. Kalimat terdiri atas deret kata yang dimulai dengan huruf kapital dan diakhiri dengan tanda titik (.), tanda tanya (?), atau tanda seru (!).

Unsur-unsur kalimat terdiri dari kata, kelompok kata dan lagu kalimat. Di dalam kalimat terdapat pengaturan hubungan kedudukan antara bagian-bagiannya. Ada bagian didalam kalimat yang menunjukkan sebagai “pelaku”, ada bagian yang menunjukkan sebagai “perbuatan”, ada bagian yang menunjukkan “bagaimana perbuatan itu dilakukan”. Berdasarkan jabatannya kalimat terdiri dari :

1. Subyek, yaitu bagian yang menjadi pangkal atau pokok pembicaraan.

2. Predikat, yaitu bagian yang menerangkan subyek, biasanya berdiri sesudah subyek.

3. Obyek, yaitu bagian yang menjadi tujuan.

4. Keterangan, yaitu bagian yang menunjukkan waktu (keterangan waktu), tempat (keterangan tempat), alat (keterangan alat) dan sebagainya.

Sedangkan kalimat berdasarkan fungsinya, dapat dikategorikan sebagai berikut:

1. Kalimat pernyataan 2. Kalimat pertanyaan 3. Kalimat perintah 4. Kalimat seruan

2.6.Paragraf

Paragraf disebut juga alinea. Kata paragraf merupakan kata serapan dari bahasa Inggris paragraph, sedangkan kata alinea dari bahasa Belanda dengan ejaan yang sama. Paragraf adalah seperangkat kalimat yang membicarakan suatu gagasan atau topik. Terdapat dua syarat dalam membentuk paragraf :

1. Menulis pernyataan (kalimat) tentang pokok bahasan dengan baik. 2. Mengangkat pola susunan rincian dengan patut.


(28)

15

2.7.Term Frequency Inverse Document Frequency (TF-IDF)

Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah cara pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot, yaitu Term frequency (TF) merupakan frekuensi kemunculan kata (t) pada kalimat (d). Document frequency (DF) adalah banyaknya kalimat dimana suatu kata (t) muncul. Frekuensi kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut. Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata tersebut. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen (Robertson, 2004). Pada Metode ini pembobotan kata dalam sebuah dokumen dilakukan dengan mengalikan nilai TF dan IDF.

Pada penelitian ini, peringkasan teks otomatis yang di kembangkan merupakan sistem peringkasan dengan inputan berupa single dokumen dan secara otomatis menghasilkan ringkasan (summary). Proses text preprosessing yang dilakukan pada peringkasan teks otomatis ini hanya proses tokenizing yaitu proses pemotongan string input berdasarkan tiap kata yang menyusunnya. Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan me-scan kalimat dengan pemisah (delimiter) white space

(spasi, tab dan newline)( Tala, 2003).

Adapun tahapan-tahapan peringkasan teks otomatis metode TF-IDF adalah sebagai berikut :

1. Menginput dokumen yang akan dibuat ringkasannya 2. Memilah dokumen menjadi beberapa kalimat.

Pemilahan kalimat dilakukan dengan memecah string teks dari dokumen yang panjang menjadi kalaimat-kalimat mengunakan fungsi split(), dengan tanda titik ”.”, tanda tanya ”?” dan tanda seru ”!” sebagai delimiter untuk memotong string dokumen.

3. Memilah kalimat yang terbentuk menjadi beberapa kata dan simpan dalam variable array. Untuk memilah kalimat menjadi kata digunakan proses

tokenizing.


(29)

16

4. Pembobotan TF-IDF

Pembobotan diperoleh berdasarkan jumlah kemunculan term dalam kalimat (TF) dan jumlah kemunculan term pada seluruh kalimat dalam dokumen (IDF). Bobot suatu istilah semakin besar jika istilah tersebut sering muncul dalam suatu dokumen dan semakin kecil jika istilah tersebut muncul dalam banyak dokumen (Grossman, 1998). Nilai IDF sebuah term dihitung menggunakan persamaan 1.

(1)

dengan:

N = jumlah kalimat yang berisi term(t)

dfi = jumlah kemunculan kata (term) terhadap D

5. Menghitung bobot (W) masing-masing dokumen dengan persamaan 2 (Mustaqhfiri, 2011).

(2)

dengan :

d = kalimat ke-d

t = kata(term) ke –t

TF = term freqency

W = bobot kalimat ke-d terhadap kata(term)ke- t

IDF = inverse document f reqency

6. Melakukan proses pengurutan (sorting) nilai kumulatif dari W untuk setiap kalimat.

7. Tiga kalimat dengan nilai W terbesar dijadikan sebagai hasil dari ringkasan atau sebagai output dari peringkasan teks otomatis.

Tahapan-tahapan Peringkasan Teks Otomatis dengan metode TF -IDF di atas ditunjukan pada Gambar 2.4.


(30)

17

Gambar 2.4 Tahapan-tahapan peringkasan teks otomatis metode TF-IDF 2.8.Flowchart

Flowchart adalah penggambaran secara grafik dari langkah-langkah dan urutan-urutan

prosedur suatu program (Setiawan, 2006). Simbol-simbol dari flowchart memiliki fungsi yang berbeda antara satu simbol dengan simbol lainnya (Davis, 1999). Fungsi dari simbol-simbol flowchart adalah sebagai berikut :


(31)

18

Tabel 2.1 Fungsi simbol-simbol flowchart.

Simbol Fungsi

simbol process, yaitu menyatakan suatu tindakan (proses) yang dilakukan di dalam program.

Simbol offline connector yaitu menyatakan penghubung bila flowchart terputus disebabkan oleh pergantian halaman (misalnya tidak cukup dalam satu halaman).

Simbol online connector, berfungsi untuk menyatakan sambungan dari prose ke proses yang lainnya dalam halaman yang sama.

Simbol arus/flowline, yaitu

menyatakan jalannya arus suatu proses.

Simbol decision yaitu menunjukkan suatu kondisi tertentu yang akan menghasilkan dua kemungkinan jawaban yaitu ya/ tidak.

Simbol input/output, menyatakan proses input atau output tanpa tergantung jenis peralatannya.

Simbol terminal yaitu menyatakan permulaan atau akhir suatu program.

Simbol document, mencetak keluaran dalam bentuk dokumen.

2.9.Penelitian Terdahulu

Metode Term Frequency Inverse Document Frequency telah banyak digunakan dalam menyelesaikan berbagai macam permasalahan dalam hal pembobotan kata. Dari permasalahan yang kecil hingga permasalahan yang cukup kompleks dengan berbagai metode dalam penyelesaiannya.


(32)

19

Zafikri, (2008) melakukan penelitian untuk menyelesaikan permasalahan dalam pencarian informasi yang akurat dan efektif pada mesin pencari. Dalam penelitiannya mencoba menerapkangabungan antara metode Term Frequency Inverse

Document Frequency (TF-IDF) dan model ruang vektor (vector space model) pada

mesin pencari. Hasilnya metode pembobotan dokumen TF-IDF tidak selalu memberikan hasil performansi yang baik.

Akbar (2011) dalam penelitiannya menyelesaikan permasalahan dalam menentukan nilai tes esai online. Dalam halini Akbar (2011) menggunakan algoritma

Latent Semantic Analysis (LSA) dengan pembobotan Term Frequency/Inverse

Document Frequency (TF/IDF) untuk menyelesaikan permasalahannya yakni sebagai

alternatif solusi penilaian esai kepada user ssecara konsisten tanpa mengikutsertakan subjektivitas penilai, seperti suasana hati dan tingkat pengetahuan. Algoritma TF/IDF-LSA memiliki tingkat keakuratan cukup tinggi dalam pemeriksaan jawaban esai dengan jumlah kata yang banyak.

Sulthan (2012) menggunakan algoritma Hill Climbing dalam meringkas teks, hasil dari peringkasan menggunakan algoritma Hill Climbing cukup baik. Metode text

mining juga pernah dilakukan Kurniawan (2012) dalam klasifikasi berita, dan hasil

dari metode text mining cukup berhasil.

Aristoteles (2013) melakukan penelitian peringkasan teks dokumen bahasa Indonesia menggunakan algoritma genetika, hasilnya bahwa algoritma genetika dapat digunakan untuk mencari tingkat kepentingan yang optimal dari tiap fitur teks. Nilai akurasi 47.46% pada pemampatan 30%. Sedangkan hasil tidak optimal pada pemampatan 10%.


(33)

20

Tabel 2.2 Penelitian terdahulu

No Peneliti / Tahun Judul Keterangan

1 Zafikri (2008) Implementasi Metode Term Frequency Inverse Document Frequency (TF-IDF) pada Sistem Temu Kembali informasi.

2 Akbar (2011) Menentukan Nilai Tes Esai Online Menggunakan AlgoritmaLatent Semantic Analysis (LSA) dengan Pembobotan Term Frequency/ Inverse Document Frequency

3 Sulthan (2012) Peringkasan Teks Otomatis Berbasis Web Menggunakan AlgoritmaHill Climbing

4 Kurniawan (2012) Klasifikasi Konten Berita menggunakan

Text Mining

5 Aristoteles (2013) Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia


(34)

3BAB 3

ANALISIS DAN PERANCANGAN

Pada bab ini akan membahas beberapa hal diantaranya data yang digunakan, flowchart

system, tampilan antar-muka serta analisis perancangan yang bertujuan untuk

mengindentifikasi permasalahan yang ada pada sistem tersebut. Analisis ini diperlukan sebagai dasar perancangan sistem untuk mengimplementasikan tf-idf dalam meringkas teks.

3.1.Analisis Data

Dalam penelitian ini data terdiri dari 3 bagian yaitu data berita, data stopword dan data kata dasar.

3.1.1.Data Berita

Data berita dalam penelitian ini didapat dari beberapa media berita online yang kemudian dimasukkan kedalam database. Skema dari proses pengambilan berita dapat dilihat pada gambar 3.1.

Data berita berjumlah 50 dokumen berita politik.Untuk memperoleh ketepatan dan mempermudah proses pengujian maka berita diambil dari situs media berita

online. Berikut tabel 3.1.

Database penyimpan

berita Mengambil berita

dari media berita online

Menyimpan berita kedalam

database Media

berita online pengunggah

Gambar 3.1 Skema proses pengambilan berita


(35)

22

Tabel 3.1 Tabel Berita

id_berita Judul Berita Isi Berita

1 Kontras Kritik Penunjukan Hendropriyono

Koordinator Komisi untuk Orang Hilang dan Korban Tindak Kekerasan (Kontras),

Haris Azhar mengatakan dipilihnya AM Hendropriyono sebagai penasihat tim

transisi Jokowi-JK tidak mendukung penuntasan kasus hak asasi manusia di

Indonesia.

Kontras menilai terpilihnya

Hendropriyono mencerminkan sikap Joko Widodo yang kurang serius terhadap persoalan HAM. “Antara tidak serius, tidak mengerti, atau rentan diintervensi (berbagai kepentingan),” ujarnya dikutip

BBC, Kamis (14/8). .... 2 Presiden Baru, Rakyat

Akan Kembali Kecewa

KH M Shoffar Mawardi menyatakan rakyat akan kembali kecewa pasca pemilu 2014 lantaran harapan presiden yang baru

akan membawa Indonesia menuju kehidupan yang adil dan makmur tidak

akan tercapai. “Pada akhirnya, banyak rakyat yang sedih dan kecewa saat harapannya tidak kunjung menjadi nyata,”

ungkap Pengasuh Ma’had Daarul Muwahhid Srengseng Jakarta Barat tersebut seperti dilansir tabloid Media Umat Edisi 132: Presiden Baru, Umat Siap

Kecewa, Jum’at (18 Juli-21 Agustus)...

3 Israel Gunakan Bom

Fosfor Putih di Gaza

Laporan terakhir mengatakan pasukan udara dan darat Israel menggunakan bom fosfor putih untuk menghantam beberapa wilayah pemukiman di Jalur Gaza yang

terkepung.

Bom-bom mematikan itu melanggar semua konvensi internasional dan dianggap sebagai senjata terlarang untuk

digunakan di wilayah penduduk sipil. 4 Sengketa PLN Pertamina

Ancam Listrik Padam

Perusahaan Listrik Negara mengatakan berkurangnya pasokan solar dari Pertamina sekitar 50% akan diatasi dengan

pasokan dari tempat lain guna mengantisipasi listrik tidak padam. Pertamina mengurangi pasokan solar sebanyak 50% kepada pembangkit listrik di seluruh Indonesia sejak 10 Agustus lalu.


(36)

23

3.1.2.Data Stopword

Data stopword didapat dari jurnal Tala (2003) dimana datanya berjumlah 753 data dan dari berita-berita yang digunakan dalam penelitian. Data stopword di dalam database. Rancangan tabel stopword dapat dilihat pada Tabel 3.2

Tabel 3.2 Tabel Stopword

id_stopword Stopword

1 Di

2 Ada

3 Itu

4 Dan

5 Ke

6 Untuk

7 Dengan

8 Namun

9 Kepada

10 Akan

11 Agar

12 Dari

13 Karena

14 Ini

15 Pun

3.1.3.Data Kata Dasar

Data kata dasar didapat dari kamus bahasa Indonesia online dimana datanya berjumlah 28533 data. Data kata dasar disimpan di dalam database. Rancangan tabel kata dasar dapat dilihat pada Tabel 3.3.

Tabel 3.3 Tabel kata dasar

id_katadasar Katadasar

1 Lari

2 Ajar

3 Makan

4 Lari

5 Belajar


(37)

24

3.2.Analisis Sistem

Analisis sistem bertujuan untuk mengidentifikasi permasalahan-permasalahan yang ada pada sistem yang meliputi perangkat lunak (software), pengguna (user) serta hasil analisis terhadap sistem dan elemen-elemen yang terkait. Analisis ini diperlukan sebagai dasar bagi tahapan perancangan sistem. Analisis sistem ini meliputi desain data, deskripsi sistem, dan implementasi desain dan semua yang diperlukan dalam aplikasi peringkasan teks otomatis.

Dalam penelitian ini sistem mempunyai 2 tahapan proses yaitu tahapan pertama adalah tahap text Preprocessing yaitu tahap awal dari text mining. Tahap ini mencakup semua rutinitas, dan proses untuk mempersiapkan data yang akan digunakan pada operasi knowledge discovery sistem text mining (Feldman & Sanger, 2007). Tindakan yang dilakukan pada tahap ini adalah toLowerCase, yaitu mengubah semua karakter huruf menjadi huruf kecil dan Tokenizing yaitu proses penguraian deskripsi yang semula berupa kalimat-kalimat menjadi kata-kata dan menghilangkan delimiter-delimiter seperti tanda titik (.), koma (,), spasi dan karakter angka yang ada pada kata tersebut (Weiss et al, 2005). Sedangkan tahap kedua adalah Tahap seleksi fitur (feature selection) bertujuan untuk mengurangi dimensi dari suatu kumpulan teks, atau dengan kata lain menghapus kata-kata yang dianggap tidak penting atau tidak menggambarkan isi dokumen sehingga proses pengklasifikasian lebih efektif dan akurat (Do et al, 2006., Feldman & Sanger, 2007., Berry & Kogan 2010). Pada tahap ini tindakan yang dilakukan adalah menghilangkan stopword (stopword

removal) dan stemming terhadap kata yang berimbuhan (Berry & Kogan 2010.,

Feldman & Sanger 2007).

3.2.1.Text Preprocessing

Langkah-langkah proses text preprocessing adalah sebagai berikut :

1. Setelah teks dokumen dimasukkan maka sistem akan merubah semua karakter huruf menjadi huruf kecil melalui proses toLowerCase.

2. Kemudian dilakukan penghapusan delimiter yaitu karakter angka dan karakter simbol kecuali karakter huruf serta penguraian terhadap kalimat-kalimat yang ada di teks dokumen tersebut.


(38)

25

4. Proses text preprocessing selesai. Flowchart dari proses text preprocessing

adalah sebagai berikut:

Mulai

Teks dokumen

toLowerCase

Menghilangkan delimiter dan penguraian kalimat

Kata-kata penyusun kalimat

Selesai

Gambar 3.2 Flowchart Text Preprocessing

Contoh :

Misal terdapat input kalimat seperti :

Maka setelah melalui proses ToLowerCase maka huruf besar dalam kalimat tersebut berubah menjadi huruf kecil :

Kemudian setelah proses penghilangan delimiter dan penguraian kalimat maka Kemudian setelah proses penghilangan delimiter dan penguraian kalimat maka hasilnya adalah sebagai berikut :

Gambar 3.4 Contoh kalimat setelah ToLowerCase

dalam penelitian ini data terdiri 3 bagian yaitu data berita, data unik, dan data kata dasar.

Dalam penelitian ini data terdiri 3 bagian yaitu data berita, data unik, dan data kata dasar.

Gambar 3.3 Contoh kalimat yang akan diinput


(39)

26

Tabel 3.4 Hasil dari proses text preprocessing

dalam penelitian ini terdiri

bagian yaitu data berita

data unik dan data

kata dasar

3.2.2.Feature Selection

Pada tahap ini terdapat dua proses yang dilakukan, adalah sebagai berikut :

1. Stopword Removal (Filtering)

Langkah-langkah untuk proses filtering adalah sebagai berikut :

a. Kata-kata penyusun kalimat hasil dari tahap text preprocessing dijadikan sebagai masukkan.

b. Kemudian dibandingkan dengan kata-kata yang ada di database stopword.

c. Jika kata yang dimasukkan sama dengan kata di database stopword maka kata yang dimasukkan dihapus. Namun jika kata yang dimasukkan tidak sama dengan kata yang ada di database stopword maka tersebut tidak dihapus

d. Proses filtering selesai. Flowchart dari proses filtering adalah sebagai berikut :


(40)

27

Mulai

Kata-kata hasil text processing

Membandingkan kata yang diinput dengan dengan kata-kata yang ada di database stopword

Kata yang diinput = kata yang ada didatabase stopword

Kata-kata yang bukan

stopword

Selesai

Ya hapus

Tidak

Gambar 3.5 Flowchart proses filtering

Contoh :

Misalkan terdapat masukkanyang merupakan hasil dari proses text processing

sebagai berikut :

Tabel 3.5 Hasil dari proses text preprocessing yang dijadikan input.

dalam penelitian ini terdiri

bagian yaitu data berita

data unik dan data

kata dasar

Dan misalnya terdapat stopword yang dalam database stopword sebagai berikut :

Tabel 3.6 Kumpulan stopword

dan dari ingin ini

kepada dalam selalu lalu

yaitu bahwa terdiri sekali

dulu sekalian enggak bagian


(41)

28

Kemudian sistem akan membandingkan antara kata-kata yang dimasukkan dengan kata-kata yang ada di dalam database stopword. Selanjutnya sistem akan menghapus kata-kata yang dimasukkan apabila kata-kata yang dimasukkan sama dengan kata-kata yang ada di database stopword. Maka ouput-nya menjadi sebagai berikut :

Tabel 3.7 Hasil dari proses filtering

penelitian data berita data

unik data kata dasar

3.2.3.Contoh penggunaan algoritma (tf/idf)

Berikut simulasi perhitungan nilai tf*idf bisa dilihat pada bagian dibawah ini : Terdapat kalimat:

Saya sedang belajar menghitung tf.idf. Tf.idf merupakan frekuensi kemunculan term pada dokumen. Langkah awal perhitungan tersebut adalah menghitung tf, kemudian menghitung df dan idf. Langkah terakhir menghitung nilai tf.idf. Mari kita belajar!

Catatan: tiap kalimat dianggap sebagai dokumen. Setelah di pisah akan menjadi seperti berikut : D1 Saya sedang belajar menghitung tf.idf.

D2 Tf.idf merupakan frekuensi kemunculan term pada dokumen.

D3 Langkah awal perhitungan tersebut adalah menghitung tf, kemudian menghitung df dan idf.

D4 Langkah terakhir menghitung nilai tf.idf. D5 Mari kita belajar!

Menghitung Term Frequency (tf)

Term frequency (tf) merupakan frekuensi kemunculan term (t) pada dokumen (d).

Data tulisan tersebut mengalami proses tokenisasi, stop words dan steaming sehingga menjadi :


(42)

29

Tabel 3.8 Menghitung tf

Term (t) D1 D2 D3 D4 D5

Akhir 0 0 0 1 0

Awal 0 0 1 0 0

Belajar 1 0 0 0 1

Dokumen 0 1 0 0 0

Frekuensi 0 1 0 0 0

Hitung 1 0 3 1 0

Idf 1 1 1 1 0

Kita 0 0 0 0 1

Langkah 0 0 1 1 0

Muncul 0 1 0 0 0

Saya 1 0 0 0 0

Term 0 1 0 0 0

Tf 1 1 1 1 0

Menghitung document frequency (df)

Document frequency (df) adalah banyaknya dokumen dimana suatu term (t) muncul.

Tabel 3.9 Menghitung df Term (t) df

Akhir 1

Awal 1

Belajar 2 Dokumen 1 Frekuensi 1 Hitung 3

Idf 4

Kita 1

Langkah 2 Muncul 1

Saya 1

Term 1

Tf 4


(43)

30

Menghitung invers document frequency (idf) Menggunakan rumus (1)

IDF = 1 / df

Tabel 3.10 Menghitung idf (1)

Term (t) df idf

Akhir 1 1

Awal 1 1

Belajar 2 ½=0.5

Dokumen 1 1

Frekuensi 1 1

Hitung 3 1/3=0.3

Idf 4 ¼=0.25

Kita 1 1

Langkah 2 ½=0.5

Muncul 1 1

Saya 1 1

Term 1 1

Tf 4 ¼=0.25

Menggunakan rumus (2) IDF = Log ( N/df )

Tabel 3.11 Menghitung idf (2)

Term (t) df idf

Akhir 1 Log (5/1) = 0.699

Awal 1 Log (5/1) = 0.699

Belajar 2 Log (5/2) = 0.398

Dokumen 1 Log (5/1) = 0.699

Frekuensi 1 Log (5/1) = 0.699

Hitung 3 Log (5/3) = 0.221

Idf 4 Log (5/4) = 0.097

Kita 1 Log (5/1) = 0.699

Langkah 2 Log (5/2) = 0.398

Muncul 1 Log (5/1) = 0.699

Saya 1 Log (5/1) = 0.699

Term 1 Log (5/1) = 0.699


(44)

31

Menghitung tf.idf Hasil kali tf x idf

Tabel 3.12 Menghitung tf.idf

Term (t) D1 D2 D3 D4 D5 idf tf.idf

D1 D2 D3 D4 D5

Akhir 0 0 0 1 0 Log (5/1) = 0.699 0 0 0 0.699 0 Awal 0 0 1 0 0 Log (5/1) = 0.699 0 0 0.699 0 0 Belajar 1 0 0 0 1 Log (5/2) = 0.398 0.398 0 0 0 0.398 Dokumen 0 1 0 0 0 Log (5/1) = 0.699 0 0.699 0 0 0 Frekuensi 0 1 0 0 0 Log (5/1) = 0.699 0 0.699 0 0 0 Hitung 1 0 3 1 0 Log (5/3) = 0.222 0.222 0 0.666 0.222 0 Idf 1 1 1 1 0 Log (5/4) = 0.097 0.097 0.097 0.097 0.097 0 Kita 0 0 0 0 1 Log (5/1) = 0.699 0 0 0 0 0.699 Langkah 0 0 1 1 0 Log (5/2) = 0.398 0 0 0.398 0.398 0 Muncul 0 1 0 0 0 Log (5/1) = 0.699 0 0.699 0 0 0 Saya 1 0 0 0 0 Log (5/1) = 0.699 0.699 0 0 0 0 Term 0 1 0 0 0 Log (5/1) = 0.699 0 0.699 0 0 0 Tf 1 1 1 1 0 Log (5/4) = 0.097 0.097 0.097 0.097 0.097 0

Total W 1.513 2.99 1.957 1.513 1.097

3.3.Perancangan Sistem

Perancangan proses perlu dilakukan untuk mengetahui proses-proses yang diperlukan dalampembuatan aplikasi, aliran data pada tiap-tiap proses hingga aktor yang terlibat di dalamnya. Perancangan ini bertujuan untuk mengetahui proses transformasi data dari input berupa dokumen hingga menjadi output berupa hasil ringkasan.

3.3.1.Diagram konteks

Diagram konteks dibuat untuk menggambarkan sistem secara umum dan entitas-entitas yangterlibat di dalamnya. Dalam konteks diagram Peringkas Teks Otomatis pada Bahasa Indonesia terdapat satu eksternal yakni pengguna, yakni orang yang menggunakan sistem. Pengguna memasukkan dokumen, kemudian sistem akan memberikan output berupa hasil ringkasan.

Diagram konteks ini seperti gambar 3.6 berikut.


(45)

32

Pengguna 1

Peringkasan Teks berita secara otomatis + Dokumen Ringkasan

Gambar 3.6 Konteks Diagram Peringkas Teks Otomatis

3.3.2.DFD level 1

Dari konteks diagram gambar 3.6, dijabarkan menjadi DFD Level 1 seperti terlihat pada gambar 3.7. Dari gambar tersebut terdapat 5 proses yakni Pra Proses, Pembagian dokumen menjadi topik, penghitungan bobot relatif topik, dan pemilihan kalimat paling penting dari topik. Dokumen dari pengguna akan diproses pada pra proses, kemudian representasi dokumen yang dihasilkan pada proses ini akan dijadikan masukan pada proses pembagian dokumen menjadi topik. Keluaran dari proses sebelumnya yang berupa topik dijadikan sebagai masukan untuk dilakukan proses perhitungan bobot topik. Kemudian proses terakhir pada level ini adalah pemilihan kalimat paling penting dari topik. Masing-masing proses terdapat sub proses yang merupakan dekomposisi dari proses tersebut, kecuali untuk proses penghitungan bobot topik yang tidak memiliki sub proses karena sudah cukup ditangani pada proses itu.

Gambar 3.7 DFD peringkas teks otomatis Pengguna Dokumen 1.1 Pra Proses + 1.2 Pembagian dokumen menjadi topik + 1.3 Penghitungan bobot + Representasi dokumen Topik 1.4 Pemilihan kalimat paling penting dari topik Kalimat Ringkasan


(46)

33

Pilih File

Set Kompresi %

Teks Asli Ringkasan

Proses

3.4.Perancangan Antarmuka Sistem

3.4.1.Antarmuka Sistem

Antar muka sistem merupakan tampilan sistem yang berfungsi untuk membantu pengguna dalam menggunakan sistem.

Antarmuka sistem pada penelitian ini dibuat sesederhana mungkin dengan tujuan untuk mengurangi penggunaan waktu yang tidak relevan pada proses sistem serta membantu pengguna dalam memahami dan menggunakan sistem. Adapun rancangan antarmuka sistem terdiri atas beberapa komponen dasar, yaitu : tombol pilih file, kolom set tingkat kompresi, kolom teks asli, kolom ringkasan dan tombol proses.

Adapun bentuk ataupun gambaran dari antarmuka sistem yang akan dibuat dapat dilihat pada Gambar 3.8 berikut :

Gambar 3.8 Tampilan Antarmuka Sistem


(47)

34

Berikut ini merupakan rincian dari rancangan tampilan antarmuka sistem pada Gambar 3.8 yang akan dibuat, yaitu :

a. Tombol Pilih File, dimana user dapat memilih salah satu file berita yang telah di simpan di direktori.

b. Kolom set tingkat kompresi, dimana user dapat menentukan berapa persen tingkat dari hasil ringkasan. Interval yang diberikan 0 sampai 100 persen. c. Kolom teks asli, akan menampilkan teks asli dari berita yang dipilih.

d. Kolom ringkasan, akan menampilkan hasil ringkasan dari berita yang dipilih.

e. Tombol proses, setelah user memilih file berita dan menentukan tingkat kompresi ringkasan maka user bisa meng-klik perintah proses.


(48)

4BAB 4

IMPLEMENTASI DAN PENGUJIAN

Dalam bab ini akan dibahas mengenai implementasi peringkasan teks berita secara otomatis menggunakan term frequency inverse document frequency. Untuk mengetahui apakah implementasi aplikasi tersebut berhasil atau tidak, serta dilakukan pengujian terhadap sistem. Berikut ini hasil implementasi dari aplikasi yang telah dibangun.

4.1.Implementasi Sistem

Berdasarkan hasil analisis dan perancangan sistem yang telah dilakukan, maka dilakukan implementasi sistem peringkasan teks berita secara otomatis menggunakan

term frequency inverse document frequency ke dalam bentuk program dengan

menggunakan bahasa pemrograman PHP. Artinya sistem akan dijalankan pada

browser sebagai media pemrosesan dan interface sistem dengan menggunakan

software XAMPP.

4.1.1.Spesifikasi Perangkat Keras dan Perangkat Lunak

Lingkungan implementasi merupakan lingkungan perangkat lunak yang digunakan untuk membangun dan mengoperasikan perangkat lunak. Berikut ini merupakan spesifikasi perangkat keras dan perangkat lunak yang digunakan dalam pembuatan sistem, yaitu:

Spesifikasi perangkat keras yang digunakan :

1. Processor AMD C60 APU with Radeon(tm) HD Graphics 1.00 GHz 2. Memory RAM yang digunakan 2 GB

3. Kapasitas Hardisk 320GB

Spesifikasi perangkat lunak yang digunakan :

1. Sistem Operasi yang digunakan Windows 7 Ultimate 32-bit


(49)

36

2. XAMPP win32-1.8.3-4-VC11 3. PHP 5.6

4. Mozilla Firefox 30.0

4.1.2.Tampilan Awal

Pada tampilan awal sistem dibuat sederhana agar mudah dalam menggunakan sistem serta membuang waktu yang tidak relevan, dengan rincian sebagai berikut :

1. Tombol Pilih File untuk mencari dan memilih file txt yang akan diuji

2. Kolom Set Tingkat Kompresi untuk membatasi jumlah maksimum kalimat hasil ringkasan.

3. Kolom Teks Asli sebagai media untuk menampilkan teks berita hasil dari pemilihan file berita.

4. Kolom Ringkasan sebagai media untuk menampilkan ringkasan teks hasil dari proses peringkasan teks berita.

5. Tombol Proses untuk memulai eksekusi proses peringkasan. Tampilan awal sistem dapat dilihat pada Gambar 4.1 berikut:

Gambar 4.1 Tampilan Awal Sistem

4.1.3.Tampilan Proses Sistem

Pada Gambar 4.2 menampilkan proses pemilihan dari peringkasan teks berita dimana user memilih file teks berita dan menentukan tingkat kompresi ringkasan.


(50)

37

Gambar 4.2 Tampilan Proses Pemilihan

Setelah kita memilih file teks berita dan menentukan tingkat kompresi ringkasan, maka akan didapat tampilan hasil proses pemilihan seperti terlihat pada Gambar 4.1 berikut :

Gambar 4.3 Tampilan Hasil Proses Pemilihan

4.1.4.Tampilan Hasil Sistem

Setelah kita melewati tahap pemilihan file berita dan menentukan tingkat kompresi hasil ringkasan, kemudian eksekusi proses peringkasan dengan tombol proses maka hasil ringkasan akan terlihat seperti Gambar 4.4 berikut :


(51)

38

Gambar 4.4 Tampilan Hasil Ringkasan 4.2.Pengujian Sistem

Pengujian yang dilakukan pada sistem adalah melihat hasil ringkasan teks berita yang menggunakan term frequency inverse document frequency. Hal ini dilakukan untuk mengetahui seberapa besar pengaruhnya dan perbedaan teks asli terhadap hasil ringkasan.

4.2.1.Pengujian Tampilan Sistem

Pengujian yang dilakukan pada tampilan sistem berupa fungsi dari tiap komponen, algoritma serta teknik yang digunakan. Rancanagn pengujian dapat dilihat pada Tabel 4.1 dan dilanjutkan dengan hasil pengujian pada Tabel 4.2 berikut ini :

Tabel 4.1 Rancangan Pengujian Tampilan Sistem

No Komponen Sistem Yang Diuji Butir Uji

1 Tombol Pilih File mencari dan memilih file txt yang akan diuji

2 Kolom Set Tingkat Kompresi membatasi jumlah maksimum kalimat hasil ringkasan

3 Kolom Teks Asli menampilkan teks berita hasil dari pemilihan file berita

4 Kolom Ringkasan menampilkan ringkasan teks hasil dari proses peringkasan teks berita

5 Tombol Proses memulai eksekusi proses peringkasan


(52)

39

No Komponen Sistem Yang Diuji Hasil Pengujian

1 Tombol Pilih File Berhasil

2 Kolom Set Tingkat Kompresi Berhasil

3 Kolom Teks Asli Berhasil

4 Kolom Ringkasan Berhasil

5 Tombol Proses Berhasil

Berdasarkan pada Gambar 4.4 terlihat hasil implementasi dan pengujian sistem, maka dapat disimpulkan bahwa algoritma term frequency inverse document frequency dapat digunakan untuk meringkas teks.


(53)

5BAB 5

KESIMPULAN DAN SARAN

Pada bab ini akan dibahas mengenai kesimpulan dan saran berdasarkan analisis dan pengujian yang dilakukan dalam menyelesaikan permasalahannya, yaitu meringkas teks berita secara otomatis menggunakan term frequency inverse document frequency.

5.1.Kesimpulan

Dari penelitian yang telah dilakukan dapat disimpulkan bahwa metode TF-IDF (Term

Frequency and Inverse Document Frequency) dapat digunakan untuk meringkas teks

secara otomatis meskipun tidak melalui proses stemming. Dan menghasilkan ringkasan teks yang tetap memiliki bagian-bagian yang penting dan dominan dari teks asli meskipun secara makna dan tata bahasa belum baik.

5.2.Saran

Pada penelitian selanjutnya disarankan untuk menggunakan metode dan algoritma yang lebih baik lagi. Hasil ringkasan teks otomatis perlu dilakukan perbandingan terhadap hasil ringkasan secara manual serta tidak hanya untuk meringkas teks berbahasa Indonesia saja melainkan bahasa asing yang lain, seperti bahasa Inggris dan lainnya.


(54)

DAFTAR PUSTAKA

Adriani, M., Asian, J., Nazief, B., Tahaghoghi, S.M.M. & Williams, H.E. 2007. Stemming Indonesian : A Confix-Stripping Approach. Transaction on Asian Langeage Information Processing. Vol. 6, No. 4, Articel 13. Association for Computing Machinery : New York .

Agusta, L. 2009. Perbandingan Algoritma stemming Porter dengan algoritma Nazief & Adriani untuk Stemming Dokumen Teks Bahasa Indonesia.Prosiding

Konferensi Nasional Sistem dan Informatika, pp. 196-201.

Akbar, Fakhreza. 2011. Menentukan Nilai Tes Esai Online Menggunakan Algoritma Latent Semantic Analysis (LSA) dengan Pembobotan Term Frequency/

Inverse Document Frequency. Skripsi. Medan, Indonesia: Universitas

Sumatera Utara.

Alwi, H., Dardjowidjojo, S. &Lapoliwa, A.M., 2003. Tata Bahasa Baku Bahasa Indonesia.Edisi Ketiga. Balai Pustaka : Jakarta.

Aristoteles. 2013. Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen

Bahasa Indonesia. Skripsi. Lampung. Indonesia: Universitas Lampung.

Asian, J., Williams, H.E. & Tahaghoghi, S.M.M. 2005. Stemming Indonesia.

Proceedings of the Twenty-eighth Australasian conference on Computer

Science.Vol. 38, hal. Australia : Association for Computing Machinery.

Berry, M.W. & Kogan, J. 2010. Text Mining Aplication and theory. WILEY : United Kingdom.

Budiman, K. 2011. Dasar-dasar Jurnalistik. (Online)

http://www.akirahmedia.com/main/articledetail/7 (24 Desember 2013).

Djuroto, Totok. 2004. Manajemen Penerbitan Pers. Bandung : PT Remaja Rosdakarya.

Dragut, E., Fang, F., Sistla, P., Yu, S. & Meng, W. 2009. Stop Word and Related

Problems in Web Interface Integration.(Online)http://www.vldb.org/pvldb/2/vldb09-384.pdf (24

Desember 2013).

Dharwiyanti, S dan Wahono, S.R., 2003. Pengantar Unified Modeling Language.

(Online) http://IlmuKomputer.com.

Davis, S.T. 1999. Chapter-Five : Logic (process) Flowchart. CRC Press : United State.


(55)

42

Erkan, Gunes & Radev Dragomir R.. “LexRank : Graph-Based Centrality as Salience in Text Summarization.” Journal of Artificial Intelegence Research 22, 2004: 1-23.

Fajar, M. 2008. Media cetak era digital. (Online) www.emfajar.net/internet/media-cetak-di-era-digital/(24Desember 2013).

Feldman, R & Sanger, J. 2007. The Text Mining Handbook : Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press : New York.

Firmin, T. &M.J Chrzanowski. 1999. An Evaluation of Automatic Text Summarization System. The MIT Press : Cambrige.

Han, J & Kamber, M. 2006 Data Mining: Concepts and Techniques Second Edition. Morgan Kaufmann publisher : San Francisco.

Hariyanto, B., 2004. Rekayasa Sistem Berorientasi Objek. Bandung: Informatika Bandung.

Hovy, E. 2001. Automated Text Summarization. In R. Mitkov. (Eds).Handbook of

computation linguistics. Oxford:Oxford University Press.

Hovy, E & Marcu, D. 1998. Automated Text summarization Tutorial, Information Sciences Institute, University of Southern California.

Kurniawan, Bambang. 2012. Klasifikasi Konten Berita Menggunakan Text Mining.

Skripsi. Medan. Indonesia: Universitas Sumatera Utara.

Kridalaksana, H. 2009. Pembentukkan Kata dalam Bahasa Indonesia. Gramedia Pustaka Utama : Jakarta.

Maeseener, P. D. 1999. Here’s The News : A Radio News Manual. United States : Unesco Asosiate.

Mani, Inderjeet. 2001. Summarization Evaluation: An Overview. The MITRE Corporation, W640 11493 Sunset Hills Road Reston, VA 20190-5214 USA.

Mani, I. &Maybury, M. T. 1999. Advance in Automatic Text Summarization. The MIT Press: Cambrige.

Muslich, M., 2008. Tata Bentuk Bahasa Indonesia : Kajian ke Arah Tata Bahasa Deskriptif. Bumi Aksara : Jakarta.

Mustaqhfiri, M., Abidin Z. &Kusumawati, R.2011. Peringkasan Teks Otomatis Berbahasa Indonesia Menggunakan Metode Maximum Marginal Relevance.Ejournal Matics4(4) : 135-147.


(56)

43

Robertson, S., 2004. “Understanding Inverse Document Frequency: On theoretical arguments for IDF”, Journal ofDocumentation, Vol.60, no.5, pp. 503-520.

Setiawan, I. 2006. Progrmmable Logic Controller dan Teknik Perancangan Sistem Kontrol. Andi : Yogyakarta.

Sulthan, Aniesma. 2012. Peringkasan Teks Otomatis Berbasis Web Menggunakan

Algoritma Hill Climbing. Skripsi. Jakarta, Indonesia: Universitas Mercu Buana.

Tala, Fadillah Z. 2003. A Study of Stemming Efects on Information Retrieval in Bahasa Indonesia. Institute for Logic, Language and ComputationUniversiteit van Amsterdam The Netherlands.

(Online)http://www.illc.uva.nl/Research/Reports/MoL-2003-02.text.pdf. (04 Januari

2014).

Weiss, S.M., Indurkhya, N., Zhang, T. &Damerau, F.J. (Editor). 2005. Text Mining :

Predictive Methods fo Analyzing Unstructered Information. Springer : New

York.

Zafikri, Atika. 2008. Implementasi Metode Term Frequency Inverse Document

Frequency (TF-IDF) pada Sistem Temu Kembali informasi. Skripsi. Medan.

Indonesia: Universitas Sumatera Utara.


(1)

38

Gambar 4.4 Tampilan Hasil Ringkasan

4.2.Pengujian Sistem

Pengujian yang dilakukan pada sistem adalah melihat hasil ringkasan teks berita yang menggunakan term frequency inverse document frequency. Hal ini dilakukan untuk mengetahui seberapa besar pengaruhnya dan perbedaan teks asli terhadap hasil ringkasan.

4.2.1.Pengujian Tampilan Sistem

Pengujian yang dilakukan pada tampilan sistem berupa fungsi dari tiap komponen, algoritma serta teknik yang digunakan. Rancanagn pengujian dapat dilihat pada Tabel 4.1 dan dilanjutkan dengan hasil pengujian pada Tabel 4.2 berikut ini :

Tabel 4.1 Rancangan Pengujian Tampilan Sistem No Komponen Sistem Yang Diuji Butir Uji

1 Tombol Pilih File mencari dan memilih file txt yang akan diuji

2 Kolom Set Tingkat Kompresi membatasi jumlah maksimum kalimat hasil ringkasan

3 Kolom Teks Asli menampilkan teks berita hasil dari pemilihan file berita

4 Kolom Ringkasan menampilkan ringkasan teks hasil dari proses peringkasan teks berita


(2)

39

No Komponen Sistem Yang Diuji Hasil Pengujian

1 Tombol Pilih File Berhasil

2 Kolom Set Tingkat Kompresi Berhasil

3 Kolom Teks Asli Berhasil

4 Kolom Ringkasan Berhasil

5 Tombol Proses Berhasil

Berdasarkan pada Gambar 4.4 terlihat hasil implementasi dan pengujian sistem, maka dapat disimpulkan bahwa algoritma term frequency inverse document frequency dapat digunakan untuk meringkas teks.


(3)

5BAB 5

KESIMPULAN DAN SARAN

Pada bab ini akan dibahas mengenai kesimpulan dan saran berdasarkan analisis dan pengujian yang dilakukan dalam menyelesaikan permasalahannya, yaitu meringkas teks berita secara otomatis menggunakan term frequency inverse document frequency.

5.1.Kesimpulan

Dari penelitian yang telah dilakukan dapat disimpulkan bahwa metode TF-IDF (Term Frequency and Inverse Document Frequency) dapat digunakan untuk meringkas teks secara otomatis meskipun tidak melalui proses stemming. Dan menghasilkan ringkasan teks yang tetap memiliki bagian-bagian yang penting dan dominan dari teks asli meskipun secara makna dan tata bahasa belum baik.

5.2.Saran

Pada penelitian selanjutnya disarankan untuk menggunakan metode dan algoritma yang lebih baik lagi. Hasil ringkasan teks otomatis perlu dilakukan perbandingan terhadap hasil ringkasan secara manual serta tidak hanya untuk meringkas teks berbahasa Indonesia saja melainkan bahasa asing yang lain, seperti bahasa Inggris dan lainnya.


(4)

DAFTAR PUSTAKA

Adriani, M., Asian, J., Nazief, B., Tahaghoghi, S.M.M. & Williams, H.E. 2007. Stemming Indonesian : A Confix-Stripping Approach. Transaction on Asian Langeage Information Processing. Vol. 6, No. 4, Articel 13. Association for Computing Machinery : New York .

Agusta, L. 2009. Perbandingan Algoritma stemming Porter dengan algoritma Nazief & Adriani untuk Stemming Dokumen Teks Bahasa Indonesia.Prosiding Konferensi Nasional Sistem dan Informatika, pp. 196-201.

Akbar, Fakhreza. 2011. Menentukan Nilai Tes Esai Online Menggunakan Algoritma Latent Semantic Analysis (LSA) dengan Pembobotan Term Frequency/ Inverse Document Frequency. Skripsi. Medan, Indonesia: Universitas Sumatera Utara.

Alwi, H., Dardjowidjojo, S. &Lapoliwa, A.M., 2003. Tata Bahasa Baku Bahasa Indonesia.Edisi Ketiga. Balai Pustaka : Jakarta.

Aristoteles. 2013. Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia. Skripsi. Lampung. Indonesia: Universitas Lampung.

Asian, J., Williams, H.E. & Tahaghoghi, S.M.M. 2005. Stemming Indonesia.

Proceedings of the Twenty-eighth Australasian conference on Computer Science.Vol. 38, hal. Australia : Association for Computing Machinery.

Berry, M.W. & Kogan, J. 2010. Text Mining Aplication and theory. WILEY : United Kingdom.

Budiman, K. 2011. Dasar-dasar Jurnalistik. (Online)

http://www.akirahmedia.com/main/articledetail/7 (24 Desember 2013).

Djuroto, Totok. 2004. Manajemen Penerbitan Pers. Bandung : PT Remaja Rosdakarya.

Dragut, E., Fang, F., Sistla, P., Yu, S. & Meng, W. 2009. Stop Word and Related

Problems in Web Interface Integration.(Online)http://www.vldb.org/pvldb/2/vldb09-384.pdf (24

Desember 2013).

Dharwiyanti, S dan Wahono, S.R., 2003. Pengantar Unified Modeling Language.

(Online) http://IlmuKomputer.com.

Davis, S.T. 1999. Chapter-Five : Logic (process) Flowchart. CRC Press : United State.


(5)

42

Erkan, Gunes & Radev Dragomir R.. “LexRank : Graph-Based Centrality as Salience in Text Summarization.” Journal of Artificial Intelegence Research 22, 2004: 1-23.

Fajar, M. 2008. Media cetak era digital. (Online) www.emfajar.net/internet/media-cetak-di-era-digital/(24Desember 2013).

Feldman, R & Sanger, J. 2007. The Text Mining Handbook : Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press : New York. Firmin, T. &M.J Chrzanowski. 1999. An Evaluation of Automatic Text

Summarization System. The MIT Press : Cambrige.

Han, J & Kamber, M. 2006 Data Mining: Concepts and Techniques Second Edition. Morgan Kaufmann publisher : San Francisco.

Hariyanto, B., 2004. Rekayasa Sistem Berorientasi Objek. Bandung: Informatika Bandung.

Hovy, E. 2001. Automated Text Summarization. In R. Mitkov. (Eds).Handbook of computation linguistics. Oxford:Oxford University Press.

Hovy, E & Marcu, D. 1998. Automated Text summarization Tutorial, Information Sciences Institute, University of Southern California.

Kurniawan, Bambang. 2012. Klasifikasi Konten Berita Menggunakan Text Mining.

Skripsi. Medan. Indonesia: Universitas Sumatera Utara.

Kridalaksana, H. 2009. Pembentukkan Kata dalam Bahasa Indonesia. Gramedia Pustaka Utama : Jakarta.

Maeseener, P. D. 1999. Here’s The News : A Radio News Manual. United States : Unesco Asosiate.

Mani, Inderjeet. 2001. Summarization Evaluation: An Overview. The MITRE Corporation, W640 11493 Sunset Hills Road Reston, VA 20190-5214 USA. Mani, I. &Maybury, M. T. 1999. Advance in Automatic Text Summarization. The

MIT Press: Cambrige.

Muslich, M., 2008. Tata Bentuk Bahasa Indonesia : Kajian ke Arah Tata Bahasa Deskriptif. Bumi Aksara : Jakarta.

Mustaqhfiri, M., Abidin Z. &Kusumawati, R.2011. Peringkasan Teks Otomatis Berbahasa Indonesia Menggunakan Metode Maximum Marginal Relevance.Ejournal Matics4(4) : 135-147.


(6)

43

Robertson, S., 2004. “Understanding Inverse Document Frequency: On theoretical arguments for IDF”, Journal ofDocumentation, Vol.60, no.5, pp. 503-520. Setiawan, I. 2006. Progrmmable Logic Controller dan Teknik Perancangan Sistem

Kontrol. Andi : Yogyakarta.

Sulthan, Aniesma. 2012. Peringkasan Teks Otomatis Berbasis Web Menggunakan Algoritma Hill Climbing. Skripsi. Jakarta, Indonesia: Universitas Mercu Buana. Tala, Fadillah Z. 2003. A Study of Stemming Efects on Information Retrieval in

Bahasa Indonesia. Institute for Logic, Language and ComputationUniversiteit van Amsterdam The Netherlands.

(Online)http://www.illc.uva.nl/Research/Reports/MoL-2003-02.text.pdf. (04 Januari 2014).

Weiss, S.M., Indurkhya, N., Zhang, T. &Damerau, F.J. (Editor). 2005. Text Mining : Predictive Methods fo Analyzing Unstructered Information. Springer : New York.

Zafikri, Atika. 2008. Implementasi Metode Term Frequency Inverse Document Frequency (TF-IDF) pada Sistem Temu Kembali informasi. Skripsi. Medan. Indonesia: Universitas Sumatera Utara.