Implementasi Text Summarization Menggunakan Metode Vector Space Model Pada Artikel Berita Berbahasa Indonesia

(1)

SKRIPSI

Diajukan untuk Menempuh Ujian Akhir Sarjana

Agung Auliaguntary Arif Putra 10110237

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS TEKNIK DAN ILMU KOMPUTER

UNIVERSITAS KOMPUTER INDONESIA

2015

(2)

iii

Alhamdulillahi Rabbil ‘Alamiin, segala puji dan syukur penulis panjatkan kehadirat Allah SWT yang telah memberikan rahmat dan karunia-Nya, shalawat serta salam semoga tercurah kepada Rasulullah SAW, sehingga penulis dapat

menyelesaikan tugas akhir yang berjudul “IMPLEMENTASI TEXT

SUMMARIZATION MENGGUNAKAN METODE VECTOR SPACE MODEL PADA ARTIKEL BERITA BERBAHASA INDONESIA” untuk memenuhi salah satu syarat dalam menyelesaikan studi jenjang strata satu (S1) di Program Studi Teknik Informatika Universitas Komputer Indonesia.

Dengan keterbatasan ilmu dan pengetahuan serta pengalaman penulis, maka penulis mendapat banyak bantuan serta dukungan dari berbagai pihak. Oleh karena itu, penulis mengucapkan terimakasih yang sebesar –besarnya kepada:

1. Allah SWT karena dengan izin-Nya lah tugas akhir ini dapat terselesaikan. 2. Keluarga tercinta khususnya orang tua yang telah memberikan kasih sayang,

cinta, doa, dan dukungan baik moril maupun materi agar penulis dapat menyelesaikan tugas akhir ini tepat pada waktunya.

3. Bapak Iskandar Ikbal, S.T., M.Kom., selaku wali kelas IF-6/2010 yang selalu memberikan beberapa pengarahan kepada penulis.

4. Ibu Nelly Indriani W, S.Si., M.T., selaku pembimbing yang selalu mengarahkan dan memberikan masukan dengan penuh kesabaran dalam menyelesaikan tugas akhir ini.

5. Bapak Andri Heryandi, S.T., M.T., selaku reviewer yang telah meluangkan waktu dan memberikan saran selama proses penyusunan tugas akhir ini. 6. Bapak dan Ibu dosen serta seluruh staf pegawai Program Studi Teknik

Informatika Universitas Komputer Indonesia yang telah banyak membantu penulis.

(3)

iv masa-masa perkuliahan.

10. Fakhrunnisa Khanifa selaku teman hidup yang menyempurnakan kebahagiaan ini.

11. Seluruh teman-teman yang tidak dapat penulis sebutkan satu persatu, terima kasih telah memberikan segala bentuk bantuan untuk menyelesaikan skripsi ini.

Penulis menyadari bahwa penulisan tugas akhir ini masih jauh dari sempurna. Untuk perbaikan dan pengembangan, penulis mengharapkan saran dan kritik yang bersifat membangun. Akhir kata, semoga penulisan tugas akhir ini dapat bermanfaat bagi penulis khususnya, dan semua yang membaca.

Bandung, 11 Agustus 2015

(4)

DAFTAR ISI

ABSTRAK ... i

ABSTRACT ... ii

KATA PENGANTAR ... iii

DAFTAR ISI ... v

DAFTAR GAMBAR ... ix

DAFTAR TABEL ... x

DAFTAR SIMBOL... xii

DAFTAR LAMPIRAN ... xiv

BAB 1 PENDAHULUAN ... 1

1.1. Latar Belakang Masalah ... 1

1.2. Rumusan Masalah ... 2

1.3. Maksud dan Tujuan ... 2

1.4. Batasan Masalah ... 2

1.5. Metodologi Penelitian ... 3

1.6. Sistematika Penulisan ... 5

BAB 2 LANDASAN TEORI ... 7

2.1. Peringkas Teks Otomatis ... 7

2.1.1. _{Definisi Peringkas Teks Otomatis} ... 7

2.1.2. Pendekatan Peringkasan Teks ... 7

2.1.3. Tahapan Membuat Ringkasan ... 8

2.1.4. Tujuan Ringkasan ... 8

2.2. Proses Peringkasan Teks ... 9

(5)

2.4. Kalimat ... 10

2.5. Paragraf ... 11

2.6. Berita ... 11

2.7. Algoritma Text Summarization ... 12

2.7.1. Pra Proses (Preprocessing) ... 12

2.7.1.1. Pemecahan Kalimat ... 12

2.7.1.2. Case Folding ... 13

2.7.1.3. Tokenizing ... 13

2.7.1.4. Stoplist / Stop Word Removal ... 14

2.7.1.5. Stemming ... 14

2.7.2. Algoritma TF-IDF ... 17

2.7.3. Vector Space Model ... 19

2.8. Teknik Evaluasi Peringkasan Teks... 20

BAB 3 ANALISIS DAN PERANCANGAN SISTEM ... 23

3.1. Analisis Masalah ... 23

3.2. Analisis Sistem ... 23

3.2.1. Analisis Data Masukan (Input Data) ... 24

3.2.2. Analisis Preprocessing ... 26

3.2.3. Analisis Metode Summarization ... 26

3.3. Spesifikasi Kebutuhan Perangkat Lunak ... 41

3.4. Analisis Kebutuhan Nonfungsional... 42

3.4.1. Analisis Kebutuhan Perangkat Keras (Hardware) ... 42

3.4.2. Analisis Kebutuhan Perangkat Lunak (Software) ... 42

3.4.3. Analisis Kebutuhan Perangkat Pikir (Brainware) ... 43

(6)

vii

3.5.1. Diagram Konteks ... 44

3.5.2. Data Flow Diagram (DFD) Level 1 ... 45

3.5.3. Data Flow Diagram (DFD) Level 2 ... 45

3.5.4. Deskripsi Proses ... 46

3.5.5. Kamus Data ... 48

3.6. Perancangan Sistem ... 50

3.6.1. Perancangan Basis Data ... 50

3.6.1.1. Struktur Tabel ... 50

3.6.2. Perancangan Arsitektur ... 51

3.6.3. Perancangan Antarmuka ... 51

3.6.4. Antarmuka Halaman Utama ... 52

3.6.5. Antarmuka Halaman Mencari/Pilih Dokumen ... 53

3.6.6. Antarmuka Halaman Hasil Ringkasan ... 54

3.6.7. Jaringan Semantik ... 54

BAB 4 IMPLEMENTASI DAN PENGUJIAN... 55

4.1. Implementasi Sistem ... 55

4.1.1. Implementasi Perangkat Keras ... 55

4.1.2. Implementasi Perangkat Lunak ... 55

4.1.3. Implementasi Basis Data ... 56

4.1.3.1. Tabel Dictionary ... 56

4.1.3.2. Tabel Hasil Ringkas ... 56

4.1.4. Implementasi Antarmuka ... 57

4.2. Pengujian ... 59

4.2.1. Pengujian Sistem ... 59

(7)

viii

4.2.3. Hasil Pengujian ... 60

4.2.4. Evaluasi Pengujian ... 62

BAB 5 KESIMPULAN DAN SARAN ... 65

5.1. Kesimpulan ... 65

5.2. Saran ... 65

(8)

[1] Hovy, Eduard. “Text Summarization.” Dalam The Oxford Handbook of

Computational Linguistics, oleh Ruslan Mitkov, 583-589. Oxford: Oxford University Press, 2003.

[2] Móro . Róbert, Bieliková. Mária, “Personalized Text Summarization Based on Important Terms Identification,” 2012 23rd International Workshop on

Database and Expert Sytems Applications.

[3] Bagalkotkar. Anusha ,Khandelwal. Ashesh ,Pandey. Shivam ,Kamath. Sowmya. "A Novel Technique for Efficient Text Document Summarization as a Service," 2013 Third International Conference on Advances in Computing and Communications.

[4] Chengcheng. Li, "Automatic Text Summarization Based On Rhetorical Structure Theory," 20IO International Conference on Computer Application and System Modeling (ICCASM 2010).

[5] Suanmali. Ladda, Salim. Naomie, Binwahlan. Mohammed Salem, "Fuzzy Genetic Semantic Based Text Summarization." 2011 Ninth IEEE International Conference on Dependable, Autonomic and Secure Computing.

[6] Yang. Guangbing,Wen. Dunwei ,Kinshuk,Chen. Nian-Shing,Sutinen. Erkki, "Personalized Text Content Summarizer for Mobile Learning: An Automatic Text Summarization System with Relevance Based Language Model," 2012 IEEE Fourth International Conference on Technology for Education.

[7] Ilyas. Ridwan, Witanti. Wina, Eri. Hariah, “Penggunaan Personalized Text

Summarization untuk Penentuan Kalimat-Kalimat Utama dalam Berita Pendidikan” Sekolah Teknik Lektro dan Informatika. Institut Teknologi

(9)

Summariez. In Proceedings SIGIR ’95, pages 68-73, Ney York, NY, USA.

[10] Pressman, R. S. (2010). Software Engineering : A Practitioner's Approach 7th. New York: McGraw-Hill Education

[11] Fitriaman. Deni, Khodra, L., Masayu, TRrilaksono, R., Bambang, “Peringkasan Teks Otomatis Berita Bahasa Indonesia pada Multi Dokumen Menggunakan Metode Support Vector Machines (SVM), Sekolah Teknik Lektro dan Informatika. Institut Teknologi Bandung, Informatika..

[12] Luhn, H. P. (1958). The automatic creation of literature abstracts. IBM Journal of Research Development, 2(2):159{165. [2, 3, 6, 8]

[13] Russel, S. J., & Norvig, P. (2003). Artificial Intelligence : A Modern Approach 2nd. New Jersey, United States Of America: Prentice-Hall.

[14] Siswanto. (2005). Kecerdasan Tiruan. Yogyakarta: Graha Ilmu.

[15] Suparman. (2004). Mengenal Artificial Intelligence. Yogyakarta: Andi Offset.

[16] Husni, Muchammad dan Zaman, Badrus. 2005. Perangkat Lubak Peringkas Dokumen Berbahasa Indonesia dengan Hybrid Stemming. Surabaya: Teknik Informatika Fakultas Teknologi Institut Teknologi Sepuluh Nopember.

[17] Tala, F. Z., 2003, A Study of Stemming Effects onInformation Retrieval in Bahasa Indonesia, Institute for Logic, Language and Computation, Universiteit van Amsterdam; Amsterdam; Netherlands.

[18] Kadir, Abdul. Dasar Pemrograman Web Dinamis Menggunakan PHP. Yogyakarta: ANDI. 2002.

[19] Sutarman, Membangun Aplikasi Web dengan PHP dan MySQL. Yogyakarta, Indonesia: Graha Ilmu, 2007.

[20] Amin. Fathhul. 2012. Sistem Temu Kembali dengan Metode Vector Space Model. Semarang, Fakultas Teknologi Informasi, Universitas Stikubank.

(10)

[22] Mustaqhfiri. Muchammad. 2011. Peringkasan Teks Otomatis Berita Olahraga Berbahasa Indonesia Menggunakan Metode Maximum Marginal Relevance. Skripsi .Teknik Informatika Fakultas Sains dan Teknologi Universitas Islam Negeri Maulana Malik Ibrahim Malang.

[23] Many, I. and Maybury. 1999. Advance in Automatic Text Summarization. The MIT Press: Cambrige.

[24] Zaman B. dan E Winarko. 2011. Analisis Fitur Kalimat untuk Peringkas Teks otomatis pada Bahasa Indonesia. Indonesian Journal of Computing and

Cybernetics Systems 5 (2): 60-68.

[25] Juhara, E., Budiman, E., dan Rohayati, R. 2005 Cendekia berbahasa.

Bahasa dan Sastra Indonesia. Bandung: PT Setia Purna Inves.

[26] Sartuni, Rasjid dkk.1984. Bahasa Indonesia untuk Perguruan Tinggi. Jakarta: Nina Dinamika

[27] Sakri, Adjat. 1992. Bangun Paragraf Bahasa Indonesia, 1994. Bangun Kalimat Bahasa Indonesia. Bandung: ITB.

[28] Budiman, K. 2005. Dasar-dasar jurnalistik. Pelatihan Jurnalistik-info jawa 12-15 desember 2005.www.infojawa.org. Diakses tanggal 15 Mei 2015.

(11)

1 1.1. Latar Belakang Masalah

Ringkasan adalah suatu pokok permasalahan dari suatu paragraf ataupun suatu dokumen [1]. Dengan melihat sebuah ringkasan saja seorang pembaca dapat memahami garis besar dari suatu berita tanpa perlu membaca keseluruhan berita tersebut. Ringkasan dapat didefinisikan sebagai teks yang singkat dan padat dianggap pengganti dari keseluruhan dokumen karena tetap mempertahankan kandungan informasi penting yang dimiliki oleh sumbernya. Secara umum pembaca dari suatu berita hanya fokus melihat pada garis besar suatu berita yang dicari sebelum melihat lebih detil lagi berita hasil pencarian.

Perkembangan teknologi semakin pesat menyebabkan kebutuhan akan informasi yang sangat besar dan tidak terbatas, terutama informasi dalam bentuk jurnal, artikel, dan berita. Artikel yang ada pada situs portal berita umumnya bersifat real time dan up to date yang menyebabkan artikel berita memiliki jumlah kalimat/paragraf yang sangat banyak. Akan tetapi banyak dokumen digital yang tidak mempunyai ringkasan atau abstraknya. Oleh karena itu dapat mengakibatkan pembaca kesulitan dalam memahami informasi yang terkandung dari artikel berita tersebut. Apalagi jika dibaca secara panjang lebar dari berita yang diunggah oleh portal berita, pembaca harus meluangkan waktu yang banyak untuk membaca keseluruhan berita.

Penggunaan peringkasan teks dapat membantu memecahkan masalah ini. Berdasarkan literatur “Pembangunan Perangkat Lunak Peringkas Dokumen Dari Banyak Sumber Menggunakan Sentence Scoring Dengan Metode TF-IDF”, bahwa untuk mengoptimalkan pemilihan kalimat yang digunakan sebagai ringkasan, akan lebih baik jika digabungkan dengan metode yang mencari kemiripan antar kata atau kalimat sehingga mengatasi resiko apabila terdapat redudansi (kemiripan)[2].

Algoritma Vector Space Model (VSM) merupakan salah satu metode

(12)

Metode VSM bermanfaat untuk mengurangi redudansi kalimat yang akan diringkas[3].

Oleh karena itu, pada penelitian ini akan mengimplementasikan Text Summarization untuk membuat sistem peringkas teks otomatis menggunakan metode Vector Space Model pada artikel berita berbahasa Indonesia. Dengan adanyaperingkas teks otomatis diharapkan dapat membantu pembaca dengan cepat dan mudah memahami makna dari sebuah artikel berita tanpa harus membaca keseluruhan teks.

1.2.Rumusan Masalah

Berdasarkan uraian pada latar belakang masalah pada penelitian ini terdapat permasalahan bagaimana melakukan peringkasan untuk mengatasi masalah redudansi kalimat dengan menggunakan metode Vektor Space Model yang nantinya akan menghasilkan sebuah ringkasan dari artikel berita berbahasa Indonesia. 1.3.Maksud dan Tujuan

Penelitian ini bermaksud membuat sistem peringkas teks otomatis pada artikel berita berbahasa Indonesia. Sedangkan tujuan yang ingin dicapai dari penelitian ini adalah untuk mengukur akurasi kalimat suatu ringkasan dengan menggunakan metode Vector Space Model.

1.4.Batasan Masalah

Agar penelitian ini tidak menyimpang dari latar belakang dan tujuan yang akan di capai, maka terdapat batasan masalah. Adapun batasan masalah dalam penelitian ini adalah sebagai berikut :

1. Dokumen yang akan diringkas adalah dokumen berita berbahasa indonesia.

2.

Bentuk masukan ke sistem berupa teks dengan format file .txt.

3. Dokumen Masukan dari sistem yang dibuat adalah sebuah dokumen tunggal berita berbahasa indonesia.

(13)

5. Peringkas teks otomatis yang dibangun berbasis web dengan menggunakan bahasa pemrograman PHP.

1.5. Metodologi Penelitian

Penelitian ini menggunakan Metode Deskriptif dimana setiap objek digambarkan secara jelas dan nyata sesuai dengan fakta. Metode yang digunakan pada saat mengumpulkan data dan pengembangan prototype sebagai berikut :

1. Metode Pengumpulan Data

Metode pengumpulan data yang digunakan dalam penelitian ini adalah sebagai berikut:

a) Studi Literatur

Pengumpulan berbagai informasi mengenai penelitian dengan cara mengumpulkan literatur, jurnal, e-book, website, paper dan bacaan-bacaan yang berkaitan dengan peringkas teks otomatis yang akan dibangun, meliputi kecerdasan buatan, desain, tools dan juga pemodelan dengan DFD.

b) Pengumpulan Data

Pengumpulan data dilakukan secara manual. Dimana data yang diambil merupakan berita dengan sumber dari media online seperti merdeka, republika, liputan6, kompas, tribunnews, dan tempo. Data dipilih secara acak, disalin, kemudian disimpan dalam format file .txt.

2. Metode Pembangunan Sistem

Metode pembangunan sistem ini menggunakan Model Prototyping, Prototyping adalah salah satu teknik analisis data dalam pembuatan perangkat lunak. Prototyping adalah proses pembuatan model sederhana yang menyajikan pengguna memiliki gambaran dasar tentang program serta melakukan pengujian awal.

(14)

Prototyping memberikan fasilitas bagi pengembang dan pemakai untuk saling berinteraksi selama proses pembuatan, sehingga pengembang dapat dengan mudahmemodelkan perangkat lunak yang akan dibuat.

Definisi prototype menurut Jr. McLeod Raymond dan George P. Schell (Sistem Informasi Manajemen, 2008:188) Prototype adalah suatu versi sistem potensial yang disediakan bagi pengembang dan calon pengguna yang dapat memberikan gambaran bagaimana kira-kira sistem tersebut akan berfungsi bila telah disusun dalam bentuk yang lengkap. Proses dalam memproduksi suatu prototipe ini disebut prototyping.

Prototyping disebut juga desain aplikasi cepat (rapid application design/RAD) karena menyederhanakan dan mempercepat desain sistem.

Gambar 1.1 Model Linier Process Flow

Ada tujuh tahapan dalam pengembangan sistem model Prototype ini, yaitu sebagai berikut :

1. Pengumpulan kebutuhan dan perbaikan

Menetapkan segala kebutuhan untuk pembangunan perangkat lunak. 2. Quick design

Tahap pembuatan desain global dari keperluan atau data yang telah dianalisis kedalam bentuk yang mudah dimengerti oleh user.

(15)

3. Membangun prototype

Membangun prototyping dengan membuat perancangan sementara yang berfokus pada penyajian kepada user (misalnya dengan membuat input dan format output).

4. Evalusi prototype

Evaluasi ini dilakukan oleh user apakah prototyping yang sudah dibangun sudah sesuai dengan keinginan user. Jika sudah sesuai maka langkah empat akan diambil, jika tidak Prototyping direvisi dengan mengulangi langkah satu, dua, dan tiga.

5. Perbaikan Prototype

Tahap perbaikan program yang sudah dibuat, sesuai dengan kebutuhan user. Kemudian dibuat program kembali dan dievaluasi oleh user hingga semua kebutuhan terpenuhi.

6. Sistem produk

Perangkat lunak yang telah diuji dan diterima user siap untuk digunakan.

1.6.Sistematika Penulisan

Sistematika penulisan proposal penelitian ini disusun untuk memberikan gambaran umum tentang kasus yang akan dipecahkan. Sistematika penulisan tugas akhir ini adalah sebagai berikut :

BAB 1 PENDAHULUAN

Bab ini menerangkan secara umum mengenai latar belakang, mencoba merumuskan inti permasalahan yang dihadapi , menentukan maksud dan tujuan, batasan masalah, metodologi penelitian, serta sistematika penulisan tugas akhir.

BAB 2 LANDASAN TEORI

Pada bab ini membahas berbagai konsep dasar dan teori-teori yang berkaitan dengan topik penelitian seperti kecerdasan buatan membahas berbagai konsep dasar dan teori-teori yang berkaitan dengan topik penelitian seperti

(16)

Peringkas Teks Otomatis, Terms Frequency-Inverse Document Frequency (TF-IDF), Vector Space Model.

BAB 3 ANALISIS DAN PERANCANGAN

Bab ini berisi tentang analisis sistem yang meliputi perancangan tampilan sistem, serta analisis metode Vector Space Model untuk diaplikasikan pada teks Summarization..

BAB 4 IMPLEMENTASI DAN PENGUJIAN

Pada bab ini berisi tentang hasil evaluasi sistem dan pengujian untuk hasil peringkas teks otomatis yang telah menggunakan metode Vector Space Model pada teks summarization sehingga dapat ditarik suatu kesimpulan.

BAB 5 KESIMPULAN DAN SARAN

Berisi kesimpulan dan saran berdasarkan hasil yang telah dicapai sehingga dapat digunakan sebagai bahan pertimbangan bagi pihak-pihak yang berkepentingan serta kemungkinan pengembangannya.

(17)

7 2.1. Peringkas Teks Otomatis

2.1.1.Definisi Peringkas Teks Otomatis

Dalam Kamus Besar Bahasa Indonesia Departemen Pendidikan Nasional Balai Pustaka (2008) mendefinisikan ringkasan, yaitu hasil meringkaskan, ikhtisar, singkatan cerita, dan kependekan. Sedangkan definisi otomatis dalam Kamus Besar Bahasa Indonesia Departemen Pendidikan Nasional Balai Pustaka (2008) yaitu dengan sendirinya, secara otomat. Ringkasan merupakan ekspresi yang ketat dari isi utama suatu artikel, tujuannya untuk memberitahu pembaca inti dari suatu pikiran utama[22]. Ringkasan adalah mengambil isi yang paling penting dari sumber informasi yang kemudian menyajikannya kembali dalam bentuk yang lebih ringkas bagi penggunanya.[23]

peringkas teks otomatis adalah teknik pembuatan ringkasan dari sebuah teks secara otomatis dengan memanfaatkan aplikasi yang dijalankan pada komputer untuk menghasilkan informasi yang paling penting dari dokumen aslinya[24]. 2.1.2.Pendekatan Peringkasan Teks

Menurut Zaman B. dan E Winarko terdapat 2 pendekatan peringkas teks[24], yaitu:

1. Ekstraksi (extractive summary)

Pada teknik ekstraksi, sistem menyalin unit-unit teks yang dianggap paling penting dari teks sumber menjadi ringkasan. Unit-unit teks yang disalin dapat berupa klausa utama, kalimat utama, atau paragraf utama tanpa ada penambahkan kalimat-kalimat baru yang tidak terdapat pada dokumen aslinya.

2. Abstraksi (abstractive summary)

Teknik abstraksi menggunakan metode linguistik untuk memeriksa dan menafsirkan teks dokumen menjadi ringkasan. Ringkasan teks tersebut

(18)

dihasilkan dengan cara menambahkan kalimat-kalimat baru yang merepresentasikan intisari teks sumber ke dalam bentuk yang berbeda dengan kalimat-kalimat yang ada pada teks sumber.

Pada penelitian ini metode pendekatan yang digunakan untuk peringkasan teks otomatis yaitu teknik ekstraktif dengan memanfaatkan aplikasi yang dijalankan pada komputer untuk menghasilkan sebuah ringkasan dari dokumen aslinya.

2.1.3.Tahapan Membuat Ringkasan

Menurut Juhara, E,dkk ada beberapa tahapan untuk membuat ringkasan[25], yaitu sebagai berikut:

1.

Membaca naskah asli secara menyeluruh untuk mengetahui kesan umum, gagasan pengarang, dan sudut pandangnya.

2.

Mencatat semua gagasan utama atau gagasan penting

3.

Menyusun kembali suatu karangan singkat berdasarkan gagasan tersebut. Untuk membuat dan mendapatkan ringkasan yang baik, yaitu dengan cara membaca dengan seksama teks bacaan dan mencatat hal-hal pokok dari bacaan tersebut[25]. Ciri-ciri sebuah ringkasan yang baik itu harus mudah dipahami, bentuknya lebih singkat atau lebih ringkas, dan terdiri dari gagasan-gagasan utama (expert judgement).

2.1.4.Tujuan Ringkasan

Menurut Juhara, E,dkk tujuan dari peringkasan teks dapat dikategorikan berdasarkan maksud, fokus, dan cakupannya [25], yaitu sebagai berikut:

a.

Informatif Tujuannya ringkasan ini adalah untuk menyatakan informasi– informasi penting yang terdapat pada dokumen asal.

b.

Indicatif Tujuannya ringkasan ini adalah untuk dijadikan referensi yang membantu pembaca mengetahui isi dari teks daripada membaca keseluruhan teks yang ada. Ringkasan ini meliputi topik dari teks asal.

c.

Evaluatif Yaitu melibatkan pembuatan sebuah pertimbangan pada teks asal, seperti suatu tinjauan ulang atau opini.

(19)

d.

User-Focused Yaitu ringkasan yang dibuat berdasarkan topik yang dipilih oleh user, sering yang merupakan jawaban dari query yang dimiliki oleh user.

e.

Generic Yaitu sifatnya lebih umum dan berdasarkan pada teks aslinya.

f.

Single Document (Dokumen tunggal) yaitu ringkasan yang dihasilkan merupakan ringkasan dari satu dokumen.

g.

Multi Document Pada peringkasan multi document, ringkasan merupakan hasil ringkasan dari banyak dokumen.

2.2.Proses Peringkasan Teks

Secara umum terdapat tiga tahapan dalam proses peringkasan teks, yaitu sebagai berikut[22]:

1. Topic Identification

Tahapan ini meliputi identifikasi faktor yang sangat penting tentang apa yang dibicarakan dala teks tersebut. Ada beberapa teknik untuk melakukannya, diantaranya:

i. Dalam beberapa tipe teks, informasi penting terdapat dalam bagianbagian tertentu dalam teks tersebut, seperti dalam judul, kalimat pertama, kalimat terakhir dan lain sebagainya.

ii. Beberapa kata atau frase mengidentifikasi intisari dari suatu teks.

iii. Beberapa kata cenderung muncul lebih. Ini dijadikan faktor penentu topik dari suatu teks (word frequency).

iv. Ada juga topik diidentifikasi dari jumlah pengertiannya atau makna dibandingkan kata.

2. Interpretation

Interpretasi peringkas yang ekstraktif berdasarkan pada metode yang digunakan, sedangkan pada peringkas yang abstraktif interpretasi ditunjukkan dengan cara penggabungan pengertian yang serupa menjadi satu, penghilangan redudansi dan lain sebagainya.

(20)

Tahapan ini adalah pembangkitan atau pembentukan hasil akhir. Terdiri dari penggabungan frase, pencetakan kata atau frase dan pembangkitan kalimat. Terdapat beberapa metode yang dapat digunakan, diantaranya :

a. Extraction, hasil akhir berisi kalimat atau frase yang dihasilkan setelah semua tahap proses pada text summarization selesai dilakukan.

b.

Topic list, hasil akhir berisi kata-kata yang sering muncul atau penggabungan pengertian yang telah diinterpretasi.

2.3.Kata

Kata adalah kesatuan terkecil yang diperoleh sesudah sebuah kalimat dibagi atas bagian-bagiannya dan mengandung suatu ide. kata adalah kumpulan huruf atau bunyi yang mengandung arti[26].

Kategori kata berdasarkan sintaksisnya terdiri dari lima kelas kata yaitu : 1. Kata Benda (nomina)

Adalah kata yang mengacu pada manusia, binatang, benda dan konsep atau pengertian.

2. Kata Kerja (verba)

Adalaha kata yang menyatakan tindakan 3. Kata Sifat (adjektiva)

Adalah kata yang memberi keterangan yang lebih khusus tentang sesuatu yang dinyatakan oleh manusia dalam kalimat.

4. Kata Keterangan (adverbial)

Adalah kategori yang mendampingi adjektiva, numerilia atau preposisi dalam kontruksi sintaksis.

5. Kata Tugas

Adalah kata yang hanya memiliki arti gramatikal dan tidak memiliki arti leksikal.

2.4.Kalimat

Kalimat adalah satuan terkecil dalam wujud lisan atau tulisan, yang mengungkapkan pikiran yang utuh. Sebagaimana menurut Sakri, Adjat[27] yang

(21)

menyatakan, bahwa kalimat dalam tulisan terdiri atas deret kata yang dimulai dengan huruf kapital dan diakhiri dengan tanda titik(.), tanda tanya(?), tanda seru(!). Unsur-unsur kalimat terdiri dari kata, kelompok dan lagu kalimat. Pada kalimat terdapat pengaturan hubungan kedudukan antara bagian-bagiannya. Berdasarkan jabatannya kalimat terdiri dari :

1. Subyek, yaitu bagian yang menjadi pangkal atau pokok permasalahan. 2. Predikat, yaitu bagian yang menerangkan subyek, biasanya berdiri sesudah

subyek

3. Obyek, yaitu bagian yang menjadi tujuan.

4. Keterangan, yaitu bagian yang menunjukkan waktu (keterangan waktu), tempat (keterangan tempat), alat (keterangan alat), dan sebagainya. Sedangkan kalimat berdasarkan fungsinya dapat dikategorikan sebagai berikut:

1.Kalimat pernyataan 2.Kalimat pertanyaan 3.Kalimat perintah 4.Kalimat seruan 2.5.Paragraf

Paragraf disebut juga alinea. Paragraf merupakan inti penuangan pikiran dalam sebuah karangan. Kalimat-kalimat dalam paragraf memperlihatkan kesatuan pikiran atau mempunya keterkaitan dalam membentuk gagasan atau topic. Terdapat dua syarat dalam membentuk paragraf [27].

1. Menulis pernyataan (kalimat) tentang pokok bahasan dengan baik. 2. Menggali pola susunan rincian dengan patut.

2.6.Berita

Berita adalah laporan mengenai fakta atau ide terbaru yang benar, dan penting bagi sebagian besar khalayak, melalui media berkala seperti surat kabar, radio, televise, atau media internet.

(22)

Berita atau news adalah laporan mengenai suatu peristiwa atau kejadia yang terbaru (aktaul), laporan mengenai fakta-fakta yang actual, menarik perhatian, dinilai penting, atau luar biasa[28].

Susunan berita umumnya terdiri dari empat bagian, yaitu: 1. Headline, kepala berita atau judul berita.

2. Dateline, yaitu waktu dan nama tempat berita dibuat atau diperoleh. 3. Teras berita (Lead)

Adalah bagian berita yang terletak dialinea atau paragraf pertama, setelah head dan dateline sebelum badan atau isi berita. Biasanya berisi fakta penting dengan mengedepankan unsur 5W+1H (what, who, when,where,why,dan how).

4. Tubuh berita (News Body)

Berisi penjelasan atau uraian rinci unsur 5W+1H, baik yang sudah dikemukakan dalam teras berita maupun yang belum diungkapkan. Penulisan tubuh berita untuk melanjutkan apa yang sudan tertuang dalam teras yang mencerminkan pokok-pokok terpenting isi berita. Biasanya berupa kutipan dari isi berita atau kutipan isi pembicaraan nara sumber yang paling menarik.

2.7. Algoritma Text Summarization 2.7.1.Pra Proses (Preprocessing)

Preprocessing adalah tahapan untuk mempersiapkan teks menjadi data yang akan diolah di tahapan berikutnya. Inputan awal pada proses ini adalah berupa dokumen. Pada umumnya preprocessing memiliki beberapa tahapan yaitu case folding, tokenizing, stop word removal, stemming, dan lain-lain. Preprocessing

pada penelitian ini terdiri dari beberapa tahapan, yaitu: proses pemecahan kalimat, proses case folding, proses tokenizing kata, dan proses stop word removal

2.7.1.1. Pemecahan Kalimat

Memecah dokumen menjadi kalimat-kalimat merupakan langkah awal tahapan preprocessing. Pemecahan kalimat yaitu proses memecah string teks dokumen yang panjang menjadi kumpulan kalimat-kalimat. Dalam memecah

(23)

dokumen menjadi kalimat-kalimat menggunakan fungsi split(), dengan tanda titik “.”, tanda tanya ”?” dan tanda tanya “!” sebagai delimiter untuk memotong string dokumen [22].

Tabel 2. 1 Contoh pemecahan kalimat

Kalimat Hasil pemecahan kalimat

Manajemen transaksi elektronik. Pengetahuan antar individu. Dalam manajemen pengetahuan, terdapat transfer pengetahuan elektronik

Manajemen transaksi elektronik Pengetahuan antar individu Dalam manajemen pengetahuan terdapat transfer pengetahuan elektronik

2.7.1.2. Case Folding

Dokumen mengandung berbagai variasi dari bentuk huruf sampai tanda baca. Variasi huruf harus diseragamkan (menjadi huruf besar saja atau huruf kecil saja) dan tanda baca dihilangkan untuk menghilangkan noise pada saat pengambilan informasi. Hal ini dapat dilakukan dengan case folding. Case folding

adalah tahapan proses mengubah semua huruf dalam teks dokumen menjadi huruf kecil, serta menghilangkan karakter selain a-z.[22].

Tabel 2. 2 Contoh case folding

Kalimat Hasil case folding

Manajemen transaksi elektronik Pengetahuan antar individu Dalam manajemen pengetahuan terdapat transfer pengetahuan elektronik

manajemen transaksi elektronik pengetahuan antar individu dalam manajemen pengetahuan terdapat transfer pengetahuan elektronik

2.7.1.3. Tokenizing

Tokenizing adalah proses pemotongan string input berdasarkan tiap kata yang menyusunnya. Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan men-scan kalimat dengan pemisah (delimiter) white space (spasi, tab, dan

newline)[22].

Tabel 2. 3 Contoh Tokenizing

Case folding kalimat Hasil

Tokenizing

manajemen transaksi elektronik pengetahuan antar individu dalam manajemen pengetahuan terdapat transfer pengetahuan elektronik

Manajemen transaksi elektronik pengetahuan

(24)

individu dalam manajemen pengetahuan terdapat transfer pengetahuan elektronik 2.7.1.4. Stoplist / Stop Word Removal

Penghapusan Stopword merupakan proses penghilangan kata stopword.

Stopword adalah kata - kata yang sering kali muncul dalam dokumen namun arti dari kata-kata tersebut tidak deskriptif dan tidak memiliki keterkaitan dengan tema tertentu. Misalnya “di”, ”oleh”, “pada”, ”sebuah”, ”karena” dan lain sebagainya [22].

Tabel 2. 4 Contoh Stop Word Removal

Tokenizing kalimat Hasil Stop Word Removal

manajemen transaksi elektronik pengetahuan antar individu dalam manajemen pengetahuan terdapat transfer pengetahuan elektronik manajemen transaksi elektronik pengetahuan individu manajemen transfer 2.7.1.5. Stemming

Menurut Zaman B. dan E Winarko [24] stemming adalah proses pemetaan dari penguraian berbagai bentuk kata baik itu prefix, sufix, maupun gabungan antara

prefix dan sufix (confix), menjadi bentuk kata dasarnya.

Algoritma stemmer yang diperkenalkan Nazief dan Adriani didefinisikan sebagai berikut (Andita, 2010):

1. Di awal proses stemming dan setiap langkah yang selanjutnya dilakukan, lakukan pengecekan hasil proses stemming kata yang di-input-kan pada

(25)

langkah tersebut ke kamus kata dasar. Jika kata ditemukan, berarti kata tersebut sudah berbentuk kata dasar dan proses stemming dihentikan. Jika tidak ditemukan, maka langkah selanjutnya dilakukan.

2. Hilangkan Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”). Jika berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”, atau “- nya”), jika ada.

3. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a

a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “

-k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam

kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.

b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut

ke langkah 4.

4. Hilangkan derivation prefixes. a. Langkah 4 berhenti jika :

i. Terjadi kombinasi awalan dan akhiran yang terlarang.

ii. Awalan yang dideteksi saat ini sama dengan awalan yang dihilangkan sebelumnya.

iii. Tiga awalan telah dihilangkan.

b. Identifikasikan tipe awalan dan hilangkan. Awalan terdiri dari dua tipe :

i. Standar (“di-”, “ke-”, “se-”) yang dapat langsung dihilangkan dari

kata.

ii. Kompleks (“me-”, “be-”, “pe”, “te-”) adalah tipe-tipe awalan yang dapat bermorfologi sesuai kata dasar yang mengikutinya. Oleh karena itu, gunakan aturan pada Tabel 2.1 untuk mendapatkan hasil pemenggalan yang tepat.

(26)

c. Cari kata yang telah dihilangkan awalannya ini di dalam kamus kata dasar. Apabila tidak ditemukan, maka langkah 4 diulangi kembali. Apabila ditemukan, maka keseluruhan proses dihentikan.

5. Apabila setelah langkah 4 kata dasar masih belum ditemukan, maka proses

recoding dilakukan dengan mengacu pada aturan pada Tabel 2.1.

Recoding dilakukan dengan menambahkan karakter recoding di awal kata yang dipenggal. Pada Tabel 2.1, karakter recoding adalah huruf kecil setelah

tanda hubung („-‟) dan terkadang berada sebelum tanda kurung. Sebagai

contoh, kata “menangkap” (aturan 15), setelah dipenggal menjadi “nangkap”. Karena tidak valid, maka recoding dilakukan dan menghasilkan kata “tangkap”.

6. Jika semua langkah gagal, maka input kata yang diuji pada algoritma ini dianggap sebagai kata dasar.

Tabel 2.1 Aturan pemenggalan Awalan Stemmer Nazief dan Adriani Aturan Format Kata Pemenggalan

1 berV... ber-V... | be-rV...

2 berCAP... ber-CAP... dimana C!=‟r‟ & P!=‟er‟ 3 berCAerV... ber-CaerV... dimana C!=‟r‟

4 Belajar bel-ajar

5 beC1erC2... be-C1erC2... dimana C1!={‟r‟|‟l‟} 6 terV... ter-V... | te-rV...

7 terCerV... ter-CerV... dimana C!=‟r‟

8 terCP... ter-CP... dimana C!=‟r‟ dan P!=‟er‟ 9 teC1erC2... te-C1erC2... dimana C1!=‟r”

10 me{l|r|w|y}V... me-{l|r|w|y}V... 11 mem{b|f|v}... mem-{b|f|v}... 12 mempe{r|l}... mem-pe...

13 mem{rV|V}... me-m{rV|V}... | me-p{rV|V}... 14 men{c|d|j|z}... men-{c|d|j|z}...

15 menV... me-nV... | me-tV

16 meng{g|h|q}... meng-{g|h|q}...

17 mengV... meng-V... | meng-kV...

18 menyV... meny-sV…

19 mempV... mem-pV... dimana V!=„e‟ 20 pe{w|y}V... pe-{w|y}V...

21 perV... per-V... | pe-rV... 22 perCAP per-CAP... dimana _{C!=‟r‟danP!=‟er‟}

(27)

23 perCAerV... per-CAerV... dimana C!=‟r‟ 24 pem{b|f|V}... pem-{b|f|V}...

25 pem{rV|V}... pe-m{rV|V}... | pe-p{rV|V}... 26 pen{c|d|j|z}... pen-{c|d|j|z}...

27 penV... pe-nV... | pe-tV... 28 peng{g|h|q}... peng-{g|h|q}... 29 pengV... peng-V... | peng-kV...

30 penyV... peny-sV…

31 pelV... pe-_{menghasilkan “ajar”}lV... kecuali “pelajar” yang 32 peCerV... per-erV... dimana C!={r|w|y|l|m|n} 33 peCP... pe-CP... dimana C!={r|w|y|l|m|n} _{dan P!=‟er‟}

Keterangan simbol huruf : C: huruf konsonan

V: huruf vokal

A: huruf vokal atau konsonan

P: partikel atau fragmen dari suatu kata, misalnya “er”

2.7.2.Algoritma TF-IDF

Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah cara pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot, yaitu Term frequency (TF) merupakan frekuensi kemunculan kata (t) pada kalimat (d). Document frequency

(DF) adalah banyaknya kalimat dimana suatu kata (t) muncul.

Frekuensi kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut. Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata tersebut. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen[22]. Pada aloritma TF-IDF digunakan rumus untuk menghitung bobot (W) masing masing dokumen terhadap kata kunci dengan rumus yaitu :

(28)

Wdt = tf

*

IDF

t(2.1) Dimana:

d = dokumen ke-d

t = kata ke-t dari kata kunci

W= bobot dokumen ke-d terhadap kata ke-t

tf = banyaknya kata yang dicari pada sebuah dokumen IDF = Inversed Document Frequency

IDF = log2 (D/df) D = total dokumen

df = banyak dokumen yang mengandung kata yang dicari

Setelah bobot (W) masing-masing dokumen diketahui, maka dilakukan proses sorting/pengurutan dimana semakin besar nilai W, semakin besar tingkat similaritas dokumen tersebut terhadap kata kunci, demikian sebaliknya.

Inverse Document Frequency memperhatikan kemunculan term pada kumpulan dokumen. Pada metode ini, term yang dianggap bernilai/berharga adalah

term yang jarang muncul pada koleksi/ kumpulan dokumen[20]. Persamaan IDF adalah sebagai berikut:

�� = � (2.2)

Dimana df(t) adalah banyak dokumen yang mengandung term t.

TF*IDF merupakan kombinasi metode TF dengan metode IDF. Sehingga persamaan TF*IDF adalah sebagai berikut:

�� ∗ �� , = �� , ∗ �� (2.3)

Perhitungan bobot query relevance merupakan bobot hasil perbandingan kemiripan (similaritas) antara query yang dimasukkan oleh user terhadap keseluruhan kalimat. Sedangkan bobot similarity kalimat, merupakan bobot hasil perbandingan kemiripan antar kalimat.

(29)

2.7.3.Vector Space Model

Vector Space Model (VSM) adalah metode untuk melihat tingkat kedekatan atau kesamaan (similarity) term dengan cara pembobotan term. Dokumen dipandang sebagi sebuah vektor yang memiliki magnitude (jarak) dan direction

(arah). Pada Vector Space Model, sebuah istilah direpresentasikan dengan sebuah dimensi dari ruang vektor. Relevansi sebuah dokumen ke sebuah query didasarkan pada similaritas diantara vektor dokumen dan vektor query[20].

Dokumen dan query direpresentasikan sebagai vektor. (2.4)

(2.5)

Setiap dimensi sesuai dengan istilah yang terpisah. Jika jangka terjadi dalam dokumen, nilainya dalam vektor adalah non-nol. Beberapa cara yang berbeda dari komputasi nilai-nilai, juga dikenal sebagai (istilah) berat, telah dikembangkan. Salah satu skema yang paling dikenal adalah tf-idf bobot (lihat contoh di bawah).

Definisi istilah tergantung pada aplikasi. Biasanya istilah yang satu kata, kata kunci , atau frase lagi. Jika kata-kata yang dipilih untuk menjadi persyaratan, dimensi dari vektor adalah jumlah kata dalam kosa kata (jumlah kata yang berbeda terjadi di corpus ). Operasi vektor dapat digunakan untuk membandingkan dokumen dengan query.

Relevansi peringkat dokumen dalam pencarian kata kunci dapat dihitung dengan menggunakan asumsi dari dokumen kesamaan teori, dengan membandingkan deviasi dari sudut antara masing-masing vektor dokumen dan query vektor asli di mana query direpresentasikan sebagai jenis yang sama vektor sebagai dokumen.

(30)

Gambar 2.1 Ruang Vektor

Dalam prakteknya, lebih mudah untuk menghitung cosinus dari sudut antara vektor, bukan sudut itu sendiri:

(2.6)

Dimana adalah persimpangan (yaitu dot produk ) dari dokumen (d 2 pada gambar di sebelah kanan) dan query (q pada gambar) vektor, adalah

norma vektor d 2, dan adalah norma vektor q. norma dari vektor dihitung

seperti:

(2.7)

Karena semua vektor sedang dipertimbangkan oleh model ini adalah elementwise nonnegatif, nilai cosinus dari nol berarti bahwa permintaan dan vektor dokumen yang orthogonal dan tidak memiliki pertandingan (yaitu istilah permintaan tidak ada dalam dokumen yang sedang dipertimbangkan). Lihat kesamaan kosinus untuk informasi lebih lanjut.

2.8. Teknik Evaluasi Peringkasan Teks

Adapun Teknik yang digunakan untuk mengevaluasi hasil suatu ringkasan teks merupakan topik yang cukup sulit, baik evaluasi terhadap ringkasan yang

(31)

dihasilkan dari mesin peringkas otomatis ataupun ringkasan yang dihasilkan secara manual yang dibuat manusia, dikarenakan tidak terdapat definisi ringkasan ideal. Menurut Zaman B. dan E Winarko [24] metode untuk melakukan evaluasi terhadap hasil dari ringkasan secara umum dibagi 2, yaitu:

1. Ekstrinsik

Metode evaluasi ekstrinsik adalah menghitung efektivitas dan akseptabilitas dari hasil ringkasan untuk tugas-tugas tertentu, misalnya

assessment terhadap hasil ringkasan. 2. Intrinsik

Metode evaluasi intrinsik adalah evaluasi yang dilakukan oleh sistem peringkas itu sendiri, misalnya menggunakan F-Measures. Evaluasi ini difokuskan pada tingkat koheren dan informatif dari hasil ringkasan.

Dalam penelitian ini, metode evaluasi yang digunakan adalah metode intrinsik penghitungan F-Measure berdasarkan perhitungan Precision dan Recall

yang menurut Zaman B. dan E Winarko [24] merupakan standar evaluasi dalam penghitungan information retrieval. evaluasi perhitungan information retrieval

dengan menggunakan Precision dan Recall juga dapat digunakan dalam evaluasi perhitungan peringkas teks otomatis.

� � = ∑�� _{∑�� }�� ℎ� � � �_�� (2.8)

� � � = ∑�� _{∑�� ℎ� � � �}�� ℎ� � � � (2.9)

Kombinasi antara nilai recall dan precision menghasilkan nilai f-measure.

� − � = 2∗ _{� +}� � ∗_{� �}� (2.10)

Dalam metode intrinsik, precision dan recall digunakan untuk mengukur kualitas ringkasan otomatis dengan cara membandingkan ringkasan otomatis dengan ringkasan manual (buatan manusia). Kemudian hasil akhir akan didapatkan dengan

(32)

cara penggabungan nilai recall (2.8) dan precision (2.9) yang disebut dengan nilai

F-measures (2.10). Masalah dalam metode ini adalah dalam menentukan kalimat relevan karena pasti terdapat perbedaan pendapat antar subyek pembuat ringkasan dalam memilih kalimat. Misal subyek A menganggap kalimat x sebagai kalimat utama tetapi bisa saja subyek B berpendapat sebaliknya bahwa kalimat x kurang begitu penting. Untuk mengatasi hal ini digunakan beberapa metode seperti suara terbanyak (majority opinion), gabungan (union), atau irisan (intersection)[24].

(33)

23 3.1.Analisis Masalah

Analisis masalah adalah suatu gambaran masalah yang diangkat dalam penulisan skripsi tentang simulasi Text Summarization dalam berita bahasa Indonesia. Analisis masalah ini menjelaskan proses identifikasi masalah serta evaluasi mengenai sistem peringkas teks otomatis dalam berita berbahasa Indonesia. Berdasarkan uraian pada latar belakang masalah pada penelitian ini terdapat permasalahan untuk melakukan peringkasan dibutuhkan suatu metode untuk mengatasi masalah redudansi kalimat menggunakan metode Vektor Space Model yang nantinya akan terbentuk sebuah ringkasan dari artikel berita berbahasa Indonesia.

3.2.Analisis Sistem

Analisis sistem didefinisikan sebagai penguraian dari sistem utama ke dalam sub-sub sistem dengan tujuan untuk mengidentifikasikan permasalahan permasalahan yang ada dan kebutuhan-kebutuhan yang diperlukan agar dapat diusulkan dan diciptakan sistem yang lebih baik. Dalam mengimplementasikan metode Vector Space Model pada Teks Summarization akan dibangun dengan gambaran sistem yang akan tertera pada Gambar 3.1.

Analisis sistem peringkas teks otomatis yang dibangun memiliki 3 tahapan yaitu praproses, hitung bobot kata, penentuan ringkasan. Untuk penjelasan setiap tahap pada proses peringkasan dapat dilihat sebagai berikut :

1.

Tahap pertama adalah tahap pengumpulan data dokumen berita yang telah dilakukan secara manual dari media online seperti merdeka, republika, liputan6, kompas, tribunnews, dan tempo. Kemudian data tersebut dilakukan proses preprocessing yang merupakan tahap dimana data yang akan digunakan sebagai data testing dibersihkan dari noise atau dari hal yang tidak mempunyai pengaruh dalam ringkasan. Preprocessing yang dilakukan dalam tahap ini

(34)

antara lain: pemecahan kalimat, case folding, tokenizing, hapus stopword dan stemming.

2. Tahap kedua adalah melakukan perhitungan bobot menggunakan metode tf-idf. dengan menghitung TF(Term Frequency ), DF(Document Frequency), dan dihitung weight (W) dari masing-masing term.

3. Tahap ketiga adalah menentukan hasil ringkasan dengan menggunakan metode

Vector Space Model. Pada metode ini dihitung nilai similarity antarkalimat atau kemiripannya pada dokumen masukan. Proses ini dilakukan pada semua kalimat terhadap kalimat yang lainnya yang akan menghasilkan sebuah ringkasan. Hasil ringkasan adalah kumpulan dari kalimat-kalimat hasil persentase yang paling tinggi.

Gambar 3.1 Gambaran Sistem

3.2.1. Analisis Data Masukan (Input Data)

Analisis data pada sistem peringkas teks berita bahasa Indonesia menjelaskan proses data masukan. peringkasan teks otomatis berita yang dibuat

(35)

merupakan sistem peringkasan dengan inputan data training sekaligus testing

berupa single dokumen untuk menghasilkan ringkasan (summary).

Gambaran Sistem menunjukkan skema proses peringkasan secara umum. Berikut alur proses data masukkan peringkasan teks :

1. User memasukkan teks dokumen berupa format teks (file .txt) yang akan diringkas, data masukan tersebut adalah data training dan testing

dokumen berita dalam berbahasa Indonesia. Proses awal peringkasan

user memasukkan teks dokumen sesuai Tabel 3.1.

2. Sistem melakukan penyiapan teks (teks preprocessing) dokumen yang terdiri dari tahap pemecahan kalimat, case folding, tokenizing kata, stop word removal dan stemming yang akan dibahas pada analisis berikutnya. Berikut adalah flowchart dari proses Input Data dapat dilihat pada gambar 3.2 :

(36)

Tabel 3.1 Data Training dan Testing

Artikel Berita

Menteri Kelautan dan Perikanan, Susi Pudjiastuti akan melepas semua posisinya di perusahaan penerbangan Susi air.

Bahkan agar mencegah conflict of interest, Susi bersedia melepas semua jabatan yang selama ini dipegangnya di sejumlah perusahaan. Yakni, akan melepas jabatan President Direktur PT ASI Pudjiastuti yang bergerak di bidang perikanan dan PT ASI Pudjiastuti Aviation yang jadi operator penerbangan Susi Air.

Susi akan melepas semua jabatan CEO Susi air, dan PT ASI grup. “Itu harus

dilepaskan, biar bisa kerja maksimal tanpa konflik kepentingan apapun," tuturnya, usai presiden Joko Widodo (Jokowi) mengumumkan kabinet di halaman belakang istana merdeka, jakarta, Minggu (26/19/2014).

Yang pasti kerjanya sangat besar. “Tujuh puluh persen wilayah kita lautan," tutur

Susi usai diperkenalkan Jokowi di halaman belakang istana merdeka, jakarta, Minggu (26/19/2014).

Susi akan pegang teguh pesan Jokowi kepadanya saat dipanggil ke istana merdeka pekan lalu.

"Pesannya Pak Jokowi ke saya, Kerja, kerja dan kerja itu saja pegangan saya bekerja," tegasnya.

Terkait Program, Susi akan menjawabnya usai pelantikan dan rapat perdana kabinet, Senin (27/10/2014) besok.

"Belum tahu programnya, tunggu besok saja selesai pelantikan dan rapat kabinet besok," ujarnya.

Data masukkan yang ada pada Tabel 3.1 didapat dari artikel berita Tribun news dengan judul “Susi Pudjiastuti Langsung Lengser Dari Jabatan Dirut Susi Air” berikut alamat websitenya :

http://www.tribunnews.com/nasional/2014/10/26/susi-pudjiastuti-langsung-lengser-dari-jabatan-dirut-susi-air.

(37)

3.2.2. Analisis Preprocessing

Analisis preprocessing ini menjelaskan praproses yang dilakukan untuk mendapatkan fitur kata-kata yang bersih sehingga tidak akan mengandung noise yang akan menganggu hasil untuk proses selanjutnya[22]. Berikut adalah tahapan dari praproses sistem peringkas teks berita dalam bahasa Indonesia dapat dilihat pada gambar 3.3.

A. Pemecahan Kalimat

Pada tahap pemecahan kalimat adalah memecah string dokumen menjadi kumpulan kalimat-kalimat berdasarkan tanda titik “ . ”,tanda tanya “ ? ”, dan

tanda seru “!” sebagai pemisah (delimiter) untuk memotong string dokumen.

Tabel 3.2 merupakan hasil proses pemecahan dokumen menjadi kumpulan kalimat-kalimat sebagai berikut :

Tabel 3.2 Pemecahan Kalimat

No Kalimat

D1 Menteri Kelautan dan Perikanan, Susi Pudjiastuti akan melepas semua posisinya di perusahaan penerbangan Susi air

D2 Bahkan agar mencegah conflict of interest, Susi bersedia melepas semua jabatan yang selama ini dipegangnya di sejumlah perusahaan

D3 Yakni, akan melepas jabatan President Direktur PT ASI Pudjiastuti yang bergerak di bidang perikanan dan PT ASI Pudjiastuti Aviation yang jadi operator penerbangan Susi Air

D4 Susi akan melepas semua jabatan CEO Susi air, dan PT ASI grup

TOKENIZING Pemecahan Kalimat

CASE FOLDING

STOP WORD REMOVAL

Gambar 3.3 Tahapan Praproses STEMMING

(38)

D5 “Itu harus dilepaskan, biar bisa kerja maksimal tanpa konflik kepentingan apapun," tuturnya, usai presiden Joko Widodo (Jokowi) mengumumkan kabinet di halaman belakang istana merdeka, jakarta, Minggu (26/19/2014) D6 Yang pasti kerjanya sangat besar

D7 “Tujuh puluh persen wilayah kita lautan," tutur Susi usai diperkenalkan Jokowi di halaman belakang istana merdeka, jakarta, Minggu (26/19/2014) D8 Susi akan pegang teguh pesan Jokowi kepadanya saat dipanggil ke istana

merdeka pekan lalu

D9 "Pesannya Pak Jokowi ke saya, Kerja, kerja dan kerja itu saja pegangan saya bekerja," tegasnya

D10 Terkait Program, Susi akan menjawabnya usai pelantikan dan rapat perdana kabinet, Senin (27/10/2014) besok

D11 "Belum tahu programnya, tunggu besok saja selesai pelantikan dan rapat kabinet besok," ujarnya

B. Case Folding

Berikut merupakan hasil teks artikel berita yang sudah melalui tahapan pembuangan case folding:

Tabel 3.3 Case Folding

No Kalimat

D1 menteri kelautan dan perikanan susi pudjiastuti akan melepas semua posisinya di perusahaan penerbangan susi air

D2 bahkan agar mencegah conflict of interest susi bersedia melepas semua jabatan yang selama ini dipegangnya di sejumlah perusahaan

D3 yakni akan melepas jabatan president direktur pt asi pudjiastuti yang bergerak di bidang perikanan dan pt asi pudjiastuti aviation yang jadi operator penerbangan susi air

D4 susi akan melepas semua jabatan ceo susi air dan pt asi grup

D5 itu harus dilepaskan biar bisa kerja maksimal tanpa konflik kepentingan apapun tuturnya usai presiden joko widodo jokowi mengumumkan kabinet di halaman belakang istana merdeka jakarta minggu

D6 yang pasti kerjanya sangat besar

D7 tujuh puluh persen wilayah kita lautan tutur susi usai diperkenalkan jokowi di halaman belakang istana merdeka jakarta minggu

D8 susi akan pegang teguh pesan jokowi kepadanya saat dipanggil ke istana merdeka pekan lalu

D9 pesannya pak jokowi ke saya kerja kerja dan kerja itu saja pegangan saya bekerja tegasnya

D10 terkait program susi akan menjawabnya usai pelantikan dan rapat perdana kabinet senin besok

(39)

D11 belum tahu programnya tunggu besok saja selesai pelantikan dan rapat kabinet besok ujarnya

C. Tokenizing

Proses tokenizing kata yaitu menghilangkan karakter pemisah (delimiter) yang menyusunnya berupa karakter spasi. Berikut hasil dari tokenizing terdapat pada tabel 3.4.

Tabel 3.4 Tokenizing

air istana lepaskan penerbangan senin

air jabatan maksimal penerbangan susi

air jabatan melepas perdana susi

apapun jabatan melepas perikanan susi

asi jabatan melepas perkenalkan susi

asi jakarta melepas persen susi

asi jakarta melepas perusahaan susi

aviation joko mencegah perusahaan susi

bekerja jokowi mengumumkan pesan susi

belum jokowi menjawabnya pesannya tahu

bersedia jokowi menteri posisinya tegasnya

besar jokowi merdeka presiden teguh

besok kabinet merdeka president terkait

besok kabinet merdeka president tujuh

besok kabinet minggu program tunggu

bisa kelautan minggu programnya tutur

ceo kepadanya of pt tuturnya

conflict kepentingan pak pt ujarnya

direktur kerja panggil pudjiastuti usai

grup kerja pegang pudjiastuti usai

halaman kerja pegangan puluh usai

halaman kerja pegangnya rapat widodo

interest kerjanya pekan rapat wilayah

istana konflik pelantikan semua

istana lautan pelantikan semua

D. Stop Word Removal

Proses Stop Word Removal dilakukan untuk menghapus kata-kata yang tidak penting. Hasil dari Tokenizing kemudian dilakukan proses stop word

(40)

removal ini. Dan berikut ini adalah hasil dari proses stop word removal pada tabel 3.5.

Tabel 3.5 Stop Word Removal

air jabatan mencegah perikanan senin

apapun jakarta mengumumkan perkenalkan susi

asi joko menjawabnya persen tegasnya

aviation jokowi menteri perusahaan teguh

bekerja kabinet merdeka pesan terkait

bersedia kelautan minggu pesannya tujuh

besar kepadanya of posisinya tunggu

besok kepentingan panggil presiden tutur

ceo kerja pegang president tuturnya

conflict kerjanya pegangan program ujarnya

direktur konflik pegangnya programnya usai

grup lautan pekan pt wilayah

halaman lepaskan pelantikan pudjiastuti widodo interest maksimal penerbangan puluh

istana melepas perdana rapat

E. Stemming

Proses stemming yang dilakukan adalah untuk menentukan kata dasar yang belum diproses melalui stopword dan tidak terdapat pada database. Hasil dari

stop word removal kemudian dilakukan proses stemming ini. Dan berikut ini adalah hasil dari proses stemming pada tabel 3.6.

Tabel 3.6 Stemming

air jabat cegah ikan senin

apa jakarta umum kenal susi

asi joko jawab persen tegas

aviation jokowi menteri usaha teguh

kerja kabinet merdeka pesan terkait

sedia laut minggu pesan tujuh

besar kepada of posisi tunggu

besok penting panggil presiden tutur

ceo kerja pegang president tutur

conflict kerja pegang program ujar

direktur konflik pegang program usai

(41)

halaman lepas lantik pudjiastuti widodo

interest maksimal terbang puluh jumlah

istana lepas dana rapat

Berikut adalah kumpulan kalimat hasil stemming yang akan dihitung bobot tiap kata terhadap setiap kalimatnya yang akan diproses pada algoritma TF-IDF

dapat dilihat pada Tabel 3.7.

Tabel 3.7 Kalimat Hasil Stemming

No Kalimat

D1 menteri laut ikan susi pudjiastuti lepas posisi usaha terbang susi air D2 cegah conflict of interest susi sedia lepas jabat pegang jumlah usaha

D3 lepas jabatan president direktur pt asi pudjiastuti gerak bidang ikan pt asi pudjiastuti aviation operator terbang susi air

D4 susi lepas jabat ceo susi air dan pt asi grup

D5 lepas kerja maksimal konflik penting apa tutur usai presiden joko widodo jokowi umumk kabinet halaman belakang istana merdeka jakarta minggu D6 kerja besar

D7 tujuh puluh persen wilayah laut tutur susi usai kenal jokowi halaman belakang istana merdeka jakarta minggu

D8 susi pegang teguh pesan jokowi kepada panggil istana merdeka pekan lalu D9 pesan jokowi kerja kerja kerja pegang kerja tegas

D10 terkait program susi jawab usai lantik rapat dana kabinet senin besok D11 program tunggu selesai lantik rapat kabinet ujarn

3.2.3. Analisis Metode Summarization

Pada analisis metode summarization akan menjelaskan proses peringkasan teks pembobotan kata dengan TF-IDF dan Vektor Space Model. Sebelumnya akan dilakukan terlebih dahulu proses pemilihan kata memilih kata berdasarkan bobot kata tersebut dalam dokumen.

Berikut adalah flowchart proses retrieval menggunakan Vector Space Model

(42)

Gambar 3.4 Flowchart Retrieval Menggunakan Vector Space Model

A. Algoritma Tf-Idf

Tahapan ini meliputi identifikasi faktor yang sangat penting tentang apa yang dibicarakan dalam teks tersebut. Adapun teknik yang digunakan yaitu teknik

word frequency. Teknik ini mendeteksi topik berdasarkan kata-kata yang sering muncul dalam suatu teks dokumen [22].

Pemberian bobot pada masing-masing term didefinisikan melalui perhitungan frekuensi kemunculan dokumen yang mengandung sebuah term yaitu DF (document frequency), penghitungan frekuensi kemunculan term di dalam dokumen yaitu TF (term frequency) dan perhitungan jumlah dokumen yang

(43)

mengandung sebuah term yang dicari dari kumpulan dokumen yang ada yaitu IDF

(Inverse Document Frequency) yang mengacu ke rumus (2). Hasil perhitungan nilai TF-IDF pada term tiap dokumen pada data training dan testing dapat dilihat pada tabel 3.8 dan table 3.9:

Keterangan

Kata/Term : Daftar kata/term yang terdapat pada data training dan testing D: Dokumen/Kalimat

df: Frekuensi kata pada dokumen

(44)

Tabel 3.8 Perhitungan Nilai TF-IDF Pada Data Training dan Testing

Kata yang dianggap

penting (query)

tf df D/df IDF log

(D/df)

D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11

menteri 1 0 0 0 0 0 0 0 0 0 0 1 11 1.041

laut 1 0 0 0 0 0 0 0 0 0 0 1 11 1.041

ikan 1 0 1 0 0 0 0 0 0 0 0 2 5.5 0.740

lepas 1 1 1 1 0 0 0 0 0 0 0 4 2.75 0.439

jabat 1 1 1 1 0 0 0 0 0 0 0 4 2.75 0.439

usaha 1 1 0 0 0 0 0 0 0 0 0 2 5.5 0.740

terbang 1 1 0 0 0 0 0 0 0 0 0 2 5.5 0.740

umum 0 0 0 0 1 0 0 0 0 0 0 1 11 1.041

(45)

Tabel 3.9 Perhitungan Bobot Nilai (W) Pada Data Training dan Testing

Kata yang dianggap penting

(query)

D1 * IDF

D2 * IDF

D3 * IDF

D4 * IDF

D5 * IDF

D6 * IDF

D7 * IDF

D8 * IDF

D9 * IDF

D10 * IDF

D11 * IDF

menteri 1.041 0 0 0 0 0 0 0 0 0 0

laut 1.041 0 0 0 0 0 0 0 0 0 0

ikan 0.740 0 0.740 0 0 0 0 0 0 0 0

lepas 0.439 0.439 0.439 0.439 0 0 0 0 0 0 0

jabat 0.439 0.439 0.439 0.439 0 0 0 0 0 0 0

usaha 0.740 0.740 0 0 0 0 0 0 0 0 0

terbang 0.740 0.740 0 0 0 0 0 0 0 0 0

umum 0 0 0 0 1.041 0 0 0 0 0 0

(46)

Dari studi kasus diatas dapat diketahui bahwa nilai bobot (W) dari D1, D2, D3, dan D4 adalah sama. Apabila hasil bobot pada kalimat tidak dapat diurutkan secara tepat karena nilai W keduanya sama, maka diperlukan proses perhitungan dengan algoritma vector space model. Intisari dari metode ini adalah menghitung nilai cosinus sudut dari dua vector, yaitu nilai W dari tiap kalimat dan W dari kata kunci(query) untuk mendapatkan kalimat yang lebih efektif untuk dijadikan ringkasan.

B. Algoritma Vector Space Model

Vector Space Model adalah metode untuk menggambarkan fitur pada text dalam bentuk vektor. Setiap kalimat dianggap sebuah vektor dengan nilai berupa keanggotaan atau bobot kalimat yang didapat dari proses perhitungan TF-IDF. Untuk memilih kalimat paling sesuai maka digunakan perhitungan cosines similarity dengan query daftar kata penting.

Formula yang digunakan pada VSM dan diimplemetasikan pada tabel 3.10 dan tabel 3.11:

� �� = � ∑�= �� (3.1)

Dimana :

j= kata di basis data

n= jumlah kata di basis data kk= kata kunci

� � = � ∑�= �, (3.2)

Dimana :

j= kata di basis data

n= jumlah kata di basis data i= dokumen ke-i

D = urutan dokumen(kalimat) ke-I untuk kata ke-j pada basis data Untuk

� �� = �� , (3.3)

Dimana :

j= kata di basis data

n= jumlah kata di basis data i= dokumen ke-i

kk= kata kunci ke-j dari basis data

(47)

Tabel 3.10 Perhitungan Vector Space Model dari Hasil TF-IDF Pada Data Training dan Testing (1)

Kata Query

(KK)

W1^2 (D1)

W2^2 (D2)

W3^2 (D3)

W4^2 (D4)

W5^2 (D5)

W6^2 (D6)

W7^2 (D7)

W8^2 (D8)

W9^2 (D9)

W10^2 (D10)

W11^2 (D11)

menteri 0 1.083 0 0 0 0 0 0 0 0 0 0

laut 0 1.083 0 0 0 0 0 0 0 0 0 0

ikan 0 0.547 0 0.547 0 0 0 0 0 0 0 0

lepas 0.192 0.192 0.192 0.192 0.192 0 0 0 0 0 0 0

jabat 0.192 0.192 0.192 0.192 0.192 0 0 0 0 0 0 0

usaha 0 0.547 0.547 0 0 0 0 0 0 0 0 0

terbang 0 0.547 0.547 0 0 0 0 0 0 0 0 0

umum 0 0 0 0 0 1.083 0 0 0 0 0 0

kerja 0 0 0 0 0 0 1.083 0 0 0 0 0

Jumlah 0.384 4.191 1.478 0.931 0.384 1.083 1.083 0 0 0 0 0

(48)

Tabel 3.11 Perhitungan Vector Space Model dari Hasil TF-IDF Pada Data Training dan Testing (2)

Kata Query

(KK) KK*D1 KK*D2 KK*D3 KK*D4 KK*D5 KK*D6 KK*D7 KK*D8 KK*D9 KK*D10 KK*D11

menteri 0 0 0 0 0 0 0 0 0 0 0 0

laut 0 0 0 0 0 0 0 0 0 0 0 0

ikan 0 0 0 0 0 0 0 0 0 0 0 0

lepas 0.192 0.036 0.036 0.036 0.036 0.036 0 0 0 0 0 0

jabat 0.192 0.036 0.036 0.036 0.036 0.036 0 0 0 0 0 0

usaha 0 0 0 0 0 0 0 0 0 0 0 0

terbang 0 0 0 0 0 0 0 0 0 0 0 0

umum 0 0 0 0 0 0 0 0 0 0 0 0

kerja 0 0 0 0 0 0 0 0 0 0 0 0

Jumlah 0.384 0.072 0.072 0.072 0.072 0.072 0 0 0 0 0 0

(49)

Rasio kompresi (Compression Rate) pada suatu ringkasan berfungsi untuk menentukan persentasi batas panjang ringkasan yang akan ditampilkan [22].

Compression rate pada proses peringkasan akan menentukan panjang ringkasan yang dihasilkan. Hasil ringkasan dengan memilih compression / batas panjang ringkasan 35%.

Untuk

� Di = ∑nj= kkj ∗ Di, j ⁄_{sqrt kk ∗ sqrt Di} (3.4)

Dimana:

j= kata di basis data

n= jumlah kata di basis data i= dokumen ke-i

kk= kata kunci ke-j dari basis data

D = urutan dokumen(kalimat) ke-i untuk kata ke-j pada basis data 1. Untuk kalimat 1 (D1)

Cosine (D1) = sum (kk . D1) / (sqrt(kk) * sqrt(D1) = 0.268 / (0.619 * 2.047)

= 0.211 2. Untuk kalimat 2 (D2)

Cosine (D2) = sum (kk . D2) / (sqrt(kk) * sqrt(D2) = 0.268/ (0.619 * 1.215)

= 0.356 (ringkasan) 3. Untuk kalimat 3 (D3)

Cosine (D3) = sum (kk . D3) / (sqrt(kk) * sqrt(D3) = 0.268/ (0.619 * 0.964)

= 0.449 (ringkasan) 4. Untuk kalimat 4 (D4)

Cosine (D4) = sum (kk . D4) / (sqrt(kk) * sqrt(D4) = 0.268/ (0.619 * 0.619)

= 0.699 (ringkasan) 5. Untuk kalimat 5 (D5)

Cosine (D5) = sum (kk . D5) / (sqrt(kk) * sqrt(D5) = 0.268/ (0.619 * 1.040)

(50)

6. Untuk kalimat 6 (D6)

Cosine (D6) = sum (kk . D6) / (sqrt(kk) * sqrt(D6) = 0 / (0.619 * 1.040 )

= 0 7. Untuk kalimat 7 (D7)

Cosine (D7) = sum (kk . D7) / (sqrt(kk) * sqrt(D7) = 0 / (0.619 * 0 )

= 0 8. Untuk kalimat 8 (D8)

Cosine (D8) = sum (kk . D8) / (sqrt(kk) * sqrt(D8) = 0 / (0.619 * 0 )

= 0 9. Untuk kalimat 9 (D9)

Cosine (D9) = sum (kk . D9) / (sqrt(kk) * sqrt(D9) = 0 / (0.619 * 0 )

= 0

10.Untuk kalimat10 (D10)

Cosine (D10) = sum (kk . D10) / (sqrt(kk) * sqrt(D10) = 0 / (0.619 * 0 )

= 0

11.Untuk kalimat 11 (D11)

Cosine (D11) = sum (kk . D11) / (sqrt(kk) * sqrt(D11) = 0 / (0.619 * 0 )

= 0

Berikut adalah urutan dokumen hasil ringkasan dengan nilai kompresi 35%. Maka 35% dari 11 Dokumen yaitu : 11 x 35% = 3.85 ≈ 4 Dokumen.

Tabel 3.12 Urutan Dokumen Hasil Ringkasan 35% Dokumen Bobot

D2 0.356

D3 0.449

D4 0.699

D5 0.416

Sesuai perhitungan diatas maka nilai cosinus setiap dokumen telah didapat dari hasil akhir perhitungan vector space model diketahui bahwa kalimat yang diambil untuk dijadikan sebuah ringkasan terdapat pada kalimat ke 2, 3, 4, dan 5 dengan compression rate 35%. Semakin besar hasil cosinus tersebut maka semakin

(51)

Tabel 3.13 Hasil Ringkasan Teks Artikel Compression 35%

No Kalimat

D2 Bahkan agar mencegah conflict of interest, Susi bersedia melepas semua jabatan yang selama ini dipegangnya di sejumlah perusahaan

D3 Yakni, akan melepas jabatan President Direktur PT ASI Pudjiastuti yang bergerak di bidang perikanan dan PT ASI Pudjiastuti Aviation yang jadi operator penerbangan Susi Air

D4 Susi akan melepas semua jabatan CEO Susi air, dan PT ASI grup

D5 “Itu harus dilepaskan, biar bisa kerja maksimal tanpa konflik

kepentingan apapun," tuturnya, usai presiden Joko Widodo (Jokowi) mengumumkan kabinet di halaman belakang istana merdeka, jakarta, Minggu (26/19/2014)

3.3.Spesifikasi Kebutuhan Perangkat Lunak

Spesifikasi kebutuhan perangkat lunak yang dibangun dibagi menjadi dua kebutuhan, yaitu kebutuhan nonfungsional dan fungsional. Spesifikasi kebutuhan fungsional dan nonfungsional dapat dilihat pada tabel 3.14.

Tabel 3.14 SKPL

Kode Keterangan

Fungsional

SKPL – F – 001 Aplikasi ini dapat membantu pengguna dalam membaca intisari dari dokumen / ringkasan SKPL – F – 002 Aplikasi ini dapat melakukan preprocessing untuk

mengubah data mentah menjadi siap pakai SKPL – F – 003 Aplikasi ini dapat membatu pengguna

mempersingkat waktu membaca dalam menentukan intisari dokumen

Non Fungsional

SKPL – NF – 001 Sistem yang dibangun berbasis web

SKPL – NF – 002 Aplikasi yang dibangun dapat berjalan optimal dibrowser google chrome dan mozila firefox SKPL – NF – 003 Aplikasi ini dibangun dengan spesifikasi

hardware yang memenuhi standar minimum kebutuhan.

SKPL – NF – 004 Data yang dipakai untuk ringkasan dokumen adalah data mentah yang dimbil dari media online

(52)

seperti merdeka, republika, liputan6, kompas, tribunnews, dan tempo.

SKPL – NF – 005 Data dokumen yang diinputan adalah format file text (.txt)

3.4. Analisis Kebutuhan Nonfungsional

Analisis kebutuhan Non Fungsional menggambarkan kebutuhan luar sistem yang diperlukan untuk menjalankan perangkat lunak yang dibangun. Analisis kebutuhan non fungsional yang dilakukan diantaranya Analisis Kebutuhan Perangkat Lunak (Software), dan Analisis Kebutuhan Perangkat Keras (Hardware).

3.4.1. Analisis Kebutuhan Perangkat Keras (Hardware)

Kebutuhan Perangkat keras yang mendukung dalam pembangunan sistem peringkas teks otomatis ini adalah sebagai berikut :

1. Processor amd 1,40 GHz 2. RAM 2048MB

3. Monitor dengan resolusi 1366 x 768 pixels 4. Keyboard

5. Mouse

3.4.2. Analisis Kebutuhan Perangkat Lunak (Software)

Analisis kebutuhan perangkat lunak (software) pada penelitian ini yang mendukung dalam sistem peringkas teks otomatis ini adalah sebagai berikut :

1. Sistem Operasi Window 8.1 Profesional 64 bit. 2. Bahasa Pemrograman PHP

3. Web server XAMPP v3.2.1

4. Code Editor SublimeText 3 Portable

5. Adobe Photoshop CS6

(53)

3.4.3. Analisis Kebutuhan Perangkat Pikir (Brainware)

Kebutuhan perangkat pikir (Brainware yang dibahas dalam penelitian ini dikelompokkan menjadi tiga kategori yaitu userknowledge and experience, user jobs and tasks, dan user physical characteristic. Penjelasan untuk masing-masing kategori sebagai berikut:

1. Pengetahuan dan Pengalaman Pengguna (User Knowledge and Experience)

Pengetahuan dan pengalaman pengguna yang di targetkan dalam pembangunan perangkat lunak ini dapat dilihat pada table 3.16

Tabel 3.15 Pe ngetahuan da n Pengala ma n Pe ngguna

Tabel 3.16 User Knowledge and Experience

Aspek Pengguna

Education Level SMA sampai Perguruan tinggi

(D3,S1,S2,S3)

Reading Level Sedang Sampai Tinggi

Computer Literacy moderate experience till highly

technical

Task Experience Rendah sampai Tinggi

System Experience Rendah sampai Tinggi

Application Experience Rendah sampai Tinggi

Use Of Other System No

Native Language or Culture Dominan Indonesia

2. Tugas dan Kebutuhan Pengguna (User Jobs and Tasks)

Tugas dan pekerjaan pengguna yang ditargetkan dalam pembangunan perangkat lunak ini dapat dilihat pada table 3.17

Tabel 3.17 Tugas dan Kebutuhan Pengguna

Aspek Pengguna

Frequency Of Use Continual

Primary Training Disediakan menu petunjuk

Task or Need Importance Sedang sampai Tinggi

Task Structure Sedang sampai Tinggi

Job Categories No

Life Style No

3. Karakteristik Pengguna (User Physical Characteristic)

Karakter fisik pengguna yang ditargetkan dalam pembangunan perangkat lunak ini dapat dilihat pada table 3.18

(54)

Aspek Pengguna

Handedness Keduanya dalam kondisi baik

Gender Laki-laki dan perempuan

Age 20 tahun ke atas

Disabilities Tidak cacat tubuh

3.5. Analisis Kebutuhan Fungsional

Analisis kebutuhan fungsional bertujuan untuk menganalisis proses yang akan diterapkan dalam sistem yang akan dibangun. Analisis kebutuhan fungsional pada aplikasi ini menggunakan Diagram Konteks, pembuatan DFD, dan spesifikasi proses.

3.5.1. Diagram Konteks

Diagram konteks adalah suatu diagram yang menggambarkan ruang lingkup sistem peringkas teks dalam berita bahasa indonesia. Sistem digambarkan dengan bulatan, sedangkan lingkungan diwakili oleh entitas luar yang digambarkan dengan persegi. Gambar 3.5 menggambarkan diagram konteks yang terdapat sistem peringkas teks.

(55)

3.5.2. Data Flow Diagram (DFD) Level 1

Data flow diagram level 1 berfungsi untuk menjelaskan aliran data yang terdapat di Sistem Peringkas Teks.

Gambar 3.6 Data Flow Diagram Level 1 Sistem Peringkas Teks

3.5.3. Data Flow Diagram (DFD) Level 2

Data flow diagram Level 2 berfungsi untuk menjelaskan aliran data yang terdapat di Sistem Peringkas Teks.

(56)

3.5.4. Deskripsi Proses

Deskripsi proses digunakan untuk menggambarkan proses model aliran yang terdapat pada DFD. Spesifikasi proses dari DFD yang telah dibuat dapat dijelaskan pada table deskripsi proses level 1, dan level 2.

Tabel 3.19 Spesifikasi Proses

No Proses Keterangan

1 No proses 1

Nama Proses Memilih Dokumen Source (Sumber) User

Input Data dokumen

Output Info Dokumen

Destination User

Logika User 1. User memilih file text data dokumen yang akan diringkas di pilih file

2. Sistem akan menampilkan dokumen yang akan diringkas 3. User dapat memilih file dokumen

yang akan diringkas

2 No Proses 2

Nama Proses Meringkas dokumen Source (Sumber) User

Input Data dokumen, data batas panjang ringkasan/kompresi.

Output Info ringkasan

Destination User

Logika Proses 1. User menginputkan dokumen berupa text ke dalam sistem

2. Memilih file teks data dokumen yang akan diringkas

3. Mengatur batas panjang ringkasan / kompresi teks untuk ringkasan 4. Pilih proses untuk peringkasan teks

otomatis

5. Sistem mengeluarkan data dokumen asli lalu menghasil teks ringkasan dokumen

3 No Proses 2.1

(57)

Source (sumber) User

Input Data dokumen

Output Data hasil preprocessing

Destination User

Logika Proses 1. User memilih proses untuk melihat hasil ringkasan

2. Data dokumen masuk ke tahapan praproses

3. Sistem melakukan Preprocessing

seperti pemecahan kalimat, case folding, tokenizing, stop word removal dan stemming.

4 No Proses 2.2

Nama Proses Perhitungan Bobot Kata Source (sumber) User

Input Data hasil preprocessing

Output Data hasil perhitungan bobot kata

Destination User

Logika Proses 1. User memilih proses untuk melihat hasil ringkasan

2. Data hasil preprocessing masuk ke perhitungan bobot kata

3. Sistem melakukan perhitungan bobot kata

5 No Proses 2.3

Nama Proses Perhitungan Bobot Kalimat Source (sumber) User

Input Data hasil perhitungan bobot kata Output Data hasil perhitungan bobot kalimat

Destination User

Logika Proses 1. User memilih proses untuk melihat hasil ringkasan

2. Data hasil perhitungan bobot kata masuk ke perhitungan bobot kalimat 3. Sistem melakukan perhitungan

bobot kalimat.

6 No Proses 2.4

Nama Proses Pemilihan kalimat untuk ringkasan Source (sumber) User

Input Data hasil perhitungan bobot kalimat, Data batas panjang ringkasan / kompresi

(58)

Destination User

Logika Proses 1. User memilih proses dan mengatur batas panjang ringkasan/kompresi untuk melihat hasil ringkasan 2. Data hasil perhitungan bobot

kalimat masuk ke pembentukan ringkasan

3. Sistem melakukan pemilihan kalimat ringkasan

4. Sistem menampilkan hasil ringkasan

3.5.5. Kamus Data

Kamus data merupakan deskripsi formal dari seluruh elemen atau aliran data yang terdapat dalam data flow diagram. Kamus data dari data flow diagram sistem peringkas teks adalah sebagai berikut :

Tabel 3.20 Data Dokumen

Nama Data Dokumen

Where used Memilih dokumen (1) Deskripsi

Data yang digunakan ketika proses mencari dokumen adalah data berupa teks dengan file format txt yang digunakan dalam proses peringkasan

Struktur Data Teks

Penjelasan per struktur Teks[A..Z][a..z][0..9][symbol] Tabel 3.21 Info Dokumen

Nama Info Dokumen

Where used Memilih dokumen (1) Deskripsi

Data yang diproses ketika mencari dokumen adalah data berupa teks dengan file format txt yang digunakan dalam proses peringkasan Struktur Data Teks

Penjelasan per struktur Teks[A..Z][a..z][0..9][symbol]

Tabel 3.22 Data Batas Panjang Ringkasan / kompresi Nama Data batas panjang ringkasan/kompresi Where used Meringkas Dokumen (2)

(59)

Deskripsi

Data yang digunakan ketika proses meringkas dokumen adalah data berupa persentase batas panjang ringkasan/kompresi.

Struktur Data Persen kompresi Penjelasan per struktur Persen kompresi[0..9]

Tabel 3.23 Data Ringkasan Nama Data Ringkasan

Where used Pemilihan kalimat untuk ringkasan(2.4) Deskripsi Data yang digunakan untuk menyimpan hasil

proses peringkasan. Struktur Data Teks

Penjelasan per struktur Teks[A..Z][a..z][0..9][symbol] Tabel 3.24 Info Ringkasan Nama Info Ringkasan

Where used

Meringkas dokumen (2), preprocessing(2.1),

perhitungan bobot kata(2.2), perhitungan bobot kalimat(2.3), pemilihan kalimat untuk ringkasan(2.4)

Deskripsi

Data yang akan diproses adalah data inputan yang akan melalui tahapan preprocessing, perhitungan bobot kata, perhitungan bobot kalimat, dan menentukan kalimat untuk menampilkan hasil ringkasan

Struktur Data Teks

Penjelasan per struktur Teks[A..Z][a..z][0..9][symbol] Tabel 3.25 Data Hasil Preprocessing Nama Data hasil preprocessing Where used preprocessing (2.1)

Deskripsi Data yang digunakan ketika proses preprocessing adalah data dokumen.

Struktur Data Teks

Penjelasan per struktur Teks[A..Z][a..z][0..9][symbol] Tabel 3.26 Data Hasil Perhitungan Bobot Kata Nama Data hasil perhitungan bobot kata Where used Perhitungan bobot kata

(60)

Deskripsi

Data yang digunakan ketika proses perhitungan bobot kata adalah data hasil preprocessing.

Struktur Data Teks

Penjelasan per struktur Teks[A..Z][a..z][0..9][symbol] Tabel 3.27 Data Hasil Perhitungan Bobot Kalimat Nama Data hasil perhitungan bobot kalimat Where used Perhitungan bobot kalimat

Deskripsi Data yang digunakan ketika proses adalah data hasil perhitungan bobot kata

Struktur Data Teks

Penjelasan per struktur Teks[A..Z][a..z][0..9][symbol] 3.6. Perancangan Sistem

Perancangan adalah suatu bagian dari metodologi pengembangan suatu perangkat lunak yang dilakukan setelah tahapan untuk memberikan gambaran secara terperinci. Dalam tahap ini digambarkan rancangan sistem yang akan dibangun sebelum dilakukan pengkodean ke dalam suatu bahasa pemrograman.

3.6.1. Perancangan Basis Data

Perancangan basis data pada aplikasi yang akan dibangun meliputi struktur tabel.

3.6.1.1. Struktur Tabel

Dalam perancangan basis data pada penelitian ini terdapat tabel 3.27 mengenai daftar kata dasar bahasa Indonesia.

Tabel 3.28 Struktur Tabel Dictionary

No Atribut Tipe Data Keterangan

1 id_word Int Primary key

2 word Varchar[70]

3 Stopword Enum

[‘ya’,’bukan’]

Tabel 3.29 Hasil Ringkasan

No Atribut Tipe Data Keterangan

1 Id Int Primary key

(61)

3.6.2. Perancangan Arsitektur

Setelah melakukan perancangan data pada sistem yang dibangun, maka dilakukanlah perancangan arsitektur. Perancangan arsitektur yang telah dibuat meliputi beberapa perancangan diantaranya, perancangan antarmuka, perancangan pesan, jaringan semantik dan perancangan prosedural. Berikut adalah perancangan arsitektur dapat dilihat pada gambar 3.8

Gambar 3.8 Perancangan Arsitektur Sistem Peringkas Teks

3.6.3.Perancangan Antarmuka

Perancangan antarmuka yang telah dibuat meliputi beberapa perancangan, diantaranya perancangan antarmuka menu utama, perancangan antarmuka mencari dokumen, perancangan antarmuka meringkas dokumen, dan perancangan antarmuka klasifikasi dokumen.

Halaman Utama

Meringkas Dokumen Memilih

(62)

3.6.4. Antarmuka Halaman Utama

Perancangan antarmuka halaman utama dari sistem peringkas teks dapat dilihat pada gambar 3.9.

(63)

3.6.5. Antarmuka Halaman Mencari/Pilih Dokumen

Perancangan antarmuka halaman mencari/pilih dokumen dari sistem peringkas teks dapat dilihat pada gambar 3.10

(1)

KESIMPULAN DAN SARAN

5.1.Kesimpulan

Kesimpulan yang didapat selama pengerjaan pada penelitian ini mengenai implementasikan Text Summarization dalam membuat sistem peringkas teks otomatis menggunakan metode Vector Space Model pada artikel berita berbahasa Indonesia telah menghasilkan sebuah ringkasan secara otomatis dengan rasio

compression 35% yang memiliki akurasi rata-rata nilai precision sebesar 72% kalimat relevan dari jumlah kalimat yang dihasilkan oleh sistem. Dan rata-rata nilai

recall adalah 65% kalimat relevan dihasilkan dari jumlah kalimat relevan. Juga rata-rata nilai F-measures adalah sebesar 68% antara hasil ringkasan manual dengan hasil ringkasan oleh sistem. Maka dari itu sistem peringkas teks otomatis yang telah dibangun dapat membantu pembaca untuk memperoleh suatu informasi pada artikel berita berbahasa Indonesia.

5.2.Saran

Berdasarkan hasil analisis dan kesimpulan, terdapat beberapa saran untuk perbaikan pada penelitian ini yaitu hasil ringkasan perlu diperhatikan pada bagaimana menentukan kalimat penting dengan memperhatikan struktur kalimat yang lebih kompleks seperti fitur ekstraktor yang digunakan untuk merepresentasikan data antara lain posisi kalimat, kemiripan dengan kalimat pertama, kemiripan dengan judul, panjang kalimat, keberadaan kata benda, query oleh pengguna dan lain-lain untuk menghasilkan sebuah ringkasan. Karena hasil ringkasan pada sistem peringkas teks otomatis ini berupa kalimat ekstarktif yaitu kalimat yang mirip dengan query dan berdasarkan urutan bobot.

(2)

BIODATA PENULIS

Personal Information

Place & D.O.B : Bandung, November 18 1992 Marital Status : Single

Religion : Moslem

Languages Known : Sunda, Indonesian, English

Weight : 64 Kg

Height : 168 cm

Formal Education

Indonesia Computer University

Majoring Informatics Engineering

2010 – 2015

SMA PGII 1 Bandung 2007 – 2010

SMPN 42 Bandung 2004 – 2007

SD Kartika XI-10 Bandung 1998 – 2004

Professional Experiences

Present

- _{Freelancer Web Developer}

July 2013 – present Cimahi Creative Asociation - Web Developer

February 2012 – July 2012 Victoria Café

(3)

Project Experiences

Dekstop Application  Aplikasi Inventory Barang using C#  Sistem Informasi Gaji PNS using C  Simulasi sistem inventori dengan metode

distribusi uniform diskrit using C#  Aplikasi Minisibi using C#

 Aplikasi kriptografi using C# Web Appliaction Agungauliaguntary.com

10110237-agungauliaguntary.net84.net Utarisetia.com

Skills

Operating System : Microsoft Windows XP Microsoft Windows 7 Microsoft Windows 8 Programming Language : Database

HTML CSS PHP C#

Organizational Experience

2005 – 2007 : Bidang Keagamaan OSIS SMP Negeri 42 Bandung

2010 – 2011 : DJShcool Pro2 FM Bandung

(4)

E-1

(5)

(6)

E-1

Implementasi Text Summarization Menggunakan Metode Vector Space Model Pada Artikel Berita Berbahasa Indonesia

SKRIPSI

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS TEKNIK DAN ILMU KOMPUTER

UNIVERSITAS KOMPUTER INDONESIA

2015

DAFTAR ISI

2.

1.

2.

3.

a.

b.

c.

d.

e.

f.

g.

b.

Wdt = tf

*

IDF

1.

KESIMPULAN DAN SARAN

BIODATA PENULIS

Personal Information

Formal Education

Professional Experiences

Project Experiences

Skills

Organizational Experience

Parts

Dokumen yang terkait

Text Summarization Dengan Metode K Means pada Artikel Berita Berbahasa Indonesia

Pendeteksian Plagiarisme Abstrak Paper Menggunakan Metode Vector Space Model

Perbandingan Vector Space Model dan Support Vector Machine Untuk Text Summarization Terhadap Artikel Berbahasa Indonesia

Implementasi Metode Generalized Vector Space Model (GVSM) Menggunakan Algoritma Lesk Pada Sistem Temu Kembali

Text Summarization Menggunakan Metode KNN dan MMR Pada Artikel Berbahasa Indonesia

Text Summarization Dengan Metode K Means pada Artikel Berita Berbahasa Indonesia

Implementasi Term Frequency Inverse Document Frequency TF IDF dan Vector Space Model Untuk Klasifikasi Berita Bahasa Indonesia

TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL.

Penggunaan Metode Vector Space Model dal

SISTEM DETEKSI PLAGIARISME DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE VECTOR SPACE MODEL

Dokumen yang Anda mencari sudah siap untuk unduhkan