Implementasi Text Summarization Menggunakan Metode Vector Space Model Pada Artikel Berita Berbahasa Indonesia
SKRIPSI
Diajukan untuk Menempuh Ujian Akhir Sarjana
Agung Auliaguntary Arif Putra 10110237
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS TEKNIK DAN ILMU KOMPUTER
UNIVERSITAS KOMPUTER INDONESIA
2015
(2)
iii
Alhamdulillahi Rabbil ‘Alamiin, segala puji dan syukur penulis panjatkan kehadirat Allah SWT yang telah memberikan rahmat dan karunia-Nya, shalawat serta salam semoga tercurah kepada Rasulullah SAW, sehingga penulis dapat
menyelesaikan tugas akhir yang berjudul “IMPLEMENTASI TEXT
SUMMARIZATION MENGGUNAKAN METODE VECTOR SPACE MODEL PADA ARTIKEL BERITA BERBAHASA INDONESIA” untuk memenuhi salah satu syarat dalam menyelesaikan studi jenjang strata satu (S1) di Program Studi Teknik Informatika Universitas Komputer Indonesia.
Dengan keterbatasan ilmu dan pengetahuan serta pengalaman penulis, maka penulis mendapat banyak bantuan serta dukungan dari berbagai pihak. Oleh karena itu, penulis mengucapkan terimakasih yang sebesar –besarnya kepada:
1. Allah SWT karena dengan izin-Nya lah tugas akhir ini dapat terselesaikan. 2. Keluarga tercinta khususnya orang tua yang telah memberikan kasih sayang,
cinta, doa, dan dukungan baik moril maupun materi agar penulis dapat menyelesaikan tugas akhir ini tepat pada waktunya.
3. Bapak Iskandar Ikbal, S.T., M.Kom., selaku wali kelas IF-6/2010 yang selalu memberikan beberapa pengarahan kepada penulis.
4. Ibu Nelly Indriani W, S.Si., M.T., selaku pembimbing yang selalu mengarahkan dan memberikan masukan dengan penuh kesabaran dalam menyelesaikan tugas akhir ini.
5. Bapak Andri Heryandi, S.T., M.T., selaku reviewer yang telah meluangkan waktu dan memberikan saran selama proses penyusunan tugas akhir ini. 6. Bapak dan Ibu dosen serta seluruh staf pegawai Program Studi Teknik
Informatika Universitas Komputer Indonesia yang telah banyak membantu penulis.
(3)
iv masa-masa perkuliahan.
10. Fakhrunnisa Khanifa selaku teman hidup yang menyempurnakan kebahagiaan ini.
11. Seluruh teman-teman yang tidak dapat penulis sebutkan satu persatu, terima kasih telah memberikan segala bentuk bantuan untuk menyelesaikan skripsi ini.
Penulis menyadari bahwa penulisan tugas akhir ini masih jauh dari sempurna. Untuk perbaikan dan pengembangan, penulis mengharapkan saran dan kritik yang bersifat membangun. Akhir kata, semoga penulisan tugas akhir ini dapat bermanfaat bagi penulis khususnya, dan semua yang membaca.
Bandung, 11 Agustus 2015
(4)
v
DAFTAR ISI
ABSTRAK ... i
ABSTRACT ... ii
KATA PENGANTAR ... iii
DAFTAR ISI ... v
DAFTAR GAMBAR ... ix
DAFTAR TABEL ... x
DAFTAR SIMBOL... xii
DAFTAR LAMPIRAN ... xiv
BAB 1 PENDAHULUAN ... 1
1.1. Latar Belakang Masalah ... 1
1.2. Rumusan Masalah ... 2
1.3. Maksud dan Tujuan ... 2
1.4. Batasan Masalah ... 2
1.5. Metodologi Penelitian ... 3
1.6. Sistematika Penulisan ... 5
BAB 2 LANDASAN TEORI ... 7
2.1. Peringkas Teks Otomatis ... 7
2.1.1. Definisi Peringkas Teks Otomatis ... 7
2.1.2. Pendekatan Peringkasan Teks ... 7
2.1.3. Tahapan Membuat Ringkasan ... 8
2.1.4. Tujuan Ringkasan ... 8
2.2. Proses Peringkasan Teks ... 9
(5)
vi
2.4. Kalimat ... 10
2.5. Paragraf ... 11
2.6. Berita ... 11
2.7. Algoritma Text Summarization ... 12
2.7.1. Pra Proses (Preprocessing) ... 12
2.7.1.1. Pemecahan Kalimat ... 12
2.7.1.2. Case Folding ... 13
2.7.1.3. Tokenizing ... 13
2.7.1.4. Stoplist / Stop Word Removal ... 14
2.7.1.5. Stemming ... 14
2.7.2. Algoritma TF-IDF ... 17
2.7.3. Vector Space Model ... 19
2.8. Teknik Evaluasi Peringkasan Teks... 20
BAB 3 ANALISIS DAN PERANCANGAN SISTEM ... 23
3.1. Analisis Masalah ... 23
3.2. Analisis Sistem ... 23
3.2.1. Analisis Data Masukan (Input Data) ... 24
3.2.2. Analisis Preprocessing ... 26
3.2.3. Analisis Metode Summarization ... 26
3.3. Spesifikasi Kebutuhan Perangkat Lunak ... 41
3.4. Analisis Kebutuhan Nonfungsional... 42
3.4.1. Analisis Kebutuhan Perangkat Keras (Hardware) ... 42
3.4.2. Analisis Kebutuhan Perangkat Lunak (Software) ... 42
3.4.3. Analisis Kebutuhan Perangkat Pikir (Brainware) ... 43
(6)
vii
3.5.1. Diagram Konteks ... 44
3.5.2. Data Flow Diagram (DFD) Level 1 ... 45
3.5.3. Data Flow Diagram (DFD) Level 2 ... 45
3.5.4. Deskripsi Proses ... 46
3.5.5. Kamus Data ... 48
3.6. Perancangan Sistem ... 50
3.6.1. Perancangan Basis Data ... 50
3.6.1.1. Struktur Tabel ... 50
3.6.2. Perancangan Arsitektur ... 51
3.6.3. Perancangan Antarmuka ... 51
3.6.4. Antarmuka Halaman Utama ... 52
3.6.5. Antarmuka Halaman Mencari/Pilih Dokumen ... 53
3.6.6. Antarmuka Halaman Hasil Ringkasan ... 54
3.6.7. Jaringan Semantik ... 54
BAB 4 IMPLEMENTASI DAN PENGUJIAN... 55
4.1. Implementasi Sistem ... 55
4.1.1. Implementasi Perangkat Keras ... 55
4.1.2. Implementasi Perangkat Lunak ... 55
4.1.3. Implementasi Basis Data ... 56
4.1.3.1. Tabel Dictionary ... 56
4.1.3.2. Tabel Hasil Ringkas ... 56
4.1.4. Implementasi Antarmuka ... 57
4.2. Pengujian ... 59
4.2.1. Pengujian Sistem ... 59
(7)
viii
4.2.3. Hasil Pengujian ... 60
4.2.4. Evaluasi Pengujian ... 62
BAB 5 KESIMPULAN DAN SARAN ... 65
5.1. Kesimpulan ... 65
5.2. Saran ... 65
(8)
66
[1] Hovy, Eduard. “Text Summarization.” Dalam The Oxford Handbook of
Computational Linguistics, oleh Ruslan Mitkov, 583-589. Oxford: Oxford University Press, 2003.
[2] Móro . Róbert, Bieliková. Mária, “Personalized Text Summarization Based on Important Terms Identification,” 2012 23rd International Workshop on
Database and Expert Sytems Applications.
[3] Bagalkotkar. Anusha ,Khandelwal. Ashesh ,Pandey. Shivam ,Kamath. Sowmya. "A Novel Technique for Efficient Text Document Summarization as a Service," 2013 Third International Conference on Advances in Computing and Communications.
[4] Chengcheng. Li, "Automatic Text Summarization Based On Rhetorical Structure Theory," 20IO International Conference on Computer Application and System Modeling (ICCASM 2010).
[5] Suanmali. Ladda, Salim. Naomie, Binwahlan. Mohammed Salem, "Fuzzy Genetic Semantic Based Text Summarization." 2011 Ninth IEEE International Conference on Dependable, Autonomic and Secure Computing.
[6] Yang. Guangbing,Wen. Dunwei ,Kinshuk,Chen. Nian-Shing,Sutinen. Erkki, "Personalized Text Content Summarizer for Mobile Learning: An Automatic Text Summarization System with Relevance Based Language Model," 2012 IEEE Fourth International Conference on Technology for Education.
[7] Ilyas. Ridwan, Witanti. Wina, Eri. Hariah, “Penggunaan Personalized Text
Summarization untuk Penentuan Kalimat-Kalimat Utama dalam Berita Pendidikan” Sekolah Teknik Lektro dan Informatika. Institut Teknologi
(9)
Summariez. In Proceedings SIGIR ’95, pages 68-73, Ney York, NY, USA.
[10] Pressman, R. S. (2010). Software Engineering : A Practitioner's Approach 7th. New York: McGraw-Hill Education
[11] Fitriaman. Deni, Khodra, L., Masayu, TRrilaksono, R., Bambang, “Peringkasan Teks Otomatis Berita Bahasa Indonesia pada Multi Dokumen Menggunakan Metode Support Vector Machines (SVM), Sekolah Teknik Lektro dan Informatika. Institut Teknologi Bandung, Informatika..
[12] Luhn, H. P. (1958). The automatic creation of literature abstracts. IBM Journal of Research Development, 2(2):159{165. [2, 3, 6, 8]
[13] Russel, S. J., & Norvig, P. (2003). Artificial Intelligence : A Modern Approach 2nd. New Jersey, United States Of America: Prentice-Hall.
[14] Siswanto. (2005). Kecerdasan Tiruan. Yogyakarta: Graha Ilmu.
[15] Suparman. (2004). Mengenal Artificial Intelligence. Yogyakarta: Andi Offset.
[16] Husni, Muchammad dan Zaman, Badrus. 2005. Perangkat Lubak Peringkas Dokumen Berbahasa Indonesia dengan Hybrid Stemming. Surabaya: Teknik Informatika Fakultas Teknologi Institut Teknologi Sepuluh Nopember.
[17] Tala, F. Z., 2003, A Study of Stemming Effects onInformation Retrieval in Bahasa Indonesia, Institute for Logic, Language and Computation, Universiteit van Amsterdam; Amsterdam; Netherlands.
[18] Kadir, Abdul. Dasar Pemrograman Web Dinamis Menggunakan PHP. Yogyakarta: ANDI. 2002.
[19] Sutarman, Membangun Aplikasi Web dengan PHP dan MySQL. Yogyakarta, Indonesia: Graha Ilmu, 2007.
[20] Amin. Fathhul. 2012. Sistem Temu Kembali dengan Metode Vector Space Model. Semarang, Fakultas Teknologi Informasi, Universitas Stikubank.
(10)
68
[22] Mustaqhfiri. Muchammad. 2011. Peringkasan Teks Otomatis Berita Olahraga Berbahasa Indonesia Menggunakan Metode Maximum Marginal Relevance. Skripsi .Teknik Informatika Fakultas Sains dan Teknologi Universitas Islam Negeri Maulana Malik Ibrahim Malang.
[23] Many, I. and Maybury. 1999. Advance in Automatic Text Summarization. The MIT Press: Cambrige.
[24] Zaman B. dan E Winarko. 2011. Analisis Fitur Kalimat untuk Peringkas Teks otomatis pada Bahasa Indonesia. Indonesian Journal of Computing and
Cybernetics Systems 5 (2): 60-68.
[25] Juhara, E., Budiman, E., dan Rohayati, R. 2005 Cendekia berbahasa.
Bahasa dan Sastra Indonesia. Bandung: PT Setia Purna Inves.
[26] Sartuni, Rasjid dkk.1984. Bahasa Indonesia untuk Perguruan Tinggi. Jakarta: Nina Dinamika
[27] Sakri, Adjat. 1992. Bangun Paragraf Bahasa Indonesia, 1994. Bangun Kalimat Bahasa Indonesia. Bandung: ITB.
[28] Budiman, K. 2005. Dasar-dasar jurnalistik. Pelatihan Jurnalistik-info jawa 12-15 desember 2005.www.infojawa.org. Diakses tanggal 15 Mei 2015.
(11)
1 1.1. Latar Belakang Masalah
Ringkasan adalah suatu pokok permasalahan dari suatu paragraf ataupun suatu dokumen [1]. Dengan melihat sebuah ringkasan saja seorang pembaca dapat memahami garis besar dari suatu berita tanpa perlu membaca keseluruhan berita tersebut. Ringkasan dapat didefinisikan sebagai teks yang singkat dan padat dianggap pengganti dari keseluruhan dokumen karena tetap mempertahankan kandungan informasi penting yang dimiliki oleh sumbernya. Secara umum pembaca dari suatu berita hanya fokus melihat pada garis besar suatu berita yang dicari sebelum melihat lebih detil lagi berita hasil pencarian.
Perkembangan teknologi semakin pesat menyebabkan kebutuhan akan informasi yang sangat besar dan tidak terbatas, terutama informasi dalam bentuk jurnal, artikel, dan berita. Artikel yang ada pada situs portal berita umumnya bersifat real time dan up to date yang menyebabkan artikel berita memiliki jumlah kalimat/paragraf yang sangat banyak. Akan tetapi banyak dokumen digital yang tidak mempunyai ringkasan atau abstraknya. Oleh karena itu dapat mengakibatkan pembaca kesulitan dalam memahami informasi yang terkandung dari artikel berita tersebut. Apalagi jika dibaca secara panjang lebar dari berita yang diunggah oleh portal berita, pembaca harus meluangkan waktu yang banyak untuk membaca keseluruhan berita.
Penggunaan peringkasan teks dapat membantu memecahkan masalah ini. Berdasarkan literatur “Pembangunan Perangkat Lunak Peringkas Dokumen Dari Banyak Sumber Menggunakan Sentence Scoring Dengan Metode TF-IDF”, bahwa untuk mengoptimalkan pemilihan kalimat yang digunakan sebagai ringkasan, akan lebih baik jika digabungkan dengan metode yang mencari kemiripan antar kata atau kalimat sehingga mengatasi resiko apabila terdapat redudansi (kemiripan)[2].
Algoritma Vector Space Model (VSM) merupakan salah satu metode
(12)
Metode VSM bermanfaat untuk mengurangi redudansi kalimat yang akan diringkas[3].
Oleh karena itu, pada penelitian ini akan mengimplementasikan Text Summarization untuk membuat sistem peringkas teks otomatis menggunakan metode Vector Space Model pada artikel berita berbahasa Indonesia. Dengan adanyaperingkas teks otomatis diharapkan dapat membantu pembaca dengan cepat dan mudah memahami makna dari sebuah artikel berita tanpa harus membaca keseluruhan teks.
1.2.Rumusan Masalah
Berdasarkan uraian pada latar belakang masalah pada penelitian ini terdapat permasalahan bagaimana melakukan peringkasan untuk mengatasi masalah redudansi kalimat dengan menggunakan metode Vektor Space Model yang nantinya akan menghasilkan sebuah ringkasan dari artikel berita berbahasa Indonesia. 1.3.Maksud dan Tujuan
Penelitian ini bermaksud membuat sistem peringkas teks otomatis pada artikel berita berbahasa Indonesia. Sedangkan tujuan yang ingin dicapai dari penelitian ini adalah untuk mengukur akurasi kalimat suatu ringkasan dengan menggunakan metode Vector Space Model.
1.4.Batasan Masalah
Agar penelitian ini tidak menyimpang dari latar belakang dan tujuan yang akan di capai, maka terdapat batasan masalah. Adapun batasan masalah dalam penelitian ini adalah sebagai berikut :
1. Dokumen yang akan diringkas adalah dokumen berita berbahasa indonesia.
2.
Bentuk masukan ke sistem berupa teks dengan format file .txt.3. Dokumen Masukan dari sistem yang dibuat adalah sebuah dokumen tunggal berita berbahasa indonesia.
(13)
5. Peringkas teks otomatis yang dibangun berbasis web dengan menggunakan bahasa pemrograman PHP.
1.5. Metodologi Penelitian
Penelitian ini menggunakan Metode Deskriptif dimana setiap objek digambarkan secara jelas dan nyata sesuai dengan fakta. Metode yang digunakan pada saat mengumpulkan data dan pengembangan prototype sebagai berikut :
1. Metode Pengumpulan Data
Metode pengumpulan data yang digunakan dalam penelitian ini adalah sebagai berikut:
a) Studi Literatur
Pengumpulan berbagai informasi mengenai penelitian dengan cara mengumpulkan literatur, jurnal, e-book, website, paper dan bacaan-bacaan yang berkaitan dengan peringkas teks otomatis yang akan dibangun, meliputi kecerdasan buatan, desain, tools dan juga pemodelan dengan DFD.
b) Pengumpulan Data
Pengumpulan data dilakukan secara manual. Dimana data yang diambil merupakan berita dengan sumber dari media online seperti merdeka, republika, liputan6, kompas, tribunnews, dan tempo. Data dipilih secara acak, disalin, kemudian disimpan dalam format file .txt.
2. Metode Pembangunan Sistem
Metode pembangunan sistem ini menggunakan Model Prototyping, Prototyping adalah salah satu teknik analisis data dalam pembuatan perangkat lunak. Prototyping adalah proses pembuatan model sederhana yang menyajikan pengguna memiliki gambaran dasar tentang program serta melakukan pengujian awal.
(14)
Prototyping memberikan fasilitas bagi pengembang dan pemakai untuk saling berinteraksi selama proses pembuatan, sehingga pengembang dapat dengan mudahmemodelkan perangkat lunak yang akan dibuat.
Definisi prototype menurut Jr. McLeod Raymond dan George P. Schell (Sistem Informasi Manajemen, 2008:188) Prototype adalah suatu versi sistem potensial yang disediakan bagi pengembang dan calon pengguna yang dapat memberikan gambaran bagaimana kira-kira sistem tersebut akan berfungsi bila telah disusun dalam bentuk yang lengkap. Proses dalam memproduksi suatu prototipe ini disebut prototyping.
Prototyping disebut juga desain aplikasi cepat (rapid application design/RAD) karena menyederhanakan dan mempercepat desain sistem.
Gambar 1.1 Model Linier Process Flow
Ada tujuh tahapan dalam pengembangan sistem model Prototype ini, yaitu sebagai berikut :
1. Pengumpulan kebutuhan dan perbaikan
Menetapkan segala kebutuhan untuk pembangunan perangkat lunak. 2. Quick design
Tahap pembuatan desain global dari keperluan atau data yang telah dianalisis kedalam bentuk yang mudah dimengerti oleh user.
(15)
3. Membangun prototype
Membangun prototyping dengan membuat perancangan sementara yang berfokus pada penyajian kepada user (misalnya dengan membuat input dan format output).
4. Evalusi prototype
Evaluasi ini dilakukan oleh user apakah prototyping yang sudah dibangun sudah sesuai dengan keinginan user. Jika sudah sesuai maka langkah empat akan diambil, jika tidak Prototyping direvisi dengan mengulangi langkah satu, dua, dan tiga.
5. Perbaikan Prototype
Tahap perbaikan program yang sudah dibuat, sesuai dengan kebutuhan user. Kemudian dibuat program kembali dan dievaluasi oleh user hingga semua kebutuhan terpenuhi.
6. Sistem produk
Perangkat lunak yang telah diuji dan diterima user siap untuk digunakan.
1.6.Sistematika Penulisan
Sistematika penulisan proposal penelitian ini disusun untuk memberikan gambaran umum tentang kasus yang akan dipecahkan. Sistematika penulisan tugas akhir ini adalah sebagai berikut :
BAB 1 PENDAHULUAN
Bab ini menerangkan secara umum mengenai latar belakang, mencoba merumuskan inti permasalahan yang dihadapi , menentukan maksud dan tujuan, batasan masalah, metodologi penelitian, serta sistematika penulisan tugas akhir.
BAB 2 LANDASAN TEORI
Pada bab ini membahas berbagai konsep dasar dan teori-teori yang berkaitan dengan topik penelitian seperti kecerdasan buatan membahas berbagai konsep dasar dan teori-teori yang berkaitan dengan topik penelitian seperti
(16)
Peringkas Teks Otomatis, Terms Frequency-Inverse Document Frequency (TF-IDF), Vector Space Model.
BAB 3 ANALISIS DAN PERANCANGAN
Bab ini berisi tentang analisis sistem yang meliputi perancangan tampilan sistem, serta analisis metode Vector Space Model untuk diaplikasikan pada teks Summarization..
BAB 4 IMPLEMENTASI DAN PENGUJIAN
Pada bab ini berisi tentang hasil evaluasi sistem dan pengujian untuk hasil peringkas teks otomatis yang telah menggunakan metode Vector Space Model pada teks summarization sehingga dapat ditarik suatu kesimpulan.
BAB 5 KESIMPULAN DAN SARAN
Berisi kesimpulan dan saran berdasarkan hasil yang telah dicapai sehingga dapat digunakan sebagai bahan pertimbangan bagi pihak-pihak yang berkepentingan serta kemungkinan pengembangannya.
(17)
7 2.1. Peringkas Teks Otomatis
2.1.1.Definisi Peringkas Teks Otomatis
Dalam Kamus Besar Bahasa Indonesia Departemen Pendidikan Nasional Balai Pustaka (2008) mendefinisikan ringkasan, yaitu hasil meringkaskan, ikhtisar, singkatan cerita, dan kependekan. Sedangkan definisi otomatis dalam Kamus Besar Bahasa Indonesia Departemen Pendidikan Nasional Balai Pustaka (2008) yaitu dengan sendirinya, secara otomat. Ringkasan merupakan ekspresi yang ketat dari isi utama suatu artikel, tujuannya untuk memberitahu pembaca inti dari suatu pikiran utama[22]. Ringkasan adalah mengambil isi yang paling penting dari sumber informasi yang kemudian menyajikannya kembali dalam bentuk yang lebih ringkas bagi penggunanya.[23]
peringkas teks otomatis adalah teknik pembuatan ringkasan dari sebuah teks secara otomatis dengan memanfaatkan aplikasi yang dijalankan pada komputer untuk menghasilkan informasi yang paling penting dari dokumen aslinya[24]. 2.1.2.Pendekatan Peringkasan Teks
Menurut Zaman B. dan E Winarko terdapat 2 pendekatan peringkas teks[24], yaitu:
1. Ekstraksi (extractive summary)
Pada teknik ekstraksi, sistem menyalin unit-unit teks yang dianggap paling penting dari teks sumber menjadi ringkasan. Unit-unit teks yang disalin dapat berupa klausa utama, kalimat utama, atau paragraf utama tanpa ada penambahkan kalimat-kalimat baru yang tidak terdapat pada dokumen aslinya.
2. Abstraksi (abstractive summary)
Teknik abstraksi menggunakan metode linguistik untuk memeriksa dan menafsirkan teks dokumen menjadi ringkasan. Ringkasan teks tersebut
(18)
dihasilkan dengan cara menambahkan kalimat-kalimat baru yang merepresentasikan intisari teks sumber ke dalam bentuk yang berbeda dengan kalimat-kalimat yang ada pada teks sumber.
Pada penelitian ini metode pendekatan yang digunakan untuk peringkasan teks otomatis yaitu teknik ekstraktif dengan memanfaatkan aplikasi yang dijalankan pada komputer untuk menghasilkan sebuah ringkasan dari dokumen aslinya.
2.1.3.Tahapan Membuat Ringkasan
Menurut Juhara, E,dkk ada beberapa tahapan untuk membuat ringkasan[25], yaitu sebagai berikut:
1.
Membaca naskah asli secara menyeluruh untuk mengetahui kesan umum, gagasan pengarang, dan sudut pandangnya.2.
Mencatat semua gagasan utama atau gagasan penting3.
Menyusun kembali suatu karangan singkat berdasarkan gagasan tersebut. Untuk membuat dan mendapatkan ringkasan yang baik, yaitu dengan cara membaca dengan seksama teks bacaan dan mencatat hal-hal pokok dari bacaan tersebut[25]. Ciri-ciri sebuah ringkasan yang baik itu harus mudah dipahami, bentuknya lebih singkat atau lebih ringkas, dan terdiri dari gagasan-gagasan utama (expert judgement).2.1.4.Tujuan Ringkasan
Menurut Juhara, E,dkk tujuan dari peringkasan teks dapat dikategorikan berdasarkan maksud, fokus, dan cakupannya [25], yaitu sebagai berikut:
a.
Informatif Tujuannya ringkasan ini adalah untuk menyatakan informasi– informasi penting yang terdapat pada dokumen asal.b.
Indicatif Tujuannya ringkasan ini adalah untuk dijadikan referensi yang membantu pembaca mengetahui isi dari teks daripada membaca keseluruhan teks yang ada. Ringkasan ini meliputi topik dari teks asal.c.
Evaluatif Yaitu melibatkan pembuatan sebuah pertimbangan pada teks asal, seperti suatu tinjauan ulang atau opini.(19)
d.
User-Focused Yaitu ringkasan yang dibuat berdasarkan topik yang dipilih oleh user, sering yang merupakan jawaban dari query yang dimiliki oleh user.e.
Generic Yaitu sifatnya lebih umum dan berdasarkan pada teks aslinya.f.
Single Document (Dokumen tunggal) yaitu ringkasan yang dihasilkan merupakan ringkasan dari satu dokumen.g.
Multi Document Pada peringkasan multi document, ringkasan merupakan hasil ringkasan dari banyak dokumen.2.2.Proses Peringkasan Teks
Secara umum terdapat tiga tahapan dalam proses peringkasan teks, yaitu sebagai berikut[22]:
1. Topic Identification
Tahapan ini meliputi identifikasi faktor yang sangat penting tentang apa yang dibicarakan dala teks tersebut. Ada beberapa teknik untuk melakukannya, diantaranya:
i. Dalam beberapa tipe teks, informasi penting terdapat dalam bagianbagian tertentu dalam teks tersebut, seperti dalam judul, kalimat pertama, kalimat terakhir dan lain sebagainya.
ii. Beberapa kata atau frase mengidentifikasi intisari dari suatu teks.
iii. Beberapa kata cenderung muncul lebih. Ini dijadikan faktor penentu topik dari suatu teks (word frequency).
iv. Ada juga topik diidentifikasi dari jumlah pengertiannya atau makna dibandingkan kata.
2. Interpretation
Interpretasi peringkas yang ekstraktif berdasarkan pada metode yang digunakan, sedangkan pada peringkas yang abstraktif interpretasi ditunjukkan dengan cara penggabungan pengertian yang serupa menjadi satu, penghilangan redudansi dan lain sebagainya.
(20)
Tahapan ini adalah pembangkitan atau pembentukan hasil akhir. Terdiri dari penggabungan frase, pencetakan kata atau frase dan pembangkitan kalimat. Terdapat beberapa metode yang dapat digunakan, diantaranya :
a. Extraction, hasil akhir berisi kalimat atau frase yang dihasilkan setelah semua tahap proses pada text summarization selesai dilakukan.
b.
Topic list, hasil akhir berisi kata-kata yang sering muncul atau penggabungan pengertian yang telah diinterpretasi.2.3.Kata
Kata adalah kesatuan terkecil yang diperoleh sesudah sebuah kalimat dibagi atas bagian-bagiannya dan mengandung suatu ide. kata adalah kumpulan huruf atau bunyi yang mengandung arti[26].
Kategori kata berdasarkan sintaksisnya terdiri dari lima kelas kata yaitu : 1. Kata Benda (nomina)
Adalah kata yang mengacu pada manusia, binatang, benda dan konsep atau pengertian.
2. Kata Kerja (verba)
Adalaha kata yang menyatakan tindakan 3. Kata Sifat (adjektiva)
Adalah kata yang memberi keterangan yang lebih khusus tentang sesuatu yang dinyatakan oleh manusia dalam kalimat.
4. Kata Keterangan (adverbial)
Adalah kategori yang mendampingi adjektiva, numerilia atau preposisi dalam kontruksi sintaksis.
5. Kata Tugas
Adalah kata yang hanya memiliki arti gramatikal dan tidak memiliki arti leksikal.
2.4.Kalimat
Kalimat adalah satuan terkecil dalam wujud lisan atau tulisan, yang mengungkapkan pikiran yang utuh. Sebagaimana menurut Sakri, Adjat[27] yang
(21)
menyatakan, bahwa kalimat dalam tulisan terdiri atas deret kata yang dimulai dengan huruf kapital dan diakhiri dengan tanda titik(.), tanda tanya(?), tanda seru(!). Unsur-unsur kalimat terdiri dari kata, kelompok dan lagu kalimat. Pada kalimat terdapat pengaturan hubungan kedudukan antara bagian-bagiannya. Berdasarkan jabatannya kalimat terdiri dari :
1. Subyek, yaitu bagian yang menjadi pangkal atau pokok permasalahan. 2. Predikat, yaitu bagian yang menerangkan subyek, biasanya berdiri sesudah
subyek
3. Obyek, yaitu bagian yang menjadi tujuan.
4. Keterangan, yaitu bagian yang menunjukkan waktu (keterangan waktu), tempat (keterangan tempat), alat (keterangan alat), dan sebagainya. Sedangkan kalimat berdasarkan fungsinya dapat dikategorikan sebagai berikut:
1.Kalimat pernyataan 2.Kalimat pertanyaan 3.Kalimat perintah 4.Kalimat seruan 2.5.Paragraf
Paragraf disebut juga alinea. Paragraf merupakan inti penuangan pikiran dalam sebuah karangan. Kalimat-kalimat dalam paragraf memperlihatkan kesatuan pikiran atau mempunya keterkaitan dalam membentuk gagasan atau topic. Terdapat dua syarat dalam membentuk paragraf [27].
1. Menulis pernyataan (kalimat) tentang pokok bahasan dengan baik. 2. Menggali pola susunan rincian dengan patut.
2.6.Berita
Berita adalah laporan mengenai fakta atau ide terbaru yang benar, dan penting bagi sebagian besar khalayak, melalui media berkala seperti surat kabar, radio, televise, atau media internet.
(22)
Berita atau news adalah laporan mengenai suatu peristiwa atau kejadia yang terbaru (aktaul), laporan mengenai fakta-fakta yang actual, menarik perhatian, dinilai penting, atau luar biasa[28].
Susunan berita umumnya terdiri dari empat bagian, yaitu: 1. Headline, kepala berita atau judul berita.
2. Dateline, yaitu waktu dan nama tempat berita dibuat atau diperoleh. 3. Teras berita (Lead)
Adalah bagian berita yang terletak dialinea atau paragraf pertama, setelah head dan dateline sebelum badan atau isi berita. Biasanya berisi fakta penting dengan mengedepankan unsur 5W+1H (what, who, when,where,why,dan how).
4. Tubuh berita (News Body)
Berisi penjelasan atau uraian rinci unsur 5W+1H, baik yang sudah dikemukakan dalam teras berita maupun yang belum diungkapkan. Penulisan tubuh berita untuk melanjutkan apa yang sudan tertuang dalam teras yang mencerminkan pokok-pokok terpenting isi berita. Biasanya berupa kutipan dari isi berita atau kutipan isi pembicaraan nara sumber yang paling menarik.
2.7. Algoritma Text Summarization 2.7.1.Pra Proses (Preprocessing)
Preprocessing adalah tahapan untuk mempersiapkan teks menjadi data yang akan diolah di tahapan berikutnya. Inputan awal pada proses ini adalah berupa dokumen. Pada umumnya preprocessing memiliki beberapa tahapan yaitu case folding, tokenizing, stop word removal, stemming, dan lain-lain. Preprocessing
pada penelitian ini terdiri dari beberapa tahapan, yaitu: proses pemecahan kalimat, proses case folding, proses tokenizing kata, dan proses stop word removal
2.7.1.1. Pemecahan Kalimat
Memecah dokumen menjadi kalimat-kalimat merupakan langkah awal tahapan preprocessing. Pemecahan kalimat yaitu proses memecah string teks dokumen yang panjang menjadi kumpulan kalimat-kalimat. Dalam memecah
(23)
dokumen menjadi kalimat-kalimat menggunakan fungsi split(), dengan tanda titik “.”, tanda tanya ”?” dan tanda tanya “!” sebagai delimiter untuk memotong string dokumen [22].
Tabel 2. 1 Contoh pemecahan kalimat
Kalimat Hasil pemecahan kalimat
Manajemen transaksi elektronik. Pengetahuan antar individu. Dalam manajemen pengetahuan, terdapat transfer pengetahuan elektronik
Manajemen transaksi elektronik Pengetahuan antar individu Dalam manajemen pengetahuan terdapat transfer pengetahuan elektronik
2.7.1.2. Case Folding
Dokumen mengandung berbagai variasi dari bentuk huruf sampai tanda baca. Variasi huruf harus diseragamkan (menjadi huruf besar saja atau huruf kecil saja) dan tanda baca dihilangkan untuk menghilangkan noise pada saat pengambilan informasi. Hal ini dapat dilakukan dengan case folding. Case folding
adalah tahapan proses mengubah semua huruf dalam teks dokumen menjadi huruf kecil, serta menghilangkan karakter selain a-z.[22].
Tabel 2. 2 Contoh case folding
Kalimat Hasil case folding
Manajemen transaksi elektronik Pengetahuan antar individu Dalam manajemen pengetahuan terdapat transfer pengetahuan elektronik
manajemen transaksi elektronik pengetahuan antar individu dalam manajemen pengetahuan terdapat transfer pengetahuan elektronik
2.7.1.3. Tokenizing
Tokenizing adalah proses pemotongan string input berdasarkan tiap kata yang menyusunnya. Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan men-scan kalimat dengan pemisah (delimiter) white space (spasi, tab, dan
newline)[22].
Tabel 2. 3 Contoh Tokenizing
Case folding kalimat Hasil
Tokenizing
manajemen transaksi elektronik pengetahuan antar individu dalam manajemen pengetahuan terdapat transfer pengetahuan elektronik
Manajemen transaksi elektronik pengetahuan
(24)
individu dalam manajemen pengetahuan terdapat transfer pengetahuan elektronik 2.7.1.4. Stoplist / Stop Word Removal
Penghapusan Stopword merupakan proses penghilangan kata stopword.
Stopword adalah kata - kata yang sering kali muncul dalam dokumen namun arti dari kata-kata tersebut tidak deskriptif dan tidak memiliki keterkaitan dengan tema tertentu. Misalnya “di”, ”oleh”, “pada”, ”sebuah”, ”karena” dan lain sebagainya [22].
Tabel 2. 4 Contoh Stop Word Removal
Tokenizing kalimat Hasil Stop Word Removal
manajemen transaksi elektronik pengetahuan antar individu dalam manajemen pengetahuan terdapat transfer pengetahuan elektronik manajemen transaksi elektronik pengetahuan individu manajemen transfer 2.7.1.5. Stemming
Menurut Zaman B. dan E Winarko [24] stemming adalah proses pemetaan dari penguraian berbagai bentuk kata baik itu prefix, sufix, maupun gabungan antara
prefix dan sufix (confix), menjadi bentuk kata dasarnya.
Algoritma stemmer yang diperkenalkan Nazief dan Adriani didefinisikan sebagai berikut (Andita, 2010):
1. Di awal proses stemming dan setiap langkah yang selanjutnya dilakukan, lakukan pengecekan hasil proses stemming kata yang di-input-kan pada
(25)
langkah tersebut ke kamus kata dasar. Jika kata ditemukan, berarti kata tersebut sudah berbentuk kata dasar dan proses stemming dihentikan. Jika tidak ditemukan, maka langkah selanjutnya dilakukan.
2. Hilangkan Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”). Jika berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”, atau “- nya”), jika ada.
3. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a
a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “
-k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam
kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.
b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut
ke langkah 4.
4. Hilangkan derivation prefixes. a. Langkah 4 berhenti jika :
i. Terjadi kombinasi awalan dan akhiran yang terlarang.
ii. Awalan yang dideteksi saat ini sama dengan awalan yang dihilangkan sebelumnya.
iii. Tiga awalan telah dihilangkan.
b. Identifikasikan tipe awalan dan hilangkan. Awalan terdiri dari dua tipe :
i. Standar (“di-”, “ke-”, “se-”) yang dapat langsung dihilangkan dari
kata.
ii. Kompleks (“me-”, “be-”, “pe”, “te-”) adalah tipe-tipe awalan yang dapat bermorfologi sesuai kata dasar yang mengikutinya. Oleh karena itu, gunakan aturan pada Tabel 2.1 untuk mendapatkan hasil pemenggalan yang tepat.
(26)
c. Cari kata yang telah dihilangkan awalannya ini di dalam kamus kata dasar. Apabila tidak ditemukan, maka langkah 4 diulangi kembali. Apabila ditemukan, maka keseluruhan proses dihentikan.
5. Apabila setelah langkah 4 kata dasar masih belum ditemukan, maka proses
recoding dilakukan dengan mengacu pada aturan pada Tabel 2.1.
Recoding dilakukan dengan menambahkan karakter recoding di awal kata yang dipenggal. Pada Tabel 2.1, karakter recoding adalah huruf kecil setelah
tanda hubung („-‟) dan terkadang berada sebelum tanda kurung. Sebagai
contoh, kata “menangkap” (aturan 15), setelah dipenggal menjadi “nangkap”. Karena tidak valid, maka recoding dilakukan dan menghasilkan kata “tangkap”.
6. Jika semua langkah gagal, maka input kata yang diuji pada algoritma ini dianggap sebagai kata dasar.
Tabel 2.1 Aturan pemenggalan Awalan Stemmer Nazief dan Adriani Aturan Format Kata Pemenggalan
1 berV... ber-V... | be-rV...
2 berCAP... ber-CAP... dimana C!=‟r‟ & P!=‟er‟ 3 berCAerV... ber-CaerV... dimana C!=‟r‟
4 Belajar bel-ajar
5 beC1erC2... be-C1erC2... dimana C1!={‟r‟|‟l‟} 6 terV... ter-V... | te-rV...
7 terCerV... ter-CerV... dimana C!=‟r‟
8 terCP... ter-CP... dimana C!=‟r‟ dan P!=‟er‟ 9 teC1erC2... te-C1erC2... dimana C1!=‟r”
10 me{l|r|w|y}V... me-{l|r|w|y}V... 11 mem{b|f|v}... mem-{b|f|v}... 12 mempe{r|l}... mem-pe...
13 mem{rV|V}... me-m{rV|V}... | me-p{rV|V}... 14 men{c|d|j|z}... men-{c|d|j|z}...
15 menV... me-nV... | me-tV
16 meng{g|h|q}... meng-{g|h|q}...
17 mengV... meng-V... | meng-kV...
18 menyV... meny-sV…
19 mempV... mem-pV... dimana V!=„e‟ 20 pe{w|y}V... pe-{w|y}V...
21 perV... per-V... | pe-rV... 22 perCAP per-CAP... dimana C!=‟r‟danP!=‟er‟
(27)
23 perCAerV... per-CAerV... dimana C!=‟r‟ 24 pem{b|f|V}... pem-{b|f|V}...
25 pem{rV|V}... pe-m{rV|V}... | pe-p{rV|V}... 26 pen{c|d|j|z}... pen-{c|d|j|z}...
27 penV... pe-nV... | pe-tV... 28 peng{g|h|q}... peng-{g|h|q}... 29 pengV... peng-V... | peng-kV...
30 penyV... peny-sV…
31 pelV... pe-menghasilkan “ajar”lV... kecuali “pelajar” yang 32 peCerV... per-erV... dimana C!={r|w|y|l|m|n} 33 peCP... pe-CP... dimana C!={r|w|y|l|m|n} dan P!=‟er‟
Keterangan simbol huruf : C: huruf konsonan
V: huruf vokal
A: huruf vokal atau konsonan
P: partikel atau fragmen dari suatu kata, misalnya “er”
2.7.2.Algoritma TF-IDF
Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah cara pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot, yaitu Term frequency (TF) merupakan frekuensi kemunculan kata (t) pada kalimat (d). Document frequency
(DF) adalah banyaknya kalimat dimana suatu kata (t) muncul.
Frekuensi kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut. Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata tersebut. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen[22]. Pada aloritma TF-IDF digunakan rumus untuk menghitung bobot (W) masing masing dokumen terhadap kata kunci dengan rumus yaitu :
(28)
Wdt = tf
dt*
IDF
t(2.1) Dimana:d = dokumen ke-d
t = kata ke-t dari kata kunci
W= bobot dokumen ke-d terhadap kata ke-t
tf = banyaknya kata yang dicari pada sebuah dokumen IDF = Inversed Document Frequency
IDF = log2 (D/df) D = total dokumen
df = banyak dokumen yang mengandung kata yang dicari
Setelah bobot (W) masing-masing dokumen diketahui, maka dilakukan proses sorting/pengurutan dimana semakin besar nilai W, semakin besar tingkat similaritas dokumen tersebut terhadap kata kunci, demikian sebaliknya.
Inverse Document Frequency memperhatikan kemunculan term pada kumpulan dokumen. Pada metode ini, term yang dianggap bernilai/berharga adalah
term yang jarang muncul pada koleksi/ kumpulan dokumen[20]. Persamaan IDF adalah sebagai berikut:
��� = � (2.2)
Dimana df(t) adalah banyak dokumen yang mengandung term t.
TF*IDF merupakan kombinasi metode TF dengan metode IDF. Sehingga persamaan TF*IDF adalah sebagai berikut:
�� ∗ ��� , = �� , ∗ ��� (2.3)
Perhitungan bobot query relevance merupakan bobot hasil perbandingan kemiripan (similaritas) antara query yang dimasukkan oleh user terhadap keseluruhan kalimat. Sedangkan bobot similarity kalimat, merupakan bobot hasil perbandingan kemiripan antar kalimat.
(29)
2.7.3.Vector Space Model
Vector Space Model (VSM) adalah metode untuk melihat tingkat kedekatan atau kesamaan (similarity) term dengan cara pembobotan term. Dokumen dipandang sebagi sebuah vektor yang memiliki magnitude (jarak) dan direction
(arah). Pada Vector Space Model, sebuah istilah direpresentasikan dengan sebuah dimensi dari ruang vektor. Relevansi sebuah dokumen ke sebuah query didasarkan pada similaritas diantara vektor dokumen dan vektor query[20].
Dokumen dan query direpresentasikan sebagai vektor. (2.4)
(2.5)
Setiap dimensi sesuai dengan istilah yang terpisah. Jika jangka terjadi dalam dokumen, nilainya dalam vektor adalah non-nol. Beberapa cara yang berbeda dari komputasi nilai-nilai, juga dikenal sebagai (istilah) berat, telah dikembangkan. Salah satu skema yang paling dikenal adalah tf-idf bobot (lihat contoh di bawah).
Definisi istilah tergantung pada aplikasi. Biasanya istilah yang satu kata, kata kunci , atau frase lagi. Jika kata-kata yang dipilih untuk menjadi persyaratan, dimensi dari vektor adalah jumlah kata dalam kosa kata (jumlah kata yang berbeda terjadi di corpus ). Operasi vektor dapat digunakan untuk membandingkan dokumen dengan query.
Relevansi peringkat dokumen dalam pencarian kata kunci dapat dihitung dengan menggunakan asumsi dari dokumen kesamaan teori, dengan membandingkan deviasi dari sudut antara masing-masing vektor dokumen dan query vektor asli di mana query direpresentasikan sebagai jenis yang sama vektor sebagai dokumen.
(30)
Gambar 2.1 Ruang Vektor
Dalam prakteknya, lebih mudah untuk menghitung cosinus dari sudut antara vektor, bukan sudut itu sendiri:
(2.6)
Dimana adalah persimpangan (yaitu dot produk ) dari dokumen (d 2 pada gambar di sebelah kanan) dan query (q pada gambar) vektor, adalah
norma vektor d 2, dan adalah norma vektor q. norma dari vektor dihitung
seperti:
(2.7)
Karena semua vektor sedang dipertimbangkan oleh model ini adalah elementwise nonnegatif, nilai cosinus dari nol berarti bahwa permintaan dan vektor dokumen yang orthogonal dan tidak memiliki pertandingan (yaitu istilah permintaan tidak ada dalam dokumen yang sedang dipertimbangkan). Lihat kesamaan kosinus untuk informasi lebih lanjut.
2.8. Teknik Evaluasi Peringkasan Teks
Adapun Teknik yang digunakan untuk mengevaluasi hasil suatu ringkasan teks merupakan topik yang cukup sulit, baik evaluasi terhadap ringkasan yang
(31)
dihasilkan dari mesin peringkas otomatis ataupun ringkasan yang dihasilkan secara manual yang dibuat manusia, dikarenakan tidak terdapat definisi ringkasan ideal. Menurut Zaman B. dan E Winarko [24] metode untuk melakukan evaluasi terhadap hasil dari ringkasan secara umum dibagi 2, yaitu:
1. Ekstrinsik
Metode evaluasi ekstrinsik adalah menghitung efektivitas dan akseptabilitas dari hasil ringkasan untuk tugas-tugas tertentu, misalnya
assessment terhadap hasil ringkasan. 2. Intrinsik
Metode evaluasi intrinsik adalah evaluasi yang dilakukan oleh sistem peringkas itu sendiri, misalnya menggunakan F-Measures. Evaluasi ini difokuskan pada tingkat koheren dan informatif dari hasil ringkasan.
Dalam penelitian ini, metode evaluasi yang digunakan adalah metode intrinsik penghitungan F-Measure berdasarkan perhitungan Precision dan Recall
yang menurut Zaman B. dan E Winarko [24] merupakan standar evaluasi dalam penghitungan information retrieval. evaluasi perhitungan information retrieval
dengan menggunakan Precision dan Recall juga dapat digunakan dalam evaluasi perhitungan peringkas teks otomatis.
� � = ∑�� � � ∑�� � � � � � � �� �� � �ℎ� � � ��� (2.8)
� � � = ∑�� � � ∑�� � � �� � �ℎ� � � ��� �� � �ℎ� � � � (2.9)
Kombinasi antara nilai recall dan precision menghasilkan nilai f-measure.
� − � = 2∗ � +� � ∗� �� (2.10)
Dalam metode intrinsik, precision dan recall digunakan untuk mengukur kualitas ringkasan otomatis dengan cara membandingkan ringkasan otomatis dengan ringkasan manual (buatan manusia). Kemudian hasil akhir akan didapatkan dengan
(32)
cara penggabungan nilai recall (2.8) dan precision (2.9) yang disebut dengan nilai
F-measures (2.10). Masalah dalam metode ini adalah dalam menentukan kalimat relevan karena pasti terdapat perbedaan pendapat antar subyek pembuat ringkasan dalam memilih kalimat. Misal subyek A menganggap kalimat x sebagai kalimat utama tetapi bisa saja subyek B berpendapat sebaliknya bahwa kalimat x kurang begitu penting. Untuk mengatasi hal ini digunakan beberapa metode seperti suara terbanyak (majority opinion), gabungan (union), atau irisan (intersection)[24].
(33)
23 3.1.Analisis Masalah
Analisis masalah adalah suatu gambaran masalah yang diangkat dalam penulisan skripsi tentang simulasi Text Summarization dalam berita bahasa Indonesia. Analisis masalah ini menjelaskan proses identifikasi masalah serta evaluasi mengenai sistem peringkas teks otomatis dalam berita berbahasa Indonesia. Berdasarkan uraian pada latar belakang masalah pada penelitian ini terdapat permasalahan untuk melakukan peringkasan dibutuhkan suatu metode untuk mengatasi masalah redudansi kalimat menggunakan metode Vektor Space Model yang nantinya akan terbentuk sebuah ringkasan dari artikel berita berbahasa Indonesia.
3.2.Analisis Sistem
Analisis sistem didefinisikan sebagai penguraian dari sistem utama ke dalam sub-sub sistem dengan tujuan untuk mengidentifikasikan permasalahan permasalahan yang ada dan kebutuhan-kebutuhan yang diperlukan agar dapat diusulkan dan diciptakan sistem yang lebih baik. Dalam mengimplementasikan metode Vector Space Model pada Teks Summarization akan dibangun dengan gambaran sistem yang akan tertera pada Gambar 3.1.
Analisis sistem peringkas teks otomatis yang dibangun memiliki 3 tahapan yaitu praproses, hitung bobot kata, penentuan ringkasan. Untuk penjelasan setiap tahap pada proses peringkasan dapat dilihat sebagai berikut :
1.
Tahap pertama adalah tahap pengumpulan data dokumen berita yang telah dilakukan secara manual dari media online seperti merdeka, republika, liputan6, kompas, tribunnews, dan tempo. Kemudian data tersebut dilakukan proses preprocessing yang merupakan tahap dimana data yang akan digunakan sebagai data testing dibersihkan dari noise atau dari hal yang tidak mempunyai pengaruh dalam ringkasan. Preprocessing yang dilakukan dalam tahap ini(34)
antara lain: pemecahan kalimat, case folding, tokenizing, hapus stopword dan stemming.
2. Tahap kedua adalah melakukan perhitungan bobot menggunakan metode tf-idf. dengan menghitung TF(Term Frequency ), DF(Document Frequency), dan dihitung weight (W) dari masing-masing term.
3. Tahap ketiga adalah menentukan hasil ringkasan dengan menggunakan metode
Vector Space Model. Pada metode ini dihitung nilai similarity antarkalimat atau kemiripannya pada dokumen masukan. Proses ini dilakukan pada semua kalimat terhadap kalimat yang lainnya yang akan menghasilkan sebuah ringkasan. Hasil ringkasan adalah kumpulan dari kalimat-kalimat hasil persentase yang paling tinggi.
Gambar 3.1 Gambaran Sistem
3.2.1. Analisis Data Masukan (Input Data)
Analisis data pada sistem peringkas teks berita bahasa Indonesia menjelaskan proses data masukan. peringkasan teks otomatis berita yang dibuat
(35)
merupakan sistem peringkasan dengan inputan data training sekaligus testing
berupa single dokumen untuk menghasilkan ringkasan (summary).
Gambaran Sistem menunjukkan skema proses peringkasan secara umum. Berikut alur proses data masukkan peringkasan teks :
1. User memasukkan teks dokumen berupa format teks (file .txt) yang akan diringkas, data masukan tersebut adalah data training dan testing
dokumen berita dalam berbahasa Indonesia. Proses awal peringkasan
user memasukkan teks dokumen sesuai Tabel 3.1.
2. Sistem melakukan penyiapan teks (teks preprocessing) dokumen yang terdiri dari tahap pemecahan kalimat, case folding, tokenizing kata, stop word removal dan stemming yang akan dibahas pada analisis berikutnya. Berikut adalah flowchart dari proses Input Data dapat dilihat pada gambar 3.2 :
(36)
Tabel 3.1 Data Training dan Testing
Artikel Berita
Menteri Kelautan dan Perikanan, Susi Pudjiastuti akan melepas semua posisinya di perusahaan penerbangan Susi air.
Bahkan agar mencegah conflict of interest, Susi bersedia melepas semua jabatan yang selama ini dipegangnya di sejumlah perusahaan. Yakni, akan melepas jabatan President Direktur PT ASI Pudjiastuti yang bergerak di bidang perikanan dan PT ASI Pudjiastuti Aviation yang jadi operator penerbangan Susi Air.
Susi akan melepas semua jabatan CEO Susi air, dan PT ASI grup. “Itu harus
dilepaskan, biar bisa kerja maksimal tanpa konflik kepentingan apapun," tuturnya, usai presiden Joko Widodo (Jokowi) mengumumkan kabinet di halaman belakang istana merdeka, jakarta, Minggu (26/19/2014).
Yang pasti kerjanya sangat besar. “Tujuh puluh persen wilayah kita lautan," tutur
Susi usai diperkenalkan Jokowi di halaman belakang istana merdeka, jakarta, Minggu (26/19/2014).
Susi akan pegang teguh pesan Jokowi kepadanya saat dipanggil ke istana merdeka pekan lalu.
"Pesannya Pak Jokowi ke saya, Kerja, kerja dan kerja itu saja pegangan saya bekerja," tegasnya.
Terkait Program, Susi akan menjawabnya usai pelantikan dan rapat perdana kabinet, Senin (27/10/2014) besok.
"Belum tahu programnya, tunggu besok saja selesai pelantikan dan rapat kabinet besok," ujarnya.
Data masukkan yang ada pada Tabel 3.1 didapat dari artikel berita Tribun news dengan judul “Susi Pudjiastuti Langsung Lengser Dari Jabatan Dirut Susi Air” berikut alamat websitenya :
http://www.tribunnews.com/nasional/2014/10/26/susi-pudjiastuti-langsung-lengser-dari-jabatan-dirut-susi-air.
(37)
3.2.2. Analisis Preprocessing
Analisis preprocessing ini menjelaskan praproses yang dilakukan untuk mendapatkan fitur kata-kata yang bersih sehingga tidak akan mengandung noise yang akan menganggu hasil untuk proses selanjutnya[22]. Berikut adalah tahapan dari praproses sistem peringkas teks berita dalam bahasa Indonesia dapat dilihat pada gambar 3.3.
A. Pemecahan Kalimat
Pada tahap pemecahan kalimat adalah memecah string dokumen menjadi kumpulan kalimat-kalimat berdasarkan tanda titik “ . ”,tanda tanya “ ? ”, dan
tanda seru “!” sebagai pemisah (delimiter) untuk memotong string dokumen.
Tabel 3.2 merupakan hasil proses pemecahan dokumen menjadi kumpulan kalimat-kalimat sebagai berikut :
Tabel 3.2 Pemecahan Kalimat
No Kalimat
D1 Menteri Kelautan dan Perikanan, Susi Pudjiastuti akan melepas semua posisinya di perusahaan penerbangan Susi air
D2 Bahkan agar mencegah conflict of interest, Susi bersedia melepas semua jabatan yang selama ini dipegangnya di sejumlah perusahaan
D3 Yakni, akan melepas jabatan President Direktur PT ASI Pudjiastuti yang bergerak di bidang perikanan dan PT ASI Pudjiastuti Aviation yang jadi operator penerbangan Susi Air
D4 Susi akan melepas semua jabatan CEO Susi air, dan PT ASI grup
TOKENIZING Pemecahan Kalimat
CASE FOLDING
STOP WORD REMOVAL
Gambar 3.3 Tahapan Praproses STEMMING
(38)
D5 “Itu harus dilepaskan, biar bisa kerja maksimal tanpa konflik kepentingan apapun," tuturnya, usai presiden Joko Widodo (Jokowi) mengumumkan kabinet di halaman belakang istana merdeka, jakarta, Minggu (26/19/2014) D6 Yang pasti kerjanya sangat besar
D7 “Tujuh puluh persen wilayah kita lautan," tutur Susi usai diperkenalkan Jokowi di halaman belakang istana merdeka, jakarta, Minggu (26/19/2014) D8 Susi akan pegang teguh pesan Jokowi kepadanya saat dipanggil ke istana
merdeka pekan lalu
D9 "Pesannya Pak Jokowi ke saya, Kerja, kerja dan kerja itu saja pegangan saya bekerja," tegasnya
D10 Terkait Program, Susi akan menjawabnya usai pelantikan dan rapat perdana kabinet, Senin (27/10/2014) besok
D11 "Belum tahu programnya, tunggu besok saja selesai pelantikan dan rapat kabinet besok," ujarnya
B. Case Folding
Berikut merupakan hasil teks artikel berita yang sudah melalui tahapan pembuangan case folding:
Tabel 3.3 Case Folding
No Kalimat
D1 menteri kelautan dan perikanan susi pudjiastuti akan melepas semua posisinya di perusahaan penerbangan susi air
D2 bahkan agar mencegah conflict of interest susi bersedia melepas semua jabatan yang selama ini dipegangnya di sejumlah perusahaan
D3 yakni akan melepas jabatan president direktur pt asi pudjiastuti yang bergerak di bidang perikanan dan pt asi pudjiastuti aviation yang jadi operator penerbangan susi air
D4 susi akan melepas semua jabatan ceo susi air dan pt asi grup
D5 itu harus dilepaskan biar bisa kerja maksimal tanpa konflik kepentingan apapun tuturnya usai presiden joko widodo jokowi mengumumkan kabinet di halaman belakang istana merdeka jakarta minggu
D6 yang pasti kerjanya sangat besar
D7 tujuh puluh persen wilayah kita lautan tutur susi usai diperkenalkan jokowi di halaman belakang istana merdeka jakarta minggu
D8 susi akan pegang teguh pesan jokowi kepadanya saat dipanggil ke istana merdeka pekan lalu
D9 pesannya pak jokowi ke saya kerja kerja dan kerja itu saja pegangan saya bekerja tegasnya
D10 terkait program susi akan menjawabnya usai pelantikan dan rapat perdana kabinet senin besok
(39)
D11 belum tahu programnya tunggu besok saja selesai pelantikan dan rapat kabinet besok ujarnya
C. Tokenizing
Proses tokenizing kata yaitu menghilangkan karakter pemisah (delimiter) yang menyusunnya berupa karakter spasi. Berikut hasil dari tokenizing terdapat pada tabel 3.4.
Tabel 3.4 Tokenizing
air istana lepaskan penerbangan senin
air jabatan maksimal penerbangan susi
air jabatan melepas perdana susi
apapun jabatan melepas perikanan susi
asi jabatan melepas perkenalkan susi
asi jakarta melepas persen susi
asi jakarta melepas perusahaan susi
aviation joko mencegah perusahaan susi
bekerja jokowi mengumumkan pesan susi
belum jokowi menjawabnya pesannya tahu
bersedia jokowi menteri posisinya tegasnya
besar jokowi merdeka presiden teguh
besok kabinet merdeka president terkait
besok kabinet merdeka president tujuh
besok kabinet minggu program tunggu
bisa kelautan minggu programnya tutur
ceo kepadanya of pt tuturnya
conflict kepentingan pak pt ujarnya
direktur kerja panggil pudjiastuti usai
grup kerja pegang pudjiastuti usai
halaman kerja pegangan puluh usai
halaman kerja pegangnya rapat widodo
interest kerjanya pekan rapat wilayah
istana konflik pelantikan semua
istana lautan pelantikan semua
D. Stop Word Removal
Proses Stop Word Removal dilakukan untuk menghapus kata-kata yang tidak penting. Hasil dari Tokenizing kemudian dilakukan proses stop word
(40)
removal ini. Dan berikut ini adalah hasil dari proses stop word removal pada tabel 3.5.
Tabel 3.5 Stop Word Removal
air jabatan mencegah perikanan senin
apapun jakarta mengumumkan perkenalkan susi
asi joko menjawabnya persen tegasnya
aviation jokowi menteri perusahaan teguh
bekerja kabinet merdeka pesan terkait
bersedia kelautan minggu pesannya tujuh
besar kepadanya of posisinya tunggu
besok kepentingan panggil presiden tutur
ceo kerja pegang president tuturnya
conflict kerjanya pegangan program ujarnya
direktur konflik pegangnya programnya usai
grup lautan pekan pt wilayah
halaman lepaskan pelantikan pudjiastuti widodo interest maksimal penerbangan puluh
istana melepas perdana rapat
E. Stemming
Proses stemming yang dilakukan adalah untuk menentukan kata dasar yang belum diproses melalui stopword dan tidak terdapat pada database. Hasil dari
stop word removal kemudian dilakukan proses stemming ini. Dan berikut ini adalah hasil dari proses stemming pada tabel 3.6.
Tabel 3.6 Stemming
air jabat cegah ikan senin
apa jakarta umum kenal susi
asi joko jawab persen tegas
aviation jokowi menteri usaha teguh
kerja kabinet merdeka pesan terkait
sedia laut minggu pesan tujuh
besar kepada of posisi tunggu
besok penting panggil presiden tutur
ceo kerja pegang president tutur
conflict kerja pegang program ujar
direktur konflik pegang program usai
(41)
halaman lepas lantik pudjiastuti widodo
interest maksimal terbang puluh jumlah
istana lepas dana rapat
Berikut adalah kumpulan kalimat hasil stemming yang akan dihitung bobot tiap kata terhadap setiap kalimatnya yang akan diproses pada algoritma TF-IDF
dapat dilihat pada Tabel 3.7.
Tabel 3.7 Kalimat Hasil Stemming
No Kalimat
D1 menteri laut ikan susi pudjiastuti lepas posisi usaha terbang susi air D2 cegah conflict of interest susi sedia lepas jabat pegang jumlah usaha
D3 lepas jabatan president direktur pt asi pudjiastuti gerak bidang ikan pt asi pudjiastuti aviation operator terbang susi air
D4 susi lepas jabat ceo susi air dan pt asi grup
D5 lepas kerja maksimal konflik penting apa tutur usai presiden joko widodo jokowi umumk kabinet halaman belakang istana merdeka jakarta minggu D6 kerja besar
D7 tujuh puluh persen wilayah laut tutur susi usai kenal jokowi halaman belakang istana merdeka jakarta minggu
D8 susi pegang teguh pesan jokowi kepada panggil istana merdeka pekan lalu D9 pesan jokowi kerja kerja kerja pegang kerja tegas
D10 terkait program susi jawab usai lantik rapat dana kabinet senin besok D11 program tunggu selesai lantik rapat kabinet ujarn
3.2.3. Analisis Metode Summarization
Pada analisis metode summarization akan menjelaskan proses peringkasan teks pembobotan kata dengan TF-IDF dan Vektor Space Model. Sebelumnya akan dilakukan terlebih dahulu proses pemilihan kata memilih kata berdasarkan bobot kata tersebut dalam dokumen.
Berikut adalah flowchart proses retrieval menggunakan Vector Space Model
(42)
Gambar 3.4 Flowchart Retrieval Menggunakan Vector Space Model
A. Algoritma Tf-Idf
Tahapan ini meliputi identifikasi faktor yang sangat penting tentang apa yang dibicarakan dalam teks tersebut. Adapun teknik yang digunakan yaitu teknik
word frequency. Teknik ini mendeteksi topik berdasarkan kata-kata yang sering muncul dalam suatu teks dokumen [22].
Pemberian bobot pada masing-masing term didefinisikan melalui perhitungan frekuensi kemunculan dokumen yang mengandung sebuah term yaitu DF (document frequency), penghitungan frekuensi kemunculan term di dalam dokumen yaitu TF (term frequency) dan perhitungan jumlah dokumen yang
(43)
mengandung sebuah term yang dicari dari kumpulan dokumen yang ada yaitu IDF
(Inverse Document Frequency) yang mengacu ke rumus (2). Hasil perhitungan nilai TF-IDF pada term tiap dokumen pada data training dan testing dapat dilihat pada tabel 3.8 dan table 3.9:
Keterangan
Kata/Term : Daftar kata/term yang terdapat pada data training dan testing D: Dokumen/Kalimat
df: Frekuensi kata pada dokumen
(44)
Tabel 3.8 Perhitungan Nilai TF-IDF Pada Data Training dan Testing
Kata yang dianggap
penting (query)
tf df D/df IDF log
(D/df)
D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11
menteri 1 0 0 0 0 0 0 0 0 0 0 1 11 1.041
laut 1 0 0 0 0 0 0 0 0 0 0 1 11 1.041
ikan 1 0 1 0 0 0 0 0 0 0 0 2 5.5 0.740
lepas 1 1 1 1 0 0 0 0 0 0 0 4 2.75 0.439
jabat 1 1 1 1 0 0 0 0 0 0 0 4 2.75 0.439
usaha 1 1 0 0 0 0 0 0 0 0 0 2 5.5 0.740
terbang 1 1 0 0 0 0 0 0 0 0 0 2 5.5 0.740
umum 0 0 0 0 1 0 0 0 0 0 0 1 11 1.041
(45)
Tabel 3.9 Perhitungan Bobot Nilai (W) Pada Data Training dan Testing
.
Kata yang dianggap penting
(query)
W
D1 * IDF
D2 * IDF
D3 * IDF
D4 * IDF
D5 * IDF
D6 * IDF
D7 * IDF
D8 * IDF
D9 * IDF
D10 * IDF
D11 * IDF
menteri 1.041 0 0 0 0 0 0 0 0 0 0
laut 1.041 0 0 0 0 0 0 0 0 0 0
ikan 0.740 0 0.740 0 0 0 0 0 0 0 0
lepas 0.439 0.439 0.439 0.439 0 0 0 0 0 0 0
jabat 0.439 0.439 0.439 0.439 0 0 0 0 0 0 0
usaha 0.740 0.740 0 0 0 0 0 0 0 0 0
terbang 0.740 0.740 0 0 0 0 0 0 0 0 0
umum 0 0 0 0 1.041 0 0 0 0 0 0
(46)
Dari studi kasus diatas dapat diketahui bahwa nilai bobot (W) dari D1, D2, D3, dan D4 adalah sama. Apabila hasil bobot pada kalimat tidak dapat diurutkan secara tepat karena nilai W keduanya sama, maka diperlukan proses perhitungan dengan algoritma vector space model. Intisari dari metode ini adalah menghitung nilai cosinus sudut dari dua vector, yaitu nilai W dari tiap kalimat dan W dari kata kunci(query) untuk mendapatkan kalimat yang lebih efektif untuk dijadikan ringkasan.
B. Algoritma Vector Space Model
Vector Space Model adalah metode untuk menggambarkan fitur pada text dalam bentuk vektor. Setiap kalimat dianggap sebuah vektor dengan nilai berupa keanggotaan atau bobot kalimat yang didapat dari proses perhitungan TF-IDF. Untuk memilih kalimat paling sesuai maka digunakan perhitungan cosines similarity dengan query daftar kata penting.
Formula yang digunakan pada VSM dan diimplemetasikan pada tabel 3.10 dan tabel 3.11:
� �� = � ∑�= �� (3.1)
Dimana :
j= kata di basis data
n= jumlah kata di basis data kk= kata kunci
� � = � ∑�= �, (3.2)
Dimana :
j= kata di basis data
n= jumlah kata di basis data i= dokumen ke-i
D = urutan dokumen(kalimat) ke-I untuk kata ke-j pada basis data Untuk
� �� � = �� �, (3.3)
Dimana :
j= kata di basis data
n= jumlah kata di basis data i= dokumen ke-i
kk= kata kunci ke-j dari basis data
(47)
Tabel 3.10 Perhitungan Vector Space Model dari Hasil TF-IDF Pada Data Training dan Testing (1)
Kata Query
(KK)
W1^2 (D1)
W2^2 (D2)
W3^2 (D3)
W4^2 (D4)
W5^2 (D5)
W6^2 (D6)
W7^2 (D7)
W8^2 (D8)
W9^2 (D9)
W10^2 (D10)
W11^2 (D11)
menteri 0 1.083 0 0 0 0 0 0 0 0 0 0
laut 0 1.083 0 0 0 0 0 0 0 0 0 0
ikan 0 0.547 0 0.547 0 0 0 0 0 0 0 0
lepas 0.192 0.192 0.192 0.192 0.192 0 0 0 0 0 0 0
jabat 0.192 0.192 0.192 0.192 0.192 0 0 0 0 0 0 0
usaha 0 0.547 0.547 0 0 0 0 0 0 0 0 0
terbang 0 0.547 0.547 0 0 0 0 0 0 0 0 0
umum 0 0 0 0 0 1.083 0 0 0 0 0 0
kerja 0 0 0 0 0 0 1.083 0 0 0 0 0
Jumlah 0.384 4.191 1.478 0.931 0.384 1.083 1.083 0 0 0 0 0
(48)
Tabel 3.11 Perhitungan Vector Space Model dari Hasil TF-IDF Pada Data Training dan Testing (2)
Kata Query
(KK) KK*D1 KK*D2 KK*D3 KK*D4 KK*D5 KK*D6 KK*D7 KK*D8 KK*D9 KK*D10 KK*D11
menteri 0 0 0 0 0 0 0 0 0 0 0 0
laut 0 0 0 0 0 0 0 0 0 0 0 0
ikan 0 0 0 0 0 0 0 0 0 0 0 0
lepas 0.192 0.036 0.036 0.036 0.036 0.036 0 0 0 0 0 0
jabat 0.192 0.036 0.036 0.036 0.036 0.036 0 0 0 0 0 0
usaha 0 0 0 0 0 0 0 0 0 0 0 0
terbang 0 0 0 0 0 0 0 0 0 0 0 0
umum 0 0 0 0 0 0 0 0 0 0 0 0
kerja 0 0 0 0 0 0 0 0 0 0 0 0
Jumlah 0.384 0.072 0.072 0.072 0.072 0.072 0 0 0 0 0 0
(49)
Rasio kompresi (Compression Rate) pada suatu ringkasan berfungsi untuk menentukan persentasi batas panjang ringkasan yang akan ditampilkan [22].
Compression rate pada proses peringkasan akan menentukan panjang ringkasan yang dihasilkan. Hasil ringkasan dengan memilih compression / batas panjang ringkasan 35%.
Untuk
� Di = ∑nj= kkj ∗ Di, j ⁄sqrt kk ∗ sqrt Di (3.4)
Dimana:
j= kata di basis data
n= jumlah kata di basis data i= dokumen ke-i
kk= kata kunci ke-j dari basis data
D = urutan dokumen(kalimat) ke-i untuk kata ke-j pada basis data 1. Untuk kalimat 1 (D1)
Cosine (D1) = sum (kk . D1) / (sqrt(kk) * sqrt(D1) = 0.268 / (0.619 * 2.047)
= 0.211 2. Untuk kalimat 2 (D2)
Cosine (D2) = sum (kk . D2) / (sqrt(kk) * sqrt(D2) = 0.268/ (0.619 * 1.215)
= 0.356 (ringkasan) 3. Untuk kalimat 3 (D3)
Cosine (D3) = sum (kk . D3) / (sqrt(kk) * sqrt(D3) = 0.268/ (0.619 * 0.964)
= 0.449 (ringkasan) 4. Untuk kalimat 4 (D4)
Cosine (D4) = sum (kk . D4) / (sqrt(kk) * sqrt(D4) = 0.268/ (0.619 * 0.619)
= 0.699 (ringkasan) 5. Untuk kalimat 5 (D5)
Cosine (D5) = sum (kk . D5) / (sqrt(kk) * sqrt(D5) = 0.268/ (0.619 * 1.040)
(50)
6. Untuk kalimat 6 (D6)
Cosine (D6) = sum (kk . D6) / (sqrt(kk) * sqrt(D6) = 0 / (0.619 * 1.040 )
= 0 7. Untuk kalimat 7 (D7)
Cosine (D7) = sum (kk . D7) / (sqrt(kk) * sqrt(D7) = 0 / (0.619 * 0 )
= 0 8. Untuk kalimat 8 (D8)
Cosine (D8) = sum (kk . D8) / (sqrt(kk) * sqrt(D8) = 0 / (0.619 * 0 )
= 0 9. Untuk kalimat 9 (D9)
Cosine (D9) = sum (kk . D9) / (sqrt(kk) * sqrt(D9) = 0 / (0.619 * 0 )
= 0
10.Untuk kalimat10 (D10)
Cosine (D10) = sum (kk . D10) / (sqrt(kk) * sqrt(D10) = 0 / (0.619 * 0 )
= 0
11.Untuk kalimat 11 (D11)
Cosine (D11) = sum (kk . D11) / (sqrt(kk) * sqrt(D11) = 0 / (0.619 * 0 )
= 0
Berikut adalah urutan dokumen hasil ringkasan dengan nilai kompresi 35%. Maka 35% dari 11 Dokumen yaitu : 11 x 35% = 3.85 ≈ 4 Dokumen.
Tabel 3.12 Urutan Dokumen Hasil Ringkasan 35% Dokumen Bobot
D2 0.356
D3 0.449
D4 0.699
D5 0.416
Sesuai perhitungan diatas maka nilai cosinus setiap dokumen telah didapat dari hasil akhir perhitungan vector space model diketahui bahwa kalimat yang diambil untuk dijadikan sebuah ringkasan terdapat pada kalimat ke 2, 3, 4, dan 5 dengan compression rate 35%. Semakin besar hasil cosinus tersebut maka semakin
(51)
Tabel 3.13 Hasil Ringkasan Teks Artikel Compression 35%
No Kalimat
D2 Bahkan agar mencegah conflict of interest, Susi bersedia melepas semua jabatan yang selama ini dipegangnya di sejumlah perusahaan
D3 Yakni, akan melepas jabatan President Direktur PT ASI Pudjiastuti yang bergerak di bidang perikanan dan PT ASI Pudjiastuti Aviation yang jadi operator penerbangan Susi Air
D4 Susi akan melepas semua jabatan CEO Susi air, dan PT ASI grup
D5 “Itu harus dilepaskan, biar bisa kerja maksimal tanpa konflik
kepentingan apapun," tuturnya, usai presiden Joko Widodo (Jokowi) mengumumkan kabinet di halaman belakang istana merdeka, jakarta, Minggu (26/19/2014)
3.3.Spesifikasi Kebutuhan Perangkat Lunak
Spesifikasi kebutuhan perangkat lunak yang dibangun dibagi menjadi dua kebutuhan, yaitu kebutuhan nonfungsional dan fungsional. Spesifikasi kebutuhan fungsional dan nonfungsional dapat dilihat pada tabel 3.14.
Tabel 3.14 SKPL
Kode Keterangan
Fungsional
SKPL – F – 001 Aplikasi ini dapat membantu pengguna dalam membaca intisari dari dokumen / ringkasan SKPL – F – 002 Aplikasi ini dapat melakukan preprocessing untuk
mengubah data mentah menjadi siap pakai SKPL – F – 003 Aplikasi ini dapat membatu pengguna
mempersingkat waktu membaca dalam menentukan intisari dokumen
Non Fungsional
SKPL – NF – 001 Sistem yang dibangun berbasis web
SKPL – NF – 002 Aplikasi yang dibangun dapat berjalan optimal dibrowser google chrome dan mozila firefox SKPL – NF – 003 Aplikasi ini dibangun dengan spesifikasi
hardware yang memenuhi standar minimum kebutuhan.
SKPL – NF – 004 Data yang dipakai untuk ringkasan dokumen adalah data mentah yang dimbil dari media online
(52)
seperti merdeka, republika, liputan6, kompas, tribunnews, dan tempo.
SKPL – NF – 005 Data dokumen yang diinputan adalah format file text (.txt)
3.4. Analisis Kebutuhan Nonfungsional
Analisis kebutuhan Non Fungsional menggambarkan kebutuhan luar sistem yang diperlukan untuk menjalankan perangkat lunak yang dibangun. Analisis kebutuhan non fungsional yang dilakukan diantaranya Analisis Kebutuhan Perangkat Lunak (Software), dan Analisis Kebutuhan Perangkat Keras (Hardware).
3.4.1. Analisis Kebutuhan Perangkat Keras (Hardware)
Kebutuhan Perangkat keras yang mendukung dalam pembangunan sistem peringkas teks otomatis ini adalah sebagai berikut :
1. Processor amd 1,40 GHz 2. RAM 2048MB
3. Monitor dengan resolusi 1366 x 768 pixels 4. Keyboard
5. Mouse
3.4.2. Analisis Kebutuhan Perangkat Lunak (Software)
Analisis kebutuhan perangkat lunak (software) pada penelitian ini yang mendukung dalam sistem peringkas teks otomatis ini adalah sebagai berikut :
1. Sistem Operasi Window 8.1 Profesional 64 bit. 2. Bahasa Pemrograman PHP
3. Web server XAMPP v3.2.1
4. Code Editor SublimeText 3 Portable
5. Adobe Photoshop CS6
(53)
3.4.3. Analisis Kebutuhan Perangkat Pikir (Brainware)
Kebutuhan perangkat pikir (Brainware yang dibahas dalam penelitian ini dikelompokkan menjadi tiga kategori yaitu userknowledge and experience, user jobs and tasks, dan user physical characteristic. Penjelasan untuk masing-masing kategori sebagai berikut:
1. Pengetahuan dan Pengalaman Pengguna (User Knowledge and Experience)
Pengetahuan dan pengalaman pengguna yang di targetkan dalam pembangunan perangkat lunak ini dapat dilihat pada table 3.16
Tabel 3.15 Pe ngetahuan da n Pengala ma n Pe ngguna
Tabel 3.16 User Knowledge and Experience
Aspek Pengguna
Education Level SMA sampai Perguruan tinggi
(D3,S1,S2,S3)
Reading Level Sedang Sampai Tinggi
Computer Literacy moderate experience till highly
technical
Task Experience Rendah sampai Tinggi
System Experience Rendah sampai Tinggi
Application Experience Rendah sampai Tinggi
Use Of Other System No
Native Language or Culture Dominan Indonesia
2. Tugas dan Kebutuhan Pengguna (User Jobs and Tasks)
Tugas dan pekerjaan pengguna yang ditargetkan dalam pembangunan perangkat lunak ini dapat dilihat pada table 3.17
Tabel 3.17 Tugas dan Kebutuhan Pengguna
Aspek Pengguna
Frequency Of Use Continual
Primary Training Disediakan menu petunjuk
Task or Need Importance Sedang sampai Tinggi
Task Structure Sedang sampai Tinggi
Job Categories No
Life Style No
3. Karakteristik Pengguna (User Physical Characteristic)
Karakter fisik pengguna yang ditargetkan dalam pembangunan perangkat lunak ini dapat dilihat pada table 3.18
(54)
Aspek Pengguna
Handedness Keduanya dalam kondisi baik
Gender Laki-laki dan perempuan
Age 20 tahun ke atas
Disabilities Tidak cacat tubuh
3.5. Analisis Kebutuhan Fungsional
Analisis kebutuhan fungsional bertujuan untuk menganalisis proses yang akan diterapkan dalam sistem yang akan dibangun. Analisis kebutuhan fungsional pada aplikasi ini menggunakan Diagram Konteks, pembuatan DFD, dan spesifikasi proses.
3.5.1. Diagram Konteks
Diagram konteks adalah suatu diagram yang menggambarkan ruang lingkup sistem peringkas teks dalam berita bahasa indonesia. Sistem digambarkan dengan bulatan, sedangkan lingkungan diwakili oleh entitas luar yang digambarkan dengan persegi. Gambar 3.5 menggambarkan diagram konteks yang terdapat sistem peringkas teks.
(55)
3.5.2. Data Flow Diagram (DFD) Level 1
Data flow diagram level 1 berfungsi untuk menjelaskan aliran data yang terdapat di Sistem Peringkas Teks.
Gambar 3.6 Data Flow Diagram Level 1 Sistem Peringkas Teks
3.5.3. Data Flow Diagram (DFD) Level 2
Data flow diagram Level 2 berfungsi untuk menjelaskan aliran data yang terdapat di Sistem Peringkas Teks.
(56)
3.5.4. Deskripsi Proses
Deskripsi proses digunakan untuk menggambarkan proses model aliran yang terdapat pada DFD. Spesifikasi proses dari DFD yang telah dibuat dapat dijelaskan pada table deskripsi proses level 1, dan level 2.
Tabel 3.19 Spesifikasi Proses
No Proses Keterangan
1 No proses 1
Nama Proses Memilih Dokumen Source (Sumber) User
Input Data dokumen
Output Info Dokumen
Destination User
Logika User 1. User memilih file text data dokumen yang akan diringkas di pilih file
2. Sistem akan menampilkan dokumen yang akan diringkas 3. User dapat memilih file dokumen
yang akan diringkas
2 No Proses 2
Nama Proses Meringkas dokumen Source (Sumber) User
Input Data dokumen, data batas panjang ringkasan/kompresi.
Output Info ringkasan
Destination User
Logika Proses 1. User menginputkan dokumen berupa text ke dalam sistem
2. Memilih file teks data dokumen yang akan diringkas
3. Mengatur batas panjang ringkasan / kompresi teks untuk ringkasan 4. Pilih proses untuk peringkasan teks
otomatis
5. Sistem mengeluarkan data dokumen asli lalu menghasil teks ringkasan dokumen
3 No Proses 2.1
(57)
Source (sumber) User
Input Data dokumen
Output Data hasil preprocessing
Destination User
Logika Proses 1. User memilih proses untuk melihat hasil ringkasan
2. Data dokumen masuk ke tahapan praproses
3. Sistem melakukan Preprocessing
seperti pemecahan kalimat, case folding, tokenizing, stop word removal dan stemming.
4 No Proses 2.2
Nama Proses Perhitungan Bobot Kata Source (sumber) User
Input Data hasil preprocessing
Output Data hasil perhitungan bobot kata
Destination User
Logika Proses 1. User memilih proses untuk melihat hasil ringkasan
2. Data hasil preprocessing masuk ke perhitungan bobot kata
3. Sistem melakukan perhitungan bobot kata
5 No Proses 2.3
Nama Proses Perhitungan Bobot Kalimat Source (sumber) User
Input Data hasil perhitungan bobot kata Output Data hasil perhitungan bobot kalimat
Destination User
Logika Proses 1. User memilih proses untuk melihat hasil ringkasan
2. Data hasil perhitungan bobot kata masuk ke perhitungan bobot kalimat 3. Sistem melakukan perhitungan
bobot kalimat.
6 No Proses 2.4
Nama Proses Pemilihan kalimat untuk ringkasan Source (sumber) User
Input Data hasil perhitungan bobot kalimat, Data batas panjang ringkasan / kompresi
(58)
Destination User
Logika Proses 1. User memilih proses dan mengatur batas panjang ringkasan/kompresi untuk melihat hasil ringkasan 2. Data hasil perhitungan bobot
kalimat masuk ke pembentukan ringkasan
3. Sistem melakukan pemilihan kalimat ringkasan
4. Sistem menampilkan hasil ringkasan
3.5.5. Kamus Data
Kamus data merupakan deskripsi formal dari seluruh elemen atau aliran data yang terdapat dalam data flow diagram. Kamus data dari data flow diagram sistem peringkas teks adalah sebagai berikut :
Tabel 3.20 Data Dokumen
Nama Data Dokumen
Where used Memilih dokumen (1) Deskripsi
Data yang digunakan ketika proses mencari dokumen adalah data berupa teks dengan file format txt yang digunakan dalam proses peringkasan
Struktur Data Teks
Penjelasan per struktur Teks[A..Z][a..z][0..9][symbol] Tabel 3.21 Info Dokumen
Nama Info Dokumen
Where used Memilih dokumen (1) Deskripsi
Data yang diproses ketika mencari dokumen adalah data berupa teks dengan file format txt yang digunakan dalam proses peringkasan Struktur Data Teks
Penjelasan per struktur Teks[A..Z][a..z][0..9][symbol]
Tabel 3.22 Data Batas Panjang Ringkasan / kompresi Nama Data batas panjang ringkasan/kompresi Where used Meringkas Dokumen (2)
(59)
Deskripsi
Data yang digunakan ketika proses meringkas dokumen adalah data berupa persentase batas panjang ringkasan/kompresi.
Struktur Data Persen kompresi Penjelasan per struktur Persen kompresi[0..9]
Tabel 3.23 Data Ringkasan Nama Data Ringkasan
Where used Pemilihan kalimat untuk ringkasan(2.4) Deskripsi Data yang digunakan untuk menyimpan hasil
proses peringkasan. Struktur Data Teks
Penjelasan per struktur Teks[A..Z][a..z][0..9][symbol] Tabel 3.24 Info Ringkasan Nama Info Ringkasan
Where used
Meringkas dokumen (2), preprocessing(2.1),
perhitungan bobot kata(2.2), perhitungan bobot kalimat(2.3), pemilihan kalimat untuk ringkasan(2.4)
Deskripsi
Data yang akan diproses adalah data inputan yang akan melalui tahapan preprocessing, perhitungan bobot kata, perhitungan bobot kalimat, dan menentukan kalimat untuk menampilkan hasil ringkasan
Struktur Data Teks
Penjelasan per struktur Teks[A..Z][a..z][0..9][symbol] Tabel 3.25 Data Hasil Preprocessing Nama Data hasil preprocessing Where used preprocessing (2.1)
Deskripsi Data yang digunakan ketika proses preprocessing adalah data dokumen.
Struktur Data Teks
Penjelasan per struktur Teks[A..Z][a..z][0..9][symbol] Tabel 3.26 Data Hasil Perhitungan Bobot Kata Nama Data hasil perhitungan bobot kata Where used Perhitungan bobot kata
(60)
Deskripsi
Data yang digunakan ketika proses perhitungan bobot kata adalah data hasil preprocessing.
Struktur Data Teks
Penjelasan per struktur Teks[A..Z][a..z][0..9][symbol] Tabel 3.27 Data Hasil Perhitungan Bobot Kalimat Nama Data hasil perhitungan bobot kalimat Where used Perhitungan bobot kalimat
Deskripsi Data yang digunakan ketika proses adalah data hasil perhitungan bobot kata
Struktur Data Teks
Penjelasan per struktur Teks[A..Z][a..z][0..9][symbol] 3.6. Perancangan Sistem
Perancangan adalah suatu bagian dari metodologi pengembangan suatu perangkat lunak yang dilakukan setelah tahapan untuk memberikan gambaran secara terperinci. Dalam tahap ini digambarkan rancangan sistem yang akan dibangun sebelum dilakukan pengkodean ke dalam suatu bahasa pemrograman.
3.6.1. Perancangan Basis Data
Perancangan basis data pada aplikasi yang akan dibangun meliputi struktur tabel.
3.6.1.1. Struktur Tabel
Dalam perancangan basis data pada penelitian ini terdapat tabel 3.27 mengenai daftar kata dasar bahasa Indonesia.
Tabel 3.28 Struktur Tabel Dictionary
No Atribut Tipe Data Keterangan
1 id_word Int Primary key
2 word Varchar[70]
3 Stopword Enum
[‘ya’,’bukan’]
Tabel 3.29 Hasil Ringkasan
No Atribut Tipe Data Keterangan
1 Id Int Primary key
(61)
3.6.2. Perancangan Arsitektur
Setelah melakukan perancangan data pada sistem yang dibangun, maka dilakukanlah perancangan arsitektur. Perancangan arsitektur yang telah dibuat meliputi beberapa perancangan diantaranya, perancangan antarmuka, perancangan pesan, jaringan semantik dan perancangan prosedural. Berikut adalah perancangan arsitektur dapat dilihat pada gambar 3.8
Gambar 3.8 Perancangan Arsitektur Sistem Peringkas Teks
3.6.3.Perancangan Antarmuka
Perancangan antarmuka yang telah dibuat meliputi beberapa perancangan, diantaranya perancangan antarmuka menu utama, perancangan antarmuka mencari dokumen, perancangan antarmuka meringkas dokumen, dan perancangan antarmuka klasifikasi dokumen.
Halaman Utama
Meringkas Dokumen Memilih
(62)
3.6.4. Antarmuka Halaman Utama
Perancangan antarmuka halaman utama dari sistem peringkas teks dapat dilihat pada gambar 3.9.
(63)
3.6.5. Antarmuka Halaman Mencari/Pilih Dokumen
Perancangan antarmuka halaman mencari/pilih dokumen dari sistem peringkas teks dapat dilihat pada gambar 3.10
(1)
65
KESIMPULAN DAN SARAN
5.1.Kesimpulan
Kesimpulan yang didapat selama pengerjaan pada penelitian ini mengenai implementasikan Text Summarization dalam membuat sistem peringkas teks otomatis menggunakan metode Vector Space Model pada artikel berita berbahasa Indonesia telah menghasilkan sebuah ringkasan secara otomatis dengan rasio
compression 35% yang memiliki akurasi rata-rata nilai precision sebesar 72% kalimat relevan dari jumlah kalimat yang dihasilkan oleh sistem. Dan rata-rata nilai
recall adalah 65% kalimat relevan dihasilkan dari jumlah kalimat relevan. Juga rata-rata nilai F-measures adalah sebesar 68% antara hasil ringkasan manual dengan hasil ringkasan oleh sistem. Maka dari itu sistem peringkas teks otomatis yang telah dibangun dapat membantu pembaca untuk memperoleh suatu informasi pada artikel berita berbahasa Indonesia.
5.2.Saran
Berdasarkan hasil analisis dan kesimpulan, terdapat beberapa saran untuk perbaikan pada penelitian ini yaitu hasil ringkasan perlu diperhatikan pada bagaimana menentukan kalimat penting dengan memperhatikan struktur kalimat yang lebih kompleks seperti fitur ekstraktor yang digunakan untuk merepresentasikan data antara lain posisi kalimat, kemiripan dengan kalimat pertama, kemiripan dengan judul, panjang kalimat, keberadaan kata benda, query oleh pengguna dan lain-lain untuk menghasilkan sebuah ringkasan. Karena hasil ringkasan pada sistem peringkas teks otomatis ini berupa kalimat ekstarktif yaitu kalimat yang mirip dengan query dan berdasarkan urutan bobot.
(2)
BIODATA PENULIS
Personal Information
Place & D.O.B : Bandung, November 18 1992 Marital Status : Single
Religion : Moslem
Languages Known : Sunda, Indonesian, English
Weight : 64 Kg
Height : 168 cm
Formal Education
Indonesia Computer UniversityMajoring Informatics Engineering
2010 – 2015
SMA PGII 1 Bandung 2007 – 2010
SMPN 42 Bandung 2004 – 2007
SD Kartika XI-10 Bandung 1998 – 2004
Professional Experiences
Present- Freelancer Web Developer
July 2013 – present Cimahi Creative Asociation - Web Developer
February 2012 – July 2012 Victoria Café
(3)
Project Experiences
Dekstop Application Aplikasi Inventory Barang using C# Sistem Informasi Gaji PNS using C Simulasi sistem inventori dengan metode
distribusi uniform diskrit using C# Aplikasi Minisibi using C#
Aplikasi kriptografi using C# Web Appliaction Agungauliaguntary.com
10110237-agungauliaguntary.net84.net Utarisetia.com
Skills
Operating System : Microsoft Windows XP Microsoft Windows 7 Microsoft Windows 8 Programming Language : Database
HTML CSS PHP C#
Organizational Experience
2005 – 2007 : Bidang Keagamaan OSIS SMP Negeri 42 Bandung
2010 – 2011 : DJShcool Pro2 FM Bandung
(4)
E-1
(5)
(6)
E-1