Implementasi Cross Method Latent Semantic Analysis pada Peringkas Teks Otomatis Untuk Artikel Berita Berbahasa Indonesia

DAFTAR RIWAYAT HIDUP A. DATA PRIBADI

  Nama : Fernando Winata Nama Panggilan : Nando Tempat/Tanggal Lahir : Pekan Baru/31 Oktober 1994 Jenis Kelamin : Laki

  • – laki Agama : Islam Kewarganegaraan : Indonesia Alamat Rumah :Dusun Kebon Randu III,Desa Anjatan Baru,Kecamatan

  Anjatan RT06/RW01 Alamat Sekarang : Tubagus Ismail Bawah Email : [email protected] B.

PENDIDIKAN FORMAL

  2000

  • – 2006 Sekolah Dasar : SDN 3 Anjatan Baru 2006
  • – 2009 Sekolah Menengah Pertama : SMPN 1 Anjatan 2009
  • – 2012 Sekolah Menengah Kejuruan : SMKN 13 Bandng 2012 – Sekarang Mahasiswa S-1 Jurusan Teknik Informatika, Universitas Komputer Indonesia C.

   KESEHATAN

  Tinggi Badan : 168 cm Berat Badan : 53 kg D.

   PELATIHAN DAN SEMINAR a.

  Kuliah Bersama 2012 “BERFIKIR CERDAS DI INFORMATIKA” : 1 Desember 2012 b. Mentoring Agama Islam 2012/2013 “MEMBENTUK AQIDAH DAN AKHLAK

  YANG BAIK” : 2012 c.

  Training 2015 “AGILE DEVELOPMENT METHOD TRAINING” : 22 November 2014 d. SEMINAR IT 2015 “BANDUNG DIGITAL VALLEY CAMPUS ROADSHOW”

  : 22 Juni 2015 E.

   RIWAYAT PEKERJAAN / PENGALAMAN BERORGANISASI a.

  Anggota LDK UMMI UNIKOM 2012 – 2014 b.

  Anggota GEMA PEMBEBASAN 2014 – 2015 c. Anggota HMIF UNIKOM 2014/2015

  Demikian daftar riwayat hidup ini saya buat dengan sebenar

  • – benarnya dalam keadaan sadar dan tanpa paksaan.

  Bandung, 25 Agustus 2016 Fernando Winata

IMPLEMENTASI METODE LATENT SEMANTIC ANALYSIS (LSA) PADA PERINGKAS TEKS OTOMATIS UNTUK ARTIKEL BERTA BERBAHASA INDONESIA SKRIPSI

  Diajukan untuk Menempuh Ujian Akhir Sarjana

FERNANDO WINATA 10112740 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNIK DAN ILMU KOMPUTER UNIVERSITAS KOMPUTER INDONESIA 2016

KATA PENGANTAR

  Puji dan syukur penulis ucapkan kepada Allah SWT atas rakhmat dan

karunia – Nya sehingga penulis dapat menyelesaikan tugas akhir dengan judul

  IMPLEMENTASI METODE LATENT SEMANTIC ANALYSIS (LSA) PADA PERINGKAS TEKS OTOMATIS UNTUK ARTIKEL BERITA BERBAHASA INDONESIA .

  Selama proses penulisan tugas akhir ini penulis menyadari bahwa penulis

banyak mendapati kendala, namun berkat berkah Allah SWT dan bantuan,

bimbingan serta kerjasama dari berbagai pihak, penulis dapat mengatasi berbagai

macam kendala yang dilalui selamat penulisan tugas akhir ini dan Alhamdulillah

penulis dapat menyelesaikan penulisan tugas akhir ini. Untuk itu, penulis ingin

menyampaikan terimakasih yang sebesar

  • – besarnya kepada : 1.

  Allah SWT yang telah memberikan penulis rakhmat dan karunia – Nya sehingga penulis dapat menyelesaikan tugas akhir ini.

  2. Kedua orang tua penulis yang selalu memberikan dukungan dan bantuan kepada penulis.

  3. Ibu Ednawati Rainarli, S.Si., M.Si selaku pembimbing yang telah membimbing penulis selama penulisan tugas akhir ini.

  4. Bapak Eko Budi Setiawan, S.Kom., M.T selaku reviewer yang telah

memberikan masukan terhadap penelitian yang dilakukan penulis.

  5. Bapak Alif Finanditha, S.Kom., M.T yang telah memberikan masukan terhadap penelitian yang dilakukan penulis.

  6. Rekan – rekan penulis yaitu Rismoyo Bayu, Rinaldy Nursalis, Sani Saefurochman, Hilmi Abdul Aziz, Arief Budiman Eka Putra, Euaggelion Seduse Maximus dan Ardiansyah yang selalu memberikan dukungan, bantuan serta masukan selama penulisan tugas akhir ini.

  7. Rekan – rekan penulis di IF-1 yang selalu memberikan dukungan serta bantuan selama penulisan tugas akhir ini.

  8. Semua pihak yang penulis tidak dapat sebutkan satu persatu yang telah membantu penulis dalam penyelesaian tugas akhir ini.

  Akhir kata, semoga tugas akhir ini dapat memberikan manfaat kepada para pembaca.

  Bandung, 25 Agustus 2016 Penulis

  

DAFTAR ISI

  ABSTRAK......................................................................................................................i

  

ABSTRACT..................................................................................................................... ii

  KATA PENGANTAR................................................................................................. iii DAFTAR ISI..................................................................................................................v DAFTAR GAMBAR................................................................................................. viii DAFTAR TABEL......................................................................................................... x DAFTAR SIMBOL.....................................................................................................xii DAFTAR LAMPIRAN..............................................................................................xiv BAB 1 PENDAHULUAN............................................................................................

  1.1. Latar Belakang.....................................................................................................

  1.2. Perumusan Masalah............................................................................................

  1.3. Maksud dan Tujuan Penelitian...........................................................................

  1.4. Batasan Masalah..................................................................................................

  1.5. Metodologi Penelitian.........................................................................................

  1.6. Sistematika Penulisan.........................................................................................

  BAB 2 LANDASAN TEORI.......................................................................................

  2.1. Peringkas Teks Otomatis....................................................................................

  2.1.1. Pendekatan Peringkasan Teks Secara Otomatis...............................................

  2.2. Preprocessing.......................................................................................................

  2.2.1. Algoritma Nazief dan Adriani.........................................................................

  2.3. Algoritma Term Frequency – Inverse Document Frequency (TF-IDF).......

  2.4. Latent Semantic Analysis.................................................................................

  2.4.1. Pembuatan matriks...........................................................................................

  2.4.2. Singular Value Decomposition........................................................................

  2.4.3. Ekstraksi Ringkasan.........................................................................................

  2.6. Metode Pengujian Hasil Ringkasan.................................................................

  2.7. PHP : Hypertext Prepocessor (PHP)................................................................

  BAB 3 ANALISIS KEBUTUHAN ALGORITMA.................................................

  3.1. Analisis Masalah...............................................................................................

  3.2. Analisis Proses...................................................................................................

  3.2.1.Analisis Pengambilan Dokumen Asli..............................................................

  3.2.2.Analisis Preprocessing......................................................................................

  3.2.3.Analisis Metode Peringkasan...........................................................................

  3.3. Spesifikasi Kebutuhan Perangkat Lunak.........................................................

  3.4. Analisis Kebutuhan Non Fungsional...............................................................

  3.4.1.Analisis Kebutuhan Perangkat Keras (Hardware)..........................................

  3.4.2. Analisis Kebutuhan Perangkat Lunak (Software)..........................................

  3.4.3. Analisis Kebutuhan Perangkat Pikir (Brainware)..........................................

  3.5. Analisis Kebutuhan Fungsional.......................................................................

  3.5.1.Diagram Konteks...............................................................................................

  3.5.2. Data Flow Diagram (DFD) LV 1....................................................................

  3.5.3. Data Flow Diagram(DFD) LV 2.....................................................................

  3.5.4. Deskripsi Proses................................................................................................

  3.5.5.Kamus Data.......................................................................................................

  3.6. Perancangan Peringkas Teks Otomatis...........................................................

  3.6.1.Perancangan Basis Data....................................................................................

  3.6.2. Perancangan Arsitektur....................................................................................

  3.6.3. Perancangan Antar Muka.................................................................................

  3.6.4.Perancangan Pesan............................................................................................

  3.6.5.Jaringan Semantik.............................................................................................

  3.7. Analisis Prosedural............................................................................................

  3.7.1. Analisis Tahapan Memilih Dokumen.............................................................

  3.7.2. Analisis Tahapan Meringkas Dokumen..........................................................

  BAB 4 IMPLEMENTASI DAN PENGUJIAN........................................................

  4.1. Implementasi Peringkas Teks Otomatis..........................................................

  4.1.1.Implementasi Perangkat Keras.........................................................................

  4.1.2.Implementasi Perangkat Lunak........................................................................

  4.1.3.Implementasi Basis Data..................................................................................

  4.1.4.Implementasi Antarmuka.................................................................................

  4.2. Pengujian............................................................................................................

  4.2.1.Pengujian Algoritma.........................................................................................

  4.2.2.Skenario Pengujian............................................................................................

  4.2.3.Hasil Ringkasan Manual...................................................................................

  4.2.4.Hasil Ringkasan Peringkas Teks Otomatis.....................................................

  4.2.5.Evaluasi Pengujian............................................................................................

  BAB 5 KESIMPULAN DAN SARAN.....................................................................

  5.1. Kesimpulan........................................................................................................

  5.2. Saran................................................................................................................... DAFTAR PUSTAKA.................................................................................................

DAFTAR PUSTAKA

  [1] Y Gong and X Liu, "Generic Text Summarization Using Relevance Measure and Latent Semantic," Proceedings of the 24th Annual International ACM

  SIGIR Conference on Research and Developement in Information Retrieval, pp. 19 - 25, 2001.

  [2] Karel Jezek Josef Steinberger, "Using Latent Semantic Analysis in Text Summarization and Summary Evaluation," Proceedings of ISIM, pp. 93-100, 2004.

  [3] Steve Renals, Jean Carletta Gabriel Murray, "Extractive Summarization of Meeting Recordings," 2005. [4] Makbule Gulcin Ozsoy, Ilyas Cicekli, and Ferda Nur Alp, "Text

  Summarization of Turkish Texts Using Latent Semantic Analysis,"

  Proceedings of the 23rd international conference on computational linguistics, pp. 869 - 876, 2010.

  [5] Junta Zeniarja, Abu Salam Ardytha Luthfiarta, "Algoritma Latent Semantic Analysis (LSA) Pada Peringkas Dokumen Otomatis Untuk Proses Clustering Dokumen," Semantik, vol. 3, no. 1, pp. 61-68, 2013.

  [6] Adiwijawa, Moch Arif Bijaksana Agung Triwibowo, "Penggunaan Metode Relevance Measure Dan Latent Semantic Analysis (LSA) Dalam Membuat Ikhtisar Dokumen Berita," 2010.

  [7] Andre F.T. Martins Dipanjan Das, "A Survey on Automatic Text Summarization," Literature Survey for the Language and Statistics II course at CMU, vol. 4, pp. 192 - 195, November 2007.

  [8] J. Ilamathi, Nithya Vijayarani, "Preprocessing Techniques for Text Mining,"

  

International Journal of Computer Science and Communication Network,

vol. 5, no. 1, pp. 7-16, 2015.

  [9] Vikram Singh and Balwinder Saini, "An Effective Pre-Processing Algorithm For Information Retrieval Systems," International Journal of Database Management Systems, vol. 6, no. 6, p. 13, 2014.

  [10] M.F. Porter, "An Algorithm for Suffix Stripping," Program, vol. 4, no. 3, pp.

  130 - 137, 1980. [11] Fadillah Z Tala, "A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia," 2003.

  [12] Ledy Agusta, "Perbandingan Algoritma Stemming Porter dengan Algoritma Nazief & Adriani Untuk Stemming Teks Dokumen Bahasa Indonesia," Konferensi Nasional Sistem dan Informatika, pp. 192 - 201, 2009.

  [13] Gregoria Ariyanti, "Dekomposisi Nilai Singular dan Aplikasinya," Prosiding

  Seminar Nasional Matematika dan Pendidikan Matematika (2010):”

Peningkatan Kontribusi Penelitian dan Pembelajaran Matematika dalam

Upaya Pembentukan Karakter Bangsa”, 2010.

  [14] Manabu Okumura Takahiro Fukusima, "Text Summarization Challenge Text Summarization Evaluation in Japan," North American Association for

  Computational Linguistics (NAACL2001), Workshop on Automatic Summarization, pp. 51 - 59, 2001.

  [15] Karel Jezek Josef Steinberg, "Evaluation Measures for Text Summarization," Computing and Informatics, vol. 28, no. 2, pp. 251 - 275, 2009. [16] MADCOMS, Kupas Tuntas Adobe Dreamweaver dengan Pemograman PHP & MySQL CS6. Madiun, Indonesia: ANDI, 2013. [17] Viktor Pekar, Laura Hasler Constantin Orasan, "A Comparison of

  Summarisation Methods Based on Term Specificity Estimation,"

  Proceedings of the Fourth International Language Resources and Evaluation (LREC’04), pp. 1037 - 1041, 2003.

BAB 1 PENDAHULUAN

1.1. Latar Belakang

  Dengan semakin pesatnya perkembangan teknologi maka kebutuhan untuk mendapatkan informasi semakin besar. Informasi sekarang bisa di dapatkan secara cepat dan mudah serta bisa di dapatkan kapan dan dimana saja melalui berbagai macam portal berita yang tersedia untuk memenuhi kebutuhan masyarakat akan informasi yang up to date dan real time, tetapi dari sekian banyak artikel berita yang disediakan oleh portal – portal berita tersebut tidak mempunyai ringkasan dan abstrak. Untuk mendapatkan informasi inti dari sebuah artikel berita, pembaca harus membaca keseluruhan artikel yang cukup memakan waktu, sehingga dibutuhkan sebuah alat bantu yang dapat menghasilkan ringkasan dari dokumen sumber secara otomatis dan akurat.

  Peringkas teks otomatis merupakan sebuah alternatif yang dapat digunakan untuk menghasilkan ringkasan secara otomatis menggunakan bantuan komputer. Pada penerapannya terdapat banyak metode yang digunakan untuk menghasilkan ringkasan pada peringkas teks otomatis. Salah satu metode yang digunakan untuk menghasilkan ringkasan adalah metode Latent Semantic Analysis (LSA). Metode ini terinspirasi oleh metode Latent Semantic Indexing (LSI) yang menerapkan Singular Value Decomposition (SVD) sebagai cara untuk memilih kalimat yang akan dijadikan sebagai kalimat ringkasan [1].

  Setelah metode ini dikenalkan pada tahun 2001, banyak terjadi pengembangan terhadap metode ini untuk menghasilkan ringkasan yang lebih akurat yaitu : penelitian yang dilakukan oleh Steinberg dan Jezek pada 2004 [2] yang perbaikan terhadap tingkat akurasi hasil ringkasan pada metode latent

  

semantic analysis, kemudian penelitian yang dilakukan oleh Murray,Renals dan

  Carletta pada tahun 2005 [3] yang melakukan proses modifikasi pada tahapan reduksi matriks serta modifikasi pada tahap pengambilan ringkasan yang menghasilkan ringkasan yang lebih akurat dibanding dengan metode sebelumnya, pada tahun 2010 [4] yang menghasilkan dua buah metode latent semantic yang baru yaitu Topic Method dan Cross Method Latent Semantic Analysis. Sedangkan penerapan metode LSA untuk meringkas teks berbahasa Indonesia juga banyak bermunculan, seperti penggabungan metode LSA dengan metode

  

clustering dokumen untuk menghasilkan ringkasan pada multi document

  berbahasa Indonesia [5] yang berhasil meningkatkan tingkat akurasi yang dihasilkan dari multi document dengan cara menggabungkan algoritma Latent

  

Semantic Analysis dengan algoritma clustering dan pada penelitian lainnya

  digunakan metode Latent Semantic Analysis dan metode Relevance Measure untuk meringkas dokumen tunggal berbahasa Indonesia [6] yang membuktikan bahwa metode Latent Semantic Analysis mempunyai tingkat akurasi ringkasan yang lebih tinggi dibanding dengan metode Relevance Measure.

  Dari penelitian yang menggunakan metode latent semantic analysis untuk menghasilkan ringkasan pada teks berbahasa Indonesia diketahui bahwa metode

  

latent semantic analysis yang digunakan adalah metode latent semantic analysis

  awal yang belum dikembangkan. Penggunaan metode latent semantic analysis yang lama tentu akan menghasilkan ringkasan dengan tingkat akurasi yang lebih rendah jika dibandingkan dengan akurasi ringkasan yang dihasilkan dari metode latent semantic analysis yang telah dikembangkan.

  Sebuah Peringkas teks otomatis diharapkan dapat membantu pembaca untuk mendapatkan informasi inti dari berita yang dibaca dengan lebih cepat. Penerapan Cross Method Latent Semantic Analysis pada peringkas teks otomatis dapat menghasilkan sebuah ringkasan yang lebih akurat dibanding dengan ringkasan yang dihasilkan metode latent semantic analysis biasa [4]. Oleh karena itu, penulis tertarik untuk mengambil pokok bahasan penelitian dengan judul “Implementasi Cross Method Latent Semantic Analysis Pada peringkas Teks Otomatis Untuk Artikel Berita Berbahasa Indonesia”.

1.2. Perumusan Masalah

  Berdasarkan latar belakang yang telah diuraikan, maka rumusan masalah dari penelitian ini adalah bagaimana cara untuk mengimplementasikan Cross

  

Method Latent Semantic Analysis pada peringkas teks otomatis untuk artikel

berita berbahasa Indonesia untuk menghasilkan ringkasan yang cepat dan akurat.

  1.3. Maksud dan Tujuan Penelitian

  Berdasarkan permasalahan yang telah di uraikan, maka maksud dari penelitian ini adalah untuk melakukan implementasi Cross Method Latent

  Semantic Analysis pada peringkas teks otomatis.

  Sedangkan tujuan dari penelitian ini adalah untuk mengetahui tingkat akurasi dari ringkasan yang dihasilkan dengan penerapan Cross Method Latent

  

Semantic Analysis pada peringkas teks otomatis terhadap artikel berita berbahasa

Indonesia.

  1.4.Batasan Masalah

  Untuk menghindari pembahasan yang meluas, maka penulis membatasi permasalahan sebagai berikut : a. Dokumen yang di ringkas adalah artikel berita politik berbahasa Indonesia.

  b. Dokumen yang dimasukan kedalam peringkas teks otomatis diambil menggunakan rich site summary (RSS) yang dimiliki portal berita viva.co.id yang merupakan salah satu portal berita dengan tingkat akses pengunjung tinggi.

  c. Jumlah Berita yang ditampilkan oleh peringkas teks otomatis dari portal berita viva.co.id yang dapat dipilih oleh pengguna untuk di ringkas adalah 15 buah berita.

  d. Dokumen yang di masukan ke dalam peringkas teks otomatis untuk di ringkas merupakan dokumen tunggal.

  e. Hasil yang dihasilkan oleh peringkas teks otomatis adalah ringkasan.

  f. Bahasa program yang akan digunakan adalah PHP hypertext preprocessor (PHP) dan MySQL sebagai pengolahan database.

  g. Data stop words bahasa Indonesia yang digunakan diperoleh dari Kevin

1 Bouge .

  2

h. Data kata dasar bahasa Indonesia yang digunakan diperoleh dari kateglo

  1 https://sites.google.com/site/kevinbouge/stopwords-lists

  2 https://github.com/ivanlanin/kateglo

1.5.Metodologi Penelitian

  Metode penelitian merupakan cara utama yang digunakan peneliti untuk mencapai tujuan dan menentukan jawaban atas masalah yang diajukan. Pada penelitian kali ini penulis akan menggunakan metode penelitian deskriptif.

  Metode penelitian deskriptif adalah suatu metode dimana setiap objek digambarkan secara jelas dan nyata sesuai dengan fakta. Metode yang digunakan selama penelitian di gambarkan pada gambar 1.1. di bawah:

Gambar 1.1 Metode Penelitian

  Penjelasan metode penelitian yang digunakan pada gambar 1.1 adalah sebagai berikut : a. Identifikasi Masalah

  Berdasarkan latar belakang yang telah disebutkan, permasalahan yang dapat di identifikasi adalah kebutuhan masyarakat akan peringkas teks otomatis yang dapat menghasilkan ringkasan dengan cepat dan akurat. Serta penggunaan metode pada peringkas teks otomatis yang dapat menghasilkan ringkasan dengan tingkat akurasi tinggi.

  b. Analisis Masalah Dari permasalahan yang telah di identifikasi didapatkan bahwa salah satu otomatis untuk artikel berita berbahasa Indonesia adalah metode Latent

  Semantic Analysis (LSA). Tetapi metode LSA yang diterapkan pada bebrapa

  penelitian untuk menghasilkan ringkasan pada dokumen berbahasa Indonesia menggunakan metode LSA yang lama sedangkan metode LSA telah mengalami beberapa tahap pengembangan. Sehingga ringkasan yang dihasilkan oleh metode LSA yang lama memiliki tingkat akurasi yang lebih rendah jika dibandingkan dengan metode LSA yang telah dikembangkan.

  c. Pengambilan Hipotesis Awal Dari hasil analisis masalah di atas dapat diambil sebuah hipotesis awal yaitu, untuk menghasilkan sebuah peringkas teks otomatis metode yang dapat digunakan adalah Cross Method Latent Semantic Analysis yang dapat menghasilkan sebuah ringkasan yang lebih akurat dibandingkan dengan metode latent semantic analysis biasa.

  d. Studi Literatur Pada tahap ini dilakukan studi terhadap literatur – literatur yang berkaitan dengan penelitian yang dilakukan seperti literature mengenai peringkas teks otomatis, proses pengolahan teks, dan cross method latent semantic analysis, serta literature – literatur lain yang mendukung penelitian.

  e. Perancangan Simulator Pada tahap ini dilakukan proses perancangan peringkas teks otomatis. Proses perancangan terdiri dari proses analisis kebutuhan fungsional dan non fungsional dari peringkas teks otomatis yang akan dibangun, analisis data masukan, perancangan tampilan antar muka peringkas teks otomatis dan perancangan jaringan semantik.

  f. Pembangunan Peringkas Teks Otomatis Pada tahap ini dilakaukan pembangunan dari peringkas teks otomatis untuk teks berbahasa Indonesia. Dimulai dari tahap pembangunan interface peringkas teks otomatis, tahapan preprocessing(pemecahan kalimat, Case

  Folding, Tokenizing, Stop Words Removal dan Stemming), pembobotan kata

  menggunakan metode Term Frequency – Inverse Document Frequency (TF- IDF) dan implementasi Cross Method Latent Semantic Analysis untuk menghasilkan ringkasan.

  g. Pengujian Peringkas Teks Otomatis Pada tahapan ini, akan dilakukan proses pengujian terhadap peringkas teks otomatis yang telah di bangun untuk melihat apakah peringkas teks otomatis dapat berjalan dengan semestinya. Jika peringkas teks otomatis yang dibangun memiliki kekurangan maka akan kembali ke tahapan perancangan peringkas teks otomatis untuk melakukan analisis kesalahan yang mungkin terjadi pada saat pembangunan peringkas teks otomatis. Jika peringkas teks otomatis sudah dapat berjalan dengan semestinya maka akan masuk ke dalam tahapan pengujian metode.

  h. Pengujian Metode Dalam tahapan ini akan dilakukan pengujian terhadap Cross Method Latent

  Semantic Analysis untuk mengetahui hasil dari implementasi metode ini

  dalam peringkas teks otomatis. Jika dari tahapan ini memberikan hasil yang kurang baik maka akan kembali ke tahapan studi literatur untuk menganalisis kesalahan yang mungkin terjadi pada saat penerapan metode.

i. Analisis Hasil Ringkasan

  Pada proses ini dilakukan analisis pada hasil ringkasan yang didapatkan dengan menggunakan metode Latent Semantic Analysis. Untuk proses analisis digunakan metode Precision,Recall serta metode F-Measure untuk mengetahui tingkat ke akuratan ringkasan yang dihasilkan dari Cross Method

  Latent Semantic Analysis.

  j. Pengambilan Kesimpulan Pada tahap ini dilakukan pengambilan kesimpulan yang didapat dari hasil ringkasan yang dihasilkan oleh peringkas teks otomatis untuk teks berita berbahasa Indonesia.

1.6. Sistematika Penulisan

  Sistematika penulisan disusun untuk memberikan gambaran secara umum mengenai permasalahan dan pemecahannya. Sistematika penulisan tugas akhir ini

  BAB 1 PENDAHULUAN Bab ini membahas mengenai latar belakang , perumusan masalah, maksud

  dan tujuan, batasan masalah, metode penelitian, serta sistematika penulisan untuk menjelaskan pokok – pokok pembahasannya.

  BAB 2 LANDASAN TEORI Pada bab ini akan menjelaskan mengenai teori – teori pendukung yang berhubungan dengan penelitian dan pembangunan peringkas teks otomatis. BAB 3 ANALISIS KEBUTUHAN ALGORITMA Dalam bab ini berisikan analisis dan perancangan dari peringkas teks

  otomatis yang akan dibangun. Proses analisis meliputi proses analisis masalah, analisis data masukan, analisis kebutuhan dari perangkat lunak yang akan dibangun,analisis tahap preprocessing dan analisis dari metode peringkasan yang digunakan dalam penelitian. Sedangkan pada proses perancangan peringkas teks otomatis akan di bahas mengenai proses perancangan basis data,tampilan antar muka dan jaringan semantic yang akan diterapkan pada peringkas teks otomatis.

  BAB 4 IMPLEMENTASI DAN PENGUJIAN Dalam bab ini berisikan implementasi dari sistem yang telah dirancang

  untuk mengetahui keberhasilan dari pembangunan peringkas teks otomatis serta tingkat keberhasilan algoritma dalam menghasilkan sebuah ringkasan pada artikel berita berbahasa Indonesia. Pengujian pada peringkas teks otomatis dilakukan dengan menggunakan metode pengujian Precision, Recall dan F-Measure yang digunakan untuk mengukur tingkat akurasi dari ringkasan yang dihasilkan.

  BAB 5 KESIMPULAN DAN SARAN Bab ini bereisi mengenai kesimpulan yang diperoleh dari hasil pengujian

  implementasi Cross Method Latent Semantic Analysis pada peringkas teks otomatis untuk menghasilkan ringkasan serta saran untuk pengembangan peringkas teks otomatis kedepan.

BAB 2 LANDASAN TEORI

2.1. Peringkas Teks Otomatis

  Ringkasan adalah sebuah teks yang dihasilkan dari sebuah dokumen atau lebih yang menyatakan informasi penting dari dokumen asli, dan sebuah ringkasan memiliki ukuran yang relatif lebih pendek dari dokumen asli [7]. Tujuan utama dari ringkasan adalah menghasilkan sebuah intisari atau informasi inti yang terdapat dalam dokumen asli dalam bentuk yang lebih kecil agar pembaca dapat mendapatkan informasi penting yang terdapat dalam dokumen dengan lebih cepat. Proses peringkasan teks secara otomatis sendiri merupakan proses peringkasan pada suatu dokumen dengan menggunakan bantuan komputer.

2.1.1. Pendekatan Peringkasan Teks Secara Otomatis

  Terdapat dua buah pendekatan yang dilakukan untuk menghasilkan sebuah ringkasan secara otomatis yaitu : a.

  Ekstraksi Pada teknik ekstraksi, sistem menyalin unit-unit teks yang dianggap paling penting dari teks sumber menjadi ringkasan. Unit-unit teks yang disalin dapat berupa klausa utama, kalimat utama, atau paragraf utama tanpa ada penambahkan kalimat-kalimat baru yang tidak terdapat pada dokumen aslinya.

  b.

  Abstraksi Teknik abstraksi menggunakan metode linguistik untuk memeriksa dan menafsirkan teks dokumen menjadi ringkasan. Ringkasan teks tersebut dihasilkan dengan cara menambahkan kalimat-kalimat baru yang merepresentasikan intisari teks sumber ke dalam bentuk yang berbeda dengan kalimat-kalimat yang ada pada teks sumber.

  Pada penelitian ini teknik atau pendekatan peringkasan teks secara otomatis yang digunakan adalah peringkasan secara ekstraksi dengan menggunakan computer sebagai alat bantu untuk menghasilkan ringkasan dari dokumen asli.

2.2. Preprocessing

  Preprocessing merupakan tahapan awal untuk menghasilkan sebuah

  ringkasan. Teks masukan yang akan di ringkas sebelumnya harus melalui tahap untuk membuang berbagai macam jenis noise atau kata – kata yang di anggap tidak penting dalam ringkasan yang masih terdapat pada teks masukan [8].

  Dalam penerapan preprocessing terdapat beberapa tahap yang harus dilalui dimulai dari tahapan tokenisasi, penghilangan stop words sampai dengan tahapan stemming, selain tahapan itu juga biasanya di tambahkan beberapa tahapan lain untuk kasus tertentu seperi case folding dan penghilangan kata yang jarang dimunculkan atau kata dengan frekuensi kemunculan yang kecil [9].

  Proses preprocessing yang diterapkan pada penelitian ini meliputi beberapa macam tahap yaitu : a.

  Pemecahan Kalimat Pada tahapan ini teks masukan dipecah menjadi beberapa kalimat berdasarkan delimiter atau pemisah yang sudah ditetapkan. Pemisah tersebut adalah tanda titik(.),tanda seru(!) dan tanda Tanyẳ).

  b.

  Case Folding Pada tahapan ini dilakukan proses penyamaan case atau besar kecil dari setiap huruf yang terdapat pada teks masukan yang telah di pecah menjadi beberapa kalimat. Selain itu pada tahap ini juga di lakukakan proses pembuangan pada tanda baca,simbol dan angka yang terdapat pada data masukan.

  c.

   Tokenizing

  Pada tahapan ini teks masukan hasil dari proses case folding dipecah kembali menjadi beberapa kalimat berdasarkan spasi yang terdapat pada kalimat hasil

  case folding.

  d.

   Stop Words Removal

  Pada tahapan ini dilakukan proses penghapusan stop words yang masih terdapat pada teks hasil dari proses tokenizing. Stop words merupakan sebuah kata yang dianggap tidak terlalu penting dalam proses peringkasan atau kata yang tidak mempunyai arti dalam sebuah dokumen [10]. Contoh dari stop

  words dalam bahasa Indonesia adalah : dan,atau,jika dan sebagainya. Tujuan

  utama dilakukan tahap ini adalah untuk mengurangi dimensi dari teks masukan sehingga proses peringkasan dapat berjalan dengan lebih mudah [8].

  c.

   Stemming Stemming merupakan proses yang menyediakan pemetaan varian morfologi

  yang berbeda dari suatu kataker akar katanya dengan cara [11]. proses ini melakukan pemetaan dari penguraian berbagai bentuk kata baik itu prefix,

  sufix, maupun gabungan antara prefix dan sufix (confix), menjadi bentuk kata

  dasarnya. Pada penelitian ini algoritma stemming yang digunakan adalah algoritma stemming Nazief dan Adriani

2.2.1. Algoritma Nazief dan Adriani

  Algoritma Nazief dan Adriani merupakan algoritma stemming yang di gunakan untuk proses stemming terhadap teks berbahasa Indonesia [12]. Cara Kerja dari Algoritma ini adalah : 1.

  Di awal proses stemming dan setiap langkah yang selanjutnya dilakukan, lakukan pengecekan hasil proses stemming kata yang di-input-kan pada langkah tersebut ke kamus kata dasar. Jika kata ditemukan, berarti kata tersebut sudah berbentuk kata dasar dan proses stemming dihentikan. Jika tidak ditemukan, maka langkah selanjutnya dilakukan.

2. Hilangkan Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”).

  Jika berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”, atau “- nya”), jika ada.

  3. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a a.

  Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “- k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.

  b.

  Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke langkah 4.

4. Hilangkan derivation prefixes.

  a.

  Langkah 4 berhenti jika : i.

  Terjadi kombinasi awalan dan akhiran yang terlarang. ii. Awalan yang dideteksi saat ini sama dengan awalan yang dihilangkan sebelumnya. iii.

  Tiga awalan telah dihilangkan.

  b.

  Identifikasi tipe awalan dan hilangkan. Awalan terdiri dari dua tipe : i.

  Standar (“di-”, “ke-”, “se-”) yang dapat langsung dihilangkan dari kata. ii.

  Kompleks (“me-”, “be-”, “pe”, “te-”) adalah tipe-tipe awalan yang dapat bermorfologi sesuai kata dasar yang mengikutinya. Oleh karena itu, gunakan aturan pada Tabel 2.1 untuk mendapatkan hasil pemenggalan yang tepat.

  c.

  Cari kata yang telah dihilangkan awalannya ini di dalam kamus kata dasar. Apabila tidak ditemukan, maka langkah 4 diulangi kembali.

  Apabila ditemukan, maka keseluruhan proses dihentikan.

5. Apabila setelah langkah 4 kata dasar masih belum ditemukan, maka proses

  recoding dilakukan dengan mengacu pada aturan pada Tabel 2.1. Recoding

  dilakukan dengan menambahkan karakter recoding di awal kata yang dipenggal. Pada Tabel 2.1, karakter recoding adalah huruf kecil setelah tanda hubung („-‟) dan terkadang berada sebelum tanda kurung. Sebagai contoh, kata

  “menangkap” (aturan 13), setelah dipenggal menjadi “nangkap”. Karena tidak valid, maka recoding dilakukan dan menghasilkan kata “tangkap”.

6. Jika semua langkah gagal, maka input kata yang diuji pada algoritma ini dianggap sebagai kata dasar.

  21 perV … Per-

  16 Meng {g|h|q} … Meng-

  {g|h|q} …

  17 mengV … Meng-

  V … | Meng-kV …

  18 menyV … Meny- sV …

  19 mempV … Mem- pV … dimana V!=”r”

  20 Pe{w|y}V … Pe- {w|y}V …

  V … | pe-rV …

  14 Men {c|d|j|z} …

  22 perCAP… Per-

  CAP… dimana C!=”r” dan P!=”er”

  23 perCAerV … Per-

  CAerV … dimana C!=”r”

  24 Pem{b|f|V} … Pem-

  {b|f|V} …

  25 Pem{rV|V} … Pe- m{rV|V} … | Pe-p{rV|V} …

  Men- {c|d|j|z} … 15 menV … Me- nV … | Me-tV …

Tabel 0.1 Aturan Pemenggalan Awalan Algortima Nazief dan Adriani Aturan Format Kata Pemenggalan

  1 berV … ber-

  V … | te-rV …

  V … | be-rV …

  2 BerCAP … ber- CAP … dimana C!=”r” & P!=”er”

  3 berCAerV … ber-

  CaerV … dimana C!=”r”

  4 Belajar bel-ajar

  5 BeC1erC2 … be- C1erC2 … dimana C1!={“r”|”l”}

  6 terV … Ter-

  7 terCerV … Ter-

  12 Mempe {r|l} … Mem-pe

  CerV … dimana C! = “r”

  8 TerCP … Ter-

  CP … dimana C!=”r” dan P! =”er”

  9 teC1erC2… Te-

  C1erC2 … dimana C1!=”r”

  10 Me{l|r|w|y}V … Me- {l|r|w|y}V …

  11 Mem {b|f|v} … Mem-

  {b|f|v} …

  13 Mem {rV|V} … Me- m {rV|V} … | Me-p {rV|V} …

  Aturan Format Kata Pemenggalan

  26 Pen- Pen{c|d|j|z} … {c|d|j|z} …

  27 Pe- penV … nV … | Pe-tV …

  28 Peng- Peng{g|h|q} … {g|h|q} …

  29 Peng- pengV … V … | Peng-kV … 30 penyV … Peny- sV …

  31 Pe- pelV … lV … kecuali “pelajar” yang meghasilkan “ajar” 32 peCerV … Per- erV … dimana C!={r|w|y|l|m|n}

  33 Pe- peCP… CP… dimana C!={r|w|y|l|m|n} dan P!=‟er‟

  Keterangan simbol huruf : C = huruf konsonan V = huruf Vokal A : huruf vokal atau konsonan P : Partikel atau fragmen dari suatu kata, misalnya “er”

2.3. Algoritma Term Frequency – Inverse Document Frequency (TF-IDF)

  Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah cara pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot, yaitu Term frequency (TF) merupakan frekuensi kemunculan kata (t) pada kalimat (d). Document frequency (DF) adalah banyaknya kalimat dimana suatu kata (t) muncul.

  Frekuensi kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut. Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata tersebut [4]. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen. Pada aloritma TF-IDF digunakan rumus untuk menghitung bobot (W) masing masing dokumen terhadap kata kunci dengan rumus yaitu : (2.1)

  Keterangan: d = dokumen ke-d t = kata ke-t dari kata kunci W= bobot dokumen ke-d terhadap kata ke-t tf = banyaknya kata yang dicari pada sebuah dokumen

  IDF = Inversed Document Frequency dengan rumus :

  IDF = (2.2) D = total dokumen df = banyak dokumen yang mengandung kata yang dicari

2.4. Latent Semantic Analysis

  Latent Semantic Analysis (LSA) adalah suatu metode untuk mengekstrak

  sebuah tulisan dalam suatu dokumen dan kemudian mengaplikasikannya dalam perhitungan matematis. Penilaian dengan metode LSA lebih kepada kata-kata yang ada dalam tulisan tanpa memperhatikan urutan kata dan tata bahasa dalam tulisan tersebut, sehingga suatu kalimat yang dinilai adalah berdasarkan kata-kata kunci yang ada pada kalimat tersebut [8].

  Metode ini terinspirasi dari penggunaan latent semantic indexing yang mengimplementaasikan metode singular value decomposition (SVD) untuk menghasilkan sebuah ringkasan. Terdapat 3 tahapan utama dalam proses menghasilkan ringkasan menggunakan metode ini, yaitu : a.

  Pembuatan matriks b. Singular value decomposition c. Ekstraksi kalimat ringkasan

2.4.1. Pembuatan matriks

  Pada tahap ini di buat sebuah matriks berdasarkan dengan teks masukan yang n matriks dengan m atau baris matriks di ambil dari kalimat dari teks yang akan di ringkas, sedangkan n atau kolom matriks merupakan kata yang terdapat dalam teks yang telah diberi bobot dengan algoritma tf-idf.

2.4.2. Singular Value Decomposition

  Setelah matriks di ciptakan maka tahap selanjutnya adalah mengubah matriks tersebut menjadi lebih kecil dengan menggunakan metode singular value

  

decomposition (SVD). Suatu proses dekomposisi akan memfaktorkan sebuah

  matriks menjadi lebih dari satu matriks. Demikian halnya dengan Dekomposisi Nilai Singular (Singular Value Decomposition) atau yang lebih dikenal sebagai SVD, adalah salah satu teknik dekomposisi berkaitan dengan nilai singular (singular value) suatu matriks yang merupakan salah satu karakteristik matriks tersebut.Dekomposisi nilai singular matriks riil A mxn adalah faktorisasi.

  (2.3) Dengan U matriks orthogonal m x m, V matriks orthogonal n x n dan S matriks diagonal m x n bernilai riil tak negatif yang disebut nilai-nilai singular.

  Dengan kata lain S = diag (σ1, σ2, … , σn ) terurut sehingga σ1 ≥ σ2 ≥ … ≥ σn .

  Teorema tersebut juga menyatakan bahwa matriks Amxn dapat dinyatakan sebagai dekomposisi matriks yaitu matriks U, S dan V . Matriks S merupakan matriks diagonal dengan elemen diagonalnya berupa nilai-nilai singular matriks A, sedangkan matriks U dan V merupakan matriks-matriks yang kolom-kolomnya berupa vektor singular kiri dan vektor singular kanan dari matriks A untuk nilai singular yang bersesuaian.

  Menentukan SVD meliputi langkah-langkah menentukan nilai eigen dan

  T T T

  vektor eigen dari matriks AA atau A

  A. Vektor eigen dari A A membentuk

  T

  kolom V, sedangkan vektor eigen dari AA membentuk kolom U. Nilai singular

  T T

  dalam S adalah akar pangkat dua dari nilai-nilai eigen matriks AA atau A A. Nilai singular adalah elemen-elemen diagonal dari S dan disusun dengan urutan menurun [9].

2.4.3. Ekstraksi Ringkasan

  Pada proses ini dilakukan tahap pemilihan kalimat yang akan di jadikan sebagai ringkasan. Kalimat yang dipilih diambil dari kalimat yang terdapat pada

  T

  matriks V . Kemudian dilakukan pemilihan kalimat yang akan di jadikan sebagai ringkasan berdasarkan kalimat yang mengandung bobot kata terbesar. Proses pemilihan diulang sebanyak jumlah kalimat yang terdapat dalam matriks.Contoh dari proses ekstraksi menggunakan metode ini adalah sebagai berikut.

2.5. Cross Method Latent Semantic Analysis

  Cross method latent semantic analysis merupakan sebuah pegembangan dari metode latent semantic analysis yang telah ada sebelumnya. Metode ini dapat menghasilkan ringkasan dari teks masukan yang lebih akurat dibandingkan dengan metode latent semantic analysis yang sebelumnya [4]. Tahapan dari metode ini sebenarnya sama seperti metode latent semantic analysis sebelumnya yaitu dimulai dari tahap pembuatan matriks, singular value decomposition dan ekstraksi ringkasan.

  Yang menjadi perbedaan metode ini dengan metode latent semantic

  

analysis terdapat pada saat tahap ekstraksi ringkasan. Metode ini menggunakan

T

  nilai rata dan