Implementasi Cross Method Latent Semantic Analysis pada Peringkas Teks Otomatis Untuk Artikel Berita Berbahasa Indonesia
DAFTAR RIWAYAT HIDUP A. DATA PRIBADI
Nama : Fernando Winata Nama Panggilan : Nando Tempat/Tanggal Lahir : Pekan Baru/31 Oktober 1994 Jenis Kelamin : Laki
- – laki Agama : Islam Kewarganegaraan : Indonesia Alamat Rumah :Dusun Kebon Randu III,Desa Anjatan Baru,Kecamatan
Anjatan RT06/RW01 Alamat Sekarang : Tubagus Ismail Bawah Email : [email protected] B.
PENDIDIKAN FORMAL
2000
- – 2006 Sekolah Dasar : SDN 3 Anjatan Baru 2006
- – 2009 Sekolah Menengah Pertama : SMPN 1 Anjatan 2009
- – 2012 Sekolah Menengah Kejuruan : SMKN 13 Bandng 2012 – Sekarang Mahasiswa S-1 Jurusan Teknik Informatika, Universitas Komputer Indonesia C.
KESEHATAN
Tinggi Badan : 168 cm Berat Badan : 53 kg D.
PELATIHAN DAN SEMINAR a.
Kuliah Bersama 2012 “BERFIKIR CERDAS DI INFORMATIKA” : 1 Desember 2012 b. Mentoring Agama Islam 2012/2013 “MEMBENTUK AQIDAH DAN AKHLAK
YANG BAIK” : 2012 c.
Training 2015 “AGILE DEVELOPMENT METHOD TRAINING” : 22 November 2014 d. SEMINAR IT 2015 “BANDUNG DIGITAL VALLEY CAMPUS ROADSHOW”
: 22 Juni 2015 E.
RIWAYAT PEKERJAAN / PENGALAMAN BERORGANISASI a.
Anggota LDK UMMI UNIKOM 2012 – 2014 b.
Anggota GEMA PEMBEBASAN 2014 – 2015 c. Anggota HMIF UNIKOM 2014/2015
Demikian daftar riwayat hidup ini saya buat dengan sebenar
- – benarnya dalam keadaan sadar dan tanpa paksaan.
Bandung, 25 Agustus 2016 Fernando Winata
IMPLEMENTASI METODE LATENT SEMANTIC ANALYSIS (LSA) PADA PERINGKAS TEKS OTOMATIS UNTUK ARTIKEL BERTA BERBAHASA INDONESIA SKRIPSI
Diajukan untuk Menempuh Ujian Akhir Sarjana
FERNANDO WINATA 10112740 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNIK DAN ILMU KOMPUTER UNIVERSITAS KOMPUTER INDONESIA 2016
KATA PENGANTAR
Puji dan syukur penulis ucapkan kepada Allah SWT atas rakhmat dan
karunia – Nya sehingga penulis dapat menyelesaikan tugas akhir dengan judul
IMPLEMENTASI METODE LATENT SEMANTIC ANALYSIS (LSA) PADA PERINGKAS TEKS OTOMATIS UNTUK ARTIKEL BERITA BERBAHASA INDONESIA .
Selama proses penulisan tugas akhir ini penulis menyadari bahwa penulis
banyak mendapati kendala, namun berkat berkah Allah SWT dan bantuan,
bimbingan serta kerjasama dari berbagai pihak, penulis dapat mengatasi berbagai
macam kendala yang dilalui selamat penulisan tugas akhir ini dan Alhamdulillah
penulis dapat menyelesaikan penulisan tugas akhir ini. Untuk itu, penulis ingin
menyampaikan terimakasih yang sebesar- – besarnya kepada : 1.
Allah SWT yang telah memberikan penulis rakhmat dan karunia – Nya sehingga penulis dapat menyelesaikan tugas akhir ini.
2. Kedua orang tua penulis yang selalu memberikan dukungan dan bantuan kepada penulis.
3. Ibu Ednawati Rainarli, S.Si., M.Si selaku pembimbing yang telah membimbing penulis selama penulisan tugas akhir ini.
4. Bapak Eko Budi Setiawan, S.Kom., M.T selaku reviewer yang telah
memberikan masukan terhadap penelitian yang dilakukan penulis.
5. Bapak Alif Finanditha, S.Kom., M.T yang telah memberikan masukan terhadap penelitian yang dilakukan penulis.
6. Rekan – rekan penulis yaitu Rismoyo Bayu, Rinaldy Nursalis, Sani Saefurochman, Hilmi Abdul Aziz, Arief Budiman Eka Putra, Euaggelion Seduse Maximus dan Ardiansyah yang selalu memberikan dukungan, bantuan serta masukan selama penulisan tugas akhir ini.
7. Rekan – rekan penulis di IF-1 yang selalu memberikan dukungan serta bantuan selama penulisan tugas akhir ini.
8. Semua pihak yang penulis tidak dapat sebutkan satu persatu yang telah membantu penulis dalam penyelesaian tugas akhir ini.
Akhir kata, semoga tugas akhir ini dapat memberikan manfaat kepada para pembaca.
Bandung, 25 Agustus 2016 Penulis
DAFTAR ISI
ABSTRAK......................................................................................................................i
ABSTRACT..................................................................................................................... ii
KATA PENGANTAR................................................................................................. iii DAFTAR ISI..................................................................................................................v DAFTAR GAMBAR................................................................................................. viii DAFTAR TABEL......................................................................................................... x DAFTAR SIMBOL.....................................................................................................xii DAFTAR LAMPIRAN..............................................................................................xiv BAB 1 PENDAHULUAN............................................................................................
1.1. Latar Belakang.....................................................................................................
1.2. Perumusan Masalah............................................................................................
1.3. Maksud dan Tujuan Penelitian...........................................................................
1.4. Batasan Masalah..................................................................................................
1.5. Metodologi Penelitian.........................................................................................
1.6. Sistematika Penulisan.........................................................................................
BAB 2 LANDASAN TEORI.......................................................................................
2.1. Peringkas Teks Otomatis....................................................................................
2.1.1. Pendekatan Peringkasan Teks Secara Otomatis...............................................
2.2. Preprocessing.......................................................................................................
2.2.1. Algoritma Nazief dan Adriani.........................................................................
2.3. Algoritma Term Frequency – Inverse Document Frequency (TF-IDF).......
2.4. Latent Semantic Analysis.................................................................................
2.4.1. Pembuatan matriks...........................................................................................
2.4.2. Singular Value Decomposition........................................................................
2.4.3. Ekstraksi Ringkasan.........................................................................................
2.6. Metode Pengujian Hasil Ringkasan.................................................................
2.7. PHP : Hypertext Prepocessor (PHP)................................................................
BAB 3 ANALISIS KEBUTUHAN ALGORITMA.................................................
3.1. Analisis Masalah...............................................................................................
3.2. Analisis Proses...................................................................................................
3.2.1.Analisis Pengambilan Dokumen Asli..............................................................
3.2.2.Analisis Preprocessing......................................................................................
3.2.3.Analisis Metode Peringkasan...........................................................................
3.3. Spesifikasi Kebutuhan Perangkat Lunak.........................................................
3.4. Analisis Kebutuhan Non Fungsional...............................................................
3.4.1.Analisis Kebutuhan Perangkat Keras (Hardware)..........................................
3.4.2. Analisis Kebutuhan Perangkat Lunak (Software)..........................................
3.4.3. Analisis Kebutuhan Perangkat Pikir (Brainware)..........................................
3.5. Analisis Kebutuhan Fungsional.......................................................................
3.5.1.Diagram Konteks...............................................................................................
3.5.2. Data Flow Diagram (DFD) LV 1....................................................................
3.5.3. Data Flow Diagram(DFD) LV 2.....................................................................
3.5.4. Deskripsi Proses................................................................................................
3.5.5.Kamus Data.......................................................................................................
3.6. Perancangan Peringkas Teks Otomatis...........................................................
3.6.1.Perancangan Basis Data....................................................................................
3.6.2. Perancangan Arsitektur....................................................................................
3.6.3. Perancangan Antar Muka.................................................................................
3.6.4.Perancangan Pesan............................................................................................
3.6.5.Jaringan Semantik.............................................................................................
3.7. Analisis Prosedural............................................................................................
3.7.1. Analisis Tahapan Memilih Dokumen.............................................................
3.7.2. Analisis Tahapan Meringkas Dokumen..........................................................
BAB 4 IMPLEMENTASI DAN PENGUJIAN........................................................
4.1. Implementasi Peringkas Teks Otomatis..........................................................
4.1.1.Implementasi Perangkat Keras.........................................................................
4.1.2.Implementasi Perangkat Lunak........................................................................
4.1.3.Implementasi Basis Data..................................................................................
4.1.4.Implementasi Antarmuka.................................................................................
4.2. Pengujian............................................................................................................
4.2.1.Pengujian Algoritma.........................................................................................
4.2.2.Skenario Pengujian............................................................................................
4.2.3.Hasil Ringkasan Manual...................................................................................
4.2.4.Hasil Ringkasan Peringkas Teks Otomatis.....................................................
4.2.5.Evaluasi Pengujian............................................................................................
BAB 5 KESIMPULAN DAN SARAN.....................................................................
5.1. Kesimpulan........................................................................................................
5.2. Saran................................................................................................................... DAFTAR PUSTAKA.................................................................................................
DAFTAR PUSTAKA
[1] Y Gong and X Liu, "Generic Text Summarization Using Relevance Measure and Latent Semantic," Proceedings of the 24th Annual International ACM
SIGIR Conference on Research and Developement in Information Retrieval, pp. 19 - 25, 2001.
[2] Karel Jezek Josef Steinberger, "Using Latent Semantic Analysis in Text Summarization and Summary Evaluation," Proceedings of ISIM, pp. 93-100, 2004.
[3] Steve Renals, Jean Carletta Gabriel Murray, "Extractive Summarization of Meeting Recordings," 2005. [4] Makbule Gulcin Ozsoy, Ilyas Cicekli, and Ferda Nur Alp, "Text
Summarization of Turkish Texts Using Latent Semantic Analysis,"
Proceedings of the 23rd international conference on computational linguistics, pp. 869 - 876, 2010.
[5] Junta Zeniarja, Abu Salam Ardytha Luthfiarta, "Algoritma Latent Semantic Analysis (LSA) Pada Peringkas Dokumen Otomatis Untuk Proses Clustering Dokumen," Semantik, vol. 3, no. 1, pp. 61-68, 2013.
[6] Adiwijawa, Moch Arif Bijaksana Agung Triwibowo, "Penggunaan Metode Relevance Measure Dan Latent Semantic Analysis (LSA) Dalam Membuat Ikhtisar Dokumen Berita," 2010.
[7] Andre F.T. Martins Dipanjan Das, "A Survey on Automatic Text Summarization," Literature Survey for the Language and Statistics II course at CMU, vol. 4, pp. 192 - 195, November 2007.
[8] J. Ilamathi, Nithya Vijayarani, "Preprocessing Techniques for Text Mining,"
International Journal of Computer Science and Communication Network,
vol. 5, no. 1, pp. 7-16, 2015.[9] Vikram Singh and Balwinder Saini, "An Effective Pre-Processing Algorithm For Information Retrieval Systems," International Journal of Database Management Systems, vol. 6, no. 6, p. 13, 2014.
[10] M.F. Porter, "An Algorithm for Suffix Stripping," Program, vol. 4, no. 3, pp.
130 - 137, 1980. [11] Fadillah Z Tala, "A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia," 2003.
[12] Ledy Agusta, "Perbandingan Algoritma Stemming Porter dengan Algoritma Nazief & Adriani Untuk Stemming Teks Dokumen Bahasa Indonesia," Konferensi Nasional Sistem dan Informatika, pp. 192 - 201, 2009.
[13] Gregoria Ariyanti, "Dekomposisi Nilai Singular dan Aplikasinya," Prosiding
Seminar Nasional Matematika dan Pendidikan Matematika (2010):”
Peningkatan Kontribusi Penelitian dan Pembelajaran Matematika dalam
Upaya Pembentukan Karakter Bangsa”, 2010.[14] Manabu Okumura Takahiro Fukusima, "Text Summarization Challenge Text Summarization Evaluation in Japan," North American Association for
Computational Linguistics (NAACL2001), Workshop on Automatic Summarization, pp. 51 - 59, 2001.
[15] Karel Jezek Josef Steinberg, "Evaluation Measures for Text Summarization," Computing and Informatics, vol. 28, no. 2, pp. 251 - 275, 2009. [16] MADCOMS, Kupas Tuntas Adobe Dreamweaver dengan Pemograman PHP & MySQL CS6. Madiun, Indonesia: ANDI, 2013. [17] Viktor Pekar, Laura Hasler Constantin Orasan, "A Comparison of
Summarisation Methods Based on Term Specificity Estimation,"
Proceedings of the Fourth International Language Resources and Evaluation (LREC’04), pp. 1037 - 1041, 2003.
BAB 1 PENDAHULUAN
1.1. Latar Belakang
Dengan semakin pesatnya perkembangan teknologi maka kebutuhan untuk mendapatkan informasi semakin besar. Informasi sekarang bisa di dapatkan secara cepat dan mudah serta bisa di dapatkan kapan dan dimana saja melalui berbagai macam portal berita yang tersedia untuk memenuhi kebutuhan masyarakat akan informasi yang up to date dan real time, tetapi dari sekian banyak artikel berita yang disediakan oleh portal – portal berita tersebut tidak mempunyai ringkasan dan abstrak. Untuk mendapatkan informasi inti dari sebuah artikel berita, pembaca harus membaca keseluruhan artikel yang cukup memakan waktu, sehingga dibutuhkan sebuah alat bantu yang dapat menghasilkan ringkasan dari dokumen sumber secara otomatis dan akurat.
Peringkas teks otomatis merupakan sebuah alternatif yang dapat digunakan untuk menghasilkan ringkasan secara otomatis menggunakan bantuan komputer. Pada penerapannya terdapat banyak metode yang digunakan untuk menghasilkan ringkasan pada peringkas teks otomatis. Salah satu metode yang digunakan untuk menghasilkan ringkasan adalah metode Latent Semantic Analysis (LSA). Metode ini terinspirasi oleh metode Latent Semantic Indexing (LSI) yang menerapkan Singular Value Decomposition (SVD) sebagai cara untuk memilih kalimat yang akan dijadikan sebagai kalimat ringkasan [1].
Setelah metode ini dikenalkan pada tahun 2001, banyak terjadi pengembangan terhadap metode ini untuk menghasilkan ringkasan yang lebih akurat yaitu : penelitian yang dilakukan oleh Steinberg dan Jezek pada 2004 [2] yang perbaikan terhadap tingkat akurasi hasil ringkasan pada metode latent
semantic analysis, kemudian penelitian yang dilakukan oleh Murray,Renals dan
Carletta pada tahun 2005 [3] yang melakukan proses modifikasi pada tahapan reduksi matriks serta modifikasi pada tahap pengambilan ringkasan yang menghasilkan ringkasan yang lebih akurat dibanding dengan metode sebelumnya, pada tahun 2010 [4] yang menghasilkan dua buah metode latent semantic yang baru yaitu Topic Method dan Cross Method Latent Semantic Analysis. Sedangkan penerapan metode LSA untuk meringkas teks berbahasa Indonesia juga banyak bermunculan, seperti penggabungan metode LSA dengan metode
clustering dokumen untuk menghasilkan ringkasan pada multi document
berbahasa Indonesia [5] yang berhasil meningkatkan tingkat akurasi yang dihasilkan dari multi document dengan cara menggabungkan algoritma Latent
Semantic Analysis dengan algoritma clustering dan pada penelitian lainnya
digunakan metode Latent Semantic Analysis dan metode Relevance Measure untuk meringkas dokumen tunggal berbahasa Indonesia [6] yang membuktikan bahwa metode Latent Semantic Analysis mempunyai tingkat akurasi ringkasan yang lebih tinggi dibanding dengan metode Relevance Measure.
Dari penelitian yang menggunakan metode latent semantic analysis untuk menghasilkan ringkasan pada teks berbahasa Indonesia diketahui bahwa metode
latent semantic analysis yang digunakan adalah metode latent semantic analysis
awal yang belum dikembangkan. Penggunaan metode latent semantic analysis yang lama tentu akan menghasilkan ringkasan dengan tingkat akurasi yang lebih rendah jika dibandingkan dengan akurasi ringkasan yang dihasilkan dari metode latent semantic analysis yang telah dikembangkan.
Sebuah Peringkas teks otomatis diharapkan dapat membantu pembaca untuk mendapatkan informasi inti dari berita yang dibaca dengan lebih cepat. Penerapan Cross Method Latent Semantic Analysis pada peringkas teks otomatis dapat menghasilkan sebuah ringkasan yang lebih akurat dibanding dengan ringkasan yang dihasilkan metode latent semantic analysis biasa [4]. Oleh karena itu, penulis tertarik untuk mengambil pokok bahasan penelitian dengan judul “Implementasi Cross Method Latent Semantic Analysis Pada peringkas Teks Otomatis Untuk Artikel Berita Berbahasa Indonesia”.
1.2. Perumusan Masalah
Berdasarkan latar belakang yang telah diuraikan, maka rumusan masalah dari penelitian ini adalah bagaimana cara untuk mengimplementasikan Cross
Method Latent Semantic Analysis pada peringkas teks otomatis untuk artikel
berita berbahasa Indonesia untuk menghasilkan ringkasan yang cepat dan akurat.1.3. Maksud dan Tujuan Penelitian
Berdasarkan permasalahan yang telah di uraikan, maka maksud dari penelitian ini adalah untuk melakukan implementasi Cross Method Latent
Semantic Analysis pada peringkas teks otomatis.
Sedangkan tujuan dari penelitian ini adalah untuk mengetahui tingkat akurasi dari ringkasan yang dihasilkan dengan penerapan Cross Method Latent
Semantic Analysis pada peringkas teks otomatis terhadap artikel berita berbahasa
Indonesia.1.4.Batasan Masalah
Untuk menghindari pembahasan yang meluas, maka penulis membatasi permasalahan sebagai berikut : a. Dokumen yang di ringkas adalah artikel berita politik berbahasa Indonesia.
b. Dokumen yang dimasukan kedalam peringkas teks otomatis diambil menggunakan rich site summary (RSS) yang dimiliki portal berita viva.co.id yang merupakan salah satu portal berita dengan tingkat akses pengunjung tinggi.
c. Jumlah Berita yang ditampilkan oleh peringkas teks otomatis dari portal berita viva.co.id yang dapat dipilih oleh pengguna untuk di ringkas adalah 15 buah berita.
d. Dokumen yang di masukan ke dalam peringkas teks otomatis untuk di ringkas merupakan dokumen tunggal.
e. Hasil yang dihasilkan oleh peringkas teks otomatis adalah ringkasan.
f. Bahasa program yang akan digunakan adalah PHP hypertext preprocessor (PHP) dan MySQL sebagai pengolahan database.
g. Data stop words bahasa Indonesia yang digunakan diperoleh dari Kevin
1 Bouge .
2
h. Data kata dasar bahasa Indonesia yang digunakan diperoleh dari kateglo
1 https://sites.google.com/site/kevinbouge/stopwords-lists
2 https://github.com/ivanlanin/kateglo
1.5.Metodologi Penelitian
Metode penelitian merupakan cara utama yang digunakan peneliti untuk mencapai tujuan dan menentukan jawaban atas masalah yang diajukan. Pada penelitian kali ini penulis akan menggunakan metode penelitian deskriptif.
Metode penelitian deskriptif adalah suatu metode dimana setiap objek digambarkan secara jelas dan nyata sesuai dengan fakta. Metode yang digunakan selama penelitian di gambarkan pada gambar 1.1. di bawah:
Gambar 1.1 Metode PenelitianPenjelasan metode penelitian yang digunakan pada gambar 1.1 adalah sebagai berikut : a. Identifikasi Masalah
Berdasarkan latar belakang yang telah disebutkan, permasalahan yang dapat di identifikasi adalah kebutuhan masyarakat akan peringkas teks otomatis yang dapat menghasilkan ringkasan dengan cepat dan akurat. Serta penggunaan metode pada peringkas teks otomatis yang dapat menghasilkan ringkasan dengan tingkat akurasi tinggi.
b. Analisis Masalah Dari permasalahan yang telah di identifikasi didapatkan bahwa salah satu otomatis untuk artikel berita berbahasa Indonesia adalah metode Latent
Semantic Analysis (LSA). Tetapi metode LSA yang diterapkan pada bebrapa
penelitian untuk menghasilkan ringkasan pada dokumen berbahasa Indonesia menggunakan metode LSA yang lama sedangkan metode LSA telah mengalami beberapa tahap pengembangan. Sehingga ringkasan yang dihasilkan oleh metode LSA yang lama memiliki tingkat akurasi yang lebih rendah jika dibandingkan dengan metode LSA yang telah dikembangkan.
c. Pengambilan Hipotesis Awal Dari hasil analisis masalah di atas dapat diambil sebuah hipotesis awal yaitu, untuk menghasilkan sebuah peringkas teks otomatis metode yang dapat digunakan adalah Cross Method Latent Semantic Analysis yang dapat menghasilkan sebuah ringkasan yang lebih akurat dibandingkan dengan metode latent semantic analysis biasa.
d. Studi Literatur Pada tahap ini dilakukan studi terhadap literatur – literatur yang berkaitan dengan penelitian yang dilakukan seperti literature mengenai peringkas teks otomatis, proses pengolahan teks, dan cross method latent semantic analysis, serta literature – literatur lain yang mendukung penelitian.
e. Perancangan Simulator Pada tahap ini dilakukan proses perancangan peringkas teks otomatis. Proses perancangan terdiri dari proses analisis kebutuhan fungsional dan non fungsional dari peringkas teks otomatis yang akan dibangun, analisis data masukan, perancangan tampilan antar muka peringkas teks otomatis dan perancangan jaringan semantik.
f. Pembangunan Peringkas Teks Otomatis Pada tahap ini dilakaukan pembangunan dari peringkas teks otomatis untuk teks berbahasa Indonesia. Dimulai dari tahap pembangunan interface peringkas teks otomatis, tahapan preprocessing(pemecahan kalimat, Case
Folding, Tokenizing, Stop Words Removal dan Stemming), pembobotan kata
menggunakan metode Term Frequency – Inverse Document Frequency (TF- IDF) dan implementasi Cross Method Latent Semantic Analysis untuk menghasilkan ringkasan.
g. Pengujian Peringkas Teks Otomatis Pada tahapan ini, akan dilakukan proses pengujian terhadap peringkas teks otomatis yang telah di bangun untuk melihat apakah peringkas teks otomatis dapat berjalan dengan semestinya. Jika peringkas teks otomatis yang dibangun memiliki kekurangan maka akan kembali ke tahapan perancangan peringkas teks otomatis untuk melakukan analisis kesalahan yang mungkin terjadi pada saat pembangunan peringkas teks otomatis. Jika peringkas teks otomatis sudah dapat berjalan dengan semestinya maka akan masuk ke dalam tahapan pengujian metode.
h. Pengujian Metode Dalam tahapan ini akan dilakukan pengujian terhadap Cross Method Latent
Semantic Analysis untuk mengetahui hasil dari implementasi metode ini
dalam peringkas teks otomatis. Jika dari tahapan ini memberikan hasil yang kurang baik maka akan kembali ke tahapan studi literatur untuk menganalisis kesalahan yang mungkin terjadi pada saat penerapan metode.
i. Analisis Hasil Ringkasan
Pada proses ini dilakukan analisis pada hasil ringkasan yang didapatkan dengan menggunakan metode Latent Semantic Analysis. Untuk proses analisis digunakan metode Precision,Recall serta metode F-Measure untuk mengetahui tingkat ke akuratan ringkasan yang dihasilkan dari Cross Method
Latent Semantic Analysis.
j. Pengambilan Kesimpulan Pada tahap ini dilakukan pengambilan kesimpulan yang didapat dari hasil ringkasan yang dihasilkan oleh peringkas teks otomatis untuk teks berita berbahasa Indonesia.
1.6. Sistematika Penulisan
Sistematika penulisan disusun untuk memberikan gambaran secara umum mengenai permasalahan dan pemecahannya. Sistematika penulisan tugas akhir ini
BAB 1 PENDAHULUAN Bab ini membahas mengenai latar belakang , perumusan masalah, maksud
dan tujuan, batasan masalah, metode penelitian, serta sistematika penulisan untuk menjelaskan pokok – pokok pembahasannya.
BAB 2 LANDASAN TEORI Pada bab ini akan menjelaskan mengenai teori – teori pendukung yang berhubungan dengan penelitian dan pembangunan peringkas teks otomatis. BAB 3 ANALISIS KEBUTUHAN ALGORITMA Dalam bab ini berisikan analisis dan perancangan dari peringkas teks
otomatis yang akan dibangun. Proses analisis meliputi proses analisis masalah, analisis data masukan, analisis kebutuhan dari perangkat lunak yang akan dibangun,analisis tahap preprocessing dan analisis dari metode peringkasan yang digunakan dalam penelitian. Sedangkan pada proses perancangan peringkas teks otomatis akan di bahas mengenai proses perancangan basis data,tampilan antar muka dan jaringan semantic yang akan diterapkan pada peringkas teks otomatis.
BAB 4 IMPLEMENTASI DAN PENGUJIAN Dalam bab ini berisikan implementasi dari sistem yang telah dirancang
untuk mengetahui keberhasilan dari pembangunan peringkas teks otomatis serta tingkat keberhasilan algoritma dalam menghasilkan sebuah ringkasan pada artikel berita berbahasa Indonesia. Pengujian pada peringkas teks otomatis dilakukan dengan menggunakan metode pengujian Precision, Recall dan F-Measure yang digunakan untuk mengukur tingkat akurasi dari ringkasan yang dihasilkan.
BAB 5 KESIMPULAN DAN SARAN Bab ini bereisi mengenai kesimpulan yang diperoleh dari hasil pengujian
implementasi Cross Method Latent Semantic Analysis pada peringkas teks otomatis untuk menghasilkan ringkasan serta saran untuk pengembangan peringkas teks otomatis kedepan.
BAB 2 LANDASAN TEORI
2.1. Peringkas Teks Otomatis
Ringkasan adalah sebuah teks yang dihasilkan dari sebuah dokumen atau lebih yang menyatakan informasi penting dari dokumen asli, dan sebuah ringkasan memiliki ukuran yang relatif lebih pendek dari dokumen asli [7]. Tujuan utama dari ringkasan adalah menghasilkan sebuah intisari atau informasi inti yang terdapat dalam dokumen asli dalam bentuk yang lebih kecil agar pembaca dapat mendapatkan informasi penting yang terdapat dalam dokumen dengan lebih cepat. Proses peringkasan teks secara otomatis sendiri merupakan proses peringkasan pada suatu dokumen dengan menggunakan bantuan komputer.
2.1.1. Pendekatan Peringkasan Teks Secara Otomatis
Terdapat dua buah pendekatan yang dilakukan untuk menghasilkan sebuah ringkasan secara otomatis yaitu : a.
Ekstraksi Pada teknik ekstraksi, sistem menyalin unit-unit teks yang dianggap paling penting dari teks sumber menjadi ringkasan. Unit-unit teks yang disalin dapat berupa klausa utama, kalimat utama, atau paragraf utama tanpa ada penambahkan kalimat-kalimat baru yang tidak terdapat pada dokumen aslinya.
b.
Abstraksi Teknik abstraksi menggunakan metode linguistik untuk memeriksa dan menafsirkan teks dokumen menjadi ringkasan. Ringkasan teks tersebut dihasilkan dengan cara menambahkan kalimat-kalimat baru yang merepresentasikan intisari teks sumber ke dalam bentuk yang berbeda dengan kalimat-kalimat yang ada pada teks sumber.
Pada penelitian ini teknik atau pendekatan peringkasan teks secara otomatis yang digunakan adalah peringkasan secara ekstraksi dengan menggunakan computer sebagai alat bantu untuk menghasilkan ringkasan dari dokumen asli.
2.2. Preprocessing
Preprocessing merupakan tahapan awal untuk menghasilkan sebuah
ringkasan. Teks masukan yang akan di ringkas sebelumnya harus melalui tahap untuk membuang berbagai macam jenis noise atau kata – kata yang di anggap tidak penting dalam ringkasan yang masih terdapat pada teks masukan [8].
Dalam penerapan preprocessing terdapat beberapa tahap yang harus dilalui dimulai dari tahapan tokenisasi, penghilangan stop words sampai dengan tahapan stemming, selain tahapan itu juga biasanya di tambahkan beberapa tahapan lain untuk kasus tertentu seperi case folding dan penghilangan kata yang jarang dimunculkan atau kata dengan frekuensi kemunculan yang kecil [9].
Proses preprocessing yang diterapkan pada penelitian ini meliputi beberapa macam tahap yaitu : a.
Pemecahan Kalimat Pada tahapan ini teks masukan dipecah menjadi beberapa kalimat berdasarkan delimiter atau pemisah yang sudah ditetapkan. Pemisah tersebut adalah tanda titik(.),tanda seru(!) dan tanda Tanyẳ).
b.
Case Folding Pada tahapan ini dilakukan proses penyamaan case atau besar kecil dari setiap huruf yang terdapat pada teks masukan yang telah di pecah menjadi beberapa kalimat. Selain itu pada tahap ini juga di lakukakan proses pembuangan pada tanda baca,simbol dan angka yang terdapat pada data masukan.
c.
Tokenizing
Pada tahapan ini teks masukan hasil dari proses case folding dipecah kembali menjadi beberapa kalimat berdasarkan spasi yang terdapat pada kalimat hasil
case folding.
d.
Stop Words Removal
Pada tahapan ini dilakukan proses penghapusan stop words yang masih terdapat pada teks hasil dari proses tokenizing. Stop words merupakan sebuah kata yang dianggap tidak terlalu penting dalam proses peringkasan atau kata yang tidak mempunyai arti dalam sebuah dokumen [10]. Contoh dari stop
words dalam bahasa Indonesia adalah : dan,atau,jika dan sebagainya. Tujuan
utama dilakukan tahap ini adalah untuk mengurangi dimensi dari teks masukan sehingga proses peringkasan dapat berjalan dengan lebih mudah [8].
c.
Stemming Stemming merupakan proses yang menyediakan pemetaan varian morfologi
yang berbeda dari suatu kataker akar katanya dengan cara [11]. proses ini melakukan pemetaan dari penguraian berbagai bentuk kata baik itu prefix,
sufix, maupun gabungan antara prefix dan sufix (confix), menjadi bentuk kata
dasarnya. Pada penelitian ini algoritma stemming yang digunakan adalah algoritma stemming Nazief dan Adriani
2.2.1. Algoritma Nazief dan Adriani
Algoritma Nazief dan Adriani merupakan algoritma stemming yang di gunakan untuk proses stemming terhadap teks berbahasa Indonesia [12]. Cara Kerja dari Algoritma ini adalah : 1.
Di awal proses stemming dan setiap langkah yang selanjutnya dilakukan, lakukan pengecekan hasil proses stemming kata yang di-input-kan pada langkah tersebut ke kamus kata dasar. Jika kata ditemukan, berarti kata tersebut sudah berbentuk kata dasar dan proses stemming dihentikan. Jika tidak ditemukan, maka langkah selanjutnya dilakukan.
2. Hilangkan Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”).
Jika berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”, atau “- nya”), jika ada.
3. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a a.
Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “- k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.
b.
Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke langkah 4.
4. Hilangkan derivation prefixes.
a.
Langkah 4 berhenti jika : i.
Terjadi kombinasi awalan dan akhiran yang terlarang. ii. Awalan yang dideteksi saat ini sama dengan awalan yang dihilangkan sebelumnya. iii.
Tiga awalan telah dihilangkan.
b.
Identifikasi tipe awalan dan hilangkan. Awalan terdiri dari dua tipe : i.
Standar (“di-”, “ke-”, “se-”) yang dapat langsung dihilangkan dari kata. ii.
Kompleks (“me-”, “be-”, “pe”, “te-”) adalah tipe-tipe awalan yang dapat bermorfologi sesuai kata dasar yang mengikutinya. Oleh karena itu, gunakan aturan pada Tabel 2.1 untuk mendapatkan hasil pemenggalan yang tepat.
c.
Cari kata yang telah dihilangkan awalannya ini di dalam kamus kata dasar. Apabila tidak ditemukan, maka langkah 4 diulangi kembali.
Apabila ditemukan, maka keseluruhan proses dihentikan.
5. Apabila setelah langkah 4 kata dasar masih belum ditemukan, maka proses
recoding dilakukan dengan mengacu pada aturan pada Tabel 2.1. Recoding
dilakukan dengan menambahkan karakter recoding di awal kata yang dipenggal. Pada Tabel 2.1, karakter recoding adalah huruf kecil setelah tanda hubung („-‟) dan terkadang berada sebelum tanda kurung. Sebagai contoh, kata
“menangkap” (aturan 13), setelah dipenggal menjadi “nangkap”. Karena tidak valid, maka recoding dilakukan dan menghasilkan kata “tangkap”.
6. Jika semua langkah gagal, maka input kata yang diuji pada algoritma ini dianggap sebagai kata dasar.
21 perV … Per-
16 Meng {g|h|q} … Meng-
{g|h|q} …
17 mengV … Meng-
V … | Meng-kV …
18 menyV … Meny- sV …
19 mempV … Mem- pV … dimana V!=”r”
20 Pe{w|y}V … Pe- {w|y}V …
V … | pe-rV …
14 Men {c|d|j|z} …
22 perCAP… Per-
CAP… dimana C!=”r” dan P!=”er”
23 perCAerV … Per-
CAerV … dimana C!=”r”
24 Pem{b|f|V} … Pem-
{b|f|V} …
25 Pem{rV|V} … Pe- m{rV|V} … | Pe-p{rV|V} …
Men- {c|d|j|z} … 15 menV … Me- nV … | Me-tV …
Tabel 0.1 Aturan Pemenggalan Awalan Algortima Nazief dan Adriani Aturan Format Kata Pemenggalan1 berV … ber-
V … | te-rV …
V … | be-rV …
2 BerCAP … ber- CAP … dimana C!=”r” & P!=”er”
3 berCAerV … ber-
CaerV … dimana C!=”r”
4 Belajar bel-ajar
5 BeC1erC2 … be- C1erC2 … dimana C1!={“r”|”l”}
6 terV … Ter-
7 terCerV … Ter-
12 Mempe {r|l} … Mem-pe
CerV … dimana C! = “r”
8 TerCP … Ter-
CP … dimana C!=”r” dan P! =”er”
9 teC1erC2… Te-
C1erC2 … dimana C1!=”r”
10 Me{l|r|w|y}V … Me- {l|r|w|y}V …
11 Mem {b|f|v} … Mem-
{b|f|v} …
13 Mem {rV|V} … Me- m {rV|V} … | Me-p {rV|V} …
Aturan Format Kata Pemenggalan
26 Pen- Pen{c|d|j|z} … {c|d|j|z} …
27 Pe- penV … nV … | Pe-tV …
28 Peng- Peng{g|h|q} … {g|h|q} …
29 Peng- pengV … V … | Peng-kV … 30 penyV … Peny- sV …
31 Pe- pelV … lV … kecuali “pelajar” yang meghasilkan “ajar” 32 peCerV … Per- erV … dimana C!={r|w|y|l|m|n}
33 Pe- peCP… CP… dimana C!={r|w|y|l|m|n} dan P!=‟er‟
Keterangan simbol huruf : C = huruf konsonan V = huruf Vokal A : huruf vokal atau konsonan P : Partikel atau fragmen dari suatu kata, misalnya “er”
2.3. Algoritma Term Frequency – Inverse Document Frequency (TF-IDF)
Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah cara pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot, yaitu Term frequency (TF) merupakan frekuensi kemunculan kata (t) pada kalimat (d). Document frequency (DF) adalah banyaknya kalimat dimana suatu kata (t) muncul.
Frekuensi kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut. Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata tersebut [4]. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen. Pada aloritma TF-IDF digunakan rumus untuk menghitung bobot (W) masing masing dokumen terhadap kata kunci dengan rumus yaitu : (2.1)
Keterangan: d = dokumen ke-d t = kata ke-t dari kata kunci W= bobot dokumen ke-d terhadap kata ke-t tf = banyaknya kata yang dicari pada sebuah dokumen
IDF = Inversed Document Frequency dengan rumus :
IDF = (2.2) D = total dokumen df = banyak dokumen yang mengandung kata yang dicari
2.4. Latent Semantic Analysis
Latent Semantic Analysis (LSA) adalah suatu metode untuk mengekstrak
sebuah tulisan dalam suatu dokumen dan kemudian mengaplikasikannya dalam perhitungan matematis. Penilaian dengan metode LSA lebih kepada kata-kata yang ada dalam tulisan tanpa memperhatikan urutan kata dan tata bahasa dalam tulisan tersebut, sehingga suatu kalimat yang dinilai adalah berdasarkan kata-kata kunci yang ada pada kalimat tersebut [8].
Metode ini terinspirasi dari penggunaan latent semantic indexing yang mengimplementaasikan metode singular value decomposition (SVD) untuk menghasilkan sebuah ringkasan. Terdapat 3 tahapan utama dalam proses menghasilkan ringkasan menggunakan metode ini, yaitu : a.
Pembuatan matriks b. Singular value decomposition c. Ekstraksi kalimat ringkasan
2.4.1. Pembuatan matriks
Pada tahap ini di buat sebuah matriks berdasarkan dengan teks masukan yang n matriks dengan m atau baris matriks di ambil dari kalimat dari teks yang akan di ringkas, sedangkan n atau kolom matriks merupakan kata yang terdapat dalam teks yang telah diberi bobot dengan algoritma tf-idf.
2.4.2. Singular Value Decomposition
Setelah matriks di ciptakan maka tahap selanjutnya adalah mengubah matriks tersebut menjadi lebih kecil dengan menggunakan metode singular value
decomposition (SVD). Suatu proses dekomposisi akan memfaktorkan sebuah
matriks menjadi lebih dari satu matriks. Demikian halnya dengan Dekomposisi Nilai Singular (Singular Value Decomposition) atau yang lebih dikenal sebagai SVD, adalah salah satu teknik dekomposisi berkaitan dengan nilai singular (singular value) suatu matriks yang merupakan salah satu karakteristik matriks tersebut.Dekomposisi nilai singular matriks riil A mxn adalah faktorisasi.
(2.3) Dengan U matriks orthogonal m x m, V matriks orthogonal n x n dan S matriks diagonal m x n bernilai riil tak negatif yang disebut nilai-nilai singular.
Dengan kata lain S = diag (σ1, σ2, … , σn ) terurut sehingga σ1 ≥ σ2 ≥ … ≥ σn .
Teorema tersebut juga menyatakan bahwa matriks Amxn dapat dinyatakan sebagai dekomposisi matriks yaitu matriks U, S dan V . Matriks S merupakan matriks diagonal dengan elemen diagonalnya berupa nilai-nilai singular matriks A, sedangkan matriks U dan V merupakan matriks-matriks yang kolom-kolomnya berupa vektor singular kiri dan vektor singular kanan dari matriks A untuk nilai singular yang bersesuaian.
Menentukan SVD meliputi langkah-langkah menentukan nilai eigen dan
T T T
vektor eigen dari matriks AA atau A
A. Vektor eigen dari A A membentuk
T
kolom V, sedangkan vektor eigen dari AA membentuk kolom U. Nilai singular
T T
dalam S adalah akar pangkat dua dari nilai-nilai eigen matriks AA atau A A. Nilai singular adalah elemen-elemen diagonal dari S dan disusun dengan urutan menurun [9].
2.4.3. Ekstraksi Ringkasan
Pada proses ini dilakukan tahap pemilihan kalimat yang akan di jadikan sebagai ringkasan. Kalimat yang dipilih diambil dari kalimat yang terdapat pada
T
matriks V . Kemudian dilakukan pemilihan kalimat yang akan di jadikan sebagai ringkasan berdasarkan kalimat yang mengandung bobot kata terbesar. Proses pemilihan diulang sebanyak jumlah kalimat yang terdapat dalam matriks.Contoh dari proses ekstraksi menggunakan metode ini adalah sebagai berikut.
2.5. Cross Method Latent Semantic Analysis
Cross method latent semantic analysis merupakan sebuah pegembangan dari metode latent semantic analysis yang telah ada sebelumnya. Metode ini dapat menghasilkan ringkasan dari teks masukan yang lebih akurat dibandingkan dengan metode latent semantic analysis yang sebelumnya [4]. Tahapan dari metode ini sebenarnya sama seperti metode latent semantic analysis sebelumnya yaitu dimulai dari tahap pembuatan matriks, singular value decomposition dan ekstraksi ringkasan.
Yang menjadi perbedaan metode ini dengan metode latent semantic
analysis terdapat pada saat tahap ekstraksi ringkasan. Metode ini menggunakan
Tnilai rata dan