Peringkasan Dokumen Bahasa Indonesia Menggunakan Logika Fuzzy

(1)

PERINGKASAN DOKUMEN BAHASA INDONESIA

MENGGUNAKAN LOGIKA FUZZY

R. AHMAD SOMADI GERBAWANI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2013

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada

(2)

PERINGKASAN DOKUMEN BAHASA INDONESIA

MENGGUNAKAN LOGIKA FUZZY

R. AHMAD SOMADI GERBAWANI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2013

(3)

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK

CIPTA

Dengan ini saya menyatakan bahwa skripsi berjudul Peringkasan Dokumen Bahasa Indonesia Menggunakan Logika Fuzzy adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

Bogor, September 2013 R. Ahmad Somadi Gerbawani NIM G64104048

(4)

ABSTRAK

R. AHMAD SOMADI GERBAWANI. Peringkasan Dokumen Bahasa Indonesia Menggunakan Logika Fuzzy. Dibimbing oleh Ir. Julio Adisantoso MKom.

Peringkasan dokumen diperlukan untuk membantu menafsirkan informasi berukuran besar yang terdapat dalam dokumen. Peringkasan dokumen otomatis merupakan proses penciptaan dokumen versi pendek dari sebuah dokumen sumber oleh mesin untuk menyajikan informasi penting dan membantu mempercepat pengguna dalam memahami informasi skala besar pada dokumen. Penelitian ini mengusulkan peringkasan dokumen otomatis dengan menggunakan konsep Fuzzy Inference System (FIS), karena tingkat kepentingan kalimat pada sebuah dokumen memiliki sifat yang tidak pasti (fuzzy). Keuntungan dari logika fuzzy adalah kemampuan penalaran secara bahasa (linguistic reasoning), sehingga tidak memerlukan persamaan matematika. Simulasi dilakukan terhadap 50 buah data uji. Hasil penelitian menunjukkan bahwa akurasi rata-rata terbaik yang diperoleh adalah sebesar 50.58% dan akurasi peringkasan tunggal terbaik adalah sebesar 100%.

Kata kunci: fitur teks, fuzzy, Fuzzy Inference System, peringkasan dokumen.

ABSTRACT

R. AHMAD SOMADI GERBAWANI. Text summarization in Indonesian language using Fuzzy Logic Based Method. Supervised by Ir Julio Adisantoso M.Kom.

Text summarization is required to help interpreting the large volumes of information in documents. Automatic text summarization is a process of creating a shorter version of document from the source document by using a machine. The goal is to present the most important information and help the user to understand the large volumes of information from the document. This research proposes an automatic text summarization using Fuzzy Inference System (FIS), because the level of importance of sentences in a document is uncertain (fuzzy). The advantage of fuzzy logic is its ability of linguistic reasoning, so that it does not require any mathematical equations. Simulation is conducted on 50 data testing. It is shown that the best average accuracy in this research is 50.58% and the best accuracy for single document summarization is 100%.

(5)

Judul Skripsi : Peringkasan Dokumen Bahasa Indonesia Menggunakan Logika Fuzzy

Nama : R. Ahmad Somadi Gerbawani NIM : G64104048

Disetujui oleh

Ir Julio Adisantoso M.Kom Pembimbing

Diketahui oleh

Dr Ir Agus Buono, Msi M Kom Ketua Departemen Ilmu Komputer

(6)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Agustus 2012 ini ialah peringkasan dokumen dengan judul Peringkasan Dokumen Bahasa Indonesia Menggunakan Logika Fuzzy.

Terima kasih penulis ucapkan kepada Bapak Ir Julio Adisantoso M. Kom selaku pembimbing yang telah memberikan arahan, dan saran selama penelitian ini berlangsung. Ungkapan terima kasih juga disampaikan kepada ibu, kakak, serta seluruh keluarga, atas segala doa dan kasih sayangnya.

Penulis menyadari bahwa masih terdapat kekurangan dalam penulisan skripsi ini. Semoga karya ilmiah ini bermanfaat. Semoga karya ilmiah ini bermanfaat.

Bogor, Januari 2013 R. Ahmad Somadi Gerbawani

(7)

DAFTAR ISI

DAFTAR TABEL vi

DAFTAR GAMBAR vi

DAFTAR LAMPIRAN vi

PENDAHULUAN 1

Latar Belakang 1

Tujuan 2

Manfaat 2

Ruang Lingkup 2

METODE PENELITIAN 2

Tahap Pengumpulan Dokumen 2

Tahap Pelatihan 3

Tahap Pengujian 8

Lingkungan Pengembangan 9

HASIL DAN PEMBAHASAN 9

Pengumpulan Dokumen 9

Praproses 10

Fitur Teks 11

Fuzzy Inference System (FIS) 13

Dice Coefficient 14

Evaluasi dan Analisis Hasil Penelitian 15

SIMPULAN DAN SARAN 19

Simpulan 19

Saran 19

(8)

DAFTAR TABEL

1 Contoh pemisahan kalimat dan case folding 4

2 Contoh pemisahan kata dan filtering kata 4

3 Matriks kovarian hasil proses fitur teks 11

4 Perbandingan fitur teks pada pelatihan dan pengujian 12

5 Matriks kovarian hasil proses fuzzifikasi 13

6 Hasil proses rule evaluation pada tahap pelatihan 14 7 Nilai koefisisen terbaik dari setiap variabel input pada defuzzifikasi 14 8 Penentuan banyak fungsi keanggotaan pada model percobaan campuran

berdasarkan variasi nilai fitur 15

9 Hasil peringkasan 20 model percobaan 16

10 Perbandingan hasil akurasi dilihat berdasarkan pengaruh stopword 18

DAFTAR GAMBAR

1 Diagram alur proses tahap pelatihan 3

2 Representasi fungsi keanggotaan segitiga 7

3 Contoh aturan dalam FIS 7

4 Diagram alur proses tahap pengujian 8

5 Contoh dokumen 10

6 Proses fuzzifikasi 13

7 Grafik kinerja sistem dari semua model 17

DAFTAR LAMPIRAN

1 Daftar stopword 21

2 Hasil praproses 22

3 Hasil Pengujian menggunakan dice coefficient untuk model 12 23 4 Bentuk fungsi keanggotaan untuk semua model 24

(9)

PENDAHULUAN

Latar Belakang

Meringkas dokumen merupakan suatu proses penyaringan informasi dari suatu sumber untuk menghasilkan dokumen yang ringkas bagi pengguna (Manning et al. 2008). Hasil ringkasan merupakan intisari dari dokumen yang akan disajikan. Masalah lain muncul apabila dokumen yang akan diringkas sangat banyak, maka membutuhkan banyak waktu dan sangat tidak efisien. Peringkasan dokumen secara otomatis merupakan salah satu metode untuk menyelesaikan masalah ini.

Terdapat dua teknik peringkasan teks yaitu peringkasan teks berdasarkan eksktraksi dan abstraksi. Teknik ekstraksi merupakan suatu teknik untuk menyalin unit-unit teks yang paling penting atau paling informatif dari teks sumber menjadi ringkasan, sedangkan teknik abstraksi adalah mengambil intisari dari teks sumber kemudian membuat ringkasan dengan menciptakan kalimat-kalimat baru yang merepresentasikan intisari teks sumber dalam bentuk berbeda (Jezek dan Steinberger 2008). Pada penelitian ini teknik peringkasan yang akan digunakan adalah teknik ekstraksi.

Telah banyak penelitian yang membahas peringkasan dengan teknik ekstraksi, antara lain Aristoteles (2011) yang melakukan peringkasan dokumen bahasa Indonesia dengan metode algoritme genetika, dan Marlina (2012) dengan metode regresi logistik biner. Kedua penelitian ini menghasilkan akurasi yang belum cukup memuaskan, yaitu di bawah 50%. Algoritme genetika bekerja berdasarkan mekanisme evolusi yaitu populasi yang terpilih merupakan populasi terbaik. Proses algoritme genetika berawal dari populasi awal, selanjutnya dilakukan proses evaluasi finess, kemudian melakukan seleksi individu, pindah silang (crossover) dan mutasi sehingga akan terbentuk populasi baru yang lebih baik. Penggunaan algoritme genetika menghasilkan akurasi rata-rata sebesar 45,91%. Pada peringkasan dengan regresi logistik biner merupakan pendekatan model matematika yang menganalisis hubungan antara variabel respons dan variabel penjelas yang bersifat dua kategori atau lebih hanya menghasilkan akurasi sebesar 42%.

Pada peringkasan dokumen otomatis, kalimat-kalimat yang terpilih merupakan kalimat yang dianggap penting. Penting atau tidaknya sebuah kalimat dalam dokumen merupakan hal yang bersifat tidak pasti. Oleh karena itu, penelitian ini akan memodelkan peringkasan dokumen dengan logika fuzzy.

Selama ini sudah ada penelitian terkait peringkasan dokumen otomatis dengan menggunakan logika fuzzy, di antaranya Kyoomarsi et al. (2008) dan Suanmali et al. (2009). Keduanya mencoba melakukan ekstraksi dokumen dengan menggunakan konsep fuzzy. Hasil penelitian yang dilakukan menunjukkan bahwa logika fuzzy dapat meningkatkan akurasi dari hasil peringkasan dokumen, bahkan akurasi peringkasan pada penelitian Suanmali et al. (2009) dapat mencapai 95%. Oleh karena itu, penggunaaan logika fuzzy pada penelitian ini diharapan dapat meningkatkan akurasi proses ekstraksi dokumen berbahasa indonesia dari penelitian-penelitian sebelumnya.

(10)

Tujuan

Penelitian ini bertujuan melakukan implementasi peringkasan dokumen otomatis dengan menggunakan konsep logika fuzzy, serta menganalisis faktor-faktor yang mempengaruhi hasil akurasi sistem peringkasan, diantaranya pengaruh penambahan data latih, banyaknya fungsi keanggotaan pada FIS, pengaruh pembuangan kata stopword

Manfaat

Manfaat penelitian ini diharapkan dapat memudahkan seseorang dalam membaca dokumen dalam waktu singkat dan tanpa melewatkan intisari dokumen.

Ruang Lingkup

Penelitian ini dibatasi dengan melakukan ekstraksi dokumen secara otomatis menggunakan Fuzzy Inference System (FIS) dengan model Takagi-Sugeno-Kang (TSK) yang telah dimodifikasi.

METODE PENELITIAN

Cara kerja peringkasan dokumen secara otomatis dengan teknik ekstraksi dapat dijelaskan dengan sederhana, diawali dengan memasukan dokumen yang ingin diringkas, selanjutnya melakukan praproses, lalu memberikan skor untuk setiap kalimat. Kalimat yang memiliki skor tertinggi merupakan hasil ringkasannya. Untuk mempermudah penelitian metode dibagi menjadi tiga bagian, yaitu tahap pengumpulan dokumen, tahap pelatihan, dan tahap pengujian.

Tahap Pengumpulan Dokumen

Penelitian ini menggunakan dokumen sebanyak 200 dokumen yang berasal dari dokumen berita online harian Kompas yang didapat dari korpus penelitian Ridha (2002). Dokumen tersebut dibagi menjadi dua bagian, yaitu 100 buah dokumen latih dan 50 buah dokumen uji. Masing-masing dokumen sudah memiliki hasil ringkasan manual dengan tingkat kompresi sebesar 30%. Ringkasan manual tersebut digunakan untuk membandingkan dengan hasil ringkasan sistem, serta menilai seberapa akurat sistem peringkasan yang dibuat. Dokumen yang dikumpulkan merupakan dokumen teks dengan format file .txt. Isi dari dokumen berupa judul beserta isi berita yang dipisahkan oleh penanda XML, yaitu <TITLE></TITLE > dan <TEXT></TEXT>.

(11)

Tahap Pelatihan

Pada tahap pelatihan dilakukan untuk menghasilkan model yang nantinya akan dipakai untuk tahap pengujian. Gambar 1 merupakan diagram alur proses dari tahap pelatihan, dimulai dari praproses dokumen hingga menghasilkan sebuah model. Ringkasan manual merupakan acuan model.

Gambar 1 Diagram alur proses tahap pelatihan

Praproses

Praproses merupakan kegiatan pengolahan awal dokumen. Hasil dari praproses ini akan diolah pada proses fitur teks. Pada penelitian ini praproses terdiri atas empat tahap, yaitu pemisahan kalimat, case folding, pemisahan kata, dan yang terakhir filtering kata. Praproses sangatlah penting dilakukan karena pada proses fitur teks, dokumen yang akan diolah harus sudah terpisah dengan bentuk kalimat dan kata.

Proses pertama dalam praproses yaitu memisahkan dokumen menjadi kumpulan kalimat. Menurut Aristoteles (2011), kalimat adalah gabungan dari dua buah kata atau lebih yang menghasilkan suatu arti dan diakhiri dengan suatu tanda berhenti. Tanda berhenti yang dimaksud adalah tanda baca titik. Pemisahan kalimat ini sangat penting, karena masing-masing kalimat ini nantinya akan diberikan skor dan akan diseleksi dengan batasan tertentu. Kalimat yang memiliki skor tertinggi merupakan hasil ekstraksi dokumen.

Proses selanjutnya adalah case folding, case folding merupakan proses mengubah semua huruf dalam dokumen ke dalam bentuk yang seragam, pada kasus ini menjadikan lower case. Proses ini dilakukan dengan tujuan menyeragamkan kata yang sebenarnya sama tetapi berbeda dalam penulisan.

(12)

Contoh pemisahan kalimat dan case folding bisa dilihat pada Tabel 1. Tabel 1 Contoh pemisahan kalimat dan case folding

Paragraf Pemisahan Kalimat Kalimat Case Folding Saya sedang

melaksanakan penelitian. Penelitian yang diambil adalah meringkas

dokumen dengan metode fuzzy. Semoga penelitian ini berjalan lancar, agar cepat lulus.

 Saya sedang melaksanakan penelitian.

 Penelitian yang diambil adalah meringkas dokumen dengan metode fuzzy.

 Semoga penelitian ini berjalan lancar, agar cepat lulus.

 saya sedang melaksanakan penelitian.

 penelitian yang diambil adalah meringkas dokumen dengan metode fuzzy.

 semoga penelitian ini berjalan lancar, agar cepat lulus. Proses selanjutnya adalah pemisahkan kata. Pemisahan kata adalah proses pemotongan kalimat menjadi kata-kata yang menyusunnya. Pemisahan kata dilakukan apabila pada kalimat ditemukan karakter white space (spasi, tab, newline). Contoh pemisahan kata terdapat pada Tabel 2.

Filtering kata merupakan proses penghilangan stopword. Stopword adalah kata-kata yang sering kali muncul dalam dokumen namun tidak memiliki makna. Dalam bahasa Indonesia stopword dapat disebut sebagai kata tidak penting, misalnya di, oleh, pada, sebuah, karena, dan lain sebagianya. Pada penelitian ini menggunakan daftar stopword yang telah dibuat pada penelitian Ridha (2002). Daftar lengkap stopword dapat dilihat pada Lampiran 1. Tujuan dari filtering kata yaitu untuk mengurangi kerumitan perhitungan dari fitur teks, karena pada umumnya dalam sebuah dokumen terdapat banyak sekali stopword. Contoh filtering kata terdapat pada Tabel 2. Contoh hasil praproses pada sistem terdapat pada Lampiran 2.

Tabel 2 Contoh pemisahan kata dan filtering kata

Kalimat Case folding Pemisahan Kata Filtering Kata saya sedang melaksanakan

penelitian di kampus ipb.

 Saya  sedang  melaksanakan  penelitian  di  kampus  ipb  tercinta  saya  melaksanakan  penelitian  kampus  ipb  terscinta Fitur teks

Fitur teks merupakan suatu proses pembelajaran terhadap sistem untuk melakukan peringkasan dokumen. Ide dari fitur teks adalah dengan memberikan pengetahuan kepada sistem sehingga dapat meniru manusia dalam hal meringkas

(13)

dokumen. Pengetahuan (fitur teks) tersebut harus dibentuk ke dalam rumus matematika terlebih dahulu agar dapat dimengerti oleh komputer. Hasil akhir dari pembelajaran berupa nilai-nilai fitur pada setiap kalimat. Semakin tinggi nilai yang dihasilkan, semakin penting kalimat di dalam sebuah dokumen. Penelitian ini menggunakan sembilan fitur teks yang dijelaskan pada bagian berikut.

1 Posisi Kalimat (f1)

Posisi kalimat adalah letak kalimat dalam sebuah paragraf. Pada penelitian ini diasumsikan bahwa kalimat pertama pada tiap paragraf adalah kalimat yang paling penting. Oleh karena itu, penelitian ini mengurutkan kalimat tersebut berdasarkan posisinya, sehingga dapat dirumuskan

Scoref1(s) = �– ( − 1) �

sedangkan s adalah kalimat di dalam paragraf, N adalah total jumlah kalimat dalam satu paragraf dan X adalah posisi kalimat dalam tiap paragraf (Aristoteles 2011).

2 Positive Keyword (f2)

Positive keyword adalah kata yang paling banyak muncul pada sebuah dokumen, sehingga apabila pada kalimat terdapat positive keyword maka akan diberikan skor. Perhitungan fitur positive keyword ini dapat dirumuskan

Scoref2(s) = s(n) ∩ P

sedangkan s adalah kalimat di dalam paragraf, s(n) kata dalam kalimat dan P adalah kata yang menjadi positive keyword. Sehingga semakin banyak positive keyword dalam kalimat, maka semakin besar pula skor f2.

3 Negative Keyword (f3)

Negative keyword merupakan kebalikan dari fitur teks positive keyword, yaitu kata yang sedikit muncul dalam kalimat dan dapat ditulis sebagai

Scoref3(s) = s(n) ∩ N

sedangkan s adalah kalimat di dalam paragraf, s(n) kata dalam kalimat dan N adalah kata yang menjadi negative keyword. Negative keyword pada dokumen bisa berjumlah lebih dari satu, sehingga semakin banyak negative keyword dalam kalimat maka semakin besar pula skor f3.

4 Kemiripan antar kalimat (f4)

Kemiripan antar-kalimat merupakan kata yang muncul dalam kalimat sama dengan kata yang muncul dalam kalimat lain. Kemiripan antar kalimat dapat dihitung dengan rumus

Scoref4(s) = ��∩��

sedangkan s adalah kalimat di dalam paragraf, Ks adalah kata unik pada kalimat dan Kn merupakan kata unik pada kalimat lain.

5 Kalimat menyerupai judul dokumen (f5)

Kalimat yang menyerupai judul dokumen adalah kata yang muncul dalam kalimat juga muncul dalam judul dokumen sehingga dapat dirumuskan dengan

Scoref5(s) = Ks ∩ Kj

sedangkan s adalah kalimat di dalam paragraf. Ks adalah kata pada kalimat dan Kj merupakan kata yang terdapat pada judul dokumen.

(14)

6 Kalimat yang mengandung kata khusus (f6)

Kata khusus ini adalah sebuah kumpulan kata yang memberikan penegasan penting pada sebuah kalimat sehingga apabila ada kata khusus pada kalimat maka kalimat tersebut dapat dikatakan penting. Fitur f6 dapat dirumuskan

Scoref6(s) = s(n) ∩ F

sedangkan s adalah kalimat di dalam paragraf, s(n) kata dalam kalimat dan F adalah sebuah kata khusus. Semakin banyak kata khusus dalam kalimat, semakin besar pula skor f6.

7 Kalimat yang mengandung data numerik (f7)

Pada peringkasan dokumen juga mempertimbangkan data numerik, karena dalam kalimat yang berisi data numerik dapat merepresentasikan suatu nilai penting pada dokumen. Dokumen keuangan merupakan contoh dokumen yang banyak mengandung data numerik sehingga dalam peringkasan dokumen akan mempertimbangkan fitur teks data nemerik. Perumusan f7sebagai berikut

Scoref7(s) = Jumlah data numerik dalam kalimat

data numerik bisa berupa tahun, menunjukan waktu, nominal uang dan banyak lagi. Semakin banyak data numerik pada dokumen, semakin besar nilai skor f7.

8 Panjang kalimat (f8)

Panjang kalimat dihitung berdasarkan jumlah kata dalam kalimat dibagi jumlah kata unik dalam dokumen sehingga dapat dirumuskan sebagai

Scoref8(s) = �(�) �(�)

sedangkan s adalah kalimat di dalam paragraf, N(s) jumlah kata tanpa stopword dalam kalimat, sedangkan N(d) adalah jumlah kata unik tanpa stopword dalam dokumen.

9 Koneksi antar-kalimat (f9)

Koneksi antar-kalimat adalah banyaknya kalimat yang memiliki kata yang sama dengan kalimat lain dalam satu dokumen. Fitur ini menggunakan normalisasi agar skor nilai pada tiap kalimat dalam jangkauan 0 sampai 1 (Aristoteles 2011). Koneksi antar-kalimat dapat dirumuskan

Scoref9(s) = Ks ∩ KT

sedangkan s adalah kalimat di dalam paragraf, Ks kata unik dalam kalimat dan KT adalah kata unik yang terdapat pada kalimat tetangganya.

Fuzzy Inference System

Logika fuzzy merupakan nilai keanggotaan antara 0 dan 1, tingkat keabuan dan dalam bentuk linguistik, seperti "sedikit", "lumayan" dan "banyak" (Zadeh 1965). Konsep tidak pasti pada penelitian ini adalah penting atau tidak penting kalimat di dalam sebuah dokumen. Logika fuzzy adalah modifikasi dari teori himpunan di mana setiap anggotanya memiliki derajat keanggotaan yang bernilai kontinu antara 0 sampai 1. Kelebihan dari teori logika fuzzy adalah kemampuan dalam proses penalaran secara bahasa (linguistic reasoning), sehingga dalam perancangannya tidak memerlukan persamaan matematik dari objek yang akan dikendalikan.

Suatu nilai dikatakan fuzzy apabila nilai tersebut tidak bisa dipastikan masuk ke dalam kategori tertentu. Misalkan nilai dari pengukuran suhu 47o masuk kategori panas untuk ukuran suhu badan manusia, tapi untuk komputer 47o masuk kategori normal. Dalam konsep fuzzy terdapat istilah nilai crips, yaitu nilai

(15)

sesungguhnya dari sebuah variabel fuzzy. Membership function atau yang sering dikenal dengan fungsi keanggotaan adalah suatu bentuk bangun yang merepresentasikan suatu batas dari scope / domain. Pada penelitian ini fungsi keanggotaan yang digunakan memiliki bentuk segitiga. Derajat keanggotaan adalah sesuatu yang merepresentasikan nilai crips masuk ke dalam kategori fungsi keanggotaan tertentu. Untuk menghitung derajat keanggotaan dari setiap fungsi keanggotaan bentuk segitiga dapat direpresentasikan pada Gambar 2.

Gambar 2 Representasi fungsi keanggotaan segitiga

Fuzzy inference system (FIS) merupakan sebuah gabungan sistem kerja yang menggabungkan antara konsep himpunan fuzzy, fuzzy aturan JIKA-MAKA dan penalaran fuzzy. FIS dapat digunakan berbagai jenis macam penalaran, diantaranya klasifikasi data, membuat analisis, kontrol otomatis, sistem pakar, robotic, dan pengenalan pola (Jang et al. 1997). Pada penelitian ini model FIS yang digunakan adalah model Takagi-Sugeno-Kang (TSK). Model TSK merupakan model FIS untuk aturan yang direpresentasikan dalam bentuk aturan JIKA – MAKA, output sistem tidak berupa himpunan fuzzy, melainkan berupa konstanta atau persamaan linear yang digunakan sebagai pembobot pada sebuah kalimat. Pembuatan FIS terdiri atas tiga tahapan proses, yaitu fuzzifikasi, rule evaluation, dan defuzzifikasi. Fuzzifikasi merupakan proses perubahan nilai crips menjadi nilai fuzzy input dengan nilai derajat keanggotannya. Pada proses ini terjadi modifikasi yaitu fuzzy input yang terpilih pada setiap fitur merupakan fuzzy input yang memiliki nilai derajat keanggotaan terbesar diharapkan dengan pembatasan cara pengambilan fuzzy input ini dapat meringankan kerumitan saat proses inference aturan. Selanjutnya proses rule evaluation adalah pembuatan aturan-aturan untuk menunjang pengambilan keputusan pada sistem fuzzy. Contoh salah satu dari aturan tersebut ada pada Gambar 3.

Gambar 3 Contoh aturan dalam FIS

Berdasarkan aturan dari kombinasi fitur pada Gambar 3 menunjukan bahwa kalimat tersebut dianggap penting dalam sebuah dokumen. Penentuan aturan-aturan ini akan dilakukan pada tahap pelatihan hingga mendapatkan model yang tepat. Model ini nantinya akan digunakan pada tahapan pengujian. Kemudian untuk tahap defuzzifikasi dilakukan untuk menentukan suatu nilai crisp output. Hasil dari proses ini adalah suatu nilai crips output yang berasal dari rule evaluation. Secara umum bentuk model inferensi FIS model TSK adalah:

(16)

IF x is A and y is B THEN z = f(x, y), (1) dengan A dan B adalah himpunan fuzzy, z merupakan bobot output fuzzy dan f(x,y) adalah sebuah fungsi persamaan linear yang menghasilkan sebuah bobot output fuzzy (Jang et al. 1997). Pada persamaan (1) memiliki dua buah fuzzy input, sedangkan pada penelitian ini menggunakan sembilan buah fuzzy input. Sehingga dibentuklah persamaan baru untuk sembilan buah fuzzy input dengan mengacu persamaan (1).

IF f1 is A1 dan f2 is A2 dan … dan f9 is A9 THEN z = f(f1, f2, …, f9 ) dengan f1,f2,…f9 merupakan fitur teks, sedangkan A1,A2,...A9 adalah himpunan fuzzy pada variabel input, z merupakan bobot output fuzzy dan f(f1, f2, …, f9) merupakan fungsi persamaan linear sebuah bobot output fuzzy. Persamaan linear yang digunakan untuk menentukan bobot output fuzzy adalah

f(f1,f2,…,f9) = pA1*x1 + pA2*x2 +… + pA9*x9 (2)

dengan f1,f2,…f9 merupakan fitur teks, sedangkan x1, x2... x9 merupakan nilai derajat keanggotaan fitur dan pA1, pA2… pA9 merupakan sebuah nilai koefisisen dari keanggotaan fuzzy. Penentuan nilai koefisien yang akan digunakan dapat dilihat pada pembahasan.

Tahap Pengujian

Tahap pengujian dilakukan untuk menilai akurasi dari peringkasan. Alur proses pada tahap pengujian ini dapat dilihat pada Gambar 4.

Gambar 4 Diagram alur proses tahap pengujian

(17)

Dice Coefficient

Dice coefficient merupakan suatu formula untuk menghitung nilai kesamaan antara dua buah objek pengamatan. Objek pengamatan pada penelitian ini adalah kalimat penting yang tepilih pada hasil sistem dan hasil ringkasan manualnya. dice coefficient dapat dihitung dengan persamaan

Dice coefficient = 2 ∗ | ∩ |

+| | (3) dengan X merupakan gugusan kalimat yang ada pada hasil peringkasan sistem dan Y merupakan gugusan kalimat yang ada pada hasil peringkasan manual. Hasil perhitungan kesamaan dice coefficient akan menghasil rentang nilai antara 0 dan 1, sehingga persentasi akurasi peringkasan diperoleh dengan cara mengalikan hasil kesamaan dice coefficient dengan bilangan 100.

Lingkungan Pengembangan

Lingkungan pengembangan adalah kumpulan fasilitas yang diperlukan dalam melaksanakan penelitian, baik berupa perangkat keras maupun perangkat lunak. Pada penelitian ini lingkungan pengembangan yang digunakan adalah sebagai berikut:

 Perangkat lunak: Windows 7 Ultimate, Notepad++, Microsoft Office 2007, XAMMP, Google chrome.

 Perangkat keras: CPU Core i3 2.3 GHz dan 4 GB RAM.

 Bahasa pemograman: PHP dan Javascript.

HASIL DAN PEMBAHASAN

Pengumpulan Dokumen

Dokumen yang telah terkumpul berupa teks dengan format .txt. Pada awalnya pengumpulan dokumen berjumlah 150 buah, yang terdiri atas 100 dokumen latih dan 50 dokumen uji. Setelah penelitian berlangsung diputuskan untuk menambah 50 buah dokumen pada data latih, sehingga menjadi 150 dokumen latih dan 50 dokumen uji. Hal ini dilakukan untuk mengetahui apakah pengaruh hasil peringkasan dengan adanya penambahan dokumen latih. Dokumen-dokumen tersebut berupa berita nasional yang terdiri atas judul dan isi berita. Untuk mempermudah membedakan antara isi dan judul, digunakan penanda XML. Bagian judul diapit oleh penanda <title> </title> dan isi berita diapit oleh penanda <teks> </teks>. Pada pengumpulan 150 dokumen, terdapat 4085 buah kalimat dengan rata-rata jumlah kalimat per dokumen adalah 27.23 kalimat. Statistik pengumpulan 200 dokumen menunjukan bahwa, jumlah kalimat sebanyak 5050 dan rata-rata kalimat sebesar 25.25 kalimat. Gambar 5 merupakan salah satu contoh dari isi dokumen yang telah terkumpul, pada penulisan ini akan digunakan dokumen 2.txt dalam menunjukan contoh hasil percobaan.

(18)

Gambar 5 Contoh dokumen

Praproses

Tahap praproses diawali dengan memisahkan judul dengan isi dokumen. Selanjutnya isi dokumen tersebut akan dipisahkan menjadi kalimat-kalimat. Proses pemisahan kalimat sangat penting, karena kalimat ini nantinya akan diberi skor pada proses fitur teks. Pada proses pemisahan kalimat ditemukan kendala, yaitu apabila dalam sebuah kalimat langsung mengandung tanda baca titik, maka kalimat langsung tersebut akan ikut terpotong. Solusi yang dapat digunakan untuk masalah kalimat langsung ini adalah:

1 Sebelum proses pemotongan kalimat, periksa kalimat yang diapit oleh tanda kutip dua (“) terdapat tanda baca titik.

2 Bila ditemukan tanda titik, maka tanda titik tersebut diganti oleh karakter koma (,).

Selain kendala kalimat langsung, kendala lain terjadi apabila pada kalimat mengandung data numerik tertentu. Misalkan data numerik waktu 01.00 atau data numerik menunjukkan jumlah 1.444. Otomatis kalimat yang mengandung data numerik akan terpotong. Solusi yang dilakukan adalah dengan memperbaiki batas pemotongan kalimat. Batas pemotongan kalimat bukan hanya karakter titik, tetapi karakter spasi yang diikuti oleh tanda baca titik. Praproses selanjutnya adalah pemisahan kalimat menjadi kata. Proses ini berguna untuk tabulasi kata pada dokumen yang akan digunakan dalam menghitung skor dari fitur teks.

Setelah mendapatkan kata-kata penyusun kalimat tadi proses selanjutnya dilakukan proses case folding dengan tujuan menyelaraskan huruf penyusun kata, sehingga dengan case folding huruf besar dan huruf kecil dianggap sama. Proses terakhir pada praproses adalah dengan melakukan pembersihan stopword. Stopword adalah kata yang tidak memiliki makna yang penting dalam dokumen.

(19)

Proses stopword ini dilakukan dengan tujuan mengurangi kerumitan komputer dalam perhitungan fitur teks, karena pada dasarnya stopword pada sebuah dokumen sangatlah banyak. Sehingga dengan membuang kata yang tidak bermakna ini diharapkan dapat mengurangi kerja dari komputer dalam menghitung fitur teks.

Untuk contoh dari proses praproses dapat dilihat pada Lampiran 1. Hasil praproses ini berupa kalimat-kalimat dari dokumen yang telah dibersihkan dan berupa token kata untuk proses perhitungan fitur teks.

Fitur Teks

Fitur teks merupakan tahap yang sangat penting dalam melakukan peringkasan dokumen. Masing-masing kalimat hasil dari praproses akan diberi nilai fitur teks berdasarkan rumus matematika yang telah ditentukan. Nilai fitur pada matriks kovarian telah mengalami normalisasi, sehinga nilai setiap fiturnya bernilai di antara 0 sampai dengan 1. Proses fitur teks ini terjadi pada tahap pelatihan maupun tahap pengujian. Hasil dari proses fitur teks merupakan matriks kovarian, Tabel 3 merupakan salah satu contoh matriks kovarian hasil proses fitur teks dari dokumen 2.txt.

Tabel 3 Matriks kovarian hasil proses fitur teks

Kalimat Fitur 1 Fitur 2 Fitur 3 Fitur 4 Fitur 5 Fitur 6 Fitur 7 Fitur 8 Fitur 9

1 1.00 1.00 0.56 0.00 1.00 0.33 0.00 0.86 0.00 2 1.00 0.67 0.56 0.00 0.40 0.33 1.00 1.00 0.00 3 1.00 0.67 1.00 0.03 0.20 1.00 0.00 0.77 0.05 4 1.00 0.67 0.06 0.19 0.20 1.00 0.29 0.43 0.08 5 0.75 0.33 0.31 0.20 0.40 0.00 0.00 0.40 0.09 6 0.50 1.00 0.13 0.45 0.00 0.00 0.00 0.23 0.31 7 0.25 0.33 0.19 0.48 0.00 0.33 0.00 0.17 0.63 8 1.00 0.33 0.19 0.60 0.20 0.33 0.00 0.17 0.83 9 0.67 0.00 0.13 1.00 0.00 0.00 0.00 0.14 1.00 10 0.33 1.00 0.44 0.24 0.00 0.33 0.14 0.51 0.00 Pada penelitian ini akan menyajikan hasil statistik fitur teks dari semua dokumen, tujuannya adalah untuk mengetahui banyaknya nilai yang beda (variasi nilai) pada setiap fitur yang nantinya akan berperan penting dalam penentuan banyaknya fungsi keanggotaan pada tahap FIS. Fitur teks yang memiliki variasi nilai yang tinggi otomatis memiliki fungsi keanggotaan yang lebih banyak. Tabel 4 merupakan perbandingan antara fitur teks pada tahap pelatihan dan pengujian dengan banyak data latih 150 dokumen.

(20)

Tabel 4 Perbandingan fitur teks pada pelatihan dan pengujian

Fitur Pelatihan = 3796 Kalimat Pengujian = 1254 Kalimat Rata-rata Skor Variasi Nilai Rata-rata Skor Variasi Nilai

Fitur 1 0.70 28 0.67 32

Fitur 2 0.48 8 0.47 6

Fitur 3 0.35 265 0.37 187

Fitur 4 0.20 2156 0.20 752

Fitur 5 0.25 29 0.24 25

Fitur 6 0.23 17 0.22 18

Fitur 7 0.13 26 0.12 17

Fitur 8 0.44 871 0.44 456

Fitur 9 0.17 1859 0.16 635

Rata-rata 0.33 584 0.32 236

Berdasarkan Tabel 4 rata-rata semua fitur skor pada tahap pelatihan dan pengujian memiliki perbedaan nilai yang sangat tipis, yaitu 0.33 dan 0.32. Hal ini menunjukan bahwa data latih maupun data uji memiliki karakteristik yang sama dan kemungkinan kalimat penting yang akan terambil pada pengujian dengan mengacu pada tahap pelatihan akan mencapai 96.97% sehingga dapat dikatakan hanya 38 kalimat yang tidak akan masuk ke dalam kategori kalimat penting. Bila dilihat dari keberagaman nilai pada pelatihan maupun pengujian, fitur 4 memiliki keberagaman nilai yang paling banyak, selanjutnya disusul oleh fitur 9 dan fitur 8. Fitur 4 dan fitur 9 memiliki nilai paling beragam karena kemiripan dan koneksi antar kalimat pada dokumen sangat beragam, sehingga nilai antara kalimat satu dengan lainnya hampir dipastikan berbeda walaupun nilai telah mengalami normalisasi. Fitur 8 merupakan fitur untuk menghitung panjang kalimat, pada dokumen panjang setiap kalimat juga sangat beragam walaupun keberagamannya tidak sebesar fitur 4 dan 9. Intinya semakin banyak variasi nilai pada fitur, semakin banyak ciri yang dihasilkan pada fitur tersebut.

Pada dasarnya ringkasan sudah dapat ditentukan setelah proses fitur teks, namun dalam menentukan kalimat penting tidak dapat hanya bergantung pada proses fitur teks, karena peranan setiap fitur dalam menentukan ringkasan tidak akan sama. Pasti ada fitur teks yang lebih dominan dari fitur teks yang lainnya. Sehingga diperlukan teknik seleksi fitur dalam menentukan seberapa besar peranan setiap fitur teks dalam menentukan kalimat penting pada dokumen. Pada penelitian ini akan digunakan teknik logika fuzzy dengan menggunakan fuzzy inference system dalam menentukan seberapa penting peranan fitur tersebut. Nilai setiap fitur yang telah didapat akan menjadi nilai input pada model fuzzy yang akan dibuat.

(21)

Fuzzy Inference System (FIS)

Pada penelitian ini terdapat tiga proses dalam tahap pembentukan FIS, yaitu fuzzifikasi, rule evaluation dan defuzzifikasi. Pada tahap pelatihan hanya mengunakan dua proses awal dan pada tahap pengujian akan ditambahkan proses defuzzifikasi. Proses pertama adalah fuzzifikasi, fuzzifikasi merupakan proses penentuan derajat keanggotaan dari setiap fitur teks pada kalimat. Faktor yang sangat mempengaruhi terhadap hasil akhir fuzzifikasi adalah banyaknya fungsi keanggotaan pada FIS yang akan dibangun. Karena semakin banyak fungsi keanggotaan, maka semakin beragam aturan yang akan terbentuk. Gambar 6 merupakan contoh proses fuzzifikasi dengan nilai fitur 0.85 sehingga fitur tersebut dapat dimasukan kedalam fungsi keanggotaan high dengan derajat keanggotaan 0.6 atau fungsi keanggotaan very_high dengan derajat keanggotaan 0.4. Tabel 5 merupakan hasil dari proses fuzzifikasi dokumen 2.txt, yaitu matriks kovarian yang nilai setiap fiturnya bukan lagi berupa nilai crips, tetapi sudah berupa variabel input (variabel linguistik).

Gambar 6 Proses fuzzifikasi Tabel 5 Matriks kovarian hasil proses fuzzifikasi

Kalimat Fitur 1 Fitur 2 Fitur 3 Fitur 4 Fitur 5 Fitur 6 Fitur 7 Fitur 8 Fitur 9

1 High High Medium Low High Low low High Low 2 High High Medium Low Low Low high High Low 3 High High very_high Low Low High low High Low 4 High High very_low Low Low High low Medium Low 5 High Low Low Low Low Low low Medium Low 6 Medium High very_low Medium Low Low low Low Medium 7 Low Low Low Medium Low Low low Low Medium 8 High Low Low Medium Low Low low Low High 9 Medium Low very_low High Low Low low Low High 10 Medium High Medium Low Low Low low Medium Low

Proses selanjutnya adalah rule evaluation. Pada tahap pelatihan hasil dari proses ini berupa aturan-aturan dari setiap kalimat penting dari dokumen latih dengan dokumen ringkasan manual sebagai acuan. Banyaknya level aturan setiap fitur sangat dipengaruhi oleh banyaknya fungsi keanggotaan sehingga penelitian

(22)

ini akan membahas pengaruh banyaknya fungsi keanggotaan terhadap hasil peringkasan. Tabel 6 merupakan contoh hasil proses rule evaluation untuk data latih 2.txt dengan lima buah fungsi keanggotaan.

Tabel 6 Hasil proses rule evaluation pada tahap pelatihan

Kalimat Fitur 1 Fitur 2 Fitur 3 Fitur 4 Fitur 5 Fitur 6 Fitur 7 Fitur 8 Fitur 9 1 High High medium Low High Low low High Low 4 High High very_low Low Low High low Medium Low 10 medium High medium Low Low Low low Medium Low

Berdasarkan Tabel 6 terdapat tiga buah aturan yang terbentuk dari tiga buah kalimat penting pada data latih. Ketiga kalimat penting tersebut terpilih berdasarkan ringkasan manual pada dokumen latih, sehingga pada tahap pelatihan ini akan menghasilkan sebuah model aturan yang terbentuk dari semua dokumen latih. Tahap pengujian Model tersebut menghasilkan 126 aturan. Model ini akan digunakan untuk inferensi aturan, apabila aturan pada kalimat yang dihasilkan dari data uji terdapat dalam model aturan, kalimat tersebut terpilih sebagai kalimat peting.

Tabel 7 Nilai koefisisen terbaik dari setiap variabel input pada defuzzifikasi

Banyak Fungsi

Keanggotaan Very Low Low Medium High Very High

2 X 2.5 X 7.5 X

3 X 2.5 5 7.5 X

4 1 2.5 X 7.5 10

5 1 2.5 5 7.5 10

Pada tahap pengujian, terdapat penambahan proses defuzzifikasi di dalam FIS yang dibangun. Hasil defuzzifikasi merupakan perhitungan bobot yang dilakukan setelah inferensi aturan pada proses rule evaluation. Semakin besar nilai keluaranya maka semakin penting kalimat tersebut di dalam dokumen. Proses defuzzifikasi dilakukan bertujuan membatasi kalimat penting terpilih yang akan ditampilkan berdasarkan tingkat kompresi peringkasan yaitu 30%. Penentuan kalimat penting dilakukan dengan memberikan sebuah persamaan linear pada setiap aturan yang terpilih. Persamaan linear yang digunakan pada FIS dapat dilihat pada persamaan (2). Ketepatan dalam memilih kalimat penting juga sangat dipengaruhi oleh nilai koefisien setiap variabel input (pAn) yang dibuat, sehingga harus dicobakan nilai pAn terbaik untuk mendapatkan hasil peringkasan yang optimal. Besar pAn terbaik dapat dilihat pada Tabel 7. Proses terakhir dalam pengujian adalah evaluasi hasil peringkasan menggunakan dice coefficient.

Dice Coefficient

Proses evaluasi menggunakan kesamaan dice coefficient dilakukan bertujuan untuk mengetahui tingkat akurasi peringkasan sistem yang telah dibangun. Setiap dokumen yang akan diujikan dipastikan memiliki ringkasan manual yang nantinya menjadi acuan dalam mengukur ketepatan dalam

(23)

meringkas. Tingkat akurasi peringkasan akan dihasilkan dari perhitungan rumus (3).

Apabila di dalam dokumen uji terdapat 12 kalimat maka akan terpilih 4 buah kalimat penting sebagai hasil peringkasan. Hal ini terjadi karena tingkat kompresi peringkasan sebesar 30%. Jika hasil ringkasan sistem terdiri atas kalimat 1, 2, 3 dan 7, sedangkan hasil peringkasan manual untuk dokumen uji adalah kalimat 1, 2 ,3 dan 11, maka terdapat 3 buah gugus kalimat yang saling beriris. Kemudian akan dihitung menggunakan rumus (3) sehingga menghasilkan akurasi peringkasan tunggal sebesar sebesar 75%. Lampiran 3 merupakan hasil evaluasi menggunakan dice coefficient untuk 50 dokumen uji yang menghasilkan akurasi rata-rata terbaik sebesar 50.58%.

Evaluasi dan Analisis Hasil Penelitian

Pada pembahasan sebelumnya telah sedikit disinggung faktor-faktor yang akan mempengaruhi hasil peringkasan. Setidaknya ada tiga buah faktor yang akan dianalisis pada penelitian ini. Faktor pertama adalah pengaruh banyaknya fungsi keanggotaan pada pembangunan FIS. Semakin banyak fungsi keanggotaan yang dibuat, maka otomatis aturan yang dihasilkan oleh proses pelatihan akan semakin banyak. Faktor selanjutnya yang akan dibahas yaitu pengaruh penambahan dokumen latih pada proses pelatihan. Penambahan dokumen latih diharapkan dapat meningkatkan hasil peringkasan. Faktor terkhir yang akan dianalisis adalah pengaruh banyaknya aturan yang dihasilkan pada pemodelan.

Untuk mengetahui pengaruh dari ketiga faktor tersebut, maka dibuatlah model percobaan sederhana. Model percobaan ini akan dibangun dengan cara mengkombinasikan antara banyak dokumen latih dan banyaknya fungsi keanggotaan. Terdapat 2 jenis dokumen latih, yaitu 100 dan 150 buah dokumen latih, sedangkan untuk banyaknya fungsi keanggotaan terdapat 5 jenis, yaitu fungsi keanggotaan yang berjumlah dua, tiga, empat, lima, dan campuran. Penjelasan dari jenis fungsi keanggotaan campuran adalah menggabungkan beberapa banyaknya fungsi keanggotaan yang disesuaikan berdasarkan variasi nilai setiap fitur yang telah dianalisis pada proses fitur teks. Penentuan model dengan fungsi keanggotaan campuran dapat dilihat pada Tabel 8.

Tabel 8 Penentuan banyak fungsi keanggotaan pada model campuran Banyak Fungsi

Keanggotaan Fitur

2 f2, f6 dan f7

3 f1 dan f5

4 f3 dan f8

(24)

Berdasarkan Tabel 8 fitur f2, f6 dan f7 akan menggunakan banyak fungsi keanggotaan sebanyak dua, sedangkan fitur f4 dan f9 diwakili oleh bayak fungsi keanggotaan sebanyak lima. Hal ini diakukan karena fitur f4 dan f9 memiliki variasi nilai yang paling tinggi, sehingga semakin besar variasi nilai dari fitur maka semakin banyak fungsi keanggotan yang akan mewakili fitur tersebut dalam pembentukan model campuran.

Masing-masing model yang telah terbentuk akan diwakili oleh dua buah sampel fungsi keanggotaan, sehingga dengan mengkombinasikan dua jenis data latih dan lima jenis fungsi keanggotaan akan terbentuk 20 model percobaan.Bentuk fungsi keanggotaan yang digunakan pada model percobaan dapat diliat pada Lampiran 4. Parameter-parameter yang akan dicatat oleh hasil percobaan yaitu banyaknya aturan yang terbentuk, akurasi minimal, akurasi maksimal dan akurasi rata-rata. Parameter ini akan membantu dalam menganalisis ketiga faktor yang telah direncanakan sebelumnya. Hasil percobaan yang telah dilakukan dapat dilihat pada Tabel 9.

Tabel 9 Hasil peringkasan 20 model percobaan Model Fungsi

Keanggotaan

Banyak Dokmen Latih

Banyak Aturan

Nilai Akurasi (%) Min Max Rata-rata

1 2 100 107 14.29 80 49.48

2 2 100 107 14.29 83.33 49.79

3 3 100 370 0 100 46.46

4 3 100 365 0 83.33 44.88

5 4 100 589 0 75 31.29

6 4 100 596 0 66.67 33.64

7 5 100 627 0 75 34.85

8 5 100 701 0 100 23.15

9 Campuran 100 371 0 75 42.46

10 Campuran 100 424 0 75 38.64

11 2 150 126 14.29 80 49.87

12 2 150 126 14.29 83.33 50.58

13 3 150 459 12.5 100 46.96

14 3 150 449 0 100 45.17

15 4 150 738 0 87.5 35.46

16 4 150 744 0 80 36.9

17 5 150 800 0 75 37.53

18 5 150 902 0 100 29.17

19 Campuran 150 449 0 75 43.32

(25)

Berdasarkan Tabel 9 hasil terbaik diperoleh oleh model 12 dengan nilai akurasi sebesar 50.58%, disusul oleh model 11 dengan 49.87%. Hasil percobaan yang menempati dua posisi terbawah diwakili oleh model 8 dan 18 dengan nilai akurasi 23.15 dan 29.17%. Hasil peringkasan tunggal terbaik terdapat pada model 3, 8, 13, 14, 18 dan 20, yaitu dengan akurasi 100%, sedangkan untuk model 12 yang memiliki nilai rata-rata akurasi terbaik, peringkasan tunggal yang diperoleh hanya sebesar 83.33%. Walau tidak mencapai angka 100%, model 12 ini bisa dikatakan baik karena akurasi setiap dokumennya cukup konsisten sehingga menghasilkan rata-rata tertinggi.

Gambar 7 Grafik kinerja sistem dari semua model

Merujuk pada Gambar 7, penambahan dokumen latih ternyata akan meningkatkan nilai akurasi peingkasan. Hal ini jelas akan terjadi, karena dengan bertambahnya 50 dokumen latih otomatis banyaknya aturan yang akan terbentuk pun akan bertambah, paling tidak banyaknya aturan sama dengan yang dihasilkan oleh 100 dokumen latih. Fungsi keanggotaan yang semakin bertambah juga akan memperbanyak aturan, tetapi nilai akurasi yang diperoleh cenderung semakin kecil. Hal ini disebabkan oleh dengan bertambahnya fungsi keanggotaan maka semakin besar pula kemungkinan aturan yang terbetuk pada model. Ambil contoh dengan dua fungsi keanggotaan pada sembilan fitur, maka semua kemungkinan aturan yang terbentuk sebanyak 29=512 buah aturan. Akan tetapi, aturan yang terbentuk pada pelatihan sebanyak 107 dan 126, hanya sekitar 21% dan 24% dari semua kemungkinan aturan yang terbentuk. Bandingkan dengan lima buah fungsi keanggotaan yang semua kemungkinan aturannya sebanyak 59=1953125 buah aturan. Akan tetapi banyaknya aturan pada pelatihan hanya sebanyak 902, atau dengan kata lain tingkat rasio model aturan hanya sebesar 0.00046% dari semua

0 10 20 30 40 50 60 70 80 90 100

)

Jumlah Fungsi Keanggotaan 100 Dokumen Latih 150 Dokumen Latih

(26)

kemungkinan aturan. Fakta ini jelas akan berpengaruh pada proses rule evaluation. Jadi semakin kecil nilai rasio model aturan yang dihasilkan, semakin sedikit kalimat yang akan terpilih sebagai kalimat penting. Selain banyaknya, bentuk fungsi keanggotaan juga sangat berperan dalam proses pembentukan aturan pada tahap pelatihan. Kesimpulannya dengan penambahan aturan tidak selalu dapat meningkatkan akurasi peringkasan, pada kasus ini faktor yang berpengaruh adalah rasio model aturan yang dihasilkan. Langkah nyata untuk meningkatkan akurasi peringkasan adalah dengan menambah dokumen latih, karena dengan penambahan data latih, maka akan meningkatkan rasio aturan pada model.

Selain ketiga faktor tersebut, pada penelitian ini akan mencoba menganalisis pengaruh proses penghilangan stopword pada hasil peringkasan. Percobaan ini dilakukan dengan mengambil 10 dari model yang ada. Tabel 10 merupakan hasil percobaan yang membandingkan peringkasan berdasarkan pengaruh stopword.

Tabel 10 Perbandingan hasil akurasi dilihat berdasarkan pengaruh stopword

Model Stopword Non Stopword

Aturan Akurasi(%) Aturan Akurasi(%)

1 107 49.48 120 44.16

3 370 46.46 379 41.74

5 589 31.29 648 33.19

8 701 23.15 739 24.57

10 424 38.64 417 41.72

11 126 49,87 138 45.78

13 459 46.96 534 39.49

15 738 35.46 821 37.15

18 902 29.17 956 28.07

20 448 42.20 599 41.56

Berdasarkan Tabel 10 dari kesepuluh model yang dicobakan, hasil akurasi pada percobaan yang tidak menghilangkan kata stopword cenderung mengalami penurunan, pengecualian terdapat psada model 5, 8, 15 dan 19. Bila dilihat lebih teliti ternyata pengecualian tersebut terdapat pada model yang memiliki banyak fungsi keanggotaan > 3, tapi perbedaan yang ditemukan tidak terlalu signifikan terhadap hasil, hanya berbeda sekitar 1% hingga 2%. Berbeda dengan model yang memilki banyak fungsi keanggotaan <= 3, perbedaan akurasi yang diperoleh sekitar 5%. Semua perbedaan hasil disebabkan oleh nilai dari fitur teks yang akan berubah dengan adanya proses penghilangan stopword. Hal ini mengakibatkan aturan yang terbentuk pun akan berbeda dengan aturan peringkasan yang tidak melakukan penghilangan stopword. Ternyata pengaruh penghilangan stopword pada peringkasan tidak konsisten dan tidak signifikan terhadap hasil peringkasan. Merujuk pada Tabel 10, dengan penghilangan stopword aturan yang terbentuk akan semakin sedikit, sehingga banyaknya aturan yang dihasilkan pada percobaan ini tidak ada pengaruh terhadap nilai akurasi yang dihasilkan.

(27)

SIMPULAN DAN SARAN

Simpulan

Setelah melakukan serangkaian percobaan, penelitian peringkasan dokumen menggunakan logika fuzzy ini menunjukkan:

1 Hasil akurasi rata-rata peringkasan terbaik ialah sebesar 50.58% dan akurasi peringkasan tunggal terbaik mencapai angka 100%.

2 Penambahan dokumen latih pada proses pelatihan dapat meningkatkan kinerja sistem.

3 Semakin besar rasio model aturan, maka semakin baik akurasi yang akan dihasilkan.

4 Semakin banyak fungsi keanggotaan yang dibangun pada FIS, maka hasil akurasi cenderung berkurang, tetapi hal ini sangat bergantung pada rasio model aturan dan bentuk fungsi keanggotaan yang dibangun.

5 Penghilangan stopword selain dapat mengurangi kerumitan perhitungan fitur teks, juga dapat meningkatkan akurasi terhasap hasil peringkasan.

6 Banyaknya aturan pada model belum tentu berpengaruh terhadap hasil peringkasan, tetap harus bergantung pada besarnya rasio model aturan.

Saran

1 Mengembangkan formula perhitungan nilai fitur teks yang lebih baik. Harapannya nilai setiap fitur yang dihasilkan nantinya lebih beragam, sehingga dapat meningkatkan persentasi model aturan.

2 Karena banyak faktor yang dapat mempengaruhi hasil peringkasan. Maka disarankan untuk fokus memaksimalkan setiap faktor, contohnya dengan menambah dokumen latih, membentuk fungsi keanggotaan yang menghasilkan akurasi paling optimal.

3 Mengaplikasikan peringkasan dokumen menggunakan seleksi fitur lainya. Disarankan menggunakan decision tree yang cukup baik dalam mengolah data yang bersifat numerik, karena semua fitur yang diproses dalam penelitian ini bersifat numerik.

(28)

DAFTAR PUSTAKA

Aristoteles. 2011. Pembobotan fitur pada peringkasan teks bahasa Indonesia menggunakan algoritme genetika. Bogor (ID): Institut Pertanian Bogor Jezek K, Steinberger J. 2008. Automatic text summarization (The state of the art

2007 and new challenges). Vaclav Snasel (Ed): Znalosti. 1-12.

Jang JSR, Sun CT, Mizutani E. 1997. Neuro-Fuzzy and Soft Computing. London(UK): Prentice-Hall.

Kyoomarsi F, Khosravi H, Eslami E, Khosravyan P, Tajoddin A. 2008. Optimizing Text Summarization Based on Fuzzy Logic. IEEE Computer Society: 347-352.

Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information Retrival. Cambridge (US): Cambridge Univesity Press

Marlina M. 2012. Sistem peringkasan dokumen berita bahasa Indonesia menggunakan metode regresi logistik biner. [Skripsi]. Bogor (ID): Institut Pertanian Bogor

Ridha A. 2002. Pengindeksan otomatis dengan istilah tunggal untuk dokumen berbahasa Indonesia. [Skripsi]. Bogor (ID): Institut Pertanian Bogor

Suanmali L, Salim N, Binwahlan M S. 2009. Fuzzy logic based method for improving text summarization. International Journal of Computer Science and Information Security. 2(1): 1-6

(29)

Lampiran 1 Daftar stopword

Ada biasanya Kalau menunjukkan Sedang Seusai

Adalah Bila Kalian Menurut Sedangkan Sewaktu

Adanya bilamana Kami Mereka Sedikit Si

Adapun Buat Kamu Merupakan Segera Siapa

Aduh Bukan Karena Meski Sehabis Siapakah

Agar Dalam Kata Meskipun Sehingga Siapapun

Ah Dan Katanya Misalnya sehubungan Suatu

Akan Dapat Kau Mungkin Sejak Sudah

Aku Dari Ke Namun Sejumlah Supaya

alih-alih daripada Kebanyakan Nanti Sekarang Tak

Anda Dekat Kecuali Nyaris Sekeliling Tanpa

Andai Demi Kemanakah Oleh Seketika Tapi

Antar demikian Kemudian Pada Sekitar Tatkala

Antara Dengan Kenapa Padahal Seraya Telah

Apa Depan Kenapakah Para Selagi Tengah

Apakah Di Kepada Pasti Selain Tentang

Apalagi Dia Ketika Pelbagai Selalu Tentu

Asalkan dikatakan Ketimbang Per Selama Tentunya

Atas dilakukan Kini Peri selanjutnya Tergolong

Atau Dkk Kita Perihal Selesai Terhadap

Ataupun Dll Lagi Pinggir Seluruh Terjadi

Bagai Dsb Lain Pula seluruhnya Terkadang

Bagaikan Engkau lain-lain Pun Semakin Terlalu

Bagaimana Hal Lainnya Saat Semenjak Terlebih

bagaimanakah Hampir Lalu Saja Sementara Termasuk

bagaimanapun Hanya Lebih Sambil Semua Ternyata

Bagi Harus Lepas Sampai Semuanya Tersebut

Bahkan Hingga Lewat Samping Seorang Tertentu

Bahwa Ia Maka Sang Sepanjang Tetap

Balik Ialah Makin Sangat Seperti Tetapi

Banyak Ini Manakala Sangatlah Sepertinya Tiap

Barangkali Itu Masih Saya Seputar tiba-tiba

masing-masingnya Bawah

masing-masing

kadang-kadang

sekonyong-konyong Tidak

Beberapa Jadi Iya seakan-akan Sering Ujar

Begini Jangan Maupun Seantero Seringkali Ujarnya

Begitu Jarang Melainkan Sebab Serta Umumnya

Belakang Jauh Melakukan Sebabnya Sesuai Untuk

Belum Jika Melalui Sebagai Sesuatu Walau

Berapa Jikalau Memang sebagaimana Sesudah Walaupun Berbagai Juga Mengatakan Sebagainya sesudahnya Ya Bersama Jumlah Mengenai Sebelum sesungguhnya Yaitu Beserta Justru Menjadi sebelumnya Setelah Yakni

Betapa kadang Menjelang Sebuah seterusnya Yang

(30)

(31)

Lampiran 3 Hasil Pengujian menggunakan dice coefficient untuk model 12

Dok Siste ∩ Ma ual Manual Sistem N-gram Akurasi (%)

1 2 4 4 0.5000 50.00

2 3 8 8 0.3750 37.50

3 3 4 4 0.7500 75.00

4 3 5 5 0.6000 60.00

5 3 4 4 0.7500 75.00

6 6 18 18 0.3333 33.33

7 4 7 7 0.5714 57.14

8 1 2 2 0.5000 50.00

9 4 5 5 0.8000 80.00

10 3 5 5 0.6000 60.00

11 1 3 3 0.3333 33.33

12 2 6 6 0.3333 33.33

13 3 6 6 0.5000 50.00

14 2 3 3 0.6667 66.67

15 4 10 10 0.4000 40.00

16 4 7 7 0.5714 57.14

17 2 7 7 0.2857 28.57

18 4 8 8 0.5000 50.00

19 2 6 6 0.3333 33.33

20 3 5 5 0.6000 60.00

21 8 15 15 0.5333 53.33

22 3 4 4 0.7500 75.00

23 3 7 7 0.4286 42.86

24 2 7 7 0.2857 28.57

25 6 8 8 0.7500 75.00

26 5 14 14 0.3571 35.71

27 3 5 5 0.6000 60.00

28 9 28 28 0.3214 32.14

29 2 8 8 0.2500 25.00

30 7 20 20 0.3500 35.00

31 1 4 4 0.2500 25.00

32 2 4 4 0.5000 50.00

33 4 5 5 0.8000 80.00

34 1 3 3 0.3333 33.33

35 2 4 4 0.5000 50.00

36 6 14 14 0.4286 42.86

37 1 7 7 0.1429 14.29

38 4 5 5 0.8000 80.00

39 3 4 4 0.7500 75.00

40 4 9 9 0.4444 44.44

41 4 6 6 0.6667 66.67

42 6 12 12 0.5000 50.00

43 4 9 9 0.4444 44.44

44 7 18 18 0.3889 38.89

45 3 5 5 0.6000 60.00

46 3 6 6 0.5000 50.00

47 5 6 6 0.8333 83.33

48 4 6 6 0.6667 66.67

49 2 3 3 0.6667 66.67

50 1 7 7 0.1429 14.29

50.58

(32)

Lampiran 4 Bentuk fungsi keanggotaan untuk semua model

1 Bentuk fungsi keanggotaan model 1 dan 11 untuk semua fitur

2 Bentuk fungsi keanggotaan model 2 dan 12 untuk semua fitur

(33)

Lampiran 4 Bentuk fungsi keanggotaan untuk semua model (lanjutan)

4 Bentuk fungsi keanggotaan model 4 dan 14 untuk semua fitur

5 Bentuk fungsi keanggotaan model 5 dan 15 untuk semua fitur

(34)

Lampiran 4 Bentuk fungsi keanggotaan untuk semua model (lanjutan)

7 Bentuk fungsi keanggotaan model 7 dan 17 untuk semua fitur

(35)

RIWAYAT HIDUP

Penulis dilahirkan di Cirebon Jawa Barat pada tanggal 23 November 1989 dari Ibu Tuti Rohaeti dan Bapak R. M. Sjarieff. Penulis merupakan anak kedua dari 2 bersaudara. Pada tahun 2007, penulis lulus dari SMA Negeri 2 Kuningan Jawa Barat dan pada tahun yang sama diterima di Diploma IPB Program Keahlian Teknik Komputer melalui jalur Undangan Seleksi Masuk IPB. Pada tahun 2010 penulis lulus dari Diploma IPB dan pada tahun yang sama penulis melanjutkan pendidikan di Program Alih Jenis Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB.

Selama mengikuti perkuliahan penulis juga menjadi asisten praktikum matakuliah Algoritma Pemograman dan Bahasa Pemograman di Diploma IPB. Selain menjadi asisten untuk mengisi waktu luang, penulis pun gemar berolahraga Futsal dan Bulutangkis.

(1)

(2)

Lampiran 3 Hasil Pengujian menggunakan dice coefficient untuk model 12

Dok Siste ∩ Ma ual Manual Sistem N-gram Akurasi (%)

1 2 4 4 0.5000 50.00

2 3 8 8 0.3750 37.50

3 3 4 4 0.7500 75.00

4 3 5 5 0.6000 60.00

5 3 4 4 0.7500 75.00

6 6 18 18 0.3333 33.33

7 4 7 7 0.5714 57.14

8 1 2 2 0.5000 50.00

9 4 5 5 0.8000 80.00

10 3 5 5 0.6000 60.00

11 1 3 3 0.3333 33.33

12 2 6 6 0.3333 33.33

13 3 6 6 0.5000 50.00

14 2 3 3 0.6667 66.67

15 4 10 10 0.4000 40.00

16 4 7 7 0.5714 57.14

17 2 7 7 0.2857 28.57

18 4 8 8 0.5000 50.00

19 2 6 6 0.3333 33.33

20 3 5 5 0.6000 60.00

21 8 15 15 0.5333 53.33

22 3 4 4 0.7500 75.00

23 3 7 7 0.4286 42.86

24 2 7 7 0.2857 28.57

25 6 8 8 0.7500 75.00

26 5 14 14 0.3571 35.71

27 3 5 5 0.6000 60.00

28 9 28 28 0.3214 32.14

29 2 8 8 0.2500 25.00

30 7 20 20 0.3500 35.00

31 1 4 4 0.2500 25.00

32 2 4 4 0.5000 50.00

33 4 5 5 0.8000 80.00

34 1 3 3 0.3333 33.33

35 2 4 4 0.5000 50.00

36 6 14 14 0.4286 42.86

37 1 7 7 0.1429 14.29

38 4 5 5 0.8000 80.00

39 3 4 4 0.7500 75.00

40 4 9 9 0.4444 44.44

41 4 6 6 0.6667 66.67

42 6 12 12 0.5000 50.00

43 4 9 9 0.4444 44.44

44 7 18 18 0.3889 38.89

45 3 5 5 0.6000 60.00

46 3 6 6 0.5000 50.00

47 5 6 6 0.8333 83.33

48 4 6 6 0.6667 66.67

49 2 3 3 0.6667 66.67

50 1 7 7 0.1429 14.29

50.58

(3)

Lampiran 4 Bentuk fungsi keanggotaan untuk semua model

1 Bentuk fungsi keanggotaan model 1 dan 11 untuk semua fitur

2 Bentuk fungsi keanggotaan model 2 dan 12 untuk semua fitur

(4)

Lampiran 4 Bentuk fungsi keanggotaan untuk semua model (lanjutan)

4 Bentuk fungsi keanggotaan model 4 dan 14 untuk semua fitur

5 Bentuk fungsi keanggotaan model 5 dan 15 untuk semua fitur

(5)

Lampiran 4 Bentuk fungsi keanggotaan untuk semua model (lanjutan)

7 Bentuk fungsi keanggotaan model 7 dan 17 untuk semua fitur

(6)

Peringkasan Dokumen Bahasa Indonesia Menggunakan Logika Fuzzy

PERINGKASAN DOKUMEN BAHASA INDONESIA

MENGGUNAKAN LOGIKA FUZZY

R. AHMAD SOMADI GERBAWANI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2013

PERINGKASAN DOKUMEN BAHASA INDONESIA

MENGGUNAKAN LOGIKA FUZZY

R. AHMAD SOMADI GERBAWANI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2013

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK

CIPTA

ABSTRAK

ABSTRACT

PRAKATA

DAFTAR ISI

DAFTAR TABEL

DAFTAR GAMBAR

DAFTAR LAMPIRAN

PENDAHULUAN

METODE PENELITIAN

HASIL DAN PEMBAHASAN

SIMPULAN DAN SARAN

DAFTAR PUSTAKA

RIWAYAT HIDUP

RIWAYAT HIDUP

Dokumen yang terkait

PERBANDINGAN AKURASI DAN PEMBOBOTAN FITUR TEKS PADA PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN ALGORITMA GENETIKA

Sistem Peringkasan Dokumen Berita Bahasa Indonesia Menggunakan MetodeRegresi Logistik Biner

Perbandingan Kinerja Algoritme TextRank dengan Algoritme LexRank pada Peringkasan Dokumen Bahasa Indonesia

Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode K-Means.

Peringkasan Dokumen Bahasa Indonesia Menggunakan Pembobotan Fitur Kalimat

Peringkasan Teks Otomatis Dokumen Bahasa Indonesia Dengan Algoritma Genetika.

Peringkasan dokumen berita Bahasa Indonesia menggunakan metode Cross Latent Semantic Analysis

PERINGKASAN DOKUMEN BAHASA INDONESIA BERBASIS NON-NEGATIVE MATRIX FACTORIZATION ( NMF)

Peringkasan Multi-dokumen Berita Berbahasa Indonesia menggunakan Conditional Random Fields (CRF)

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles

Dokumen yang Anda mencari sudah siap untuk unduhkan