Analisis Dan Perbandingan Stemming Teks Bahasa Indonesia Menggunakan Algoritma Vega Dan Algoritma Cofix-Stripping
ANALISIS DAN PERBANDINGAN
STEMMING TEKS BAHASA INDONESIA MENGGUNAKAN
ALGORITMA VEGA DAN ALGORITMA CONFIX-STRIPPING
SKRIPSI
Diajukan untuk Menempuh Ujian Akhir Sarjana
HELMI AGUSTIAN
10111988
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS TEKNIK DAN ILMU KOMPUTER
KATA PENGANTAR
Assalamualaikum Wr. Wb.
Alhamdulilahi Rabbil’ Alamiin, puji dan syukur penulis panjatkan ke hadirat Allah
SWT atas rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul “Analisis Dan Perbandingan Stemming Teks Bahasa Indonesia Menggunakan Algoritma Vega Dan Algoritma Confix-Stripping
” untuk memenuhi salah satu syarat dalam menyelesaikan studi jenjang strata satu di Program Studi Teknik Informatika, Fakultas Teknik dan Ilmu Komputer, Universitas Komputer Indonesia. Penulisan skripsi ini tidak luput tanpa dukungan, bantuan dan masukan dari berbagai pihak. Melalui kata pengantar ini, Penulis ingin menyampaikan terima kasih kepada :
1. Allah SWT atas segala nikmat yang telah diberikan hingga Penulis dapat menyelesaikan skripsi ini.
2. Kedua orang tua beserta adik-adiku yang telah memberikan dukungan moril, kasih sayang, maupun doa sampai Penulis dapat menyelesaikan skrips ini.
3. Keluarga cianjur nenek, kakek, abah, umi dan seluruh keluarga besar di sana.
Terima kasih atas dukungan selama ini.
4. Ibu Tati Harihayati M., S.T., M.T., selaku dosen pembimbing. Terimakasih karena selama ini telah sabar dalam memberikan arahan, dukungan, saran, dan nasehatnya serta meluangkan waktunya selama proses penyusunan skripsi ini.
5. Ibu Nelly Indriani W, S.Si., M.T., selaku reviewer. Terimakasih karena telah meluangkan waktunya, memberikan bimbingan, saran, nasehat serta masukan dalam proses penyusunan skripsi ini 6. Bapak dan ibu dosen serta seluruh staf pegawai Program Studi Teknik
Informatika Universitas Komputer Indonesia yang telah membantu penulis
7. Teman-teman seperjuangan, sumedi, swaji, anggi, rully dan lainnya. Risma, arif, reni, gian, ade, jesika, dan teman-teman lain yang tidak bisa Penulis sebutkan, terima kasih atas bantuannya selama ini.
8. Teman-teman kantor wiradipa, terima kasih karena telah memberikan keceriaan di tengah proses penyusunan skripsi ini. Buat eja, yang mau digangu subuh-subuh buat pinjam c onverter vga. Nuhun ja… 9. Serta seluruh pihak yang tidak dapat Penulis sebutkan satu-persatu, terimakasih atas segala bentuk dukungan untuk menyelesaikan skripsi ini.
Penulis menyadari bahwa penulisan skripsi ini masih jauh dari sempurna. Oleh karena itu, penulis mengharapkan saran dan masukan yang bersifat membangun untuk perbaikan dan pengembangan skripsi ini. Akhir kata, semoga penulisan skripsi ini dapat bermanfaat bagi penulis khususnya dan bagi pembaca pada umumnya. Wassalamualaikum Wr. Wb.
Bandung, 27 Februari 2016 Penulis
DAFTAR ISI
ABSTRAK ...................................................................................................... i ABSTRACT .................................................................................................... ii KATA PENGANTAR .................................................................................... iii DAFTAR ISI .................................................................................................... v DAFTAR GAMBAR ....................................................................................... ix DAFTAR TABEL ............................................................................................ xii DAFTAR SIMBOL ......................................................................................... xv DAFTAR LAMPIRAN ................................................................................... xxii BAB 1 PENDAHULUAN ..............................................................................
1
1.1
1 Latar Belakang ....................................................................................
1.2
3 Rumusan Masalah ...............................................................................
1.3
3 Maksud dan Tujuan .............................................................................
1.4
4 Batasan Masalah .................................................................................
1.5
4 Metodologi Penelitian .........................................................................
1.5.1
4 Alur Penelitian ........................................................................
1.5.2
6 Pembangunan Perangkat Lunak ..............................................
1.6
7 Sistematika Penulisan .........................................................................
BAB 2 LANDASAN TEORI .........................................................................
9
2.1.2
14 Sufiks (akhiran) .......................................................................
2.1.3
14 Partikel ....................................................................................
2.2
14 Pengertian Stemming ..........................................................................
2.2.1
15 Macam-macam Metode Stemming .........................................
2.2.2
17 Algoritma Vega .......................................................................
2.2.3
20 Algoritma Confix-stripping ....................................................
2.3
21 Pengujian .............................................................................................
2.3.1
21 Ukuran rata-rata word conflation class ...................................
2.3.2
22 Index compression factor ........................................................
2.3.3
25 Jumlah kata yang berbeda antara kata masukan dan stem ......
2.3.4
25 Nilai rata-rata huruf yang dihapus ..........................................
2.3.5
25 Nilai mean dan median modified hamming distance ..............
2.4
26 Ruby on rails .......................................................................................
2.5
27 Unified Modelling Language ..............................................................
BAB 3ANALISIS DAN PERANCANGAN SISTEM ...................................
31
3.1
31 Analisis Sistem .....................................................................................
3.1.1
31 Analisis Masalah .....................................................................
3.1.2
31 Analisis Kebutuhan Data ........................................................
3.1.3
31 Analisis Algoritma ..................................................................
3.1.3.1
33 Analisis Proses Tokenizing ..........................................
3.1.3.3
35 Analisis Proses Stemming ...........................................
3.1.4
65 Analisis Kebutuhan Nonfungsional .........................................
3.1.4.1
66 Analisis Kebutuhan Perangkat Keras ..........................
3.1.4.2
66 Analisis Kebutuhan Perangkat Lunak .........................
3.1.4.3
67 Analisis Kebutuhan Pengguna ....................................
3.1.5
67 Analisis Kebutuhan Fungsional ..............................................
3.1.5.1
68 Diagram Use Case ........................................................
3.1.5.2
76 Diagram Aktivitas .......................................................
3.1.5.3
82 Diagram Sekuen ..........................................................
3.1.5.4
87 Diagram Kelas ............................................................
3.2
89 Perancangan Sistem ............................................................................
3.2.1
90 Perancangan Basis Data ..........................................................
3.2.1.1
90 Diagram Relasi ............................................................
3.2.1.2
91 Struktur Tabel .............................................................
3.2.2
95 Perancangan Antarmuka ..........................................................
3.2.3 103 Jaringan Semantik ...................................................................
3.2.4 104 Perancangan Method ...............................................................
BAB 4 IMPLEMENTASI DAN PENGUJIAN .............................................. 111
4.1 111 Implementasi .....................................................................................
4.1.1 111 Implementasi Perangkat Keras ................................................
4.1.3 112 Implementasi Basis Data .........................................................
4.1.4 115 Implementasi Antarmuka ........................................................
4.2 Hasil pengujian parameter uji algoritma vega dan algoritma confix- stripping .............................................................................................. 120
4.2.1 121 Ukuran rata-rata word per conflation class ....................
4.2.2 122 Index compresssion factor .............................................
4.2.3 Jumlah kata yang berbeda antara kata masukan dan stem 124
4.2.4 125 Nilai rata-rata huruf yang dihapus .................................
4.2.5 126 Nilai mean modified hamming distance ........................
4.2.6 127 Nilai median modified hamming distance .....................
4.3 129 Kesimpulan pengujian parameter uji ..............................................
BAB 5 KESIMPULAN DAN SARAN .......................................................... 131
5.1 KESIMPULAN ................................................................................. 131
5.2 SARAN .............................................................................................. 132 DAFTAR PUSTAKA ..................................................................................... 133
DAFTAR PUSTAKA
[1] Adipathy, A. 2010. “Analisis Dan Implementasi Perbandingan Stemming
Dengan Menggunakan Algoritma Jelita Asian Dan Algoritma Arifin & Setiono Pada Information Retrieval ”. Telkom University. Bandung. [2]
A.S. Rosa dan Shalahudin. 2013. “Rekayasa Perangkat Lunak”. Bandung: Informatika. [3] Asian, J. 2007. “Effective Techniques for Indonesian Text Retrieval”.
Melbourne: RMIT University, Australia. [4]
Asian, J., Williams, H.E. and Tahaghoghi, S.M.M. “Stemming Indonesian”. RMIT University, Melbourne, Australia. [5]
Frakes, W.B., Fox, C.J. “Strength and Similarity of Affix Removal Stemming Algorithms”. Computer Science Department. Virginia Tech and James Madison University.
[6] Jivani, A.G. 2011. “A comparative study of Stemming Algoritm”. Gujarat: Departement of Computer Science & Enginering. India.
[7] Marsya, J.M. & Abidin, T.F. “Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia”. Universitas Syiah Kualasa Banda Aceh,
Indonesia. [8]
Moeliono, A.M. dan Darjowidjojo, S. 1988. "Tata Bahasa Baku Bahasa Indonesia". Jakarta: Departemen Pendidikan dan Kebudayaan, Republik Indonesia.
[9] Nugraha, L.M. 2010. “Analisis Penggunaan Algoritma Stemming Vega Pada Information Retrieval System ”. Telkom University. Bandung.
[10] Sharma, D. 2012. “Stemming Algorithms: A Comparative Study and their
Analysis”. Department of Computer Scoence and Enginering, Thapar
[11] Paice, C.D. 1994. "An Evaluation method for stemming algoritms".
Springer-Verlag: New York. [12]
Senddon, J.N.. 1996. "Indonesian: A Comprehensive Grammar". London dan Newyork: Routledge. [13]
Wilujeng, A. 2002. "Inti Sari Kata Bahasa Indonesia Lengkap". Surabaya: Serba Jaya. [14]
Vega, B. V., dan Bressan, S. 2001. “Indexing the Indonesian web: Language Identification and Miscellaneous Issues”. Tenth International World Wide Web Conference, Hong Kong.
BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Digital library adalah sebuah koleksi objek digital yang dapat berupa teks,
materi visual, ataupun materi audio, yang disimpan dalam media elektronik. Salah satu keunggulan yang ditawarkan digital library adalah dalam hal pencarian. Dalam melakukan pencarian dalam digital library diperlukan penerapan teknik tertentu supaya hasil pencarian sesuai dengan apa yang dicari. Salah satunya adalah dengan menerapkan algoritma stemming dalam pencarian dokumen di dalam digital library.
Stemming adalah proses pemotongan imbuhan dari suatu kata ke bentuk asal atau
kata dasarnya [7]. Algoritma stemming merupakan fitur penting bagi sistem pengindeksan dan pencarian, karena dapat meningkatkan kemampuan recall dengan secara otomatis mengubah suatu kata ke bentuk dasarnya [6]. Algoritma stemming juga dapat meningkatan index compression yang merupakan hal penting karena dapat menjaga agar penggunaan tempat penyimpanan seminimal mungkin.
Masalah yang kemudian muncul adalah bagaimana menentukan algoritma stemming yang baik dari segi recall dan index compression. Menurut jurnal karya W.
B. Frakes salah satu faktor penentu baik tidaknya suatu algoritma stemming adalah dengan menghitung stemmer strength [5], semakin baik stemmer strength suatu algoritma maka semakin baik pula nilai recall dan index compression, walaupun memiliki kelemahan karena dapat menguarangi nilai dari precission. Parameter- parameter stemmer strength yaitu: ukuran rata-rata word per conflation class, index
compression factor, jumlah kata yang berbeda antara kata masukan dan kata keluaran
(stem), rata-rata huruf yang dihilangkan untuk membentuk stem, dan terakhir nilai median dan mean modified hamming distance antara kata masukan dan stem. Parameter-parameter stemmer strength tersebut di atas akan diuji pada algoritma stemming untuk Bahasa Indonesia. Algoritma stemming pada Bahasa Indonesia diantaranya adalah Ahmad Yusoff Sembok (1996) yang sebenarnya dibuat untuk bahasa melayu, Nazief & Adriani (1996) merupakan algoritma stemming awal untuk Bahasa Indonesia, Idris (2001) merupakan pengembangan dari algoritma Ahmad Yusoff Sembok untuk Bahasa Indonesia, Vega (2001), Arifin & Setiono (2002) merupakan penyederhanaan dari Nazief & Adriani, dan Confix-stripping (2005) merupakan pengembangan dari Nazief & Adriani. Algoritma stemming pada Bahasa Indonesia yang dipilih pada penelitian ini adalah Algoritma vega yang dibuat untuk meningkatkan performa retrieval dokumen dalam hal ini recall dan precission, dan algoritma confix-stripping yang memiliki nilai kompresi lebih baik dari Arifin & Setiono.
Berdasarkan jurnal karya Lusiano Marga N. yang berjudul “Analisis Penggunaan Algoritma Stemming Vega Pada Information Retrieval System”, Algoritma Vega adalah algoritma stemming yang hanya menggunakan aturan morfologi tanpa menggunakan kamus kata dasar dalam menentukan stem. Keakuratan stem dengan kata dasar bukanlah hal yang ditonjolkan oleh Algoritma Vega, akan tetapi algoritma ini dibuat untuk meningkatkan performa retrieval dokumen dalam hal ini recall dan precission [9].
Berdasarkan jurnal karya Asriko Adipathy yang berjudul "Analisis Dan Implementasi Perbandingan Stemming Dengan Menggunakan Algoritma Jelita Asian Dan Algoritma Arifin & Setiono Pada Information Retrieval", Algoritma Confix- Stripping dimana penulis di sini menyebutnya sebagai Algoritma Jelita Asian, memiliki nilai kompresi yang lebih baik dari pada algoritma Arifin & Setiono.
Algoritma Confix-Stripping adalah algoritma stemming yang selain menggunakan aturan morfologi juga menggunakan kamus kata dasar dalam menentukan stem [1].
Dokumen sample uji yang dipakai adalah digital library Sarihusada yang berisi tutorial-tutorial seputar ibu dan anak saat masih di dalam kandungan hingga balita. Dengan dilakukannya analisis dan perbandingan kedua algoritma ini agar diketahui algoritma terbaik yang dapat menghasilkan stem (kata dasar) dari kata berimbuhan pada Bahasa Indonesia pada digital library tersebut.
1.2. Rumusan Masalah
Berdasarkan latar belakang yang telah disebutkan di atas dapat ditemukan masalah yang dapat dirumuskan dalam satu rumusan masalah , yaitu bagaimana melakukan analisis dan perbandingan Algoritma Stemming Vega dan Confix- stripping pada Bahasa Indonesia dengan menentukan kemampuan recall dan index
compression.
1.3. Maksud dan Tujuan
Penelitian ini memiliki maksud dan tujuan yaitu: 1.3.1.
Maksud
Berdasarkan permasalahan yang diteliti, maksud dilakukannya penelitian ini adalah untuk melakukan analisis dan perbandingan Algoritma Stemming Vega dan Algoritma Stemming Confix-stripping pada Bahasa Indonesia dengan menghitung parameter ukuran rata-rata word per conflation class, index compression factor, jumlah kata yang berbeda antara kata masukan dan kata keluaran (stem), rata-rata huruf yang dihilangkan untuk membentuk stem, dan terakhir nilai median dan mean
modified hamming distance antara kata masukan dan stem.
1.3.2. Tujuan
Tujuan yang ingin dicapai dari penelitian ini adalah untuk mengetahui algoritma terbaik yang dapat menghasilkan stem (kata dasar) dari kata berimbuhan dalam hal
recall dan index compression pada Bahasa Indonesia khususnya pada digital library
1.4. Batasan Masalah
Agar pembahasan penelitian terfokuskan pada lingkup masalah yang diinginkan, maka ada batasan masalah yang diterapkan, yaitu :
1. Dokumen-dokumen yang dipakai untuk melakukan penelitian adalah dokumen berformat pdf pada digital library Sarihusada.
2. Sistem dibangun menggunakan ruby on rails.
3. Penelitian berpusat pada proses stemming tidak sampai mengimplementasikan ke proses pembuatan indeks ataupun proses pencarian.
4. Parameter uji yang dilakukan antar lain: ukuran rata-rata word per conflation
class, index compression factor, jumlah kata yang berbeda antara kata
masukan dan kata keluaran (stem), rata-rata huruf yang dihilangkan untuk membentuk stem, dan terakhir nilai median dan mean modified hamming
distance antara kata masukan dan stem 1.5.
Metodologi Penelitian
Metodologi penelitian yang digunakan dalam penulisan tugas akhir ini adalah metodologi deskriptif yang bertujuan untuk mengumpulkan informasi aktual secara rinci, melukiskan gejala yang ada, mengindetifikasi masalah atau memeriksa kondisi dan praktik-praktik yang berlaku, membuat perbandingan atau evaluasi.
1.5.1. Alur Penelitian
Diagram pada Gambar 1.1 berikut ini merupakan langkah-langkah yang diambil untuk mendukung proses penelitian agar penelitian dapat berjalan lebih terarah dan sistematis.
Mulai
Pengumpulan Data Primer Sekunder1. Jurnal-jurnal algoritma vega 1. Dokumen digital sari husada dan confix-stripping dari pihak
2. Kamus data b. indonesia ketiga
3. Jurnal-jurnal algoritma vega 2.
Buku-buku yang membantu dan confix-stripping penelitian
Analisis dan perancangan Analisis Perancangan Sistem 1.
1. Analisis Masalah Perancangan Basis Data 2.
2. Analisis Kebutuhan Data Perancagan Antar Muka 3.
Analisis Algoritma vega dan Algoritma confix- stripping Pembangunan sistem
Sistem dibangun di dalam sistem digital library sari husada yang dibangun dengan bahasa pemograman ruby menggunakan ruby on rails frameworks. Ruby on Rails akan dijadikan alat untuk mengimplementasi kan algoritma vega dan confix-stripping
Lanjutan
Gambar 1.1 Diagram Alir Penelitian
Lanjutan
Pengujian dan Evaluasi Pengujian Evaluasi 1.
1. Pengujian Blackbox Kesimpulan Pengujian yang dilakukan pada Kesimpulan yang diperoleh dari fungsionalitas pada sistem yang telah implementasi algoritma vega dan confix- dibangun. Pengujian terfokus pada stripping, serta kesimpulan dari hasil parameter pengujian yaitu : word pengujian conflation class dan index compression
2. Saran factor Saran yang dijadikan acuan untuk 2. Pengujian Whitebox pengembangan selanjutnya
Pengujian didaasarkan pada pengecekan detail rancangan Aplikasi perbandingan algoritma stemming vega dan confix-stripping
Gambar 1.1 Diagram Alir Penelitian (lanjutan) 1.5.2.Pembangunan Perangkat Lunak
Dalam membangun perangkat lunak pada penelitian ini, digunakan metode pengembangan perangkat lunak, yaitu dengan menggunakan metode waterfall yang bisa digambarkan seperti Gambar 1.2 berikut :
Gambar 1.2 Waterfall Model 1.6.Sistematika Penulisan
Sistematika penulisan pada penelitian ini disusun untuk memberikan gambaran secara umum mengenai penelitian yang dilakukan. Sistematika penulisan pada penelitian ini sebagai berikut :
BAB 1 PENDAHULUAN Bab ini menguraikan tentang latar belakang masalah, rumusan masalah, menentukan
maksud dan tujuan, batasan masalah, metodologi penelitian serta sistematika penulisan.
BAB 2 LANDASAN TEORI Bab ini membahas berbagai konsep dasar dan teori - teori yang berkaitan dengan
stemming bahasa Indonesia dan algoritma-algoritma stemming. Konsep atau teori yang dijelaskan dimulai dari penjelasan mengenai morfologi bahasa Indonesia, pengertian stemming, pengertian algoritma vega dan algoritma confix-stripping
BAB 3 ANALISIS DAN PERANCANGAN SISTEM Bab ini menguraikan penjelasan tentang analisis dan perancangan sistem. Analisis
sistem berisi analisis masalah, analisis kebutuhan data, analisis algoritma yang terdiri dari algoritma vega dan confix-stripping, analisis kebutuhan nonfungsional, dan analisis kebutuhan fungsional. Perancangan sistem berisi perancangan basis data yang terdiri dari diagram relasi dan struktur table, kemudian perancangan antar muka yang memberikan gambaran antarmuka sistem
BAB 4 IMPLEMENTASI DAN PENGUJIAN Bab ini berisi tentang implementasi yang bertujuan untuk memastikan bahawa
aplikasi telah berhasil diimplementasikan dan dapat berjalan sesuai dengan yang diinginkan, Kemudian disertai hasil pengujian dari aplikasi yang telah dilakukan.
BAB 5 KESIMPULAN DAN SARAN Bab ini berisi kesimpulan dari hasil penelitian skripsi ini dan saran untuk pengembangan penelitian lebih lanjut.
BAB 5 KESIMPULAN DAN SARAN 5.1. KESIMPULAN Berdasarkan hasil pengujian yang telah dilakukan dalam analisis dan
perbandingan algoritma vega dan algoritma confix-stripping, dapat disimpulkan bahwa keenam parameter uji tidak menunjukan kekonsistenan dalam menentukan algoritma mana yang lebih baik. Hasil pengujian terhadap sepuluh dokumen uji menunjukan algoritma vega lebih baik pada empat parameter uji yaitu jumlah kata yang berbeda antara kata masukan dan stem, nilai rata-rata huruf yang dihapus, nilai
mean modified hamming distance, dan nilai median modified hamming distance.
Sedangkan algoritma confix-stripping lebih baik pada dua parameter uji lainnya yaitu ukuran rata-rata word per conflation class dan index compression factor.Masing-masing parameter pengujian dapat menunjukan karakteristik dari kedua algoritma. Parameter pengujian dimana algoritma vega lebih unggul dari pada algoritma confix-stripping merupakan parameter yang menunjukan seberapa sering algoritma tersebut merubah kata masukan (term) dengan menghapus ataupun mengganti huruf-hurufnya, sehingga menjadi stem. Sedangkan parameter pengujian dimana algoritma confix-stripping lebih unggul dari algoritma vega merupakan parameter yang menunjukan seberapa sering algoritma tersebut dalam mengubah beberapa kata berimbuhan menjadi satu kata dasar (stem) yang sama.
Hal di atas berarti kedua algoritma masing-masing memiliki kelebihan untuk kasus tertentu. Algoritma vega memiliki kelebihan dalam mengubah term menjadi kata yang berbeda atau baru. Sedangkan algoritma confix-stripping memiliki kelebihan dalam mengurangi jumlah term, seperti mereduksi index size pada proses
indexing.
5.2. SARAN
Berdasarkan hasil pengujian yang telah dilakukan, maka saran yang diharapkan setelah dilakukannya analisis dan perbandingan algoritma vega dan algoritma confix- stripping pada teks bahasa indonesia adalah sebagai berikut : 1.
Melakukan pengujian terhadap stem yang dihasilkan algoritma vega apakah dapat mempengaruhi proses indexing.
2. Melakukan analisis performansi algoritma confix-stripping dalam mereduksi ukuran index size.
3. Melakukan implementasi terhadap proses pencarian pada information retrieval.
Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :2089-9033
Kata Kunci : Stemming, Vega, Confix-stripping 1.
stemmer strength, dimana penting dalam kasus
Ada beberapa cara yang dilakukan stemmer untuk menjalankan proses stemming diantaranya: Table look-up, affix removal stemmers, successor variety dan n-gram stemmer. Pada penelitian ini akan dilakukan analisis dan perbandingan algoritma vega dan confix-stripping yang sama-sama merupakan metode affix removal stemmers. Pengujian di dalam penelitian ini menggunakan parameter penggujian yang dijelaskan di dalam jurnal karya Frakes W.B. dan Fox C.J. [2]. Parameter-parameter ini digunakan untuk mengukur
system.
Sehingga bisa dikatakan dengan stemming mampu meningkatkan performansi information retrieval
indexing adalah effisiensi dan kompresi file indeks.
indeks. Term bisa di-stemming pada saat indexing maupun searching. Keuntungan dari stemming saat
retrieval system untuk mengurangi ukuran file
dilakukan secara manual maupun otomatis. Program untuk conflation otomatis ini disebut sebagai "stemmer". Stemmer digunakan di information
query dan indexing dan untuk permasalahan natural language processing. Proses conflation dapat
Proses stemming biasanya juga disebut conflation, yang digunakan pada search engine untuk ekspresi
Karena seperti yang telah disebutkan di atas bahwa imbuhan pada Bahasa Indonesia terdiri dari awalan, sisipan, akhiran, bentuk perulangan dan kombinasi awalan akhiran. Imbuhan-imbuhan yang melekat pada suatu kata harus dihilangkan untuk mengubah bentuk kata tersebut menjadi bentuk kata dasarnya.
menemukan kata dasar dari sebuah kata bentukan atau kata berimbuhan. Dengan menghilangkan semua imbuhan baik yang terdiri dari awalan,
PENDAHULUAN Stemming merupakan suatu proses untuk
terhadap dokumen-dokumen sample uji menunjukan kecenderungan untuk selalu mengubah kata berimbuhan lebih sering dari pada algoritma confix- stripping. Sedangkan algoritma confix-stripping menunjukan kecenderungan untuk mengubah beberapa kata berimbuhan menjadi satu kata dasar yang sama lebih banyak dari pada algoritma vega.
Analisis Dan Perbandingan Stemming Teks
Bahasa Indonesia Menggunakan Algoritma Vega
Dan Algoritma Confix-Stripping
hamming distance antara kata masukan dan stem,
kata yang berbeda antara kata masukan dan stem, rata-rata huruf yang dihilangkan untuk membentuk stem, dan terakhir nilai median dan mean modified
stemmer strength yaitu ukuran rata-rata word per conflation class, index compression factor, jumlah
parameter stemmer strength dapat mewakili kemampuan algoritma stemming dalam hal recall dan index compression [2]. Algoritma vega berdasarkan pengukuran parameter-parameter
index compression. Pengukuran parameter-
Algoritma stemming merupakan sebuah algoritma yang dapat mengubah kata berimbuhan ke bentuk kata dasarnya. Penerapan algoritma stemming salah satunya pada sistem pencarian dokumen, dengan meningkatkan kemampuan pada segi recall dan
ABSTRAK
Jl. Dipatiukur 112-114 Bandung Email
2 Teknik Informatika – Universitas Komputer Indonesia
, Tati Harihayati
1
Helmi Agustian
algoritma penghilangan imbuhan, karena dapat Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :2089-9033
huruf yang dihilangkan untuk membentuk stem, dan terakhir nilai median dan mean modified hamming distance antara kata masukan dan stem.
Suatu algoritma stemming menginginkan nilai per conflation class yang lebih besar dari algoritma lainnya, untuk menunjukan algoritma tersebut lebih baik.
Dimana : icf = Index compression factor n = Jumlah kata unik sebelum stemming s = Jumlah kata unik hasil stemming
%
� − �) �
��� = (
kemudian setelah dilakukan stemming apabila menghasilkan beberapa kata yang sama dilakukan penghapusan sehingga seluruh hasil stemming merupakan kata unik sebanyak s. Maka untuk menghitung parameter index compression factor (icf) adalah :
stemming. Apabila jumlah kata-kata di dalam corpus (kata unik sebelum stemming) sebanyak n,
Parameter kedua yaitu index compression factor, menunjukan seberapa besar tingkat kompresi indeks dari algoritma stemming, atau seberapa besar tingkat pengurangan dari index size setelah dilakukan
Dimana : wcc = Word per conflation class n = Jumlah kata unik sebelum stemming s = Jumlah kata unik hasil stemming
1.1. Algoritma Vega
�� = � �
corpus, dengan rumus sebagai berikut:
Pengujian di dalam penelitian ini menggunakan parameter penggujian yang dijelaskan di dalam jurnal karya Frakes W.B. dan Fox C.J. [2]. Parameter pertama adalah ukuran rata-rata word per conflation class, yaitu menunjukan jumlah rata-rata kata yang menghasilkan stem yang sama dari
1.3. Parameter-parameter Uji
Algoritma stemming Confix-stripping (CS) adalah sebuah metode stemming pada Bahasa Indonesia yang diperkenalkan oleh Jelita Asian yang merupakan pengembangan dari metode stemming yang dibuat oleh Nazief dan Adriani [1]. Algoritma ini menggunakan kamus data untuk melakukan pengecekan kata dasar. Secara garis besar tahapan algoritma confix-stripping dapat dijelaskan seperti Gambar 1.
1.2. Algoritma Confix-stripping
Algoritma vega merupakan algoritma stemming yang diperkenalkan oleh Vinsensius Berlian Vega pada tahun 2001. Algoritma vega tidak menggunakan kamus data dalam melakukan pengecekan kata dasar. Secara garis besar tahapan dalam algoritma vega berturut-turut adalah pembuangan partikel, pembuangan kata kepunyaan, pembuangan circumfix, pembuangan awalan, dan terakhir pembuangan akhiran.
Suatu algoritma stemming menginginkan nilai index compression factor yang lebih besar dari algoritma lainnya, untuk menunjukan algoritma tersebut lebih baik. Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :2089-9033
Parameter keempat adalah nilai rata-rata huruf yang dihapus, yaitu nilai rata-rata huruf dari kata masukan yang dihapus untuk membentuk sebuah stem. Algoritma stemming yang kuat akan menghapus huruf lebih banyak untuk membentuk sebuah stem.
Tabel 2 index compression factor Algoritma stemming yang bagus dalam hal stemmer strength menginginkan nilai index compression factor yang lebih besar dari algoritma stemming lainnya. Berdasarkan pengujian pada Tabel 2 parameter index compression factor algoritma confix-stripping lebih baik sebesar 2,598 %
5
85 85 1.162 % 1.162 % 4 184 182 181 1.086 % 1.63 %
86
3
77 77 1.282 % 1.28 %
78
2
Dok No n s icf Vega CS Vega CS 1 417 407 400 2.398 % 4.076 %
Parameter kelima dan keenam berturut-turut adalah nilai mean dan median modified hamming distance. Nilai hamming distance antara dua string yang memiliki panjang yang sama didefinisikan sebagai jumlah karakter yang berbeda di posisi yang sama. Nilai hamming distance antara dua string yang memiliki panjang berbeda didefinisikan sebagai perbedaan panjang antara dua string tersebut. Sebagai contoh terdapat tiga kata, membaca, dibaca, dan membacakan. Apabila sebuah algoritma stemming mengubahnya ke stem „baca‟, maka : 1. membaca beda 3 huruf dengan „baca‟ 2. dibaca beda 2 huruf dengan „baca‟ 3. membacakan beda 6 huruf dengan „baca‟ Sehingga nilai mean modified hamming distance dapat dihitung sebagai nilai rata-ratanya yaitu sebagai berikut: (3+2+6) / 3 = 3,66 Didapat nilai mean modified hamming distance sebesar 3,66 kata.
7
58
2.2. Index Compression Factor
79 78 1.25 % 2.5 % 6 462 451 450 2.381 % 2.597%
Algoritma stemming yang bagus dalam hal stemmer strength menginginkan nilai mean word per conflation class yang lebih besar dari algoritma stemming lainnya. Berdasarkan pengujian pada Tabel 1 parameter mean word per conflation class algoritma confix-stripping lebih baik dengan rata- rata 1,026 kata.
84 83 1.012 kata 1.024 kata 9 115 114 114 1.0087 kata 1.008 kata 10 128 126 124 1,015 kata 1,032 kata Total 1693 1662 1649 1,018 kata 1,026 kata
85
8
57 57 1.017 kata 1.017 kata
58
7
57 57 1.724 % 1.724 %
8
85
84 83 1.176 % 2.353 % 9 115 114 114 0.869 % 0.869 % 10 128 126 124 1,562 % 3,125 % Tota l 1693 1662 1649 1,831 % 2,598 %
Nilai median modified hamming distance juga dapat diperoleh sebagai nilai tengah dari ketiga nilai tersebut setelah diurutkan. Sehingga didapat nilai median modified hamming distance sebesar 3.
80
2. ISI PENELITIAN
Tabel 3 jumlah kata yang berbeda antara kata masukan dan keluaran Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :2089-9033
2.3. Jumlah Kata Yang Berbeda Antara Kata Masukan Dan Keluaran
Ukuran Rata-rata Word Per Conflation Class
telah melalui hasil filtering, sebagai berikut : 2.1.
corpus untuk diuji ke masing-masing algoritma yang
Hasil pengujian algoritma vega dan algoritma confix-stripping merupakan pengujian terhadap parameter uji pada dokumen-dokumen uji. Dokumen-dokumen yang diambil merupakan dokumen sample dari digital library Sarihusada sebanyak sepuluh dokumen. Kesepuluh dokumen memiliki jumlah kata masukan (kata uji) berupa
Dok No Vega CS 1 409 kata 365 kata 2 76 kata 65 kata 3 83 kata 72 kata 4 179 kata 72 kata
Algoritma stemming yang bagus dalam hal stemmer strength lebih sering merubah kata dari algoritma stemming lainnya, sehingga menghasilkan kata yang berbeda. Berdasarkan pengujian pada Tabel 3 algoritma vega lebih baik dengan total perbedaan 1636 kata dari 10 dokumen sampel uji.
3
3
5
3
3
6
4
3
7
3
8
4
3
3
9
3
3
10
4
3 Rata-rata Total 3,5 3,1
Algoritma stemming yang bagus dalam hal stemmer strength memiliki nilai hamming distance lebih besar dari algoritma stemming lainnya, dapat berarti juga untuk sejumlah kata di dalam dokumen memiliki nilai tengah (median) yang paling besar. Berdasarkan pengujian pada Tabel 6 dari 10 dokumen algoritma vega rata-rata memiliki nilai median yang lebih baik sebesar 3,5.
3. PENUTUP 3.1. Kesimpulan
4
3
2.4. Nilai Rata-rata Huruf Yang Dihapus
3 317 304 86 3.686 kata 3.534 kata kata kata 10 486 382 128 3,796 kata 2,984 kata Total 6420 5773 1693 3,792 kata 3,409 kata
Tabel 4 nilai rata-rata huruf yang dihapus
Dok No m n Vega CS Vega CS 1 1662 1450 417 3.985 huruf 3.477 huruf 2 305 265 78 3.91 huruf 3.397 huruf 3 317 289 86 3.686 huruf
3.36 huruf 4 699 604 184 3.798 huruf 3.282 huruf 5 279 227 80 3.487 huruf 2.837 huruf 6 1763 1567 462 3.816 huruf 3.391 huruf 7 206 172 58 3.551 huruf 2.965 huruf 8 295 225 85 3.4705 huruf 2.647 huruf 9 408 319 115 3.547 huruf 2.773h uruf 10 486 360 128 3,796 huruf 2,812 huruf Total 6420 5478 1693 3,792 huruf 3,235 huruf
Algoritma stemming yang bagus dalam hal stemmer strength lebih sering menghapus huruf untuk membentuk sebuah stem. Berdasarkan pengujian pada Tabel 4 algoritma vega lebih baik karena rata- rata menghapus 3,792 huruf dari 10 dokumen uji.
2.5. Nilai Mean Modified Hamming Distance
Tabel 5 nilai mean modified hamming distance
No h n Vega CS Vega Cs 1 1662 1528 417 3.985 kata
3.664 kata 2 305 280
78
3.91 kata 3.589 kata
Algoritma stemming yang bagus dalam hal stemmer strength memiliki nilai hamming distance lebih besar dari algoritma stemming lainnya, atau memiliki rata-rata hamming distance yang lebih besar untuk sejumlah kata di dalam dokumen uji. Berdasarkan pengujian pada Tabel 5 algoritma vega lebih baik karena memiliki rata-rata hamming distance sebanyak 3,792 kata.
3
2.6. Nilai Median Modified Hamming Distance
Tabel 6 nilai median modified hamming distance
Dok No Vega CS
1
4
4
2
4
3
3
Berdasarkan hasil pengujian yang telah dilakukan dalam analisis dan perbandingan algoritma vega dan algoritma confix-stripping, dapat disimpulkan bahwa keenam parameter uji tidak menunjukan Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :2089-9033
rata-rata word per conflation class dan index compression factor. Hal di atas berarti kedua algoritma masing-masing memiliki kelebihan untuk kasus tertentu. Algoritma vega memiliki kelebihan dalam mengubah term menjadi kata yang berbeda atau baru. Sedangkan algoritma confix-stripping memiliki kelebihan dalam mengurangi jumlah term, seperti mereduksi index
size pada proses indexing.
3.2. Saran
Berdasarkan hasil pengujian yang telah dilakukan, maka saran yang diharapkan setelah dilakukannya analisis dan perbandingan algoritma vega dan algoritma confix-stripping pada teks bahasa indonesia adalah sebagai berikut :
1. Melakukan pengujian terhadap stem yang dihasilkan algoritma vega apakah dapat mempengaruhi proses indexing.
2. Melakukan analisis performansi algoritma confix-stripping dalam mereduksi ukuran index size.
3. Melakukan implementasi terhadap proses pencarian pada information retrieval.
4. DAFTAR PUSTAKA
[1] Asian, J., Williams, H.E. and Tahaghoghi,
S.M.M. “Stemming Indonesian”. RMIT University, Melbourne, Australia. [2]
Frakes, W.B., Fox, C.J. “Strength and Similarity of Affix Removal Stemming Algorithms”. Computer Science Department.
Virginia Tech and James Madison University. [3]
Vega, B. V., dan Bressan, S. 2001. “Indexing the Indonesian web: Language Identification and M iscellaneous Issues”. Tenth International World Wide Web Conference, Hong Kong.
Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :2089-9033
Analysis And Comparison Stemming Indonesian Text
Using Vega Algorithm And Confix-stripping Algorithm
Helmi Agustian
1
, Tati Harihayati
2 Teknik Informatika
- – Universitas Komputer Indonesia Jl. Dipatiukur 112-114 Bandung Email
ABSTRAK Stemming algorithm is an algorithm that can transform word to its root word. In the document searching, stemming expected to increase recall and index compression. Calculating the stemmer strength can predict how well a stemming algorithm in the abillity to recall and index compression[2]. Based on the results to calculate six measures of stemmer strength which is mean number of word per conflation class, index compression factor, the number of words and stems that differ, the mean number of characters removed in forming stems, and the last median and mean modified hamming distance between words and their stems. Vega algorithm tend to often transform word rather than confix-stripping algorithm. The results also show that confix-stripping algorithm tend to often transform words that correspond to the same stemm for a corpus.
Kata Kunci : Stemming, Vega, Confix-stripping 1.
INTRODUCTION