Analisis Dan Perbandingan Stemming Teks Bahasa Indonesia Menggunakan Algoritma Vega Dan Algoritma Cofix-Stripping

  

ANALISIS DAN PERBANDINGAN

STEMMING TEKS BAHASA INDONESIA MENGGUNAKAN

ALGORITMA VEGA DAN ALGORITMA CONFIX-STRIPPING

  

SKRIPSI

  Diajukan untuk Menempuh Ujian Akhir Sarjana

  

HELMI AGUSTIAN

10111988

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS TEKNIK DAN ILMU KOMPUTER

  

KATA PENGANTAR

Assalamualaikum Wr. Wb.

  

Alhamdulilahi Rabbil’ Alamiin, puji dan syukur penulis panjatkan ke hadirat Allah

  SWT atas rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul “Analisis Dan Perbandingan Stemming Teks Bahasa Indonesia Menggunakan Algoritma Vega Dan Algoritma Confix-Stripping

  ” untuk memenuhi salah satu syarat dalam menyelesaikan studi jenjang strata satu di Program Studi Teknik Informatika, Fakultas Teknik dan Ilmu Komputer, Universitas Komputer Indonesia. Penulisan skripsi ini tidak luput tanpa dukungan, bantuan dan masukan dari berbagai pihak. Melalui kata pengantar ini, Penulis ingin menyampaikan terima kasih kepada :

  1. Allah SWT atas segala nikmat yang telah diberikan hingga Penulis dapat menyelesaikan skripsi ini.

  2. Kedua orang tua beserta adik-adiku yang telah memberikan dukungan moril, kasih sayang, maupun doa sampai Penulis dapat menyelesaikan skrips ini.

  3. Keluarga cianjur nenek, kakek, abah, umi dan seluruh keluarga besar di sana.

  Terima kasih atas dukungan selama ini.

  4. Ibu Tati Harihayati M., S.T., M.T., selaku dosen pembimbing. Terimakasih karena selama ini telah sabar dalam memberikan arahan, dukungan, saran, dan nasehatnya serta meluangkan waktunya selama proses penyusunan skripsi ini.

  5. Ibu Nelly Indriani W, S.Si., M.T., selaku reviewer. Terimakasih karena telah meluangkan waktunya, memberikan bimbingan, saran, nasehat serta masukan dalam proses penyusunan skripsi ini 6. Bapak dan ibu dosen serta seluruh staf pegawai Program Studi Teknik

  Informatika Universitas Komputer Indonesia yang telah membantu penulis

  7. Teman-teman seperjuangan, sumedi, swaji, anggi, rully dan lainnya. Risma, arif, reni, gian, ade, jesika, dan teman-teman lain yang tidak bisa Penulis sebutkan, terima kasih atas bantuannya selama ini.

  8. Teman-teman kantor wiradipa, terima kasih karena telah memberikan keceriaan di tengah proses penyusunan skripsi ini. Buat eja, yang mau digangu subuh-subuh buat pinjam c onverter vga. Nuhun ja… 9. Serta seluruh pihak yang tidak dapat Penulis sebutkan satu-persatu, terimakasih atas segala bentuk dukungan untuk menyelesaikan skripsi ini.

  Penulis menyadari bahwa penulisan skripsi ini masih jauh dari sempurna. Oleh karena itu, penulis mengharapkan saran dan masukan yang bersifat membangun untuk perbaikan dan pengembangan skripsi ini. Akhir kata, semoga penulisan skripsi ini dapat bermanfaat bagi penulis khususnya dan bagi pembaca pada umumnya. Wassalamualaikum Wr. Wb.

  Bandung, 27 Februari 2016 Penulis

  

DAFTAR ISI

  ABSTRAK ...................................................................................................... i ABSTRACT .................................................................................................... ii KATA PENGANTAR .................................................................................... iii DAFTAR ISI .................................................................................................... v DAFTAR GAMBAR ....................................................................................... ix DAFTAR TABEL ............................................................................................ xii DAFTAR SIMBOL ......................................................................................... xv DAFTAR LAMPIRAN ................................................................................... xxii BAB 1 PENDAHULUAN ..............................................................................

  1

  1.1

  1 Latar Belakang ....................................................................................

  1.2

  3 Rumusan Masalah ...............................................................................

  1.3

  3 Maksud dan Tujuan .............................................................................

  1.4

  4 Batasan Masalah .................................................................................

  1.5

  4 Metodologi Penelitian .........................................................................

  1.5.1

  4 Alur Penelitian ........................................................................

  1.5.2

  6 Pembangunan Perangkat Lunak ..............................................

  1.6

  7 Sistematika Penulisan .........................................................................

  BAB 2 LANDASAN TEORI .........................................................................

  9

  2.1.2

  14 Sufiks (akhiran) .......................................................................

  2.1.3

  14 Partikel ....................................................................................

  2.2

  14 Pengertian Stemming ..........................................................................

  2.2.1

  15 Macam-macam Metode Stemming .........................................

  2.2.2

  17 Algoritma Vega .......................................................................

  2.2.3

  20 Algoritma Confix-stripping ....................................................

  2.3

  21 Pengujian .............................................................................................

  2.3.1

  21 Ukuran rata-rata word conflation class ...................................

  2.3.2

  22 Index compression factor ........................................................

  2.3.3

  25 Jumlah kata yang berbeda antara kata masukan dan stem ......

  2.3.4

  25 Nilai rata-rata huruf yang dihapus ..........................................

  2.3.5

  25 Nilai mean dan median modified hamming distance ..............

  2.4

  26 Ruby on rails .......................................................................................

  2.5

  27 Unified Modelling Language ..............................................................

  BAB 3ANALISIS DAN PERANCANGAN SISTEM ...................................

  31

  3.1

  31 Analisis Sistem .....................................................................................

  3.1.1

  31 Analisis Masalah .....................................................................

  3.1.2

  31 Analisis Kebutuhan Data ........................................................

  3.1.3

  31 Analisis Algoritma ..................................................................

  3.1.3.1

  33 Analisis Proses Tokenizing ..........................................

  3.1.3.3

  35 Analisis Proses Stemming ...........................................

  3.1.4

  65 Analisis Kebutuhan Nonfungsional .........................................

  3.1.4.1

  66 Analisis Kebutuhan Perangkat Keras ..........................

  3.1.4.2

  66 Analisis Kebutuhan Perangkat Lunak .........................

  3.1.4.3

  67 Analisis Kebutuhan Pengguna ....................................

  3.1.5

  67 Analisis Kebutuhan Fungsional ..............................................

  3.1.5.1

  68 Diagram Use Case ........................................................

  3.1.5.2

  76 Diagram Aktivitas .......................................................

  3.1.5.3

  82 Diagram Sekuen ..........................................................

  3.1.5.4

  87 Diagram Kelas ............................................................

  3.2

  89 Perancangan Sistem ............................................................................

  3.2.1

  90 Perancangan Basis Data ..........................................................

  3.2.1.1

  90 Diagram Relasi ............................................................

  3.2.1.2

  91 Struktur Tabel .............................................................

  3.2.2

  95 Perancangan Antarmuka ..........................................................

  3.2.3 103 Jaringan Semantik ...................................................................

  3.2.4 104 Perancangan Method ...............................................................

  BAB 4 IMPLEMENTASI DAN PENGUJIAN .............................................. 111

  4.1 111 Implementasi .....................................................................................

  4.1.1 111 Implementasi Perangkat Keras ................................................

  4.1.3 112 Implementasi Basis Data .........................................................

  4.1.4 115 Implementasi Antarmuka ........................................................

  4.2 Hasil pengujian parameter uji algoritma vega dan algoritma confix- stripping .............................................................................................. 120

  4.2.1 121 Ukuran rata-rata word per conflation class ....................

  4.2.2 122 Index compresssion factor .............................................

  4.2.3 Jumlah kata yang berbeda antara kata masukan dan stem 124

  4.2.4 125 Nilai rata-rata huruf yang dihapus .................................

  4.2.5 126 Nilai mean modified hamming distance ........................

  4.2.6 127 Nilai median modified hamming distance .....................

  4.3 129 Kesimpulan pengujian parameter uji ..............................................

  BAB 5 KESIMPULAN DAN SARAN .......................................................... 131

  5.1 KESIMPULAN ................................................................................. 131

  5.2 SARAN .............................................................................................. 132 DAFTAR PUSTAKA ..................................................................................... 133

DAFTAR PUSTAKA

  [1] Adipathy, A. 2010. “Analisis Dan Implementasi Perbandingan Stemming

  Dengan Menggunakan Algoritma Jelita Asian Dan Algoritma Arifin & Setiono Pada Information Retrieval ”. Telkom University. Bandung. [2]

  A.S. Rosa dan Shalahudin. 2013. “Rekayasa Perangkat Lunak”. Bandung: Informatika. [3] Asian, J. 2007. “Effective Techniques for Indonesian Text Retrieval”.

  Melbourne: RMIT University, Australia. [4]

  Asian, J., Williams, H.E. and Tahaghoghi, S.M.M. “Stemming Indonesian”. RMIT University, Melbourne, Australia. [5]

  Frakes, W.B., Fox, C.J. “Strength and Similarity of Affix Removal Stemming Algorithms”. Computer Science Department. Virginia Tech and James Madison University.

  [6] Jivani, A.G. 2011. “A comparative study of Stemming Algoritm”. Gujarat: Departement of Computer Science & Enginering. India.

  [7] Marsya, J.M. & Abidin, T.F. “Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia”. Universitas Syiah Kualasa Banda Aceh,

  Indonesia. [8]

  Moeliono, A.M. dan Darjowidjojo, S. 1988. "Tata Bahasa Baku Bahasa Indonesia". Jakarta: Departemen Pendidikan dan Kebudayaan, Republik Indonesia.

  [9] Nugraha, L.M. 2010. “Analisis Penggunaan Algoritma Stemming Vega Pada Information Retrieval System ”. Telkom University. Bandung.

  [10] Sharma, D. 2012. “Stemming Algorithms: A Comparative Study and their

  Analysis”. Department of Computer Scoence and Enginering, Thapar

  [11] Paice, C.D. 1994. "An Evaluation method for stemming algoritms".

  Springer-Verlag: New York. [12]

  Senddon, J.N.. 1996. "Indonesian: A Comprehensive Grammar". London dan Newyork: Routledge. [13]

  Wilujeng, A. 2002. "Inti Sari Kata Bahasa Indonesia Lengkap". Surabaya: Serba Jaya. [14]

  Vega, B. V., dan Bressan, S. 2001. “Indexing the Indonesian web: Language Identification and Miscellaneous Issues”. Tenth International World Wide Web Conference, Hong Kong.

BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Digital library adalah sebuah koleksi objek digital yang dapat berupa teks,

  materi visual, ataupun materi audio, yang disimpan dalam media elektronik. Salah satu keunggulan yang ditawarkan digital library adalah dalam hal pencarian. Dalam melakukan pencarian dalam digital library diperlukan penerapan teknik tertentu supaya hasil pencarian sesuai dengan apa yang dicari. Salah satunya adalah dengan menerapkan algoritma stemming dalam pencarian dokumen di dalam digital library.

  Stemming adalah proses pemotongan imbuhan dari suatu kata ke bentuk asal atau

  kata dasarnya [7]. Algoritma stemming merupakan fitur penting bagi sistem pengindeksan dan pencarian, karena dapat meningkatkan kemampuan recall dengan secara otomatis mengubah suatu kata ke bentuk dasarnya [6]. Algoritma stemming juga dapat meningkatan index compression yang merupakan hal penting karena dapat menjaga agar penggunaan tempat penyimpanan seminimal mungkin.

  Masalah yang kemudian muncul adalah bagaimana menentukan algoritma stemming yang baik dari segi recall dan index compression. Menurut jurnal karya W.

  B. Frakes salah satu faktor penentu baik tidaknya suatu algoritma stemming adalah dengan menghitung stemmer strength [5], semakin baik stemmer strength suatu algoritma maka semakin baik pula nilai recall dan index compression, walaupun memiliki kelemahan karena dapat menguarangi nilai dari precission. Parameter- parameter stemmer strength yaitu: ukuran rata-rata word per conflation class, index

  

compression factor, jumlah kata yang berbeda antara kata masukan dan kata keluaran

  (stem), rata-rata huruf yang dihilangkan untuk membentuk stem, dan terakhir nilai median dan mean modified hamming distance antara kata masukan dan stem. Parameter-parameter stemmer strength tersebut di atas akan diuji pada algoritma stemming untuk Bahasa Indonesia. Algoritma stemming pada Bahasa Indonesia diantaranya adalah Ahmad Yusoff Sembok (1996) yang sebenarnya dibuat untuk bahasa melayu, Nazief & Adriani (1996) merupakan algoritma stemming awal untuk Bahasa Indonesia, Idris (2001) merupakan pengembangan dari algoritma Ahmad Yusoff Sembok untuk Bahasa Indonesia, Vega (2001), Arifin & Setiono (2002) merupakan penyederhanaan dari Nazief & Adriani, dan Confix-stripping (2005) merupakan pengembangan dari Nazief & Adriani. Algoritma stemming pada Bahasa Indonesia yang dipilih pada penelitian ini adalah Algoritma vega yang dibuat untuk meningkatkan performa retrieval dokumen dalam hal ini recall dan precission, dan algoritma confix-stripping yang memiliki nilai kompresi lebih baik dari Arifin & Setiono.

  Berdasarkan jurnal karya Lusiano Marga N. yang berjudul “Analisis Penggunaan Algoritma Stemming Vega Pada Information Retrieval System”, Algoritma Vega adalah algoritma stemming yang hanya menggunakan aturan morfologi tanpa menggunakan kamus kata dasar dalam menentukan stem. Keakuratan stem dengan kata dasar bukanlah hal yang ditonjolkan oleh Algoritma Vega, akan tetapi algoritma ini dibuat untuk meningkatkan performa retrieval dokumen dalam hal ini recall dan precission [9].

  Berdasarkan jurnal karya Asriko Adipathy yang berjudul "Analisis Dan Implementasi Perbandingan Stemming Dengan Menggunakan Algoritma Jelita Asian Dan Algoritma Arifin & Setiono Pada Information Retrieval", Algoritma Confix- Stripping dimana penulis di sini menyebutnya sebagai Algoritma Jelita Asian, memiliki nilai kompresi yang lebih baik dari pada algoritma Arifin & Setiono.

  Algoritma Confix-Stripping adalah algoritma stemming yang selain menggunakan aturan morfologi juga menggunakan kamus kata dasar dalam menentukan stem [1].

  Dokumen sample uji yang dipakai adalah digital library Sarihusada yang berisi tutorial-tutorial seputar ibu dan anak saat masih di dalam kandungan hingga balita. Dengan dilakukannya analisis dan perbandingan kedua algoritma ini agar diketahui algoritma terbaik yang dapat menghasilkan stem (kata dasar) dari kata berimbuhan pada Bahasa Indonesia pada digital library tersebut.

  1.2. Rumusan Masalah

  Berdasarkan latar belakang yang telah disebutkan di atas dapat ditemukan masalah yang dapat dirumuskan dalam satu rumusan masalah , yaitu bagaimana melakukan analisis dan perbandingan Algoritma Stemming Vega dan Confix- stripping pada Bahasa Indonesia dengan menentukan kemampuan recall dan index

  compression.

  1.3. Maksud dan Tujuan

  Penelitian ini memiliki maksud dan tujuan yaitu: 1.3.1.

   Maksud

  Berdasarkan permasalahan yang diteliti, maksud dilakukannya penelitian ini adalah untuk melakukan analisis dan perbandingan Algoritma Stemming Vega dan Algoritma Stemming Confix-stripping pada Bahasa Indonesia dengan menghitung parameter ukuran rata-rata word per conflation class, index compression factor, jumlah kata yang berbeda antara kata masukan dan kata keluaran (stem), rata-rata huruf yang dihilangkan untuk membentuk stem, dan terakhir nilai median dan mean

  modified hamming distance antara kata masukan dan stem.

1.3.2. Tujuan

  Tujuan yang ingin dicapai dari penelitian ini adalah untuk mengetahui algoritma terbaik yang dapat menghasilkan stem (kata dasar) dari kata berimbuhan dalam hal

  

recall dan index compression pada Bahasa Indonesia khususnya pada digital library

1.4. Batasan Masalah

  Agar pembahasan penelitian terfokuskan pada lingkup masalah yang diinginkan, maka ada batasan masalah yang diterapkan, yaitu :

  1. Dokumen-dokumen yang dipakai untuk melakukan penelitian adalah dokumen berformat pdf pada digital library Sarihusada.

  2. Sistem dibangun menggunakan ruby on rails.

  3. Penelitian berpusat pada proses stemming tidak sampai mengimplementasikan ke proses pembuatan indeks ataupun proses pencarian.

  4. Parameter uji yang dilakukan antar lain: ukuran rata-rata word per conflation

  class, index compression factor, jumlah kata yang berbeda antara kata

  masukan dan kata keluaran (stem), rata-rata huruf yang dihilangkan untuk membentuk stem, dan terakhir nilai median dan mean modified hamming

  distance antara kata masukan dan stem 1.5.

   Metodologi Penelitian

  Metodologi penelitian yang digunakan dalam penulisan tugas akhir ini adalah metodologi deskriptif yang bertujuan untuk mengumpulkan informasi aktual secara rinci, melukiskan gejala yang ada, mengindetifikasi masalah atau memeriksa kondisi dan praktik-praktik yang berlaku, membuat perbandingan atau evaluasi.

1.5.1. Alur Penelitian

  Diagram pada Gambar 1.1 berikut ini merupakan langkah-langkah yang diambil untuk mendukung proses penelitian agar penelitian dapat berjalan lebih terarah dan sistematis.

  

Mulai

Pengumpulan Data Primer Sekunder

  1. Jurnal-jurnal algoritma vega 1. Dokumen digital sari husada dan confix-stripping dari pihak

  2. Kamus data b. indonesia ketiga

3. Jurnal-jurnal algoritma vega 2.

  Buku-buku yang membantu dan confix-stripping penelitian

  Analisis dan perancangan Analisis Perancangan Sistem 1.

  1. Analisis Masalah Perancangan Basis Data 2.

  2. Analisis Kebutuhan Data Perancagan Antar Muka 3.

  Analisis Algoritma vega dan Algoritma confix- stripping Pembangunan sistem

  Sistem dibangun di dalam sistem digital library sari husada yang dibangun dengan bahasa pemograman ruby menggunakan ruby on rails frameworks. Ruby on Rails akan dijadikan alat untuk mengimplementasi kan algoritma vega dan confix-stripping

  Lanjutan

Gambar 1.1 Diagram Alir Penelitian

  

Lanjutan

  Pengujian dan Evaluasi Pengujian Evaluasi 1.

  1. Pengujian Blackbox Kesimpulan Pengujian yang dilakukan pada Kesimpulan yang diperoleh dari fungsionalitas pada sistem yang telah implementasi algoritma vega dan confix- dibangun. Pengujian terfokus pada stripping, serta kesimpulan dari hasil parameter pengujian yaitu : word pengujian conflation class dan index compression

  2. Saran factor Saran yang dijadikan acuan untuk 2. Pengujian Whitebox pengembangan selanjutnya

  Pengujian didaasarkan pada pengecekan detail rancangan Aplikasi perbandingan algoritma stemming vega dan confix-stripping

Gambar 1.1 Diagram Alir Penelitian (lanjutan) 1.5.2.

   Pembangunan Perangkat Lunak

  Dalam membangun perangkat lunak pada penelitian ini, digunakan metode pengembangan perangkat lunak, yaitu dengan menggunakan metode waterfall yang bisa digambarkan seperti Gambar 1.2 berikut :

Gambar 1.2 Waterfall Model 1.6.

   Sistematika Penulisan

  Sistematika penulisan pada penelitian ini disusun untuk memberikan gambaran secara umum mengenai penelitian yang dilakukan. Sistematika penulisan pada penelitian ini sebagai berikut :

  BAB 1 PENDAHULUAN Bab ini menguraikan tentang latar belakang masalah, rumusan masalah, menentukan

  maksud dan tujuan, batasan masalah, metodologi penelitian serta sistematika penulisan.

  BAB 2 LANDASAN TEORI Bab ini membahas berbagai konsep dasar dan teori - teori yang berkaitan dengan

  stemming bahasa Indonesia dan algoritma-algoritma stemming. Konsep atau teori yang dijelaskan dimulai dari penjelasan mengenai morfologi bahasa Indonesia, pengertian stemming, pengertian algoritma vega dan algoritma confix-stripping

  BAB 3 ANALISIS DAN PERANCANGAN SISTEM Bab ini menguraikan penjelasan tentang analisis dan perancangan sistem. Analisis

  sistem berisi analisis masalah, analisis kebutuhan data, analisis algoritma yang terdiri dari algoritma vega dan confix-stripping, analisis kebutuhan nonfungsional, dan analisis kebutuhan fungsional. Perancangan sistem berisi perancangan basis data yang terdiri dari diagram relasi dan struktur table, kemudian perancangan antar muka yang memberikan gambaran antarmuka sistem

  BAB 4 IMPLEMENTASI DAN PENGUJIAN Bab ini berisi tentang implementasi yang bertujuan untuk memastikan bahawa

  aplikasi telah berhasil diimplementasikan dan dapat berjalan sesuai dengan yang diinginkan, Kemudian disertai hasil pengujian dari aplikasi yang telah dilakukan.

  BAB 5 KESIMPULAN DAN SARAN Bab ini berisi kesimpulan dari hasil penelitian skripsi ini dan saran untuk pengembangan penelitian lebih lanjut.

BAB 5 KESIMPULAN DAN SARAN 5.1. KESIMPULAN Berdasarkan hasil pengujian yang telah dilakukan dalam analisis dan

  perbandingan algoritma vega dan algoritma confix-stripping, dapat disimpulkan bahwa keenam parameter uji tidak menunjukan kekonsistenan dalam menentukan algoritma mana yang lebih baik. Hasil pengujian terhadap sepuluh dokumen uji menunjukan algoritma vega lebih baik pada empat parameter uji yaitu jumlah kata yang berbeda antara kata masukan dan stem, nilai rata-rata huruf yang dihapus, nilai

mean modified hamming distance, dan nilai median modified hamming distance.

Sedangkan algoritma confix-stripping lebih baik pada dua parameter uji lainnya yaitu ukuran rata-rata word per conflation class dan index compression factor.

  Masing-masing parameter pengujian dapat menunjukan karakteristik dari kedua algoritma. Parameter pengujian dimana algoritma vega lebih unggul dari pada algoritma confix-stripping merupakan parameter yang menunjukan seberapa sering algoritma tersebut merubah kata masukan (term) dengan menghapus ataupun mengganti huruf-hurufnya, sehingga menjadi stem. Sedangkan parameter pengujian dimana algoritma confix-stripping lebih unggul dari algoritma vega merupakan parameter yang menunjukan seberapa sering algoritma tersebut dalam mengubah beberapa kata berimbuhan menjadi satu kata dasar (stem) yang sama.

  Hal di atas berarti kedua algoritma masing-masing memiliki kelebihan untuk kasus tertentu. Algoritma vega memiliki kelebihan dalam mengubah term menjadi kata yang berbeda atau baru. Sedangkan algoritma confix-stripping memiliki kelebihan dalam mengurangi jumlah term, seperti mereduksi index size pada proses

  indexing.

5.2. SARAN

  Berdasarkan hasil pengujian yang telah dilakukan, maka saran yang diharapkan setelah dilakukannya analisis dan perbandingan algoritma vega dan algoritma confix- stripping pada teks bahasa indonesia adalah sebagai berikut : 1.

  Melakukan pengujian terhadap stem yang dihasilkan algoritma vega apakah dapat mempengaruhi proses indexing.

  2. Melakukan analisis performansi algoritma confix-stripping dalam mereduksi ukuran index size.

  3. Melakukan implementasi terhadap proses pencarian pada information retrieval.

  Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :2089-9033

  Kata Kunci : Stemming, Vega, Confix-stripping 1.

  stemmer strength, dimana penting dalam kasus

  Ada beberapa cara yang dilakukan stemmer untuk menjalankan proses stemming diantaranya: Table look-up, affix removal stemmers, successor variety dan n-gram stemmer. Pada penelitian ini akan dilakukan analisis dan perbandingan algoritma vega dan confix-stripping yang sama-sama merupakan metode affix removal stemmers. Pengujian di dalam penelitian ini menggunakan parameter penggujian yang dijelaskan di dalam jurnal karya Frakes W.B. dan Fox C.J. [2]. Parameter-parameter ini digunakan untuk mengukur

  system.

  Sehingga bisa dikatakan dengan stemming mampu meningkatkan performansi information retrieval

  indexing adalah effisiensi dan kompresi file indeks.

  indeks. Term bisa di-stemming pada saat indexing maupun searching. Keuntungan dari stemming saat

  retrieval system untuk mengurangi ukuran file

  dilakukan secara manual maupun otomatis. Program untuk conflation otomatis ini disebut sebagai "stemmer". Stemmer digunakan di information

  query dan indexing dan untuk permasalahan natural language processing. Proses conflation dapat

  Proses stemming biasanya juga disebut conflation, yang digunakan pada search engine untuk ekspresi

  Karena seperti yang telah disebutkan di atas bahwa imbuhan pada Bahasa Indonesia terdiri dari awalan, sisipan, akhiran, bentuk perulangan dan kombinasi awalan akhiran. Imbuhan-imbuhan yang melekat pada suatu kata harus dihilangkan untuk mengubah bentuk kata tersebut menjadi bentuk kata dasarnya.

  menemukan kata dasar dari sebuah kata bentukan atau kata berimbuhan. Dengan menghilangkan semua imbuhan baik yang terdiri dari awalan,

   PENDAHULUAN Stemming merupakan suatu proses untuk

  terhadap dokumen-dokumen sample uji menunjukan kecenderungan untuk selalu mengubah kata berimbuhan lebih sering dari pada algoritma confix- stripping. Sedangkan algoritma confix-stripping menunjukan kecenderungan untuk mengubah beberapa kata berimbuhan menjadi satu kata dasar yang sama lebih banyak dari pada algoritma vega.

  

Analisis Dan Perbandingan Stemming Teks

Bahasa Indonesia Menggunakan Algoritma Vega

Dan Algoritma Confix-Stripping

  hamming distance antara kata masukan dan stem,

  kata yang berbeda antara kata masukan dan stem, rata-rata huruf yang dihilangkan untuk membentuk stem, dan terakhir nilai median dan mean modified

  stemmer strength yaitu ukuran rata-rata word per conflation class, index compression factor, jumlah

  parameter stemmer strength dapat mewakili kemampuan algoritma stemming dalam hal recall dan index compression [2]. Algoritma vega berdasarkan pengukuran parameter-parameter

  index compression. Pengukuran parameter-

  Algoritma stemming merupakan sebuah algoritma yang dapat mengubah kata berimbuhan ke bentuk kata dasarnya. Penerapan algoritma stemming salah satunya pada sistem pencarian dokumen, dengan meningkatkan kemampuan pada segi recall dan

   ABSTRAK

  

  

  Jl. Dipatiukur 112-114 Bandung Email

  2 Teknik Informatika – Universitas Komputer Indonesia

  , Tati Harihayati

  

1

  Helmi Agustian

  algoritma penghilangan imbuhan, karena dapat Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :2089-9033

  huruf yang dihilangkan untuk membentuk stem, dan terakhir nilai median dan mean modified hamming distance antara kata masukan dan stem.

  Suatu algoritma stemming menginginkan nilai per conflation class yang lebih besar dari algoritma lainnya, untuk menunjukan algoritma tersebut lebih baik.

  Dimana : icf = Index compression factor n = Jumlah kata unik sebelum stemming s = Jumlah kata unik hasil stemming

  %

  � − �) �

  ��� = (

  kemudian setelah dilakukan stemming apabila menghasilkan beberapa kata yang sama dilakukan penghapusan sehingga seluruh hasil stemming merupakan kata unik sebanyak s. Maka untuk menghitung parameter index compression factor (icf) adalah :

  stemming. Apabila jumlah kata-kata di dalam corpus (kata unik sebelum stemming) sebanyak n,

  Parameter kedua yaitu index compression factor, menunjukan seberapa besar tingkat kompresi indeks dari algoritma stemming, atau seberapa besar tingkat pengurangan dari index size setelah dilakukan

  Dimana : wcc = Word per conflation class n = Jumlah kata unik sebelum stemming s = Jumlah kata unik hasil stemming

  1.1. Algoritma Vega

  �� = � �

  corpus, dengan rumus sebagai berikut:

  Pengujian di dalam penelitian ini menggunakan parameter penggujian yang dijelaskan di dalam jurnal karya Frakes W.B. dan Fox C.J. [2]. Parameter pertama adalah ukuran rata-rata word per conflation class, yaitu menunjukan jumlah rata-rata kata yang menghasilkan stem yang sama dari

  1.3. Parameter-parameter Uji

  Algoritma stemming Confix-stripping (CS) adalah sebuah metode stemming pada Bahasa Indonesia yang diperkenalkan oleh Jelita Asian yang merupakan pengembangan dari metode stemming yang dibuat oleh Nazief dan Adriani [1]. Algoritma ini menggunakan kamus data untuk melakukan pengecekan kata dasar. Secara garis besar tahapan algoritma confix-stripping dapat dijelaskan seperti Gambar 1.

  1.2. Algoritma Confix-stripping

  Algoritma vega merupakan algoritma stemming yang diperkenalkan oleh Vinsensius Berlian Vega pada tahun 2001. Algoritma vega tidak menggunakan kamus data dalam melakukan pengecekan kata dasar. Secara garis besar tahapan dalam algoritma vega berturut-turut adalah pembuangan partikel, pembuangan kata kepunyaan, pembuangan circumfix, pembuangan awalan, dan terakhir pembuangan akhiran.

  Suatu algoritma stemming menginginkan nilai index compression factor yang lebih besar dari algoritma lainnya, untuk menunjukan algoritma tersebut lebih baik. Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :2089-9033

  Parameter keempat adalah nilai rata-rata huruf yang dihapus, yaitu nilai rata-rata huruf dari kata masukan yang dihapus untuk membentuk sebuah stem. Algoritma stemming yang kuat akan menghapus huruf lebih banyak untuk membentuk sebuah stem.

  Tabel 2 index compression factor Algoritma stemming yang bagus dalam hal stemmer strength menginginkan nilai index compression factor yang lebih besar dari algoritma stemming lainnya. Berdasarkan pengujian pada Tabel 2 parameter index compression factor algoritma confix-stripping lebih baik sebesar 2,598 %

  5

  85 85 1.162 % 1.162 % 4 184 182 181 1.086 % 1.63 %

  86

  3

  77 77 1.282 % 1.28 %

  78

  2

  Dok No n s icf Vega CS Vega CS 1 417 407 400 2.398 % 4.076 %

  Parameter kelima dan keenam berturut-turut adalah nilai mean dan median modified hamming distance. Nilai hamming distance antara dua string yang memiliki panjang yang sama didefinisikan sebagai jumlah karakter yang berbeda di posisi yang sama. Nilai hamming distance antara dua string yang memiliki panjang berbeda didefinisikan sebagai perbedaan panjang antara dua string tersebut. Sebagai contoh terdapat tiga kata, membaca, dibaca, dan membacakan. Apabila sebuah algoritma stemming mengubahnya ke stem „baca‟, maka : 1. membaca  beda 3 huruf dengan „baca‟ 2. dibaca beda 2 huruf dengan „baca‟ 3. membacakan  beda 6 huruf dengan „baca‟ Sehingga nilai mean modified hamming distance dapat dihitung sebagai nilai rata-ratanya yaitu sebagai berikut: (3+2+6) / 3 = 3,66 Didapat nilai mean modified hamming distance sebesar 3,66 kata.

  7

  58

  2.2. Index Compression Factor

  79 78 1.25 % 2.5 % 6 462 451 450 2.381 % 2.597%

  Algoritma stemming yang bagus dalam hal stemmer strength menginginkan nilai mean word per conflation class yang lebih besar dari algoritma stemming lainnya. Berdasarkan pengujian pada Tabel 1 parameter mean word per conflation class algoritma confix-stripping lebih baik dengan rata- rata 1,026 kata.

  84 83 1.012 kata 1.024 kata 9 115 114 114 1.0087 kata 1.008 kata 10 128 126 124 1,015 kata 1,032 kata Total 1693 1662 1649 1,018 kata 1,026 kata

  85

  8

  57 57 1.017 kata 1.017 kata

  58

  7

  57 57 1.724 % 1.724 %

  8

  85

  84 83 1.176 % 2.353 % 9 115 114 114 0.869 % 0.869 % 10 128 126 124 1,562 % 3,125 % Tota l 1693 1662 1649 1,831 % 2,598 %

  Nilai median modified hamming distance juga dapat diperoleh sebagai nilai tengah dari ketiga nilai tersebut setelah diurutkan. Sehingga didapat nilai median modified hamming distance sebesar 3.

  80

2. ISI PENELITIAN

  Tabel 3 jumlah kata yang berbeda antara kata masukan dan keluaran Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :2089-9033

  2.3. Jumlah Kata Yang Berbeda Antara Kata Masukan Dan Keluaran

   Ukuran Rata-rata Word Per Conflation Class

  telah melalui hasil filtering, sebagai berikut : 2.1.

  corpus untuk diuji ke masing-masing algoritma yang

  Hasil pengujian algoritma vega dan algoritma confix-stripping merupakan pengujian terhadap parameter uji pada dokumen-dokumen uji. Dokumen-dokumen yang diambil merupakan dokumen sample dari digital library Sarihusada sebanyak sepuluh dokumen. Kesepuluh dokumen memiliki jumlah kata masukan (kata uji) berupa

  Dok No Vega CS 1 409 kata 365 kata 2 76 kata 65 kata 3 83 kata 72 kata 4 179 kata 72 kata

  Algoritma stemming yang bagus dalam hal stemmer strength lebih sering merubah kata dari algoritma stemming lainnya, sehingga menghasilkan kata yang berbeda. Berdasarkan pengujian pada Tabel 3 algoritma vega lebih baik dengan total perbedaan 1636 kata dari 10 dokumen sampel uji.

  3

  3

  5

  3

  3

  6

  4

  3

  7

  3

  8

  4

  3

  3

  9

  3

  3

  10

  4

  3 Rata-rata Total 3,5 3,1

  Algoritma stemming yang bagus dalam hal stemmer strength memiliki nilai hamming distance lebih besar dari algoritma stemming lainnya, dapat berarti juga untuk sejumlah kata di dalam dokumen memiliki nilai tengah (median) yang paling besar. Berdasarkan pengujian pada Tabel 6 dari 10 dokumen algoritma vega rata-rata memiliki nilai median yang lebih baik sebesar 3,5.

  3. PENUTUP 3.1. Kesimpulan

  4

  3

  2.4. Nilai Rata-rata Huruf Yang Dihapus

  3 317 304 86 3.686 kata 3.534 kata kata kata 10 486 382 128 3,796 kata 2,984 kata Total 6420 5773 1693 3,792 kata 3,409 kata

  Tabel 4 nilai rata-rata huruf yang dihapus

  Dok No m n Vega CS Vega CS 1 1662 1450 417 3.985 huruf 3.477 huruf 2 305 265 78 3.91 huruf 3.397 huruf 3 317 289 86 3.686 huruf

  3.36 huruf 4 699 604 184 3.798 huruf 3.282 huruf 5 279 227 80 3.487 huruf 2.837 huruf 6 1763 1567 462 3.816 huruf 3.391 huruf 7 206 172 58 3.551 huruf 2.965 huruf 8 295 225 85 3.4705 huruf 2.647 huruf 9 408 319 115 3.547 huruf 2.773h uruf 10 486 360 128 3,796 huruf 2,812 huruf Total 6420 5478 1693 3,792 huruf 3,235 huruf

  Algoritma stemming yang bagus dalam hal stemmer strength lebih sering menghapus huruf untuk membentuk sebuah stem. Berdasarkan pengujian pada Tabel 4 algoritma vega lebih baik karena rata- rata menghapus 3,792 huruf dari 10 dokumen uji.

  2.5. Nilai Mean Modified Hamming Distance

  Tabel 5 nilai mean modified hamming distance

  No h n Vega CS Vega Cs 1 1662 1528 417 3.985 kata

  3.664 kata 2 305 280

  78

  3.91 kata 3.589 kata

  Algoritma stemming yang bagus dalam hal stemmer strength memiliki nilai hamming distance lebih besar dari algoritma stemming lainnya, atau memiliki rata-rata hamming distance yang lebih besar untuk sejumlah kata di dalam dokumen uji. Berdasarkan pengujian pada Tabel 5 algoritma vega lebih baik karena memiliki rata-rata hamming distance sebanyak 3,792 kata.

  3

  2.6. Nilai Median Modified Hamming Distance

  Tabel 6 nilai median modified hamming distance

  Dok No Vega CS

  1

  4

  4

  2

  4

  3

  3

  Berdasarkan hasil pengujian yang telah dilakukan dalam analisis dan perbandingan algoritma vega dan algoritma confix-stripping, dapat disimpulkan bahwa keenam parameter uji tidak menunjukan Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :2089-9033

  rata-rata word per conflation class dan index compression factor. Hal di atas berarti kedua algoritma masing-masing memiliki kelebihan untuk kasus tertentu. Algoritma vega memiliki kelebihan dalam mengubah term menjadi kata yang berbeda atau baru. Sedangkan algoritma confix-stripping memiliki kelebihan dalam mengurangi jumlah term, seperti mereduksi index

  size pada proses indexing.

3.2. Saran

  Berdasarkan hasil pengujian yang telah dilakukan, maka saran yang diharapkan setelah dilakukannya analisis dan perbandingan algoritma vega dan algoritma confix-stripping pada teks bahasa indonesia adalah sebagai berikut :

  1. Melakukan pengujian terhadap stem yang dihasilkan algoritma vega apakah dapat mempengaruhi proses indexing.

  2. Melakukan analisis performansi algoritma confix-stripping dalam mereduksi ukuran index size.

  3. Melakukan implementasi terhadap proses pencarian pada information retrieval.

4. DAFTAR PUSTAKA

  [1] Asian, J., Williams, H.E. and Tahaghoghi,

  S.M.M. “Stemming Indonesian”. RMIT University, Melbourne, Australia. [2]

  Frakes, W.B., Fox, C.J. “Strength and Similarity of Affix Removal Stemming Algorithms”. Computer Science Department.

  Virginia Tech and James Madison University. [3]

  Vega, B. V., dan Bressan, S. 2001. “Indexing the Indonesian web: Language Identification and M iscellaneous Issues”. Tenth International World Wide Web Conference, Hong Kong.

  Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :2089-9033

  

Analysis And Comparison Stemming Indonesian Text

Using Vega Algorithm And Confix-stripping Algorithm

  Helmi Agustian

  

1

  , Tati Harihayati

  2 Teknik Informatika

  • – Universitas Komputer Indonesia Jl. Dipatiukur 112-114 Bandung Email

  

  

   ABSTRAK Stemming algorithm is an algorithm that can transform word to its root word. In the document searching, stemming expected to increase recall and index compression. Calculating the stemmer strength can predict how well a stemming algorithm in the abillity to recall and index compression[2]. Based on the results to calculate six measures of stemmer strength which is mean number of word per conflation class, index compression factor, the number of words and stems that differ, the mean number of characters removed in forming stems, and the last median and mean modified hamming distance between words and their stems. Vega algorithm tend to often transform word rather than confix-stripping algorithm. The results also show that confix-stripping algorithm tend to often transform words that correspond to the same stemm for a corpus.

  Kata Kunci : Stemming, Vega, Confix-stripping 1.

   INTRODUCTION