Pendahuluan Maximal Frequent Sequences

Metodologi Penelitian 110 Contoh Penelitian Bidang Ilmu Komputer APLIKASI ALGORITMA MAXIMAL FREQUENT SEQUENCES DALAM DOKUMEN TEKS BERBAHASA INDONESIA Dwi Astuti Aprijani dan Zainal A. Hasibuan Abstrak . Paper ini menerapkan algoritma untuk mencari maximal frequent sequences MFS dalam suatu kumpulan dokumen teks berbahasa Indonesia. MFS adalah sekuen kata yang frekuen frequent dalam koleksi dokumen dan tidak merupakan bagian dari sekuen lain yang lebih panjang yang juga frekuen. Suatu sekuen k a a p K 1 = adalah subsekuen dari sekuen q bila semua item i a , k i ≤ ≤ 1 muncul dalam q dan item-item tersebut muncul dalam urutan yang sama seperti dalam p. Jika sekuen p adalah subsekuen dari sekuen q, dapat juga dikatakan bahwa p muncul dalam q. Sekuen p disebut frekuen dalam S jika p adalah subsekuen dari paling tidak σ dokumen dari S, dimana σ adalah frequency threshold yang diberikan. Suatu sekuen p adalah maximal frequent subsequence dalam S jika tidak ada sekuen lain p′ dalam S sedemikian sehingga p adalah subsekuen dari p′ dan p′ frekuen dalam S. Himpunan MFS yang ditemukan dapat digunakan sebagai representasi deskriptif baru dari dokumen, dan dapat digunakan untuk mencari hubungan lebih dalam antara dokumen atau antara sekuen, dan dapat juga dimanfaatkan untuk pengindeksan dalam Sistem Temu-kembali Informasi teks berbahasa Indonesia. Kekuatan utama MFS dapat membentuk indeks yang sangat solid karena menoleransi adanya kata-kata pemisah di antara suatu pasangan kata, dan jumlah istilah yang digunakan sebagai indeks sedikit. Uji coba terhadap 1162 dokumen ilmiah dengan frequency threshold 4, menemukan 3022 MFS untuk dokumen non-stemming dan 3833 MFS untuk dokumen stemming. Sedangkan uji coba terhadap 3000 dokumen berita dengan frequency threshold 7, menghasilkan 10328 MFS untuk dokumen non-stemming dan 15331 MFS untuk dokumen stemming. Kata kunci : frequency threshold, maximal frequent sequences, sekuen, stemming,non-stemming

1. Pendahuluan

Dewasa ini perkembangan jumlah informasi elektronis mengalami peningkatan yang sangat drastis. Ledakan tersebut mengakibatkan timbulnya dua masalah besar, yakni teknologi penyimpanan dan teknologi temu kembali informasi. Penyimpanan informasi berikut pencarian dan penemuankembalinya harus diusahakan secepat mungkin, oleh sebab itu dituntut representasi yang baik dari dokumen-dokumen. Ada berbagai cara untuk merepresentasikan dokumen, salah satunya menggunakan Maximal Frequent Sequences. Tujuan penelitian ini adalah mendapatkan representasi yang baiktepat untuk dokumen-dokumen, sehingga pada satu sisi, variasi bentuk lanjutannya dapat dengan mudah ditemukembalikan. Pada sisi lain, dari representasi tersebut dapat dibangkitkan deskripsi dokumen yang dapat dibaca oleh pengguna.

2. Maximal Frequent Sequences

Maximal Frequent Sequences MFS adalah sekuen kata yang frekuen dalam koleksi dokumen dan tidak merupakan bagian dari sekuen lain yang lebih panjang yang juga frekuen. Suatu sekuen dikatakan frekuen apabila dia muncul minimal dalam σ dokumen, dimana σ adalah frequency threshold yang diberikan. Misalkan S adalah himpunan dokumen, dan setiap dokumen mengandung sekuen-sekuen kata. Metodologi Penelitian 111 Definisi 1 . Suatu sekuen k a a p K 1 = adalah subsekuen dari sekuen q bila semua item i a , k i ≤ ≤ 1 muncul dalam q dan item-item tersebut muncul dalam urutan yang sama seperti dalam p. Jika sekuen p adalah subsekuen dari sekuen q, dapat juga dikatakan bahwa p muncul dalam q. Definisi 2 . Sekuen p disebut frekuen dalam S jika p adalah subsekuen dari paling tidak σ dokumen dalam S, dimana σ adalah frequency threshold yang diberikan. Definisi 3 . Suatu sekuen p adalah maximal frequent subsequence dalam S jika tidak ada sekuen lain p′ dalam S sedemikian sehingga p adalah subsekuen dari p′ dan p′ frekuen dalam S. Tujuan dari teknik MFS ini adalah mendapatkan semua maximal frequent subsequence dalam koleksi dokumen. Kerangka dari metode ini disajikan dalam empat tahap, yaitu tahap inisialisasi, tahap penemuan, tahap ekspansi, dan tahap pemotongan [1]. Namun pada tulisan yang lain, Ahonen membagi metode ini menjadi dua tahap, yaitu tahap inisialisasi dan tahap penemuan [2].

3. Metodologi dan Implementasi