Tahap Pemahaman Masalah Tahap Pengumpulan Dokumen dan Pemasukan Data Kamus Tahap Perancangan Tokenizer Tahap Pembuatan Kata Uji dari Dokumen

3. METODOLOGI PENELITIAN

3.1 Kerangka Penelitian

Keberhasilan suatu penelitian ditentukan dari perencanaan penelitian. Dalam perencanaan penelitian tersebut harus jelas apa saja yang akan dilakukan agar penelitian dapat berjalan dengan semestinya. Langkah-langkah penelitian ini secara umum dapat digambarkan seperti yang terlihat pada Gambar 4. Gambar 4 Langkah-langkah penelitian.

3.2 Prosedur Penelitian

Berdasarkan langkah-langkah penelitian pada Gambar 4, tahapan penelitian yang dilakukan pada tiap langkah diuraikan pada pembahasan selanjutnya.

3.2.1 Tahap Pemahaman Masalah

Untuk dapat menyelesaikan penelitian ini, masalah yang ada harus dipahami dengan baik. Permasalahan yang ada digali dengan cara studi literatur dari sumber-sumber yang berkaitan dengan permasalahan penelitian ini. Selain itu, permasalahan dalam tentang tata bahasa Sunda dilakukan dengan cara melakukan 22 wawancara dengan nara sumber yang kompeten yaitu Bapak Dr. Yayat Sudaryat, M.Hum. dosen Sastra Sunda Universitas Pendidikan Indonesia

3.2.2 Tahap Pengumpulan Dokumen dan Pemasukan Data Kamus

Dokumen-dokumen dalam bahasa Sunda digunakan untuk pengujian pada tahap evaluasi stemming. Dokumen uji yang terkumpul adalah sebanyak 130 dokumen berbahasa Sunda dengan topik yang beragam. Topik dokumen berisi tentang sejarah, budaya, agama, berita dan lain-lain. Seluruh dokumen yang terkumpul, format penulisan dokumen kemudian diubah menjadi bentuk teks. Hal ini untuk memudahkan pembacaan dokumen oleh tokenizer. Data kamus diperlukan untuk pembandingan kata pada proses stemming. Untuk memasukan data kamus, sumber data didapat dari Kamus Lengkep Sunda- Indonesia Indonesia Sunda Sunda-Sunda Tamsyah 1996 dan dilengkapi dengan kamus Sunda – Indonesia Satjadibrata 2011. Dari hasil pemasukan data kamus tersebut didapat 8 234 kata.

3.2.3 Tahap Perancangan Tokenizer

Tokenizer akan membaca kata per kata dari dokumen. Modul tokenizer akan menerima masukan berupa dokumen dan keluarannya adalah kumpulan kata atau token. Tokenizer akan mengabaikan tanda baca, dan tanda-tanda lainnya yang tidak diperlukan. Tokenizer akan membaca dokumen dalam bentuk teks atau HTML. Program selengkapnya tokenizer dapat dilihat pada Lampiran 1.

3.2.4 Tahap Pembuatan Kata Uji dari Dokumen

Pada tahap ini, dokumen yang terkumpul akan dicari token atau kata yang ada dalam dokumen tersebut. Pembuatan kata uji ini akan menggunakan tokenizer yang dirancang pada Bab 3.2.3. Kata atau token yang terkumpul akan disimpan dalam sebuah tabel dalam database yang berisi daftar kemunculan kata dalam dokumen. Kata yang disimpan dalam database adalah kata yang unik, artinya tidak akan ada kata yang sama. 23 Kata uji ini akan digunakan untuk pengujian algoritme stemming yang dirancang. Selanjutnya kata hasil stemming akan dievaluasi apakah hasil stemming sesuai dengan kata yang diharapkan.

3.2.5 Tahap Pembuatan Stoplist