Rumusan Masalah Batasan Masalah Tujuan Penelitian Manfaat Penelitian Metodologi Penelitian
2
Proses pendeteksian dapat dilakukan dengan mengurai isi dokumen menjadi string yang memiliki nilai dan dilakukan pencocokan dengan dokumen yang tersedia
di dalam database. Beberapa penelitian sebelumnya, pendeteksian dilakukan dengan metode Latent Semantic Analysis Alfarisi, 2011, algoritma Rabin-Karp Nugroho,
2011, algoritma Smith-Waterman Novanta, 2009, konsep Similarity dan algoritma Rabin-Karp Salmuasih, 2013.
Dalam awal pendeteksian diperlukan proses stemming. Melakukan proses stemming berarti menghilangkan akhiran dari suatu kata. Proses ini sudah sering
dilakukan dalam proses pencarian teks, aplikasi kamus, pengklasifikasian subjek dokumen perkantoran, dan mesin pencari Asian, 2005. Berbeda dengan proses
stemming peeada bahasa Inggris, proses stemming pada bahasa Indonesia lebih sulit dilakukan karena bahasa Indonesia mengenal imbuhan awalan prefixes, sisipan
infixes, akhiran suffixes, dan kombinasi awalan dan akhiran confixes. Penelitian proses stemming pada bahasa Indonesia telah dilakukan
sebelumnya. Ada beberapa algoritma yang digunakan untuk melakukan stemming pada dokumen teks berbahasa Indonesia, seperti, algoritma Nazief dan Adriani 1996,
algoritma Ahmad, Yussof, dan Sembok 1996, algoritma Vega 2001, algoritma Ariffin dan Setiono 2002, algoritma Confix Stripping oleh Jelita Asian,
pengembangan algoritma Nazief dan Adriani 2007, algoritma Enhanced Confix Stripping Stemmer 2010.
Dalam penelitian yang akan dilakukan, algoritma Enhanced Confix Stripping Stemmer dipilih untuk proses penguraian teks dari imbuhannya. Untuk menghitung
nilai kesamaan teks dengan dokumen dalam database digunakan algoritma Winnowing dengan teknik rolling hash. Algoritma Winnowing membuang seluruh
pemakaian karakter yang tidak relevan, seperti, tanda baca, spasi, angka, dan karakter lainnya. Hanya karakter berupa huruf yang akan diproses ke tahap berikutnya
Purwitasari et al, 2010.