Latar Belakang Implementasi Algoritma Winnowing Dan Porter Stemmer Mendeteksi Kemiripan Dua Dokumen Berbasis Web

BAB 1 PENDAHULUAN

1.1 Latar Belakang

Pemanfaatan kecanggihan di jaman globalisasi menjadi salah satu hal yang sangat penting dalam penggunaan di kehidupan sehari-hari. Pemanfaatan-pemanfaatan teknologi dalam kehidupan sehari-hari adalah untuk mencari, mengolah, atau dapat juga menyimpan informasi dengan menggunakan kecanggihan komputer. Informasi yang diperoleh biasanya berupa dokumen teks. Kemudahan mengakses informasi dalam berupa dokumen teks bisa menimbulkan sifat manusia yang negatif, yaitu dengan meniru atau mencontoh hasil karya orang lain melebihi batas normal tolerir. Jika hanya mencontoh sedikit bagian atau mengutip untuk dijadikan referensi mungkin tidak begitu masalah. Namun banyak juga kasus tingkat kemiripan dua dokumen tersebut bisa sama hampir sepenuhnya. Kita dapat mengetahui berapa tingkat kemiripan antara dua dokumen yang di sinyalir memiliki kesamaan dengan bantuan suatu sistem. Untuk mengatasi masalah yang marak tersebut, dibutuhkan aplikasi untuk mendeteksi tingkat kesamaan suatu dokumen. Pada penelitian ini, menggunakan algoritma Winnoning dan Porter Stemmer guna mendeteksi berapa persentase tingkat kemiripan antara dua dokumen. Stemming sendiri merupakan suatu proses untuk menemukan kata dasar dari sebuah kata. Stemming adalah salah satu cara yang Universitas Sumatera Utara digunakan untuk meningkatkan performa IR dengan cara mentransformasi kata-kata dalam sebuah dokumen teks ke kata dasarnya. Algoritma Stemming untuk bahasa yang satu berbeda dengan algoritma stemming untuk bahasa lainnya. Contoh salah satu Stemming adalah Stemming Porter. Algoritma Porter ditemukan oleh Martin Porter 1980. Algoritma tersebut digunakan untuk stemming bahasa inggris, kemudian karena proses stemming bahasa inggris berbeda dengan bahasa indonesia maka, dikembangkan algoritma porter khusus untuk bahasa indonesia Porter Stemmer for Bahasa Indonesia oleh W.B. Frakes pada tahun 1992. untuk pendeteksian kesamaan dokumen itu sendiri menggunakan algoritma Winnowing. Winnowing adalah suatu algoritma yang dipakai untuk melakukan proses pengecekkan kesamaan suatu kata document fingerprinting. Winnowing menggunakan window sebagai metodenya, yaitu pembentukan window setelah proses hashing.. Nilai hash sendiri merupakan nilai numerik yang terbentuk dari perhitungan ASCII tiap karakter. Setelah pembentukan window yang berisi nilai-nilai hash, maka dipilih nilai hash yang paling kecil dari setiap window. Jika ada lebih dari satu nilai yang paling kecil di proses Windowing, maka nilai yang terkecil pada window sebelumnya itu dipilih untuk dijadikan document’s fingerprints. Fingerprints inilah yang akan dijadikan dasar pembanding antar file-file teks yang telah dimasukkan, sehingga dapat diketahui berapa persentasi kemiripan dua dokumen tersebut. Universitas Sumatera Utara

1.2 Rumusan Masalah