1. Jika kata ditemukan, maka kata diubah sesuai dengan sinonim katanya dan
menghasilkan kata sinonim. Jika kata sudah merupakan sinonimnya, maka kata tidak mengalami perubahan dan tetap menghasilkan kata sinonim.
2. Jika kata tidak ditemukan, maka kata tidak mengalami perubahan dan tetap
menghasilkan kata sinonim.
3.6 Algoritma
Manber
Algoritma
Manber
merupakan proses terakhir setelah proses
stemming
dan
Synonym Recognition
. Untuk mendapatkan hasil yang maksimal, maka proses
stemming
dan S
ynonym Recognition
harus dilakukan semaksimal mungkin, karena kedua proses ini memiliki pengaruh yang cukup besar pada hasil akhir.
Penghapusan
noise
pada algoritma Manber yang digunakan dalam penelitian ini sangat bergantung pada proses
Synonym Recognition
karena
noise
yang digunakan merupakan kata dengan panjang karakter kurang dari empat panjang
string
4. Oleh karena itu, perubahan kata sinonim yang dilakukan merupakan
string
dengan panjang karakter yang lebih
kecil. Sebagai contoh, kata “yang” merupakan sinonim dari kata “nan” sehingga kata tersebut diubah menjadi kata dengan panjang
string
yang lebih kecil dan dihapus. Proses ini ditujukan selain sebagai syarat algoritma pendeteksi
kemiripan teks, juga untuk mengurangi penggunaan waktu proses yang tidak diperlukan, meskipun persentase yang dikeluarkan menjadi lebih kecil namun tidak
berbeda jauh dengan hasil tanpa menggunakan
noise reduction
. Berdasarkan
penjelasan sebelumnya
mengenai faktor-faktor
yang mempengaruhi pemilihan
fingerprint
, maka diberikan beberapa batasan agar tidak banyak menghasilkan asumsi persentase kemiripan dokumen teks, yaitu :
1. Basis pada fungsi
hash
yang digunakan adalah 2. 2.
Nilai N pada N-Gram disesuaikan dengan banyaknya huruf yang menyusun teks tersebut, yaitu angka 1 hingga 8.
3. Nilai pembagi yang digunakan untuk pemilihan
fingerprint
adalah 1 sehingga seluruh nilai
hash
akan dijadikan sebagai
fingerprint
. Selain itu, penggunaan batasan juga ditujukan untuk memudahkan penggunaan sistem
tanpa meng-
input
kembali parameter yang digunakan.
Universitas Sumatera Utara
Berikut ini merupakan langkah penyelesaian oleh algoritma
Manber
yang dapat digambarkan secara ringkas pada Gambar 3.7:
KALIMAT HAPUS NOISE DAN
WHITESPACE MEMBUAT RANGKAIAN
GRAM SEPANJANG N FUNGSI HASH SETIAP
RANGKAIAN GRAM NILAI HASH
H MOD P = 0 FINGERPRINT
PERS. JACCARD COEF. PERSENTASE
SIMILARITAS menghasilkan
menentukan fingerprint
diproses hasil
spasi dan karakter tidak relevan
nilai N digunakan
Gambar 3.7 Proses Algoritma Manber
Berdasarkan Gambar 3.7, proses algoritma
Manber
dimulai dengan menghapus
noise
dan
whitespace
, kemudian dilakukan pembuatan rangkaian gram sesuai dengan nilai N yang dimasukkan pengguna. Setiap rangkaian gram yang terbentuk, diproses
menggunakan fungsi
hash
. Proses dari fungsi
hash
akan menghasilkan nilai
hash
dimana nilai-nilai
hash
yang terbentuk akan dipilih untuk dijadikan
fingerprint
dokumen. Pemilihan
fingerprint
harus sesuai dengan persyaratan algoritma
Manber
, yaitu hasil
modulo
nilai
hash
bernilai 0. Langkah terakhir algoritma
Manber
adalah dengan memroses
fingerprint
tersebut dengan menggunakan persamaan
Jaccard Coefficient
. Pertama,
fingerprint
yang terbentuk dari kedua data uji dan banding diiriskan sehingga terbentuklah satu rangkaian
fingerprint
yang sama. Kemudian membuat gabungan dari seluruh
fingerprint
. Jumlah irisan dibagi dengan jumlah gabungan
fingerprint
, hasil bagi ini dikali dengan 100 untuk mendapatkan hasil akhir berupa persentase.
Universitas Sumatera Utara
3.7 Deteksi Kemiripan Teks Secara Manual