7
BAB II TINJAUAN PUSTAKA
2.1. Kemiripan Sintatik dan Semantik
Teknik menghitung kemiripan kata secara sintaktik pada penelitian menggunakan algoritma Levenshtein Distance. Algoritma ini menghitung
kemiripan antar kata berdasarkan total biaya terkecil dari transformasi salah satu kata menjadi kata yang lain dengan menggunakan edit-rules, yaitu penambahan
karakter insertion, penggantian karakter subtituion, dan penghapusan karakterdeletion [6]. Algoritma Levenshtein Distance dimulai dari elemen pojok
kiri atas sebuah larik array dua dimensi dengan indeks baris adalah karakter sumber dan indeks kolom adalah karakter target yang dibandingkan dengan kata
sumber. Tiap cell[i,j] merepresentasikan biaya terkecil dari transformasi karakter ke-i dari kata sumber ke karakter ke-j dari kata target. Biaya edit-distance adalah
nilai dari cell[n,m]. Untuk biaya edit-distance adalah pada cell[n,m] yaitu 2. Setelah mendapatkan biaya edit-distance maka untuk menghitung nilai
Levenshtein dilakukan perhitungan seperti yang terdapat pada gambar seperti di bawah ini.
Lavenshtein Distance menggunakan Persamaan :
Gambar 2.1 Menghitung Nilai Lavenshtein
Nilai kemiripan similarity score diasumsikan pada rentang 0 nol hingga 1 satu, yang artinya nilai 1 adalah nilai maksimum yang menunjukan bahwa dua
kata adalah sama identik [7]. Pendekatan yang digunakan oleh penelitian ini mampu mengukur nilai kemiripan antar dua string berdasarkan pada susunan
karakter.
2.2. Metode Pendeteksi Plagiarisme
Metode pendeteksi plagiarisme dibagi menjadi tiga bagian yaitu metode perbandingan teks lengkap, metode dokumen fingerprinting, dan metode
kesamaan kata kunci. Berikut ini penjelasan dari masing-masing metode dan algoritma pendeteksi plagiarisme :
a. Perbandingan Teks Lengkap. Metode ini diterapkan dengan
membandingkan semua isi dokumen. Dapat diterapkan untuk dokumen yang besar. Pendekatan ini membutuhkan waktu yang lama tetapi
cukup efektif, karena kumpulan dokumen yang diperbandingkan adalah dokumen yang disimpan pada penyimpanan lokal.
Metode perbandingan teks lengkap tidak dapat diterapkan untuk kumpulan dokumen yang tidak terdapat pada dokumen lokal.
Algoritma yang digunakan pada metode ini adalah algoritma Brute-Force , algoritma edit distance, algoritma Boyer Moore dan
algoritma lavenshtein distance b. Dokumen Fingerprinting. Dokumen fingerprinting merupakan metode
yang digunakan untuk mendeteksi keakuratan salinan antar dokumen,
baik semua teks yang terdapat di dalam dokumen atau hanya sebagian teks saja. Prinsip kerja dari metode dokumen fingerprinting ini adalah
dengan menggunakan teknik hashing. Teknik hashing adalah sebuah fungsi yang mengkonversi setiap 9 string menjadi bilangan. Misalnya
Rabin-Karp, Winnowing dan Manber c. Kesamaan Kata Kunci. Prinsip dari metode ini adalah mengekstrak
kata kunci dari dokumen dan kemudian dibandingkan dengan kata kunci pada dokumen yang lain. Pendekatan yang digunakan pada
metode ini adalah teknik dot.
2.3. Teks Mining