Kemiripan Sintatik dan Semantik Metode Pendeteksi Plagiarisme

7

BAB II TINJAUAN PUSTAKA

2.1. Kemiripan Sintatik dan Semantik

Teknik menghitung kemiripan kata secara sintaktik pada penelitian menggunakan algoritma Levenshtein Distance. Algoritma ini menghitung kemiripan antar kata berdasarkan total biaya terkecil dari transformasi salah satu kata menjadi kata yang lain dengan menggunakan edit-rules, yaitu penambahan karakter insertion, penggantian karakter subtituion, dan penghapusan karakterdeletion [6]. Algoritma Levenshtein Distance dimulai dari elemen pojok kiri atas sebuah larik array dua dimensi dengan indeks baris adalah karakter sumber dan indeks kolom adalah karakter target yang dibandingkan dengan kata sumber. Tiap cell[i,j] merepresentasikan biaya terkecil dari transformasi karakter ke-i dari kata sumber ke karakter ke-j dari kata target. Biaya edit-distance adalah nilai dari cell[n,m]. Untuk biaya edit-distance adalah pada cell[n,m] yaitu 2. Setelah mendapatkan biaya edit-distance maka untuk menghitung nilai Levenshtein dilakukan perhitungan seperti yang terdapat pada gambar seperti di bawah ini. Lavenshtein Distance menggunakan Persamaan : Gambar 2.1 Menghitung Nilai Lavenshtein Nilai kemiripan similarity score diasumsikan pada rentang 0 nol hingga 1 satu, yang artinya nilai 1 adalah nilai maksimum yang menunjukan bahwa dua kata adalah sama identik [7]. Pendekatan yang digunakan oleh penelitian ini mampu mengukur nilai kemiripan antar dua string berdasarkan pada susunan karakter.

2.2. Metode Pendeteksi Plagiarisme

Metode pendeteksi plagiarisme dibagi menjadi tiga bagian yaitu metode perbandingan teks lengkap, metode dokumen fingerprinting, dan metode kesamaan kata kunci. Berikut ini penjelasan dari masing-masing metode dan algoritma pendeteksi plagiarisme : a. Perbandingan Teks Lengkap. Metode ini diterapkan dengan membandingkan semua isi dokumen. Dapat diterapkan untuk dokumen yang besar. Pendekatan ini membutuhkan waktu yang lama tetapi cukup efektif, karena kumpulan dokumen yang diperbandingkan adalah dokumen yang disimpan pada penyimpanan lokal. Metode perbandingan teks lengkap tidak dapat diterapkan untuk kumpulan dokumen yang tidak terdapat pada dokumen lokal. Algoritma yang digunakan pada metode ini adalah algoritma Brute-Force , algoritma edit distance, algoritma Boyer Moore dan algoritma lavenshtein distance b. Dokumen Fingerprinting. Dokumen fingerprinting merupakan metode yang digunakan untuk mendeteksi keakuratan salinan antar dokumen, baik semua teks yang terdapat di dalam dokumen atau hanya sebagian teks saja. Prinsip kerja dari metode dokumen fingerprinting ini adalah dengan menggunakan teknik hashing. Teknik hashing adalah sebuah fungsi yang mengkonversi setiap 9 string menjadi bilangan. Misalnya Rabin-Karp, Winnowing dan Manber c. Kesamaan Kata Kunci. Prinsip dari metode ini adalah mengekstrak kata kunci dari dokumen dan kemudian dibandingkan dengan kata kunci pada dokumen yang lain. Pendekatan yang digunakan pada metode ini adalah teknik dot.

2.3. Teks Mining