2.7
Synonym Recognition
Synonym Recognition
atau pengenalan kata bersinonim adalah teknik yang digunakan untuk mengenali kata dengan penulisan berbeda namun memiliki makna yang sama.
Teknik penjiplakan dokumen teks tidak lepas dari penggunaan kata bersinonim sehingga dokumen teks hasil penjiplakan berbeda secara penulisan dari dokumen teks
aslinya meskipun makna yang dihasilkan tetaplah sama. Jenis penjiplakan tersebut dapat digolongkan ke dalam
Disguised P lagiarism
dan
Technical Disguise
. Jenis penjiplakan ini sangat sulit dideteksi oleh sistem yang tidak mengimplementasikan
teknik
Synonym Recognition
. Di dalam bahasa Indonesia, hampir setiap kata memiliki sinonim, tentu hal ini
semakin menyulitkan pendeteksian. Apabila sistem penyimpan kata hanya memiliki sedikit kata bersinonim, maka semakin kecil pula keakuratan pendeteksian. Hal ini
juga dipersulit dengan adanya penulisan kata bersinonim yang sama meskipun maknanya berbeda, serta sinonim kata yang menggunakan imbuhan.
Synonym Recognition
merupakan kunci kedua terpenting setelah
stemming
. Hal ini diakibatkan karena banyaknya kata sinonim yang berasal dari kata dasar,
meskipun beberapa sinonim kata memang memiliki imbuhan. Apabila proses
stemming
tidak berjalan dengan baik, maka pengenalan kata bersinonim juga menjadi tidak sesuai, dan berdampak pada berkurangnya keakuratan pendeteksian.
2.8 Penelitian Terdahulu
Pendeteksian kemiripan dokumen teks sudah banyak dilakukan oleh peneliti-peneliti sebelumnya, baik dengan menggunakan algoritma pendeteksi kemiripan teks yang
berbeda, teknik pendukung yang berbeda maupun pengimplementasian dalam bentuk yang berbeda, dan lain sebagainya.
Heriyanto 2011 menggunakan algoritma
exact match
dalam melakukan penelitiannya. Algoritma
exact match
tidak memerdulikan proses
stemming
sehingga apabila ada kata yang memiliki awalan dan akhiran, maka tidak dianggap sama. Kata
dasar ditambah dengan awalan dan akhiran akan berarti kata yang berbeda-beda. Hal ini tentu mengurangi keefektifan dari sistem yang dibuat.
Universitas Sumatera Utara
Ramadhani, et al 2013 menggunakan algoritma
Winnowing
, dimana algoritma ini memiliki langkah yang hampir sama dengan algoritma
Manber
. Sesuai dengan kesimpulan yang dituliskan bahwa keakuratan pendeteksian cukup baik, yaitu
memberikan selisih perbedaan sebesar 4-7 dengan responden yang mencari kesamaan dokumen secara manual, namun kecepatan proses algoritma masih kalah
dari algoritma
Manber
, meskipun dari segi keakuratan
Winnowing
lebih unggul. Salmuasih 2013 yang menggunakan algoritma
Rabin-Karp
dan konsep
similarity
menyimpulkan bahwa penggunaan teknik
stemming
sangat berpengaruh pada persentase hasil yang didapatkan, serta perlu ditambahkan teknik pengenalan
sinonim.
Modulo
yang digunakan dalam penelitiannya tidak berpengaruh pada hasil persentase, namun berpengaruh pada waktu proses.
Goenawan, et al 2005 menyimpulkan bahwa algoritma
Edit Distance
lebih tepat digunakan untuk mencari kecocokan antara dua
string
. Dimana dalam proses perbandingannya ,
string
kedua dimanipulasi sehingga pada akhirnya serupa dengan
string
pertama. Dalam proses pengubahan
string
tersebut, dibuat sebuah tabel dua dimensi dengan baris sesuai dengan panjang
string
terpanjang dan jumlah kolom sebanyak panjang
string
terpendek. Keunggulan algoritma
Edit Distance
yaitu dapat melihat perbedaan di antara dua
string
dengan cepat dan akurat. Dani, et al 2006 lebih meneliti pada kompleksitas waktu algoritma
Levenshtein Distance
dan pendeteksian pada kemiripan kode program. Disimpulkan bahwa kemiripan antar kode program yang diimplementasi dengan bahasa
pemrograman yang berbeda, sebelumnya dapat dilakukan proses deteksi bahasa dan konversi ke dalam satu bahasa standar yang dipilih. Dalam kata lain, diperlukan
pengubahan bahasa pemrograman satu ke bahasa lain tanpa mengubah inti dari program tersebut atau dapat disebut sebagai sinonim bahasa pemrograman.
Oleh karena itu, diperlukan sebuah pengembangan sistem menggunakan algoritma dengan kompleksitas waktu yang baik serta menambahkan teknik
stemming
dan
Synonym Recognition
. Penelitian sebelumnya dapat dipaparkan secara ringkas dalam Tabel 2.1 :
Universitas Sumatera Utara
Tabel 2.1 Penelitian Terdahulu No.
Nama Tahun Metode
Kelebihan Kelemahan
1. Heriyanto 2011
Exact Match
Waktu proses algoritma yang relatif
singkat Hanya memroses
kesamaan dan letak kata
2. Ramadhani, et al
2013
Winnowing
Memberikan hasil yang baik dengan
selisih 4-7 dari proses manual
Hasil tidak optimal, dan waktu proses
lebih tinggi dari algoritma
Manber
3. Salmuasih 2013
Rabin Karp Similarity
Dapat mengecek kata yang memiliki
kemiripan dalam penulisan
Proses pengecekan kata lama dan
modulo
hanya menambah waktu proses
4. Goenawan, et al
2005
Edit Distance
Dapat melihat perbedaan di antara
dua string dengan cepat dan akurat
Maksimal
string
yang dapat digunakan
adalah dua
5. Dani, et al 2006
Levenshtein Distance
Mendeteksi kemiripan kode
program dengan tingkat keakuratan
yang baik Tingkat akurasi
rendah dalam mendeteksi
kemiripan skala besar maupun pada data
yang banyak mengalami
perubahan penulisan
Universitas Sumatera Utara
BAB 3
ANALISIS DAN PERANCANGAN SISTEM
Pada bab ini akan dibahas mengenai beberapa hal, diantaranya data yang digunakan,
flowchart
dan
activity diagram
sistem serta analisis perancangan sistem baik dalam mengimplementasikan algoritma
Manber
serta teknik
stemming
dan
Synonym Recognition
maupun tampilan sistem.
3.1 Data Yang Digunakan