3.7 Deteksi Kemiripan Teks Secara Manual
Berikut ini merupakan contoh penghitungan manual dari pendeteksian kemiripan teks pada penjiplakan jenis
Disguised P lagiarism
, yaitu: Teks Uji
: Tubuh saya memerlukan takaran nutrisi yang mencukupi supaya tidak segera sakit.
Teks Banding : Agar tubuhnya tidak cepat mengidap penyakit, maka dibutuhkan tambahan vitamin dengan dosis yang pas.
Gram : 2
1.
Case F olding
dan hapus karakter tidak relevan yaitu seluruh karakter, kecuali huruf, angka, dan
whitespace
. Teks Uji
: tubuh saya perlu takar nutrisi yang cukup supaya tidak segera sakit
Teks Banding : agar tubuh tidak cepat idap sakit maka butuh tambah vitamin
dengan dosis yang pas
2. Proses
Stemming
dengan pengecekan pada kamus kata dasar. Teks Uji
: tubuh saya perlu takar nutrisi yang cukup supaya tidak segera sakit
Teks Banding : agar tubuh tidak cepat idap sakit maka butuh tambah vitamin
dengan dosis yang pas
3. Proses
Synonym Recognition
dengan pengecekan pada kamus kata sinonim. Teks Uji
: badan aku perlu dosis gizi nan cukup agar tidak cepat sakit Teks Banding
: agar badan tidak cepat idap sakit dan perlu tambah gizi dan dosis nan cukup
4.
Noise Reduction
dengan menghapus kata yang memiliki jumlah karakter 4. Teks Uji
: badan perlu dosis gizi cukup agar tidak cepat sakit Teks Banding
: agar badan tidak cepat idap sakit perlu tambah gizi dosis cukup
Universitas Sumatera Utara
5. Hapus
whitespace
seperti spasi antar kata. Teks Uji
: badanperludosisgizicukupagartidakcepatsakit Teks Banding
: agarbadantidakcepatidapsakitperlutambahgizidosiscukup
6. Rangkaian N-Gram dengan nilai N = 2.
Teks Uji : ba ad da an np pe er rl lu ud do os si is sg gi iz zi ic cu uk ku
up pa ag ga ar rt ti id da ak kc ce ep pa at ts sa ak ki it Teks Banding
: ag ga ar rb ba ad da an nt ti id da ak kc ce ep pa at ti id da ap ps sa ak ki it tp pe er rl lu ut ta am mb ba ah hg gi iz zi id do
os si is sc cu uk ku up
7. Menentukan nilai
hash
dengan memasukkan rangkaian gram ke dalam fungsi
hash.
Teks Uji : 293 294 297 304 332 325 316 336 333 334 311 337 335 325
333 311 332 349 309 315 341 331 346 321 297 303 308 344 337 310 297 301 313 299 314 321 310 347 327 301 319 326
Teks Banding : 297 303 308 326 293 294 297 304 336 337 310 297 301 313
299 314 321 310 337 310 297 306 339 327 301 319 326 344 325 316 336 333 350 329 303 316 293 298 311 311 332 349
310 311 337 335 325 329 315 341 331 346
8. Memilih
fingerprint
dari nilai
hash
yang memenuhi persyaratan, yaitu menggunakan 2.2 dengan nilai pembagi P = 1.
Teks Uji : 293 294 297 304 332 325 316 336 333 334 311 337
335 349 307 303 308 344 310 301 313 299 314 321 347 327 319 326
Teks Banding : 297 303 308 326 293 294 304 336 337 310 301 313
299 314 321 306 339 327 319 344 325 316 333 350 329 298 311 332 349 335
9. Menghitung similaritas, yaitu dengan menggunakan 2.3 sehingga didapatkan
hasil akhir berupa persentase similaritas teks.
Universitas Sumatera Utara
Jumlah Irisan Uji, Banding : 25
Jumlah Gabungan Uji, Banding : 33
Berdasarkan penghitungan yang dilakukan, maka dapat dianalisis bahwa : 1.
Penghitungan manual berlangsung dalam waktu yang cukup lama. 2.
Kemungkinan terjadi kesalahan dalam proses. 3.
Membutuhkan alat bantu lain seperti alat hitung dan kamus.
3.8 Perancangan Database Dan