Devi Dwi Purwanto, Sinonim dan Word Sense Disambiguation 37
37 Pada persamaan 2, A dan B pada kasus ini
adalah kumpulan fingerprint dari masing-masing dokumen.
5. Uji Coba
Uji coba yang dilakukan meliputi performansi deteksi plagiat untuk carbon copy dan substitusi
kata, uji coba threshold VSM, dan uji coba jumlah n-gram. Pada TABEL I diberikan data yang
digunakan untuk uji coba. Dimana dokumen yang digunakan sebagai koleksi dokumen adalah PDF
tugas akhir sebanyak 100 buah.
Dari data uji coba yaitu 30 PDF buku tugas akhir
dengan threshold
=0,8 dengan
menggunakan similarity tanpa sinonim didapatkan bahwa terdapat 85 subbab yang diduga sebagai
plagiat. Sedangkan pengujian terhadap 30 PDF buku tugas akhir dengan menggunakan sinonim
dan threshold yang sama didapatkan bahwa terdapat 84 subbab yang diduga sebagai plagiat.
Dari data tersebut terdapat 8 subbab dimana memiliki hasil similarity yang lebih mirip dengan
menggunakan sinonim. Daftar unit teks yang memiliki nilai similarity lebih baik tersebut dapat
dilihat pada TABEL II.
TABEL I D
AFTAR
U
JI
C
OBA
D
ETEKSI
P
LAGIAT
Keterangan Hasil
buah PDF Tugas Akhir untuk Koleksi Dokumen,
dengan perincian jurusan: 100
D3-Informatika :
5 buah S1-Informatika
: 79 buah
S1-Teknik Elektro :
3 buah S1-Teknik Industri
: 11 buah
S1-Sistem Informasi Bisnis :
2 buah Subbab untuk Koleksi Dokumen unit teks
7337 Dokumen uji coba tahun 2012, dengan perincian
periode: 31
Februari 2012 :
3 buah Juni 2012
: 1 buah
Agustus 2012 :
9 buah Oktober 2012
: 9 buah
November 2012 :
9 buah Subbab untuk uji coba tahun 2012 unit teks
2183
TABEL II D
AFTAR
S
IMILARITY YANG
M
EMILIKI
H
ASIL
L
EBIH
B
AIK DENGAN
S
INONIM
No ID Sim
NRP Subbab
NRP Mirip Subbab Mirip
Sim Non Sinonim Sim Sinonim
1 3190
TGPOXGGEL 3.2.2
TGPOXGGXE 3.2.1
99.08 99.65
2 3870
TGPOXGGXE 3.2.1
TGPOXGGEL 3.2.2
99.08 99.65
3 4475
TGPOXGGIL 1.5.2
TGPOXGGEL 1.3.4
93.83 94.50
4 3011
TGPOXGGEL 1.3.4
TGPOXGGIL 1.5.2
93.83 94.50
5 4011
TGPOXGGXE 5.4
TGPOXGGEL 5.4
89.77 92.23
6 3377
TGPOXGGEL 6.9
TGPOXGGXE 6.6
86.02 86.61
7 3370
TGPOXGGEL 6.5
TGPOXGGXE 6.4
79.55 80.37
8 4214
TGPOXGGXE 6.4
TGPOXGGEL 6.5
79.55 80.37
Sedangkan sisanya terdapat 55 subbab yang memiliki hasil similarity yang kurang baik bila
menggunakan sinonim atau dengan kata lain similarity dengan tanpa menggunakan sinonim
lebih baik, dan 21 subbab memiliki hasil similarity yang sama baik menggunakan sinonim
ataupun tanpa mengunakan sinonim hal ini dikarenakan kata-kata pada kalimat tersebut sama
persis. Dimana penurunan similarity yang dihasilkan dengan sinonim rata-rata sebesar 3.27
poin.
Alasan menggunakan
threshold 0,8
dikarenakan performansi terhadap waktu dan hasil yang didapatkan. Pada tabel 3, koleksi dokumen
yang digunakan aalah 7337, dengan beberapa percobaan threshold didapatkan kesimpulan
dimana threshold yang semakin kecil didapatkan kandidat yang semakin banyak dan waktu yang
semakin lama, sedangkan ketika kandidat tersebut diproses untuk cek carbon copy dan similarity,
didapatkan jumlah subbab yang terdeteksi carbon copy yaitu 84. Sehingga diambil threshold yang
lebih tinggi agar waktu yang dibutuhkan relatif lebih singkat.
TABEL III U
JI
C
OBA
P
ERFORMANSI
T
HRESHOLD
VSM Threshold
Waktu menit
Kandidat subbab
0.6 158,32
103 0.7
145,56 96
0.8 120,03
85
Percobaan selanjutnya adalah jumlah n-gram yang digunakan. Pada
Gambar
10
diberikan grafik percobaan hasil deteksi.
38 Journal of Information Systems, Volume 11, Issue 1, April 2015
Gambar 10. Uji Coba n-gram terhadap Dokumen
6. Kesimpulan