Uji Coba Publication Repository 412 1064 1 PB

Devi Dwi Purwanto, Sinonim dan Word Sense Disambiguation 37 37 Pada persamaan 2, A dan B pada kasus ini adalah kumpulan fingerprint dari masing-masing dokumen.

5. Uji Coba

Uji coba yang dilakukan meliputi performansi deteksi plagiat untuk carbon copy dan substitusi kata, uji coba threshold VSM, dan uji coba jumlah n-gram. Pada TABEL I diberikan data yang digunakan untuk uji coba. Dimana dokumen yang digunakan sebagai koleksi dokumen adalah PDF tugas akhir sebanyak 100 buah. Dari data uji coba yaitu 30 PDF buku tugas akhir dengan threshold =0,8 dengan menggunakan similarity tanpa sinonim didapatkan bahwa terdapat 85 subbab yang diduga sebagai plagiat. Sedangkan pengujian terhadap 30 PDF buku tugas akhir dengan menggunakan sinonim dan threshold yang sama didapatkan bahwa terdapat 84 subbab yang diduga sebagai plagiat. Dari data tersebut terdapat 8 subbab dimana memiliki hasil similarity yang lebih mirip dengan menggunakan sinonim. Daftar unit teks yang memiliki nilai similarity lebih baik tersebut dapat dilihat pada TABEL II. TABEL I D AFTAR U JI C OBA D ETEKSI P LAGIAT Keterangan Hasil buah PDF Tugas Akhir untuk Koleksi Dokumen, dengan perincian jurusan: 100 D3-Informatika : 5 buah S1-Informatika : 79 buah S1-Teknik Elektro : 3 buah S1-Teknik Industri : 11 buah S1-Sistem Informasi Bisnis : 2 buah Subbab untuk Koleksi Dokumen unit teks 7337 Dokumen uji coba tahun 2012, dengan perincian periode: 31 Februari 2012 : 3 buah Juni 2012 : 1 buah Agustus 2012 : 9 buah Oktober 2012 : 9 buah November 2012 : 9 buah Subbab untuk uji coba tahun 2012 unit teks 2183 TABEL II D AFTAR S IMILARITY YANG M EMILIKI H ASIL L EBIH B AIK DENGAN S INONIM No ID Sim NRP Subbab NRP Mirip Subbab Mirip Sim Non Sinonim Sim Sinonim 1 3190 TGPOXGGEL 3.2.2 TGPOXGGXE 3.2.1 99.08 99.65 2 3870 TGPOXGGXE 3.2.1 TGPOXGGEL 3.2.2 99.08 99.65 3 4475 TGPOXGGIL 1.5.2 TGPOXGGEL 1.3.4 93.83 94.50 4 3011 TGPOXGGEL 1.3.4 TGPOXGGIL 1.5.2 93.83 94.50 5 4011 TGPOXGGXE 5.4 TGPOXGGEL 5.4 89.77 92.23 6 3377 TGPOXGGEL 6.9 TGPOXGGXE 6.6 86.02 86.61 7 3370 TGPOXGGEL 6.5 TGPOXGGXE 6.4 79.55 80.37 8 4214 TGPOXGGXE 6.4 TGPOXGGEL 6.5 79.55 80.37 Sedangkan sisanya terdapat 55 subbab yang memiliki hasil similarity yang kurang baik bila menggunakan sinonim atau dengan kata lain similarity dengan tanpa menggunakan sinonim lebih baik, dan 21 subbab memiliki hasil similarity yang sama baik menggunakan sinonim ataupun tanpa mengunakan sinonim hal ini dikarenakan kata-kata pada kalimat tersebut sama persis. Dimana penurunan similarity yang dihasilkan dengan sinonim rata-rata sebesar 3.27 poin. Alasan menggunakan threshold 0,8 dikarenakan performansi terhadap waktu dan hasil yang didapatkan. Pada tabel 3, koleksi dokumen yang digunakan aalah 7337, dengan beberapa percobaan threshold didapatkan kesimpulan dimana threshold yang semakin kecil didapatkan kandidat yang semakin banyak dan waktu yang semakin lama, sedangkan ketika kandidat tersebut diproses untuk cek carbon copy dan similarity, didapatkan jumlah subbab yang terdeteksi carbon copy yaitu 84. Sehingga diambil threshold yang lebih tinggi agar waktu yang dibutuhkan relatif lebih singkat. TABEL III U JI C OBA P ERFORMANSI T HRESHOLD VSM Threshold Waktu menit Kandidat subbab 0.6 158,32 103 0.7 145,56 96 0.8 120,03 85 Percobaan selanjutnya adalah jumlah n-gram yang digunakan. Pada Gambar 10 diberikan grafik percobaan hasil deteksi. 38 Journal of Information Systems, Volume 11, Issue 1, April 2015 Gambar 10. Uji Coba n-gram terhadap Dokumen

6. Kesimpulan