BAB 2
TINJAUAN PUSTAKA
Pada bab ini, akan dibahas landasan teori mengenai pendeteksian kemiripan dokumen teks yang mengkhususkan pada pengertian dari keaslian dokumen, plagiarisme,
kemiripan dokumen, dan penjelasan mengenai algoritma yang digunakan yaitu algoritma
Manber
serta teknik pendukung berupa
stemming
dan
Synonym Recognition
. Pada akhir bab ini akan dipaparkan penelitian-penelitian terdahulu mengenai pendeteksian kemiripan dokumen teks.
2.1 Keaslian Dokumen Teks
Keaslian sebuah dokumen teks merupakan naskah yang berasal dari ide pengarang tanpa adanya penambahan ide dari pengarang lainnya. Jika pun ada, nama pengarang
harus dicantumkan di dalam referensi serta tidak menuliskan secara utuh kutipan ide tersebut melainkan menuliskannya ke dalam bahasa sendiri. Hal ini dilakukan untuk
menghindari tindak plagiarisme.
2.2 Penjiplakan
Penjiplakan atau plagiarisme adalah teknik peniruan atau penyalinan ide orang lain tanpa menuliskan referensi darimana ide tersebut berasal, artinya secara tidak
langsung penulis sudah menglaim bahwa ide tersebut berasal dari idenya sendiri. Tidak adanya keinginan ataupun kemudahannya dalam menyalin hasil karya atau ide
orang lain menjadi faktor utama terjadinya penjiplakan Novia, et al. 2012.
Universitas Sumatera Utara
Berdasarkan hasil penelitian yang dilakukan oleh Gipp Meuschke 2011, dijelaskan bahwa teknik plagiat memiliki ragam bentuk, diantaranya:
1.
Copy P aste P lagiarism
, yaitu menyalin seluruh kata tanpa adanya perubahan konten dari naskah aslinya.
2.
Disguised P lagiarism,
yaitu menutupi beberapa bagian yang telah disalin dari naskah aslinya dengan menggunakan konten bermakna sama.
3.
Technical Disguise,
yaitu menyembunyikan serta melakukan peringkasan pada beberapa konten dari naskah yang telah disalin.
4.
Undue P araphrasing,
yaitu mengubah susunan serta bahasa yang digunakan dari bahasa yang satu ke bahasa lainnya dengan menggunakan gaya
penulisannya sendiri tanpa menuliskan sumber aslinya. 5.
Translated P lagiarism,
yaitu mengubah dari bahasa satu ke bahasa lainnya tanpa menuliskan sumber aslinya.
6.
Idea P lagiarism,
yaitu menggunakan ide orang lain tanpa menuliskan sumber darimana ide berasal.
2.3 Kemiripan Dokumen Teks
Pendeteksian plagiarisme pada dokumen teks dilakukan dengan cara membandingkan isi dari dokumen yang akan diuji dengan dokumen yang dijadikan sebagai
pembandingnya. Adapun syarat dokumen pembanding adalah sudah dinyatakan keasliannya sehingga pengujian kemiripan dokumen menjadi valid.
Dalam menentukan hasil akhir pendeteksian kemiripan dokumen teks, biasanya digunakan persentase similaritas sehingga pembacaan hasil akhir menjadi
lebih mudah. Adapun teknik pendeteksian kemiripan dokumen teks menurut Stein Eissen 2006 adalah:
1. Perbandingan Teks Lengkap, yaitu membandingkan seluruh kata yang terdapat
di dalam dokumen teks. 2.
Kesamaan Kata Kunci, yaitu membandingkan seluruh kata yang merupakan perwakilan isi dokumen.
3.
F ingerprint
, yaitu membandingkan rangkaian pembentuk teks dengan panjang tertentu dan diubah menjadi bilangan unik menggunakan teknik
hash
.
Universitas Sumatera Utara
2.4
Text Mining
Text Mining
diartikan sebagai penambangan data berupa teks yang bersumber dari dokumen untuk mencari kata-kata yang merupakan perwakilan isi atau pembentuk
dokumen teks sehingga penganalisisan dapat dilakukan. Berikut ini merupakan tahapan umum pada proses
Text Mining
, yaitu Nugroho, 2011:
1.
Text P reprocessing
, yaitu pemrosesan awal yang ditujukan untuk membentuk teks menjadi data siap olah pada proses selanjutnya.
a.
Case F olding
, yaitu pengubahan seluruh karakter yang merupakan huruf kapital menjadi huruf kecil.
b.
F iltering
, yaitu pengambilan kata-kata yang penting sesuai dengan kondisi yang diinginkan.
c.
Tokenizing
, yaitu tahap pemecahan kalimat yang di-
input
berdasarkan kata yang menyusunnya, biasanya dipisah oleh karakter
whitespace
. 2.
Text Transformation
, yaitu pembentukan teks yang mengacu pada proses untuk mendapatkan representasi dokumen yang sesuai.
a.
Stemming
, yaitu pencarian kata dasar dari setiap kata hasil
tokenizing
. b.
Synonym Recognition
, yaitu pengubahan kata yang memiliki makna yang sama dengan penulisan berbeda.
3.
F eature Selection
, yaitu pengurangan dimensi teks sehingga nantinya akan dihasilkan kata-kata yang merupakan dasar dari isi teks.
4.
P attern Discovery
, yaitu penemuan pola atau pengetahuan dari keseluruhan teks.
2.5 Algoritma Manber