DAFTAR ISI
Hal.
PERSETUJUAN ii
PERNYATAAN iii
PENGHARGAAN iv
ABSTRAK v
ABSTRACT vi
DAFTAR ISI vii
DAFTAR TABEL x
DAFTAR GAMBAR xi
BAB 1 PENDAHULUAN 1
1.1 Latar Belakang 1
1.2 Rumusan Masalah 3
1.3 Batasan Masalah 3
1.4 Tujuan Penelitian 4
1.5 Manfaat Penelitian 4
1.6 Metodologi Penelitian 4
1.7 Sistematika Penulisan 5
BAB 2 TINJAUAN PUSTAKA 7
2.1 Keaslian Dokumen Teks 7
2.2 Penjiplakan 7
2.3 Kemiripan Dokumen Teks 8
2.4 Text Mining 9
2.5 Algoritma Manber 9
2.5.1 P enghapusan Noise Dan Whitespace
10
2.5.2 Metode N-Gram
11
2.5.3 Rolling Hash
12
2.5.4 F ingerprint Dokumen
12
Universitas Sumatera Utara
2.5.5 P ersamaan Jaccard Coefficient
13 2.6 Stemming
14 2.7 Synonym Recognition
15 2.8 Penelitian Terdahulu
15
BAB 3 ANALISIS DAN PERANCANGAN 18
3.1 Data Yang Digunakan 18
3.2 Flowchart Sistem 18
3.3 Activity Diagram 22
3.4 Stemming 23
3.5 Synonym Recognition 28
3.6 Algoritma Manber 29
3.7 Deteksi Kemiripan Teks Secara Manual 31
3.8 Perancangan Database Dan Interface Sistem 33
3.8.1 Database Sistem
33
3.8.2 Interface Sistem
34
BAB 4 IMPLEMENTASI DAN PENGUJIAN 37
4.1 Implementasi 37
4.1.1 Spesifikasi Hardware Dan Software Yang Digunakan
37
4.1.2 Database Tabel Kata Dasar
38
4.1.3 Database Tabel Kata Sinonim
38
4.1.4 Tampilan Awal
39
4.1.5 Tampilan Hasil
40
4.1.6 Stemming
41
4.1.7 Synonym Recognition
42
4.1.8 Algoritma Manber
43 4.2 Pengujian Sistem
44
4.2.1 P engujian Tampilan Sistem
44
4.2.2 P engujian P roses Stemming
46
4.2.3 P engujian Synonym Recognition
48
4.2.4 P engujian Deteksi Kemiripan Teks
49
4.2.5 P engujian Nilai N-Gram
51
Universitas Sumatera Utara
4.2.6 P engujian Dengan Metode Lainnya
52
BAB 5 KESIMPULAN DAN SARAN 53
5.1 Kesimpulan 53
5.2 Saran 54
DAFTAR PUSTAKA 55
LAMPIRAN: KODE PROGRAM 57
Universitas Sumatera Utara
DAFTAR TABEL
Hal. Tabel 2.1 Penelitian Terdahulu
17 Tabel 3.1 Bubuhan Kata Stemming Porter
23 Tabel 3.2 Penambahan Bubuhan Kata
24 Tabel 3.3
Rules
Peleburan Huruf 25
Tabel 3.4 Rancangan Tabel Kata Dasar 33
Tabel 3.5 Rancangan Tabel Kata Sinonim 34
Tabel 4.1 Rancangan Pengujian Tampilan Sistem 44
Tabel 4.2 Hasil Pengujian Tampilan Sistem 45
Tabel 4.3 Rancangan Pengujian
Rules
46 Tabel 4.4 Hasil Pengujian
Rules
47 Tabel 4.5 Rancangan Pengujian
Synonym Recognition
48 Tabel 4.6 Hasil Pengujian
Synonym Recognition
48 Tabel 4.7 Rancangan Pengujian Kemiripan Teks
49 Tabel 4.8 Hasil Pengujian Kemiripan Teks
51 Tabel 4.9 Rancangan Pengujian Nilai N
51 Tabel 4.10 Hasil Pengujian Nilai N
51 Tabel 4.11 Rancangan Pengujian Dengan Metode Lainnya
52 Tabel 4.12 Hasil Pengujian Dengan Metode Lainnya
52
Universitas Sumatera Utara
DAFTAR GAMBAR
Hal. Gambar 3.1
F lowchart P reprocessing
19 Gambar 3.2
F lowchart Text Transformation
20 Gambar 3.3
F lowchart F eature Selection P atter Discovery
21 Gambar 3.4
Diagram Activity
22 Gambar 3.5 Proses
Stemming
26 Gambar 3.6 Proses
Synonym Recognition
28 Gambar 3.7 Proses Algoritma
Manber
30 Gambar 3.8 Rancangan Tampilan Awal Sistem
35 Gambar 3.9 Rancangan Tampilan Hasil Sistem
36 Gambar 4.1 Database Tabel Kata Dasar
38 Gambar 4.2 Database Tabel Kata Sinonim
38 Gambar 4.3 Tampilan Awal Sistem
39 Gambar 4.4 Tampilan Hasil Sistem
40 Gambar 4.5 Hasil Implementasi
Stemming
42 Gambar 4.6 Hasil Implementasi
Synonym Recognition
43 Gambar 4.7 Hasil Proses Algoritma
Manber
43 Gambar 4.8 Hasil Akhir Algoritma
Manber
44 Gambar 4.9 Pengujian
Stemming
Dan
Rules
47 Gambar 4.10 Pengujian
Synonym Recognition
48 Gambar 4.11 Hanya Menggunakan Algoritma
Manber
49 Gambar 4.12
Stemming
,
Synonym Recognition
, Dan Algoritma
Manber
50
Universitas Sumatera Utara
ABSTRAK
Dokumen teks sering dijadikan sebagai objek penjiplakan atau tindak plagiat karena perkembangan teknologi yang semakin pesat tentu akan memudahkan tindakan
tersebut untuk dilakukan. Oleh karena itu, dirancang sistem berbasis web untuk mendeteksi kemiripan dokumen teks menggunakan algoritma
Manber
. Sistem juga dibangun dengan mengimplementasikan teknik
Stemming P orter
dan
Synonym Recognition
untuk mengatasi teknik penjiplakan seperti
Technical Disguise
dan
Disguised P lagiarism
. Perbedaan hasil yang didapatkan dengan menggunakan teknik tersebut mencapai 15 dibandingkan tanpa penggunaannya.
Kata Kunci: Plagiat, Kemiripan,
Stemming P orter
,
Synonym Recognition
, Algoritma
Manber
Universitas Sumatera Utara
SIMILARITY DETECTION OF DOCUMENT TEXT USING MANBER ALGORITHM
ABSTRACT
Document text is an object that often used in plagiarism case because the rapid of technology development makes this action more easily to do. In this research, a web
based system is designed to detect similarity of document text using Manber Algorithm. Stemming Porter and Synonym Recognition are also implemented to
overcome some of plagiarism technique like Technical Disguised and Disguised Plagiarism. The difference result is about 15 compared without using those
techniques.
Keyword: Plagiarism, Similarity, Stemming Porter, Synonym Recognition, Manber Algorithm
Universitas Sumatera Utara
BAB 1
PENDAHULUAN
1.1 Latar Belakang
Teknologi komputer sudah berkembang pesat dan menjadi sebuah kebutuhan bagi setiap orang. Tentu perkembangan ini memiliki banyak dampak dalam kehidupan.
Salah satu dampak positifnya adalah untuk membantu dan memudahkan kerja manusia. Sebagai contoh yaitu dalam melakukan suatu pendeteksian.
Banyak manfaat yang dapat diambil dengan adanya proses pendeteksian, seperti pendeteksian kemiripan dokumen teks. Deteksi kemiripan dokumen teks
merupakan sebuah upaya yang dilakukan untuk menghindari tindakan plagiarisme sehingga keaslian dari dokumen teks akan tetap terjaga.
Plagiarisme atau penjiplakan dapat diartikan sebagai sebuah tindakan imitasi atau pemalsuan baik dari segi bahasa maupun ide dari orang lain dengan
merepresentasikan hal tersebut sebagai hasil karyanya sendiri Hariharan, 2012. Plagiarisme dalam bahasa latin diartikan sebagai pencurian, sehingga seseorang yang
melakukan tindak penjiplakan dapat diartikan pula sebagai seorang pencuri. Ada banyak teknik penjiplakan pada dokumen teks, beberapa diantaranya
adalah
copy paste
, penulisan kembali sebuah naskah dengan mengubah struktur penulisannya, pengutipan ide orang lain tanpa mengubah tulisan, dan penjiplakan
dengan cara mengubah bahasa dokumen ke bahasa lainnya tentunya tanpa menuliskan sumber ide berasal. Oleh sebab itu, penjiplakan menjadi masalah utama dalam ruang
lingkup pendidikan. Hal ini didasarkan pada penelitian yang telah dilakukan oleh Osman, et al. 2012, dimana hasilnya adalah 70 dari pelajar mengaku melakukan
Universitas Sumatera Utara
tindak plagiat, baik plagiat dengan cara mencontek tugas biasa maupun tugas akhir. Tentunya ini akan merugikan kedua belah pihak, baik pelaku dan korban penjiplakan
khususnya. Penjiplakan pada tingkat pendidikan biasanya terjadi akibat
deadline
dari suatu pekerjaan ataupun dari sifat malas yang dimiliki. Adapun tindak penjiplakan yang
sering dilakukan oleh pelajar adalah jenis
copy paste
, artinya dokumen teks dijiplak tanpa mengubah isi teks maupun jenis peringkasan dengan cara menutupi bagian yang
disalin. Di dalam dunia pendidikan, suatu karya ilmiah dikatakan sebagai hasil plagiat atau penjiplakan apabila kutipan yang dilakukan dijiplak secara utuh dan tidak disertai
penyebutan referensi secara benar Purwitasari, et al. 2009. Pendeteksian plagiat dapat dilakukan baik secara manual dengan mengecek
langsung dokumen teks ataupun secara semi-otomatis dengan bantuan sistem komputer. Meskipun pendeteksian secara manual merupakan cara yang paling akurat
dalam mendeteksi plagiat, namun cara ini sangat tidak efektif dan efisien, baik dari segi waktu, tenaga, maupun biaya. Pencegahan merupakan upaya terbaik untuk
menghalangi munculnya plagiarisme, yaitu dengan menekankan moral masyarakat dan sistem pendidikan akan bahaya plagiarisme. Cara ini akan memberikan efek
jangka panjang, sehingga diharapkan tindak penjiplakan dapat berkurang ataupun dituntaskan hingga selesai Salmuasih, 2013. Pendeteksian plagiarisme pada
dokumen teks dapat dilakukan dengan cara membandingkan kemiripan antara isi dokumen teks yang akan diuji dengan dokumen teks pembandingnya, dimana
dokumen teks pembanding yang digunakan sudah dinyatakan valid sehingga terhindar dari tindak penjiplakan.
Pendeteksian kemiripan dokumen teks berbahasa Indonesia secara semi- otomatis cukuplah sulit untuk dilakukan karena bahasa Indonesia tidak memiliki
rumus bentuk baku yang permanen Triawati, 2009 ditambah dengan penggunaan imbuhan, kata ganti orang, dan sinonim kata yang sangat banyak dan memiliki ragam
bentuk serta makna. Tentu hal ini akan semakin memudahkan terjadinya tindak plagiat dan kesulitan dalam pendeteksiannya.
Salah satu penelitian terdahulu mengenai pendeteksian kemiripan dokumen teks, yaitu Ramadhani, et al. 2013 yang selain menggunakan algoritma
Winnowing
, juga membandingkan algoritma tersebut dengan algoritma
Manber
. Kesimpulan yang dapat dituliskan adalah keakuratan pendeteksian cukup baik dengan memberikan
Universitas Sumatera Utara
perbedaan hasil similaritas sebesar 4-7 dengan responden yang mencari kesamaan dokumen secara manual. Meskipun dari segi keakuratan
Winnowing
lebih unggul, namun waktu proses algoritma tersebut lebih lama dari algoritma
Manber
. Oleh karena itu, dibutuhkan sebuah sistem untuk mendeteksi kemiripan
dokumen teks dengan tingkat keakuratan dan waktu proses yang baik. Adapun algoritma yang diimplementasikan ke dalam sistem adalah algoritma
Manber
. Algoritma ini memiliki waktu proses yang sangat cepat dan ketepatan yang cukup
baik. Algoritma
Manber
merupakan salah satu dari tiga metode
fingerprint
selain
Winnowing
dan
Rabin-Karp
. Secara umum, algoritma
Winnowing
dan
Manber
memiliki prinsip kerja yang hampir sama dengan perbedaan, yaitu pada proses pemilihan
fingerprint
dokumennya. Proses
stemming
dan
Synonym Recognition
juga akan diimplementasikan ke dalam sistem untuk meningkatkan keakuratan dalam
pendeteksian kemiripan dokumen teks serta mengatasi beberapa teknik penjiplakan.
1.2 Rumusan Masalah
Penjiplakan merupakan perbuatan yang secara sengaja ataupun tidak sengaja dilakukan dengan cara mengutip sebagian atau seluruh karya orang lain, tanpa
menyatakan sumber secara tepat dan memadai. Salah satu objek yang sering dijadikan sebagai media penjiplakan adalah dokumen teks. Untuk melihat keaslian dokumen
teks dapat diuji dengan cara membandingkan kemiripan isi dokumen teks. Oleh karena itu, diperlukan pendekatan untuk mendeteksi kemiripan suatu dokumen teks
dengan dokumen teks lain sehingga tindakan penjiplakan dapat dideteksi dan dihindari.
1.3 Batasan Masalah
Agar penelitian dapat sesuai dengan permasalahan yang akan diselesaikan, maka diperlukan beberapa batasan, yaitu sebagai berikut:
1. Hanya menguji dokumen teks, tidak menguji dokumen berupa gambar ataupun
suara. 2.
Dokumen yang diuji adalah dokumen yang menggunakan bahasa Indonesia.
Universitas Sumatera Utara
3. Pengujian dilakukan pada
file
dengan format
pdf
. 4.
Hanya memperhatikan tulisan, tidak termasuk makna kalimat. 5.
Tidak memperhatikan kesalahan dalam penulisan kata
typo
. 6.
Tidak memperhatikan adanya penulisan sumber rujukan. 7.
Pendeteksian pada plagiarisme jenis
Technical Disguise, Disguised,
dan
Copy P aste P lagiarism
.
1.4 Tujuan
Tujuan dari penelitian ini adalah mendeteksi kemiripan satu dokumen teks uji dengan satu dokumen teks pembanding menggunakan algoritma
Manber
disertai penggunaan teknik
stemming
dan
Synonym Recognition
.
1.5 Manfaat
Adapun manfaat dari penelitian ini adalah: 1.
Mengefektifkan serta mengefisiensikan waktu, tenaga, dan biaya dalam mendeteksi kemiripan dokumen teks.
2. Menambah pengetahuan atau wawasan mengenai penjiplakan dan cara untuk
mendeteksi tindakan tersebut. 3.
Sebagai bahan untuk pengembangan penelitian selanjutnya.
1.6 Metodologi Penelitian
Adapun metodologi pada penelitian ini adalah:
1. Studi Literatur
Dilakukan pengumpulan referensi melalui berbagai macam buku, jurnal, artikel, dan materi lainnya yang berkaitan dengan penelitian ini.
Universitas Sumatera Utara
2. Pengumpulan Data
Dilakukan pengumpulan data dan informasi yang akan diperlukan dalam penelitian.
3. Analisis dan Perancangan
Dilakukan analisis terhadap studi literatur untuk mengetahui penyelesaian permasalahan deteksi kemiripan dokumen dan melakukan perancangan sistem.
4. Implementasi
Perancangan sistem yang telah dibuat akan diimplementasikan ke dalam aplikasi yang dibuat dengan menggunakan bahasa pemrograman PHP dan
database MySQL.
5. Pengujian
Uji coba produk dan evaluasi. Melakukan uji coba program yang telah dibuat. Kemudian melakukan evaluasi terhadap kekurangan program.
6. Penyusunan Laporan
Dokumentasi dari hasil analisis dan implementasi dari sistem yang dibangun.
1.7 Sistematika Penulisan
Skripsi ini disusun dengan sistematika penulisan, sebagai berikut:
Bab 1: Pendahuluan
Pada bab ini dibahas mengenai latar belakang penulisan, rumusan masalah, batasan masalah, tujuan, manfaat, metodologi penelitian, dan sistematika penulisan skripsi.
Bab 2: Landasan Teori
Pada bab ini dibahas mengenai teori-teori yang digunakan dalam pengerjaan skripsi. Teori-teori yang terdapat pada bab ini mencakup algoritma secara umum dan teknik
pendukungnya.
Universitas Sumatera Utara
Bab 3: Analisis Dan Perancangan Sistem