Sistem Pendeteksi Dokumen Plagiat Harfiah pada Dokumen Teks Berbahasa Indonesia dengan Memanfaatkan Mesin Pencari

SISTEM PENDETEKSI PLAGIAT HARFIAH PADA
DOKUMEN TEKS BERBAHASA INDONESIA
DENGAN MEMANFAATKAN
MESIN PENCARI

FUAD DAVIRATMA HUSNI

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Sistem Pendeteksi
Plagiat pada Dokumen Teks Berbahasa Indonesia dengan Memanfaatkan Mesin
Pencari adalah benar karya saya dengan arahan dari komisi pembimbing dan
belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam

Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Juli 2013
Fuad Daviratma Husni
NIM G64104002

ABSTRAK
FUAD DAVIRATMA HUSNI. Sistem Pendeteksi Plagiat Harfiah pada Dokumen
Teks Berbahasa Indonesia dengan Memanfaatkan Mesin Pencari. Dibimbing oleh
AHMAD RIDHA.
Mesin pencari dapat dimanfaatkan untuk mendeteksi plagiat karena mesin
pencari adalah salah satu pintu gerbang untuk mendapatkan dokumen sumber
plagiat. Penelitian ini bertujuan untuk membentuk korpus dokumen plagiat dan
membuat sistem pendeteksi plagiat dengan memanfaatkan mesin pencari. Korpus
dokumen plagiat dibuat dengan menyalin 1-3 dokumen sumber dan
merestrukturisasi dokumen sumber dengan menerjemahkan bolak-balik
menggunakan Google Translate. Korpus dokumen plagiat terdiri atas 100
dokumen. Teks diekstraksi menjadi segmen-segmen yang terdiri atas 4-20 kata.
Segmen-segmen tersebut diboboti berdasarkan ada tidaknya kata dalam kamus

dengan bobot lebih besar diberikan pada kata yang tidak ada dalam kamus.
Penelitian ini berhasil mendeteksi 100% korpus dokumen plagiat dengan
maksimal 31% segmen dokumen dan memanfaatkan mesin pencari Google,
sedangkan dengan mesin pencari Bing, penggunaan hingga 40% segmen dokumen
hanya berhasil mendeteksi 30% korpus dokumen plagiat. Hasil penelitian ini
menunjukkan hasil deteksi plagiat tergantung pada kualitas hasil pencarian yang
dilakukan mesin pencari.
Kata kunci: deteksi plagiat, mesin pencari, segmentasi

ABSTRACT
FUAD DAVIRATMA HUSNI. Literal Plagiarism Detection System for
Indonesian Text Document Using Search Engine. Supervised by AHMAD
RIDHA.
Search engines can be used to detect plagiarism because search engines are
one of the gateways to get source documents. This research aims to establish a
corpus of document plagiarism and develops a system that can detect plagiarism
by utilizing search engines. The corpus is created by copying passages from 1-3
source documents and restructuring the source documents by translating back and
forth with Google Translate. The corpus consists of 100 documents. The
documents are extracted into segments consisting of 4-20 words. The segments

will be weighted based on the words existence in Indonesian dictionary where
words not found in dictionary are given higher weights. Using Google’s search
engine, this study successfully detects 100% of the plagiarized documents using
only a maximum of 31% segments. On the other hand, using Bing and 40%
segment documents only detects 30% of the corpus. The results of this study show
that the performance of online plagiarism detection depends on the quality of the
search results provided by search engines.
Keywords: plagiarism detection, search engines, segmentation

SISTEM PENDETEKSI PLAGIAT HARFIAH PADA
DOKUMEN TEKS BERBAHASA INDONESIA
DENGAN MEMANFAATKAN
MESIN PENCARI

FUAD DAVIRATMA HUSNI

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Ilmu Komputer
pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

Penguji:
1. Sony Hartono Wijaya, SKom MKom
2. Mushthofa, SKom MSc

Judul Skripsi : Sistem Pendeteksi Dokumen Plagiat Harfiah pada Dokumen Teks
Berbahasa Indonesia dengan Memanfaatkan Mesin Pencari
Nama
: Fuad Daviratma Husni
NIM
: G64104002

Disetujui oleh


Ahmad Ridha, SKom MS
Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan karya
ilmiah ini. Topik pada penelitian ini adalah Pendeteksian Plagiat dengan Mesin
Pencari.
Terima kasih penulis ucapkan kepada bapak Ahmad Ridha, SKom MS
selaku pembimbing. Terima kasih juga penulis ucapkan kepada ayah, ibu, istri
serta seluruh keluarga, atas segala doa dan kasih sayangnya.


Bogor, Juli 2013
Fuad Daviratma Husni

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi

PENDAHULUAN

1


Latar Belakang

1

Tujuan Penelitian

1

Ruang Lingkup Penelitian

2

METODE

2

Dokumen Uji

2


Praproses Dokumen

4

Segmentasi Dokumen

4

Pembobotan Segmen dan Pemeringkatan Segmen

5

Pencarian Online

6

Pencatatan dan Identifikasi Alamat

6


Ekstraksi Dokumen Sumber dan Dokumen Uji

7

Perhitungan Jarak

7

Perhitungan Akurasi

8

HASIL DAN PEMBAHASAN
Pembentukan Korpus Dokumen Uji

8
8

Praproses Dokumen Uji dan Dokumen Sumber


10

Segmentasi Dokumen

10

Pembobotan dan Pemeringkatan Segmen

11

Pencarian Online

11

Pencatatan dan Identifikasi Alamat

12

Perhitungan Jarak


13

Akurasi Deteksi Plagiat

14

SIMPULAN DAN SARAN

16

Simpulan

16

Saran

16

DAFTAR PUSTAKA

17

LAMPIRAN

17

RIWAYAT HIDUP

39

DAFTAR TABEL
1 Nilai kesamaan kosinus dokumen uji dengan sumber plagiat
2 Hasil segmentasi dokumen uji
3 Hasil pencarian Google
4 Hasil pencarian Bing
5 Perbandingan hasil kesamaan kosinus maksimum dokumen uji dengan
cara identifikasi alamat dokumen sumber
6 Hasil rata-rata deteksi plagiat dengan 40% segmen dan mesin pencari
Google
7 Hasil rata-rata deteksi plagiat dengan 40% segmen dan mesin pencari
Bing
8 Waktu rata-rata pendeteksian plagiat dengan 40% segmen (detik)
dengan mesin pencari Google
9 Waktu rata-rata pendeteksian plagiat dengan 40% segmen (detik)
dengan mesin pencari Bing

9
10
11
12
12
13
13
15
15

DAFTAR GAMBAR
1
2
3

Aliran sistem deteksi plagiat
Metode penelitian
Penggunaan segmen sebagai kueri dan akurasi deteksi plagiat dengan
Google

2
3
14

DAFTAR LAMPIRAN
1 Dokumen uji
2 Rata-rata kesamaan dokumen uji dengan satu dokumen sumber
3 Rata-rata kesamaan dokumen uji dengan lebih dari satu dokumen
sumber
4 Hasil segmentasi dokumen uji dengan satu dokumen sumber
5 Hasil segmentasi dokumen uji dengan lebih dari satu dokumen sumber
6 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji jenis
hampir sama persis)
7 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji jenis
gabungan berbagai sumber)
8 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji jenis
sedikit bagian sumber)
9 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji jenis
restrukturisasi)
10 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis
hampir sama persis)
11 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis
gabungan berbagai sumber)
12 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis
sedikit bagian sumber)

18
19
20
21
22
23
24
25
26
27
28
29

13 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis
restrukturisasi)
14 Waktu deteksi plagiat dokumen uji jenis hampir sama persis dengan
mesin pencari Google (detik)
15 Waktu deteksi plagiat dokumen uji jenis gabungan beberapa sumber
dengan mesin pencari Google (detik)
16 Waktu deteksi plagiat dokumen uji jenis sedikit bagian sumber dengan
mesin pencari Google (detik)
17 Waktu deteksi plagiat dokumen jenis restrukturisasi dengan mesin
pencari Google (detik)
18 Waktu deteksi plagiat dokumen uji jenis hampir sama persis dengan
mesin pencari Bing (detik)
19 Waktu deteksi plagiat dokumen uji jenis gabungan beberapa sumber
dengan mesin pencari Bing (detik)
20 Waktu deteksi plagiat dokumen uji jenis sedikit bagian sumber dengan
mesin pencari Bing (detik)
21 Waktu deteksi plagiat dokumen jenis restrukturisasi dengan mesin
pencari Bing (detik)

30
31
32
33
34
35
36
37
38

PENDAHULUAN
Latar Belakang
Kemajuan teknik mesin pencari memudahkan orang-orang dalam mencari
apa yang mereka inginkan di internet. Di sisi lain, kesempatan untuk melakukan
plagiat meningkat drastis jika orang-orang memanfaatkan mesin pencari dengan
tidak semestinya. Skenario khas plagiat adalah seseorang melakukan pencarian di
mesin pencari dan kemudian melakukan copy-paste tanpa memahami bahan yang
diambil untuk menyelesaikan tugas mereka (Liu et al. 2007). Hal ini merupakan
kesalahan yang sering dilakukan oleh orang-orang terutama saat waktu yang
dimiliki untuk menyelesaikan tugas tinggal sedikit.
Keseriusan masalah plagiarisme di kalangan akademisi ditunjukkan oleh
hasil penelitian Honig dan Bedi (2012) dengan memeriksa 279 makalah yang
disajikan di International Management Division pada Academy of Management
Conference 2009. Hasil penelitian menunjukkan bahwa 25% dari sampel
merupakan hasil plagiarisme, dan lebih dari 13% menunjukkan plagiarisme yang
signifikan.
Berdasarkan perilaku plagiator, plagiat dibagi menjadi dua bagian yaitu
plagiat harfiah dan plagiat kecerdasan. Plagiat harfiah adalah yang umum
dilakukan dan dalam praktiknya si plagiator tidak menghabiskan banyak waktu
untuk melakukan plagiat, sedangkan plagiat kecerdasan adalah mengakui
kontribusi orang lain sebagai kontribusi si plagiator. Plagiat harfiah terbagi atas
plagiat sama persis, mendekati persis, dan restrukturisasi, sedangkan plagiat
kecerdasan terbagi atas manipulasi teks, terjemah, dan adopsi ide (Alzahrani et al.
2011).
Plagiat harfiah dapat dideteksi dengan menggunakan sistem. Sistem untuk
melakukan deteksi plagiat terdapat dua jenis, yaitu sistem pendeteksi online dan
sistem pendeteksi offline (Mozgovoy 2006). Mozgovoy mengungkapkan bahwa
sistem pendeteksi online masih sulit untuk dilakukan karena butuh banyak waktu
dan perbandingan dokumen tetap dilakukan dengan sistem offline. Oleh sebab itu,
penelitian ini bermaksud untuk membuat sistem pendeteksi plagiat harfiah online
menjadi lebih mudah. Adanya sistem pendeteksi plagiat dengan memanfaatkan
mesin pencari diharapkan dapat menghemat waktu dan tenaga yang digunakan
jika dibandingkan dengan pendeteksian plagiat secara manual menggunakan
mesin pencari.

Tujuan Penelitian
1
2
3

Penelitian ini bertujuan:
Membentuk korpus dokumen plagiat harfiah untuk bahasa Indonesia
Membuat sistem pendeteksi plagiat harfiah untuk dokumen teks bahasa
Indonesia dengan mesin pencari
Mendapatkan hasil deteksi dari sistem pendeteksi plagiat harfiah untuk
dokumen teks dengan memanfaatkan mesin pencari

2
Ruang Lingkup Penelitian
1
2
3
4

Ruang lingkup dari penelitian ini adalah
Bahasa yang digunakan adalah bahasa Indonesia
Jenis plagiat yang dideteksi adalah plagiat harfiah
Mesin pencari yang digunakan adalah Google dan Bing
Ekstraksi teks tidak memperhatikan format asli

METODE
Penelitian Liu et. al. (2011) menggunakan suatu aliran deteksi plagiat yang
dapat dilihat pada Gambar 1 untuk mendeteksi suatu dokumen plagiat. Aliran
sistem pendeteksi plagiat pada penelitian Liu et al. (2011) diadopsi menjadi
metode pada penelitian ini (lihat Gambar 2). Terdapat 4 proses inti dalam aliran
tersebut, yaitu (a) ekstraksi segmen atau potongan kata dari dokumen uji
(dokumen yang ingin diketahui plagiat atau tidak), (b) pemeringkatan segmen
sesuai dengan bobotnya, (c) identifikasi sumber plagiat untuk menentukan apakah
dokumen uji plagiat atau tidak, dan (d) ekspansi jangkauan sebagai pilihan proses
dalam mendapatkan dokumen sumber yaitu dokumen yang dicurigai adalah
dokumen sumber plagiat dari dokumen uji.

Dokumen Uji
Dokumen uji pada penelitian ini diperoleh dari korpus dokumen
plagiat yang dibentuk pada penelitian ini. Dokumen uji dibentuk menjadi
dokumen teks format PDF. Pembentukan dokumen plagiat dilakukan
dengan (a) menyalin suatu dokumen sumber, (b) menyalin 2-3 dokumen
sumber menjadi sebuah dokumen, (c) mengambil hanya sedikit bagian
suatu dokumen sumber dan (d) menggunakan 1-2 dokumen sumber yang
diterjemahkan ke bahasa Inggris yang diterjemahkan kembali ke bahasa
Indonesia. Keempat jenis dokumen tersebut adalah dokumen plagiat
harfiah. Dokumen jenis (a) dan (b) adalah plagiat sama persis, dokumen
jenis (c) adalah plagiat mendekati sama persis dan dokumen jenis (d)
adalah plagiat restrukturisasi.

Gambar 1 Aliran sistem deteksi plagiat

3
Dokumen
Uji

Mulai

Ekstraksi Pdf
dengan Xpdf

Konversi Pdf ke Tif
dengan Ghostscript
Tidak
Konversi Tif ke
Teks dengan
Tesseract

Sukses
Segmentasi Dokumen

Iya
Normalisasi

Praproses Dokumen
Pembobotan dan
Pemeringkatan Segmen
Iya

Daftar
Segmen
Terperingkat

Telah Diproses
Semua

Tidak
Pencarian Online

Pencatatan dan
Identifikasi Alamat

Alamat
Sumber

Iya
Kosong

Tidak
Ekstraksi
Dokumen Uji

Ekstraksi
Dokumen Sumber

Ekspansi Jangkauan

Sebagian Teks
Dokumen Sumber

Sebagian Teks
Dokumen Uji

Perhitungan Jarak
dengan Kesamaan
Kosinus
Tidak
Dicurigai
Plagiat

Identifikasi Sumber Plagiat

Iya
Bukan Dokumen
Plagiat

Dokumen
Plagiat

Laporan-laporan

Selesai

Gambar 2 Metode penelitian

4
Praproses Dokumen
Pada tahap ini dilakukan ekstraksi teks dan normalisasi dokumen. Ekstraksi
dokumen teks format PDF menggunakan aplikasi Xpdf (GCL 2011). Namun, ada
pula dokumen yang tidak dapat diekstrak dengan Xpdf karena terproteksi. Jika
dokumen terproteksi, maka dilakukan rekognisi karakter optik dengan cara
mengkonversikan dokumen menjadi dokumen format TIFF menggunakan aplikasi
Ghostscript (ASI 2012) dan mengkonversikan dokumen format TIFF menjadi
dokumen teks dengan aplikasi Tesseract-ocr. Aplikasi Tesseract-ocr adalah mesin
rekognisi karakter optik yang dikembangkan di Google saat ini (Google 2011).
Penggunaan Ghostscript dilakukan dengan perintah “gs -dBATCH dNOPAUSE
-sDEVICE=tiffg4
-r600x600
-sPAPERSIZE=a4
sOutputFile=namafilebaru.tif namafile.pdf”. Opsi dnopause dan

dbatch digunakan supaya interaksi dengan pengguna ditiadakan dan tidak
berhenti saat akhir setiap halaman. Opsi sdevice dengan tiffg4 berarti dokumen
dikonversikan menjadi jenis dokumen gambar TIFF hitam putih. Opsi r600x600
berarti resolusi dokumen gambar yang diinginkan adalah 600x600 dpi. Opsi
spapersize dengan a4 berarti dokumen gambar dibuat seukuran kertas A4
(Artofcode 2002). Setelah dokumen berhasil dikonversikan menjadi dokumen
gambar TIFF, dokumen gambar TIFF akan dikonversikan menjadi dokumen teks
menggunakan Tesseract-ocr dan dapat diekstrak teksnya.
Daftar pustaka tidak termasuk teks yang diperiksa karena yang menjadi
acuan dalam pemeriksaan plagiat adalah bagian sebelumnya. Daftar pustaka tidak
disertakan karena dapat menyebabkan kesalahan saat melakukan deteksi plagiat.
Dokumen dengan topik yang sama meskipun bukan plagiat dapat memiliki daftar
pustaka yang mirip sehingga akan terdeteksi sebagai plagiat. Daftar pustaka
dihilangkan dengan cara memotong teks yang diawali “DAFTAR PUSTAKA”
atau “REFERENSI” atau “BIBLIOGRAFI” pada 80% bagian akhir dokumen.
Pemilihan pemotongan pada 80% bagian akhir dokumen bertujuan untuk tidak
memotong teks pada daftar isi yang dapat menghilangkan isi dokumen.
Tahap berikutnya adalah normalisasi dokumen teks. Langkah-langkah yang
dilakukan adalah dengan membuang karakter selain tanda petik tunggal, titik,
angka dan huruf, dan spasi yang lebih dari 1. Langkah-langkah ini dilakukan
untuk mendapatkan teks dengan kata-kata tanpa ada simbol atau tanda baca lain
selain titik. Tanda baca titik tidak dihilangkan karena diperlukan pada segmentasi
dokumen.

Segmentasi Dokumen
Metode deteksi plagiat dengan pendekatan segmentasi diperkenalkan Liu et
al. (2012) dengan alasan utama yaitu waktu yang dimiliki plagiator untuk
memeriksa dan mengubah setiap kalimat dalam dokumen hanya sedikit. Oleh
sebab itu, kalimat yang tidak diubah dapat dengan mudah diidentifikasi sebagai
plagiat. Oleh sebab itu, cukup diambil beberapa bagian saja untuk diperiksa.
Pada penelitian Liu et al. (2012) semua tanda baca menjadi pemisah segmen.
Jumlah minimal segmen adalah 2 kata dan tidak ada batas maksimal jumlah kata.
Pada penelitian ini segmentasi dokumen berdasarkan pada tanda titik yang diikuti

5
1 spasi. Batasan jumlah kata yang baik untuk segmen adalah 20 kata. Oleh sebab
itu, jumlah kata maksimum yang diterima adalah 20 kata. Jumlah minimum kata
yang diterima adalah 5 kata karena jumlah kata yang terlalu sedikit kurang baik
untuk menemukembalikan dokumen yang relevan (Fathi 2012). Algoritme untuk
mengimplementasikan aturan segmentasi dokumen adalah seperti berikut
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

AT = daftar teks yang dipisahkan ". "
countAT = jumlah teks dalam AT
ctx = 0
for( ctx < countAT ){
array_kata = daftar kata pada array teks ke-'ctx'
jumlah_kata = jumlah kata pada array_kata
if ( jumlah_kata > 20 ) {
AT ke-[ctx-1] = teks dengan array_kata pertama
hingga ke-14
AT ke-[$ctx] = teks dengan array_kata ke-15
hingga terakhir
ctx = ctx-2;
}else if(jumlah_kata>4){
daftar_segmen