Deteksi Kemiripan Dokumen Teks Menggunakan Algoritma Manber

(1)

DETEKSI KEMIRIPAN DOKUMEN TEKS MENGGUNAKAN

ALGORITMA

MANBER

SKRIPSI

IQBAL MAULANA DJAFAR

091402012

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

2014


(2)

DETEKSI KEMIRIPAN DOKUMEN TEKS MENGGUNAKAN ALGORITMA MANBER

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi

IQBAL MAULANA DJAFAR 091402012

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2014


(3)

ii

PERSETUJUAN

Judul : DETEKSI KEMIRIPAN DOKUMEN TEKS MENGGUNAKAN ALGORITMA MANBER Kategori : SKRIPSI

Nama : IQBAL MAULANA DJAFAR Nomor Induk Mahasiswa : 091402012

Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Fakultas : ILMU KOMPUTER DAN TEKNOLOGI

INFORMASI UNIVERSITAS SUMATERA UTARA

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Sarah Purnamawati, ST., M.Sc Dr. Erna Budhiarti Nababan, M.IT NIP 19830226 2010122 003 NIP

Diketahui/disetujui oleh

Program Studi S1 Teknologi Informasi Ketua,

M. Anggia Muchtar, ST., MM.IT NIP 19800110 200801 1 010


(4)

PERNYATAAN

DETEKSI KEMIRIPAN DOKUMEN MENGGUNAKAN ALGORITMA MANBER

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya Saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing- masing telah disebutkan sumbernya.

Medan,

Iqbal Maulana Djafar 091402012


(5)

iv

PENGHARGAAN

Alhamdulillah segala puji dan syukur saya sampaikan kehadirat Allah SWT beserta Nabi Besar Muhammad SAW yang telah memberikan rahmat, hidayah-Nya sehingga Saya dapat menyelesaikan skripsi ini untuk memperoleh gelar Sarjana Program Studi S-1 Teknologi Informasi Universitas Sumatera Utara.

Ucapan terima kasih penulis sampaikan kepada:

1. Bapak M. Anggia Muchtar, ST., MM.IT dan M. Fadly Syahputra, B.Sc., M.Sc.IT selaku Ketua dan Sekretaris Jurusan Teknologi Informasi Universitas Sumatera Utara, serta seluruh dosen serta pegawai di Program Studi S-1 Teknologi Informasi.

2. Ibu Dr. Erna Budhiarti Nababan, M.IT selaku pembimbing pertama dan Ibu Sarah Purnamawati, ST., M.Sc selaku pembimbing kedua Saya yang telah banyak meluangkan waktunya dan memberikan saran yang bermanfaat dalam menyelesaikan skripsi ini.

3. Bapak M. Anggia Muchtar, ST., MM.IT dan Bapak Dedy Arisandi, ST., M.Kom yang telah bersedia menjadi dosen penguji dan telah memberikan saran-saran yang baik bagi penulis dalam meyelesaikan skripsi ini.

4. Ayahanda Drs. Djafar Djuned dan Bunda Husna Yaini Djuned yang telah memberikan dukungan dan motivasi dalam menyelesaikan skripsi ini.

5. Teman-teman seperjuangan stanbuk 2009 yang banyak memberikan semangat maupun bantuan dalam menyelesaikan skripsi ini.

Dan yang terakhir, penulis mengucapkan terima kasih kepada semua pihak yang sudah membantu dalam penyelesaian tugas akhir ini meskipun tidak dapat disebutkan satu per satu. Terima kasih atas saran, motivasi, dan bantuan yang telah diberikan, semoga Allah memberikan kemudahan bagi kita semua.


(6)

ABSTRAK

Dokumen teks sering dijadikan sebagai objek penjiplakan atau tindak plagiat karena perkembangan teknologi yang semakin pesat tentu akan memudahkan tindakan tersebut untuk dilakukan. Oleh karena itu, dirancang sistem berbasis web untuk mendeteksi kemiripan dokumen teks menggunakan algoritma Manber. Sistem juga dibangun dengan mengimplementasikan teknik Stemming P orter dan Synonym Recognition untuk mengatasi teknik penjiplakan seperti Technical Disguise dan Disguised P lagiarism. Perbedaan hasil yang didapatkan dengan menggunakan teknik tersebut mencapai 15% dibandingkan tanpa penggunaannya.

Kata Kunci: Plagiat, Kemiripan, Stemming P orter, Synonym Recognition, Algoritma Manber


(7)

vi

SIMILARITY DETECTION OF DOCUMENT TEXT USING MANBER ALGORITHM

ABSTRACT

Document text is an object that often used in plagiarism case because the rapid of technology development makes this action more easily to do. In this research, a web based system is designed to detect similarity of document text using Manber Algorithm. Stemming Porter and Synonym Recognition are also implemented to overcome some of plagiarism technique like Technical Disguised and Disguised Plagiarism. The difference result is about 15% compared without using those techniques.

Keyword: Plagiarism, Similarity, Stemming Porter, Synonym Recognition, Manber Algorithm


(8)

DAFTAR ISI

Hal.

PERSETUJUAN ii

PERNYATAAN iii

PENGHARGAAN iv

ABSTRAK v

ABSTRACT vi

DAFTAR ISI vii

DAFTAR TABEL x

DAFTAR GAMBAR xi

BAB 1 PENDAHULUAN 1

1.1 Latar Belakang 1

1.2 Rumusan Masalah 3

1.3 Batasan Masalah 3

1.4 Tujuan Penelitian 4 1.5 Manfaat Penelitian 4 1.6 Metodologi Penelitian 4 1.7 Sistematika Penulisan 5

BAB 2 TINJAUAN PUSTAKA 7

2.1 Keaslian Dokumen Teks 7

2.2 Penjiplakan 7

2.3 Kemiripan Dokumen Teks 8

2.4 Text Mining 9


(9)

viii

2.5.5 P ersamaan Jaccard Coefficient 13

2.6 Stemming 14

2.7 Synonym Recognition 15 2.8 Penelitian Terdahulu 15

BAB 3 ANALISIS DAN PERANCANGAN 18 3.1 Data Yang Digunakan 18 3.2 Flowchart Sistem 18 3.3 Activity Diagram 22

3.4 Stemming 23

3.5 Synonym Recognition 28 3.6 Algoritma Manber 29 3.7 Deteksi Kemiripan Teks Secara Manual 31 3.8 Perancangan Database Dan Interface Sistem 33

3.8.1 Database Sistem 33

3.8.2 Interface Sistem 34

BAB 4 IMPLEMENTASI DAN PENGUJIAN 37

4.1 Implementasi 37

4.1.1 Spesifikasi Hardware Dan Software Yang Digunakan 37

4.1.2 Database Tabel Kata Dasar 38

4.1.3 Database Tabel Kata Sinonim 38

4.1.4 Tampilan Awal 39

4.1.5 Tampilan Hasil 40

4.1.6 Stemming 41

4.1.7 Synonym Recognition 42

4.1.8 Algoritma Manber 43

4.2 Pengujian Sistem 44

4.2.1 P engujian Tampilan Sistem 44


(10)

4.2.6 P engujian Dengan Metode Lainnya 52

BAB 5 KESIMPULAN DAN SARAN 53

5.1 Kesimpulan 53

5.2 Saran 54

DAFTAR PUSTAKA 55


(11)

x

DAFTAR TABEL

Hal. Tabel 2.1 Penelitian Terdahulu 17 Tabel 3.1 Bubuhan Kata Stemming Porter 23 Tabel 3.2 Penambahan Bubuhan Kata 24 Tabel 3.3 Rules Peleburan Huruf 25 Tabel 3.4 Rancangan Tabel Kata Dasar 33 Tabel 3.5 Rancangan Tabel Kata Sinonim 34 Tabel 4.1 Rancangan Pengujian Tampilan Sistem 44 Tabel 4.2 Hasil Pengujian Tampilan Sistem 45 Tabel 4.3 Rancangan Pengujian Rules 46 Tabel 4.4 Hasil Pengujian Rules 47 Tabel 4.5 Rancangan Pengujian SynonymRecognition 48 Tabel 4.6 Hasil Pengujian Synonym Recognition 48 Tabel 4.7 Rancangan Pengujian Kemiripan Teks 49 Tabel 4.8 Hasil Pengujian Kemiripan Teks 51 Tabel 4.9 Rancangan Pengujian Nilai N 51 Tabel 4.10 Hasil Pengujian Nilai N 51 Tabel 4.11 Rancangan Pengujian Dengan Metode Lainnya 52 Tabel 4.12 Hasil Pengujian Dengan Metode Lainnya 52


(12)

DAFTAR GAMBAR

Hal. Gambar 3.1 F lowchartP reprocessing 19 Gambar 3.2 F lowchart Text Transformation 20 Gambar 3.3 F lowchart F eature Selection & P atter Discovery 21 Gambar 3.4 Diagram Activity 22 Gambar 3.5 Proses Stemming 26 Gambar 3.6 Proses Synonym Recognition 28 Gambar 3.7 Proses Algoritma Manber 30 Gambar 3.8 Rancangan Tampilan Awal Sistem 35 Gambar 3.9 Rancangan Tampilan Hasil Sistem 36 Gambar 4.1 Database Tabel Kata Dasar 38 Gambar 4.2 Database Tabel Kata Sinonim 38 Gambar 4.3 Tampilan Awal Sistem 39 Gambar 4.4 Tampilan Hasil Sistem 40 Gambar 4.5 Hasil Implementasi Stemming 42 Gambar 4.6 Hasil Implementasi Synonym Recognition 43 Gambar 4.7 Hasil Proses Algoritma Manber 43 Gambar 4.8 Hasil Akhir Algoritma Manber 44 Gambar 4.9 Pengujian Stemming Dan Rules 47 Gambar 4.10 Pengujian Synonym Recognition 48 Gambar 4.11 Hanya Menggunakan Algoritma Manber 49 Gambar 4.12 Stemming, Synonym Recognition, Dan Algoritma Manber 50


(1)

vi

SIMILARITY DETECTION OF DOCUMENT TEXT USING MANBER ALGORITHM

ABSTRACT

Document text is an object that often used in plagiarism case because the rapid of technology development makes this action more easily to do. In this research, a web based system is designed to detect similarity of document text using Manber Algorithm. Stemming Porter and Synonym Recognition are also implemented to overcome some of plagiarism technique like Technical Disguised and Disguised Plagiarism. The difference result is about 15% compared without using those techniques.

Keyword: Plagiarism, Similarity, Stemming Porter, Synonym Recognition, Manber Algorithm


(2)

vii

DAFTAR ISI

Hal.

PERSETUJUAN ii

PERNYATAAN iii

PENGHARGAAN iv

ABSTRAK v

ABSTRACT vi

DAFTAR ISI vii

DAFTAR TABEL x

DAFTAR GAMBAR xi

BAB 1 PENDAHULUAN 1

1.1 Latar Belakang 1

1.2 Rumusan Masalah 3

1.3 Batasan Masalah 3

1.4 Tujuan Penelitian 4

1.5 Manfaat Penelitian 4

1.6 Metodologi Penelitian 4

1.7 Sistematika Penulisan 5

BAB 2 TINJAUAN PUSTAKA 7

2.1 Keaslian Dokumen Teks 7

2.2 Penjiplakan 7

2.3 Kemiripan Dokumen Teks 8

2.4 Text Mining 9

2.5 Algoritma Manber 9

2.5.1 P enghapusan Noise Dan Whitespace 10

2.5.2 Metode N-Gram 11

2.5.3 Rolling Hash 12


(3)

viii

2.5.5 P ersamaan Jaccard Coefficient 13

2.6 Stemming 14

2.7 Synonym Recognition 15

2.8 Penelitian Terdahulu 15

BAB 3 ANALISIS DAN PERANCANGAN 18

3.1 Data Yang Digunakan 18

3.2 Flowchart Sistem 18

3.3 Activity Diagram 22

3.4 Stemming 23

3.5 Synonym Recognition 28

3.6 Algoritma Manber 29

3.7 Deteksi Kemiripan Teks Secara Manual 31 3.8 Perancangan Database Dan Interface Sistem 33

3.8.1 Database Sistem 33

3.8.2 Interface Sistem 34

BAB 4 IMPLEMENTASI DAN PENGUJIAN 37

4.1 Implementasi 37

4.1.1 Spesifikasi Hardware Dan Software Yang Digunakan 37

4.1.2 Database Tabel Kata Dasar 38

4.1.3 Database Tabel Kata Sinonim 38

4.1.4 Tampilan Awal 39

4.1.5 Tampilan Hasil 40

4.1.6 Stemming 41

4.1.7 Synonym Recognition 42

4.1.8 Algoritma Manber 43

4.2 Pengujian Sistem 44

4.2.1 P engujian Tampilan Sistem 44

4.2.2 P engujian P roses Stemming 46

4.2.3 P engujian Synonym Recognition 48

4.2.4 P engujian Deteksi Kemiripan Teks 49


(4)

ix

4.2.6 P engujian Dengan Metode Lainnya 52

BAB 5 KESIMPULAN DAN SARAN 53

5.1 Kesimpulan 53

5.2 Saran 54

DAFTAR PUSTAKA 55


(5)

x

DAFTAR TABEL

Hal.

Tabel 2.1 Penelitian Terdahulu 17

Tabel 3.1 Bubuhan Kata Stemming Porter 23

Tabel 3.2 Penambahan Bubuhan Kata 24

Tabel 3.3 Rules Peleburan Huruf 25

Tabel 3.4 Rancangan Tabel Kata Dasar 33 Tabel 3.5 Rancangan Tabel Kata Sinonim 34 Tabel 4.1 Rancangan Pengujian Tampilan Sistem 44 Tabel 4.2 Hasil Pengujian Tampilan Sistem 45 Tabel 4.3 Rancangan Pengujian Rules 46

Tabel 4.4 Hasil Pengujian Rules 47

Tabel 4.5 Rancangan Pengujian SynonymRecognition 48 Tabel 4.6 Hasil Pengujian Synonym Recognition 48 Tabel 4.7 Rancangan Pengujian Kemiripan Teks 49 Tabel 4.8 Hasil Pengujian Kemiripan Teks 51 Tabel 4.9 Rancangan Pengujian Nilai N 51 Tabel 4.10 Hasil Pengujian Nilai N 51 Tabel 4.11 Rancangan Pengujian Dengan Metode Lainnya 52 Tabel 4.12 Hasil Pengujian Dengan Metode Lainnya 52


(6)

xi

DAFTAR GAMBAR

Hal. Gambar 3.1 F lowchartP reprocessing 19 Gambar 3.2 F lowchart Text Transformation 20 Gambar 3.3 F lowchart F eature Selection & P atter Discovery 21

Gambar 3.4 Diagram Activity 22

Gambar 3.5 Proses Stemming 26

Gambar 3.6 Proses Synonym Recognition 28

Gambar 3.7 Proses Algoritma Manber 30

Gambar 3.8 Rancangan Tampilan Awal Sistem 35 Gambar 3.9 Rancangan Tampilan Hasil Sistem 36 Gambar 4.1 Database Tabel Kata Dasar 38 Gambar 4.2 Database Tabel Kata Sinonim 38

Gambar 4.3 Tampilan Awal Sistem 39

Gambar 4.4 Tampilan Hasil Sistem 40

Gambar 4.5 Hasil Implementasi Stemming 42 Gambar 4.6 Hasil Implementasi Synonym Recognition 43 Gambar 4.7 Hasil Proses Algoritma Manber 43 Gambar 4.8 Hasil Akhir Algoritma Manber 44 Gambar 4.9 Pengujian Stemming Dan Rules 47 Gambar 4.10 Pengujian Synonym Recognition 48 Gambar 4.11 Hanya Menggunakan Algoritma Manber 49 Gambar 4.12 Stemming, Synonym Recognition, Dan Algoritma Manber 50