PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS MENGGUNAKAN KOMBINASI ALGORITMA ENHANCED CONFIX STRIPPING DAN ALGORITMA WINNOWING SKRIPSI ADE CHANIA SION SAGALA 091402044
PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS
MENGGUNAKAN KOMBINASI ALGORITMA
ENHANCED CONFIX STRIPPING DANALGORITMA WINNOWING
SKRIPSI
ADE CHANIA SION SAGALA
091402044
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2014
PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS
MENGGUNAKAN KOMBINASI ALGORITMA
ENHANCED CONFIX STRIPPING DAN
ALGORITMA WINNOWING
SKRIPSI Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Sarjana Teknologi Informasi
ADE CHANIA SION SAGALA
091402044 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN
2014
PERSETUJUAN
Judul : PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS MENGGUNAKAN KOMBINASI ALGORITMA ENHANCED
CONFIX STRIPPING DAN ALGORITMA WINNOWING
Kategori : SKRIPSI Nama : ADE CHANIA SION SAGALA Nomor Induk Mahasiswa : 091402044 Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Departemen : TEKNOLOGI INFORMASI Fakultas : ILMU KOMPUTER DAN TEKNOLOGI
INFORMASI (FASILKOM-TI) UNIVERSITAS SUMATERA UTARA
Diluluskan di Medan, 29 Agustus 2014
Komisi Pembimbing: Pembimbing 2 Pembimbing 1 Romi Fadillah Rahmat, B.Comp.Sc., M.Sc. Maya Silvi Lydia, B.Sc., M.Sc.
NIP 19860303 201012 1 004 NIP 19740127 200212 2 001 Diketahui/Disetujui oleh Program Studi S1 Teknologi Informasi Ketua,
PERNYATAAN
PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS MENGGUNAKAN KOMBINASI ALGORITMA ENHANCED CONFIX STRIPPING DAN ALGORITMA WINNOWING SKRIPSI Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 29 Agustus 2014 Ade Chania Sion Sagala 091402044
UCAPAN TERIMA KASIH
Segala puji dan syukur penulis sampaikan kepada Tuhan Yesus yang telah memberikan berkat-Nya yang melimpah sehingga penulis dapat menyelesaikan skripsi ini dengan baik untuk memperoleh gelar Sarjana Teknologi Informasi, Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.
Dengan segala kerendahan hati penulis ucapkan terima kasih kepada: 1. Ayah penulis, alm. Alfanus Februanto Sagala, S.H., ibu penulis, Chitra Dewi
Siregar, dan adik penulis satu-satunya Milca Satriyani Sagala, A.md yang telah memberikan doa dan dukungan moral kepada penulis untuk menyelesaikan skripsi ini beserta keluarga besar yang telah turut mendoakan penulis.
2. Ibu Maya Silvi Lydia, B.Sc., M.Sc. dan Bapak Romi Fadillah Rahmat, B.Comp.Sc., M.Sc. selaku dosen pembimbing penulis yang telah meluangkan waktu, pikiran, saran, dan kritiknya untuk penulis dalam menyelesaikan skripsi ini.
3. Ibu Sarah Purnamawati, S.T., M.Sc dan Ibu Dr. Erna Budhiarti, M.IT. yang telah bersedia menjadi dosen penguji dan memberikan saran dan kritik yang membangun dalam penyelesaian skripsi ini.
4. Ketua dan Sekretaris Program Studi S1 Teknologi Informasi, Bapak M.
Anggia Muchtar, S.T., MM.IT. dan Bapak Mohammad Fadly Syahputra, B.Sc., M.Sc.IT.
5. Seluruh dosen yang mengajar serta Ibu Delima dan Bang Faisal, sebagai staf Tata Usaha Program Studi Teknologi Informasi Universitas Sumatera Utara.
6. Sahabat-sahabat yang selalu mendukung dan memberi semangat kepada penulis, Fida Elvi Anderia Sebayang, S.TI, Stella Maris Harefa, S.TI, Cynthia Arilla Sembiring, S.TI, Riska Vinesia Butarbutar, S.TI, Jihan Meutia Fauzen, S.TI, Annifa Iqramitha, S.TI, dan semua teman angkatan 2009.
7. Sahabat penulis Maria Fransiska Sinaga, S.T., Septina Veronika Bancin, S.KG, dan Dewi Tambunan yang selalu mendoakan dan memberi semangat.
8. Seluruh rekan kuliah sejawat yang tidak dapat disebutkan satu persatu. Penulis menyadari bahwa masih banyak kekurangan dalam skripsi ini, untuk itu penulis mengharapkan saran dan kritik yang bersifat membangun dari semua pihak
ABSTRAK
Maraknya tindakan plagiarisme di dunia perkuliahan, baik plagiarisme dalam hal penyelesaian tugas maupun penyusunan karya ilmiah dapat mengurangi bahkan mematikan kreativitas seseorang dalam berkarya. Oleh karena itu, dibutuhkan sebuah aplikasi untuk mendeteksi tingkat kesamaan (similarity) sebuah dokumen teks dengan dokumen yang sudah ada. Penelitian ini menggunakan kombinasi dari algoritma
Enhanced Confix Stripping (ECS) Stemmer untuk proses stemming teks yang
dimasukkan dan algoritma Winnowing untuk menghitung tingkat kesamaannya (similarity) dengan dokumen dari database. Dengan ditentukannya nilai gram dan
window pada perhitungan algoritma Winnowing, diharapkan dapat memudahkan user
menggunakan aplikasi ini tanpa harus bingung menentukan nilai gram dan window- nya untuk menghasilkan nilai similarity yang akurat. Hasil pengujian menyimpulkan nilai kesamaan (similarity) sekitar 23-26% dengan percobaan 3 jurnal yang berkategori sama dengan jurnal pembanding. Dan untuk pendeteksian tanpa stemming menghasilkan tingkat kesamaan (similarity) sekitar 35-40% dengan jumlah jurnal dan kategori yang sama pula.
Kata kunci: enhanced confix stripping (ecs) stemmer, winnowing, plagiarisme, tingkat plagiat, similarity
SIMILARITY DETECTION FOR TEXT DOCUMENTS
USING COMBINATION OF ENHANCED CONFIX
STRIPPING STEMMER ALGORITHM AND
WINNOWING ALGORITHM
ABSTRACT
The plethora of plagiarism in lecturing, such as for finishing projects or making scientific papers can diminish even stifle someoneās creativity. Therefore, an application to detect a document for the similarity level of plagiarism with the existing one is needed. This research uses the combination of Enhanced Confix Stripping (ECS) Stemmer algorithm to stem the input text and Winnowing algorithm to numerate the similarity level with a document in database. The value of gram and window for the calculation of Winnowing algorithm are determined along with, so that it can abridge the user to use this application without being confused to determine the value of its gram and window to get an accurate similarity. The result concludes that the similarity is about 23-26% by three-same-category testing journals with the correlate journal in database. And the result of the nonstemming detection of similarity is about 35-40% with the same total of journals and category.
Keywords: enhanced confix stripping (ecs) stemmer, winnowing, plagiarism, level of plagiarism, similarity
DAFTAR ISI
Halaman PERSETUJUAN ii
PERNYATAAN iii
UCAPAN TERIMA KASIH iv
ABSTRAK v
ABSTRACT vi
DAFTAR ISI vii
DAFTAR TABEL ix
DAFTAR GAMBAR x
BAB 1 PENDAHULUAN
1
1.1. Latar Belakang
1
1.2. Rumusan Masalah
2
1.3. Batasan Masalah
3
1.4. Tujuan Penelitian
3
1.5. Manfaat Penelitian
3
1.6. Metodologi Penelitian
3
1.7. Sistematika Penulisan
4 BAB 2 TINJAUAN PUSTAKA
6
2.1. Plagiarisme
6
2.1.1. Pengertian Plagiarisme
6
2.1.2. Peraturan dan Hukum yang Mengatur Plagiarisme
8
2.2. Citasi
9
2.3. Algoritma Stemming Bahasa Indonesia
10
2.3.1. Algoritma Enhanced Confix Stripping Stemmer
11
2.4. Algoritma Winnowing
14
2.4.1. Rolling Hash
15
2.4.2. Tahapan Penerapan Algoritma Winnowing
16
2.4.3. Pengukuran Dan Persentase Similarity
17
2.5. Penelitian Terdahulu
18 BAB 3 ANALISIS DAN PERANCANGAN SISTEM
20
3.1. Analisis Data
20
3.1.1. Data Jurnal
20
3.1.2. Tabel Kata Dasar
21
3.1.3. Tabel Stoplist
21 Halaman
3.2.2. Proses User
45
3.3. Perancangan Sistem
46
3.3.1. Arsitektur Umum (General Architecture)
46
3.3.2. Diagram Use Case
46
3.3.3. Realisasi Definisi Use Case
47
3.4. Perancangan Tampilan Antarmuka
49
3.4.1. Rancangan Halaman Utama User
49
3.4.2. Rancangan Halaman Hasil Pendeteksian
49
3.4.3. Rancangan Halaman Home Admin
50
3.4.4. Rancangan Halaman Profile Admin
51
3.4.5. Rancangan Halaman Edit Dictionary Admin
51
3.4.6. Rancangan Halaman Proses Stemming
52
3.4.7. Rancangan Halaman Nilai Hash dan Fingerprint
53 BAB 4 IMPLEMENTASI DAN PENGUJIAN
54
4.1. Implementasi Sistem
54
4.1.1. Spesifikasi Perangkat Keras Dan Perangkat Lunak Yang Digunakan
54
4.1.2. Implementasi Perancangan Antarmuka
54
a. Tampilan Halaman Utama User
54
b. Tampilan Halaman Hasil Pendeteksian
55
c. Tampilan Halaman Home Admin
55
d. Tampilan Halaman Profile Admin
56
e. Tampilan Halaman Edit Dictionary Admin
56
f. Tampilan Halaman Proses Stemming
57
g. Tampilan Halaman Nilai Hash dan Fingerprint
57
4.2. Pengujian Sistem
58
4.2.1. Pengujian pada Proses yang Dilakukan Admin
58
4.2.2. Pengujian pada Proses yang Dilakukan User
60
4.2.3. Pengujian Kinerja Sistem
60
4.2.4. Hasil Pengujian Sistem
61
a. Hasil Pengujian Dengan Proses Stemming
61
b. Hasil Pengujian Tanpa Proses Stemming
62 BAB 5 KESIMPULAN DAN SARAN
64
5.1. Kesimpulan
64
5.2. Saran
64 DAFTAR PUSTAKA
65 LAMPIRAN A: Kode Program
68 LAMPIRAN B: Hasil Pendeteksian Kesamaan
74
DAFTAR TABEL
21 Tabel 3.4. Tabel Stoplist
61 Tabel 4.4. Hasil Pengujian Tanpa Proses Stemming
60 Tabel 4.3. Hasil Pengujian Dengan Proses Stemming
60 Tabel 4.2. Daftar Jurnal Pembanding
47 Tabel 4.1. Daftar Jurnal Uji
38 Tabel 3.7. Realisasi Definisi Use case
31 Tabel 3.6. Nilai Fungsi Hash Kalimat 2
22 Tabel 3.5. Nilai Fungsi Hash Kalimat 1
24 Tabel 3.3. Tabel Kata Dasar
Halaman
20 Tabel 3.2. Tabel Keyword
19 Tabel 3.1. Tabel Kategori
13 Tabel 2.5. Penelitian Terdahulu
11 Tabel 2.4. Aturan Pemenggalan Awalan Algoritma Enhanced Confix Stripping Stemmer
11 Tabel 2.3. Aturan Pemenggalan Awalan Algoritma Stemmer Nazief dan Adriani
11 Tabel 2.2. Urutan Pengembalian Akhiran
Tabel 2.1. Aturan Dasar Awalan - Akhiran Yang Berlaku62
DAFTAR GAMBAR
51 Gambar 3.12. Rancangan Halaman Edit Dictionary Admin
58 Gambar 4.8. Database Tabel Keyword
57 Gambar 4.7. Tampilan Halaman Nilai Hash dan Fingerprint
57 Gambar 4.6. Tampilan Halaman Proses Stemming
56 Gambar 4.5. Tampilan Halaman Edit Dictionary Admin
56 Gambar 4.4. Tampilan Halaman Profile Admin
55 Gambar 4.3. Tampilan Halaman Home Admin
55 Gambar 4.2. Tampilan Halaman Hasil Pendeteksian
53 Gambar 4.1. Tampilan Halaman Utama User
52 Gambar 3.14. Rancangan Halaman Nilai Hash dan Fingerprint
52 Gambar 3.13. Rancangan Halaman Proses Stemming
50 Gambar 3.11. Rancangan Halaman Profile Admin
Halaman
50 Gambar 3.10. Rancangan Halaman Home Admin
49 Gambar 3.9. Rancangan Halaman Hasil Pendeteksian
47 Gambar 3.8. Rancangan Halaman Utama User
46 Gambar 3.7. Diagram Use case
45 Gambar 3.6. General Architecture
29 Gambar 3.5. Flowchart Proses User
25 Gambar 3.4. Flowchart Stemming ECS
26 Gambar 3.3. Flowchart Penghapusan Stopwords
25 Gambar 3.2. Flowchart Text Preprocessing
Gambar 3.1. Flowchart Proses Admin59