PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS MENGGUNAKAN KOMBINASI ALGORITMA ENHANCED CONFIX STRIPPING DAN ALGORITMA WINNOWING SKRIPSI ADE CHANIA SION SAGALA 091402044

  

PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS

MENGGUNAKAN KOMBINASI ALGORITMA

ENHANCED CONFIX STRIPPING DAN

ALGORITMA WINNOWING

SKRIPSI

ADE CHANIA SION SAGALA

091402044

  

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

2014

  

PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS

MENGGUNAKAN KOMBINASI ALGORITMA

ENHANCED CONFIX STRIPPING DAN

ALGORITMA WINNOWING

  SKRIPSI Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah

  Sarjana Teknologi Informasi

ADE CHANIA SION SAGALA

  091402044 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN

  2014

  PERSETUJUAN

  Judul : PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS MENGGUNAKAN KOMBINASI ALGORITMA ENHANCED

  CONFIX STRIPPING DAN ALGORITMA WINNOWING

  Kategori : SKRIPSI Nama : ADE CHANIA SION SAGALA Nomor Induk Mahasiswa : 091402044 Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Departemen : TEKNOLOGI INFORMASI Fakultas : ILMU KOMPUTER DAN TEKNOLOGI

  INFORMASI (FASILKOM-TI) UNIVERSITAS SUMATERA UTARA

  Diluluskan di Medan, 29 Agustus 2014

  Komisi Pembimbing: Pembimbing 2 Pembimbing 1 Romi Fadillah Rahmat, B.Comp.Sc., M.Sc. Maya Silvi Lydia, B.Sc., M.Sc.

  NIP 19860303 201012 1 004 NIP 19740127 200212 2 001 Diketahui/Disetujui oleh Program Studi S1 Teknologi Informasi Ketua,

  

PERNYATAAN

  PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS MENGGUNAKAN KOMBINASI ALGORITMA ENHANCED CONFIX STRIPPING DAN ALGORITMA WINNOWING SKRIPSI Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

  Medan, 29 Agustus 2014 Ade Chania Sion Sagala 091402044

UCAPAN TERIMA KASIH

  Segala puji dan syukur penulis sampaikan kepada Tuhan Yesus yang telah memberikan berkat-Nya yang melimpah sehingga penulis dapat menyelesaikan skripsi ini dengan baik untuk memperoleh gelar Sarjana Teknologi Informasi, Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.

  Dengan segala kerendahan hati penulis ucapkan terima kasih kepada: 1. Ayah penulis, alm. Alfanus Februanto Sagala, S.H., ibu penulis, Chitra Dewi

  Siregar, dan adik penulis satu-satunya Milca Satriyani Sagala, A.md yang telah memberikan doa dan dukungan moral kepada penulis untuk menyelesaikan skripsi ini beserta keluarga besar yang telah turut mendoakan penulis.

  2. Ibu Maya Silvi Lydia, B.Sc., M.Sc. dan Bapak Romi Fadillah Rahmat, B.Comp.Sc., M.Sc. selaku dosen pembimbing penulis yang telah meluangkan waktu, pikiran, saran, dan kritiknya untuk penulis dalam menyelesaikan skripsi ini.

  3. Ibu Sarah Purnamawati, S.T., M.Sc dan Ibu Dr. Erna Budhiarti, M.IT. yang telah bersedia menjadi dosen penguji dan memberikan saran dan kritik yang membangun dalam penyelesaian skripsi ini.

  4. Ketua dan Sekretaris Program Studi S1 Teknologi Informasi, Bapak M.

  Anggia Muchtar, S.T., MM.IT. dan Bapak Mohammad Fadly Syahputra, B.Sc., M.Sc.IT.

  5. Seluruh dosen yang mengajar serta Ibu Delima dan Bang Faisal, sebagai staf Tata Usaha Program Studi Teknologi Informasi Universitas Sumatera Utara.

  6. Sahabat-sahabat yang selalu mendukung dan memberi semangat kepada penulis, Fida Elvi Anderia Sebayang, S.TI, Stella Maris Harefa, S.TI, Cynthia Arilla Sembiring, S.TI, Riska Vinesia Butarbutar, S.TI, Jihan Meutia Fauzen, S.TI, Annifa Iqramitha, S.TI, dan semua teman angkatan 2009.

  7. Sahabat penulis Maria Fransiska Sinaga, S.T., Septina Veronika Bancin, S.KG, dan Dewi Tambunan yang selalu mendoakan dan memberi semangat.

  8. Seluruh rekan kuliah sejawat yang tidak dapat disebutkan satu persatu. Penulis menyadari bahwa masih banyak kekurangan dalam skripsi ini, untuk itu penulis mengharapkan saran dan kritik yang bersifat membangun dari semua pihak

  

ABSTRAK

  Maraknya tindakan plagiarisme di dunia perkuliahan, baik plagiarisme dalam hal penyelesaian tugas maupun penyusunan karya ilmiah dapat mengurangi bahkan mematikan kreativitas seseorang dalam berkarya. Oleh karena itu, dibutuhkan sebuah aplikasi untuk mendeteksi tingkat kesamaan (similarity) sebuah dokumen teks dengan dokumen yang sudah ada. Penelitian ini menggunakan kombinasi dari algoritma

  

Enhanced Confix Stripping (ECS) Stemmer untuk proses stemming teks yang

  dimasukkan dan algoritma Winnowing untuk menghitung tingkat kesamaannya (similarity) dengan dokumen dari database. Dengan ditentukannya nilai gram dan

  

window pada perhitungan algoritma Winnowing, diharapkan dapat memudahkan user

  menggunakan aplikasi ini tanpa harus bingung menentukan nilai gram dan window- nya untuk menghasilkan nilai similarity yang akurat. Hasil pengujian menyimpulkan nilai kesamaan (similarity) sekitar 23-26% dengan percobaan 3 jurnal yang berkategori sama dengan jurnal pembanding. Dan untuk pendeteksian tanpa stemming menghasilkan tingkat kesamaan (similarity) sekitar 35-40% dengan jumlah jurnal dan kategori yang sama pula.

  Kata kunci: enhanced confix stripping (ecs) stemmer, winnowing, plagiarisme, tingkat plagiat, similarity

  

SIMILARITY DETECTION FOR TEXT DOCUMENTS

USING COMBINATION OF ENHANCED CONFIX

STRIPPING STEMMER ALGORITHM AND

WINNOWING ALGORITHM

ABSTRACT

  The plethora of plagiarism in lecturing, such as for finishing projects or making scientific papers can diminish even stifle someoneā€Ÿs creativity. Therefore, an application to detect a document for the similarity level of plagiarism with the existing one is needed. This research uses the combination of Enhanced Confix Stripping (ECS) Stemmer algorithm to stem the input text and Winnowing algorithm to numerate the similarity level with a document in database. The value of gram and window for the calculation of Winnowing algorithm are determined along with, so that it can abridge the user to use this application without being confused to determine the value of its gram and window to get an accurate similarity. The result concludes that the similarity is about 23-26% by three-same-category testing journals with the correlate journal in database. And the result of the nonstemming detection of similarity is about 35-40% with the same total of journals and category.

  Keywords: enhanced confix stripping (ecs) stemmer, winnowing, plagiarism, level of plagiarism, similarity

DAFTAR ISI

  Halaman PERSETUJUAN ii

  PERNYATAAN iii

  UCAPAN TERIMA KASIH iv

  ABSTRAK v

  ABSTRACT vi

  DAFTAR ISI vii

  DAFTAR TABEL ix

  DAFTAR GAMBAR x

  BAB 1 PENDAHULUAN

  1

  1.1. Latar Belakang

  1

  1.2. Rumusan Masalah

  2

  1.3. Batasan Masalah

  3

  1.4. Tujuan Penelitian

  3

  1.5. Manfaat Penelitian

  3

  1.6. Metodologi Penelitian

  3

  1.7. Sistematika Penulisan

  4 BAB 2 TINJAUAN PUSTAKA

  6

  2.1. Plagiarisme

  6

  2.1.1. Pengertian Plagiarisme

  6

  2.1.2. Peraturan dan Hukum yang Mengatur Plagiarisme

  8

  2.2. Citasi

  9

  2.3. Algoritma Stemming Bahasa Indonesia

  10

  2.3.1. Algoritma Enhanced Confix Stripping Stemmer

  11

  2.4. Algoritma Winnowing

  14

  2.4.1. Rolling Hash

  15

  2.4.2. Tahapan Penerapan Algoritma Winnowing

  16

  2.4.3. Pengukuran Dan Persentase Similarity

  17

  2.5. Penelitian Terdahulu

  18 BAB 3 ANALISIS DAN PERANCANGAN SISTEM

  20

  3.1. Analisis Data

  20

  3.1.1. Data Jurnal

  20

  3.1.2. Tabel Kata Dasar

  21

  3.1.3. Tabel Stoplist

  21 Halaman

  3.2.2. Proses User

  45

  3.3. Perancangan Sistem

  46

  3.3.1. Arsitektur Umum (General Architecture)

  46

  3.3.2. Diagram Use Case

  46

  3.3.3. Realisasi Definisi Use Case

  47

  3.4. Perancangan Tampilan Antarmuka

  49

  3.4.1. Rancangan Halaman Utama User

  49

  3.4.2. Rancangan Halaman Hasil Pendeteksian

  49

  3.4.3. Rancangan Halaman Home Admin

  50

  3.4.4. Rancangan Halaman Profile Admin

  51

  3.4.5. Rancangan Halaman Edit Dictionary Admin

  51

  3.4.6. Rancangan Halaman Proses Stemming

  52

  3.4.7. Rancangan Halaman Nilai Hash dan Fingerprint

  53 BAB 4 IMPLEMENTASI DAN PENGUJIAN

  54

  4.1. Implementasi Sistem

  54

  4.1.1. Spesifikasi Perangkat Keras Dan Perangkat Lunak Yang Digunakan

  54

  4.1.2. Implementasi Perancangan Antarmuka

  54

  a. Tampilan Halaman Utama User

  54

  b. Tampilan Halaman Hasil Pendeteksian

  55

  c. Tampilan Halaman Home Admin

  55

  d. Tampilan Halaman Profile Admin

  56

  e. Tampilan Halaman Edit Dictionary Admin

  56

  f. Tampilan Halaman Proses Stemming

  57

  g. Tampilan Halaman Nilai Hash dan Fingerprint

  57

  4.2. Pengujian Sistem

  58

  4.2.1. Pengujian pada Proses yang Dilakukan Admin

  58

  4.2.2. Pengujian pada Proses yang Dilakukan User

  60

  4.2.3. Pengujian Kinerja Sistem

  60

  4.2.4. Hasil Pengujian Sistem

  61

  a. Hasil Pengujian Dengan Proses Stemming

  61

  b. Hasil Pengujian Tanpa Proses Stemming

  62 BAB 5 KESIMPULAN DAN SARAN

  64

  5.1. Kesimpulan

  64

  5.2. Saran

  64 DAFTAR PUSTAKA

  65 LAMPIRAN A: Kode Program

  68 LAMPIRAN B: Hasil Pendeteksian Kesamaan

  74

  

DAFTAR TABEL

  21 Tabel 3.4. Tabel Stoplist

  61 Tabel 4.4. Hasil Pengujian Tanpa Proses Stemming

  60 Tabel 4.3. Hasil Pengujian Dengan Proses Stemming

  60 Tabel 4.2. Daftar Jurnal Pembanding

  47 Tabel 4.1. Daftar Jurnal Uji

  38 Tabel 3.7. Realisasi Definisi Use case

  31 Tabel 3.6. Nilai Fungsi Hash Kalimat 2

  22 Tabel 3.5. Nilai Fungsi Hash Kalimat 1

  24 Tabel 3.3. Tabel Kata Dasar

  Halaman

  20 Tabel 3.2. Tabel Keyword

  19 Tabel 3.1. Tabel Kategori

  13 Tabel 2.5. Penelitian Terdahulu

  11 Tabel 2.4. Aturan Pemenggalan Awalan Algoritma Enhanced Confix Stripping Stemmer

  11 Tabel 2.3. Aturan Pemenggalan Awalan Algoritma Stemmer Nazief dan Adriani

  11 Tabel 2.2. Urutan Pengembalian Akhiran

Tabel 2.1. Aturan Dasar Awalan - Akhiran Yang Berlaku

  62

  

DAFTAR GAMBAR

  51 Gambar 3.12. Rancangan Halaman Edit Dictionary Admin

  58 Gambar 4.8. Database Tabel Keyword

  57 Gambar 4.7. Tampilan Halaman Nilai Hash dan Fingerprint

  57 Gambar 4.6. Tampilan Halaman Proses Stemming

  56 Gambar 4.5. Tampilan Halaman Edit Dictionary Admin

  56 Gambar 4.4. Tampilan Halaman Profile Admin

  55 Gambar 4.3. Tampilan Halaman Home Admin

  55 Gambar 4.2. Tampilan Halaman Hasil Pendeteksian

  53 Gambar 4.1. Tampilan Halaman Utama User

  52 Gambar 3.14. Rancangan Halaman Nilai Hash dan Fingerprint

  52 Gambar 3.13. Rancangan Halaman Proses Stemming

  50 Gambar 3.11. Rancangan Halaman Profile Admin

  Halaman

  50 Gambar 3.10. Rancangan Halaman Home Admin

  49 Gambar 3.9. Rancangan Halaman Hasil Pendeteksian

  47 Gambar 3.8. Rancangan Halaman Utama User

  46 Gambar 3.7. Diagram Use case

  45 Gambar 3.6. General Architecture

  29 Gambar 3.5. Flowchart Proses User

  25 Gambar 3.4. Flowchart Stemming ECS

  26 Gambar 3.3. Flowchart Penghapusan Stopwords

  25 Gambar 3.2. Flowchart Text Preprocessing

Gambar 3.1. Flowchart Proses Admin

  59