SISTEM PENDETEKSI PLAGIARISME DOKUMEN SKRIPSI DENGAN MENGGUNAKAN PERBANDINGAN N-GRAMS

  

SISTEM PENDETEKSI PLAGIARISME DOKUMEN SKRIPSI

DENGAN MENGGUNAKAN PERBANDINGAN N-GRAMS

(STUDI KASUS PADA PROGRAM STUDI TEKNIK INFORMATIKA

UNIVERSITAS SANATA DHARMA)

  

SKRIPSI

Ditujukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Teknik Jurusan Teknik Informatika

  

Disusun oleh :

Rosalia Ratna Susanti

NIM : 075314073

PROGRAM STUDI TEKNIK INFORMATIKA

  

FAKULTAS SAINS DAN TEKNOLOGI

UNVERSITAS SANATA DHARMA

YOGYAKARTA

2012

SYSTEM PLAGIARISM DETECTION DOCUMENT THESIS BASED ON N-GRAMS COMPARISON (A CASE STUDY AT DEPARTMENT OF INFORMATIC

  

ENGINEERING , SANATA DHARMA UNIVERSITY

)

  A THESIS Presented as Partial Fulfillment of the Requirements To Obtain the Sarjana Komputer Degree In Informatics Engineering Department By:

Rosalia Ratna Susanti

NIM : 075314073

DEPARTMENT OF INFORMATIC ENGINEERING FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA

  

2012

HALAMAN PERSEMBAHAN

  ! " ! # $$

  $$ % " " " " " " # "

  

SISTEM PENDETEKSI PLAGIARISME DOKUMEN SKRIPSI DENGAN

MENGGUNAKAN PERBANDINGAN N-GRAMS

ABSTRAK

  Plagiat bukan menjadi hal baru dalam dunia pendidikan. Dengan adanya

kemudahan bagi setiap orang untuk dapat bertukar informasi. Sehingga

memberikan kemudahan dalam tindakan plagiarisme terutama dikalangan

mahasiswa. Yang menjadi salah satu keprihatinan dalam dunia pendidikan yaitu

adanya tindakan plagiat pada naskah dokumen skripsi yang banyak dilakukan oleh

para mahasiswa. Oleh karena itu diperlukan suatu sistem pendeteksian

plagiarisme pada dokumen teks yang dilakukan secara terkomputerisasi.

  Dalam hal ini sistem pendeteksi plagiat dokumen skripsi yang akan

digunakan yaitu dengan menggunakan perbandingan n-grams. Perbandingan n-

grams merupakan sebuah metode sederhana dengan membandingkan potongan

teks berdasarkan n-grams kata.

  Pengujian dari sistem ini dilakukan dengan melakukan perhitungan recall

dan precision dari hasil testing program dengan membandingkan dengan hasil

deteksi secara manual. Dari hasil pengujian yang dilakukan terhadap dokumen

skripsi dengan menggunakan perbandingan n-grams dengan nilai n=3, n=4, dan

n=5 yang memiliki tingkat ketepatan terbaik adalah yang nilai n=5 dengan nilai

precision = 90.12% dibandingakn dengan nilai n =3 dengan hasil precision

10.61% dan n=4 dengan hasil precision 78.12%.

  

Kata kunci : sistem pendeteksi plagiarisme, plagiarisme dokumen skripsi,

perbandingan n-grams

  

SYSTEM PLAGIARISM DETECTION DOCUMENT THESIS

BASED ON N-GRAMS COMPARISON

(A CASE STUDY AT DEPARTMENT OF INFORMATIC

ENGINEERING , SANATA DHARMA UNIVERSITY

  )

ABSTRACT

  Plagiarism is not a new thing in the world of education. With the

convenience for everyone to be able to exchange information. So much easier and

acts of plagiarism, especially among students. That was one of concern in

education is the act of plagiarism in the thesis text document is mostly done by the

students. Therefore we need a system for plagiarism detection in text documents is

done in computerized.

  In this system plagiarism detection document thesis based on n-grams

comparison. N-grams comparison is a simple method by comparing the bits of

text based on word n-grams.

  Testing performance of the system with comparing of recall and precision

of the testing program and the detection results manually. From the results of tests

performed on thesis document based on n-grams comparison with a value of n =

3, n = 4 and n = 5 which has the best accuracy rate is the value of n = 5 with the

precision = 90.12% compared with a value of n = 3 with the precision 10.61% and

n = 4 with 78.12% precision results.

  

Key words : plagiarism detection systems, document plagiarism thesis, n-grams

comparison

KATA PENGANTAR

  Puji dan syukur penulis panjatkan ke hadirat Tuhan Yesus Kristus atas

segala berkat, bimbingan, dan kasih-Nya sehingga penulis dapat menyelesaikan

penelitian dan penyusunan tugas akhir yang berjudul “SISTEM PENDETEKSI

PLAGIARISME DOKUMEN SKRIPSI DENGAN MENGGUNAKAN

PERBANDINGAN N-GRAMS (STUDI KASUS PADA PROGRAM STUDI

TEKNIK INFORMATIKA UNIVERSITAS SANATA DHARMA)” ini tepat pada waktunya.

  Tugas akhir ini disusun untuk memenuhi salah satu syarat dalam

menyelesaikan program Strata satu ( S1 ) Jurusan Teknik Informatika Fakultas

Sains dan Teknologi Universitas Sanata Dharma Yogyakarta. Penulis berhasil

menyelesaikan penelitian dan penyusunan tugas akhir ini tak lepas dari bantuan

dan dukungan baik berupa materiil, moral maupun spiritual dari banyak pihak.

Pada kesempatan ini, penulis ingin mengucapkan terima kasih kepada :

  1. Tuhan Yesus Kristus atas berkat, rahmat dan penyertaan selama penulis menyusun dan menyelesaikan tugas akhir ini dari awal hingga selesai.

  2. Ibu P.H. Prima Rosa, S.Si.,M.Sc., selaku Dekan Fakultas Sains dan Teknologi

  Universitas Sanata Dharma Yogyakarta

  3. Ibu Ridhowati Gunawan, S.Kom.,M.T. selaku ketua jurusan Program

Studi Teknik Informatika Universitas Sanata Dharma Yogyakarta

  4. Ibu Sri Hartati Wijono, S.Si.,M.Kom., selaku Dosen Pembimbing atas segala waktu, kesabaran, serta member kritik dan saran yang membangun dalam membantu penyelesaian tugas akhir ini.

  5. Bapak Puspaningtyas Sanjoyo Adi S.T.,M.T.,dan Bapak J.B.Budi Darmawan, S.T.,M.Sc., selaku dosen penguji atas saran dan kritikannya.

  6. Seluruh staff pengajar Prodi Teknik Informatika yang telah memberikan ilmu pengetahuan yang sangat berguna bagi penulis.

  

7. Seluruh staff sekretariat yang telah membantu dalam urusan akademik.

  8. Ayah dan Ibu yang selalu memberikan semangat, doa, perhatian dan kasih sayang kepada penulis.

  9. Kakakku L. Eka Ariwobowo dan adikku Theresia Nurvita S yang selalu memberikan dukungan dan semangat selama pengerjaan tugas akhir ini.

  10. “Ndutz” yang selalu menanyakan perkembangan tugas akhir ini.

  Membantu dan memberikan banyak masukan dan semangat selama menyelesaikan tugas akhir ini. Terimakasih atas dukungan dan semangatnya. 11. “Bebz q cayank” thank’s buat kesabaran, kesetiaan, kasih sayang, nasehat,

semangat, perhatian, dan doa yang telah diberikan hingga saat ini.

  12. Teman seperjuanganku Monica Pancaindrani yang selalu membantu dan memberikan semangat selama pengerjaan tugas akhir ini dari awal hingga selesai.

  13. Seluruh crew K24 Condongcatur dan seluruh rekan kerjaku atas pengertian, dukungan dan perhatian yang selama ini diberikan. Love u all.

  

DAFTAR ISI

HALAMAN JUDUL BAHASA INDONESIA ...................................................... i

HALAMAN JUDUL BAHASA INGGRIS .......................................................... ii

HALAMAN PERSETUJUAN ............................................................................ iii

HALAMAN PENGESAHAN ............................................................................. iv

HALAMAN PERSEMBAHAN ........................................................................... v

HALAMAN PERNYATAAN KEASLIAN KARYA .......................................... vi

HALAMAN PERSETUJUAN PUBLIKASI ...................................................... vii

ABSTRAK ....................................................................................................... viii

ABSTRACT ....................................................................................................... ix

KATA PENGANTAR ......................................................................................... x

DAFTAR ISI .................................................................................................... xiii

DAFTAR TABEL ........................................................................................... xvii

DAFTAR GAMBAR ........................................................................................ xix

  

BAB I PENDAHULUAN .................................................................................... 1

  1.1 Judul ........................................................................................................ 1

  1.2 Latar Belakang Masalah ........................................................................... 1

  1.3 Rumusan Masalah .................................................................................... 3

  1.4 Batasan Masalah ...................................................................................... 3

  1.5 Tujuan ...................................................................................................... 4

  1.6 Luaran Yang Diharapkan .......................................................................... 4

  1.7 Metodologi ............................................................................................... 4

  1.8 Sistematika Penulisan ............................................................................... 5

  

BAB II TINJAUAN PUSTAKA .......................................................................... 7

  2.1 Sistem ....................................................................................................... 7

  2.2 Deteksi Plagiarisme .................................................................................. 7

  2.2.1 Plagiarisme .................................................................................. 7

  2.3 Sistem Temu kembali ............................................................................... 9

  2.3.1 Tahap Preprocessing .................................................................. 10

  2.4 Pengukuran Unjuk Kerja Sistem Temu Kembali ..................................... 15

  2.5 Perbandingan N-grams ........................................................................... 16

  2.6 Konsep N-grams .................................................................................... 17

  2.7 Contoh perhitungan menggunakan perbandingan n-grams ...................... 19

  

BAB III ANALISA DAN PERANCANGAN SISTEM ...................................... 70

  3.1 Gambaran Umum Sistem........................................................................ 70

  3.1.1 Analisa kebutuhan ..................................................................... 73

  3.2 Analisa Sistem ....................................................................................... 73

  3.2.1 Definisi Aktor ............................................................................. 73

  3.2.2 Model Use Case ......................................................................... 74

  3.2.3 Deskripsi Use Case ..................................................................... 75

  3.2.4 Diagram Use Case ...................................................................... 77

  3.2.5 Skenario Use Case ...................................................................... 78

  3.3 Model Analisis ....................................................................................... 92

  3.3.1 Diagram Sekuensial .................................................................... 92

  3.3.1.1 Diagram Sekuensial Login .............................................. 92

  3.3.1.2 Diagram Sekuensial Insert User ...................................... 94

  3.3.1.3 Diagram Sekuensial Update User .................................... 95

  3.3.1.4 Diagram Sekuensial Delete User ..................................... 97

  3.3.1.5 Diagram Sekuensial Insert Kata Dasar ............................ 98

  3.3.1.6 Diagram Sekuensial Delete Kata Dasar ......................... 100

  3.3.1.7 Diagram Sekuensial Cari Kata Dasar ............................. 101

  3.3.1.8 Diagram Sekuensial Insert Stopword ............................. 102

  3.3.1.9 Diagram Sekuensial Update Stopword .......................... 104

  3.3.1.10 Diagram Sekuensial Cari Stopword ............................. 105

  3.3.1.11Diagram Sekuensial Insert Dokumen Skripsi Admin .... 107

  3.3.1.12Diagram Sekuensial Insert Dokumen Skripsi User ....... 108

  3.3.1.13Diagram Sekuensial Preprocessing Dokumen Skripsi Admin ...................................................................................... 110

  3.3.1.14Diagram Sekuensial Preprocessing Dokumen Skripsi User

  3.3.1.15Diagram Sekuensial Deteksi Plagiarisme Admin .......... 114

  3.3.1.16Diagram Sekuensial Deteksi Plagiarisme User ............. 115

  3.3.2 Diagram Kelas Keseluruhan...................................................... 117

  3.3.3 Model Desain ........................................................................... 117

  3.3.3.1 Kelas Perancangan ........................................................ 118

  3.3.3.2 Diagram UML untuk kelas perancangan model ............. 120

  3.3.4 Algoritma Method – Method Penting dalam Setiap Kelas .......... 124

  3.3.5 Prototype Antar Muka .............................................................. 142

  3.3.6 Desain Database ....................................................................... 149

  3.4 Rencana Pengujian dan Evaluasi .......................................................... 151

  3.4.1 Metode Pengujian ..................................................................... 151

  3.4.2 Mekanisme Pengujian Sistem ................................................... 152

  3.4.3 Mekanisme Pengujian Manual .................................................. 153

  

BAB IV IMPLEMENTASI DAN PENGUJIAN ................................................... 154

  4.1 Implementasi ....................................................................................... 154

  4.1.1 Lingkungan Implementasi Perangkat Keras .............................. 154

  4.1.2 Lingkungan Implementasi Perangkat Lunak ............................. 154

  4.1.3 Implementasi Method – Method Penting dalam Setiap Kelas .... 154

  4.1.4 Implementasi Antar Muka......................................................... 178

  4.1.5 Implementasi Kelas .................................................................. 185

  4.1.6 Implementasi Database ............................................................ 186

  4.2 Pengujian ............................................................................................. 188

  4.2.1 Hasil Pengujian Program ............................................................. 188

  4.2.2 Hasil Pengujian Precision ............................................................ 189

  4.2.3Testing Program .......................................................................... 193

  4.3 Kelemahan Sistem ................................................................................ 196

  

BAB V KESIMPULAN ............................................................................................. 198

  5.1 Kesimpulan .......................................................................................... 198

  5.2 Saran .................................................................................................... 199

DAFTAR PUSTAKA .................................................................................... 200

  LAMPIRAN II .............................................................................................. 206 LAMPIRAN III ............................................................................................. 236 LAMPIRAN IV ............................................................................................. 266

  

DAFTAR TABEL

Tabel 2.1 Kombinasi Awalan Akhiran yang Tidak Diijinkan ............................. 13Tabel 2.2 Cara Menentukan Tipe Awalan Untuk Kata Diawali dengan “ te- ..... 14Tabel 2.3 Jenis Awalan Berdasarkan Tipe Awalannya ...................................... 14Tabel 3.1 Tabel Penjelasan Dokumen Plagiat ..................................................... 70Tabel 3.2 Tabel Definisi Aktor ........................................................................... 73Tabel 3.3 Deskripsi Use Case ............................................................................ 75Tabel 3.4 Skenario Use Case Login ................................................................... 79Tabel 3.5 Skenario Insert User ........................................................................... 80Tabel 3.6 Skenario Update User ........................................................................ 81Tabel 3.7 Skenario Delete User .......................................................................... 81Tabel 3.8 Skenario Insert Kata Dasar ................................................................. 82Tabel 3.9 Skenario Delete Kata Dasar ................................................................ 83Tabel 3.10 Skenario Cari Kata Dasar ................................................................. 84Tabel 3.11 Skenario Insert Stopword ................................................................. 84Tabel 3.12 Skenario Update Stopword ............................................................... 85Tabel 3.13 Skenario Cari Stopword .................................................................... 86Tabel 3.14 Skenario Use Case Insert Dokumen Skripsi Admin .......................... 87Tabel 3.15 Skenario Use Case Insert Dokumen Skripsi User ............................. 87Tabel 3.16 Skenario Use Case Preprocessing Dokumen Skripsi Admin ............. 88Tabel 3.17 Skenario Use Case Preprocessing Dokumen Skripsi User ................ 89Tabel 3.18 Skenario Use Case Deteksi Plagiarisme Admin ................................ 90Tabel 3.19 Skenario Use Case Deteksi Plagiarisme User ................................... 91Tabel 3.20 Kelas Perancangan ......................................................................... 118Tabel 3.21 Diagram Relational User ................................................................ 150Tabel 3.22 Diagram Relational Kamus ............................................................. 150Tabel 3.23 Diagram Relational Stopwod .......................................................... 150Tabel 3.24 Diagram Relational KumpulanSkripsi ............................................ 150Tabel 3.25 Diagram Relational ngramkata ....................................................... 151Tabel 4.2 Tabel Pegujian Program ................................................................... 188Tabel 4.3 Tabel Hasil Pengujian....................................................................... 190Tabel 4.4 Tabel Hasil Pengujian Precision dan Recall...................................... 192Tabel 4.5 Data Skripsi Baru ............................................................................. 193

  

DAFTAR GAMBAR

Gambar 2.1 Prose Sistem temu kembali ............................................................... 9Gambar 2.2 Proses Pengindeksan ....................................................................... 10Gambar 3.1 Diagram Keseluruhan Sistem .......................................................... 71Gambar 3.2 Flowcart Perhitungan Perbandingan N-grams ................................. 72Gambar 3.3 Diagram Use Case .......................................................................... 78Gambar 3.4 Diagram Kelas Keseluruhan ......................................................... 117Gambar 3.5 Antar muka Login ......................................................................... 142Gambar 3.6 Antar muka Kelola Stopword ........................................................ 143Gambar 3.7 Antar muka Kelola Kata Dasar ..................................................... 144Gambar 3.8 Antar muka User .......................................................................... 145Gambar 3.9 Antar muka Preprocessing Admin ............................................... 146 Gambar 310 Antar muka Testing Program ....................................................... 147Gambar 3.11 Antar muka Deteksi User ............................................................ 148Gambar 3.12 ER Diagram ................................................................................ 149Gambar 3.13 Mekanisme Pengujian ................................................................. 153Gambar 4.1 Halaman Login ............................................................................. 178Gambar 4.2 Halaman Kelola Stopword ............................................................ 179Gambar 4.3 Halaman Kelola Kata Dasar .......................................................... 180Gambar 4.4 Halaman User ............................................................................... 181Gambar 4.5 Halaman Preprocessing Admin .................................................... 182Gambar 4.6 Halaman Testing Program ............................................................ 183Gambar 4.7 Halaman Deteksi User .................................................................. 184Gambar 4.8 Hasil Pengujian Sample1 .............................................................. 188Gambar 4.9 Hasil Pengujian Sample2 .............................................................. 189Gambar 4.10 Hasil Running Skripsi-051 .......................................................... 194Gambar 4.11 Hasil Running Skripsi-052 .......................................................... 195Gambar 4.12 Hasil Running Skripsi-053 .......................................................... 196

BAB I PENDAHULUAN

  1.1 Judul “SISTEM DETEKSI PLAGIARISME DOKUMEN SKRIPSI DENGAN MENGGUNAKAN PERBANDINGAN N-GRAMS

  1.2 Latar Belakang Masalah Plagiarisme atau sering disebut plagiat adalah penjiplakan atau pengambilan karangan, pendapat, dan sebagainya dari orang lain dan menjadikannya seolah karangan dan pendapat sendiri. Plagiat dapat dianggap sebagai tindak pidana karena mencuri hak cipta orang lain. Pelaku plagiat disebut sebagai plagiator[1]. Plagiat bukan menjadi hal baru dalam dunia pendidikan. Dengan adanya kemudahan bagi setiap orang untuk dapat bertukar informasi, mengakses segala sesuatu melalui internet. Sehingga memberikan kemudahan dalam tindakan plagiarisme terutama dikalangan mahasiswa. Yang menjadi salah satu keprihatinan dalam dunia pendidikan yaitu adanya tindakan plagiat pada naskah dokumen skripsi yang banyak dilakukan oleh para mahasiswa.

  Banyak institusi dan tenaga pengajar menerapkan sanksi akademis terhadap pelaku plagiat untuk mengurangi plagiarisme. Sebagai salah satu Universitas terkemuka di Yogyakarta, Universitas Sanata Dharma tidak

memperbolehkan setiap mahasiswanya melakukan tindakan plagiarisme. Untuk mengatasi adanya plagiarisme dalam dunia pendidikan dapat dilakukan dalam beberapa cara. Terdapat dua cara untuk mengatasi permasalahan plagiarisme, yaitu dengan mencegah dan mendeteksi. Mencegah berarti menjaga atau menghalangi agar plagiarisme tidak dilakukan. Hal tersebut harus dilakukan sedini mungkin terutama dalam dunia pendidikan. Mendeteksi berarti melakukan usaha untuk menemukan tindakan plagiat yang telah dilakukan.

  Yang menjadi permasalahan adalah bagaimana cara untuk mengetahui apakah seorang mahasiswa melakukan plagiarisme atau tidak dalam membuat suatu karya tulis atau skripsi. Untuk mengetahuinya perlu dilakukan pengecekan secara teliti terhadap hasil tulisan mahasiswa tersebut, kemudian dibandingkan dengan hasil tulisan mahasiswa yang lainnya. Tetapi usaha tersebut akan memerlukan waktu yang lama dan ketelitian yang tinggi jika pembandingan tersebut dilakukan secara manual. Oleh karena itu diperlukan suatu sistem pendeteksian plagiarisme pada dokumen teks yang dilakukan secara terkomputerisasi.

  Terdapat beberapa metode yang dilakukan untuk mendeteksi adanya plagiarisme dokumen skripsi atau karya ilmiah antara lain dengan Multilevel Text Comparison, Clustering, Document Similarities, Mining Text with Pimiento, dan N-grams Comparison. Dalam hal ini sistem deteksi plagiat dokumen skripsi yang akan digunakan yaitu dengan menggunakan perbandingan n-grams. Perbandingan ini diharapkan dapat digunakan sebagai sistem terkomputerisasi untuk mendeteksi apakah suatu dokumen skripsi plagiat dari dokumen skripsi yang lain. Perbandingan n- grams merupakan sebuah metode sederhana dengan membandingkan potongan teks berdasarkan n-grams kata. Untuk mendeteksi plagiarisme kata dari dokumen yang mencurigakan plagiat atau tidak dari dokumen referensi[2].

  1.3 Rumusan Masalah Dengan melihat latar belakang yang ada, maka rumusan masalah yang didapatkan adalah :

  1. Bagaimana ketepatan dari sistem deteksi plagiarisme dokumen skripsi dengan menggunakan perbandingan n-grams ?

  2. Bagaimana membuat sistem deteksi plagiarisme dokumen skripsi dengan menggunakan perbandingan n-grams ? .

  1.4 Batasan Masalah Pada sistem deteksi plagiarisme pada dokumen skripsi ditetapkan beberapa batasan sebagai berikut :

  1. Perbandingan menggunakan dengan nilai n=3, n=4 dan n=5.

  2. Data skripsi yang digunakan 50 skripsi mahasiswa Teknik Informatika Universitas Sanata Dharma.

  3. Dokumen yang digunakan Abstraksi, Bab 1, dan Bab 2 dengan topik Sistem Informasi.

  4. Dalam sistem ini hanya akan mendeteksi apakah dokumen skripsi yang

  5. Dokumen yang digunakan Dokumen teks yang akan dideteksi adalah file teks digital yang bersifat plain text, yaitu file yang hanya terdiri dari huruf-huruf dan angka-angka saja, tidak mencakup gambar, tabel, dan sejenisnya.

  

6. Sistem hanya memproses dokumen teks berbahasa Indonesia.

  7. Sistem tidak menghiraukan adanya kutipan.

  8. Sistem tidak memperhatikan sinonim/persamaan kata.

  1.5 Tujuan Penelitian ini bertujuan untuk membangun sebuah sistem untuk mendeteksi plagiarisme dokumen skripsi, sehingga dapat diketahui apakah sebuah skripsi merupakan plagiat dari dokumen skripsi yang lainnya secara terkomputerisasi.

  1.6 Luaran yang Diharapkan Luaran yang diharapkan dari Sistem Deteksi Plagiarisme Dokumen Skripsi Dengan Menggunakan Perbandingan N-grams berupa hasil deteksi

dokumen skripsi apakah merupakan plagiat dari dokumen lain atau tidak.

  1.7 Metodologi Skripsi ini akan dikerjakan dengan metodologi sebagai berikut:

  1. Studi Literatur Metode ini dilaksanakan dengan melakukan studi kepustakaan melalui didapatkan melalui internet, serta mempelajari lebih dalam tentang sistem informasi retrieval, teori-teori tentang plagiarisme dan teknik pengimplementasian perbandingan .

  2. Perancangan Sistem Melakukan perancangan sistem dengan melakukan pengujian terhadap data-data yang ada dengan melakukan perhitungan secara manual untuk mengetahui apakah metode yang digunakan sudah sesuai yang diharapkan.

  3. Implementasi Pembuatan aplikasi pendeteksi plagiarisme dokumen skripsi dengan menggunakan perbandingan n-grams sesuai dengan perancangan yang telah dibuat sebelumnya ke dalam program komputer.

  4. Pengujian dan Evaluasi Melakukan uji coba terhadap program yang telah dibuat kemudian dari hasil yang didapat dilakukan evaluasi terhadap kekurangan program.

1.8 Sistematika Penulisan

  Dalam penulisan skripsi ini, sistematika penulisan dibagi menjadi lima bab, yaitu:

  BAB I : PENDAHULUAN Pada bab ini akan dibahas mengenai latar belakang masalah, rumusan masalah, tujuan penelitian, batasan masalah, metodologi penelitian, dan sistematika penulisan.

  BAB II : TINJAUAN PUSTAKA Pada bab ini akan dibahas mengenai konsep dasar sistem temu- kembali informasi (information retrieval system), Pengukuran unjuk kerja sistem temu kembali, perbandingan n-grams dan konsep n-grams .

  BAB III : ANALISA DAN PERANCANGAN SISTEM Pada bab ini akan dibahas mengenai urutan dan langkah-langkah pengerjaan untuk mengidentifikasi plagiarisme, perancangan user interface dan perancangan basisdata.

  BAB IV : IMPLEMENTASI DAN PEMBAHASAN Pada bab ini akan dibahas mengenai implementasi dari perancangan yang telah dibuat sebelumnya dan uji coba terhadap

hasil sistem dengan hasil membaca secara manual.

  BAB V : KESIMPULAN DAN SARAN Pada bab ini akan dibahas mengenai kesimpulan yang didapat dalam pembuatan sistem dan saran terhadap sistem yang dapat dilakukan untuk penelitian lebih lanjut.

  DAFTAR PUSTAKA LAMPIRAN

BAB II TINJAUAN PUSTAKA

  2.1 Sistem Sistem merupakan sekumpulan unsur/elemen yang saling berkaitan dan saling mempengaruhi dalam melakukan kegiatan bersama untuk mencapai suatu tujuan[4].

  2.2 Deteksi Plagiarisme

2.2.1 Plagiarisme

  Plagiarisme atau sering disebut plagiat adalah penjiplakan atau pengambilan karangan, pendapat, dan sebagainya dari orang lain dan menjadikannya seolah karangan dan pendapat sendiri[10]. Plagiat dapat dianggap sebagai tindak pidana karena mencuri hak cipta orang lain. Di dunia pendidikan, pelaku plagiarisme dapat mendapat hukuman berat seperti dikeluarkan dari sekolah/universitas. Pelaku plagiat disebut sebagai plagiator[1]. Yang digolongkan sebagai plagiarisme:

  1. Menggunakan tulisan orang lain secara mentah, tanpa memberikan tanda jelas (misalnya dengan menggunakan tanda kutip atau blok alinea yang berbeda) bahwa teks tersebut diambil persis dari tulisan lain.

  2. Mengambil gagasan orang lain tanpa memberikan anotasi yang

  Dalam buku Bahasa Indonesia: Sebuah Pengantar Penulisan Ilmiah, Felicia Utorodewo dkk. menggolongkan hal-hal berikut sebagai tindakan plagiarisme[5]:

1. Mengakui tulisan orang lain sebagai tulisan sendiri.

  2. Mengakui gagasan orang lain sebagai pemikiran sendiri.

  3. Mengakui temuan orang lain sebagai kepunyaan sendiri.

  4. Mengakui karya kelompok sebagai kepunyaan atau hasil sendiri.

  5. Menyajikan tulisan yang sama dalam kesempatan yang berbeda tanpa menyebutkan asal-usulnya.

  6. Meringkas dan memparafrasekan (mengutip tak langsung) tanpa menyebutkan sumbernya.

  7. Meringkas dan memparafrasekan dengan menyebut sumbernya, tetapi rangkaian kalimat dan pilihan katanya masih terlalu sama dengan sumbernya. Hal-hal yang tidak tergolong plagiarisme:

1. Menggunakan informasi yang berupa fakta umum.

  2. Menuliskan kembali (dengan mengubah kalimat atau parafrase) opini orang lain dengan memberikan sumber jelas.

  3. Mengutip secukupnya tulisan orang lain dengan memberikan tanda batas jelas bagian kutipan dan menuliskan sumbernya.

2.3 Sistem Temu Kembali

  Sistem temu kembali merupakan bagian dari pengetahuan komputer yang berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri.

  Information Retrieval merupakan suatu pencarian informasi (biasanya berupa dokumen) yang didasarkan pada suatu query (inputan pengguna) yang diharapkan dapat memenuhi keinginan pengguna dari kumpulan dokumen yang ada. Sedangkan, definisi query dalam sistem temu kembali merupakan sebuah formula yang digunakan untuk mencari informasi yang dibutuhkan oleh pengguna, dalam bentuk yang paling sederhana, sebuah query merupakan suatu kata kunci dan dokumen yang mengandung kata kunci merupakan dokumen yang dicari dalam sistem temu kembali[6].

  Proses dalam sistem temu kembali pada gambar 2.1 dapat digambarkan sebagai sebuah proses untuk mendapatkan dokumen yang relevan dari koleksi

dokumen yang ada melalui pencarian query yang diinputkan pengguna.

  Dokumen query Sistem temu kembali relevan

  Koleksi dokumen

Gambar 2.1 Proses Sistem Temu kembali [6] Proses yang terjadi di dalam sistem temu kembali adalah preprocessing.

2.3.1 Tahap

  Preprocessing Tahap preprocessing dilakukan untuk membentuk basisdata terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, preprocessing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk diproses. Tahap-tahap yang terjadi pada tahap preprocessing ialah:

  1. Word Token

  2. Stopword Removal

  3. Stemming

  4. Term Weighting Tahap-tahap yang terjadi pada tahap preprocessing dapat dilihat pada gambar 2.2 berikut ini:

Gambar 2.2 Proses Pengindeksan [6]

  Documen t s Word Token

Stemming

Stopword Removal

  Term Weighting Assign document IDs Index database documents text

  1. Word Token Yaitu mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercase[6].

  2. Stopword Removal Proses penghapusan kata-kata yang sering ditampilkan dalam

dokumen seperti: dan, atau, tidak dan sebagainya[6].

3. Stemming

  Stemming merupakan suatu proses untuk menemukan kata dasar dari sebuah kata. Dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan dan akhiran) pada kata turunan. Stemming digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar dari kata tersebut yang sesuai dengan struktur morfologi Bahasa Indonesia yang baik dan benar[6].

  Algoritma Stemming dilakukan dengan membandingkan kata yang telah dihilangkan imbuhannya dengan kata dasar dalam kamus.

  Stemming yang digunakan adalah stemming Nazief and Adriani’s.

  Algoritma skema yang berasal Adriani dan Nazief digambarkan dalam laporan teknis yang tidak dipublikasikan dari Universitas Indonesia (1996). Berikut adalah algortima stemming Nazief and Adriani’s :

1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka

  diasumsikan bahwa kata tesebut adalah root word. Maka algoritma berhenti.

  2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika berupa particles (“-lah”, “-kah”, “-tah” atau “- pun”) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”, atau “-nya”), jika ada.

  3. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a

  a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.

b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke langkah 4.

  4. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.

  a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b.

  b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti.

  5. Melakukan Recoding.

  6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.

  Tipe awalan ditentukan melalui langkah-langkah berikut:

  1. Jika awalannya adalah: “di-”, “ke-”, atau “se-” maka tipe awalannya secara berturut-turut adalah “di-”, “ke-”, atau “se-”.

  2. Jika awalannya adalah “te-”, “me-”, “be-”, atau “pe-” maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalannya.

  3. Jika dua karakter pertama bukan “di-”, “ke-”, “se-”, “te-”, “be- ”, “me-”, atau “pe-” maka berhenti.

  4. Jika tipe awalan adalah “none” maka berhenti. Jika tipe awalan adalah bukan “none” maka awalan dapat dilihat pada Tabel 2.2.

  Hapus awalan jika ditemukan.

Tabel 2.1 Kombinasi Awalan Akhiran yang Tidak Diijinkan Awalan Akhiran yang tidak diijinkan

  be- -i di- -an ke- -i, -kan me- -an se- -i, -kan

Tabel 2.2. Cara Menentukan Tipe Awalan Untuk Kata yang Diawali dengan “te-” Following Characters

  Tipe Awalan None Set 1 Tipe

  Awalan Set 3 Set 4 “-r-“ None - - “-r-“ Vowel ter-luluh “-r-“ not (vowel or

  “-r-”) “-er-“ vowel Ter “-r-“ not (vowel or

  “-r-”) “-er-“ not vowel ter- “-r-“ not (vowel or

  • Ter not (vowel or “-r-”) “-er-“ vowel - None not (vowel or “-r-”) “-er-“ not

    vowel

  • Te

  “-r-”)

not “-

er-“

Tabel 2.3. Jenis Awalan Berdasarkan Tipe Awalannya Tipe Awalan Awalan yang harus dihapus

  di- di- ke- ke- se- se- te- te-

  

Ter ter

ter-luluh Ter

  4. Term Weighting Salah satu model sistem temu kembali informasi yang paling sederhana namun paling produktif adalah model ruang vektor. Vektor model ini merepresentasikan term yang terdapat pada dokumen dan query. Elemen vektor tersebut adalah bobot term yang menjadi dasar penilaian dalam pemeringkatan dokumen. Hal yang perlu diperhatikan dalam penemuan kembali informasi model ruang vektor ini adalah pembobotan term (term weighting)[8].

2.4 Pengukuran Unjuk Kerja Sistem Temu Kembali

  Nilai performansi dari aplikasi sistem temu kembali menunjukkan keberhasilan dari suatu sistem temu kembali dalam mengembalikan informasi yang dibutuhkan oleh pengguna. Untuk mengukur performansi dari sistem temu kembali, digunakan koleksi uji. Koleksi uji terdiri dari tiga bagian, yaitu koleksi dokumen, query, dan relevance judgement. Koleksi dokumen adalah kumpulan dokumen yang dijadikan bahan pencarian oleh sistem.

  Relevance judgement adalah daftar dokumen-dokumen yang relevan dengan semua query yang telah disediakan[6]. Parameter yang digunakan dalam performansi sistem, antara lain :

1. Precision (ketepatan)

  Precision ialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen yang terambil oleh sistem baik relevan maupun tidak relevan.

  Precision =

  2. Recall (kelengkapan) Recall ialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen relevan yang ada dalam koleksi dokumen (terambil ataupun tak terambil sistem)[9].

  Recall =

  3. Interpolate Average Precision (IAP) Pengukuran performansi dengan mempertimbangkan aspek keterurutan atau rangking dapat dilakukan dengan melakukan interpolasi antara precision dan recall. IAP akan mencatat semua Semua dokumen yang relevan dan urutan dokumen tersebut pada hasil IRS dan menghitung nilai precisionnya.

  Nilai precision untuk semua titik ditentukan oleh perubahan nilai recall yang terjadi. Nilai precision berubah pada saat nilai recall berubah naik. Precision disatu titik recall tertentu adalah maksimal precision untuk semua titik recall yang lebih kecil dari titik tersebut.

2.5 Perbandingan N-grams

  Perbandingan n-grams adalah potongan sejumlah n karakter dari sebuah string. Perbandingan ini digunakan untuk mengambil potongan- potongan karakter huruf sejumlah n dari sebuah kata yang secara kontinuitas dibaca dari awal teks sumber hingga akhir dari dokumen[6].

2.6 Konsep N-grams

  Dalam tugas akhir ini deteksi plagiarisme yang akan dibuat menggunakan perbandingan n-grams yang bersumber dari makalah Alberto Barron-Cedene dan Paolo Rosso yang berjudul On Automatic Plagiarism Detection Based on N-grams Comparison[2]. Dengan menggunakan perbandingan tersebut jika dua fragmen teks cukup dekat (dokumen asli dan dokumen mencurigakan), dapat diasumsikan bahwa dokumen tersebut berpotensi plagiat, yang harus diselidiki lebih dalam. Perbandingan merupakan sebuah metode sederhana dengan membandingkan potongan teks berdasarkan kata. Dimana s merupakan dokumen mencurigakan dan D merupakan kumpulan dokumen referensi. Untuk mengetahui kata yang merupakan bagian dari dokumen yang mencurigakan plagiat dari kumpulan dokumen referensi. Untuk itu digunakan perbandingan untuk menentukan adanya plagiarisme[2].

  Pada kenyataannya kalimat plagiat dapat berasal dari kata yang diambil dari beberapa bagian dari dokumen asli, dokumen referensi tidak dibagi menjadi kalimat, tetapi hanya ke . Perbandingan yang dipergunakan didasarkan pada empat hal berikut[2]:

1. Dokumen mencurigakan s dibagi menjadi kalimat (s ).

  i 2. Kalimat (s ) dibagi menjadi kata. Himpunan merupakan kalimat. i