SISTEM PENDETEKSI PLAGIARISME DOKUMEN SKRIPSI DENGAN MENGGUNAKAN PERBANDINGAN N-GRAMS
SISTEM PENDETEKSI PLAGIARISME DOKUMEN SKRIPSI
DENGAN MENGGUNAKAN PERBANDINGAN N-GRAMS
(STUDI KASUS PADA PROGRAM STUDI TEKNIK INFORMATIKA
UNIVERSITAS SANATA DHARMA)
SKRIPSI
Ditujukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Teknik Jurusan Teknik Informatika
Disusun oleh :
Rosalia Ratna Susanti
NIM : 075314073
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNVERSITAS SANATA DHARMA
YOGYAKARTA
2012
SYSTEM PLAGIARISM DETECTION DOCUMENT THESIS BASED ON N-GRAMS COMPARISON (A CASE STUDY AT DEPARTMENT OF INFORMATIC
ENGINEERING , SANATA DHARMA UNIVERSITY
)A THESIS Presented as Partial Fulfillment of the Requirements To Obtain the Sarjana Komputer Degree In Informatics Engineering Department By:
Rosalia Ratna Susanti
NIM : 075314073DEPARTMENT OF INFORMATIC ENGINEERING FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA
2012
HALAMAN PERSEMBAHAN
! " ! # $$
$$ % " " " " " " # "
SISTEM PENDETEKSI PLAGIARISME DOKUMEN SKRIPSI DENGAN
MENGGUNAKAN PERBANDINGAN N-GRAMS
ABSTRAK
Plagiat bukan menjadi hal baru dalam dunia pendidikan. Dengan adanya
kemudahan bagi setiap orang untuk dapat bertukar informasi. Sehingga
memberikan kemudahan dalam tindakan plagiarisme terutama dikalangan
mahasiswa. Yang menjadi salah satu keprihatinan dalam dunia pendidikan yaitu
adanya tindakan plagiat pada naskah dokumen skripsi yang banyak dilakukan oleh
para mahasiswa. Oleh karena itu diperlukan suatu sistem pendeteksian
plagiarisme pada dokumen teks yang dilakukan secara terkomputerisasi.Dalam hal ini sistem pendeteksi plagiat dokumen skripsi yang akan
digunakan yaitu dengan menggunakan perbandingan n-grams. Perbandingan n-
grams merupakan sebuah metode sederhana dengan membandingkan potongan
teks berdasarkan n-grams kata.Pengujian dari sistem ini dilakukan dengan melakukan perhitungan recall
dan precision dari hasil testing program dengan membandingkan dengan hasil
deteksi secara manual. Dari hasil pengujian yang dilakukan terhadap dokumen
skripsi dengan menggunakan perbandingan n-grams dengan nilai n=3, n=4, dan
n=5 yang memiliki tingkat ketepatan terbaik adalah yang nilai n=5 dengan nilai
precision = 90.12% dibandingakn dengan nilai n =3 dengan hasil precision
10.61% dan n=4 dengan hasil precision 78.12%.
Kata kunci : sistem pendeteksi plagiarisme, plagiarisme dokumen skripsi,
perbandingan n-grams
SYSTEM PLAGIARISM DETECTION DOCUMENT THESIS
BASED ON N-GRAMS COMPARISON
(A CASE STUDY AT DEPARTMENT OF INFORMATIC
ENGINEERING , SANATA DHARMA UNIVERSITY
)
ABSTRACT
Plagiarism is not a new thing in the world of education. With the
convenience for everyone to be able to exchange information. So much easier and
acts of plagiarism, especially among students. That was one of concern in
education is the act of plagiarism in the thesis text document is mostly done by the
students. Therefore we need a system for plagiarism detection in text documents is
done in computerized.In this system plagiarism detection document thesis based on n-grams
comparison. N-grams comparison is a simple method by comparing the bits of
text based on word n-grams.Testing performance of the system with comparing of recall and precision
of the testing program and the detection results manually. From the results of tests
performed on thesis document based on n-grams comparison with a value of n =
3, n = 4 and n = 5 which has the best accuracy rate is the value of n = 5 with the
precision = 90.12% compared with a value of n = 3 with the precision 10.61% and
n = 4 with 78.12% precision results.
Key words : plagiarism detection systems, document plagiarism thesis, n-grams
comparisonKATA PENGANTAR
Puji dan syukur penulis panjatkan ke hadirat Tuhan Yesus Kristus atas
segala berkat, bimbingan, dan kasih-Nya sehingga penulis dapat menyelesaikan
penelitian dan penyusunan tugas akhir yang berjudul “SISTEM PENDETEKSI
PLAGIARISME DOKUMEN SKRIPSI DENGAN MENGGUNAKAN
PERBANDINGAN N-GRAMS (STUDI KASUS PADA PROGRAM STUDI
TEKNIK INFORMATIKA UNIVERSITAS SANATA DHARMA)” ini tepat pada waktunya.Tugas akhir ini disusun untuk memenuhi salah satu syarat dalam
menyelesaikan program Strata satu ( S1 ) Jurusan Teknik Informatika Fakultas
Sains dan Teknologi Universitas Sanata Dharma Yogyakarta. Penulis berhasil
menyelesaikan penelitian dan penyusunan tugas akhir ini tak lepas dari bantuan
dan dukungan baik berupa materiil, moral maupun spiritual dari banyak pihak.
Pada kesempatan ini, penulis ingin mengucapkan terima kasih kepada :1. Tuhan Yesus Kristus atas berkat, rahmat dan penyertaan selama penulis menyusun dan menyelesaikan tugas akhir ini dari awal hingga selesai.
2. Ibu P.H. Prima Rosa, S.Si.,M.Sc., selaku Dekan Fakultas Sains dan Teknologi
Universitas Sanata Dharma Yogyakarta
3. Ibu Ridhowati Gunawan, S.Kom.,M.T. selaku ketua jurusan Program
Studi Teknik Informatika Universitas Sanata Dharma Yogyakarta
4. Ibu Sri Hartati Wijono, S.Si.,M.Kom., selaku Dosen Pembimbing atas segala waktu, kesabaran, serta member kritik dan saran yang membangun dalam membantu penyelesaian tugas akhir ini.
5. Bapak Puspaningtyas Sanjoyo Adi S.T.,M.T.,dan Bapak J.B.Budi Darmawan, S.T.,M.Sc., selaku dosen penguji atas saran dan kritikannya.
6. Seluruh staff pengajar Prodi Teknik Informatika yang telah memberikan ilmu pengetahuan yang sangat berguna bagi penulis.
7. Seluruh staff sekretariat yang telah membantu dalam urusan akademik.
8. Ayah dan Ibu yang selalu memberikan semangat, doa, perhatian dan kasih sayang kepada penulis.
9. Kakakku L. Eka Ariwobowo dan adikku Theresia Nurvita S yang selalu memberikan dukungan dan semangat selama pengerjaan tugas akhir ini.
10. “Ndutz” yang selalu menanyakan perkembangan tugas akhir ini.
Membantu dan memberikan banyak masukan dan semangat selama menyelesaikan tugas akhir ini. Terimakasih atas dukungan dan semangatnya. 11. “Bebz q cayank” thank’s buat kesabaran, kesetiaan, kasih sayang, nasehat,
semangat, perhatian, dan doa yang telah diberikan hingga saat ini.
12. Teman seperjuanganku Monica Pancaindrani yang selalu membantu dan memberikan semangat selama pengerjaan tugas akhir ini dari awal hingga selesai.
13. Seluruh crew K24 Condongcatur dan seluruh rekan kerjaku atas pengertian, dukungan dan perhatian yang selama ini diberikan. Love u all.
DAFTAR ISI
HALAMAN JUDUL BAHASA INDONESIA ...................................................... i
HALAMAN JUDUL BAHASA INGGRIS .......................................................... ii
HALAMAN PERSETUJUAN ............................................................................ iii
HALAMAN PENGESAHAN ............................................................................. iv
HALAMAN PERSEMBAHAN ........................................................................... v
HALAMAN PERNYATAAN KEASLIAN KARYA .......................................... vi
HALAMAN PERSETUJUAN PUBLIKASI ...................................................... vii
ABSTRAK ....................................................................................................... viii
ABSTRACT ....................................................................................................... ix
KATA PENGANTAR ......................................................................................... x
DAFTAR ISI .................................................................................................... xiii
DAFTAR TABEL ........................................................................................... xvii
DAFTAR GAMBAR ........................................................................................ xix
BAB I PENDAHULUAN .................................................................................... 1
1.1 Judul ........................................................................................................ 1
1.2 Latar Belakang Masalah ........................................................................... 1
1.3 Rumusan Masalah .................................................................................... 3
1.4 Batasan Masalah ...................................................................................... 3
1.5 Tujuan ...................................................................................................... 4
1.6 Luaran Yang Diharapkan .......................................................................... 4
1.7 Metodologi ............................................................................................... 4
1.8 Sistematika Penulisan ............................................................................... 5
BAB II TINJAUAN PUSTAKA .......................................................................... 7
2.1 Sistem ....................................................................................................... 7
2.2 Deteksi Plagiarisme .................................................................................. 7
2.2.1 Plagiarisme .................................................................................. 7
2.3 Sistem Temu kembali ............................................................................... 9
2.3.1 Tahap Preprocessing .................................................................. 10
2.4 Pengukuran Unjuk Kerja Sistem Temu Kembali ..................................... 15
2.5 Perbandingan N-grams ........................................................................... 16
2.6 Konsep N-grams .................................................................................... 17
2.7 Contoh perhitungan menggunakan perbandingan n-grams ...................... 19
BAB III ANALISA DAN PERANCANGAN SISTEM ...................................... 70
3.1 Gambaran Umum Sistem........................................................................ 70
3.1.1 Analisa kebutuhan ..................................................................... 73
3.2 Analisa Sistem ....................................................................................... 73
3.2.1 Definisi Aktor ............................................................................. 73
3.2.2 Model Use Case ......................................................................... 74
3.2.3 Deskripsi Use Case ..................................................................... 75
3.2.4 Diagram Use Case ...................................................................... 77
3.2.5 Skenario Use Case ...................................................................... 78
3.3 Model Analisis ....................................................................................... 92
3.3.1 Diagram Sekuensial .................................................................... 92
3.3.1.1 Diagram Sekuensial Login .............................................. 92
3.3.1.2 Diagram Sekuensial Insert User ...................................... 94
3.3.1.3 Diagram Sekuensial Update User .................................... 95
3.3.1.4 Diagram Sekuensial Delete User ..................................... 97
3.3.1.5 Diagram Sekuensial Insert Kata Dasar ............................ 98
3.3.1.6 Diagram Sekuensial Delete Kata Dasar ......................... 100
3.3.1.7 Diagram Sekuensial Cari Kata Dasar ............................. 101
3.3.1.8 Diagram Sekuensial Insert Stopword ............................. 102
3.3.1.9 Diagram Sekuensial Update Stopword .......................... 104
3.3.1.10 Diagram Sekuensial Cari Stopword ............................. 105
3.3.1.11Diagram Sekuensial Insert Dokumen Skripsi Admin .... 107
3.3.1.12Diagram Sekuensial Insert Dokumen Skripsi User ....... 108
3.3.1.13Diagram Sekuensial Preprocessing Dokumen Skripsi Admin ...................................................................................... 110
3.3.1.14Diagram Sekuensial Preprocessing Dokumen Skripsi User
3.3.1.15Diagram Sekuensial Deteksi Plagiarisme Admin .......... 114
3.3.1.16Diagram Sekuensial Deteksi Plagiarisme User ............. 115
3.3.2 Diagram Kelas Keseluruhan...................................................... 117
3.3.3 Model Desain ........................................................................... 117
3.3.3.1 Kelas Perancangan ........................................................ 118
3.3.3.2 Diagram UML untuk kelas perancangan model ............. 120
3.3.4 Algoritma Method – Method Penting dalam Setiap Kelas .......... 124
3.3.5 Prototype Antar Muka .............................................................. 142
3.3.6 Desain Database ....................................................................... 149
3.4 Rencana Pengujian dan Evaluasi .......................................................... 151
3.4.1 Metode Pengujian ..................................................................... 151
3.4.2 Mekanisme Pengujian Sistem ................................................... 152
3.4.3 Mekanisme Pengujian Manual .................................................. 153
BAB IV IMPLEMENTASI DAN PENGUJIAN ................................................... 154
4.1 Implementasi ....................................................................................... 154
4.1.1 Lingkungan Implementasi Perangkat Keras .............................. 154
4.1.2 Lingkungan Implementasi Perangkat Lunak ............................. 154
4.1.3 Implementasi Method – Method Penting dalam Setiap Kelas .... 154
4.1.4 Implementasi Antar Muka......................................................... 178
4.1.5 Implementasi Kelas .................................................................. 185
4.1.6 Implementasi Database ............................................................ 186
4.2 Pengujian ............................................................................................. 188
4.2.1 Hasil Pengujian Program ............................................................. 188
4.2.2 Hasil Pengujian Precision ............................................................ 189
4.2.3Testing Program .......................................................................... 193
4.3 Kelemahan Sistem ................................................................................ 196
BAB V KESIMPULAN ............................................................................................. 198
5.1 Kesimpulan .......................................................................................... 198
5.2 Saran .................................................................................................... 199
DAFTAR PUSTAKA .................................................................................... 200
LAMPIRAN II .............................................................................................. 206 LAMPIRAN III ............................................................................................. 236 LAMPIRAN IV ............................................................................................. 266
DAFTAR TABEL
Tabel 2.1 Kombinasi Awalan Akhiran yang Tidak Diijinkan ............................. 13Tabel 2.2 Cara Menentukan Tipe Awalan Untuk Kata Diawali dengan “ te- ..... 14Tabel 2.3 Jenis Awalan Berdasarkan Tipe Awalannya ...................................... 14Tabel 3.1 Tabel Penjelasan Dokumen Plagiat ..................................................... 70Tabel 3.2 Tabel Definisi Aktor ........................................................................... 73Tabel 3.3 Deskripsi Use Case ............................................................................ 75Tabel 3.4 Skenario Use Case Login ................................................................... 79Tabel 3.5 Skenario Insert User ........................................................................... 80Tabel 3.6 Skenario Update User ........................................................................ 81Tabel 3.7 Skenario Delete User .......................................................................... 81Tabel 3.8 Skenario Insert Kata Dasar ................................................................. 82Tabel 3.9 Skenario Delete Kata Dasar ................................................................ 83Tabel 3.10 Skenario Cari Kata Dasar ................................................................. 84Tabel 3.11 Skenario Insert Stopword ................................................................. 84Tabel 3.12 Skenario Update Stopword ............................................................... 85Tabel 3.13 Skenario Cari Stopword .................................................................... 86Tabel 3.14 Skenario Use Case Insert Dokumen Skripsi Admin .......................... 87Tabel 3.15 Skenario Use Case Insert Dokumen Skripsi User ............................. 87Tabel 3.16 Skenario Use Case Preprocessing Dokumen Skripsi Admin ............. 88Tabel 3.17 Skenario Use Case Preprocessing Dokumen Skripsi User ................ 89Tabel 3.18 Skenario Use Case Deteksi Plagiarisme Admin ................................ 90Tabel 3.19 Skenario Use Case Deteksi Plagiarisme User ................................... 91Tabel 3.20 Kelas Perancangan ......................................................................... 118Tabel 3.21 Diagram Relational User ................................................................ 150Tabel 3.22 Diagram Relational Kamus ............................................................. 150Tabel 3.23 Diagram Relational Stopwod .......................................................... 150Tabel 3.24 Diagram Relational KumpulanSkripsi ............................................ 150Tabel 3.25 Diagram Relational ngramkata ....................................................... 151Tabel 4.2 Tabel Pegujian Program ................................................................... 188Tabel 4.3 Tabel Hasil Pengujian....................................................................... 190Tabel 4.4 Tabel Hasil Pengujian Precision dan Recall...................................... 192Tabel 4.5 Data Skripsi Baru ............................................................................. 193
DAFTAR GAMBAR
Gambar 2.1 Prose Sistem temu kembali ............................................................... 9Gambar 2.2 Proses Pengindeksan ....................................................................... 10Gambar 3.1 Diagram Keseluruhan Sistem .......................................................... 71Gambar 3.2 Flowcart Perhitungan Perbandingan N-grams ................................. 72Gambar 3.3 Diagram Use Case .......................................................................... 78Gambar 3.4 Diagram Kelas Keseluruhan ......................................................... 117Gambar 3.5 Antar muka Login ......................................................................... 142Gambar 3.6 Antar muka Kelola Stopword ........................................................ 143Gambar 3.7 Antar muka Kelola Kata Dasar ..................................................... 144Gambar 3.8 Antar muka User .......................................................................... 145Gambar 3.9 Antar muka Preprocessing Admin ............................................... 146 Gambar 310 Antar muka Testing Program ....................................................... 147Gambar 3.11 Antar muka Deteksi User ............................................................ 148Gambar 3.12 ER Diagram ................................................................................ 149Gambar 3.13 Mekanisme Pengujian ................................................................. 153Gambar 4.1 Halaman Login ............................................................................. 178Gambar 4.2 Halaman Kelola Stopword ............................................................ 179Gambar 4.3 Halaman Kelola Kata Dasar .......................................................... 180Gambar 4.4 Halaman User ............................................................................... 181Gambar 4.5 Halaman Preprocessing Admin .................................................... 182Gambar 4.6 Halaman Testing Program ............................................................ 183Gambar 4.7 Halaman Deteksi User .................................................................. 184Gambar 4.8 Hasil Pengujian Sample1 .............................................................. 188Gambar 4.9 Hasil Pengujian Sample2 .............................................................. 189Gambar 4.10 Hasil Running Skripsi-051 .......................................................... 194Gambar 4.11 Hasil Running Skripsi-052 .......................................................... 195Gambar 4.12 Hasil Running Skripsi-053 .......................................................... 196BAB I PENDAHULUAN
1.1 Judul “SISTEM DETEKSI PLAGIARISME DOKUMEN SKRIPSI DENGAN MENGGUNAKAN PERBANDINGAN N-GRAMS”
1.2 Latar Belakang Masalah Plagiarisme atau sering disebut plagiat adalah penjiplakan atau pengambilan karangan, pendapat, dan sebagainya dari orang lain dan menjadikannya seolah karangan dan pendapat sendiri. Plagiat dapat dianggap sebagai tindak pidana karena mencuri hak cipta orang lain. Pelaku plagiat disebut sebagai plagiator[1]. Plagiat bukan menjadi hal baru dalam dunia pendidikan. Dengan adanya kemudahan bagi setiap orang untuk dapat bertukar informasi, mengakses segala sesuatu melalui internet. Sehingga memberikan kemudahan dalam tindakan plagiarisme terutama dikalangan mahasiswa. Yang menjadi salah satu keprihatinan dalam dunia pendidikan yaitu adanya tindakan plagiat pada naskah dokumen skripsi yang banyak dilakukan oleh para mahasiswa.
Banyak institusi dan tenaga pengajar menerapkan sanksi akademis terhadap pelaku plagiat untuk mengurangi plagiarisme. Sebagai salah satu Universitas terkemuka di Yogyakarta, Universitas Sanata Dharma tidak
memperbolehkan setiap mahasiswanya melakukan tindakan plagiarisme. Untuk mengatasi adanya plagiarisme dalam dunia pendidikan dapat dilakukan dalam beberapa cara. Terdapat dua cara untuk mengatasi permasalahan plagiarisme, yaitu dengan mencegah dan mendeteksi. Mencegah berarti menjaga atau menghalangi agar plagiarisme tidak dilakukan. Hal tersebut harus dilakukan sedini mungkin terutama dalam dunia pendidikan. Mendeteksi berarti melakukan usaha untuk menemukan tindakan plagiat yang telah dilakukan.
Yang menjadi permasalahan adalah bagaimana cara untuk mengetahui apakah seorang mahasiswa melakukan plagiarisme atau tidak dalam membuat suatu karya tulis atau skripsi. Untuk mengetahuinya perlu dilakukan pengecekan secara teliti terhadap hasil tulisan mahasiswa tersebut, kemudian dibandingkan dengan hasil tulisan mahasiswa yang lainnya. Tetapi usaha tersebut akan memerlukan waktu yang lama dan ketelitian yang tinggi jika pembandingan tersebut dilakukan secara manual. Oleh karena itu diperlukan suatu sistem pendeteksian plagiarisme pada dokumen teks yang dilakukan secara terkomputerisasi.
Terdapat beberapa metode yang dilakukan untuk mendeteksi adanya plagiarisme dokumen skripsi atau karya ilmiah antara lain dengan Multilevel Text Comparison, Clustering, Document Similarities, Mining Text with Pimiento, dan N-grams Comparison. Dalam hal ini sistem deteksi plagiat dokumen skripsi yang akan digunakan yaitu dengan menggunakan perbandingan n-grams. Perbandingan ini diharapkan dapat digunakan sebagai sistem terkomputerisasi untuk mendeteksi apakah suatu dokumen skripsi plagiat dari dokumen skripsi yang lain. Perbandingan n- grams merupakan sebuah metode sederhana dengan membandingkan potongan teks berdasarkan n-grams kata. Untuk mendeteksi plagiarisme kata dari dokumen yang mencurigakan plagiat atau tidak dari dokumen referensi[2].
1.3 Rumusan Masalah Dengan melihat latar belakang yang ada, maka rumusan masalah yang didapatkan adalah :
1. Bagaimana ketepatan dari sistem deteksi plagiarisme dokumen skripsi dengan menggunakan perbandingan n-grams ?
2. Bagaimana membuat sistem deteksi plagiarisme dokumen skripsi dengan menggunakan perbandingan n-grams ? .
1.4 Batasan Masalah Pada sistem deteksi plagiarisme pada dokumen skripsi ditetapkan beberapa batasan sebagai berikut :
1. Perbandingan menggunakan dengan nilai n=3, n=4 dan n=5.
2. Data skripsi yang digunakan 50 skripsi mahasiswa Teknik Informatika Universitas Sanata Dharma.
3. Dokumen yang digunakan Abstraksi, Bab 1, dan Bab 2 dengan topik Sistem Informasi.
4. Dalam sistem ini hanya akan mendeteksi apakah dokumen skripsi yang
5. Dokumen yang digunakan Dokumen teks yang akan dideteksi adalah file teks digital yang bersifat plain text, yaitu file yang hanya terdiri dari huruf-huruf dan angka-angka saja, tidak mencakup gambar, tabel, dan sejenisnya.
6. Sistem hanya memproses dokumen teks berbahasa Indonesia.
7. Sistem tidak menghiraukan adanya kutipan.
8. Sistem tidak memperhatikan sinonim/persamaan kata.
1.5 Tujuan Penelitian ini bertujuan untuk membangun sebuah sistem untuk mendeteksi plagiarisme dokumen skripsi, sehingga dapat diketahui apakah sebuah skripsi merupakan plagiat dari dokumen skripsi yang lainnya secara terkomputerisasi.
1.6 Luaran yang Diharapkan Luaran yang diharapkan dari Sistem Deteksi Plagiarisme Dokumen Skripsi Dengan Menggunakan Perbandingan N-grams berupa hasil deteksi
dokumen skripsi apakah merupakan plagiat dari dokumen lain atau tidak.
1.7 Metodologi Skripsi ini akan dikerjakan dengan metodologi sebagai berikut:
1. Studi Literatur Metode ini dilaksanakan dengan melakukan studi kepustakaan melalui didapatkan melalui internet, serta mempelajari lebih dalam tentang sistem informasi retrieval, teori-teori tentang plagiarisme dan teknik pengimplementasian perbandingan .
2. Perancangan Sistem Melakukan perancangan sistem dengan melakukan pengujian terhadap data-data yang ada dengan melakukan perhitungan secara manual untuk mengetahui apakah metode yang digunakan sudah sesuai yang diharapkan.
3. Implementasi Pembuatan aplikasi pendeteksi plagiarisme dokumen skripsi dengan menggunakan perbandingan n-grams sesuai dengan perancangan yang telah dibuat sebelumnya ke dalam program komputer.
4. Pengujian dan Evaluasi Melakukan uji coba terhadap program yang telah dibuat kemudian dari hasil yang didapat dilakukan evaluasi terhadap kekurangan program.
1.8 Sistematika Penulisan
Dalam penulisan skripsi ini, sistematika penulisan dibagi menjadi lima bab, yaitu:
BAB I : PENDAHULUAN Pada bab ini akan dibahas mengenai latar belakang masalah, rumusan masalah, tujuan penelitian, batasan masalah, metodologi penelitian, dan sistematika penulisan.
BAB II : TINJAUAN PUSTAKA Pada bab ini akan dibahas mengenai konsep dasar sistem temu- kembali informasi (information retrieval system), Pengukuran unjuk kerja sistem temu kembali, perbandingan n-grams dan konsep n-grams .
BAB III : ANALISA DAN PERANCANGAN SISTEM Pada bab ini akan dibahas mengenai urutan dan langkah-langkah pengerjaan untuk mengidentifikasi plagiarisme, perancangan user interface dan perancangan basisdata.
BAB IV : IMPLEMENTASI DAN PEMBAHASAN Pada bab ini akan dibahas mengenai implementasi dari perancangan yang telah dibuat sebelumnya dan uji coba terhadap
hasil sistem dengan hasil membaca secara manual.
BAB V : KESIMPULAN DAN SARAN Pada bab ini akan dibahas mengenai kesimpulan yang didapat dalam pembuatan sistem dan saran terhadap sistem yang dapat dilakukan untuk penelitian lebih lanjut.
DAFTAR PUSTAKA LAMPIRAN
BAB II TINJAUAN PUSTAKA
2.1 Sistem Sistem merupakan sekumpulan unsur/elemen yang saling berkaitan dan saling mempengaruhi dalam melakukan kegiatan bersama untuk mencapai suatu tujuan[4].
2.2 Deteksi Plagiarisme
2.2.1 Plagiarisme
Plagiarisme atau sering disebut plagiat adalah penjiplakan atau pengambilan karangan, pendapat, dan sebagainya dari orang lain dan menjadikannya seolah karangan dan pendapat sendiri[10]. Plagiat dapat dianggap sebagai tindak pidana karena mencuri hak cipta orang lain. Di dunia pendidikan, pelaku plagiarisme dapat mendapat hukuman berat seperti dikeluarkan dari sekolah/universitas. Pelaku plagiat disebut sebagai plagiator[1]. Yang digolongkan sebagai plagiarisme:
1. Menggunakan tulisan orang lain secara mentah, tanpa memberikan tanda jelas (misalnya dengan menggunakan tanda kutip atau blok alinea yang berbeda) bahwa teks tersebut diambil persis dari tulisan lain.
2. Mengambil gagasan orang lain tanpa memberikan anotasi yang
Dalam buku Bahasa Indonesia: Sebuah Pengantar Penulisan Ilmiah, Felicia Utorodewo dkk. menggolongkan hal-hal berikut sebagai tindakan plagiarisme[5]:
1. Mengakui tulisan orang lain sebagai tulisan sendiri.
2. Mengakui gagasan orang lain sebagai pemikiran sendiri.
3. Mengakui temuan orang lain sebagai kepunyaan sendiri.
4. Mengakui karya kelompok sebagai kepunyaan atau hasil sendiri.
5. Menyajikan tulisan yang sama dalam kesempatan yang berbeda tanpa menyebutkan asal-usulnya.
6. Meringkas dan memparafrasekan (mengutip tak langsung) tanpa menyebutkan sumbernya.
7. Meringkas dan memparafrasekan dengan menyebut sumbernya, tetapi rangkaian kalimat dan pilihan katanya masih terlalu sama dengan sumbernya. Hal-hal yang tidak tergolong plagiarisme:
1. Menggunakan informasi yang berupa fakta umum.
2. Menuliskan kembali (dengan mengubah kalimat atau parafrase) opini orang lain dengan memberikan sumber jelas.
3. Mengutip secukupnya tulisan orang lain dengan memberikan tanda batas jelas bagian kutipan dan menuliskan sumbernya.
2.3 Sistem Temu Kembali
Sistem temu kembali merupakan bagian dari pengetahuan komputer yang berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri.
Information Retrieval merupakan suatu pencarian informasi (biasanya berupa dokumen) yang didasarkan pada suatu query (inputan pengguna) yang diharapkan dapat memenuhi keinginan pengguna dari kumpulan dokumen yang ada. Sedangkan, definisi query dalam sistem temu kembali merupakan sebuah formula yang digunakan untuk mencari informasi yang dibutuhkan oleh pengguna, dalam bentuk yang paling sederhana, sebuah query merupakan suatu kata kunci dan dokumen yang mengandung kata kunci merupakan dokumen yang dicari dalam sistem temu kembali[6].
Proses dalam sistem temu kembali pada gambar 2.1 dapat digambarkan sebagai sebuah proses untuk mendapatkan dokumen yang relevan dari koleksi
dokumen yang ada melalui pencarian query yang diinputkan pengguna.
Dokumen query Sistem temu kembali relevan
Koleksi dokumen
Gambar 2.1 Proses Sistem Temu kembali [6] Proses yang terjadi di dalam sistem temu kembali adalah preprocessing.2.3.1 Tahap
Preprocessing Tahap preprocessing dilakukan untuk membentuk basisdata terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, preprocessing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk diproses. Tahap-tahap yang terjadi pada tahap preprocessing ialah:
1. Word Token
2. Stopword Removal
3. Stemming
4. Term Weighting Tahap-tahap yang terjadi pada tahap preprocessing dapat dilihat pada gambar 2.2 berikut ini:
Gambar 2.2 Proses Pengindeksan [6]Documen t s Word Token
Stemming
Stopword RemovalTerm Weighting Assign document IDs Index database documents text
1. Word Token Yaitu mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercase[6].
2. Stopword Removal Proses penghapusan kata-kata yang sering ditampilkan dalam
dokumen seperti: dan, atau, tidak dan sebagainya[6].
3. Stemming
Stemming merupakan suatu proses untuk menemukan kata dasar dari sebuah kata. Dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan dan akhiran) pada kata turunan. Stemming digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar dari kata tersebut yang sesuai dengan struktur morfologi Bahasa Indonesia yang baik dan benar[6].
Algoritma Stemming dilakukan dengan membandingkan kata yang telah dihilangkan imbuhannya dengan kata dasar dalam kamus.
Stemming yang digunakan adalah stemming Nazief and Adriani’s.
Algoritma skema yang berasal Adriani dan Nazief digambarkan dalam laporan teknis yang tidak dipublikasikan dari Universitas Indonesia (1996). Berikut adalah algortima stemming Nazief and Adriani’s :
1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka
diasumsikan bahwa kata tesebut adalah root word. Maka algoritma berhenti.
2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika berupa particles (“-lah”, “-kah”, “-tah” atau “- pun”) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”, atau “-nya”), jika ada.
3. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a
a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.
b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke langkah 4.
4. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.
a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b.
b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti.
5. Melakukan Recoding.
6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.
Tipe awalan ditentukan melalui langkah-langkah berikut:
1. Jika awalannya adalah: “di-”, “ke-”, atau “se-” maka tipe awalannya secara berturut-turut adalah “di-”, “ke-”, atau “se-”.
2. Jika awalannya adalah “te-”, “me-”, “be-”, atau “pe-” maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalannya.
3. Jika dua karakter pertama bukan “di-”, “ke-”, “se-”, “te-”, “be- ”, “me-”, atau “pe-” maka berhenti.
4. Jika tipe awalan adalah “none” maka berhenti. Jika tipe awalan adalah bukan “none” maka awalan dapat dilihat pada Tabel 2.2.
Hapus awalan jika ditemukan.
Tabel 2.1 Kombinasi Awalan Akhiran yang Tidak Diijinkan Awalan Akhiran yang tidak diijinkanbe- -i di- -an ke- -i, -kan me- -an se- -i, -kan
Tabel 2.2. Cara Menentukan Tipe Awalan Untuk Kata yang Diawali dengan “te-” Following CharactersTipe Awalan None Set 1 Tipe
Awalan Set 3 Set 4 “-r-“ None - - “-r-“ Vowel ter-luluh “-r-“ not (vowel or
“-r-”) “-er-“ vowel Ter “-r-“ not (vowel or
“-r-”) “-er-“ not vowel ter- “-r-“ not (vowel or
- Ter not (vowel or “-r-”) “-er-“ vowel - None not (vowel or “-r-”) “-er-“ not
vowel
- Te
“-r-”)
not “-
er-“Tabel 2.3. Jenis Awalan Berdasarkan Tipe Awalannya Tipe Awalan Awalan yang harus dihapusdi- di- ke- ke- se- se- te- te-
Ter ter
ter-luluh Ter
4. Term Weighting Salah satu model sistem temu kembali informasi yang paling sederhana namun paling produktif adalah model ruang vektor. Vektor model ini merepresentasikan term yang terdapat pada dokumen dan query. Elemen vektor tersebut adalah bobot term yang menjadi dasar penilaian dalam pemeringkatan dokumen. Hal yang perlu diperhatikan dalam penemuan kembali informasi model ruang vektor ini adalah pembobotan term (term weighting)[8].
2.4 Pengukuran Unjuk Kerja Sistem Temu Kembali
Nilai performansi dari aplikasi sistem temu kembali menunjukkan keberhasilan dari suatu sistem temu kembali dalam mengembalikan informasi yang dibutuhkan oleh pengguna. Untuk mengukur performansi dari sistem temu kembali, digunakan koleksi uji. Koleksi uji terdiri dari tiga bagian, yaitu koleksi dokumen, query, dan relevance judgement. Koleksi dokumen adalah kumpulan dokumen yang dijadikan bahan pencarian oleh sistem.
Relevance judgement adalah daftar dokumen-dokumen yang relevan dengan semua query yang telah disediakan[6]. Parameter yang digunakan dalam performansi sistem, antara lain :
1. Precision (ketepatan)
Precision ialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen yang terambil oleh sistem baik relevan maupun tidak relevan.
Precision =
2. Recall (kelengkapan) Recall ialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen relevan yang ada dalam koleksi dokumen (terambil ataupun tak terambil sistem)[9].
Recall =
3. Interpolate Average Precision (IAP) Pengukuran performansi dengan mempertimbangkan aspek keterurutan atau rangking dapat dilakukan dengan melakukan interpolasi antara precision dan recall. IAP akan mencatat semua Semua dokumen yang relevan dan urutan dokumen tersebut pada hasil IRS dan menghitung nilai precisionnya.
Nilai precision untuk semua titik ditentukan oleh perubahan nilai recall yang terjadi. Nilai precision berubah pada saat nilai recall berubah naik. Precision disatu titik recall tertentu adalah maksimal precision untuk semua titik recall yang lebih kecil dari titik tersebut.
2.5 Perbandingan N-grams
Perbandingan n-grams adalah potongan sejumlah n karakter dari sebuah string. Perbandingan ini digunakan untuk mengambil potongan- potongan karakter huruf sejumlah n dari sebuah kata yang secara kontinuitas dibaca dari awal teks sumber hingga akhir dari dokumen[6].
2.6 Konsep N-grams
Dalam tugas akhir ini deteksi plagiarisme yang akan dibuat menggunakan perbandingan n-grams yang bersumber dari makalah Alberto Barron-Cedene dan Paolo Rosso yang berjudul On Automatic Plagiarism Detection Based on N-grams Comparison[2]. Dengan menggunakan perbandingan tersebut jika dua fragmen teks cukup dekat (dokumen asli dan dokumen mencurigakan), dapat diasumsikan bahwa dokumen tersebut berpotensi plagiat, yang harus diselidiki lebih dalam. Perbandingan merupakan sebuah metode sederhana dengan membandingkan potongan teks berdasarkan kata. Dimana s merupakan dokumen mencurigakan dan D merupakan kumpulan dokumen referensi. Untuk mengetahui kata yang merupakan bagian dari dokumen yang mencurigakan plagiat dari kumpulan dokumen referensi. Untuk itu digunakan perbandingan untuk menentukan adanya plagiarisme[2].
Pada kenyataannya kalimat plagiat dapat berasal dari kata yang diambil dari beberapa bagian dari dokumen asli, dokumen referensi tidak dibagi menjadi kalimat, tetapi hanya ke . Perbandingan yang dipergunakan didasarkan pada empat hal berikut[2]:
1. Dokumen mencurigakan s dibagi menjadi kalimat (s ).
i 2. Kalimat (s ) dibagi menjadi kata. Himpunan merupakan kalimat. i