Pendeteksian Plagiarisme Abstrak Paper Menggunakan Metode Vector Space Model

  Daftar Riwayat Hidup Biodata Penulis 1. Data Pribadi

  Nama : David Erwinson NIM : 10112350 Tempat/Tanggal Lahir : Bandung, 20 Oktober 1994 Jenis Kelamin : Laki-Laki Agama : Kristen Protestan Alamat : Komp. Manglayang Sari Blok A 9

  A No 17 Cibiru No. Telp : 089667808121 Email 2.

   Riwayat Pendidikan

  2000-2006 : SDN Pelita 02 Cibiru 2006-2009 : SMPN 46 Bandung 2009-2012 : SMAN 24 Bandung 2012-2016 : Universitas Komputer Indonesia

  (Unikom) Demikian riwayat hidup ini saya buat dengan sebenar-benarnya dalam keadaan sadar tanpa paksaan.

  Bandung, 29 Juli 2016 David Erwinson

  

PENDETEKSIAN PLAGIARISME

ABSTRAK PAPER

MENGGUNAKAN METODE VECTOR SPACE MODEL

SKRIPSI

  Diajukan untuk Menempuh Ujian Akhir Sarjana

  

DAVID ERWINSON

10112350

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS TEKNIK DAN ILMU KOMPUTER

UNIVERSITAS KOMPUTER INDONESIA

KATA PENGANTAR

  Puji syukur penulis ucapkan kepada Tuhan Yesus yang memberikan berkat

  sehingga penulis dapat menyelesaikan

  dan anugrah yang berlimpah kepada penulis

  

penulisan ini dengan baik, yang merupakan salah satu syarat untuk memperoleh gelar

  Sarjana pada Program Studi Teknik Informatika, Fakultas Teknik dan Ilmu Komputer, Universitas Komputer Indonesia.

  Tujuan dari penulisan skripsi yang berjudul “Pembangunan Aplikasi Pendeteksi Plagiarisme Suatu Dokumen Berupa Paper Menggunakan Metode Vector

  Space Model (VSM)” ini adalah untuk memberikan kemudahan bagi para pembaca dalam penggunan aplikasi yang dapat memudahkan dalam mendeteksi plagiarisme suatu dokumen.

  Penulis menyadari bahwa skripsi ini masih jauh dari kata sempurna karena keterbatasan pengetahuan, pengalaman, dan waktu yang penulis miliki. Oleh karena itu, dengan kerendahan hati penulis menerima kritik dan saran yang bersifat membangun demi penyempurnaan penulisan ini.

  Pada kesempatan ini juga penulis ingin menyampaikan terima kasih dan penghargaan yang setinggi-tingginya kepada semua pihak yang terkait dan ikut membantu dalam penulisan skripsi ini. Secara khusus penulis ingin menyampaikan ucapan terima kasih ini kepada :

  1. Dr. Ir. Eddy Soeryanto Soegoto selaku Rektor Universitas Komputer Indonesia.

  2. Irawan Afrianto, S.T., M.T selaku Ketua Program Studi Teknik Informatika, Universitas Komputer Indonesia.

  3. Ken Kinanti Purnamasari, S.Kom., M.T selaku Dosen Pembimbing Utama yang

telah memberikan bimbingan dan pengarahan selama penulisan penelitian ini.

  Dosen Pendamping yang juga selalu

  4. Ednawati Rainarli, S.Si., M.Si selaku memberikan bimbingan dan pengarahan kepada penulis.

  5. Bapak, Ibu dosen dan staff yang ada di Universitas Komputer Indonesia yang selama penulis berkuliah di Fakultas Teknik dan Ilmu Komputer, Universitas Komputer Indonesia.

  6. Alm.Papah, Mamah, dan Adhit yang telah banyak memberikan bantuan moril dan materil, serta telah memberikan dorongan dari awal perkuliahan sampai terselesaikannya penulisan skripsi ini.

  7. Seluruh keluarga besar dari Sihombing maupun Manurung yang telah membantu, memberikan dukungan dan semangat dalam penyusunan skripsi ini.

  8. Sahabat-sahabat IF9 dan teman-teman di kampus yang telah membantu memberikan semangat dan motivasi agar terselesaikannya penulisan skripsi ini.

  9. Bang Christian dan rekan-rekan PA untuk dukungan doa, waktu, tenaga, dan bantuan moril dalam penyusunan skripsi ini.

  10. Keluarga Besar dari Pram Squad yang sudah memberikan dukungan doa dan motivasi dalam penyusunan skripsi ini.

  11. Ezra, Angga, Kaleb, Mas Prapto, Putra Sitanggang, Yesyurun, Abraham, Joshua, Sheba, Marlaokta, Eunike, Cilla, Bang Obin, Bang Yustian, Bang Saut, Bang Paulus, Ko Hernawan, Ka Rina, Ka Oan, abang/kakak ,rekan-rekan dan adik-adik di Pelajar Unstoppable Bandung Timur.

  Akhir kata penulis mengucapkan terimakasih banyak kepada semua pihak yang telah membantu dalam menyelesaikan penulisan skripsi ini, semoga skripsi ini dapat bermanfaat bagi semua pihak.

  Bandung, Agustus 2016 Penulis

  DAFTAR ISI

  ABSTRAK ...................................................................................................... i ABSTRACT ................................................................................................... ii KATA PENGANTAR .................................................................................. iii DAFTAR ISI .................................................................................................. v DAFTAR GAMBAR .................................................................................. viii DAFTAR TABEL ......................................................................................... ix DAFTAR SIMBOL ........................................................................................ x DAFTAR LAMPIRAN ................................................................................ xii

  BAB 1 PENDAHULUAN ............................................................................. 1

  1.1 Latar Belakang Masalah ....................................................................... 1

  1.2 Identifikasi Masalah ............................................................................. 2

  1.3 Maksud dan Tujuan .............................................................................. 3

  1.4 Batasan Masalah................................................................................... 3

  1.5 Metodologi Penelitian .......................................................................... 3

  1.5.1 Metode Pengumpulan Data ................................................................ 3

  1.5.2 Metode Pembangunan Perangkat Lunak ............................................ 4

  1.6 Sistematika Penulisan........................................................................... 5

  BAB 2 LANDASAN TEORI ........................................................................ 7

  2.1 Plagiarisme ........................................................................................... 7

  2.2.2 Filtering .............................................................................................. 9

  2.2.3 Stemming ........................................................................................... 9

  2.3 Pembobotan TF-IDF .......................................................................... 10

  2.4 Vector Space Model ........................................................................... 11

  2.5 Data Flow Diagram (DFD) ................................................................ 13

  2.6 Kamus Data ........................................................................................ 14

  2.7 ERD (Entity Relationship Diagram) .................................................. 14

  2.8 PHP (Personal Home Page) ............................................................... 15

  2.9 HTML (Hyper Text Markup Language) ............................................ 17

  2.10 MySQL ............................................................................................... 17

  BAB 3 ANALISIS DAN PERANCANGAN .............................................. 19

  3.1 Analisis Masalah ................................................................................ 19

  3.2 Analisis Sistem ................................................................................... 19

  3.2.1 Analisis Metode ............................................................................... 19

  3.2.2 Analisis Masukan ............................................................................. 21

  3.2.3 Proses ............................................................................................... 21

  3.2.4 Keluaran ........................................................................................... 33

  3.3 Analisis Pengguna .............................................................................. 33

  3.4 Perancangan Sistem ........................................................................... 34

  3.4.1 Entity Relationship Diagram (ERD) ................................................ 34

  3.4.2 Diagram Konteks ............................................................................. 35

  3.4.3 Data Flow Diagram (DFD) .............................................................. 35

  3.4.5 Spesifikasi Proses ............................................................................. 39

  3.4.6 Perancangan Basis Data ................................................................... 44

  3.4.7 Perancangan Struktur Menu ............................................................. 45

  3.4.8 Perancangan Antarmuka Sistem ...................................................... 45

  3.4.9 Perancangan Semantik ..................................................................... 48

  3.4.10 Perancangan Prosedural ................................................................... 48

  BAB 4 IMPLEMENTASI DAN PENGUJIAN ........................................... 53

  4.1 Implementasi ......................................................................................... 53

  4.1.1 Implementasi Perangkat Keras ......................................................... 53

  4.1.2 Implementasi Perangkat Lunak ........................................................ 53

  4.1.3 Implementasi Basis Data (Sintak SQL) ........................................... 54

  4.1.4 Implementasi Antarmuka ................................................................. 56

  4.2 Pengujian .............................................................................................. 59

  4.2.1 Rencana Pengujian ........................................................................... 60

  4.2.2 Kasus dan Hasil Pengujian ............................................................... 64

  4.2.3 Kesimpulan Hasil Pengujian Black Box .......................................... 67

  4.2.4 Pengujian Penghitungan Tingkat Similaritas .................................. 67

  4.2.5 Hasil Pengujian Similarity dan Waktu Eksekusi ............................ 68

  4.2.6 Analisis Hasil Pengujian ................................................................. 69

  BAB 5 KESIMPULAN DAN SARAN ....................................................... 71

  5.1 Kesimpulan ....................................................................................... 71

  5.2 Saran .................................................................................................. 71

DAFTAR PUSTAKA

  Adi Nugroho. 2011. Perancangan dan Implementasi Sistem Basis Data. CV Andi Offset, Yogyakarta Baeza R.Y., Neto R., 1999. Modern Information Retrieval, Addison Wesley-Pearson international edition, Boston. USA.

  Depdikbud. 2014. Kamus Besar Bahasa Indonesia. Jakarta . Balai Pustaka. Harjono, K. D. Perluasan Vektor Pada Metode Search Vector Space.

   Integral Vol. 10 No.2, Juli 2005 Jurusan Ilmu Komputer, Universitas Katolik Parahyangan, Bandung.

  Herqutanto. 2013. Plagiarisme, runtuhnya tembok akademik, 1(1), 1-2.Diunduh dari Jogiyanto, HM, 2005, “Analisis dan Desain Sistem Informasi : Pendekatan

  Terstruktur Teori dan Praktik Aplikasi Bisnis”, Penerbit Andi, Yogyakarta K. S. Jones, 2004, ”A Statistical Interpretation of Term Specify and Its Applic ation in Retrieval”, Journal of Documentation, vol 60 (2), pp. 493-502. Peraturan Mentri Pendidikan Nasional Republik Indonesia. (2010). Pencegahan

   dan penanggulangan plagiat di perguruan tinggi, 1-2. Diunduh

  dari Robertson, S., 2004. “Understanding Inverse Document Frequency: On theoretical arguments for IDF”, Journal of Documentation, Vol.60, no.5, pp. 503-520.

  Salton, G., 1989, Automatic Text Processing, The Transformation, Analysis, and Retrieval of information by computer. Addison

  • – Wesly Publishing Company, Inc. USA S.Pressman, Roger.2001. Software Engineering. New York. Americas, McGraw-Hill. Sudigdo, Sastroasmoro 2007, Beberapa Catatan Tentang Plagiarisme, Majalah

  73 Tala, F.Z., 2003, A Study of Stemming Effects on Information Retrieval in bahasa Indonesia. Master Thesis, Institut for logic, Language and Computation Universiteit van Amsterdam The Netherlands

  Triwati, Candra. 2009. Metode Pembobotan Statistical Concept Based untuk Klastering dan Kategorisasi Dokumen Berbahasa Indonesia. IT TELKOM Bandung

  74

BAB 1 PENDAHULUAN

1.1 Latar Belakang Masalah

  Plagiarisme adalah perbuatan yang mengambil tulisan, karangan, atau pendapat dari orang lain tanpa adanya rujukan dan menjadikannya seolah-olah kutipan atau tulisan tersebut sebagai tulisan milik sendiri. Kemajuan teknologi saat ini ada yang berdampak negatif, yaitu dengan mudah mendapat dokumen secara online. Kemudahan itu disalahgunakan dengan seringnya mengutip tulisan dari orang lain tanpa menuliskan rujukan terhadap tulisan yang diambil.

  Penelitian yang berkaitan dengan plagiarisme sudah pernah dilakukan sebelumnya. Penelitian yang dilakukan oleh Taufiq M Isa, dkk (Isa dkk, 2013) dengan judul ”Mengukur Tingkat Kesamaan Paragraf Menggunakan Vector Space Model untuk Mendeteksi Plagiarisme” menunjukkan bahwa algoritma yang diusulkan dapat mendeteksi dengan baik kesamaan antar dua dokumen. Proses yang dilakukan penelitian tersebut memasukkan data berupa dokumen PDF lalu di konversi kedalam bentuk XML dan nantinya dokumen dirangking dengan cara mengambil paragraf-paragraf yang kemudian dipecah-pecah, setelah didapatkan nilai IDF, TF-IDF dan VSM nya, didapatkan hasil akhir yaitu nilai similaritas antar paragraf. Dalam penelitian tersebut pada tahap preprocessing tidak digunakan

  

stemming dan hasil pengujian tersebut peneliti menggunakan beberapa jenis query,

  yaitu query satu kata dimana hasilnya menunjukkan pasangan paragraf dalam kelompok similaritas tinggi lebih banyak dibandingkan dengan pasangan paragraf similaritas rendah dan sedang, query dua kata memperlihatkan hasil query juga mirip dengan hasil query satu kata, dan untuk query tiga kata memperlihatkan bahwa pasangan dengan similaritas tinggi dapat dideteksi dengan baik, dan untuk persentase nilai similaritas rendah sebesar 50-65,99%, sedang 66-80,99%, dan tinggi 81-100%.

  Pada penelitian ini dilakukan tahap stemming dalam mendeteksi plagiarisme,

  2 “Penentuan Tingkat Plagiarisme Dokumen Penelitian Menggunakan Centroid Linkage Hierarchical Method (CLHM)” mampu membandingkan kemiripan dokumen terhadap sekelompok dokumen dan penelitian tersebut melalui tahapan

  

stemming dimana pemotongan kata secara secara random berpengaruh pada nilai

similarity, serta hasil akurasi sistem menghasilkan rata-rata f-measure sebesar

  0,984%. Penggunaan stemming bertujuan untuk memperkecil tindakan penjiplakan tanpa mengabaikan perubahan posisi kalimat, pemotongan kata ataupun perubahan kata aktif menjadi kata pasif atau sebaliknya. Penelitian yang dilakukan oleh Milani Winangga (Winangga, 2012) dengan judul “Deteksi Plagiarisme Pada Dokumen Teks Bahasa Indonesi a Menggunakan Algoritma Winnowing Dengan Stemming” penggunaan stemming menghasilkan persentase kemiripan yang lebih baik pada kasus pengubahan jenis kata kerja berimbuhan dari aktif ke pasif ataupun sebaliknya tanpa mengubah susunan objek, predikat, ataupun objeknya, dari dua penelitian tersebut penggunaan stemming berpengaruh pada persentase kemiripan dan perubahan kata dari aktif ke pasif. Dalam penelitian yang dilakukan tersebut

  

masih diperlukan pengembangan dari batasan yang telah ada sebelumnya dalam

mendeteksi kemiripan atau plagiarisme suatu dokumen .

  Berdasarkan permasalahan tersebut maka akan dirancang dan dibangun suatu aplikasi untuk pendeteksi plagiarisme, dan penggunaan metode vector space model diharapkan bisa membantu aplikasi ini dalam mendeteksi plagiarisme dengan baik dan memberikan persentase tingkat kemiripan dokumen lebih baik. Oleh karena itu, penulis tertarik mengambil pokok bahasan skripsi dengan judul

  “Pendeteksian Plagiarisme Abstrak Paper Menggunakan Metode Vector Space Model”.

1.2 Identifikasi Masalah

  Berdasarkan latar belakang yang telah dijelaskan di atas, maka dapat ditarik identifikasi dan masalah yang timbul, yaitu : mengetahui tingkat kemiripan atau plagiarisme suatu dokumen dengan penggunaan stemming pada proses preprocessing.

  3

  1.3 Maksud dan Tujuan

  Berdasarkan permasalahan yang ada, maksud dari penelitian tugas akhir ini adalah untuk membangun aplikasi pendeteksi plagiarisme menggunakan metode Vector Space Model.

  Sedangkan tujuan dari penelitian tugas akhir ini adalah untuk mengetahui tingkat akurasi pendeteksian kemiripan atau plagiarisme suatu dokumen dengan penggunaan stemming pada proses preprocessing.

  1.4 Batasan Masalah

  Adapun batasan masalah yang diberikan pada penelitian ini sebagai berikut :

  1. Data Input : a. Bentuk teks paper masukan dalam Bahasa Indonesia.

  b. Format dokumen : *.pdf dengan 30 data.

  c. Bila terdapat rumus, gambar dalam teks maka tidak akan dimasukkan, hanya huruf saja yang diambil.

  d. Aplikasi ini tidak memperhatikan kesalahan penulisan (typo) pada dokumen input.

  2. Data Output yang ditampilkan berupa status persentase plagiarisme.

  1.5 Metodologi Penelitian

  Untuk mempermudah dalam pengumpulan dan pencarian informasi dalam pengerjaan penelitian ini, ada beberapa metode penelitian yang dilakukan diantaranya:

1.5.1 Metode Pengumpulan Data Metode yang dilakukan dalam pengumpulan data adalah Studi Literatur.

  Tahapan ini melakukan studi kepustakaan dari hasil penelitian yang telah dilakukan sebelumnya oleh orang lain, artikel

  • –artikel yang terkait dengan pembuatan pendeteksi plagiarisme, membaca paper dan jurnal mengenai plagiarisme, serta mempelajari teknik dan algoritma yang tepat untuk dapat

  4

1.5.2 Metode Pembangunan Perangkat Lunak

  Metode pembangunan perangkat lunak yang digunakan adalah dengan menggunakan metode prototype yang dapat dilihat pada Gambar 1.1.

  Definisi Kebutuhan Desain Sistem Pengujian dan Software Implementasi

  Sistem

Gambar 1.1 Metode Pembangunan Perangkat Lunak (Roger, 2001)

  1. Definisi Kebutuhan Tahap ini memperoleh informasi melalui paper, jurnal, dan buku.

  Informasi tersebut dianalisis untuk mendapatkan dokumentasi kebutuhan pengguna untuk digunakan pada tahap selanjutnya.

  2. Desain Sistem dan Software Tahap ini dilakukan sebelum melakukan coding. Dalam tahap ini membuat gambaran yang dikerjakan dan bagaimana tampilan dari software yang dibangun.

  3. Implementasi Sistem Tahap ini dilakukan pemrograman (coding). Pembuatan software dipecah menjadi modul-modul kecil yang nantinya akan digabungkan dalam sistem.

  4. Pengujian Tahap ini dilakukan pengujian terhadap sistem melakukan pemeriksaaan terhadap modul yang dibuat, apakah sudah memenuhi

  5

1.6 Sistematika Penulisan

  Sistematika dalam penulisan penelitian ini disusun untuk memberikan gambaran umum tentang penelitian yang dijalankan. Sistematika penulisan laporan ini adalah sebagai berikut.

  BAB I PENDAHULUAN Bab ini berisi tentang latar belakang masalah, identifikasi masalah, maksud dan

  tujuan, batasan masalah, metodologi penelitian, sistematika penulisan dari pembangunan aplikasi deteksi plagiarisme.

  BAB II LANDASAN TEORI Bab ini berisikan teori-teori mengenai plagiarisme, pembobotan dengan algoritma TF/IDF, metode Vector Space Model(VSM), Software, Model Perangkat Lunak. BAB III ANALISIS DAN PERANCANGAN SISTEM Bab ini berisikan tentang menganalisis masalah dari model penelitian untuk

  memperlihatkan keterkaitan antar variabel yang diteliti serta model matematis untuk analisisnya. Serta dalam bab ini akan dibahas tentang analisis sistem, analisis masalah, gambaran umum mengenai sistem yang akan dibangun, pemodelan analisis terstruktur dan desain antarmuka.

  BAB IV IMPLEMENTASI DAN PENGUJIAN Bab ini berisikan tahapan yang dilakukan dalam penelitian secara garis besar sejak

  dari tahap persiapan sampai penarikan kesimpulan, metode dan kaidah yang diterapkan dalam penelitian. perancangan aplikasi untuk mengetahui keberhasilan algoritma dalam menyelesaikan aplikasi pendeteksi plagiarisme. Pengujian terhadap aplikasi deteksi plagiarisme dilakukan dengan menggunakan metode Black Box.

  BAB V KESIMPULAN DAN SARAN Bab ini berisi kesimpulan dari penelitian mengenai deteksi plgiarisme yang

  dilakukan oleh penulis dan saran untuk pengembangan selanjutnya yang terkait dengan deteksi plagiarisme.

  6

BAB 2 LANDASAN TEORI

2.1 Plagiarisme

  Pengertian plagiarisme menurut Kamus Besar Bahasa Indonesia (KBBI)

  

Plagiarisme adalah penjiplakan yang melanggar hak cipta” (dikutip dari [KBBI],

2014).

  Pengertian plagiarisme dari kata dasar dan sumber lain. Plagiarisme berasal dari kata plagiat yang berarti pengambilan karangan (pendapat dan sebagainya) orang lain dan menjadikannya seolah-olah karangan (pendapat dan sebagainya) sendiri, misal menerbitkan karya tulis orang lain atas nama dirinya sendiri (KBBI, 2014). “Plagiarisme adalah bentuk penyalahgunaan hak kekayaan intelektual milik orang lain, yang mana karya tersebut dipresentasikan dan diakui secara tidak sah sebagai hasil karya pribadi” (Sulianta, 2007).

  Pengertian Plagiarisme menurut para ahli. Neville mengemukakan bahwa Plagiarisme sebagai tindakan mengambil tulisan orang lain tanpa menyebutkan rujukan dan diklaim sebagai miliknya sendiri.

  Pengertian Plagiarisme menurut hukum menurut pasal 1 Peraturan Mentri, plagiat adalah perbuatan secara sengaja atau tidak sengaja dalam memperoleh atau mencoba memperoleh kredit atau nilai untuk suatu karya ilmiah, dengan mengutip sebagian atau seluruh karya dan/ atau karya ilmiah pihak lain yang diakui sebagai karya ilmiahnya, tanpa menyatakan sumber secara tepat dan memadai (Mentri Pendidikan Nasional, 2010).

  Sejalan dengan definisi yang bermacam-macam. Maka banyak orang membuat “klasifikasi” atau jenis-jenis plagiarisme dengan dasar yang berbeda.

  Menurut Sudigdo Sastroasmoro (2007, h.5), klasifikasi proporsi atau persentasi kata kalimat, paragraf yang dibajak dibagi menjadi beberapa klasifikasi, yaitu : a) Plagiarisme ringan : <30%

  b) Plagiarisme sedang : 30-70%

  8

  Plagiarisme mempunyai beberapa jenis, yaitu: (a) plagiarisme ide :

mengambil ide yang sudah ada tanpa menyebut sumber dengan jelas, (b)

plagiarisme isi (data penelitian) : mengambil data penelitian orang lain, (c)

plagiarisme kata, kalimat, paragraf, (d) p lagiarisme total” (Herqutanto, 2013).

Ketiga jenis tindakan plagiarisme ini sering terjadi di kalangan mahasiswa. Penulis

mengambil penelitian terhadap jenis plagiarisme pada kata, kalimat, paragraf.

2.2 Preprocessing

  Preprocessing merupakan tahapan awal dalam mengolah data input sebelum memasuki proses tahapan utama. Preprocessing terdiri dari beberapa tahapan.

  Adapun tahapan preprocessing berdasarkan (Triawati, 2009) , yaitu: case folding, tokenizing / parsing, filtering, stemming. Berikut penjelasan empat tahapan dalam proses preprocessing adalah sebagai berikut.

2.2.1 Tokenizing

  Tokenizing merupakan proses pemisahan suatu rangkaian karakter berdasarkan karakter spasi, dan mungkin pada waktu yang bersamaan dilakukan juga proses penghapusan karakter tertentu, seperti tanda baca. Sebagai contoh, kata- kata “computer”, “computing”, dan “compute” semua berasal dari term yang sama yaitu “comput” , tanpa pengetahuan sebelumnya dari morfologi bahasa Inggris. Token seringkali disebut sebagai istilah (term) atau kata, sebagai contoh sebuah token merupakan suatu urutan karakter dari dokumen tertentu yang dikelompokkan sebagai unit semantik yang berguna untuk diproses (Salton, 1989).

  9

  Tokenizing Gambar 2.1

  2.2.2 Filtering

  Tahap filtering adalah tahap mengambil kata - kata penting dari hasil

  

tokenizing. Proses filtering dapat menggunakan algoritma stoplist(membuang kata

  yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist /

  

stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam

  pendekatan bag-of-words. Contoh stopword adalah “yang”, “dan”, “di”, “dari” dan lain – lain.(Triawati, 2009).

Gambar 2.2 Filtering

  2.2.3 Stemming

Stemming merupakan suatu proses yang terdapat dalam sistem IR yang

  mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu (Agusta, 2009).

  10 menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan dan akhiran) pada kata turunan. Stemming digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar dari kata tersebut yang sesuai dengan struktur morfologi bahasa Indonesia yang benar (Tala, 2003). Algoritma stemming untuk teks berbahasa Indonesia, diantaranya: Algoritma Porter, Algoritma Nazief & Adriani. Berdasarkan hasil penelitian yang dilakukan(Agusta, 2009).

  Pada proses stemming menggunakan Algoritma Nazief & Adriani yang membutuhkan waktu lebih lama, tetapi memiliki presentase keakuratan (presisi) lebih besar dibandingkan Algoritma Porter. Kamus yang digunakan juga sangat mempengaruhi hasil stemming. Semakin lengkap kamus yang digunakan maka semakin akurat pula hasil stemming dan perhitungan presisi.

  Stemming Gambar 2.3

2.3 Pembobotan TF-IDF

  Term Frequency-Inversed Document Frequency (TF/IDF) merupakan suatu

  cara untuk memberikan bobot hubungan suatu kata (term) terhadap dokumen. Hasil dengan menggunakan metode tf-idf adalah nilai atau bobot terhadap kata kunci yang dimasukan. TF-IDF menggambarkan dua konsep untuk perhitungan bobot yaitu, frekunsi kemunculan sebuah kata didalam dokumen tertentu dan inverse frekuensi dokumen yang mengandung kata tersebut (Robertson, 2004).

  Untuk mengetahui nilai dari tf, dapat dicari dari jumlah kata pada dokumen yang mengandung kata kunci dari masukan. Dokumen yang mengandung kata kunci akan diambil kemudian akan melalui pre-processing yang akan menghasilkan kata dasar dan setiap kemunculannya akan dihitung sebagai nilai tf.

  11 Dimana:

  t = kata d = dokumen

  Untuk mencari nilai dari df, dapat dicari banyaknya dokumen yang mengandung kata kunci yang dimasukan. Setiap kata akan dicari keberadaannya pada dokumen, kemudian akan dihitung jumlah dokumen yang mengandung kata tersebut sebagai nilai dari df.

  Perhitungan inverse document frequency (idf) menggunakan persamaan 2.2

  

t t

  IDF = log (D/df )........Persamaan 2.2

  Dimana: ` t = kata ke-t dari kata kunci

  

df = Jumlah dokumen yang mengandung kata ke-t dari kata kunci

D = Jumlah semua dokumen yang ada di dalam database Idf = Rasio frekuensi dokumen pada kata ke-t dari kata kunci

  Perhitungan term frequency-inverse document frequency (tf-idf) menggunakan persamaan 2.3

  W d,t = t f d,t * IDF t.................. Persamaan 2.3

  Dimana:

  d = dokumen ke-d t = kata ke-t dari kata kunci tf = frekuensi banyaknya kata ke-t dari kata kunci pada dpkumen ke-d W = bobot dokumen ke-d terhadap kata kunci ke-t

  IDF = rasio frekunsi dokumen pada kata ke-t dari kata kunci

2.4 Vector Space Model

  Vector Space Model (VSM) adalah metode untuk melihat tingkat kedekatan

  atau kesamaan (similarity) term dengan cara pembobotan term. Dokumen dipandang sebagai sebuah vektor yang memiliki magnitude (jarak) dan direction (arah). Model ruang vektor sering digunakan untuk mempresentasikan sebuah

  12

  1. Adanya peringkat pengambilan informasi

  2. Menampilkan referensi yang sesuai kebutuhan 3. Penyocokan secara partial.

  Pada

  VSM, setiap dokumen dan query dari pengguna direpresentasikan sebagai ruang vektor berdimensi n. Biasanya digunakan nilai bobot istilah (term weigthing) sebagai nilai dari vektor pada dokumen nilai 1 untuk setiap istilah yang muncul pada vektor query.

  Pada model ini, bobot dari query dan dokumen dinyatakan dalam bentuk vektor, seperti: Q = (wq1, wq2, wq3, . . . ,wqt) dan Di= (wi1, wi2, wi3, . . . , wit) Dengan wqj dan wij sebagai bobot istilah Tj dalam query Q dan dokumen Di. Dengan demikian dokumen yang lebih panjang dengan jumlah istilah yang lebih banyak memiliki kemungkinan lebih besar untuk dianggap relevan dengan istilah- istilah query tertentu dibandingkan dokumen-dokumen yang lebih pendek. Sehingga pada kebanyakan lingkungan penemu-kembalian, vektor dokumen ternormalisasi lebih disukai namun proses normalisasi vektor querytidak diperlukan karena ukurannya yang umumnya pendek dan perbedaan panjang antar-query relatif kecil.

Gambar 2.4 Vector Space ModelGambar 2.4 memperlihatkan tiga buah vektor pada ruang dimensi 3, nilai kosinus digunakan untuk mengukur tingkat kesamaan antar dua vektor. Pada

  Gambar 2.4, Q adalah vektor dari paragraf pembanding, sementara D

  1 dan D

  2 adalah vektor dari paragraf yang dibandingkan.

  13

  Sim (q,dj) = q.dj = Wiq.Wij |q| x |dj| √Wiq² x√Wij² …...Persamaan 2.4

  Dimana:

  Sim (q, dj) = similaritas antara query dan dokumen q = bobot query dj = bobot dokumen |q| = kuadrat bobot query |dj| = kuadrat bobot dokumen Wij = bobot term dalam dokumen

  Wiq = bobot query dalam dokumen

2.5 Data Flow Diagram (DFD)

  Data Flow Diagram (DFD) merupakan diagram yang menggunakan notasi

  notasi atau symbol simbol untuk mengambarkan sistem jaringan kerja antar fungsi-fungsi yang berhubungan satu sama lain dengan aliran dan penyimpanan data (Adi Nugroho, 2011).

  DFD sering digunakan untuk menggambarkan suatu sistem yang telah ada atau sistem baru yang akan dikembangkan secara logika tanpa mempertimba ngkan lingkungan fisik dimana data tersebut mengalir atau dimana data tersebut akan disimpan. Salah satu keuntungan menggunakan diagram aliran data adalah memudahkan pemakai (user) yang kurang menguasai bidang komputer untuk mengerti sistem yang akan dikerjakan.

  DFD terdiri dari diagram konteks (context diagram) dan diagram rinci (level diagram). Diagram konteks adalah diagram yang terdiri dari suatu proses dan menggambarkan ruang lingkup suatu sistem. Diagram konteks merupakan level

  14 ada store dalam diagram konteks. Diagram rinci adalah diagram yang menguraikan proses apa yang ada dalam diagram level di atasnya.

2.6 Kamus Data

  Kamus data atau data dictionary adalah katalog fakta tentang data dan kebutuhan-kebutuhan informasi dari suatu sistem informasi. Dengan kamus data analis sistem dapat mendefinisikan data yang mengalir di sistem dengan lengkap. Pada tahap analisis sistem, kamusdata digunakan sebagai alat komunikasi antara analis sitem dengan pemakai sistem tentang datayang mengalir ke sistem, yaitu tentang data yang masuk ke sistem dan tentang informasi yang dibutuhkan oleh pemakai sistem. Pada tahap perancangan sistem, kamus data digunakan untuk merancang input, merancang laporan-laporan dan database (Jogiyanto, 2005)..

  Kamus data dibuat berdasarkan arus data yang ada di Data Flow Diagram (DFD). Arus data di DFD sifatnya adalah global, hanya di tunjukkan nama arus datanya saja. Keterangan lebih lanjut tentang struktur dari suatu arus datadi DFD secara lebih terinci dapat di lihat di kamus data. DD tidak menggunakan notasi grafik sebagaimana halnya DFD. DD berfungsi membantu pelaku sistem untuk mengerti aplikasi secara detil, dan mereorganisasi semua elemen data yang digunakan dalam sistem secara presisi sehingga pemakai dan penganalisa sistem punya dasar pengertian yang sama tentang masukan, keluaran, penyimpanan dan proses. DD mendefinisikan elemen data dengan fungsi sebagai berikut:

  1. Menjelaskan arti aliran data dan penyimpanan dalam DFD

  2. Mendeskripsikan komposisi paket data yang bergerak melalui aliran,misalnya alamat di uraikan menjadi kota, kodepos, propinsi, dan negara.

  3. Mendeskripsikan komposisi penyimpanan data.

  4. Menspesifikasikan nilai dan satuan yang relevan bagi penyimpanan dan aliran.

  5. Mendeskripsikan hubungan detil antara penyimpanan yang akan menjadi titik perhatian dalam entity relationship diagram.

  15 relasi. ERD untuk memodelkan struktur data dan hubungan antar data, untuk menggambarkannya digunakan beberapa notasi dan simbol (Jogiyanto, 2005). Pada dasarnya ada tiga simbol yang digunakan, yaitu :

  a. Entitas Entiti merupakan objek yang mewakili sesuatu yang nyata dan dapat dibedakan dari sesuatu yang lain. Simbol dari entiti ini biasanya digambarkan dengan persegi panjang.

  b. Atribut Setiap entitas pasti mempunyai elemen yang disebut atribut yang berfungsi untuk mendeskripsikan karakteristik dari entitas tersebut. Isi dari atribut mempunyai sesuatu yang dapat mengidentifikasikan isi elemen satu dengan yang lain. Gambar atribut diwakili oleh simbol elips.

  c. Hubungan / Relasi Hubungan antara sejumlah entitas yang berasal dari himpunan entitas yang berbeda. Relasi dapat digambarkan sebagai berikut : Relasi yang terjadi diantara dua himpunan entitas (misalnya A dan B) dalam satu basis data yaitu:

  1). Satu ke satu (One to one) Hubungan relasi satu ke satu yaitu setiap entitas pada himpunan entitas A berhubungan paling banyak dengan satu entitas pada himpunan entitas B.

  2). Satu ke banyak (One to many) Setiap entitas pada himpunan entitas A dapat berhubungan dengan banyak entitas pada himpunan entitas B, tetapi setiap entitas pada entitas B dapat berhubungan dengan satu entitas pada himpunan entitas A. 3). Banyak ke banyak (Many to many) Setiap entitas pada himpunan entitas A dapat berhubungan dengan banyak entitas pada himpunan entitas B.

2.8 PHP (Personal Home Page)

  16 Rasmus Lerdorf (dengan dikeluarkannya PHP versi 1) yang digunakan untuk membuat home page pribadinya. Versi pertama ini berupa kumpulan script PERL. Untuk versi keduanya, Rasmus menulis ulang script - script PERL tersebut menggunakan bahasa C, kemudian menambahkan fasilitas untuk form html dan koneksi MYSQL.

  PHP merupakan bahasa script yang digunakan untuk membuat halaman web yang dinamis. Dinamis berarti halaman yang ditampilkan dibuat saat halaman itu diminta oleh client. Mekanisme ini menyebabkan informasi yang diterima client selalu yang terbaru. Semua script PHP dieksekusi pada server di mana script tersebut di jalankan. Oleh karena itu, spesifikasi server lebih berpengaruh pada eksekusi dari script PHP daripada spesifikasi client. Namun tetap diperhatikan bahwa halaman web yang dihasilkan tentunya harus dapat dibuka oleh browser pada client. PHP masuk kedalam kategori server-side scripting dimana browser pada client tidak lagi bertanggung jawab dalam menjalankan kode- kode PHP, melainkan web server proses ini diilustrasikan kedalam gambar berikut .

  Pertama-tama web browser pada client me-request sebuah file (1). Dalam kasus ini bagaimanapun juga file yang di-request berekstensi/berakhiran .php (contoh: File.php), tanda bahwa didalam file tersebut terkandung kode-kode PHP yang perlu diproses oleh server. Web server mengenali file ini dan tidak mengirim

  

file tersebut langsung ke browser, tetapi dikirim ke PHP scripting engine (2) (mesin

  pengolah kode-kode PHP). PHP engine merupakan komponen perangkat lunak dari

  

server yang mampu mengartikan kode-kode PHP dan memberikan output dalam

  kode HTML. Setiap kode PHP dapat memberikan output kode HTML yang berbeda, tergantung pada jenis request dari client (browser). Proses tersebut membangkitkan halaman HTML secara dinamis lalu dikirimkan kembali ke client (browser) untuk merespon terhadap request yang sebelumnya telah dikirimkan. Pemrograman di sisi server biasanya digunakan untuk membuat sebuah website yang interaktif yang dihubungkan kedalam basis data atau data store lain .

  17

  2.9 HTML (Hyper Text Markup Language)

  HyperText Markup Language, sering disebut sebagai HTML, merupakan standar bahasa markup yang digunakan untuk membuat halaman web. Web browser dapat membaca file HTML dan membuat mereka ke dalam halaman web terlihat atau terdengar. HTML menggambarkan struktur dari situs semantik bersama dengan isyarat untuk presentasi, membuatnya menjadi bahasa markup, daripada bahasa pemrograman.

  Elemen HTML membentuk blok bangunan dari semua website. HTML memungkinkan gambar dan objek yang akan tertanam dan dapat digunakan untuk membuat bentuk-bentuk interaktif. Menyediakan sarana untuk membuat dokumen terstruktur oleh struktural menunjukkan semantik untuk teks seperti judul, paragraf, daftar, link, kutipan dan item lainnya.

  Bahasa ini ditulis dalam bentuk elemen HTML terdiri dari tag diapit kurung sudut (seperti <html>). Browser tidak menampilkan tag HTML dan script, tetapi menggunakannya untuk menafsirkan isi halaman.

  HTML dapat menanamkan script yang ditulis dalam bahasa seperti JavaScript yang mempengaruhi perilaku halaman web HTML. Web browser juga dapat merujuk ke Cascading Style Sheets (CSS) untuk menentukan tampilan dan tata letak teks dan bahan lainnya. The World Wide Web Consortium (W3C), pengelola dari kedua HTML dan CSS standar, mendorong penggunaan CSS lebih eksplisit HTML presentasi sejak tahun 1997.

  2.10 MySQL

  MySQL adalah Relational Database Managemen System (RDBMS) yang didistribusikan secara gratis di bawah lisensi GPL (General Public Licence). Dimana setiap orang bebas untuk menggunakannya, tapi tidak boleh dijadikan produk turunan yang bersifat Closed Source atau komersial.

  MySQL sebenarnya merupakan turunan salah satu konsep utama dalam

  

database sejak lama, yaitu SQL (Structur Query Language). SQL adalah sebuah

  18 pemasukan data, yang memungkinkan pengoperasian data dikerjakan dengan mudah secara otomatis. Keandalan suatu sistem database (DBMS) dapat diketahui dari cara kerja optimizer-nya dalam melakukan proses perintah-perintah SQL, yang dibuat oleh

  

user maupun program-program aplikasinya sebagai database server lainnya dalam

query data. Hal ini terbukti untuk query yang dilakukan oleh single user, kecepatan

query MySQL bisa sepuluh kali lipat lebih cepat.

BAB 3 ANALISIS DAN PERANCANGAN

  3.1 Analisis Masalah

  Permasalahan yang terjadi pada penelitian ini yaitu mengetahui tingkat kemiripan dokumen untuk menangani masalah plagiarisme setiap informasi yang didapatkan oleh pengguna bisa menjadi bentuk dari plagiat dikarenakan adanya perlakuan copy-paste dari suatu dokumen tanpa mencantumkan sumber dari kutipan yang diambil tersebut.

  Pembangunan sistem ini diperlukan untuk menangani plagiarisme dengan ketentuan file yang sudah terintegrasi sebelumnya. Sistem ini dapat mengolah dokumen dengan tahap awal preprocessing, perhitungan TF-IDF, dan perhitungan

  

vsm. Keluaran dari sistem ini memberikan informasi berupa persentase plagiarisme

pada dokumen.

  3.2 Analisis Sistem

  Analisis sistem digunakan dengan tujuan untuk mengidentifikasi dan mengevaluasi seluruh komponen yang terkait dengan sistem yang dibangun. Sistem ini memiliki tahap proses di mulai dengan input dokumen, preprocessing hingga perhitungan similaritas, dan output berupa hasil persentase plagiarisme.

3.2.1 Analisis Metode

  Penelitian yang akan dilakukan yaitu membuat sistem yang mampu melakukan pendeteksi plagiarisme antara dua dokumen. Inputan yang dimasukan adalah dokumen berupa paper yang memiliki format (*.pdf). Gambar 3.1 menunjukan gambaran mengenai sistem yang akan dibangun.

  Masukan Dokumen Uji Dokumen Latih

  (Format *.pdf) (Format *.pdf ) Proses

  Pre-processing Pre-processing

  1.

  1. Tokenizing Tokenizing 2.

  2. Filtering Filtering 3.

  3. Stemming Stemming

  Kata-kata

  Database Dokumen Latih

  Hitung tf-idf Hitung vsm

  Menghitung Similaritas Keluaran :

  Status Persentase Plagiarisme

Gambar 3.1 Gambaran Umum Sistem

  Pada sistem yang akan dibangun terdapat 3 tahapan yang akan dilakukan yaitu masukan, proses yang dilakukan oleh sistem, dan yang terakhir yaitu keluaran

  3.2.2 Analisis Masukan

  Masukan dalam aplikasi pendeteksi plagiarisme disini menjelaskan tentang data yang digunakan. Masukan yang digunakan yaitu berupa dokumen teks Bahasa

  

Indonesia dengan format *.pdf dimana file dalam bentuk tersebut akan diubah

  menjadi file .txt yang berisi teks dan sudah terintegrasi, nantinya teks tersebut dipecah menjadi kata-kata untuk menjadi pembanding dengan teks lainnya yang sudah tersimpan didalam sistem. Contoh dokumen masukan.

  

Abstrak

  Problema plagiarisme merupakan salah satu persoalan klasik dalam dunia pendidikan sekarang ini karena seorang bisa dengan mudah mendapatkan informasi secara mudah. Tindakan plagiarisme tersebut dapat membuat seseorang menjadi malas berkreatifitas karena tidak mau berfikir.

  3.2.3 Proses