Citasi Penelitian Terdahulu TINJAUAN PUSTAKA

9 Undang Hak Cipta Indonesia, menyatakan bahwa hak cipta merupakan hak yang dikhususkan bagi pencipta karya untuk mengumumkan atau memperbanyak ciptaannya maupun memberi izin untuk itu dengan tidak mengurangi pembatasan menurut peraturan perundangan yang berlaku. Menurut pasal 12 ayat 1, UU Hak Cipta, ciptaan yang dilindungi adalah ciptaan dalam bidang ilmu pengetahuan, seni, dan sastra, yang mencakup: 1. Buku, program komputer, pamflet, layout karya tulis yang diterbitkan dan semua hasil karya tulis lainnya; 2. Ceramah, kuliah, pidato, dan ciptaan lain yang sejenis dengan itu; 3. Alat peraga yang dibuat untuk kepentingan pendidikan dan ilmu pengetahuan; 4. Lagu atau musik dengan atau tanpa teks; 5. Drama atau drama musikal, tari koreografi, pewayangan, dan pantomime; 6. Seni rupa dalam segala bentuk seni lukis, gambar, seni ukir, seni kaligrafi, pahat, seni patung, kolase, dan seni terapan; 7. Arsitektur; 8. Peta; 9. Seni Batik; 10. Fotografi; 11. Sinematografi; 12. Terjemahan, tafsir, saduran, bunga rampai, database, dan karya lainnya. Pelanggaran hak cipta terjadi apabila materi hak cipta digunakan tanpa izin dan harus ada kesamaan antara dua karya yang dibandingkan; jika seluruh atau sebagian dari karya yang telah dilindungi hak cipta telah dikopi. Dengan semakin meningkatnya kesadaran hukum yang berlaku atas kekayaan intelektual, diharapkan penyelesaian ganti rugi dapat diseimbangkan dengan tuntutan pidana. Purwaningsih, 2005.

2.2. Citasi

Citasi merupakan sebuah caraalternatif untuk memberitahukan kepada publik bahwa beberapa bagian dari karya ilmiah yang dituliskan berasal dari karya ilmiah lain dengan mencantumkan informasi penulis, judul karya ilmiah yang dikutip, nama perusahaan atau penerbit yang mempublikasikan, tanggal publikasi, dan nomor halaman yang dikutip. 10 Dengan dibuatnya citasi tidak akan mengurangi keaslian suatu karya, melainkan membantu para pembaca lainnya untuk membandingkan ide penulis dengan sumber citasi yang disebutkan. Citasi juga akan membantu membebaskan penulis dari tindak plagiarisme. Ada beberapa model citasi yang dapat diikuti oleh penulis karya ilmiah dapat disesuaikan dengan instansi terkait, seperti plagiarism.org: a. Model Humaniora, terdiri dari: Chicago dan MLA Modern Language Association b. Model Sains, terdiri dari: ACS American Chemical Society, IEEE Institute of Electrical and Electronics Engineers, NLM National Library of Medicine, dan Vancouver Biological Science c. Model Ilmu Sosial, terdiri dari: AAA American Anthropological Association, APA American Psychological Association, APSA American Political Science Association, dan Legal

2.3. Algoritma Stemming Bahasa Indonesia

Stemming merupakan bagian dari proses Information Retrieval IR, yang mengubah beberapa kata ke bentuk kata dasarnya sebelum dilakukan pengindeksan. Contoh, kata dibaca, membaca, pembaca, akan diubah ke kata dasarnya, yaitu “baca” Peng, 2007. Pada dasarnya proses stemming bekerja tergantung pada bahasa yang diteliti. Khusus untuk topik berbahasa Indonesia, proses algoritma stemming awalnya diperkenalkan oleh Nazief dan Adriani pada tahun 1996. Algoritma ini bekerja berdasarkan struktural morfologi kalimat bahasa Indonesia, yang terdiri dari prefiks awalan, sufiks akhiran, infiks sisipan, dan konfiks awalan+akhiran. Lalu Asian pada tahun 2007 mengembangkan algoritma stemming tersebut dengan menambah beberapa aturan, dan diperkenalkan dengan nama algoritma Confix Stripping Stemmer. Penelitian selanjutnya dilakukan oleh I Putu Adhi Kerta Mahendra pada tahun 2008 dengan menambahkan kamus kata dasar dan mendukung recording, yakni penyusunan kembali kata-kata yang mengalami proses stemming berlebih. Algoritma terbaru yang diteliti oleh Mahendra, selanjutnya dinamakan algoritma Enhanced Confix Stripping Stemmer. 11 2.3.1. Algoritma enhanced confix stripping stemmer Merujuk pada penelitian yang dilakukan oleh Andita Dwiyoga Tahitoe 2010 proses stemming untuk bahasa Indonesia dengan performa yang paling baik adalah dengan menggunakan algoritma Enhanced Confix Stripping ECS Stemmer. Algoritma ini merupakan pengembangan dari algoritma Confix Stripping CS Stemmer, dan berhasil mereduksi jumlah term pada algoritma Confix Stripping Stemmer hingga 32.66, sedangkan pada awalnya Confix Stripping Stemmer hanya mampu mereduksi 30.95 term Mahendra, 2008. Berdasarkan penelitian Mahendra 2008, tahapan kerja algoritma Enhanced Confix Stripping Stemmer adalah sebagai berikut: Tabel 2.1. Aturan Dasar Awalan - Akhiran Yang Berlaku Pasangan Awalan – Akhiran Yang Berlaku Be – lah Be – an Me – i Di – i Pe – i Te – i Tabel 2.2. Urutan Pengembalian Akhiran No Akhiran Tipe 1. -i, -kan, -an Derivation Suffixes DS 2. -ku, -mu, -nya Possessive Pronoun PP 3. -lah, -kah, -tah, -pun Inflectional Particle P Tabel 2.3. Aturan Pemenggalan Awalan Algoritma Stemmer Nazief dan Adriani Aturan Format Kata Pemenggalan 1 berV… ber- V… | be-r-V… 2 berCAP… ber- CAP… dimana C=„r‟ P=‟er‟ 3 berCAerV… ber- CaerV… dimana C=‟r‟ 4 belajar bel-ajar 5 beC 1 erC 2 … be-C 1 erC 2 … dimana C 1 ={„r‟ | „l‟} 6 terV… ter- V… | te-rV… 7 terCerV… ter- CerV… dimana C=‟r‟ 8 terCP… ter- CP… dimana C=‟r‟ dan P=‟er‟ 12 Tabel 2.3. Aturan Pemenggalan Awalan Algoritma Stemmer Nazief dan Adriani lanjutan Aturan Format Kata Pemenggalan 9 teC 1 erC 2 … te-C 1 erC 2 … dimana C 1 =‟r‟ 10 me{l|r|w|y}V… me- {l|r|w|y}V… 11 mem{b|f|v}… mem- {b|f|v}… 12 mempe{r|l} mem- pe… 13 mem{rV|V}… me- m{rV|V}… | me-p{rV|V}… 14 men{c|d|j|z}… men- {c|d|j|z}… 15 menV… me- nV… | me-tV… 16 meng{g|h|q}… meng- {g|h|q}… 17 mengV… meng- V… | meng-kV… 18 menyV… meny- sV… 19 mempV… mem- pV… dimana V=‟e‟ 20 pe{w|y}V… pe- {w|y}V… 21 perV… per- V… | pe-rV… 23 perCAP… per- CAP… dimana C=‟r‟ dan P=‟er‟ 24 perCAerV… per- CAerV… dimana C=‟r‟ 25 pem{b|f|V}… pem- {b|f|V}… 26 pem{rV|V}… pe- m{rV|V}… | pe-p{rV|V}… 27 pen{c|d|j|z}… pen- {c|d|j|z}… 28 penV… pe- nV… | pe-tV… 29 peng{g|h|q}… peng- {g|h|q}… 30 pengV… peng- V… | peng-kV… 31 penyV… peny- sV… 32 pelV… pe- lV… kecuali “pelajar” yang menghasilkan “ajar” 33 peCerV… per- erV… dimana C={r|w|y|l|m|n}… 34 peCP… pe- CP… dimana C={r|w|y|l|m|n} dan P=‟er‟ 1. Perhatikan Aturan Dasar pada Tabel 2.1., jika input kata sesuai dengan pasangan yang ada, maka lakukan penghilangan awalan terlebih dahulu. Jika tidak ada, maka penghilangan akhiran dilakukan terlebih dahulu. 2. Lakukan recording penyusunan kembali kata-kata yang mengalami proses stemming berlebih apabila diperlukan. 3. Lakukan loopPengembalianAkhiran. 4. Lakukan pengecekan apakah terdapat tanda hubung „-‟ yang menandakan input kata tersebut adalah kata ulang. Jika benar, maka lakukan proses stemming pada potongan kata di sebelah kiri dan kanan tanda hubung. Apabila hasil stemming memberikan hasil yang sama, maka kata dasar dari kata ulang tersebut adalah hasil yang didapatkan. 5. Jika keempat proses di atas gagal, maka input kata yang di-stemming dianggap sebagai kata dasar. 13 Pada setiap langkah dilakukan proses pengecekan output stemming ke kamus data. Apabila ditemukan, maka proses berhenti. Proses loopPengembalianAkhiran bekerja seperti berikut: 1. Kembalikan seluruh awalan yang telah dihilangkan, sehingga menghasilkan model kata seperti: [DP+[DP+[DP]]] + Kata Dasar. Pemenggalan awalan dilanjutkan dengan proses pencarian di kamus. 2. Kembalikan akhiran sesuai urutan pada Tabel 2.2. Untuk setiap pengembalian, lakukan langkah 3 hingga 5 berikut. Khusus untuk akhiran “-kan”, pengembalian pertama dimulai dengan “k”, lalu dilanjutkan dengan “an”. 3. Lakukan pengecekan ke kamus data. Apabila kata dasar ditemukan, proses dihentikan. Apabila gagal, maka lakukan proses pemenggalan awalan berdasarkan aturan pada Tabel 2.3. 4. Lakukan recording jika diperlukan. 5. Apabila pengecekan di kamus tetap gagal setelah recording, maka awalan- awalan yang telah dihilangkan dikembalikan lagi. Tabel 2.4. Aturan Pemenggalan Awalan Algoritma Enhanced Confix Stripping Stemmer Aturan Format Kata Pemenggalan 1 berV… ber- V… | be-r-V… 2 berCAP… ber- CAP… dimana C=„r‟ P=‟er‟ 3 berCAerV… ber- CAerV… dimana C=‟r‟ 4 belajar bel-ajar 5 beC 1 erC 2 … be-C 1 erC 2 … dimana C 1 ={„r‟ | „l‟} 6 terV… ter- V… | te-rV… 7 terCerV… ter- CerV… dimana C=‟r‟ 8 terCP… ter- CP… dimana C=‟r‟ dan P=‟er‟ 9 teC 1 erC 2 … te-C 1 erC 2 … dimana C 1 =‟r‟ 10 me{l|r|w|y}V… me- {l|r|w|y}V… 11 mem{b|f|v}… mem- {b|f|v}… 12 mempe… mem- pe… 13 mem{rV|V}… me- m{rV|V}… | me-p{rV|V}… 14 men{c|d|j|s|z}… men- {c|d|j|s|z}… 15 menV… me- nV… | me-tV… 16 meng{g|h|q|k}… meng- {g|h|q|k}… 17 mengV… meng- V… | meng-kV… | mengV-… jika V=‟e‟ 18 menyV… meny- sV… 19 mempA… mem- pA… dimana A=‟e‟ 20 pe{w|y}V… pe- {w|y}V… 14 Tabel 2.4. Aturan Pemenggalan Awalan Algoritma Enhanced Confix Stripping Stemmer lanjutan Aturan Format Kata Pemenggalan 21 perV… per- V… | pe-rV… 23 perCAP… per- CAP… dimana C=‟r‟ dan P=‟er‟ 24 perCAerV… per- CAerV… dimana C=‟r‟ 25 pem{b|f|V}… pem- {b|f|V}… 26 pem{rV|V}… pe- m{rV|V}… | pe-p{rV|V}… 27 pen{c|d|j|z}… pen- {c|d|j|z}… 28 penV… pe- nV… | pe-tV… 29 pengC… peng- C… 30 pengV… peng- V… | peng-kV… | pengV-… jika V=‟e‟ 31 penyV… peny- sV… 32 pelV… pe- lV… kecuali “pelajar” yang menghasilkan “ajar” 33 peCerV… per- erV… dimana C={r|w|y|l|m|n}… 34 peCP… pe- CP… dimana C={r|w|y|l|m|n} dan P=‟er‟ 35 terC 1 erC 2 … ter-C 1 erC 2 … dimana C 1 =‟r‟ 36 peC 1 erC 2 … pe-C 1 erC 2 … dimana C 1 ={r|w|y|l|m|n} Pada Tabel 2.3. dan Tabel 2.4., simbol C merupakan konsonan, simbol V merupakan vokal, simbol A merupakan vokal atau konsonan, dan simbol P merupakan partikel atau fragmen dari suatu kata, misalnya “er”. Dari kedua tabel dapat dilihat beberapa perbedaan. Awalan yang diikuti huruf awal pada setiap kata dasar telah dikelompokkan menjadi kumpulan konsonan, vokal, atau partikel. Seperti, aturan no.29 pada awalan algoritma Stemmer Nazief dan Adriani, pemenggalan awalan “peng-{g|h|q}” telah dikelompokkan menjadi “peng-C” pada awalan algoritma Enhanced Confix Stripping Stemmer. Dan terdapat beberapa aturan tambahan pada algoritma ECS, yaitu aturan no. 35 dan no. 36. 2.4. Algoritma Winnowing Salah satu algoritma yang digunakan untuk mendeteksi bentuk kesamaan pada dokumen teks adalah algoritma Winnowing. Pada dasarnya sistem pendeteksian haruslah memiliki 3 unsur utama yang harus dipenuhi, seperti Schleimer et al, 2003: 1. Whitespace insensitivity, sistem pencocokan teks seharusnya tidak terpengaruh pada spasi, adanya huruf kapital, berbagai tanda baca, dan sebagainya; 2. Noise surpression, sistem haruslah menghindari pencocokan kata yang terlalu pendek; 15 3. Position independence, sistem seharusnya tidak bergantung pada posisi kata yang dicari sehingga apabila ditemukan kata yang terindeksi sama dengan posisi berbeda masih dapat dikenali; Algoritma Winnowing dipilih karena algoritma ini sudah memenuhi unsur untuk proses pendeteksian. Implementasi dari algoritma Winnowing membutuhkan masukan berupa file teks dan menghasilkan keluaran berupa nilai hash yang disebut fingerprint Purwitasari et al, 2011. Setiap kata yang terkandung dalam file teks diubah terlebih dahulu menjadi sebuah kumpulan nilai hash dengan teknik rolling hash. Nilai hash merupakan nilai numerik dari perhitungan ASCII untuk setiap karakter. Lalu kumpulan nilai hash yang disebut fingerprint tersebut digunakan untuk mendeteksi kemiripan antardokumen Aziz et al, 2012.

2.4.1. Rolling hash

Teknik Rolling Hash pada awalnya digunakan pada algoritma Rabin-Karp. Setiap karakter di dalam dokumen teks diubah encode menjadi nilai array bilangan bulat, sehingga nilai masukan yang awalnya berupa karakter menjadi fungsi hash berupa angka. Untuk membandingkan dua string yang dianggap sama, maka setiap A[i] = B[i] dan membutuhkan waktu sebesar On. Panjang waktu yang dibutuhkan tergantung pada panjang iterasi elemen string yang dibandingkan Cormen et al, 2009. Menurut Cormen 2009, metode dasar untuk mencari perbandingan antara kedua string dokumen A dan B adalah: a. Asumsikan dokumen A memiliki panjang elemen string p, dan dokumen B memiliki panjang q. b. Lakukan hashing pada dokumen A untuk mendapatkan hA dengan waktu sebesar Op. c. Lakukan iterasi pada dokumen B dengan panjang elemen string p, dan bandingkan hA dengan waktu sebesar Oqp. d. Jika nilai hash substring tidak cocok dengan hA, bandingkan substring yang ada dengan A. Jika cocok, berhenti, jika tidak, lakukan kembali hingga ditemukan waktu sebesar Op. Untuk mengurangi waktu komputasi, dapat dilakukan teknik rolling hash dengan mengambil waktu sebesar Op sehingga didapatkan banyak kecocokan. 16 Contoh, lakukan hashing 5 substring pada kata “komputer”. Hash I: „kompu‟, hash II: „omput‟, dan seterusnya. Dengan teknik rolling hash, maka didapatkan bahwa kedua hash yang saling dibandingkan akan menghasilkan substring yang sama, yaitu: „ompu‟ dan berlaku untuk perbandingan hasil hash berikutnya. Digunakannya perhitungan operasi modulo agar tidak mempersulit sistem menghitung dalam jumlah banyak, selama nilai modulo yang digunakan tidak terlalu besar pula Ellard, 1997. Persamaan teknik rolling hash Cormen, 2009 adalah sebagai berikut: [ ] [ ] [ ] [ ] [ ] ……… 1 Untuk menghitung hash lanjutan, persamaannya adalah: [ ] [ ] ……… 2 Dimana: b : Nilai bilangan basis 10 k : Nilai ASCII karakter hk : Nilai hash m : Nilai bilangan prima 10007 L : Banyaknya karakter yang di-hashing Si : Nilai hash awal Si+1 : Nilai hash berikutnya

2.4.2. Tahapan penerapan algoritma winnowing

Beberapa tahapan dalam penerapan algoritma Winnowing adalah sebagai berikut Purwitasari et al, 2011: 1. Tahap Pertama: Membuang karakter yang tidak relevan seperti tanda baca, spasi, dan simbol-simbol lainnya. 2. Tahap Kedua: Membentuk rangkaian gram. 3. Tahap Ketiga: Melakukan proses rolling hash untuk mencari nilai hash dari setiap gram. 17 4. Tahap Keempat: Membentuk window yang terdiri dari nilai hash yang dihasilkan. 5. Tahap Kelima: Membentuk nilai fingerprint yang unik, dengan memilih nilai terendah dari setiap baris di dalam window.

2.4.3. Pengukuran dan persentase similarity

Perhitungan similaritas antardua dokumen diambil dari pemilihan nilai fingerprint hash terunik, seperti Taufik, 2012: ……… 3 Keterangan : S : Similaritas N t : Total hash yang sama N x : Total substring pembanding N y : Total substring uji Penilaian persentase similaritas antardua dokumen yang dibandingkan menurut A. Benny Mutiara Sinta Agustina 2008 adalah sebagai berikut: 1. Kategori Nihil 0 Kedua dokumen tidak terindikasi plagiat karena benar-benar berbeda baik dari segi isi dan kalimat secara keseluruhan. 2. Kategori Sedikit Kesamaan 15 Kedua dokumen hanya mempunyai sedikit kesamaan. 3. Kategori Plagiat Sedang 15-50 Kedua dokumen terindikasi plagiat tingkat sedang. 4. Kategori Mendekati Plagiarisme 50 Hasil uji menunjukkan lebih dari 50, dapat dikatakan bahwa dokumen yang diuji mendekati tingkat plagiarisme. 5. Kategori Plagiarisme 100 Dokumen uji dapat dipastikan murni plagiat karena dari awal dan sampai akhir isi dokumen adalah sama. 18

2.5. Penelitian Terdahulu

Aplikasi pendeteksian plagiat pada dokumen teks telah banyak dibuat sebelumnya. Dengan metode dan algoritma yang berbeda-beda didapatkan aplikasi dengan kelebihan dan kekurangannya masing-masing. Alfarisi 2011 menyatakan hasil pengujian dari penelitian yang dilakukannya meggunakan metode Latent Semantic Analysis menghasilkan perbandingan yang lebih cepat karena pada metode LSA terdapat semantic space pada awal perbandingan. Dan algoritma Sherlock menghasilkan keakuratan perbandingan yang lebih tepat, tetapi waktu yang diperlukan lebih lama. Penggabungan algoritma Smith-Waterman dengan pre-processing pada aplikasi yang telah dibuat oleh Novanta 2009 menghasilkan bobot terjadinya tindakan plagiat menjadi lebih akurat, dan menyebabkan bertambahnya waktu proses. Purwitasari 2011 pada penelitiannya berhasil menemukan kesamaan nilai fingerprint pada 2 file yang dianggap sama hasil copy-paste dengan menggunakan algoritma Hashing Winnowing yang berbasis N-Gram. Mahendra 2008 berhasil melakukan pengembangan pada algoritma Confix Stripping Stemmer dengan mereduksi jumlah term hingga 32.66, sedangkan awalnya hanya mampu mereduksi 30.95. Algoritma pengembangan tersebut selanjutnya dinamakan Enhanced Confix Stripping Stemmer. Hasil dari penelitian Nugroho 2011 adalah penggunaan algoritma Rabin- Karp yang telah dimodifikasi menghasilkan akurasi nilai similarity yang relatif sama dengan penggunaan algoritma Rabin-Karp biasa, tetapi waktu prosesnya menjadi lebih baik. Dan penggunaan kgram yang semakin kecil menghasilkan akurasi similarity yang lebih baik daripada kgram yang lebih besar. Salmuasih 2013 menyatakan penggunaan stemming berpengaruh pada keakuratan nilai similarity dan lamanya waktu proses. Dan penggunaan nilai modulo pada algoritma Rabin-Karp berpengaruh pada waktu proses, tetapi tidak pada nilai similarity. 19 Tabel 2.5. Penelitian Terdahulu Nama Tahun Judul Penelitian Keterangan Hasil Alfarisi 2011 Analisis Dan Perancangan Sistem Pendeteksi Kesamaan Dokumen Teks Menggunakan Metode Latent Semantic Analysis - Awal perbandingan lebih cepat LSA - Keakuratan perbandingan lebih tepat, tapi waktu lebih lama Sherlock Audi Novanta 2009 Pendeteksian Plagiarisme Pada Dokumen Teks Dengan Menggunakan Algoritma Smith- Waterman Dengan pre-processing, bobot plagiat lebih akurat, tapi proses bertambah Purwitasari 2011 Deteksi Keberadaan Kalimat Sama Sebagai Indikasi Penjiplakan Dengan Algoritma Hashing Berbasis N-Gram. - Algoritma Winnowing berhasil menemukan lesamaan nilai fingerprint dua dokumen copy- paste Mahendra 2008 Enhanced Confix Stripping Stemmer And Ants Algorithm For Classifying News Document In Indonesian Language. - Berhasil mereduksi jumlah term 32.66 dari algoritma stemming sebelumnya Nugroho 2011 Perancangan Sistem Deteksi Plagiarisme Dokumen Teks Dengan Menggunakan Algoritma Rabin- Karp - Waktu proses lebih baik Rabin-Karp modifikasi - Nilai kgram yang kecil = nilai similarity yang lebih baik Salmuasih 2013 Perancangan Sistem Deteksi Plagiat Pada Dokumen Teks Dengan Konsep Similarity Menggunakan Algoritma Rabin Karp - Nilai modulo berpengaruh pada waktu proses, bukan nilai similarity

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

3.1. Analisis Data

Data yang digunakan untuk membangun aplikasi Pendeteksian Kesamaan Pada Dokumen Teks ini terdiri dari 3 tabel data utama, yaitu data jurnal, kata dasar, dan stoplist.

3.1.1. Data jurnal

Sumber jurnal dalam penelitian ini diperoleh dari jurnal mahasiswa USU data akses: repositori USU. Jurnal yang digunakan sebanyak 625 buah. Dan sebagai bahan pengujian digunakan 20 jurnal dari prodi Teknologi Informasi dan Ilkom. Jurnal- jurnal tersebut dibagi atas 35 kategori. Database untuk data jurnal dibagi atas 2 tabel, yaitu: a. Tabel Kategori Tabel kategori merupakan tabel yang menyimpan data kategori dari beberapa jurnal. Tabel ini memiliki 2 field, yaitu id dan kategori. Rancangan tabel dapat dilihat pada Tabel 3.1. Tabel 3.1. Tabel Kategori id kategori 1 Agripet 2 Agrisol 3 Analisis Administrasi dan Kebijakan 4 Atrium 5 Bahasa dan Sastra Logat 6 Bearing 7 Ekonomi 8 Englonesian 9 Ensikom 10 Equality id kategori 11 Etnomusikologi 12 Etnovisi 13 Harmoni Sosial 14 Info Kesehatan Masyarakat 15 Jurnal Biologi Sumatera 16 Jurnal Ekonom 17 Jurnal Manajemen Bisnis 18 Jurnal Teknologi Proses 19 Kerabat 20 Komunikasi Penelitian-Humaniora