Implementasi Algoritma Winnowing Dan Porter Stemmer Mendeteksi Kemiripan Dua Dokumen Berbasis Web

BAB 1

PENDAHULUAN

1.1 Latar Belakang

Pemanfaatan kecanggihan di jaman globalisasi menjadi salah satu hal yang sangat
penting dalam

penggunaan di kehidupan sehari-hari. Pemanfaatan-pemanfaatan

teknologi dalam kehidupan sehari-hari adalah untuk

mencari, mengolah, atau

dapat juga menyimpan informasi dengan menggunakan kecanggihan komputer.
Informasi yang diperoleh biasanya berupa dokumen teks. Kemudahan mengakses
informasi dalam berupa dokumen teks bisa menimbulkan sifat manusia yang negatif,
yaitu dengan meniru atau mencontoh hasil karya orang lain melebihi batas normal
tolerir. Jika hanya mencontoh sedikit bagian atau mengutip untuk dijadikan referensi
mungkin tidak begitu masalah. Namun banyak juga kasus tingkat kemiripan dua

dokumen tersebut bisa sama hampir sepenuhnya. Kita dapat mengetahui berapa
tingkat kemiripan antara dua dokumen yang di sinyalir memiliki kesamaan dengan
bantuan suatu sistem.
Untuk mengatasi masalah yang marak tersebut, dibutuhkan aplikasi untuk
mendeteksi tingkat kesamaan suatu dokumen. Pada penelitian ini, menggunakan
algoritma Winnoning dan Porter Stemmer guna mendeteksi berapa persentase tingkat
kemiripan antara dua dokumen. Stemming sendiri merupakan suatu proses untuk
menemukan kata dasar dari sebuah kata. Stemming adalah salah satu cara yang

Universitas Sumatera Utara

digunakan untuk meningkatkan performa IR dengan cara mentransformasi kata-kata
dalam sebuah dokumen teks ke kata dasarnya. Algoritma Stemming untuk bahasa
yang satu berbeda dengan algoritma stemming untuk bahasa lainnya.

Contoh salah satu Stemming adalah Stemming Porter. Algoritma Porter ditemukan
oleh Martin Porter 1980. Algoritma tersebut digunakan untuk stemming bahasa
inggris, kemudian karena proses stemming bahasa inggris berbeda dengan bahasa
indonesia


maka,

dikembangkan

algoritma

porter

khusus

untuk

bahasa

indonesia (Porter Stemmer for Bahasa Indonesia) oleh W.B. Frakes pada tahun 1992.
untuk pendeteksian kesamaan dokumen itu sendiri menggunakan algoritma
Winnowing. Winnowing adalah suatu algoritma yang dipakai untuk melakukan proses
pengecekkan kesamaan suatu kata (document fingerprinting).

Winnowing menggunakan window sebagai metodenya, yaitu pembentukan

window setelah proses hashing.. Nilai hash sendiri merupakan nilai numerik yang
terbentuk dari perhitungan ASCII tiap karakter. Setelah pembentukan window yang
berisi nilai-nilai hash, maka dipilih nilai hash yang paling kecil dari setiap
window. Jika ada lebih dari satu nilai yang paling kecil di proses Windowing,
maka nilai yang terkecil pada window sebelumnya itu dipilih untuk dijadikan
document’s

fingerprints.

Fingerprints

inilah

yang

akan

dijadikan dasar

pembanding antar file-file teks yang telah dimasukkan, sehingga dapat diketahui

berapa persentasi kemiripan dua dokumen tersebut.

Universitas Sumatera Utara

1.2 Rumusan Masalah
Jurnal mahasiswa pada program studi S1 Ilmu Komputer Fasilkom TI USU yang
memiliki ekstensi (.pdf), akan dicek tingkat kemiripan dari judul antar jurnal,
sehingga didapatkan nilai kemiripan pada setiap jurnal. Setelah itu, dihitung
kemiripan dari isi jurnal yang di indikasikan sama. Sebelum dihitung tingkat
kemiripan, maka teks pada jurnal, akan dilakukan proses stemming, yaitu
penghapusan imbuhan. Teks yang digunakan untuk proses penghitungan tingkat
kemiripan adalah teks yang sudah dilakukan proses stemming. Bahasa pemrograman
yang digunakan adalah PHP dengan menggunakan database MySql .

1.3 Batasan Masalah
Yang menjadi batasan masalah dalam penelitian ini ialah;
1. Data digunakan adalah jurnal mahasiswa S1 Ilmu Komputer Fasilkom TI USU
yang berbahasa Indonesia
2. File yang akan di input adalah berekstensi (.pdf) yang tidak di kunci dan bukan
hasil scann.

3. Pengindikasian kemiripan dilihat dari judul jurnal tersebut.
4. Algoritma yang digunakan adalah algoritma Winnowing dan Porter Stemmer.
5. Aplikasi yang dibuat menggunakan Bahasa Pemrograman PHP.
6. Database menggunakan MySql.

Universitas Sumatera Utara

1.4 Tujuan Penelitian
Tujuan penelitian ini adalah sebagai berikut:
1. Untuk merancang suatu aplikasi yang dapat memisahkan kalimat dalam bahasa
Indonesia menjadi beberapa suku kata yang sesuai dengan kata dasarnya.
2. Untuk mengimplementasikan algoritma Winnowing dan Stemming Potter dalam
pendeteksian kemiripan dua dokumen.

1.5 Manfaat Penelitian

Manfaat penelitian ini adalah untuk mengetahui sejauh mana kemiripan satu dokumen
dengan dokumen yang lain, dengan cara memisahkan sesuai kata dasarnya. Algoritma
Stemming Potter sendiri untuk memisahkan sesuai suku kata nya. Sehingga dapat
diketahui kata asli nya. Dan Winnowing melakukan proses pengecekkan kesamaan

suatu kata (document fingerprinting). Dengan adanya penelitian seperti ini, diharapkan
dapat mengetahui kecurangan-kecurangan yang terjadi, sehingga para oknum jera dan
tidak ada lagi yang berani atau tega menjiplak hasil karya orang tanpa seijin dari orang
tersebut .

1.6 Metodologi Penelitian

Tahapan yang dilakukan dalam penelitian ini adalah:
1. Studi Literatur
Pada tahap ini, mempelajari buku-buku referensi atau sumber-sumber yang
berkaitan dengan skripsi ini, baik dari text book maupun internet.

Universitas Sumatera Utara

2. Perancangan Sistem
Pada tahap ini akan di susun perancangan sistem dengan menerapkan
algoritma Stemming Potter sebagai algoritma stemmer untuk pendeteksian
kemiripan dokumen.
3. Implementasi Sistem
Tahap ini merupakan tahap pengimplementasian sistem yang telah dibangun

ke dalam bahasa pemrograman.
4. Pengujian dan Penganalisaan Sistem
Dalam tahap ini dilakukan pengujian aplikasi yang sudah dibangun.
5. Pembuatan laporan skripsi bertujuan untuk dijadikan sebagai dokumentasi
hasil

penelitian.

6. Penyusunan Laporan
7. Menyusun laporan hasil analisis dan perancangan kedalam bentuk format
skripsi.

1.7 Sistematika Penulisan

Sistematika penulisan dalam penyusunan tulisan ini adalah sebagai berikut :

Bab 1

: Pendahuluan


Membahas tentang Latar Belakang, Identifikasi Masalah, Rumusan Masalah,
Batasan Masalah, Tujuan Penelitian, Manfaat Penelitian, Metodologi Penelitian
dan Sistematika Penulisan.
Bab 2

: Landasan Teori

Universitas Sumatera Utara

Membahas tentang teori-teori yang berkaitan dengan information retrieval, natural
language processing, dan sistem penghitung kemiripan file.
Bab 3

: Analisa dan Perancangan

Bab ini mendeskripsikan fase-fase awal dalam pengembangan suatu sistem,
sehingga terdapat gambaran yang jelas terhadap sistem yang akan dibangun.

Bab 4


: Implementasi dan Pengujian

Bab ini akan membahas tentang hasil dari pengimplementasian analisa yang sudah
dirancang sebelumnya, sehingga pada bab ini akan ditampilkan perancangan antar
muka serta pengujiannya.

Bab 5

: Kesimpulan dan Saran

Bab terakhir akan memuat kesimpulan isi dari keseluruhan uraian bab-bab
sebelumnya dan saran-saran dari hasil yang diperoleh dan diharapkan dapat
bermanfaat dalam pengembangan selanjutnya.

Universitas Sumatera Utara