Implementasi Algoritma Winnowing Dan Porter Stemmer Mendeteksi Kemiripan Dua Dokumen Berbasis Web

IMPLEMENTASI ALGORITMA WINNOWING DAN PORTER
STEMMER MENDETEKSI KEMIRIPAN DUA DOKUMEN
BERBASIS WEB

SKRIPSI

LIDIA ARTA FERARI
081401077

PROGRAM STUDI S1 ILMU KOMPUTER
DEPARTEMEN ILMU KOMPUTER
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2014

Universitas Sumatera Utara

IMPLEMENTASI ALGORITMA WINNOWING DAN PORTER
STEMMER MENDETEKSI KEMIRIPAN DUA DOKUMEN
BERBASIS WEB

SKRIPSI

Diajukan untuk melengkapi tugas akhir dan memenuhi syarat mencapai gelar
Sarjana Komputer

LIDIA ARTA FERARI
081401077

PROGRAM STUDI SARJANA ILMU KOMPUTER
DEPARTEMEN ILMU KOMPUTER
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMATIKA
UNIVERSITAS SUMATERA UTARA
MEDAN
2014

Universitas Sumatera Utara

PERSETUJUAN

Judul


: IMPLEMENTASI ALGORITMA WINNOWING
DAN PORTER STEMMER MENDETEKSI
KEMIRIPAN DUA DOKUMEN BERBASIS WEB

Kategori
Nama
NomorIndukMahasiswa
Program Studi
Departemen
Fakultas

:
:
:
:
:
:

SKRIPSI

LIDIA ARTA FERARI
081401077
SARJANA (S1) ILMU KOMPUTER
ILMU KOMPUTER
ILMU
KOMPUTER
DAN
INFORMASI

TEKNOLOGI

Diluluskan di
Medan, Agustus 2014
Komisi Pembimbing

:

Pembimbing 2

Pembimbing 1


Drs. Marihat Situmorang, M.Kom
NIP. 196312141986031001

NIP. 197103101997031004

Syahriol Sitorus, S.Si, MIT

Diketahui/Disetujui oleh
Program Studi S1 IlmuKomputer
Ketua,

Dr. Poltak Sihombing, M.Kom
NIP. 196203171991031001

Universitas Sumatera Utara

PERNYATAAN

IMPLEMENTASI ALGORITMA WINNOWING DAN PORTER STEMMER

MENDETEKSI KEMIRIPAN DUA DOKUMEN
BERBASIS WEB

SKRIPSI

Saya menyatakan bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa
kutipan dan ringkasan yang masing-masing disebutkan sumbernya.

Medan,

Agustus 2014

Lidia Arta Ferari
081401077

Universitas Sumatera Utara

PENGHARGAAN
Puji dan syukur penulis ucapkan kepada Tuhan Yang Maha Kuasa atas segala berkat
dan kasih karuniaNya sehingga penulis dapat menyelesaikan penyusunan skripsi ini,

sebagai syarat untuk memperoleh gelar Sarjana Komputer, pada Program Studi S1
Ilmu Komputer Departemen Ilmu Komputer Universitas Sumatera Utara.
Ucapan terima kasih penulis sampaikan kepada :
1. Bapak Dr. Poltak Sihombing, M.Kom, selaku Ketua Departemen Ilmu
Komputer Universitas Sumatera Utara.
2. Ibu Maya Silvi Lydia, B.Sc, M.Sc, selaku Sekretaris Departemen Ilmu
Komputer Universitas Sumatera Utara
3. Dekan dan Pembantu Dekan Fakultas Ilmu Komputer dan Teknologi
Informasi Universitas Sumatera Utara, semua dosen pada Departemen Ilmu
Komputer Fasilkom-TI USU, dan pegawai di Ilmu Komputer Fasilkom-TI
USU.
4. Bapak Syahriol Sitorus, S.Si, MIT dan bapak Drs. Marihat Situmorang,
M.Kom selaku pembimbing skripsi yang telah banyak memberikan
bantuan, arahan, petunjuk, serta kesabaran dalam pengerjaan skripsi ini.
5. Bapak Prof. Dr. Muhammad Zarlis dan bapak Dr. Poltak Sihombing,
M.Kom selaku pembanding skripsi yang telah banyak memberikan kritik
dan saran serta arahan dalam pengerjaan skripsi ini.
6. Papa dan mama kami tercinta, Nukman Siahaan dan Erline Madeline
Listerine Hutagaol untuk semua keringat dan jerih payah yang begitu tulus.
7. Zonny Mega Siahaan beserta keluarga, Yannuke Patricia Siahaan beserta

keluarga, Sephilda Kristi Siahaan beserta keluarga, Decerwin Charsten
Benediksta Siahaan, untuk semua dukungan hebatnya.
8. Hawe Numerouno yang telah memberi semangat di setiap kondisi.
9. Seluruh teman-teman Program Studi S1 Ilmu Komputer Departemen Ilmu
Komputer Universitas Sumatera Utara yang telah memberikan bantuan dan
dukungan selama penulisan skripsi ini.
Semoga Tuhan Yang Maha Kuasa memberikan berkat yang berlimpah
kepada semua pihak yang telah memberikan bantuan, perhatian, serta dukungan
kepada penulis dalam menyelesaikan skripsi ini.
Medan,
Penulis

Agustus 2014

Lidia Arta Ferari Siahaan

Universitas Sumatera Utara

IMPLEMENTASI ALGORITMA WINNOWING DAN PORTER STEMMER
MENDETEKSI KEMIRIPAN DUA DOKUMEN

BERBASIS WEB

ABSTRAK

Skripsi ini membahas tentang perancangan aplikasi penerapan algoritma Stemmer
Porter dan Winnowing. Penelitian yang dilakukan bertujuan untuk mengetahui tingkat
kemiripan antara satu file dengan file yang lain. Stemmer Porter merupakan suatu
algoritma yang pertama kali ditemukan oleh Martin Porter pada tahun 1980
untuk stemming bahasa inggris, kemudian karena proses stemming bahasa inggris
berbeda dengan bahasa indonesia maka, dikembangkan algoritma porter khusus
untuk bahasa indonesia (Porter Stemmer for Bahasa Indonesia) oleh W.B. Frakes pada
tahun 1992. Stemming adalah salah satu cara yang digunakan untuk meningkatkan
performa IR dengan cara mentransformasi kata-kata dalam sebuah dokumen teks ke
kata dasarnya. Sedangkan winnowing sendiri merupakan Algoritma Winnowing
merupakan algoritma yang digunakan untuk deteksi tingkat kemiripan file. Dengan
menggunakan kedua algoritma ini diharapkan mampu mengetahui tingkat kemiripan
satu file dengan yang lain.
Kata kunci: Kemiripan file, Stemmer Porter, Winnowing.

Universitas Sumatera Utara


IMPLEMENTATION WINNOWING ALGORITHM AND PORTER
STEMMER DETECT TWO DOCUMENT SIMILARITY
WEB-BASED
ABSTRACT

This thesis discusses the application design and implementation Winnowing Porter
Stemmer algorithm. Research conducted aimed to determine the degree of similarity
between a file with another file. Porter Stemmer is an algorithm that was first
discovered by Martin Porter in 1980 for stemming English, and because the process is
different from English Stemming Indonesian then, algorithms developed specifically
for Indonesian porter (Porter Stemmer for Indonesian) by WB Frakes in 1992.
Stemming is one of the means used to improve the performance of the IR by
transforming the way the words in a text document to word basically. While
Winnowing Winnowing algorithm itself is an algorithm used for file similarity
detection. By using the two algorithms is expected to determine the level of similarity
of one file to another.

Keyword: Similarities files, Porter Stemmer, Winnowing.


Universitas Sumatera Utara

DAFTAR ISI

Halaman
Persetujuan
Pernyataan
Penghargaan
Abstrak
Abstract
Daftar Isi
Daftar Tabel
Daftar Gambar
Daftar Lampiran
Bab 1 Pendahuluan
1.1 Latar Belakang
1.2 Rumusan Masalah
1.3 Batasan Masalah
1.4 Tujuan Penelitian
1.5 Manfaat Penelitian

1.6 Metodologi Penelitian
1.7 Sistematika Penulisan

ii
iii
iv
v
vi
vii
x
xi
xiii
1
1
3
3
3
4
4
5

Bab 2 LandasanTeori
2.1 Pengertian Stemming
2.2 Stemming Porter
2.3 Winnowing
2.3.1 Hashing
2.3.2 K-gram
2.4 Jaccard’s Similarity Coefficient

7
7
8
16
17
18
19

Bab 3 Analisis dan Perancangan Sistem
3.1 Analisis Sistem
3.2 Analisis Masalah
3.3 Analisis Persyaratan (Requirement Analysis)

20
20
20
21

Universitas Sumatera Utara

3.3.1 Analisis persyaratan fungsional

22

3.3.2 Analisis persyaratan non-fungsional

22

3.4 Pemodelan Sistem dengan Usecase dan Activity Diagram
3.5 Perancangan Algoritma
3.5.1 Flow chart porter
3.5.2 Flow chart Winnowing
3.5.3 Algoritma Stemmer Porter
3.5.4 Algoritma Winnowing
3.5.5 Penghitungan kemiripan
3.6 Perancangan Sistem
3.6.1 Perancangan antar muka form home
3.6.2 Perancangan antar muka form journal
3.6.3 Perancangan antar muka form similarity
3.6.4 Perancangan antar muka form about

23
28
28
30
31
38
41
42
43
44
45
46

Bab 4 Implementasi dan Pengujian Sistem
4.1 Implementasi Sistem
4.1.1 Tampilan halaman form home (awal)
4.1.2 Tampilan halaman form journal
4.1.3 Tampilan halaman form similarity
4.1.4 Tampilan halaman form about
4.2 Pengujian Sistem
4.2.1 Pengujian Sistem Pilih File
4.2.2 Pengujian Hasil Proses Pilih File

47
47

Bab 5 Kesimpulan dan Saran
5.1 Kesimpulan
5.2 Saran

65
65
66

DaftarPustaka

67

49
50
51
52
52
59

Universitas Sumatera Utara

DAFTAR TABEL

Nomor
Tabel
2.1

Nama Tabel

Halaman

Kelompok rule pertama : inflectional particles

9

2.2

Kelompok rule kedua :inflectional possesive pronouns

9

2.3

Kelompok rule ketiga: first order of derivational prefixes

10

2.4

Kelompok rule keempat: second order of derivational
prefixes

10

2.5

Kelompok rule kelima: derivational suffixes

11

3.1

Usecase Penghitungan Kemiripan File

24

3.2

Kombinasi Awalan Akhiran Yang Tidak Diijinkan

31

3.3

Cara Menentukan Tipe Awalan Untuk awalan “te-”

31

3.4

Jenis Awalan Berdasarkan Tipe Awalannya

32

Universitas Sumatera Utara

DAFTAR GAMBAR

Nomor
Gambar
2.1
2.2
2.3
3.1
3.2
3.3

Nama Gambar

Halaman

Diagram Stemming
Flowchart Stemmer Porter
Persamaan Winnowing
Diagram Ishikawa
Usecase Diagram
Activity Diagram

12
14
17
21
23
26

3.4

Sequence Diagram

27

3.5

Flow Chart Stemmer Porter

29

Universitas Sumatera Utara

3.6
3.7
3.8
3.9
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9

Flow chart Winnowing
Tampilan Form Home
Tampilan Form Journal
Tampilan Form Similarity
Form Home
Form Journal
Form Similarity
Form About
Tampilan hasil open file jurnal
Tampilan hasil pilih file
Tampilan Show Content
Tampilan hasil proses
Tampilan hasil fingerprint judul

30
43
44
45
48
49
50
51
52
53
54
55
56

4.10

Tampilan hasil fingerprint isi

57

4.11

Tampilan hasil kemiripan jurnal

58

Universitas Sumatera Utara