Clustering Artikel Web Kesehatan Dengan Algoritma Self Organizing Maps

CLUSTERING ARTIKEL WEB KESEHATAN DENGAN

ALGORITMA SELF ORGANIZING MAPS

SKRIPSI

INDRA CHARISMA
121402088

PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2016

Universitas Sumatera Utara

CLUSTERING ARTIKEL WEB KESEHATAN DENGAN

ALGORITMA SELF ORGANIZING MAPS


SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Sarjana Teknologi Informasi

INDRA CHARISMA
121402088

PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2016

Universitas Sumatera Utara

i

PERSETUJUAN


Judul

: CLUSTERING ARTIKEL WEB KESEHATAN
DENGAN ALGORITMA SELF ORGANIZING MAPS

Kategori

: SKRIPSI

Nama

: INDRA CHARISMA

Nomor Induk Mahasiswa

: 121402088

Program Studi

: S1 TEKNOLOGI INFORMASI


Departemen

: TEKNOLOGI INFORMASI

Fakultas

: FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI
INFORMASI

Komisi Pembimbing

:

Pembimbing 2

Pembimbing 1

Amalia, ST., M.T


Dani Gunawan, ST., M.T

NIP. 19791221 201404 2 001

NIP. 19820915 201212 1 002

Diketahui/disetujui oleh
Program Studi S1 Teknologi Informasi
Ketua,

Muhammad Anggia Muchtar, ST., MM.IT
NIP. 19800110 200801 1 010

Universitas Sumatera Utara

ii

PERNYATAAN

CLUSTERING ARTIKEL WEB KESEHATAN DENGAN


ALGORITMA SELF ORGANIZING MAPS

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa
kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 27 Agustus 2016

Indra Charisma
121402088

Universitas Sumatera Utara

iii

UCAPAN TERIMA KASIH

Puji dan syukur penulis sampaikan ke hadirat Allah SWT yang telah memberikan

rahmat serta restu-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat
untuk memperoleh gelar Sarjana.
Pertama, penulis ingin mengucapkan terima kasih kepada Bapak Dani Gunawan,
ST., M.T selaku pembimbing pertama dan Ibu Amalia, ST., M.T selaku pembimbing
kedua yang telah meluangkan waktu serta tenaganya untuk membimbing penulis dalam
penelitian serta penulisan skripsi ini. Tanpa inspirasi serta motivasi yang diberikan dari
kedua pembimbing, tentunya penulis tidak akan dapat menyelesaikan skripsi ini.
Penulis juga mengucapkan terima kasih kepada Bapak Prof. Dr. Opim Salim Sitompul,
M.Sc sebagai dosen pembanding pertama dan Ibu Dr. Elviawaty Muisa Zamzami, ST.,
M.T, M.M, sebagai dosen pembanding kedua yang telah memberikan masukan serta
kritik yang bermanfaat dalam dalam penulisan skripsi ini. Ucapan terima kasih juga
ditujukan kepada semua dosen serta pegawai di lingkungan Fakultas Ilmu Komputer
dan Teknologi Informasi yang telah membantu serta membimbing penulis selama
proses perkuliahan.
Penulis tentunya tidak lupa berterima kasih kepada kedua orang tua penulis, yaitu
Bapak Tiharman dan Ibu Elmida, S.Pd.I yang telah membesarkan penulis dengan sabar
dan penuh kasih sayang, serta doa dan dukungan berupa moral maupun materiil yang
selalu menyertai selama ini. Penulis juga berterima kasih kepada seluruh anggota
keluarga penulis yang namanya tidak dapat disebutkan satu persatu.
Terima kasih juga penulis ucapkan kepada teman-teman yang telah memberikan

dukungan dan bantuan selama masa perkuliahan ini, khususnya Yana Trisha Andini
Harahap, Atras Najwan, Maliki Khoirul, Daniel Bonoffi, Imam Muttaqin, M. Wardana,
Reza Ramadiansyah, Joko Kurnianto, Reza Taqyuddin serta seluruh teman-teman
mahasiswa Teknologi Informasi lainnya yang namanya tidak dapat disebutkan satu
persatu.

Universitas Sumatera Utara

iv

ABSTRAK

Web harvesting dari sebuah mesin web crawler untuk artikel kesehatan berbahasa
Indonesia dapat menjadi sumber informasi kesehatan yang cost-effective di Indonesia.
Agar dapat dimanfaatkan secara optimal seperti untuk machine learning, maka
beberapa tahapan harus dilakukan seperti text pre-processing dan clustering
berdasarkan topiknya. Pada penelitian ini metode yang digunakan terbagi menjadi
empat tahapan. Tahapan pertama yaitu text pre-processing yang terdiri dari tokenizing,
case-folding, filtering, phrase detection, dan stemming. Tahapan kedua yaitu


pembobotan kata dari setiap artikel yang ada dengan menggunakan metode TFIDF.
Tahapan ketiga yaitu ekstraksi kata kunci dari setiap artikel. Tahapan terakhir yaitu
proses clustering dengan algoritma Self Organizing Maps yang dibagi menjadi dua
proses. Proses pertama dari clustering adalah memisahkan artikel kesehatan ke dalam
dua korpus yaitu artikel kesehatan yang berhubungan dengan anak dan artikel kesehatan
umum. Proses kedua clustering yaitu mengelompokkan artikel kesehatan pada setiap
korpus tersebut berdasarkan topiknya. Pada penelitian ini jumlah artikel yang di-cluster
adalah sebanyak 533 artikel. Hasil dari penelitian ini adalah dua korpus baru yang berisi
cluster -cluster sesuai dengan topik pada setiap korpus. Kemudian artikel-artikel yang

memiliki kesamaan term akan berada pada cluster yang sama.

Kata kunci: Text mining, Clustering, TFIDF, Self Organizing Maps, Multiword
Expression

Universitas Sumatera Utara

v

HEALTH WEB ARTICLE CLUSTERING WITH SELF ORGANIZING MAPS

ALGORITHM

ABSTRACT

Web harvesting from a web crawler machine for Indonesian health article can be a costeffective health information source in Indonesia. In order to be optimally used for such
machine learning, then some processes like text pre-processing and clustering have to
be done. The method used in this research divided into four steps. First step is text preprocessing that consist of tokenizing, case folding, filtering, phrase detection, and
stemming. Second step is term weighting for all terms in all articles in corpus using
TFIDF method. Third step is keyphrase extraction from each article. The last step is
clustering with self organizing map algorithm, this step divided by two processes. The
first process of this clustering was to seperate the articles into health article related to
children corpus and general health article corpus. The second process of this clustering
was to categorize article each of corpuses based on its topic. In this reseach, the number
of articles are clustered is 533 articles. The results of this study are two new corpuses
containing clusters according to the topics in each corpus. Then the articles that have
similar terms will be on the same cluster

Keywords: Text mining, Clustering, TFIDF, Self Organizing Maps, Multiword
Expression


Universitas Sumatera Utara

vi

DAFTAR ISI

Hal.
PERSETUJUAN

i

PERNYATAAN

ii

UCAPAN TERIMA KASIH

iii

ABSTRAK


iv

ABSTRACT

v

DAFTAR ISI

vi

DAFTAR TABEL

viii

DAFTAR GAMBAR

ix

BAB 1 PENDAHULUAN

1

1.1. Latar Belakang

1

1.2. Rumusan Masalah

2

1.3. Tujuan Penelitian

3

1.4. Batasan Masalah

3

1.6. Metodologi Penelitian

3

1.7. Sistematika Penulisan

4

BAB 2 LANDASAN TEORI

6

2.1. Text Mining

6

2.2. Text Pre-Processing

6

2.2.1. Tokenizing

6

2.2.2. Case-folding

7

2.2.3. Filtering

7

2.2.4. Phrase Detection

8

2.2.5. Stemming

9

2.3. Algoritma Stemming Nazief Andriani

9

2.4. Automatic Keyphrase Extraction

12

2.5. Term Frequency-Inverse Document Frequency (TF-IDF)

13

Universitas Sumatera Utara

vii

2.6. Self Organizing Maps (SOM)

14

2.7. Penelitian Terdahulu

16

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

19

3.1. Data Acquisition (Pengumpulan data)

19

3.2. Analisis Sistem

20

3.2.1. Text Pre-Processing

21

3.2.2. Term Weighting

24

3.2.3. Keyphrase Extraction

27

3.2.4. Clustering dengan Algoritma Self Organizing Maps

27

3.3 Perancangan Sistem

32

3.3.1. Perancangan sistem bagian belakang (back-end)

32

3.3.2. Perancangan sistem bagian depan (front-end)

32

BAB 4 IMPLEMENTASI DAN PENGUJIAN

34

4.1. Spesifikasi Perangkat Keras dan Perangkat Lunak

34

4.2. Hasil Text Pre-Processing

34

4.3. Keyphrase Extraction

37

4.4. Clustering dengan SOM

38

4.5. Implementasi Sistem Bagian Depan

46

BAB 5 KESIMPULAN DAN SARAN

47

5.1. Kesimpulan

47

5.2. Saran

47

DAFTAR PUSTAKA

49

Universitas Sumatera Utara

viii

DAFTAR TABEL

Tabel 2.1. Tabel Kombinasi Awalan dan Akhiran yang Tidak Diijinkan

10

Tabel 2.2. Tabel Aturan Peluruhan Kata Dasar (Nazief & Adriani, 1996)

10

Tabel 2.3. Penelitian Terdahulu

17

Tabel 3.1. Detail Artikel yang Didapatkan dari Hasil Web Crawler

19

Tabel 3.2. Contoh Artikel Untuk Perhitungan TF-IDF

24

Tabel 3.3. Hasil dari Penghitungan TF

25

Tabel 3.4. Contoh Penghitungan DF

26

Tabel 3.5. Contoh Penghitungan IDF

26

Tabel 3.6. Contoh Penghitungan TF-IDF pada Setiap Artikel

27

Tabel 3.7. Contoh Perhitungan Nilai Vektor Untuk Setiap Artikel

28

Tabel 4.1. Contoh Hasil Dari Keyphrase Extraction

37

Tabel 4.2. Contoh Artikel Hasil dari Proses Awal Clustering

39

Tabel 4.3. Term Parameter pada Proses Akhir Clustering

40

Tabel 4.4. Hasil Percobaan pada Proses Akhir Clustering

41

Tabel 4.5. Contoh Artikel Hasil dari Clustering pada Korpus C0

42

Tabel 4.6. Contoh Artikel Hasil dari Clustering pada Korpus C1

44

Universitas Sumatera Utara

ix

DAFTAR GAMBAR

Gambar 2.1. Proses Tokenizing

7

Gambar 2.2. Proses Case Folding

7

Gambar 2.3. Proses Filtering Stop-Word

8

Gambar 2.4. Proses Phrase Detection

8

Gambar 2.5. Proses Stemming

9

Gambar 3.1. Arsitektur Umum

20

Gambar 3.2. Flowchart Proses Phrase Detection

22

Gambar 3.3. Flowchart Metode Multiwords Expression Candidate

23

Gambar 3.4. Rancangan Sistem Bagian Depan Sistem

33

Gambar 4.1. Artikel yang Belum Dilakukan Text Pre-Processing

35

Gambar 4.2. Hasil Proses Tokenizing dan Case-Folding

36

Gambar 4.3. Hasil Proses Filtering

37

Gambar 4.4. Artikel Hasil Text Pre-Processing

37

Gambar 4.5. Grafik Hasil Pemisahan Artikel pada Proses Awal Clustering

39

Gambar 4.6. Grafik Hasil Clustering pada Korpus C0

41

Gambar 4.7. Grafik Hasil Clustering pada Korpus C1

42

Gambar 4.8. Tampilan Sistem Bagian Depan

46

Universitas Sumatera Utara