Clustering Artikel Web Kesehatan Dengan Algoritma Self Organizing Maps

BAB 1
PENDAHULUAN

1.1. Latar Belakang
Dewasa ini segala macam informasi dapat dicari di internet. Salah satunya adalah
informasi tentang kesehatan. Informasi kesehatan yang berhubungan dengan anak tidak
dapat disamakan dengan informasi kesehatan yang berhubungan dengan orang dewasa,
demikian juga sebaliknya. Salah satu metode pengumpulan informasi dari internet dapat
menggunakan web crawler . Web crawler adalah sebuah perangkat lunak yang
digunakan untuk menjelajah serta mengumpulkan halaman-halaman web yang
selanjutnya diindeks oleh mesin pencari (Gatial et al, 2005). Permasalahannya, artikel
web yang dikumpulkan dengan web crawler masih tercampur satu sama lainnya dan
belum terkategorikan. Untuk mengelompokkan artikel web tersebut sesuai dengan
kategori-kategori yang ada maka dibutuhkan clustering artikel hasil dari web crawler .
Clustering atau pengelompokan artikel dengan berbagai bahasa telah banyak

dilakukan dengan beberapa metode. Lee & Yang (2003) menggunakan algoritma SOM
(Self Organizing Maps) untuk clustering terhadap artikel yang berbahasa Cina dan
berbahasa Inggris. Dalam penelitian ini mereka melakukan clustering dengan 2 cara
berbeda. Pertama mereka melakukan clustering terhadap sebuah korpus paralel dan
yang kedua mereka melakukan clustering terhadap sebuah korpus hybrid. Korpus

merupakan kumpulan dari beberapa teks yang dipakai sebagai sumber penelitian.
Yusuf & Priambadha (2013) menggunakan algoritma K-means untuk clustering
artikel yang kemudian diklasifikasikan menggunakan Multi-Class Support Vector
Machine (Multi-Class SVM). Hasil dari penelitian ini menunjukan bahwa metode

tersebut mampu menghasilkan akurasi sebesar 88,1% dan recall sebesar 94,4% dengan
parameter jumlah kelompok sebesar 5. Pengelompokan artikel dengan K-Means
Clustering sebelum melakukan klasifikasi mampu meningkatkan akurasi sebesar 0,5 %

dan recall sebesar 0,4% pada data artikel yang digunakan dibandingkan dengan tanpa

Universitas Sumatera Utara

2

menggunakan algoritma K-means untuk mengelompokkan artikel sebelum klasifikasi.
Husni et al (2015) menggunakan algortima K-Means untuk clustering berita web
berbahasa Indonesia. Artikel berita berhasil dikelompokan secara otomatis sesuai
dengan derajat kesamaan berita sehingga menjadi kelompok artikel berita yang
terstruktur dengan diperoleh nilai rata-rata F-Measure 0.6129. Jumlah cluster dengan

nilai puritas terbaik 0.75475 adalah 2 cluster .
Suryaningsih (2015) menggunakan algoritma SOM (Self Organizing Maps) untuk
clustering abstrak pada sebuah penelitian. Pada penelitian ini jumlah cluster ditentukan

sebanyak 81 cluster . Dari 81 cluster , 9 cluster tidak memiliki tema dan 4 cluster tidak
terisi oleh artikel. Tema yang ada pada setiap cluster dianalisis secara manual setelah
cluster tersebut diisi oleh artikel.

Penelitian yang telah dilakukan sebelumnya memiliki beberapa kelemahan yakni
input yang diambil masih hanya berupa abstrak yang merupakan gambaran kecil dari

suatu artikel jurnal. Hasil dari clustering yang dilakukan dengan algoritma SOM pada
penelitian sebelumnya ditemukan cluster yang tidak dapat ditentukan temanya. Pada
penelitian-penelitian sebelumnya, term yang dijadikan parameter pada proses clustering
masih hanya berupa kata tunggal sementara pada bahasa Indonesia banyak terdapat kata
mejemuk yang apabila dipisah maka akan memiliki arti yang berbeda dari kata tunggal
pembangunnya.
Untuk mengatasi kelemahan-kelemahan yang terdapat pada penelitian sebelumnya,
penulis mencoba untuk melakukan penelitian mengenai clustering artikel web
kesehatan dengan menggunakan metode Self Organizing Maps. Dari latar belakang

diatas maka penulis mengajukan proposal penelitian dengan judul “CLUSTERING
ARTIKEL WEB KESEHATAN DENGAN MENGGUNAKAN ALGORITMA SELF
ORGANIZING MAPS”.

1.2. Rumusan Masalah
Artikel web kesehatan hasil pengumpulan dengan web crawler masih belum
terkategorikan dengan baik sehingga terdapat masalah dalam membedakan artikel
kesehatan berdasarkan kelompok usia yang ditujukan dan topiknya. Sebagai contoh
artikel kesehatan dapat dikategorikan menjadi artikel kesehatan yang berhubungan
dengan anak dan artikel kesehatan umum. Selanjutnya dari artikel-artikel pada setiap
kategori ini masih dapat dikelompokkan lagi sesuai topiknya. Berdasarkan hal ini, maka

Universitas Sumatera Utara

3

rumusan masalah pada penelitian ini adalah bagaimana penerapan algoritma Self
Organizing

Maps


untuk clustering artikel web kesehatan sehingga dapat

terkelompokkan sesuai dengan kategori yang ada.

1.3. Tujuan Penelitian
Tujuan penelitian ini adalah untuk clustering artikel hasil dari web crawler menjadi
beberapa kategori tertentu berdasarkan isi artikel dengan algoritma Self Organizing
Maps.

1.4. Batasan Masalah
Untuk menghindari perluasan dan penyimpangan yang tidak diperlukan, maka penulis
membuat batasan sebagai berikut:
1. Hanya menangani artikel kesehatan teks berbahasa Indonesia
2. Tidak menangani kesalahan penulisan kata
3. Kata majemuk yang dapat dideteksi maksimal terdiri dari tiga kata

1.5. Manfaat penelitian
Manfaat yang diperoleh dari penelitian ini adalah otomatisasi pengkategorian artikel
kesehatan hasil dari web crawler .


1.6. Metodologi Penelitian
Tahapan-tahapan yang dilakukan selama penelitian adalah sebagai berikut:
1. Studi Literatur
Studi literatur dilakukan untuk pengumpulan bahan referensi mengenai text preprocessing, TF-IDF (Term Frequency-Inverse Document Frequency), automatic
keyphrase extraction, algoritma stemming Nazief & Andriani, jaringan saraf tiruan,

dan SOM (Self Organizing Maps) dari beberapa jurnal, artikel, buku, dan beberapa
sumber referensi lainnya.

2. Analisis Permasalahan
Pada tahap ini dilakukan analisis terhadap studi literatur yang telah dikumpulkan
pada tahap sebelumnya untuk mendapatkan pemahaman mengenai metode-metode
yang diterapkan seperti TF-IDF (Term Frequency-Inverse Document Frequency),

Universitas Sumatera Utara

4

SOM (Self Organizing Maps), serta masalah yang akan diselesaikan yaitu

pengelompokan artikel kesehatan hasil web crawler sesuai usia yang ditujukan dan
topiknya.
3. Perancangan
Pada tahap ini dilakukan perancangan arsitektur, pengumpulan data, serta
perancangan antarmuka. Proses perancangan dilakukan berdasarkan hasil dari
analisis studi literatur yang telah diperoleh.
4. Implementasi
Pada tahap ini dilakukan implementasi ke dalam kode sesuai dengan analisis dan
perancangan yang telah dilakukan pada tahap sebelumnya.
5. Pengujian
Pada tahap ini dilakukan pengujian terhadap hasil yang didapatkan melalui
implementasi algoritma SOM (Self Organizing Maps) dalam melakukan clustering
artikel web untuk memastikan bahwa hasil clustering yang dilakukan sudah sesuai.
6. Dokumentasi dan Penyusunan Laporan
Pada tahap ini dilakukan dokumentasi dan penyusunan laporan hasil evaluasi dan
analisis serta implementasi algoritma SOM (Self Organizing Maps ) dalam
melakukan clustering artikel web.

1.7. Sistematika Penulisan
Sistematika penulisan dari skripsi ini terdiri atas lima bagian utama sebagai berikut:


Bab 1: Pendahuluan
Bab ini berisi latar belakang dari penelitian yang dilaksanakan, rumusan masalah, tujuan
penelitian, batasan masalah, manfaat penelitian, metodologi penelitian, serta
sistematika penulisan.

Bab 2: Landasan Teori
Bab ini berisi teori-teori yang diperlukan untuk memahami permasalahan yang dibahas
pada penelitian ini. Teori-teori yang berhubungan dengan text mining, text preprocessing, TF-IDF (Term Frequency-Inverse Document Frequency), automatic
keyphrase extraction, algoritma stemming Nazief & Andriani, jaringan saraf tiruan, dan

SOM (Self Organizing Maps) akan dibahas pada bab ini.

Universitas Sumatera Utara

5

Bab 3: Analisis dan Perancangan
Bab ini akan menjabarkan arsitektur umum, langkah text pre-processing yang
dilakukan, proses term weighting dengan metode TFIDF, proses keyphrase extraction,

serta analisis dan penerapan algoritma SOM (Self Organizing Maps) dalam melakukan
clustering artikel web hasil dari web crawler .

Bab 4: Implementasi dan Pengujian
Bab ini berisi pembahasan tentang implementasi dari perancangan yang telah
dijabarkan pada bab 3. Selain itu, hasil yang didapatkan selama proses yang terjadi pada
penelitian juga dijabarkan pada bab ini.

Bab 5: Kesimpulan dan Saran
Bab ini berisi ringkasan serta kesimpulan dari rancangan yang telah dibahas pada bab
3, serta hasil penelitian yang dijabarkan pada bab 4, serta pada bagian akhir bab ini akan
berisi saran-saran yang diajukan untuk pengembangan penelitian selanjutnya.

Universitas Sumatera Utara