2.7. Penelitian Terdahulu
Lee Yang 2003 menggunakan algoritma SOM untuk clustering terhadap corpus paralel yang berisi bahasa campuran yaitu bahasa Cina dan bahasa Inggris. Jaringan self
organizing maps yang dibangun memiliki 16 neuron dalam format 4x4 untuk melakukan eksperimen pada 18 artikel berbahasa Cina dan 18 artikel berbahasa Inggris.
Kemudian clustering dilakukan terhadap corpus hybrid, pada percobaan ini mereka menggunakan jaringan self organizing maps yang berisi 36 neuron dalam forma 6x6
untuk melakukan eksperimen pada 58 artikel berbahasa Cina dan 58 artikel berbahasa Inggris.
Yusuf Priambadha 2013 menggunakan algoritma K-means untuk mengelompokan artikel yang kemudian diklasifikasikan menggunakan multi-class
Support Vector Machines SVM. Hasil dari penelitian ini menunjukkan bahwa metode yang diusulkan mampu meningkatkan akurasi dengan menghasilkan akurasi sebesar
88,1 presisi sebesar 96,7 dan recall sebesar 94,4 dengan parameter jumlah kelompok sebesar 5 dibandingkan dengan tanpa menggunakan algoritma K-means
untuk mengelompokkan artikel sebelum klasifikasi. Husni et al 2015 menggunakan algortima K-Means untuk clustering berita web
berbahasa Indonesia. Proses text pre-processing pada penelitian ini tidak menggunakan stemming. Artikel berita berhasil dikelompokan secara otomatis sesuai dengan derajat
kesamaan berita sehingga menjadi kelompok artikel berita yang terstruktur dengan diperoleh nilai rata-rata F-Measure 0.6129. Jumlah cluster dengan nilai puritas terbaik
0.75475 adalah 2 cluster. Suryaningsih 2015 menggunakan algoritma SOM untuk clustering abstrak pada
sebuah penelitian. Namun dalam penelitian ini Suryaningsih menggunakan metode TF- IDF untuk menghitung bobot kata kunci dalam setiap artikel. Pada penelitian ini
ditetapkan jumlah iterasi sebesar 1000, learning rate 0.1, serta jumlah cluster yang dibuat memiliki ukuran 9x9 grid. Proses clustering akan mengelompokkan artikel yang
memiliki banyak kemiripan term menjadi satu.
Universitas Sumatera Utara
Tabel 2.3. Penelitian Terdahulu No
Peneliti Tahun
Metode Keterangan
1 Lee Yang
2003 Self
Organizing Maps
Clustering artikel berbahasa
cina dan inggris
Melakukan 3 percobaan pada artikel bahasa Cina, bahasa
Inggris dan campuran antara bahasa Cina dan bahasa Inggris
Hasil
pengelompokan menunjukkan
bahwa pengelompokan
didasarkan atas
kesamaan penulisan
dibandingkan kesamaan makna 2
Yusuf Priambadha
2013 K-Means
Clustering
K-Means pada penelitian ini melakukan inisialisasi centroid
dengan menggunakan
pengukuran Jaccard Distance
Pengelompokan artikel dengan K-Means Clustering sebelum
melakukan klasifikasi dapat meningkatkan akurasi sebesar
0.5 dan recall sebesar 0.4
3 Husni et al
2015 K-Means
Clustering
Menggunakan TF-IDF untuk pembobotan
Tidak menggunakan stemming
pada proses text pre-processing
Jumlah cluster dengan nilai puritas terbaik 0.75475 adalah
2 cluster.
4 Suryaningsih
2015 Self
Organizing Maps
Artikel input berupa abstrak
dari skripsi
Nilai TF-IDF yang didapatkan dilakukan normalisasi dengan
algoritma Min
Max Normalization
Algoritma
SOM yang
digunakan membentuk
81 cluster
9
dari 81
cluster yang
terbentuk memiliki tema yang tidak dapat didefinisikan
4
dari 81
cluster yang
terbentuk tidak terisi oleh artikel
Universitas Sumatera Utara
Perbedaan penelitian yang dilakukan dengan penelitian terdahulu adalah penelitian ini berfokus kepada clustering artikel web kesehatan dan pengelompokkan yang lebih
khusus dengan berusaha untuk mendapatkan multi-word expression dari kata-kata yang berkaitan dengan kesehatan. Adapun metode yang diimplementasikan dalam penelitian
ini adalah sebagai berikut:
Melakukan text pre-processing untuk mendapatkan data teks yang sesuai dimana hal ini bertujuan untuk mempercepat proses dan meningkatkan akurasi pada saat
proses automatic keyphrase extraction dan proses clustering. Pada tahap stemming di proses text pre-processing ini menggunakan algoritma stemmer Nazief-
Andriani.
Menghitung nilai bobot kata dengan metode TF-IDF untuk proses automatic keyphrase extraction dan sebagai data masukkan pada proses clustering.
Menggunakan algoritma Self Organizing Maps untuk melakukan clustering artikel
web kesehatan hasil dari crawler.
Universitas Sumatera Utara
BAB 1 PENDAHULUAN