Penelitian Terdahulu LANDASAN TEORI

2.7. Penelitian Terdahulu

Lee Yang 2003 menggunakan algoritma SOM untuk clustering terhadap corpus paralel yang berisi bahasa campuran yaitu bahasa Cina dan bahasa Inggris. Jaringan self organizing maps yang dibangun memiliki 16 neuron dalam format 4x4 untuk melakukan eksperimen pada 18 artikel berbahasa Cina dan 18 artikel berbahasa Inggris. Kemudian clustering dilakukan terhadap corpus hybrid, pada percobaan ini mereka menggunakan jaringan self organizing maps yang berisi 36 neuron dalam forma 6x6 untuk melakukan eksperimen pada 58 artikel berbahasa Cina dan 58 artikel berbahasa Inggris. Yusuf Priambadha 2013 menggunakan algoritma K-means untuk mengelompokan artikel yang kemudian diklasifikasikan menggunakan multi-class Support Vector Machines SVM. Hasil dari penelitian ini menunjukkan bahwa metode yang diusulkan mampu meningkatkan akurasi dengan menghasilkan akurasi sebesar 88,1 presisi sebesar 96,7 dan recall sebesar 94,4 dengan parameter jumlah kelompok sebesar 5 dibandingkan dengan tanpa menggunakan algoritma K-means untuk mengelompokkan artikel sebelum klasifikasi. Husni et al 2015 menggunakan algortima K-Means untuk clustering berita web berbahasa Indonesia. Proses text pre-processing pada penelitian ini tidak menggunakan stemming. Artikel berita berhasil dikelompokan secara otomatis sesuai dengan derajat kesamaan berita sehingga menjadi kelompok artikel berita yang terstruktur dengan diperoleh nilai rata-rata F-Measure 0.6129. Jumlah cluster dengan nilai puritas terbaik 0.75475 adalah 2 cluster. Suryaningsih 2015 menggunakan algoritma SOM untuk clustering abstrak pada sebuah penelitian. Namun dalam penelitian ini Suryaningsih menggunakan metode TF- IDF untuk menghitung bobot kata kunci dalam setiap artikel. Pada penelitian ini ditetapkan jumlah iterasi sebesar 1000, learning rate 0.1, serta jumlah cluster yang dibuat memiliki ukuran 9x9 grid. Proses clustering akan mengelompokkan artikel yang memiliki banyak kemiripan term menjadi satu. Universitas Sumatera Utara Tabel 2.3. Penelitian Terdahulu No Peneliti Tahun Metode Keterangan 1 Lee Yang 2003 Self Organizing Maps  Clustering artikel berbahasa cina dan inggris  Melakukan 3 percobaan pada artikel bahasa Cina, bahasa Inggris dan campuran antara bahasa Cina dan bahasa Inggris  Hasil pengelompokan menunjukkan bahwa pengelompokan didasarkan atas kesamaan penulisan dibandingkan kesamaan makna 2 Yusuf Priambadha 2013 K-Means Clustering  K-Means pada penelitian ini melakukan inisialisasi centroid dengan menggunakan pengukuran Jaccard Distance  Pengelompokan artikel dengan K-Means Clustering sebelum melakukan klasifikasi dapat meningkatkan akurasi sebesar 0.5 dan recall sebesar 0.4 3 Husni et al 2015 K-Means Clustering  Menggunakan TF-IDF untuk pembobotan  Tidak menggunakan stemming pada proses text pre-processing  Jumlah cluster dengan nilai puritas terbaik 0.75475 adalah 2 cluster. 4 Suryaningsih 2015 Self Organizing Maps  Artikel input berupa abstrak dari skripsi  Nilai TF-IDF yang didapatkan dilakukan normalisasi dengan algoritma Min Max Normalization  Algoritma SOM yang digunakan membentuk 81 cluster  9 dari 81 cluster yang terbentuk memiliki tema yang tidak dapat didefinisikan  4 dari 81 cluster yang terbentuk tidak terisi oleh artikel Universitas Sumatera Utara Perbedaan penelitian yang dilakukan dengan penelitian terdahulu adalah penelitian ini berfokus kepada clustering artikel web kesehatan dan pengelompokkan yang lebih khusus dengan berusaha untuk mendapatkan multi-word expression dari kata-kata yang berkaitan dengan kesehatan. Adapun metode yang diimplementasikan dalam penelitian ini adalah sebagai berikut:  Melakukan text pre-processing untuk mendapatkan data teks yang sesuai dimana hal ini bertujuan untuk mempercepat proses dan meningkatkan akurasi pada saat proses automatic keyphrase extraction dan proses clustering. Pada tahap stemming di proses text pre-processing ini menggunakan algoritma stemmer Nazief- Andriani.  Menghitung nilai bobot kata dengan metode TF-IDF untuk proses automatic keyphrase extraction dan sebagai data masukkan pada proses clustering.  Menggunakan algoritma Self Organizing Maps untuk melakukan clustering artikel web kesehatan hasil dari crawler. Universitas Sumatera Utara

BAB 1 PENDAHULUAN