commit to user
1
CLUSTERING
DOKUMEN MENGGUNAKAN ALGORITMA
SELF- ORGANIZING MAP
SOM STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS
Vera Suryaningsih
Informatika, Fakultas MIPA, Universitas Sebelas Maret
Jl. Ir. Sutami No 36 A Surakarta
veve.ravagmail.com
Sari Widya Sihwi
Informatika, Fakultas MIPA, Universitas Sebelas Maret
Jl. Ir. Sutami No 36 A Surakarta
sari.widya.sihwigmail.com
Meiyanto Eko Sulistyo
Informatika, Fakultas MIPA, Universitas Sebelas Maret
Jl. Ir. Sutami No 36 A Surakarta
mekosulistyouns.ac.id
ABSTRAK
Fakultas Pertanian Universitas Sebelas Maret telah menghasilkan banyak dokumen penelitian khususnya berupa
skripsi. Jika kumpulan dokumen skripsi tersebut diolah, dimungkinkan akan ditemukan suatu pola yang bermanfaat bagi
pihak fakultas. Oleh karena itu, perlu dilakukan
text mining
terhadap kumpulan dokumen skripsi. Penelitian ini akan melakukan
clustering
pada dokumen skripsi di fakultas Pertanian UNS tahun 2008 sampai
2013 dengan menggunakan algoritma
Self-Organizing Map
. Sebelum dilakukan proses
clustering
, abstrak terlebih dahulu diolah melalui tahap
text preprocessing
dan pembobotan TF- IDF. Pada penelitian ini menggunakan inputan cluster sebanyak
81, iterasi sebanyak 1000 dan
lerarning rate
sebesar 0,1. Hasil penelitian menunjukkan bahwa ada beberapa
cluster yang dimungkinkan tema pada cluster tersebut berpotensi untuk dikolaborasikan dengan beberapa maupun
semua prodi. Ada juga
cluster
yang dimungkinkan tema pada
cluster
tersebut memang tidak bisa dilakukan kolaborasi, karena hanya prodi tertentu yang pernah melakukan penelitian pada
tema
cluster
tersebut. Namun bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut.
Jurusan Agribisnis memiliki penyebaran tren tema yang bervariasi
ditiap tahunnya.
Sedangkan pada
prodi Agroteknologi, prodi ITP, serta prodi Peternakan tema yang
banyak diambil ditiap tahunnya hanya di beberapa tema saja.
Kata kunci :
Text Mining, Text Preprocessing,
TF-IDF
, Clustering, Self-Organizing Map
1. PENDAHULUAN
Fakultas Pertanian Universitas Sebelas Maret UNS telah menghasilkan banyak penelitian, khususnya penelitian berupa
skripsi yang dilakukan oleh mahasiswa S1. Selain tersimpan dalam bentuk buku, dokumen skripsi tersebut juga tersimpan
dalam bentuk dokumen pdf maupun
database
. Namun kumpulan dokumen skripsi tersebut hanya dibiarkan menumpuk
begitu saja. Padahal jika diolah, dimungkinkan akan ditemukan suatu pola atau tren yang bermanfaat bagi pihak fakultas.
Selama ini, belum ada pihak yang pernal melakukan penelitian terhadap dokumen - dokumen skripsi yang ada di
UNS khususnya di fakultas Pertanian. Padahal dimungkinkan pola penelitiannya sama ditiap tahunnya, atau dimungkinkan
ada beberapa tema skripsi yang dapat dijadikan kolaborasi antar prodi. Oleh karena itu, perlu dilakukan
mining
terhadap kumpulan dokumen skripsi tersebut.
Text mining
merupakan variasi dari data mining dimana data yang diolah berupa teks.
Text mining
dapat didefinisikan secara luas sebagai proses mengekstrak informasi yang berguna dari sumber data teks
melalui identifikasi dan eksplorasi pola yang menarik [1]. Munculnya
text mining
didasarkan pada kenyataan bahwa semakin banyak dokumen yang tersimpan dalam bentuk teks
dan kadang dokumen tersebut hanya dibiarkan begitu saja. Padahal jika kumpulan dokumen tersebut diolah lebih lanjut,
akan didapatkan suatu informasi yang mungkin berguna bagi instansi atau pemiliknya.
Salah satu bentuk dari
text mining
adalah
clustering
.
Clustering
merupakan kegiatan pemecahan data ke dalam sejumlah kelompok atau
cluster
menurut karakteristik tertentu yang kemudian diberi label sesuai keinginan pemiliknya [2].
Oleh karena itu,
clustering
dokumen dapat didefinisikan sebagai suatu kegiatan pengelompokan dokumen menjadi beberapa
cluster
. Dalam proses pengelompokan tersebut, dokumen yang berada dalam kelompok yang sama akan memiliki kesamaan
yang tinggi, begitu pula sebaliknya. Ada beberapa algoritma dalam
clustering
, salah satunya adalah algoritma
Self-Organizing Map. Self-Organizing Map
SOM merupakan algoritma dengan teknik pelatihan jaringan syaraf tiruan yang pertama kali diperkenalkan oleh Kohonen.
SOM menggunakan basis
winner takes all
, dimana hanya neuron pemenang yang akan diperbaharui bobotnya [2]. Metode
pembelajaran pada SOM adalah
unsupervised learning
, dimana tidak ada target kelas yang ditetapkan untuk setiap inputan.
Penelitian terkait dengan
clustering
dokumen maupun
clustering
dengan menggunakan algoritma SOM sudah banyak dilakukan. Salah satunya adalah penelitian oleh Yiheng Chen
dan kawan-kawan [3] yang membandingkan algoritma SOM dengan algoritma
K
-Means
dalam kasus
clustering
dokumen. Pada
penelitian tersebut
teridentifikasi bahwa
secara keseluruhan kinerja algoritma SOM lebih bagus dari pada
algoritma K
-Means
untuk kasus
clustering
dokumen. SOM tidak sensitif terhadap inisialisasi awal, ditunjukkan dengan
f-meansure
yang stabil selama dua puluh kali percobaan. Sedangkan K
-Means
tidak stabil terhadap inisialisasi awal. Sealin itu jumlah iterasi pada K
-Means
juga berbeda setiap kali dilakukan percobaan.
Ambarwati serta Edi Winarko [9] juga pernah melakukan penelitian dengan judul “Pengelompokan Berita Indonesia
commit to user
2 Berdasarkan Histogram Kata Menggunakan
Self-Organizing Map
”. Pada penelitian tersebut didapatkan hasil bahwa dari tahun 2007 sampai dengan tahun 2009 hasil proses
clustering
memiliki kecenderungan yang berbeda. Pada tahun 2007 Dan 2009 mempunyai kecenderungan berita yang sama yaitu berita
tentang ekonomi, pada tahun 2008 mempunyai kecenderungan berita kriminal dan teknologi.
Berdasarkan penelitian-penelitian tersebut, penulis akan mencoba menerapkan metode
text mining
menggunakan algoritma SOM untuk
clustering
dokumen skripsi yang ada di fakultas Pertanian UNS. Penelitian ini bertujuan untuk melihat
pola skripsi yang ada di fakultas Pertanian UNS yang sebelumnya telah dilakukan proses
clustering.
Diharapkan dengan dilakukannya penelitian ini dapat memberi masukan dan
bahan evaluasi bagi pihak fakultas Pertanian UNS.
2. DASAR TEORI