PENDAHULUAN JURNAL Vera M0509074

commit to user 1 CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF- ORGANIZING MAP SOM STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS Vera Suryaningsih Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta veve.ravagmail.com Sari Widya Sihwi Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta sari.widya.sihwigmail.com Meiyanto Eko Sulistyo Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta mekosulistyouns.ac.id ABSTRAK Fakultas Pertanian Universitas Sebelas Maret telah menghasilkan banyak dokumen penelitian khususnya berupa skripsi. Jika kumpulan dokumen skripsi tersebut diolah, dimungkinkan akan ditemukan suatu pola yang bermanfaat bagi pihak fakultas. Oleh karena itu, perlu dilakukan text mining terhadap kumpulan dokumen skripsi. Penelitian ini akan melakukan clustering pada dokumen skripsi di fakultas Pertanian UNS tahun 2008 sampai 2013 dengan menggunakan algoritma Self-Organizing Map . Sebelum dilakukan proses clustering , abstrak terlebih dahulu diolah melalui tahap text preprocessing dan pembobotan TF- IDF. Pada penelitian ini menggunakan inputan cluster sebanyak 81, iterasi sebanyak 1000 dan lerarning rate sebesar 0,1. Hasil penelitian menunjukkan bahwa ada beberapa cluster yang dimungkinkan tema pada cluster tersebut berpotensi untuk dikolaborasikan dengan beberapa maupun semua prodi. Ada juga cluster yang dimungkinkan tema pada cluster tersebut memang tidak bisa dilakukan kolaborasi, karena hanya prodi tertentu yang pernah melakukan penelitian pada tema cluster tersebut. Namun bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut. Jurusan Agribisnis memiliki penyebaran tren tema yang bervariasi ditiap tahunnya. Sedangkan pada prodi Agroteknologi, prodi ITP, serta prodi Peternakan tema yang banyak diambil ditiap tahunnya hanya di beberapa tema saja. Kata kunci : Text Mining, Text Preprocessing, TF-IDF , Clustering, Self-Organizing Map

1. PENDAHULUAN

Fakultas Pertanian Universitas Sebelas Maret UNS telah menghasilkan banyak penelitian, khususnya penelitian berupa skripsi yang dilakukan oleh mahasiswa S1. Selain tersimpan dalam bentuk buku, dokumen skripsi tersebut juga tersimpan dalam bentuk dokumen pdf maupun database . Namun kumpulan dokumen skripsi tersebut hanya dibiarkan menumpuk begitu saja. Padahal jika diolah, dimungkinkan akan ditemukan suatu pola atau tren yang bermanfaat bagi pihak fakultas. Selama ini, belum ada pihak yang pernal melakukan penelitian terhadap dokumen - dokumen skripsi yang ada di UNS khususnya di fakultas Pertanian. Padahal dimungkinkan pola penelitiannya sama ditiap tahunnya, atau dimungkinkan ada beberapa tema skripsi yang dapat dijadikan kolaborasi antar prodi. Oleh karena itu, perlu dilakukan mining terhadap kumpulan dokumen skripsi tersebut. Text mining merupakan variasi dari data mining dimana data yang diolah berupa teks. Text mining dapat didefinisikan secara luas sebagai proses mengekstrak informasi yang berguna dari sumber data teks melalui identifikasi dan eksplorasi pola yang menarik [1]. Munculnya text mining didasarkan pada kenyataan bahwa semakin banyak dokumen yang tersimpan dalam bentuk teks dan kadang dokumen tersebut hanya dibiarkan begitu saja. Padahal jika kumpulan dokumen tersebut diolah lebih lanjut, akan didapatkan suatu informasi yang mungkin berguna bagi instansi atau pemiliknya. Salah satu bentuk dari text mining adalah clustering . Clustering merupakan kegiatan pemecahan data ke dalam sejumlah kelompok atau cluster menurut karakteristik tertentu yang kemudian diberi label sesuai keinginan pemiliknya [2]. Oleh karena itu, clustering dokumen dapat didefinisikan sebagai suatu kegiatan pengelompokan dokumen menjadi beberapa cluster . Dalam proses pengelompokan tersebut, dokumen yang berada dalam kelompok yang sama akan memiliki kesamaan yang tinggi, begitu pula sebaliknya. Ada beberapa algoritma dalam clustering , salah satunya adalah algoritma Self-Organizing Map. Self-Organizing Map SOM merupakan algoritma dengan teknik pelatihan jaringan syaraf tiruan yang pertama kali diperkenalkan oleh Kohonen. SOM menggunakan basis winner takes all , dimana hanya neuron pemenang yang akan diperbaharui bobotnya [2]. Metode pembelajaran pada SOM adalah unsupervised learning , dimana tidak ada target kelas yang ditetapkan untuk setiap inputan. Penelitian terkait dengan clustering dokumen maupun clustering dengan menggunakan algoritma SOM sudah banyak dilakukan. Salah satunya adalah penelitian oleh Yiheng Chen dan kawan-kawan [3] yang membandingkan algoritma SOM dengan algoritma K -Means dalam kasus clustering dokumen. Pada penelitian tersebut teridentifikasi bahwa secara keseluruhan kinerja algoritma SOM lebih bagus dari pada algoritma K -Means untuk kasus clustering dokumen. SOM tidak sensitif terhadap inisialisasi awal, ditunjukkan dengan f-meansure yang stabil selama dua puluh kali percobaan. Sedangkan K -Means tidak stabil terhadap inisialisasi awal. Sealin itu jumlah iterasi pada K -Means juga berbeda setiap kali dilakukan percobaan. Ambarwati serta Edi Winarko [9] juga pernah melakukan penelitian dengan judul “Pengelompokan Berita Indonesia commit to user 2 Berdasarkan Histogram Kata Menggunakan Self-Organizing Map ”. Pada penelitian tersebut didapatkan hasil bahwa dari tahun 2007 sampai dengan tahun 2009 hasil proses clustering memiliki kecenderungan yang berbeda. Pada tahun 2007 Dan 2009 mempunyai kecenderungan berita yang sama yaitu berita tentang ekonomi, pada tahun 2008 mempunyai kecenderungan berita kriminal dan teknologi. Berdasarkan penelitian-penelitian tersebut, penulis akan mencoba menerapkan metode text mining menggunakan algoritma SOM untuk clustering dokumen skripsi yang ada di fakultas Pertanian UNS. Penelitian ini bertujuan untuk melihat pola skripsi yang ada di fakultas Pertanian UNS yang sebelumnya telah dilakukan proses clustering. Diharapkan dengan dilakukannya penelitian ini dapat memberi masukan dan bahan evaluasi bagi pihak fakultas Pertanian UNS.

2. DASAR TEORI