JURNAL Vera M0509074

(1)

commit to user

CLUSTERING

DOKUMEN MENGGUNAKAN ALGORITMA

SELF-ORGANIZING MAP

(SOM)

(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS)

Vera Suryaningsih

Informatika, Fakultas MIPA,

Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta

Sari Widya Sihwi

Informatika, Fakultas MIPA,

Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta

Meiyanto Eko Sulistyo

Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta

ABSTRAK

Fakultas Pertanian Universitas Sebelas Maret telah menghasilkan banyak dokumen penelitian khususnya berupa skripsi. Jika kumpulan dokumen skripsi tersebut diolah, dimungkinkan akan ditemukan suatu pola yang bermanfaat bagi pihak fakultas. Oleh karena itu, perlu dilakukan text mining terhadap kumpulan dokumen skripsi.

Penelitian ini akan melakukan clustering pada dokumen skripsi di fakultas Pertanian UNS tahun 2008 sampai 2013 dengan menggunakan algoritma Self-Organizing Map. Sebelum dilakukan proses clustering, abstrak terlebih dahulu diolah melalui tahap text preprocessing dan pembobotan TF-IDF. Pada penelitian ini menggunakan inputan cluster sebanyak 81, iterasi sebanyak 1000 dan lerarning rate sebesar 0,1.

Hasil penelitian menunjukkan bahwa ada beberapa cluster yang dimungkinkan tema pada cluster tersebut berpotensi untuk dikolaborasikan dengan beberapa maupun semua prodi. Ada juga cluster yang dimungkinkan tema pada cluster tersebut memang tidak bisa dilakukan kolaborasi, karena hanya prodi tertentu yang pernah melakukan penelitian pada tema cluster tersebut. Namun bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut. Jurusan Agribisnis memiliki penyebaran tren tema yang bervariasi ditiap tahunnya. Sedangkan pada prodi Agroteknologi, prodi ITP, serta prodi Peternakan tema yang banyak diambil ditiap tahunnya hanya di beberapa tema saja.

Kata kunci : Text Mining, Text Preprocessing, TF-IDF, Clustering, Self-Organizing Map

1. PENDAHULUAN

Fakultas Pertanian Universitas Sebelas Maret (UNS) telah menghasilkan banyak penelitian, khususnya penelitian berupa skripsi yang dilakukan oleh mahasiswa S1. Selain tersimpan dalam bentuk buku, dokumen skripsi tersebut juga tersimpan dalam bentuk dokumen pdf maupun database. Namun kumpulan dokumen skripsi tersebut hanya dibiarkan menumpuk begitu saja. Padahal jika diolah, dimungkinkan akan ditemukan suatu pola atau tren yang bermanfaat bagi pihak fakultas.

Selama ini, belum ada pihak yang pernal melakukan penelitian terhadap dokumen - dokumen skripsi yang ada di UNS khususnya di fakultas Pertanian. Padahal dimungkinkan pola penelitiannya sama ditiap tahunnya, atau dimungkinkan

ada beberapa tema skripsi yang dapat dijadikan kolaborasi antar prodi. Oleh karena itu, perlu dilakukan mining terhadap kumpulan dokumen skripsi tersebut. Text mining merupakan variasi dari data mining dimana data yang diolah berupa teks.

Text mining dapat didefinisikan secara luas sebagai proses mengekstrak informasi yang berguna dari sumber data teks melalui identifikasi dan eksplorasi pola yang menarik [1]. Munculnya text mining didasarkan pada kenyataan bahwa semakin banyak dokumen yang tersimpan dalam bentuk teks dan kadang dokumen tersebut hanya dibiarkan begitu saja. Padahal jika kumpulan dokumen tersebut diolah lebih lanjut, akan didapatkan suatu informasi yang mungkin berguna bagi instansi atau pemiliknya.

Salah satu bentuk dari text mining adalah clustering. Clustering merupakan kegiatan pemecahan data ke dalam sejumlah kelompok atau cluster menurut karakteristik tertentu yang kemudian diberi label sesuai keinginan pemiliknya [2]. Oleh karena itu, clustering dokumen dapat didefinisikan sebagai suatu kegiatan pengelompokan dokumen menjadi beberapa cluster. Dalam proses pengelompokan tersebut, dokumen yang berada dalam kelompok yang sama akan memiliki kesamaan yang tinggi, begitu pula sebaliknya.

Ada beberapa algoritma dalam clustering, salah satunya adalah algoritma Self-Organizing Map. Self-Organizing Map (SOM) merupakan algoritma dengan teknik pelatihan jaringan syaraf tiruan yang pertama kali diperkenalkan oleh Kohonen. SOM menggunakan basis winner takes all, dimana hanya neuron pemenang yang akan diperbaharui bobotnya [2]. Metode pembelajaran pada SOM adalah unsupervised learning, dimana tidak ada target kelas yang ditetapkan untuk setiap inputan.

Penelitian terkait dengan clustering dokumen maupun clustering dengan menggunakan algoritma SOM sudah banyak dilakukan. Salah satunya adalah penelitian oleh Yiheng Chen dan kawan-kawan [3] yang membandingkan algoritma SOM dengan algoritma K-Means dalam kasus clustering dokumen. Pada penelitian tersebut teridentifikasi bahwa secara keseluruhan kinerja algoritma SOM lebih bagus dari pada algoritma K-Means untuk kasus clustering dokumen. SOM tidak sensitif terhadap inisialisasi awal, ditunjukkan dengan f-meansure yang stabil selama dua puluh kali percobaan. Sedangkan K-Means tidak stabil terhadap inisialisasi awal. Sealin itu jumlah iterasi pada K-Means juga berbeda setiap kali dilakukan percobaan.

Ambarwati serta Edi Winarko [9] juga pernah melakukan

(2)

commit to user

2 Berdasarkan Histogram Kata Menggunakan Self-Organizing

Map”. Pada penelitian tersebut didapatkan hasil bahwa dari tahun 2007 sampai dengan tahun 2009 hasil proses clustering memiliki kecenderungan yang berbeda. Pada tahun 2007 Dan 2009 mempunyai kecenderungan berita yang sama yaitu berita tentang ekonomi, pada tahun 2008 mempunyai kecenderungan berita kriminal dan teknologi.

Berdasarkan penelitian-penelitian tersebut, penulis akan mencoba menerapkan metode text mining menggunakan algoritma SOM untuk clustering dokumen skripsi yang ada di fakultas Pertanian UNS. Penelitian ini bertujuan untuk melihat pola skripsi yang ada di fakultas Pertanian UNS yang sebelumnya telah dilakukan proses clustering. Diharapkan dengan dilakukannya penelitian ini dapat memberi masukan dan bahan evaluasi bagi pihak fakultas Pertanian UNS.

2. DASAR TEORI

2.1 Text Mining

Text mining dapat didefinisikan secara luas sebagai proses mengekstrak informasi yang berguna dari sumber data teks melalui identifikasi dan eksplorasi pola yang menarik [1]. Permasalahan yang dihadapi pada saat melakukan proses text mining adalah jumlah data yang besar, dimensi yang tinggi, dan terdapat banyak term yang tidak penting [5]. Pada text mining, data yang digunakan umumnya unstructure data, atau minimal semistructure data [9]. Hal ini menyebabkan struktur teks yang tidak jelas, serta bahasa yang berbeda. Oleh karena itu perlu dilakukan tahap text preprocessing untuk mempersiapkan teks menjadi data yang dapat diolah lebih lanjut.

2.2 Text Preprocessing

Text Preprocessing adalah tahap mengubah suatu dokumen ke dalam format yang sesuai agar dapat diproses oleh algoritma clustering [4]. Berikut ini tahapan pada text preprocessing [5]:

1. Case Floding, merupakan proses mengubah semua huruf yang ada pada dokumen menjadi huruf kecil. Serta menghilangkan karakter selain huruf „a‟ sampai „z‟. 2. Tokenizing, merupakan tahap penguraian string teks

menjadi term atau kata.

3. Filtering, merupakan tahap pengambilan kata-kata penting dari hasil token. Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting).

4. Stemming, merupakan tahap pengubahan suatu kata menjadi akar katanya dengan menghilangkan imbuhan awalan atau akhiran dari tiap kata hasil filtering.

2.3 TF-IDF

TF-IDF berasal dari kata Term Frequency (TF) dan Inverse Document Frequency (IDF). Term Frequency (TF) merupakan frekuensi kemunculan term dalam sebuah dokumen [6]. Semakin sering suatu term muncul dalam dokumen tertentu, maka nilai tf-nya akan lebih tinggi dibandingkan term yang jarang muncul dalam dokumen tersebut. Sedangkan Inverse Dokumen Frequency (IDF) didefinisikan sebagai tingkat

pentingnya suatu term [6]. Perhitungan TF-IDF adalah perkalian antara TF dan IDF. Berikut ini merupaka rumus dari TF- IDF [1] :

W (i, j) = tfi,j * (log ...(1)

Keterangan :

W (i, j) = bobot suatu term i terhadap dokumen j tfij = frekuensi kata i pada dokumen j

N = jumlah keseluruhan dokumen

DF (i) = jumlah dokumen yang mengandung term i

2.4 DF

Feature Selection

Feature selection merupakan langkah memilih beberapa fitur (misalnya kata-kata atau istilah) yang akan digunakan ketika melakukan klasifikasi maupun clustering [10] . Fitur yang terpilih dapat digunakan untuk mewakili semua fitur yang ada pada dokumen. Permasalahan mendasar pada clustering maupun klasifikasi dokumen adalah tingginya dimensi data, sehingga perlu dilakukan feature selection untuk mengurangi dimensi tersebut [5]. Salah satu metode pada feature selection yang banyak digunakan adalah DF (Document Frequency) [10]

DF (Document Frequency) adalah jumlah dokumen yang mengandung suatu term tertentu [10]. Jika nilai DF berada diatas atau dibawah nilai threshold yang telah ditentukan, maka term tersebut akan dibuang [5]. Asumsi bahwa term yang muncul dalam sedikit dokumen menunjukkan bahwa term tersebut tidak memiliki pengaruh yang besar dalam proses clustering dokumen. Sedangkan jika term t muncul dalam banyak dokumen, maka tingkat kepentingan term tersebut menjadi kecil karena term yang banyak muncul di berbagai dokumen dapat dianggap sebagai term umum (common term). Sebagai contoh term “database” mungkin cenderung kurang penting jika terdapat di banyak dokumen pada kumpulan jurnal yang membahas tentang sistem database.

2.5 Min Max Normalization

Normalisasi dapat meningkatkan akurasi dan efisiensi algoritma data mining yang melibatkan pengukuran jarak [6]. Salah satu metode normalisasi data adalah Min Max Normalization. Min Max Normalizatio melakukan transformasi linear pada data asli [6]. Misalkan minA dan maxA adalah nilai minimum dan maksimum dari sebuah atribut, Min Max Normalization memetakan sebuah nilai v dari A menjadi v‟ dalam range nilai minimal dan maksimal yang baru, new_minA dan new_maxA [6]. Berikut ini merupakan rumus Min-max Normalization [6]:

v’ = (new_maxA – new_minA)+new_minA...(2)

2.6 Clustering

Clustering merupakan kegiatan pemecahan data ke dalam sejumlah kelompok atau cluster menurut karakteristik tertentu yang kemudian diberi label sesuai keinginan pemiliknya [2]. Data yang berada dalam satu cluster memiliki nilai kemiripan yang tinggi, sedangkan data yang berada pada cluster lain

(3)

commit to user

3 memiliki tingkat kemiripan yang rendah dengan data tersebut

[2].

2.7 Self-Organizing Map (SOM)

Self-Organizing Map (SOM) merupakan algoritma dengan teknik pelatihan jaringan syaraf tiruan yang pertama kali diperkenalkan oleh Kohonen. SOM menggunakan basis winner takes all, dimana hanya neuron pemenang yang akan diperbaharui bobotnya [2]. Pada SOM, suatu lapisan yang berisi neuron-neuron akan menyusun dirinya sendiri berdasarkan input nilai tertentu dalam suatu cluster [2]. Selama proses penyusunan tersebut, cluster yang memiliki jarak paling dekat akan terpilih menjadi pemenang [2]. Neuron yang menjadi pemenang akan memperbaiki nilai bobotnya beserta neruon-neuron tetangganya [2]. Arsitektur SOM dapat dilihat pada Gambar.1.

Berikut ini merupakan algoritma dari SOM [7]:

1. Inisialisasi jumlah cluster (width x height), jumlah iterasi, learning rate, radius ketetanggaan, dan bobot pada setiap neuron (random dengan nilai kecil).

2. Memilih salah satu vektor input dan disajikan ke jaringan. 3. Setiap neuron pada jaringan diuji untuk menghitung bobot

neuron mana yang paling mirip dengan vektor input. Neuron pemenang sering disebut dengan Best Matching Unit (BMU) (Persamaan 1).

4. Menghitung radius ketetanggan dari BMU. Dimulai dengan nilai yang besar kemudian berkurang setiap kali iterasi (Persamaan 2a, 2b).

5. Setiap neuron yang berada pada radius BMU disesuaikan agar mereka lebih mirip dengan vektor input (Persamaan 3a,3b). Semakin dekat neuron dengan BMU, maka semakin bobot itu diubah (Persamaan 3c).

6. Ulangi langkah 2 unuk N iterasi.

Persamaan yang digunakan dalam algoritma adalah sebagai berikut:

Persamaan 1 Menghitung BMU

DistFromInput2 ...(3)

Persamaan 2a Radius Ketetanggaan

σ(t) = σ0 ...(4) Untuk menentukan σ0 dapat dicari dengan rumus :

σ0 = max(width, height) / 2...(5)

Persamaan 2b Time Constant

� = jumlah iterasi / radius map ...(6)

Persamaan 3a Bobot baru pada neuron

wij (t+1) = wij(t) + Θ(t)L(t) ( xj– wij (t)) ...(7)

Persamaan 3b Learning rate

L(t) = L0 ...(8) Persamaan 3c Distance of BMU

Θ (t) = ...(9) merupakan jarak antara neuron dengan neuron pemenang yang dapat dicari dengan rumus :

(c,i) = |rc - ri|2

= ( rc(x) - ri(x)) 2 + ( rc(y) - ri(y)) 2 ...(10)

Jika (c,i)≤ σ(t) 2

, berarti bahwa neuron i berada pada radius BMU, maka bobot pada neuron tersebut diperbaharui.

Untuk menginisialisasi bobot pada setiap cluster, digunakan rumus midpoint (Demuth and Beale). Berikui ini merupakan rumus midpoint (Demuth and Beale) :

Wij = ... (11) Penjelasan simbol :

t = iterasi saat ini

Θ = distance of BMU

L = learning rate

w = bobot pada setiap node x = vektor inputan n = dimensi data T = jumlah iterasi

σ = radius � = time constan

rc(x) = letak neuron pemenang pada sumbu x

ri(x) = letak neuron i pada sumbu x

rc(y) = letak neuron pemenang pada sumbu y

ri(y) = letak neuron i pada sumbu y

MinPi = nilai terkecil pada variabel input ke i MaxPi = nilai terbesar pada variabel input ke 3.

3. Metodologi Penelitian

Gambar 3. Metodologi Penelitian Gambar 1. Arsitektur SOM [8].

(4)

commit to user

3.1 Studi Literatur

Studi literatur dilakukan untuk mengumpulkan bahan referensi melalui pencarian di internet, jurnal-jurnal penelitian, serta buku pendukung yang relevan dan berhubungan dengan permasalahan, analisis, dan implementasi sistem. Selain itu juga untuk memperkuat pengetahuan dasar dan teori yang digunakan dalam penelitian ini.

3.2 Pengumpulan Data

Penelitian ini menggunakan data sekunder yaitu dokumen skripsi yang ada di fakultas Pertanian UNS dengan tahun pembuatan 2008 sampai 2013. Data diperoleh dengan cara meminta secara langsung kepada pihak perpustakaan UNS. Data yang akan digunakan untuk masukan pada proses clustering adalah bagian abstrak dokumen yang berbahasa Indonesia saja.

Sebelum dilakukan proses clustering, dokumen yang telah terkumpul akan dilakukan pemilahan. Dokumen dengan abstrak yang tidak berbahasa Indonesia atau memiliki keterangan kurang lengkap (tidak ada tahun pembuatan, prodi, atau abstrak) akan dihapus. Selanjutnya, data akan disimpan ke dalam database menggunakan MySQL database.

3.3 Penerapan Metode

Pada tahap ini akan dilakukan implementasi sistem agar dapat memudahkan dalam tahap analisis terhadap hasil clustering dokumen penelitian di UNS. Seluruh fungsi yang dibutuhkan diterjemahkan ke dalam rangkaian kode dengan menggunakan bahasa pemrograman PHP.

3.3.1Tahap TextPreprocessing

Tahapan text preprocessing meliputi casse folding, tokenizing, filtering, stemming, serta filtering hasil stemming.

Gambar 4. Proses Text Preprocessing

3.3.2Tahap Pembobotan TF-IDF

Tahap pembobotan TF-IDF diawali dengan menghitung TF dengan cara menghitung frekuensi kemunculan term t dalam sebuah dokumen d pada hasil filtering hasil stemming. Kemudian dicari nilai DF yaitu banyaknya dokumen yang mengandung term t. Lalu dilakukan feature selection pada term tersebut berdasarkan threshold batas maksimal dan minimal yang diberikan. Selanjutnya dilakukan perhitungan IDF dimana hasil DF akan dijadikan sebagai input-an. Barulah didapatkan bobot TF-IDF dengan mengalikan hasil TF dengan IDF. Setelah bobot TF-IDF didapat, kemudian dilakukan normalisasi Min Max.

3.3.3 Tahap Clustering

Setelah dilakukan pembobotan TF-IDF, tahap selanjutnya yaitu melakukan proses clustering dengan menggunakan algoritma SOM. Bobot yang di hasilkan pada tahap TF-IDF digunakan sebagai input-an. Setelah itu, menginisialiasasi topologi SOM, jumlah iterasi, laju pembelajaran (learning rate), radius ketetanggan, serta width dan heighnya. Kemudian, menginisialisasi bobot awal dengan matriks bobot berukuran i x j (Wij), dimana i adalah jumlah term yang telah dihilangkan

duplikasinya dan j adalah jumlah cluster (perkalian dari widht dan height). Kemudian diolah menggunakan algoritma SOM yang telah dijelaskan pada dasar teori. Hasil akhir dari tahap ini adalah masing-masing dokumen akan masuk kedalam cluster tertentu dimana satu dokumen hanya akan masuk ke dalam satu cluster.

3.4 Tahap Analisis

Pada tahap ini akan dilakukan analisis terhadap hasil clustering dokumen skripsi di fakultas Pertanian UNS. Analisis pertama yaitu analisis mengenai tema pada setiap clusternya. Analisis kedua yaitu analisis mengenai pola yang terbentuk dari hasil clustering. Pola pertama yaitu merepresentasikan hasil cluster antar prodi. Sedangkan pola kedua, merepresentasikan hasil clustering setiap prodi pertahunnya.

3.5 Tahap Validasi

Untuk mengevaluasi apakah hasil clustering yang diperoleh sudah sesuai atau tidak, maka perlu dilakukan validasi kepada pihak yang lebih mengerti terhadap data tersebut. Validasi pada penelitian ini akan dilakukan dengan cara bertanya secara langsung kepada Pembantu Dekan 1 (PD 1) fakultas Pertanian UNS. Alasan kenapa memilih PD 1 sebagai pihak validator adalah karena PD 1 merupakan penanggung jawab bagian akademik dan pendidikan fakultas.

4 PEMBAHASAN

4.1 Deskripsi Data

Pada penelitian ini data yang digunakan berupa dokumen skripsi yang ada di fakultas Pertanian UNS pada tahun 2008 sampai 2013. Bagian dokumen yang digunakan dalam melakukan clustering adalah bagian abstrak. Setelah dilakukan pemilahan terhadap 1.385 dokumen yang terkumpul, didapat 1.291 dokumen yang siap dilakukan proses selanjutnya.

Case Folding Input : abstrak dokumen

Output : abstrak dengan huruf kecil semua dan

hanya ada karakter huruf „a‟ sampai „z‟

Tokenizing Input : hasil case folding

Output : kata-kata yang telah terurai Filtering Input : hasil tokenizing

Output : kata-kata yang bukan termasuk stoplist

Stemming Input : hasil filtering Output : kata dasar

menggunakan kamus kata dasar dan algoritma Nazief dan Adriani

Filtering hasil Stemming Input : hasil stemming Output : kata-kata yang bukan termasuk stoplist

(5)

commit to user

5 Kemudian data disimpan ke dalam database menggunakan

MySQL database.

4.2 Text Preprocessing

Pada kasus ini, akan mengambil salah satu dokumen untuk dijadikan sebagai contoh. Abstrak pada dokumen tersebut mempunyai 380 kata dan beberapa karakter seperti titik, koma, dan lain-lain. Setelah itu dilakukan proses case folding dengan cara mengubah semua huruf menjadi huruf kecil serta

membuang karakter selain huruf „a‟ sampai „z‟. Setelah melalui

proses case folding, jumlah kata sedikit berkurang dan tersisa 376 kata. Kemudian dilakukan proses tokenizing. Pada proses ini tidak ada pengurangan kata, karena hanya melakukan proses pemecahan kata saja.

Selanjutnya dilakukan proses filtering dengan membuang kata-kata yang cocok dengan kamus stopwords. Pada proses ini, terjadi pengurangan kata dari sebelumnya 376 kata menjadi 168 kata. Hal ini berarti pada abstrak dokumen tersebut terdapat 208 kata yang tidak penting atau stopwords. Proses selanjutnya adalah stemming dengan menggunakan menggunakan algoritma Nazief & Adriani. Tidak ada pengurangan kata pada proses ini, karena hanya merubah bentuk kata menjadi kata dasar.

Meskipun sebelumnya sudah dilakukan proses filtering, tapi terkadang ada kata yang setelah dicari kata dasarnya ternyata terdeteksi stopword. Hal ini disebabkan keterbatasan kamus pada stopword. Sehingga perlu dilakukan proses filtering lagi terhadap hasil stemming. Setelah dilakukan filtering lagi terhadap hasil stemming, terjadi pengurangan kata dari sebelumnya 168 kata menjadi 139 kata. Hal ini berarti masih ada 29 kata yang belum terdeteksi stopword pada proses filtering sebelumnya. Gambar 5 merupakan alur dari text preprocessing terhadap cuplikan dokumen contoh.

Gambar 5 Proses text preprocessing

Berdasarkan proses text preprocessing diatas, diketahui bahwa dokumen sampel mengalami pengurangan kata pada proses case folding, filtering dan filtering-stemming. Sebelumnya dokumen tersebut mempunyai kata sebanyak 380, lalu pada tahap case folding turun menjadi 376 kata, pada tahap filtering menjadi 168 kata, dan pada tahap filtering-stemming menjadi 139 kata. Pengurangan kata tersebut bermanfaat pada saat tahap clustering, karena dapat memperkecil dimensi yang membuat waktu komputasi lebih cepat.

4.3 Proses TF-IDF

Hasil dari text preprocessing diubah ke dalam bentuk vektor m x n, dimana m adalah jumlah term dan n adalah jumlah dokumen. Kemudian dilakukan pembobotan terhadap term/kata tersebut. Proses pembobotan kata/term weigthing berfungsi untuk memberikan nilai pada sebuah kata. Untuk proses pembobotan kata akan digunakan perhitungan term frequency – inverse document frequency (TF-IDF). Tabel 1 merupakan sampel dokumen yang telah melalui proses text preprocessing. D1 merupakan dokumen pertama dengan keyword tani, tindak, agroindustri, basis, agraris, dan padi, dan seterusnya.

Tabel 1. Contoh dokumen untuk perhitungan TF-IDF

Dok Key1 Key 2 Key 3 Key 4 Key 5 Key 6 D1 tani tindak agroindustri basis agraris padi

D2 tani sayur komoditas sayur kebun

D3 padi komoditas pokok produksi tanam padi

D4 tanam karet komoditas kebun ekspor hujan

Langkah pertama pada proses pembobotan TF-IDF adalah menghitung nilai TF dengan cara menghitung kemunculan term pada dokumen tertentu. Langkah kedua menghitung nilai Document Frequency-nya (DF) yaitu jumlah dokumen yang mengandung term tersebut. Hasil dari perhitungan TF serta DF dapat dilihat pada Tabel 2.

Tabel 2 Hasil dari perhitungan TF serta DF yang belum mengalami proses feature selection

Term D1 D2 D3 D4 DF

tani 1 1 0 0 2

tindak 1 0 0 0 1

agroindustri 1 0 0 0 1

basis 1 0 0 0 1

agraris 1 0 0 0 1

sayur 2 0 0 0 1

komoditas 0 1 1 1 3

padi 1 0 2 0 2

pokok 0 0 1 0 1

produksi 0 0 1 0 1

Lalu term yang sudah dicari nilai DF-nya diseleksi berdasarkan nilai threshold. Jika nilai DF berada di bawah min threshold atau di atas max threshold yang telah ditentukan, maka term tersebut akan dibuang. Pada contoh ini hanya diberikan min threshold yaitu 2, dalam arti bahwa term dengan nilai DF dibawah 2 akan dibuang. Lihat hasilnya pada Tabel 3 kolom DF.

Berdasarkan hasil seleksi kata dengan feature selection DF, terjadi pengurangan kata dari 15 kata menjadi 5. Kata yang dibuang antara lain tindak, agroindustri, basis, agraris, sayur, pokok, produksi, karet, ekspor, dan hujan. Untuk kasus feature

(6)

commit to user

6 selection pada dokumen skripsi fakultas Pertanian UNS

menggunakan min threshold 6 dan max threshold 300. Oleh karena itu kata dengan DF dibawah 6 dan kata dengan DF diatas 300 akan dihapus. Dari proses tersebut dihasilkan pengurangan kata dari awalnya 7.902 kata menjadi 1.413 kata. Pengurangan kata ini sangat berpengaruh pada waktu komputasi proses selanjutnya.

Langkah ketiga yaitu perhitungan IDF menggunakan rumus : (log , dimana N adalah jumlah keseluruhan dokumen dan adalah nilai DF yang sudah dihitung pada proses sebelumnya. Langkah terakhir dalam perhitungan pembobotan adalah perhitungan TF-IDF dengan cara mengalikan hasil TF dengan hasil IDF. Lihat Tabel 3 untuk melihat semua hasil dari proses TF, DF, IDF dan TF-IDF.

Tabel 3 Hasil perhitungan TF, DF, IDF, dan TF-IDF

Kemudian dilakukan normalisasi data dengan Algoritma Min Max Normalization dan didapatkan hasil seperti pada Tabel 4

Tabel 4 Hasil normalisasi dengan Algoritma Min Max Normalization

4.4 Proses

Clustering

Setelah dilakukan pembobotan TF-IDF terhadap term, tahap selanjutnya yaitu melakukan proses clustering. Langkah pertama yaitu menentukan jumlah iterasi, learning rate, radius ketetanggan, width dan height (cluster = width x height). Pada penelitian ini ditetapkan jumlah iterasi sebesar 1000, learningrate 0.1, serta width dan heigh 9x9. Pemilihan jumlah cluster, learningrate serta width dan height sudah melalui beberapa kali percobaan. Kemudian sistem secara otomatis akan membuat bobot secara dengan algoritma Midpoint dengan dimensi m x n, dimana m adalah jumlah cluster dan n adalah jumlah term. Setelah itu dilakukan proses clustering SOM dengan cara seperti pada dasar teori.

4.5 Analisis Hasil Clustering

Setelah dilakukan clustering, dokumen yang memiliki banyak kemiripan keyword akan mengelompok menjadi satu. Setelah itu, dilakukan analisis perkiraan tema pada setiap cluster.Gambar 4.11 merupakan contoh tampilan hasil pada cluster C1 yang berisi cluster, id dokumen, judul, prodi, tahun, serta 10 top keyword. Pada cluster C1, kebanyakan dokumen membahas mengenai pupuk yang berfokus pada pengaruh pupuk terhadap ketersediaan maupun serapan suatu unsur. Hasil perkiraan tema dapat dilihat pada Lampiran Tabel 1.

Lampiran Tabel 1 merupakan perkiraan tema pada setiap cluster. Sel yang diberi warna hitam merupakan cluster yang tidak diisi oleh dokumen. Berdasarkan Lampiran Tabel 1 terlihat bahwa terdapat beberapa cluster yang memiliki kecenderungan tema umum yang sama. Selain itu, cluster yang memiliki kecenderungan tema umum yang sama adalah cluster yang berada saling berdekatan. Hal ini disebabkan karena pada algoritma SOM, bobot yang diperbaharui adalah neuron pemenang serta neuron yang terletak didekat neuron pemenang. Oleh karena itu, cluster yang saling berdekatan memiliki kecenderungan tema yang mirip. Sebagai contoh pada tema pupuk, berada pada cluster 1, 2, 10, 11, 12, dan 19 yang letaknya saling berdekatan. Selain itu, terlihat bahwa letak cluster C3 berada didekat cluster C2, C11, serta C12 dimana pada cluster tersebut terdapat beberapa dokumen yang juga membahas mengenai pupuk. Disamping itu, ada juga beberapa cluster yang memiliki tema kurang sama antara satu dokumen dengan dokumen lain, seperti pada cluster C14, C23, C34, C42, C43, C44, C51, C53 dan C60. Hal ini dimungkinkan karena bagian dokumen yang diolah hanya bagian abstrak saja, sehingga kurang dapat merepresentasikan isi keseluruhan dokumen.

Analisis kedua yaitu analisis mengenai pola yang terbentuk pada pemetaan distribusi frekuensi hasil clustering antar prodi. Tabel 6 merupakan distribusi frekuensi cluster pada tiap prodi. Pada baris pertama A adalah prodi Agribisnis, B adalah prodi Agroteknologi, C adalah prodi Ilmu dan Teknologi Pangan (ITP), dan D adalah prodi Peternakan.

Tabel 6 Distribusi Frekuensi Cluster per Prodi

CLUSTER A B C D Jumlah

C1 - 15 - - 15

C2 - 15 - - 15

C3 - 16 - - 16

C4 - 10 - - 10

C5 - 23 - - 23

C7 21 - - - 21

C9 18 - - - 18

C10 - 16 - - 16

C11 - 20 - - 20

C12 - 10 - - 10

C13 - 19 - - 19

C14 - 2 - - 2

C15 - 11 - - 11

C17 18 - - - 18

C18 10 - - - 10

C19 - 16 - - 16

C20 6 10 - - 16

C21 6 21 - - 27

C22 3 7 - - 10

C23 1 18 - - 19

C24 - 8 - - 8

C25 20 - - - 20

C26 10 - - - 10

C27 26 - - 1 27

C29 30 - - - 30

C30 7 - - - 7

C31 3 15 - - 18

C32 - 2 - - 2

C33 3 24 - - 27

C34 10 7 - - 17

C35 26 - - - 26

C36 14 - - - 14

C37 18 - - 2 20

C38 1 - - - 1

C39 23 1 - 1 25

C40 3 - 1 - 4

C41 5 14 6 - 25

(7)

commit to user

7 Tabel 6 Distribusi Frekuensi Cluster per Prodi (Lanjutan)

CLUSTER A B C D Jumlah

C43 13 35 9 - 57

C44 30 4 1 - 35

C45 26 - - - 26

C46 3 - - 1 4 C47 - - - 11 11 C48 2 - 2 2 6 C49 2 - 3 12 17 C50 - 7 5 - 12 C51 1 7 11 9 28 C52 5 7 7 2 21 C53 8 16 - 3 27 C54 20 - - - 20

C55 3 - - 18 21 C56 - - - 3 3 C57 - - - 21 21 C58 - - - 7 7 C59 3 1 13 2 19 C60 - - 19 - 19 C61 1 1 10 10 22 C62 10 - - - 10

C63 23 1 - 1 25 C64 - - - 10 10 C65 - - - 13 13 C66 - - - 8 8 C67 - - - 15 15 C68 - 4 6 - 10 C69 2 7 11 - 20 C70 - - 11 - 11 C71 18 - 2 - 20 C72 18 - - - 18

C73 - - - 18 18 C74 - - - 15 15 C75 - - - 18 18 C76 - - - 16 16 C77 - - - 5 5 C78 1 - 25 2 28 C79 3 - 14 1 18 C80 3 - - - 3

C81 29 - - - 29

Jumlah 507 397 160 227 1291 Berdasarkan Tabel 6, dapat dilihat bahwa ada beberapa cluster yang pernah dilakukan penelitian skripsi oleh beberapa maupun semua prodi. Hal ini dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi oleh beberapa maupun semua prodi. Sebagai contoh pada cluster C20 yang pernah dilakukan penelitian skripsi oleh enam mahasiswa prodi Agribisnis dan 16 mahasiswa prodi Agroteknologi dengan tema umum mengenai pupuk. Pada prodi Agribisnis membahas mengenai analisis faktor produksi luas lahan, benih, pupuk, dan tenaga kerja, sedangkan pada prodi Agroteknologi membahas mengenai pengaruh pemberian pupuk terhadap tanaman. Dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi antara prodi Agribisnis dan prodi Agroteknologi. Contoh lain yaitu pada cluster C59 dengan tema “pemanfaatan ekstrak jahe maupun agribisnis jahe”, dimana semua prodi pernah melakukan penelitian skripsi dengan mengambil tema pada cluster tersebut. Dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi dengan semua prodi. Disamping itu, ada juga cluster yang hanya pernah dilakukan penelitian oleh satu prodi tertentu. Sebagai contoh pada cluster C1 sampai C5 yang sebagian besar membahas mengenai pupuk dan hanya pernah dilakukan penelitian skripsi oleh mahasiswa pada jurursan Agribisnis. Dimungkinkan tema pada cluster tersebut tidak bisa dilakukan kolaborasi antar prodi. Atau bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut. Tabel 7 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agribisnis CLUSTER ‘08 ‘09 ‘10 ‘11 ‘12 ‘13 Jumlah C1 0

C2 0

C3 0

C4 0

C5 0

C7 3 3 4 8 1 2 21 C9 6 4 8 18 C10 0

C11 0

C12 0

C13 0

C14 0

C15 0

C17 1 6 4 7 18 C18 3 1 3 2 1 10 C19 0

C20 2 1 2 1 6 C21 1 2 2 1 6

C22 1 2 3 C23 1 1 C24 0

C25 2 2 4 8 2 2 20 C26 3 1 1 3 1 1 10 C27 4 2 4 9 5 2 26 C29 1 4 2 5 7 11 30 C30 5 1 1 7 C31 2 1 3

C32 0

C33 2 1 3 C34 2 1 4 2 1 10 C35 6 3 9 7 1 26

C36 2 3 7 2 14 C37 3 1 6 3 5 18 C38 1 1

C39 2 3 7 4 3 4 23 C40 1 1 1 3 C41 1 2 2 5 C42 1 1

C43 1 2 2 5 3 13 C44 4 2 2 7 8 7 30 C45 3 4 8 3 2 6 26 C46 1 1 1 3 C47 0

C48 1 1 2

C49 1 1 2

C50 0

C51 1 1 C52 1 1 1 2 5

C53 1 1 3 3 8 C54 2 1 7 4 2 4 20 C55 1 2 3

C56 0

C57 0

C58 0

C59 1 1 1 3 C60 0

C61 1 1 C62 2 2 2 3 1 10

C63 1 2 10 3 4 3 23 C64 0

C65 0

C66 0

C67 0

C68 0

C69 1 1 2 C70 0

C71 2 4 4 1 5 2 18 C72 1 5 6 3 3 18

C73 0

C74 0

C75 0

C76 0

C77 0

C78 1 1

C79 1 1 1 3

C80 1 1 1 3

C81 1 2 6 5 10 5 29

Jumlah 52 62 107 106 85 95 507

Rata-rata 2 2 4 3 3 3

Analisis ketiga yaitu analisis mengenai pola yang terbentuk pada pemetaan distribusi frekuensi hasil clustering setiap prodi pertahunnya. Tabel 7 merupakan pemetaan

(8)

commit to user

8 distribusi frekuensi cluster pertahun pada prodi Agribisnis.

Bagian tabel yang ditandai dengan warna abu, menunjukkan bahwa pada sel tersebut memiliki jumlah dokumen diatas rata-rata. Rata-rata pertahun dapat dilihat pada tabel baris terakhir. Hasil rata-rata berupa bilangan bulat karena menyatakan jumlah dokumen. Pada kasus ini rata-rata dihitung dengan rumus:

Pada Tabel 7, terlihat bahwa sel yang memiliki jumlah dokumen diatas rata-rata menyebar di beberapa cluster di tiap tahunnya. Artinya bahwa tema skripsi yang banyak diambil oleh mahasiswa prodi Agribisnis di tiap tahunnya memang tidak hanya berfokus pada suatu tema tertentu. Tema yang lumayan diminati di tiap tahunnya yaitu pada cluster C29, C35, C39, C44, C45, dan C81 dimana pada cluster tersebut diminati oleh mahasiswa selama empat tahun dengan tahun yang berbeda. Apabila Tabel 7 disinkronkan dengan Lampiran Tabel 1 maka akan terlihat bahwa tema yang ada di jurusan Agribisnis memang beragam.

Tabel 8 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agroteknologi

CLUSTER ‘08 ‘09 ‘10 ‘11 ‘12 ‘13 Jumlah

C1 1 1 10 3 15

C2 4 2 4 1 2 2 15 C3 2 2 5 6 1 16 C4 3 2 3 1 1 10 C5 4 1 8 3 6 1 23 C7 0

C9 0

C10 3 1 1 8 3 16

C11 1 3 5 8 3 20 C12 2 1 2 1 1 3 10 C13 1 4 5 5 2 2 19 C14 1 1 2

C15 5 2 4 11

C17 0

C18 0

C19 2 6 4 4 16 C20 6 1 1 1 1 10 C21 1 2 3 11 4 21 C22 2 1 1 3 7

C23 1 4 2 3 8 18 C24 4 1 2 1 8

C25 0

C26 0

C27 0

C29 0

C30 0

C31 1 3 3 8 15

C32 1 1 2

C33 8 4 6 4 1 1 24 C34 2 3 1 1 7

C35 0

C36 0

C37 0

C38 0

C39 1 1

C40 0

C41 3 1 1 3 3 3 14 C42 1 2 4 7 C43 2 3 8 13 9 35 C44 1 2 1 4

C45 0

C46 0

C47 0

C48 0

C49 0

C50 3 1 3 7

C51 1 2 2 2 7 C52 2 2 3 7

C53 2 1 4 6 3 16 C54 0

C55 0

C56 0

C57 0

Tabel 8 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agroteknologi (Lanjutan) CLUSTER 2008 2009 2010 2011 2012 2013 Jumlah C58 0

C59 1 1

C60 0

C61 1 1

C62 0

C63 1 1 C64 0

C65 0

C66 0

C67 0

C68 2 2 4

C69 3 3 1 7

C70 0

C71 0

C72 0

C73 0

C74 0

C75 0

C76 0

C77 0

C78 0

C79 0

C80 0

C81 0

Jumlah 58 39 72 84 91 53 397 Rata-rata 3 2 3 3 4 3 Tabel 8 merupakan representasi hasil clustering pertahun pada prodi Agroteknologi. Bagian tabel yang ditandai dengan warna abu-abu, menunjukkan jumlah dokumen yang berada diatas rata-rata. Nilai rata-rata dihitung seperti pada penjelasan sebelumnya. Berdasarkan Table 8, sel yang memiliki jumlah dokumen diatas rata-rata menyebar di tiap tahunnya. Namun apabila disinkronkan dengan Lampiran Tabel 1 mengenai analisis perkiraan tema, sebagian besar tema yang diambil pada prodi Agroteknologi adalah mengenai pupuk. Hal ini berarti tema yang banyak diambil oleh mahasiswa prodi Agroteknologi di tiap tahunnya adalah kajian mengenai pupuk. Tabel 9 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP CLUSTER ‘08 ‘09 ‘10 ‘11 ‘12 ‘13 Jumlah C1 0

C2 0

C3 0

C4 0

C5 0

C7 0

C9 0

C10 0

C11 0

C12 0

C13 0

C14 0

C15 0

C17 0

C18 0

C19 0

C20 0

C21 0

C22 0

C23 0

C24 0

C25 0

C26 0

C27 0

C29 0

C30 0

C31 0

C32 0

C33 0

C34 0

C35 0

C36 0

C37 0

C38 0

C39 0

C40 1 1

(9)

commit to user

9 Tabel 9 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP

CLUSTER ‘08 ‘09 ‘10 ‘11 ‘12 ‘13 Jumlah

C42 2 1 1 4

C43 3 1 5 9

C44 1 1

C45 0

C46 0

C47 0

C48 1 1 2

C49 2 1 3

C50 1 3 1 5

C51 4 1 1 1 4 11 C52 2 2 2 1 7 C53 0

C54 0

C55 0

C56 0

C57 0

C58 0

C59 1 3 3 2 4 13 C63 0

C64 0

C65 0

C66 0

C67 0

C68 4 2 6

C69 1 1 5 4 11 C70 1 3 7 11

C71 1 1 2

C72 0

C73 0

C74 0

C75 0

C76 0

C77 0

C78 2 8 5 1 9 25 C79 1 6 4 2 1 14 C80 0

C81 0

Jumlah 18 15 55 27 18 27 160 Rata-rata 1 2 4 2 2 3 2,077922 Tabel 9 merupakan representasi hasil clustering pertahun pada prodi Ilmu dan Teknologi Pangan (ITP). Pada tabel tersebut, cluster yang lumayan diminati tiap tahunnya adalah cluster C78 dengan tema mengenai tepung yang berfokus pada kajian karakteristik fiiskokimia tepung maupun pemanfaatan tepung. Pada Tabel 9 sel yang memiliki jumlah diatas rata-rata memang hanya dibeberapa cluster saja. Hal ini dimungkinkan karena dokumen skripsi yang ada diprodi ITP masih lumayan sedikit dibandingkan dengan prodi lainnya. Tabel 10 Distribusi Frekuensi Cluster Pertahun Pada Prodi Peternakan CLUSTER ‘08 ‘09 ‘10 ‘11 ‘12 ‘13 Jumlah C1 0

C2 0

C3 0

C4 0

C5 0

C7 0

C9 0

C10 0

C11 0

C12 0

C13 0

C14 0

C15 0

C17 0

C18 0

C19 0

C26 0

C27 1 1 C29 0

C30 0

C31 0

C32 0

C33 0

C34 0

C20 0

C21 0

C22 0

Tabel 4.11 Distribusi Frekuensi Cluster Pertahun Pada Prodi Peternakan (Lanjutan) CLUSTER ‘08 ‘09 ‘10 ‘11 ‘12 ‘13 Jumlah C23 0

C24 0

C25 0

C35 0

C36 0

C37 2 2 C38 0

C39 1 1

C40 0

C41 0

C42 0

C43 0

C44 0

C45 0

C46 1 1

C47 2 4 3 1 1 11 C48 2 2

C49 6 3 1 2 12 C50 0

C51 7 2 9 C52 2 2

C53 3 3 C54 0

C55 1 2 1 10 4 18 C56 2 1 3

C57 3 1 6 3 5 3 21 C58 1 2 4 7 C59 1 1 2 C60 0

C61 2 6 2 10 C62 0

C63 1 1

C64 8 1 1 10

C65 3 1 4 2 2 1 13 C66 4 1 2 1 8

C67 3 4 1 2 1 4 15 C68 0

C69 0

C70 0

C71 0

C72 0

C73 2 6 9 1 18

C74 7 4 3 1 15

C75 8 5 3 2 18

C76 4 6 6 16

C77 4 1 5

C78 2 2

C79 1 1

C80 0

C81 0

Jumlah 51 31 50 25 40 30 227

Rata-rata 4 3 4 2 3 2

Tabel 10 merupakan representasi hasil clustering pertahun pada prodi Peternakan. Berdasarkan tabel tersebut, terlihat bahwa cluster yang memiliki sel dengan jumlah dokumen diatas rata-rata di tiap tahunnya terletak dibeberapa cluster. Namun apabila dilihat lagi pada Tabel 4.6 mengenai perkiraan tema, terdapat 13 cluster yang membahas mengenai tema umum ransum dengan berbagai objek maupun perlakuan. Hal ini menunjukkan bahwa tema yang banyak diambil oleh mahasiswa prodi Peternakan di tiap tahunnya adalah mengenai ransum.

4.6 Validasi

Untuk mengevaluasi apakah hasil clustering yang diperoleh sudah sesuai atau tidak, maka dilakukan validasi kepada pihak yang lebih mengerti terhadap data tersebut. Validasi pada penelitian ini dilakukan dengan cara bertanya secara langsung kepada Prof. Dr Samanhudi, SP, Msi selaku Pembantu Dekan 1 fakultas Pertanian UNS. Beliau menyatakan bahwa hasil analisis penelitian ini sesuai dengan kondisi sebenarnya. Untuk tema pada prodi Agribisnis memiliki penyebaran tren tema yang bervariasi karena lingkup bidang kajiannya memang cukup luas. Sedangkan pada prodi

(10)

commit to user

10 Agroteknologi , prodi ITP serta prodi Peternakan kurang

bervariasi karena lingkup bidang kajiannya lebih sempit. Beliau juga menyampaikan bahwa hasil penelitian ini dapat dijadikan sebagai dasar pengembangan penelitian di prodi Agroteknologi, ITP serta Peternakan agar kedepannya dapat lebih bervariasi lagi.

5 PENUTUP

5.1 Kesimpulan

Berdasarkan hasil penelitian, dapat disimpulkan bahwa ada beberapa cluster yang pernah dilakukan penelitian skripsi oleh beberapa maupun semua prodi. Hal ini dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi oleh beberapa maupun semua prodi.. Disamping itu, ada juga cluster yang hanya pernah dilakukan penelitian oleh satu prodi tertentu. Dimungkinkan tema pada cluster tersebut tidak bisa dilakukan kolaborasi antar prodi. Namun bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut.

Prodi Agribisnis memiliki penyebaran tren tema yang bervariasi ditiap tahunnya. Sedangkan pada prodi Agroteknologi, prodi ITP, serta prodi Peternakan tema yang banyak diambil tiap tahunnya hanya di bebetapa cluster. Pada prodi Agroteknologi, tema yang paling banyak diambil adalah tentang pupuk. Pada prodi Peternakan banyak mengambil tema mengenai ransum. Sedangkan pada prodi Ilmu dan Teknologi Pangan tema yang banyak diambil adalah mengenai kajian karakteristik atau pemanfaatan tepung, kajian karakteristik fisikokimia dan sensoris.

5.2 Saran

Pada penelitian ini, terdapat beberapa cluster yang memiliki tema sama, atau terdapat beberapa cluster yang memiliki tema yang tidak terdefinisi (tema kurang sama antara satu dokumen dengan dokumen lain). Hal ini dimungkinkan karena pemilihan jumlah cluster yang kurang optimal. Oleh karena itu, dapat ditambahkan suatu metode yang dapat menentukan jumlah optimal cluster-nya. Atau dimungkinkan karena bagian dokumen yang dilakukan proses clustering hanya pada bagian abstrak saja, dimana abstrak hanya merupakan gambaran kecil dari penelitian.Oleh karena itu untuk penelitian yang akan datang bisa menambahkan bagian dokumen lainnya, seperti BAB I.

6 DAFTAR PUSTAKA

[1] Feldman, R. & Sanger, J. 2007. The Text Mining Handbook. New York: Cambridge University Press. [2] Prasetyo, E. 2012. DATA MINING : Konsep dan Aplikasi

menggunakan MATLAB. Yogyakarta : ANDI

[3] Chen, Y., Qin, B., Liu, T., Liu, Y., Li, S. 2010. The Comparison of SOM and K-means for Text Clustering. Computer and Information Science. Vol. 3, No. 2 [4] Affandy & Supriyanto, C. 2011. Kombinasi Teknik Chi

Square Dan Singular Value Decomposition Untuk Reduksi Fitur Pada Pengelompokan Dokumen. Seminar

Nasional Teknologi Informasi & Komunikasi Terapan, Isbn 979-26-0255-0

[5] Langgeni, D. P., Baizal, ZK. and Firdaus, A.W. 2010. Clustering Artikel Berita Berbahasa Indonesia Menggunakan Unsupervised Feature Selection. Seminar Nasional Informatika 2010 (semnasIF 2010) ISSN: 1979-2328. Yogyakarta

[6] Han, J. & Kamber, M. (2006). Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufman [7] Guthikonda, S. M. 2005. “Kohonen Self-Organizing

Maps”, shyamguth ATgmail.com Wittenberg University

[8] Kristanto, A. (2004). Jaringan Syaraf Tiruan (Konsep Dasar, Algoritma dan Aplikasi). Yogyakarta : Gava Media.

[9] Lyonnais, H. 2013.Aplikasi Algoritma Atringmatching pada Analisa Teks (Test Analysis) untuk Decision Support System.

(11)

commit to user

LAMPIRAN

Tabel 1 Perkiraan tema pada setiap

cluster

C1

–

C81

(1) Pupuk (2) Pupuk (3) Pengaruh media, nutrisi, pupuk pada tanaman (4) Pengaruh media, nutrisi, pupuk pada

tanaman, tunas

(5) Konsentrasi IBA,

tunas, kalus 6

(7) Analisis peran atau

strategi komoditi

pertanian 8

(9)

Analisis ketahanan pangan rumah tangga (10) Pupuk (11) Pupuk (12) Pupuk (13) Pengaruh berbagai perlakuan terhadap tanaman (14) - (15)

Seresah, nitrifikasi 16

(17) Persepsi petani

(18) Analisis kebutuhan rumah

tangga

(19) Pupuk

(20) Pupuk, dalam hal

analisisfaktor produksi maupun

pengaruh pupuk terhadap tanaman (21) Bawang (22) pembudidayaan bunga (23) - (24) Padi, terutama pada keragaman genotipe dan

fenotipe

(25) Sikap petani, formal

(26) Evaluasi petani

(27) Analisis petani dalam adopsi inovasi budidaya tanaman, maupun teknologi

pertanian 28 (29) Analisis usahatani (30) Analisis keterpaduan pasar (31) Tumpangsari (32) Identifikasi morfologi tanaman (33) Kajian mengenai lahan

maupun tanah (34) - (35) Penyuluhan petani (36) Partisipasi petani maupun masyarakat dalam berbagai

kegiatan

(37) Analisis pemasaran

(38) analisis sikap atau perilaku konsumen (39) analisis sikap atau perilaku konsumen (40) analisis sikap atau perilaku konsumen (41) Buah (42) - (43) - (44) - (45) Analisis kinerja, pengembangan, serta peranan sektor pertanian

(46) Sapi (47) Ransum (48) Daging (49) Telur (50) Pengaruh pemberian ekstrak dalam berbagai hal (51) - (52) Sebagian besar membahas mengenai beras (53) - (54) Analisis penawaran/ permintaan, analisis komparatif usaha (55) Sapi (56) Pengaruh penggunaan pakan suplemen terhadap keseimbangan nitrogen sapi (57) Ransum (58) Pengaruh Suplementasi Betain dalam Ransum (59) Jahe, mengenai

pemanfaatan ekstrak jahe maupun agribisnis jahe (60) - (61) Susu, yoghurt (62) Analisis kinerja keuangan KUD (63) Analisis usaha industri (64) Pengaruh berbagai perlakuan ransum terhadap performa hewan (65) Pengaruh berbagai perlakuan ransum terhadap performa hewan (66) Ransum (67) Ransum (68) Temulawak, mengenai Pemanfaatan temulawak (69)

Ubi, mengenai pemanfaatan dan pengolahan (70) Perlakuan terhadap bumbu masak (71) Analisis Pengendalian Persediaan Bahan Baku (72) Pengembangan agroindustri, analisis Break

Even Point (73) Ransum (74) Ransum (75) Ransum (76) Ransum (77) Ransum (78)

Tepung, kajian karakteristik fiiskokimia tepung, pemanfaatan tepung (79) Tempe, mengenai karakteristik fisikokimia serta pengolahan (80) Strategi pengembangan industri tempe (81) Strategi pengembangan agroindustri

(1)

commit to user

6 selection pada dokumen skripsi fakultas Pertanian UNS

Tabel 3 Hasil perhitungan TF, DF, IDF, dan TF-IDF

Kemudian dilakukan normalisasi data dengan Algoritma Min Max Normalization dan didapatkan hasil seperti pada Tabel 4

Tabel 4 Hasil normalisasi dengan Algoritma Min Max Normalization

4.4 Proses

Clustering

4.5 Analisis Hasil Clustering

Tabel 6 Distribusi Frekuensi Cluster per Prodi CLUSTER A B C D Jumlah

C1 - 15 - - 15

C2 - 15 - - 15

C3 - 16 - - 16

C4 - 10 - - 10

C5 - 23 - - 23

C7 21 - - - 21

C9 18 - - - 18

C10 - 16 - - 16

C11 - 20 - - 20

C12 - 10 - - 10

C13 - 19 - - 19

C14 - 2 - - 2

C15 - 11 - - 11

C17 18 - - - 18

C18 10 - - - 10

C19 - 16 - - 16

C20 6 10 - - 16

C21 6 21 - - 27

C22 3 7 - - 10

C23 1 18 - - 19

C24 - 8 - - 8

C25 20 - - - 20

C26 10 - - - 10

C27 26 - - 1 27

C29 30 - - - 30

C30 7 - - - 7

C31 3 15 - - 18

C32 - 2 - - 2

C33 3 24 - - 27

C34 10 7 - - 17

C35 26 - - - 26

C36 14 - - - 14

C37 18 - - 2 20

C38 1 - - - 1

C39 23 1 - 1 25

C40 3 - 1 - 4

C41 5 14 6 - 25

(2)

commit to user

7 Tabel 6 Distribusi Frekuensi Cluster per Prodi (Lanjutan)

CLUSTER A B C D Jumlah

C43 13 35 9 - 57

C44 30 4 1 - 35

C45 26 - - - 26

C46 3 - - 1 4 C47 - - - 11 11 C48 2 - 2 2 6 C49 2 - 3 12 17 C50 - 7 5 - 12 C51 1 7 11 9 28 C52 5 7 7 2 21 C53 8 16 - 3 27 C54 20 - - - 20

C55 3 - - 18 21 C56 - - - 3 3 C57 - - - 21 21 C58 - - - 7 7 C59 3 1 13 2 19 C60 - - 19 - 19 C61 1 1 10 10 22 C62 10 - - - 10

C63 23 1 - 1 25 C64 - - - 10 10 C65 - - - 13 13 C66 - - - 8 8 C67 - - - 15 15 C68 - 4 6 - 10 C69 2 7 11 - 20 C70 - - 11 - 11 C71 18 - 2 - 20 C72 18 - - - 18

C73 - - - 18 18 C74 - - - 15 15 C75 - - - 18 18 C76 - - - 16 16 C77 - - - 5 5 C78 1 - 25 2 28 C79 3 - 14 1 18 C80 3 - - - 3

C81 29 - - - 29

C2 0

C3 0

C4 0

C5 0

C7 3 3 4 8 1 2 21 C9 6 4 8 18 C10 0

C11 0

C12 0

C13 0

C14 0

C15 0

C17 1 6 4 7 18 C18 3 1 3 2 1 10 C19 0

C20 2 1 2 1 6 C21 1 2 2 1 6

C22 1 2 3 C23 1 1 C24 0

C25 2 2 4 8 2 2 20 C26 3 1 1 3 1 1 10 C27 4 2 4 9 5 2 26 C29 1 4 2 5 7 11 30 C30 5 1 1 7 C31 2 1 3

C32 0

C33 2 1 3 C34 2 1 4 2 1 10 C35 6 3 9 7 1 26

C36 2 3 7 2 14 C37 3 1 6 3 5 18 C38 1 1

C39 2 3 7 4 3 4 23 C40 1 1 1 3 C41 1 2 2 5 C42 1 1

C43 1 2 2 5 3 13 C44 4 2 2 7 8 7 30 C45 3 4 8 3 2 6 26 C46 1 1 1 3 C47 0

C48 1 1 2

C49 1 1 2

C50 0

C51 1 1 C52 1 1 1 2 5

C53 1 1 3 3 8 C54 2 1 7 4 2 4 20 C55 1 2 3

C56 0

C57 0

C58 0

C59 1 1 1 3 C60 0

C61 1 1 C62 2 2 2 3 1 10

C63 1 2 10 3 4 3 23 C64 0

C65 0

C66 0

C67 0

C68 0

C69 1 1 2 C70 0

C71 2 4 4 1 5 2 18 C72 1 5 6 3 3 18

C73 0

C74 0

C75 0

C76 0

C77 0

C78 1 1 C79 1 1 1 3 C80 1 1 1 3 C81 1 2 6 5 10 5 29 Jumlah 52 62 107 106 85 95 507

Rata-rata 2 2 4 3 3 3

Analisis ketiga yaitu analisis mengenai pola yang terbentuk pada pemetaan distribusi frekuensi hasil clustering setiap prodi pertahunnya. Tabel 7 merupakan pemetaan

(3)

commit to user

8 distribusi frekuensi cluster pertahun pada prodi Agribisnis.

Tabel 8 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agroteknologi

CLUSTER ‘08 ‘09 ‘10 ‘11 ‘12 ‘13 Jumlah

C1 1 1 10 3 15

C2 4 2 4 1 2 2 15 C3 2 2 5 6 1 16 C4 3 2 3 1 1 10 C5 4 1 8 3 6 1 23 C7 0

C9 0

C10 3 1 1 8 3 16

C11 1 3 5 8 3 20 C12 2 1 2 1 1 3 10 C13 1 4 5 5 2 2 19 C14 1 1 2

C15 5 2 4 11

C17 0

C18 0

C19 2 6 4 4 16 C20 6 1 1 1 1 10 C21 1 2 3 11 4 21 C22 2 1 1 3 7

C23 1 4 2 3 8 18 C24 4 1 2 1 8

C25 0

C26 0

C27 0

C29 0

C30 0

C31 1 3 3 8 15

C32 1 1 2

C33 8 4 6 4 1 1 24 C34 2 3 1 1 7

C35 0

C36 0

C37 0

C38 0

C39 1 1

C40 0

C41 3 1 1 3 3 3 14 C42 1 2 4 7 C43 2 3 8 13 9 35 C44 1 2 1 4

C45 0

C46 0

C47 0

C48 0

C49 0

C50 3 1 3 7

C51 1 2 2 2 7 C52 2 2 3 7

C53 2 1 4 6 3 16 C54 0

C55 0

C56 0

C57 0

Tabel 8 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agroteknologi (Lanjutan) CLUSTER 2008 2009 2010 2011 2012 2013 Jumlah C58 0

C59 1 1

C60 0

C61 1 1

C62 0

C63 1 1 C64 0

C65 0

C66 0

C67 0

C68 2 2 4

C69 3 3 1 7

C70 0

C71 0

C72 0

C73 0

C74 0

C75 0

C76 0

C77 0

C78 0

C79 0

C80 0

C81 0

C2 0

C3 0

C4 0

C5 0

C7 0

C9 0

C10 0

C11 0

C12 0

C13 0

C14 0

C15 0

C17 0

C18 0

C19 0

C20 0

C21 0

C22 0

C23 0

C24 0

C25 0

C26 0

C27 0

C29 0

C30 0

C31 0

C32 0

C33 0

C34 0

C35 0

C36 0

C37 0

C38 0

C39 0

C40 1 1

(4)

commit to user

9 Tabel 9 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP

CLUSTER ‘08 ‘09 ‘10 ‘11 ‘12 ‘13 Jumlah

C42 2 1 1 4

C43 3 1 5 9

C44 1 1

C45 0

C46 0

C47 0

C48 1 1 2

C49 2 1 3

C50 1 3 1 5

C51 4 1 1 1 4 11 C52 2 2 2 1 7 C53 0

C54 0

C55 0

C56 0

C57 0

C58 0

C59 1 3 3 2 4 13 C63 0

C64 0

C65 0

C66 0

C67 0

C68 4 2 6

C69 1 1 5 4 11 C70 1 3 7 11

C71 1 1 2

C72 0

C73 0

C74 0

C75 0

C76 0

C77 0

C78 2 8 5 1 9 25 C79 1 6 4 2 1 14 C80 0

C81 0

C2 0

C3 0

C4 0

C5 0

C7 0

C9 0

C10 0

C11 0

C12 0

C13 0

C14 0

C15 0

C17 0

C18 0

C19 0

C26 0

C27 1 1 C29 0

C30 0

C31 0

C32 0

C33 0

C34 0

C20 0

C21 0

C22 0

Tabel 4.11 Distribusi Frekuensi Cluster Pertahun Pada Prodi Peternakan (Lanjutan) CLUSTER ‘08 ‘09 ‘10 ‘11 ‘12 ‘13 Jumlah C23 0

C24 0

C25 0

C35 0

C36 0

C37 2 2 C38 0

C39 1 1

C40 0

C41 0

C42 0

C43 0

C44 0

C45 0

C46 1 1

C47 2 4 3 1 1 11 C48 2 2

C49 6 3 1 2 12 C50 0

C51 7 2 9 C52 2 2

C53 3 3 C54 0

C55 1 2 1 10 4 18 C56 2 1 3

C57 3 1 6 3 5 3 21 C58 1 2 4 7 C59 1 1 2 C60 0

C61 2 6 2 10 C62 0

C63 1 1

C64 8 1 1 10

C65 3 1 4 2 2 1 13 C66 4 1 2 1 8

C67 3 4 1 2 1 4 15 C68 0

C69 0

C70 0

C71 0

C72 0

C73 2 6 9 1 18

C74 7 4 3 1 15

C75 8 5 3 2 18

C76 4 6 6 16

C77 4 1 5

C78 2 2

C79 1 1

C80 0

C81 0 Jumlah 51 31 50 25 40 30 227

Rata-rata 4 3 4 2 3 2

4.6 Validasi

(5)

commit to user

10 Agroteknologi , prodi ITP serta prodi Peternakan kurang

5 PENUTUP

5.1 Kesimpulan

5.2 Saran

6 DAFTAR PUSTAKA

[1] Feldman, R. & Sanger, J. 2007. The Text Mining Handbook. New York: Cambridge University Press. [2] Prasetyo, E. 2012. DATA MINING : Konsep dan Aplikasi

menggunakan MATLAB. Yogyakarta : ANDI

Square Dan Singular Value Decomposition Untuk Reduksi Fitur Pada Pengelompokan Dokumen. Seminar

Nasional Teknologi Informasi & Komunikasi Terapan, Isbn 979-26-0255-0

[6] Han, J. & Kamber, M. (2006). Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufman [7] Guthikonda, S. M. 2005. “Kohonen Self-Organizing

Maps”, shyamguth ATgmail.com Wittenberg University

[8] Kristanto, A. (2004). Jaringan Syaraf Tiruan (Konsep Dasar, Algoritma dan Aplikasi). Yogyakarta : Gava Media.

[9] Lyonnais, H. 2013.Aplikasi Algoritma Atringmatching pada Analisa Teks (Test Analysis) untuk Decision Support System.

(6)

commit to user

LAMPIRAN

Tabel 1 Perkiraan tema pada setiap

cluster

C1

–

C81

(1) Pupuk (2) Pupuk (3) Pengaruh media, nutrisi, pupuk pada tanaman (4) Pengaruh media, nutrisi, pupuk pada

tanaman, tunas

(5) Konsentrasi IBA,

tunas, kalus 6

(7) Analisis peran atau

strategi komoditi

pertanian 8

(9)

Analisis ketahanan pangan rumah tangga (10) Pupuk (11) Pupuk (12) Pupuk (13) Pengaruh berbagai perlakuan terhadap tanaman (14) - (15)

Seresah, nitrifikasi 16

(17) Persepsi petani

(18) Analisis kebutuhan rumah

tangga

(19) Pupuk

(20) Pupuk, dalam hal

analisisfaktor produksi maupun

pengaruh pupuk terhadap tanaman (21) Bawang (22) pembudidayaan bunga (23) - (24) Padi, terutama pada keragaman genotipe dan

fenotipe

(25) Sikap petani, formal

(26) Evaluasi petani

(27) Analisis petani dalam adopsi inovasi budidaya tanaman, maupun teknologi

pertanian 28 (29) Analisis usahatani (30) Analisis keterpaduan pasar (31) Tumpangsari (32) Identifikasi morfologi tanaman (33) Kajian mengenai lahan

maupun tanah (34) - (35) Penyuluhan petani (36) Partisipasi petani maupun masyarakat dalam berbagai

kegiatan

(37) Analisis pemasaran

Ubi, mengenai pemanfaatan dan pengolahan (70) Perlakuan terhadap bumbu masak (71) Analisis Pengendalian Persediaan Bahan Baku (72) Pengembangan agroindustri, analisis Break

Even Point (73) Ransum (74) Ransum (75) Ransum (76) Ransum (77) Ransum (78)

JURNAL Vera M0509074

commit to user

CLUSTERING

DOKUMEN MENGGUNAKAN ALGORITMA

SELF-ORGANIZING MAP

(SOM)

(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS)

Vera Suryaningsih

[email protected]

Sari Widya Sihwi

[email protected]

Meiyanto Eko Sulistyo

[email protected]

ABSTRAK

1.

PENDAHULUAN

commit to user

2.

DASAR TEORI

2.1

Text Mining

2.2

Text Preprocessing

2.3

TF-IDF

2.4

DF

Feature Selection

2.5

Min Max Normalization

2.6

Clustering

commit to user

2.7

Self-Organizing Map (SOM)

3.

Metodologi Penelitian

commit to user

3.1

Studi Literatur

3.2

Pengumpulan Data

3.3

Penerapan Metode

3.4

Tahap Analisis

3.5

Tahap Validasi

4

PEMBAHASAN

4.1

Deskripsi Data

commit to user

4.2

Text Preprocessing

4.3

Proses TF-IDF

commit to user

4.4

Proses

Clustering

4.5

Analisis Hasil Clustering

commit to user

commit to user

commit to user

4.6

Validasi

commit to user

5

PENUTUP

5.1

Kesimpulan

5.2 Saran

6

DAFTAR PUSTAKA

LAMPIRAN

Tabel 1 Perkiraan tema pada setiap

cluster

C1