Deskripsi Data DASAR TEORI

commit to user 4

3.1 Studi Literatur

Studi literatur dilakukan untuk mengumpulkan bahan referensi melalui pencarian di internet, jurnal-jurnal penelitian, serta buku pendukung yang relevan dan berhubungan dengan permasalahan, analisis, dan implementasi sistem. Selain itu juga untuk memperkuat pengetahuan dasar dan teori yang digunakan dalam penelitian ini.

3.2 Pengumpulan Data

Penelitian ini menggunakan data sekunder yaitu dokumen skripsi yang ada di fakultas Pertanian UNS dengan tahun pembuatan 2008 sampai 2013. Data diperoleh dengan cara meminta secara langsung kepada pihak perpustakaan UNS. Data yang akan digunakan untuk masukan pada proses clustering adalah bagian abstrak dokumen yang berbahasa Indonesia saja. Sebelum dilakukan proses clustering , dokumen yang telah terkumpul akan dilakukan pemilahan. Dokumen dengan abstrak yang tidak berbahasa Indonesia atau memiliki keterangan kurang lengkap tidak ada tahun pembuatan, prodi, atau abstrak akan dihapus. Selanjutnya, data akan disimpan ke dalam database menggunakan MySQL database .

3.3 Penerapan Metode

Pada tahap ini akan dilakukan implementasi sistem agar dapat memudahkan dalam tahap analisis terhadap hasil clustering dokumen penelitian di UNS. Seluruh fungsi yang dibutuhkan diterjemahkan ke dalam rangkaian kode dengan menggunakan bahasa pemrograman PHP.

3.3.1 Tahap

Text Preprocessing Tahapan text preprocessing meliputi casse folding, tokenizing, filtering, stemming, serta filtering hasil stemming . Gambar 4. Proses Text Preprocessing

3.3.2 Tahap Pembobotan TF-IDF

Tahap pembobotan TF-IDF diawali dengan menghitung TF dengan cara menghitung frekuensi kemunculan term t dalam sebuah dokumen d pada hasil filtering hasil stemming . Kemudian dicari nilai DF yaitu banyaknya dokumen yang mengandung term t. Lalu dilakukan feature selection pada term tersebut berdasarkan threshold batas maksimal dan minimal yang diberikan. Selanjutnya dilakukan perhitungan IDF dimana hasil DF akan dijadikan sebagai input -an. Barulah didapatkan bobot TF-IDF dengan mengalikan hasil TF dengan IDF. Setelah bobot TF-IDF didapat, kemudian dilakukan normalisasi Min Max.

3.3.3 Tahap

Clustering Setelah dilakukan pembobotan TF-IDF, tahap selanjutnya yaitu melakukan proses clustering dengan menggunakan algoritma SOM. Bobot yang di hasilkan pada tahap TF-IDF digunakan sebagai input -an. Setelah itu, menginisialiasasi topologi SOM, jumlah iterasi, laju pembelajaran learning rate , radius ketetanggan, serta width dan heighnya . Kemudian, menginisialisasi bobot awal dengan matriks bobot berukuran i x j W ij , dimana i adalah jumlah term yang telah dihilangkan duplikasinya dan j adalah jumlah cluster perkalian dari widht dan height . Kemudian diolah menggunakan algoritma SOM yang telah dijelaskan pada dasar teori. Hasil akhir dari tahap ini adalah masing-masing dokumen akan masuk kedalam cluster tertentu dimana satu dokumen hanya akan masuk ke dalam satu cluster .

3.4 Tahap Analisis

Pada tahap ini akan dilakukan analisis terhadap hasil clustering dokumen skripsi di fakultas Pertanian UNS. Analisis pertama yaitu analisis mengenai tema pada setiap clusternya. Analisis kedua yaitu analisis mengenai pola yang terbentuk dari hasil clustering . Pola pertama yaitu merepresentasikan hasil cluster antar prodi. Sedangkan pola kedua, merepresentasikan hasil clustering setiap prodi pertahunnya.

3.5 Tahap Validasi

Untuk mengevaluasi apakah hasil clustering yang diperoleh sudah sesuai atau tidak, maka perlu dilakukan validasi kepada pihak yang lebih mengerti terhadap data tersebut. Validasi pada penelitian ini akan dilakukan dengan cara bertanya secara langsung kepada Pembantu Dekan 1 PD 1 fakultas Pertanian UNS. Alasan kenapa memilih PD 1 sebagai pihak validator adalah karena PD 1 merupakan penanggung jawab bagian akademik dan pendidikan fakultas. 4 PEMBAHASAN

4.1 Deskripsi Data

Pada penelitian ini data yang digunakan berupa dokumen skripsi yang ada di fakultas Pertanian UNS pada tahun 2008 sampai 2013. Bagian dokumen yang digunakan dalam melakukan clustering adalah bagian abstrak. Setelah dilakukan pemilahan terhadap 1.385 dokumen yang terkumpul, didapat 1.291 dokumen yang siap dilakukan proses selanjutnya. Case Folding Input : abstrak dokumen Output : abstrak dengan huruf kecil semua dan hanya ada karakter huruf „a‟ sampai „z‟ Tokenizing Input : hasil case folding Output : kata-kata yang telah terurai Filtering Input : hasil tokenizing Output : kata-kata yang bukan termasuk stoplist Stemming Input : hasil filtering Output : kata dasar menggunakan kamus kata dasar dan algoritma Nazief dan Adriani Filtering hasil Stemming Input : hasil stemming Output : kata-kata yang bukan term asuk stoplist commit to user 5 Kemudian data disimpan ke dalam database menggunakan MySQL database. 4.2 Text Preprocessing Pada kasus ini, akan mengambil salah satu dokumen untuk dijadikan sebagai contoh. Abstrak pada dokumen tersebut mempunyai 380 kata dan beberapa karakter seperti titik, koma, dan lain-lain. Setelah itu dilakukan proses case folding dengan cara mengubah semua huruf menjadi huruf kecil serta membuang karakter selain huruf „a‟ sampai „z‟. Setelah melalui proses case foldin g, jumlah kata sedikit berkurang dan tersisa 376 kata. Kemudian dilakukan proses tokenizing . Pada proses ini tidak ada pengurangan kata, karena hanya melakukan proses pemecahan kata saja. Selanjutnya dilakukan proses filtering dengan membuang kata-kata yang cocok dengan kamus stopwords. Pada proses ini, terjadi pengurangan kata dari sebelumnya 376 kata menjadi 168 kata. Hal ini berarti pada abstrak dokumen tersebut terdapat 208 kata yang tidak penting atau stopwords . Proses selanjutnya adalah stemming dengan menggunakan menggunakan algoritma Nazief Adriani. Tidak ada pengurangan kata pada proses ini, karena hanya merubah bentuk kata menjadi kata dasar. Meskipun sebelumnya sudah dilakukan proses filtering , tapi terkadang ada kata yang setelah dicari kata dasarnya ternyata terdeteksi stopword . Hal ini disebabkan keterbatasan kamus pada stopword . Sehingga perlu dilakukan proses filtering lagi terhadap hasil stemming. Setelah dilakukan filtering lagi terhadap hasil stemming, terjadi pengurangan kata dari sebelumnya 168 kata menjadi 139 kata. Hal ini berarti masih ada 29 kata yang belum terdeteksi stopword pada proses filtering sebelumnya. Gambar 5 merupakan alur dari text preprocessing terhadap cuplikan dokumen contoh. Gambar 5 Proses text preprocessing Berdasarkan proses text preprocessing diatas, diketahui bahwa dokumen sampel mengalami pengurangan kata pada proses case folding, filtering dan filtering-stemming . Sebelumnya dokumen tersebut mempunyai kata sebanyak 380, lalu pada tahap case folding turun menjadi 376 kata, pada tahap filtering menjadi 168 kata, dan pada tahap filtering - stemming menjadi 139 kata. Pengurangan kata tersebut bermanfaat pada saat tahap clustering , karena dapat memperkecil dimensi yang membuat waktu komputasi lebih cepat.

4.3 Proses TF-IDF