commit to user
4
3.1 Studi Literatur
Studi literatur dilakukan untuk mengumpulkan bahan referensi melalui pencarian di internet, jurnal-jurnal penelitian,
serta buku pendukung yang relevan dan berhubungan dengan permasalahan, analisis, dan implementasi sistem. Selain itu juga
untuk memperkuat pengetahuan dasar dan teori yang digunakan dalam penelitian ini.
3.2 Pengumpulan Data
Penelitian ini menggunakan data sekunder yaitu dokumen skripsi yang ada di fakultas Pertanian UNS dengan tahun
pembuatan 2008 sampai 2013. Data diperoleh dengan cara meminta secara langsung kepada pihak perpustakaan UNS.
Data yang akan digunakan untuk masukan pada proses
clustering
adalah bagian abstrak dokumen yang berbahasa Indonesia saja.
Sebelum dilakukan proses
clustering
, dokumen yang telah terkumpul akan dilakukan pemilahan. Dokumen dengan abstrak
yang tidak berbahasa Indonesia atau memiliki keterangan kurang lengkap tidak ada tahun pembuatan, prodi, atau abstrak
akan dihapus. Selanjutnya, data akan disimpan ke dalam
database
menggunakan MySQL
database
.
3.3 Penerapan Metode
Pada tahap ini akan dilakukan implementasi sistem agar dapat memudahkan dalam tahap analisis terhadap hasil
clustering
dokumen penelitian di UNS. Seluruh fungsi yang dibutuhkan diterjemahkan ke dalam rangkaian kode dengan
menggunakan bahasa pemrograman PHP.
3.3.1 Tahap
Text Preprocessing
Tahapan
text preprocessing
meliputi
casse folding, tokenizing, filtering, stemming,
serta
filtering
hasil
stemming
.
Gambar 4. Proses
Text Preprocessing
3.3.2 Tahap Pembobotan TF-IDF
Tahap pembobotan TF-IDF diawali dengan menghitung TF dengan cara menghitung frekuensi kemunculan
term
t dalam sebuah dokumen d pada hasil
filtering
hasil
stemming
. Kemudian dicari nilai DF yaitu banyaknya dokumen yang
mengandung
term
t. Lalu dilakukan
feature selection
pada
term
tersebut berdasarkan threshold batas maksimal dan minimal yang diberikan. Selanjutnya dilakukan perhitungan IDF dimana
hasil DF akan dijadikan sebagai
input
-an. Barulah didapatkan bobot TF-IDF dengan mengalikan hasil TF dengan IDF. Setelah
bobot TF-IDF didapat, kemudian dilakukan normalisasi
Min Max.
3.3.3 Tahap
Clustering
Setelah dilakukan pembobotan TF-IDF, tahap selanjutnya yaitu melakukan proses
clustering
dengan menggunakan algoritma SOM. Bobot yang di hasilkan pada tahap TF-IDF
digunakan sebagai
input
-an. Setelah itu, menginisialiasasi topologi SOM, jumlah iterasi, laju pembelajaran
learning rate
, radius ketetanggan, serta
width
dan
heighnya
. Kemudian, menginisialisasi bobot awal dengan matriks bobot berukuran i x
j W
ij
, dimana i adalah jumlah
term
yang telah dihilangkan duplikasinya dan j adalah jumlah
cluster
perkalian dari
widht
dan
height
. Kemudian diolah menggunakan algoritma SOM yang telah dijelaskan pada dasar teori. Hasil akhir dari tahap ini
adalah masing-masing dokumen akan masuk kedalam
cluster
tertentu dimana satu dokumen hanya akan masuk ke dalam satu
cluster
.
3.4 Tahap Analisis
Pada tahap ini akan dilakukan analisis terhadap hasil
clustering
dokumen skripsi di fakultas Pertanian UNS. Analisis pertama yaitu analisis mengenai tema pada setiap clusternya.
Analisis kedua yaitu analisis mengenai pola yang terbentuk dari hasil
clustering
. Pola pertama yaitu merepresentasikan hasil cluster antar prodi. Sedangkan pola kedua, merepresentasikan
hasil
clustering
setiap prodi pertahunnya.
3.5 Tahap Validasi
Untuk mengevaluasi apakah hasil
clustering
yang diperoleh sudah sesuai atau tidak, maka perlu dilakukan validasi
kepada pihak yang lebih mengerti terhadap data tersebut. Validasi pada penelitian ini akan dilakukan dengan cara
bertanya secara langsung kepada Pembantu Dekan 1 PD 1 fakultas Pertanian UNS. Alasan kenapa memilih PD 1 sebagai
pihak validator adalah karena PD 1 merupakan penanggung jawab bagian akademik dan pendidikan fakultas.
4 PEMBAHASAN
4.1 Deskripsi Data
Pada penelitian ini data yang digunakan berupa dokumen skripsi yang ada di fakultas Pertanian UNS pada tahun 2008
sampai 2013. Bagian dokumen yang digunakan dalam melakukan
clustering
adalah bagian abstrak. Setelah dilakukan pemilahan terhadap 1.385 dokumen yang terkumpul, didapat
1.291 dokumen yang siap dilakukan proses selanjutnya.
Case Folding Input :
abstrak dokumen Output
: abstrak dengan huruf kecil semua dan hanya ada karakter huruf „a‟ sampai „z‟
Tokenizing Input :
hasil case folding Output
: kata-kata yang telah terurai Filtering
Input : hasil tokenizing
Output : kata-kata yang bukan termasuk stoplist
Stemming Input :
hasil filtering Output
: kata dasar menggunakan kamus kata dasar dan
algoritma Nazief dan Adriani Filtering
hasil Stemming Input :
hasil stemming Output
: kata-kata yang bukan term
asuk stoplist
commit to user
5 Kemudian data disimpan ke dalam
database
menggunakan MySQL
database.
4.2
Text Preprocessing
Pada kasus ini, akan mengambil salah satu dokumen untuk dijadikan sebagai contoh. Abstrak pada dokumen tersebut
mempunyai 380 kata dan beberapa karakter seperti titik, koma, dan lain-lain. Setelah itu dilakukan proses
case folding
dengan cara mengubah semua huruf menjadi huruf kecil serta
membuang karakter selain huruf „a‟ sampai „z‟. Setelah melalui
proses case foldin
g, jumlah kata sedikit berkurang dan tersisa 376 kata. Kemudian dilakukan proses
tokenizing
. Pada proses ini tidak ada pengurangan kata, karena hanya melakukan proses
pemecahan kata saja. Selanjutnya dilakukan proses
filtering
dengan membuang kata-kata yang cocok dengan kamus
stopwords.
Pada proses ini, terjadi pengurangan kata dari sebelumnya 376 kata menjadi 168
kata. Hal ini berarti pada abstrak dokumen tersebut terdapat 208 kata yang tidak penting atau
stopwords
. Proses selanjutnya adalah
stemming
dengan menggunakan menggunakan algoritma Nazief Adriani. Tidak ada pengurangan kata pada proses ini,
karena hanya merubah bentuk kata menjadi kata dasar. Meskipun sebelumnya sudah dilakukan proses
filtering
, tapi terkadang ada kata yang setelah dicari kata dasarnya
ternyata terdeteksi
stopword
. Hal ini disebabkan keterbatasan kamus pada
stopword
. Sehingga perlu dilakukan proses filtering lagi terhadap hasil stemming. Setelah dilakukan filtering lagi
terhadap hasil stemming, terjadi pengurangan kata dari sebelumnya 168 kata menjadi 139 kata. Hal ini berarti masih
ada 29 kata yang belum terdeteksi
stopword
pada proses
filtering
sebelumnya. Gambar 5 merupakan alur dari
text preprocessing
terhadap cuplikan dokumen contoh.
Gambar 5 Proses
text preprocessing
Berdasarkan proses
text preprocessing
diatas, diketahui bahwa dokumen sampel mengalami pengurangan kata pada
proses
case folding,
filtering dan
filtering-stemming
. Sebelumnya dokumen tersebut mempunyai kata sebanyak 380,
lalu pada tahap
case folding
turun menjadi 376 kata, pada tahap
filtering
menjadi 168 kata, dan pada tahap
filtering
-
stemming
menjadi 139 kata. Pengurangan kata tersebut bermanfaat pada saat tahap
clustering
, karena dapat memperkecil dimensi yang membuat waktu komputasi lebih cepat.
4.3 Proses TF-IDF