Proses TF-IDF DASAR TEORI

commit to user 5 Kemudian data disimpan ke dalam database menggunakan MySQL database. 4.2 Text Preprocessing Pada kasus ini, akan mengambil salah satu dokumen untuk dijadikan sebagai contoh. Abstrak pada dokumen tersebut mempunyai 380 kata dan beberapa karakter seperti titik, koma, dan lain-lain. Setelah itu dilakukan proses case folding dengan cara mengubah semua huruf menjadi huruf kecil serta membuang karakter selain huruf „a‟ sampai „z‟. Setelah melalui proses case foldin g, jumlah kata sedikit berkurang dan tersisa 376 kata. Kemudian dilakukan proses tokenizing . Pada proses ini tidak ada pengurangan kata, karena hanya melakukan proses pemecahan kata saja. Selanjutnya dilakukan proses filtering dengan membuang kata-kata yang cocok dengan kamus stopwords. Pada proses ini, terjadi pengurangan kata dari sebelumnya 376 kata menjadi 168 kata. Hal ini berarti pada abstrak dokumen tersebut terdapat 208 kata yang tidak penting atau stopwords . Proses selanjutnya adalah stemming dengan menggunakan menggunakan algoritma Nazief Adriani. Tidak ada pengurangan kata pada proses ini, karena hanya merubah bentuk kata menjadi kata dasar. Meskipun sebelumnya sudah dilakukan proses filtering , tapi terkadang ada kata yang setelah dicari kata dasarnya ternyata terdeteksi stopword . Hal ini disebabkan keterbatasan kamus pada stopword . Sehingga perlu dilakukan proses filtering lagi terhadap hasil stemming. Setelah dilakukan filtering lagi terhadap hasil stemming, terjadi pengurangan kata dari sebelumnya 168 kata menjadi 139 kata. Hal ini berarti masih ada 29 kata yang belum terdeteksi stopword pada proses filtering sebelumnya. Gambar 5 merupakan alur dari text preprocessing terhadap cuplikan dokumen contoh. Gambar 5 Proses text preprocessing Berdasarkan proses text preprocessing diatas, diketahui bahwa dokumen sampel mengalami pengurangan kata pada proses case folding, filtering dan filtering-stemming . Sebelumnya dokumen tersebut mempunyai kata sebanyak 380, lalu pada tahap case folding turun menjadi 376 kata, pada tahap filtering menjadi 168 kata, dan pada tahap filtering - stemming menjadi 139 kata. Pengurangan kata tersebut bermanfaat pada saat tahap clustering , karena dapat memperkecil dimensi yang membuat waktu komputasi lebih cepat.

4.3 Proses TF-IDF

Hasil dari text preprocessing diubah ke dalam bentuk vektor m x n , dimana m adalah jumlah term dan n adalah jumlah dokumen. Kemudian dilakukan pembobotan terhadap term kata tersebut. Proses pembobotan kata term weigthing berfungsi untuk memberikan nilai pada sebuah kata. Untuk proses pembobotan kata akan digunakan perhitungan term frequency – inverse document frequency TF-IDF. Tabel 1 merupakan sampel dokumen yang telah melalui proses text preprocessing. D1 merupakan dokumen pertama dengan keyword tani, tindak, agroindustri, basis, agraris, dan padi, dan seterusnya. Tabel 1. Contoh dokumen untuk perhitungan TF-IDF Dok Key1 Key 2 Key 3 Key 4 Key 5 Key 6 D1 tani tindak agroindustri basis agraris padi D2 tani sayur komoditas sayur kebun D3 padi komoditas pokok produksi tanam padi D4 tanam karet komoditas kebun ekspor hujan Langkah pertama pada proses pembobotan TF-IDF adalah menghitung nilai TF dengan cara menghitung kemunculan term pada dokumen tertentu. Langkah kedua menghitung nilai Document Frequency -nya DF yaitu jumlah dokumen yang mengandung term tersebut. Hasil dari perhitungan TF serta DF dapat dilihat pada Tabel 2. Tabel 2 Hasil dari perhitungan TF serta DF yang belum mengalami proses feature selection Term D1 D2 D3 D4 DF tani 1 1 2 tindak 1 1 agroindustri 1 1 basis 1 1 agraris 1 1 sayur 2 1 komoditas 1 1 1 3 padi 1 2 2 pokok 1 1 produksi 1 1 Lalu term yang sudah dicari nilai DF-nya diseleksi berdasarkan nilai threshold . Jika nilai DF berada di bawah min threshold atau di atas max threshold yang telah ditentukan, maka term tersebut akan dibuang. Pada contoh ini hanya diberikan min threshold yaitu 2, dalam arti bahwa term dengan nilai DF dibawah 2 akan dibuang. Lihat hasilnya pada Tabel 3 kolom DF. Berdasarkan hasil seleksi kata dengan feature selection DF, terjadi pengurangan kata dari 15 kata menjadi 5. Kata yang dibuang antara lain tindak, agroindustri, basis, agraris, sayur, pokok, produksi, karet, ekspor, dan hujan. Untuk kasus f eature commit to user 6 selection pada dokumen skripsi fakultas Pertanian UNS menggunakan min threshold 6 dan max threshold 300. Oleh karena itu kata dengan DF dibawah 6 dan kata dengan DF diatas 300 akan dihapus. Dari proses tersebut dihasilkan pengurangan kata dari awalnya 7.902 kata menjadi 1.413 kata. Pengurangan kata ini sangat berpengaruh pada waktu komputasi proses selanjutnya. Langkah ketiga yaitu perhitungan IDF menggunakan rumus : log , dimana N adalah jumlah keseluruhan dokumen dan adalah nilai DF yang sudah dihitung pada proses sebelumnya. Langkah terakhir dalam perhitungan pembobotan adalah perhitungan TF-IDF dengan cara mengalikan hasil TF dengan hasil IDF. Lihat Tabel 3 untuk melihat semua hasil dari proses TF, DF, IDF dan TF-IDF . Tabel 3 Hasil perhitungan TF, DF, IDF, dan TF-IDF Kemudian dilakukan normalisasi data dengan Algoritma Min Max Normalization dan didapatkan hasil seperti pada Tabel 4 Tabel 4 Hasil normalisasi dengan Algoritma Min Max Normalization

4.4 Proses