commit to user
5 Kemudian data disimpan ke dalam
database
menggunakan MySQL
database.
4.2
Text Preprocessing
Pada kasus ini, akan mengambil salah satu dokumen untuk dijadikan sebagai contoh. Abstrak pada dokumen tersebut
mempunyai 380 kata dan beberapa karakter seperti titik, koma, dan lain-lain. Setelah itu dilakukan proses
case folding
dengan cara mengubah semua huruf menjadi huruf kecil serta
membuang karakter selain huruf „a‟ sampai „z‟. Setelah melalui
proses case foldin
g, jumlah kata sedikit berkurang dan tersisa 376 kata. Kemudian dilakukan proses
tokenizing
. Pada proses ini tidak ada pengurangan kata, karena hanya melakukan proses
pemecahan kata saja. Selanjutnya dilakukan proses
filtering
dengan membuang kata-kata yang cocok dengan kamus
stopwords.
Pada proses ini, terjadi pengurangan kata dari sebelumnya 376 kata menjadi 168
kata. Hal ini berarti pada abstrak dokumen tersebut terdapat 208 kata yang tidak penting atau
stopwords
. Proses selanjutnya adalah
stemming
dengan menggunakan menggunakan algoritma Nazief Adriani. Tidak ada pengurangan kata pada proses ini,
karena hanya merubah bentuk kata menjadi kata dasar. Meskipun sebelumnya sudah dilakukan proses
filtering
, tapi terkadang ada kata yang setelah dicari kata dasarnya
ternyata terdeteksi
stopword
. Hal ini disebabkan keterbatasan kamus pada
stopword
. Sehingga perlu dilakukan proses filtering lagi terhadap hasil stemming. Setelah dilakukan filtering lagi
terhadap hasil stemming, terjadi pengurangan kata dari sebelumnya 168 kata menjadi 139 kata. Hal ini berarti masih
ada 29 kata yang belum terdeteksi
stopword
pada proses
filtering
sebelumnya. Gambar 5 merupakan alur dari
text preprocessing
terhadap cuplikan dokumen contoh.
Gambar 5 Proses
text preprocessing
Berdasarkan proses
text preprocessing
diatas, diketahui bahwa dokumen sampel mengalami pengurangan kata pada
proses
case folding,
filtering dan
filtering-stemming
. Sebelumnya dokumen tersebut mempunyai kata sebanyak 380,
lalu pada tahap
case folding
turun menjadi 376 kata, pada tahap
filtering
menjadi 168 kata, dan pada tahap
filtering
-
stemming
menjadi 139 kata. Pengurangan kata tersebut bermanfaat pada saat tahap
clustering
, karena dapat memperkecil dimensi yang membuat waktu komputasi lebih cepat.
4.3 Proses TF-IDF
Hasil dari
text preprocessing
diubah ke dalam bentuk vektor
m x n
, dimana
m
adalah jumlah
term
dan
n
adalah jumlah dokumen. Kemudian dilakukan pembobotan terhadap
term
kata tersebut. Proses pembobotan kata
term weigthing
berfungsi untuk memberikan nilai pada sebuah kata. Untuk proses pembobotan kata akan digunakan perhitungan
term frequency
–
inverse document frequency
TF-IDF. Tabel 1 merupakan sampel dokumen yang telah melalui proses
text preprocessing.
D1 merupakan dokumen pertama dengan keyword tani, tindak, agroindustri, basis, agraris, dan padi, dan
seterusnya. Tabel 1. Contoh dokumen untuk perhitungan TF-IDF
Dok Key1
Key 2 Key 3
Key 4 Key 5
Key 6
D1 tani
tindak agroindustri
basis agraris
padi
D2
tani sayur
komoditas sayur
kebun
D3 padi
komoditas pokok
produksi tanam
padi
D4 tanam
karet komoditas
kebun ekspor
hujan
Langkah pertama pada proses pembobotan TF-IDF adalah menghitung nilai TF dengan cara menghitung kemunculan
term
pada dokumen tertentu. Langkah kedua menghitung nilai
Document Frequency
-nya DF yaitu jumlah dokumen yang mengandung
term
tersebut. Hasil dari perhitungan TF serta DF dapat dilihat pada Tabel 2.
Tabel 2 Hasil dari perhitungan TF serta DF yang belum mengalami proses
feature selection
Term D1
D2 D3
D4 DF
tani 1
1 2
tindak 1
1 agroindustri
1 1
basis 1
1 agraris
1 1
sayur 2
1 komoditas
1 1
1 3
padi 1
2 2
pokok 1
1 produksi
1 1
Lalu term yang sudah dicari nilai DF-nya diseleksi berdasarkan nilai
threshold
. Jika nilai DF berada di bawah
min threshold
atau di atas
max threshold
yang telah ditentukan, maka term tersebut akan dibuang. Pada contoh ini hanya
diberikan
min threshold
yaitu 2, dalam arti bahwa term dengan nilai DF dibawah 2 akan dibuang. Lihat hasilnya pada Tabel 3
kolom DF. Berdasarkan hasil seleksi kata
dengan feature selection
DF, terjadi pengurangan kata dari 15 kata menjadi 5. Kata yang dibuang antara lain tindak, agroindustri, basis, agraris, sayur,
pokok, produksi, karet, ekspor, dan hujan. Untuk kasus f
eature
commit to user
6
selection
pada dokumen skripsi fakultas Pertanian UNS menggunakan
min threshold
6 dan
max threshold
300. Oleh karena itu kata dengan DF dibawah 6 dan kata dengan DF diatas
300 akan dihapus. Dari proses tersebut dihasilkan pengurangan kata dari awalnya 7.902 kata menjadi 1.413 kata. Pengurangan
kata ini sangat berpengaruh pada waktu komputasi proses selanjutnya.
Langkah ketiga yaitu perhitungan IDF menggunakan rumus : log
, dimana N adalah jumlah keseluruhan dokumen dan
adalah nilai DF yang sudah dihitung pada proses sebelumnya. Langkah terakhir dalam perhitungan
pembobotan adalah
perhitungan TF-IDF
dengan cara
mengalikan hasil TF dengan hasil IDF. Lihat Tabel 3 untuk melihat semua hasil dari proses TF, DF, IDF dan TF-IDF
. Tabel 3 Hasil perhitungan TF, DF, IDF, dan TF-IDF
Kemudian dilakukan normalisasi data dengan Algoritma Min Max Normalization dan didapatkan hasil seperti pada Tabel 4
Tabel 4 Hasil normalisasi dengan Algoritma
Min Max Normalization
4.4 Proses