penelitian ini. Data yang dipakai sebanyak 108 dokumen. Data ini dibagi menjadi data tranning dan data testing. Semua data disimpan dalam format
.txt .
3.3 Penyimpanan Data
Media penyimpanan data yang digunakan berbentuk .txt , data yang disimpan hanya data yang akan dilakukan pengujian sedang proses hasil
pengujian menggunakan arraylist tidak di simpan menggunakan .txt karena data hasil akan berbeda terus menerus setiap pengujia di ganti data uji. Data
yang disimpan selain data uji .txt menyimpan kamus kata dasar dan juga stoplist.
3.3.1 Daftar media penyimpanan dalam .txt :
3.3.1.1 kata_dasar : Untuk menyimpan kata dasar dalam
proses Stemming . 3.3.1.2
stopwordID : Digunakan dalam proses stopword ini berisi daftar dari apa saja kata yang tidak
diijinkan keluar. 3.3.1.3
Bobot.txt : Menyimpan hasil dari bobot tiap term dan nama dokumen.
3.3.1.4 Term.txt : Menyimpan nama atribut yang dimiliki
semua term yang ada.
3.3.2 Daftar media penyimpanan dalam arraylist :
3.3.2.1 ArrayListAttribute : Menyimpan data atribut
3.3.2.2 ArrayListPrediction: Menyimpan data hasil proses
akurasi SVM menggunkan WEKA
3.3.2.3 ListString cls : Menyimpan data kategori
yang digunakan PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3.4 Pemetaan Data
Dalam proses pemetaan data ini merupakan proses yang dilakukan agar data siap diproses menggunakan sistem yang dibuat. Data akan
diproses memalalui tahapan sebagai berikut ini :
3.2.1 Tokenizing
Sebuah proses untuk memberi tanda atau sekaligus menghilahkan tanda baca dalam sebuah artikel atau kalimat yang
akan diproses. Data sebelum proses :
“Hanya masalahnya sampai sekarang dia baru bisa memahami seorang perempuan saja namanya wanita yang sabar
setiap bijaksana dan penuh kasih sayang. ”
Data sesudah proses :
hanya masalahnya sampai
sekarang dia baru
bisa
memahami perempuan saja
namanya wanita yang sabar
setia bijaksana
penuh kasih
sayang
3.2.2 Stopword Filtering
Adalah proses memerikasa kata
yang seharusnya dihilangkan untuk efisiensi proses klasifikasi karena kata tersebut
tidak banyak berpengaruh. Dafttar kata yang seharusnya dihilangkan disimpan dalam stopword list. Kata yang dapat dihilangkan
misalnya adalah kata sambung yaitu : dan, yang, untuk , dsb
hanya masalahnya sampai
sekarang baru bisa
memahami perempuan nama
wanita sabar
setia
bijaksana penuh
kasih sayang
3.2.3 Stemming
Proses mengubah data yang sudah didapat dari token diubah menjadi bentuk kata dasarnya seperti dalam kamus besar bahasa
indonesia
3.2.4 Computation of TF-IDF Feature
Tabel 3. 1 Tabel hasil dari TF-IDF dengan data sebenarnya
data tf
baru 1
bijaksana 1
bisa 1
hanya 1
kasih 1
masalah 1
nama 1
paham 1
penuh 1
perempuan 1
sabar
1 sampai
1 sayang
1 sekarang
1 setia
1 wanita
1
Tabel 3. 2 Nilai w tiap term
Term tf
DF
IDF W
1 2 3
4 1
2 3
4 akan
2 1 0.60206
0 1.20412 akhir
2 1 0.60206
0 1.20412 antara
1 1 0.60206
0 0.60206 asih
1 1 0.60206
0.60206 hanya
masalah sampai
sekarang baru bisa
nama paham
perempuan wanita sabar
setia bijaksana
penuh kasih
sayang
atap 1
1 0.60206 0.60206
bantal 1
1 0.60206 0 0.60206
baru 1
1 0.60206 0.60206
begini
1 1 0.60206
0 0.60206 benar
1 1 0.60206
0 0.60206 berpintu
1 1 0.60206
0.60206 bersih
1 1 0.60206
0.60206 biasa
2 1 0.60206
0 1.20412 bicara
1 1 0.60206
0 0.60206 bijaksana 1
1 0.60206 0.60206 bisa
1 4
2 0.30103 0.30103 0 1.20412
cinta 1
1 0.60206 0.60206
dengan 1
1 0.60206 0 0.60206
3.5 Mengunakan sistem
Dalam sistem yang dibuat oleh penulis menggunkan libary dari WEKA, di istem yang dibuat mengubah data input yang bisasanya
digunakan oleh WEKA mengunakan format .csv menjadi format .txt. Dalam sistem yang dibuat data masukan akan dibuat menjadi dua .txt, yang satu
berfungsi sebagai inisia term atau daftar kata unik sedang yang kedua sebagai informasi dari bobot tiap term di setiap dokumen yang ada.
Langkah pertama dalam membuat data inputan yaitu menggunakan proses preprosesing untuk mendapatkan term yang akan dimasukan
kedalam .txt yang pertama yang digunakan dalam inisial term , selanjutnya sistem akan memproses nilai bobot atau w dari semua term yang didapat
dari semua dokumen. Setelah itu dilakukan proses sistem untuk menghitung akurasi yang
sudah tersedia didalam libary WEKA. Penyesuai inputan kedalam proses ini mengunkan format yang sudah disesuaikan sehingga bisa diproses dengan
sistem libary dari WEKA. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3.6 Struktur data