Data Penyimpanan Data Pemetaan Data

pengembalian kata ke bentuk dasar, dan menghitung tf jumlah kemunculan kata yang sama dalam sebuah dokumen. Proses ini perlu dilakukan dikarena SVM menggunakan data yang memiliki nilai sedang kata tidak memiliki nilai sehingga pengganti nilai menggunakan bobot ini sama gunanya sebagai data yang memiliki nilai. Gambar 3. 1 Skema Diskripsi Proses Kla sifikasi SVM kernel Polinomial Penghitungan akurasi melalui tahapan yang telah disediakan oleh library WEKA. Metode yang digunakan dari WEKA menggunkan input data yang telah diproses terdahulu oleh system.

3.2 Data

Dalam penelitian ini, sistem mengklasifikasikan makna kata sabar dalam karya sastra yang didefinisikan menggunakan metode SVM. Data diambil dari web corci.org sebagai data acuan dan data pendukung PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI penelitian ini. Data yang dipakai sebanyak 108 dokumen. Data ini dibagi menjadi data tranning dan data testing. Semua data disimpan dalam format .txt .

3.3 Penyimpanan Data

Media penyimpanan data yang digunakan berbentuk .txt , data yang disimpan hanya data yang akan dilakukan pengujian sedang proses hasil pengujian menggunakan arraylist tidak di simpan menggunakan .txt karena data hasil akan berbeda terus menerus setiap pengujia di ganti data uji. Data yang disimpan selain data uji .txt menyimpan kamus kata dasar dan juga stoplist. 3.3.1 Daftar media penyimpanan dalam .txt : 3.3.1.1 kata_dasar : Untuk menyimpan kata dasar dalam proses Stemming . 3.3.1.2 stopwordID : Digunakan dalam proses stopword ini berisi daftar dari apa saja kata yang tidak diijinkan keluar. 3.3.1.3 Bobot.txt : Menyimpan hasil dari bobot tiap term dan nama dokumen. 3.3.1.4 Term.txt : Menyimpan nama atribut yang dimiliki semua term yang ada. 3.3.2 Daftar media penyimpanan dalam arraylist : 3.3.2.1 ArrayListAttribute : Menyimpan data atribut 3.3.2.2 ArrayListPrediction: Menyimpan data hasil proses akurasi SVM menggunkan WEKA 3.3.2.3 ListString cls : Menyimpan data kategori yang digunakan

3.4 Pemetaan Data

Dalam proses pemetaan data ini merupakan proses yang dilakukan agar data siap diproses menggunakan sistem yang dibuat. Data akan diproses memalalui tahapan sebagai berikut ini : 3.2.1 Tokenizing Sebuah proses untuk memberi tanda atau sekaligus menghilahkan tanda baca dalam sebuah artikel atau kalimat yang akan diproses. Data sebelum proses : “Hanya masalahnya sampai sekarang dia baru bisa memahami seorang perempuan saja namanya wanita yang sabar setiap bijaksana dan penuh kasih sayang. ” Data sesudah proses : hanya masalahnya sampai sekarang dia baru bisa memahami perempuan saja namanya wanita yang sabar setia bijaksana penuh kasih sayang 3.2.2 Stopword F iltering Adalah proses memerikasa kata yang seharusnya dihilangkan untuk efisiensi proses klasifikasi karena kata tersebut tidak banyak berpengaruh. Dafttar kata yang seharusnya dihilangkan disimpan dalam stopword list. Kata yang dapat dihilangkan misalnya adalah kata sambung yaitu : dan, yang, untuk , dsb hanya masalahnya sampai sekarang baru bisa memahami perempuan nama wanita sabar setia bijaksana penuh kasih sayang 3.2.3 Stemming Proses mengubah data yang sudah didapat dari token diubah menjadi bentuk kata dasarnya seperti dalam kamus besar bahasa indonesia 3.2.4 Computation of TF -IDF F eature Tabel 3. 1 Tabel hasil dari TF-IDF dengan data sebenarnya data tf baru 1 bijaksana 1 bisa 1 hanya 1 kasih 1 masalah 1 nama 1 paham 1 penuh 1 perempuan 1 sabar 1 sampai 1 sayang 1 sekarang 1 setia 1 wanita 1 Tabel 3. 2 Nilai w tiap term Term tf DF IDF W 1 2 3 4 1 2 3 4 akan 2 1 0.60206 0 1.20412 akhir 2 1 0.60206 0 1.20412 antara 1 1 0.60206 0 0.60206 asih 1 1 0.60206 0.60206 hanya masalah sampai sekarang baru bisa nama paham perempuan wanita sabar setia bijaksana penuh kasih sayang atap 1 1 0.60206 0.60206 bantal 1 1 0.60206 0 0.60206 baru 1 1 0.60206 0.60206 begini 1 1 0.60206 0 0.60206 benar 1 1 0.60206 0 0.60206 berpintu 1 1 0.60206 0.60206 bersih 1 1 0.60206 0.60206 biasa 2 1 0.60206 0 1.20412 bicara 1 1 0.60206 0 0.60206 bijaksana 1 1 0.60206 0.60206 bisa 1 4 2 0.30103 0.30103 0 1.20412 cinta 1 1 0.60206 0.60206 dengan 1 1 0.60206 0 0.60206

3.5 Mengunakan sistem