Pembobotan Kata Text Prepocessing

2.2.4 Pembobotan Kata

D alam menentukan bobot suatu kata tidak hanya berdasarkan frekuensi kemunculan kata di satu dokumen, tetapi juga memperhatikan frekuensi terbesar pada suatu kata yang dimiliki oleh dokumen yang bersangkutan. Hal ini untuk menentukan posisi relatif bobot dari kata dibanding dengan kata-kata lain di dokumen yang sama. Didalam memberikan bobot pada sebuah kata menggunakan teknik yang paling sering digunakan adalah TFIDF term frequency tf, dan inverse dokumen frequency idf . Term Frequency tf adalah jumlah kemunculan suatu kata dalam sebuah dokumen dan Inverse document frequency idf adalah inverse document frequency dari suatu kata keseluruhan dokumen yang terkait. Rumus pembobotan 2.1 Salton 1989 adalah sebagai berikut: 2. 1 Dimana : , = bobot dari termtkata dalam dokumen d �,� =frekuensi kemunculan termtkata dalam dokumen d � � = inverse document frequency dari kata t � = jumlah seluruh dokumen terkait = jumlah dokumen yang mengandung term t atau kata Berikut ini tahapan pencarian data untuk setiap rumus diatas : Menghitung Term F requency tf atau �� �,� Ini mencari seberapa sering muncul kata yang sama dalam satu dokumen. Setiap kata yang muncul diberi nilai 1 dan bila ketemu kata yang sama lagi di tambah 1 lagi pada kata tersebut. Input : , = �,� ∗ � � = , ∗ � Tabel 2. 7 Contoh Input Proses Term Frequency tf �,� D1 D2 Langkah Karya klasifikasi Satra Karya Indonesia Sastra Klasifikasi Guna Enam SVM Kategori Teks Guna Prepocesing Metode klasifikasi SVM SVM Output : Tabel 2. 8 Hasil Proses Term Frequency tf �,� Term t D1 D2 Langkah 1 klasifikasi 1 1 Karya 1 1 Sastra 1 1 Guna 1 1 SVM 2 1 Teks 1 Prepocesing 1 klasifikasi 1 1 Indonesia 1 metode 1 Enam 1 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Menghitung document frequency df Merupakan banyaknya dokumen dimana suatu termt muncul. Sehingga apabila term t muncul lebih dari satu kali dalam satu dokumen tetap dihitung satu termt yang dimiliki oleh dokumen tersebut dan total dari document frequency df terbesar adalah banyanya total doumen apabila semua doumen memiliki termt yang sama dan jumlah terkecil dari document frequency df adalah 1 tidak bisa nol karena setiap doumen memiliki termt sendiri Input : Tabel 2. 9 Contoh Input Proses Document Freuency df Term t D1 D2 Langkah 1 klasifikasi 1 1 Karya 1 1 Sastra 1 1 Guna 1 1 SVM 2 1 Teks 1 Prepocesing 1 klasifikasi 1 1 Indonesia 1 metode 1 Enam 1 Output : Tabel 2. 10 Hasil Output Proses Document Freuencydf Term t df Langkah 1 klasifikasi 2 Karya 2 Sastra 2 Guna 2 SVM 2 Teks 1 Prepocesing 1 klasifikasi 2 Indonesia 1 metode 1 Enam 1 Menghitung invers document frequency idf ��� � Sebagai proses untuk mencari nilai invers dari hasil document frequency df. Input : Tabel 2. 11 Input Proses Menghitung Invers Document Frecuency idf Term t df Langkah 1 klasifikasi 2 Karya 2 Sastra 2 Guna 2 SVM 2 Teks 1 Prepocesing 1 klasifikasi 2 Indonesia 1 metode 1 Enam 1 Output : Tabel 2. 12 Output Proses Invers Document Frecueny idf Term t df idf Langkah 1 0.30103 klasifikasi 2 Karya 2 Sastra 2 Guna 2 SVM 2 Teks 1 0.30103 Prepocesing 1 0.30103 klasifikasi 2 Indonesia 1 0.30103 metode 1 0.30103 Enam 1 0.30103 Menghitung weight w untuk menentukan bobot tiap term t dari setiap dokumen yang ada Ini melihat rumus dari 2.1 yang dimana sudah di pisahkan untuk setiap bagiannya sehingga yang dibutuhkan adalah hasil dari � � dan nilai dari tiap term setiap dokumen yang dikalikan. Input : Tabel 2. 13 Input Proses Mencari Nilai weight w Term t D1 D2 idf Langkah 1 0.30103 klasifikasi 1 1 Karya 1 1 Sastra 1 1 Guna 1 1 SVM 2 1 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Teks 1 0.30103 Prepocesing 1 0.30103 klasifikasi 1 1 Indonesia 1 0.30103 Metode 1 0.30103 Enam 1 0.30103 Output : Tabel 2. 14 Hasil Output Proses Weight w Term t D1 D2 idf D1 w D2 w Langkah 1 0.30103 0.30103 0 klasifikasi 1 1 Karya 1 1 Sastra 1 1 Guna 1 1 SVM 2 1 Teks 1 0.30103 0.30103 0 Prepocesing 1 0.30103 0.30103 0 klasifikasi 1 1 Indonesia 1 0.30103 0 0.30103 Metode 1 0.30103 0 0.30103 Enam 1 0.30103 0 0.30103 2.4 Support Vector Machine SVM Klasifikasi merupakan fungsi lain yang terdapat pada data mining setelah clustering. Klasifikasi adalah proses menentukan model yang berguna untuk mendeskripsikan kelas tertentu, agar suatu objek dapat ditentukan kelasnya sesuai lebel Han, Jiawei dan Micheline Kamber. 2006. Langkah yang pertama dalam mengklasifikasikan data adalah pengklasifikasian dari data training yang telah dibuat dari baris-baris data yang ada dalam database dan kelas label yang terkait. Setiap baris data disebut juga sebagai atribut kelas label. Atribut kelas label merupakan nilai diskrit dan tidak terurut. Karena setiap baris data training sudah memiliki kelas label, proses ini juga dikenal dengan supervised learning . Langkah selanjutnya yaitu menggunakan model dari data training untuk menghitung akurasi yang dibandingkan dengan data tes. Data tes diperoleh dari baris- baris data yang dipilih secara acak. Akurasi merupakan presentase data tes yang diklasifikasikan secara benar menggunakan pengklasifikasi atau model dari data training. Support Vector Machine SVM pertama kali diperkenalkan oleh Vapni pada tahun 1992 SVM adalah metode pembelajaran data yang berusaha menemukan hyperplane terbaik antar kelas pada input space . Konsep dasar dan SVM adalah linear classfier , akan tetapi dikembangkan agar dapat bekerja pada permasalahan non-linear. Klasifikasi dalam SVM dapat melibatkan fungsi kemel tertentu agar dapat bekerja pada data dengan dimensi yang lebih banya. Hyperplane pemisah terbaik antar kelas adalah sebuah garis pemisah antar kedua kelas lihat gambar 2.1. Hyperplane pemisah terbaik dapat dicari dengan mengukur margin atau Jarak hypmplane dengan pola terdekat dari masing-masing kelas dan mencari titik pemisahnya Nupobo, dkk 2003. Data pada titik maksimal tersebutlah yang disebut sebagai support vector. Diketahui bahwa titik-titk maksimal tersebut membuat garis pemisah hyperplane yang lebih sempurna untuk memisahkan data. Gambar 2. 1 Hyperplane melalui dua kelas linearly Input data dapat berupa linear dan non linear. Jika input data berupa linear maka pemisahan hyperplane dapat diberikan dalam persamaan : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI fX = w.x+ b 2. 2 dimana w adalah n-dimensi bobot vektor dan b adalah pengali skala atau nilai bias. Persamaan ini menemukan maksimum margin untuk memisahkan kelas dari kelas positif dari kelas negatif. �. + ≥ + � = + 2. 3 �. + ≥ − � = − 2. 4 Pemillihan Parameter pada Support vector Machine Untuk mendapatkan tingkat kinerja yang tinggi, beberapa parameter dari algoritma SVM harus diperbaiki Maimon 2010, termasuk: 1. Pemilihan Fungsi Kernel Tabel 2. 15 Fungsi kernel Kernel Definisi Kernel Linear � , = . Quadratic � , = . RBF � , = − || − ||2 2�2 Polynomial � , = . + � Sigmoid tangen hiperbolik � , = tanh � . + 2. Kinerja SVM tergantung pada pilihan fungsi kernel, besaran parameter kernel dan penentuan parameter C. Fungsi kernel yang berbeda memperoleh tingkat keberhasilan yang berbeda untuk berbagai jenis data aplikasi. Ketika nilai penentuan parameter C yang dipilih terlalu besar atau terlalu kecil, generalisasi SVM mungkin berkurang. Jika parameter kernel dan penentuan parameter yang tepat dipilih, kinerja SVM akan optimal. 3. Parameter Kernels . 4. Parameter regularisasi C, ν, ε untuk tradeoff antara kompleksitas model dan akurasi mode.

2.4.1 Multi Class SVM