Pembobotan Kata Text Prepocessing

2.2.4 Pembobotan Kata

D alam menentukan bobot suatu kata tidak hanya berdasarkan frekuensi kemunculan kata di satu dokumen, tetapi juga memperhatikan frekuensi terbesar pada suatu kata yang dimiliki oleh dokumen yang bersangkutan. Hal ini untuk menentukan posisi relatif bobot dari kata dibanding dengan kata-kata lain di dokumen yang sama. Didalam memberikan bobot pada sebuah kata menggunakan teknik yang paling sering digunakan adalah TFIDF term frequency tf, dan inverse dokumen frequency idf. Term Frequency tf adalah jumlah kemunculan suatu kata dalam sebuah dokumen dan Inverse document frequency idf adalah inverse document frequency dari suatu kata keseluruhan dokumen yang terkait. Rumus pembobotan 2.1 Salton 1989 adalah sebagai berikut: 2. 1 Dimana : , = bobot dari termtkata dalam dokumen d �,� =frekuensi kemunculan termtkata dalam dokumen d � � = inverse document frequency dari kata t � = jumlah seluruh dokumen terkait = jumlah dokumen yang mengandung term t atau kata Berikut ini tahapan pencarian data untuk setiap rumus diatas : Menghitung Term Frequency tf atau �� �,� Ini mencari seberapa sering muncul kata yang sama dalam satu dokumen. Setiap kata yang muncul diberi nilai 1 dan bila ketemu kata yang sama lagi di tambah 1 lagi pada kata tersebut. Input : , = �,� ∗ � � = , ∗ � Tabel 2. 7 Contoh Input Proses Term Frequency tf �,� D1 D2 Langkah Karya klasifikasi Satra Karya Indonesia Sastra Klasifikasi Guna Enam SVM Kategori Teks Guna Prepocesing Metode klasifikasi SVM SVM Output : Tabel 2. 8 Hasil Proses Term Frequency tf �,� Term t D1 D2 Langkah 1 klasifikasi 1 1 Karya 1 1 Sastra 1 1 Guna 1 1 SVM 2 1 Teks 1 Prepocesing 1 klasifikasi 1 1 Indonesia 1 metode 1 Enam 1 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Menghitung document frequency df Merupakan banyaknya dokumen dimana suatu termt muncul. Sehingga apabila term t muncul lebih dari satu kali dalam satu dokumen tetap dihitung satu termt yang dimiliki oleh dokumen tersebut dan total dari document frequency df terbesar adalah banyanya total doumen apabila semua doumen memiliki termt yang sama dan jumlah terkecil dari document frequency df adalah 1 tidak bisa nol karena setiap doumen memiliki termt sendiri Input : Tabel 2. 9 Contoh Input Proses Document Freuency df Term t D1 D2 Langkah 1 klasifikasi 1 1 Karya 1 1 Sastra 1 1 Guna 1 1 SVM 2 1 Teks 1 Prepocesing 1 klasifikasi 1 1 Indonesia 1 metode 1 Enam 1 Output : Tabel 2. 10 Hasil Output Proses Document Freuencydf Term t df Langkah 1 klasifikasi 2 Karya 2 Sastra 2 Guna 2 SVM 2 Teks 1 Prepocesing 1 klasifikasi 2 Indonesia 1 metode 1 Enam 1 Menghitung invers document frequency idf ��� � Sebagai proses untuk mencari nilai invers dari hasil document frequency df. Input : Tabel 2. 11 Input Proses Menghitung Invers Document Frecuency idf Term t df Langkah 1 klasifikasi 2 Karya 2 Sastra 2 Guna 2 SVM 2 Teks 1 Prepocesing 1 klasifikasi 2 Indonesia 1 metode 1 Enam 1 Output : Tabel 2. 12 Output Proses Invers Document Frecueny idf Term t df idf Langkah 1 0.30103 klasifikasi 2 Karya 2 Sastra 2 Guna 2 SVM 2 Teks 1 0.30103 Prepocesing 1 0.30103 klasifikasi 2 Indonesia 1 0.30103 metode 1 0.30103 Enam 1 0.30103 Menghitung weight w untuk menentukan bobot tiap termt dari setiap dokumen yang ada Ini melihat rumus dari 2.1 yang dimana sudah di pisahkan untuk setiap bagiannya sehingga yang dibutuhkan adalah hasil dari � � dan nilai dari tiap term setiap dokumen yang dikalikan. Input : Tabel 2. 13 Input Proses Mencari Nilai weight w Term t D1 D2 idf Langkah 1 0.30103 klasifikasi 1 1 Karya 1 1 Sastra 1 1 Guna 1 1 SVM 2 1 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Teks 1 0.30103 Prepocesing 1 0.30103 klasifikasi 1 1 Indonesia 1 0.30103 Metode 1 0.30103 Enam 1 0.30103 Output : Tabel 2. 14 Hasil Output Proses Weight w Term t D1 D2 idf D1 w D2 w Langkah 1 0.30103 0.30103 0 klasifikasi 1 1 Karya 1 1 Sastra 1 1 Guna 1 1 SVM 2 1 Teks 1 0.30103 0.30103 0 Prepocesing 1 0.30103 0.30103 0 klasifikasi 1 1 Indonesia 1 0.30103 0 0.30103 Metode 1 0.30103 0 0.30103 Enam 1 0.30103 0 0.30103

2.4 Support Vector Machine SVM