2.2.4 Pembobotan Kata
D
alam menentukan bobot suatu kata tidak hanya berdasarkan frekuensi kemunculan kata di satu dokumen, tetapi juga
memperhatikan frekuensi terbesar pada suatu kata yang dimiliki oleh dokumen yang bersangkutan. Hal ini untuk menentukan posisi
relatif bobot dari kata dibanding dengan kata-kata lain di dokumen yang sama. Didalam memberikan bobot pada sebuah kata
menggunakan teknik yang paling sering digunakan adalah TFIDF term frequency tf, dan inverse dokumen frequency idf. Term
Frequency tf adalah jumlah kemunculan suatu kata dalam sebuah dokumen dan Inverse document frequency idf adalah inverse
document frequency dari suatu kata keseluruhan dokumen yang terkait. Rumus pembobotan 2.1 Salton 1989 adalah sebagai
berikut:
2. 1
Dimana : , = bobot dari termtkata dalam dokumen d
�,�
=frekuensi kemunculan termtkata dalam dokumen d �
�
= inverse document frequency dari kata t � = jumlah seluruh dokumen terkait
= jumlah dokumen yang mengandung term t atau kata
Berikut ini tahapan pencarian data untuk setiap rumus diatas :
Menghitung Term Frequency tf atau
��
�,�
Ini mencari seberapa sering muncul kata yang sama dalam satu dokumen. Setiap kata yang muncul diberi nilai 1 dan bila
ketemu kata yang sama lagi di tambah 1 lagi pada kata tersebut. Input :
, =
�,�
∗ �
�
= ,
∗ �
Tabel 2. 7 Contoh Input Proses Term Frequency tf
�,�
D1 D2
Langkah Karya
klasifikasi Satra
Karya Indonesia
Sastra Klasifikasi
Guna Enam
SVM Kategori
Teks Guna
Prepocesing Metode
klasifikasi SVM
SVM Output :
Tabel 2. 8 Hasil Proses Term Frequency tf
�,�
Term t D1
D2 Langkah
1 klasifikasi
1 1
Karya 1
1 Sastra
1 1
Guna 1
1 SVM
2 1
Teks 1
Prepocesing 1
klasifikasi 1
1 Indonesia
1 metode
1 Enam
1 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Menghitung document frequency df
Merupakan banyaknya dokumen dimana suatu termt muncul. Sehingga apabila term t muncul lebih dari satu kali
dalam satu dokumen tetap dihitung satu termt yang dimiliki oleh dokumen tersebut dan total dari document frequency df terbesar
adalah banyanya total doumen apabila semua doumen memiliki termt yang sama dan jumlah terkecil dari document frequency df
adalah 1 tidak bisa nol karena setiap doumen memiliki termt sendiri
Input :
Tabel 2. 9 Contoh Input Proses Document Freuency df
Term t D1
D2 Langkah
1 klasifikasi
1 1
Karya 1
1 Sastra
1 1
Guna 1
1 SVM
2 1
Teks 1
Prepocesing 1
klasifikasi 1
1 Indonesia
1 metode
1 Enam
1
Output :
Tabel 2. 10 Hasil Output Proses Document Freuencydf
Term t df
Langkah 1
klasifikasi 2
Karya 2
Sastra 2
Guna 2
SVM 2
Teks 1
Prepocesing 1
klasifikasi 2
Indonesia 1
metode 1
Enam 1
Menghitung invers document frequency idf
���
�
Sebagai proses untuk mencari nilai invers dari hasil document frequency df.
Input :
Tabel 2. 11 Input Proses Menghitung Invers Document Frecuency idf
Term t df
Langkah 1
klasifikasi 2
Karya 2
Sastra 2
Guna 2
SVM 2
Teks 1
Prepocesing 1
klasifikasi 2
Indonesia 1
metode 1
Enam 1
Output :
Tabel 2. 12 Output Proses Invers Document Frecueny idf
Term t df
idf Langkah
1 0.30103
klasifikasi 2
Karya 2
Sastra 2
Guna 2
SVM 2
Teks 1
0.30103 Prepocesing 1
0.30103 klasifikasi
2 Indonesia
1 0.30103
metode 1
0.30103 Enam
1 0.30103
Menghitung weight w untuk menentukan bobot tiap termt dari setiap dokumen yang ada
Ini melihat rumus dari 2.1 yang dimana sudah di pisahkan untuk setiap bagiannya sehingga yang dibutuhkan adalah hasil dari
�
�
dan nilai dari tiap term setiap dokumen yang dikalikan. Input :
Tabel 2. 13 Input Proses Mencari Nilai weight w
Term t D1 D2
idf Langkah
1 0.30103
klasifikasi 1
1 Karya
1 1
Sastra 1
1 Guna
1 1
SVM 2
1 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Teks 1
0.30103 Prepocesing 1
0.30103 klasifikasi
1 1
Indonesia 1
0.30103 Metode
1 0.30103
Enam 1
0.30103 Output :
Tabel 2. 14 Hasil Output Proses Weight w
Term t D1 D2
idf D1 w
D2 w Langkah
1 0.30103 0.30103 0
klasifikasi 1
1 Karya
1 1
Sastra 1
1 Guna
1 1
SVM 2
1 Teks
1 0.30103 0.30103 0
Prepocesing 1 0.30103 0.30103 0
klasifikasi 1
1 Indonesia
1 0.30103 0
0.30103 Metode
1 0.30103 0
0.30103 Enam
1 0.30103 0
0.30103
2.4 Support Vector Machine SVM