2.2.4 Pembobotan Kata
D
alam menentukan bobot suatu kata tidak hanya berdasarkan frekuensi kemunculan kata di satu dokumen, tetapi juga
memperhatikan frekuensi terbesar pada suatu kata yang dimiliki oleh dokumen yang bersangkutan. Hal ini untuk menentukan posisi
relatif bobot dari kata dibanding dengan kata-kata lain di dokumen yang sama. Didalam memberikan bobot pada sebuah kata
menggunakan teknik yang paling sering digunakan adalah TFIDF
term frequency tf,
dan
inverse dokumen frequency idf
.
Term Frequency
tf adalah jumlah kemunculan suatu kata dalam sebuah dokumen dan
Inverse document frequency
idf adalah
inverse document frequency
dari suatu kata keseluruhan dokumen yang terkait. Rumus pembobotan 2.1
Salton 1989
adalah sebagai berikut:
2. 1
Dimana : , = bobot dari termtkata dalam dokumen d
�,�
=frekuensi kemunculan termtkata dalam dokumen d �
�
= inverse document frequency dari kata t � = jumlah seluruh dokumen terkait
= jumlah dokumen yang mengandung term t atau kata
Berikut ini tahapan pencarian data untuk setiap rumus diatas :
Menghitung
Term F requency tf
atau
��
�,�
Ini mencari seberapa sering muncul kata yang sama dalam satu dokumen. Setiap kata yang muncul diberi nilai 1 dan bila
ketemu kata yang sama lagi di tambah 1 lagi pada kata tersebut. Input :
, =
�,�
∗ �
�
= ,
∗ �
Tabel 2. 7 Contoh Input Proses Term Frequency tf
�,�
D1 D2
Langkah Karya
klasifikasi Satra
Karya Indonesia
Sastra Klasifikasi
Guna Enam
SVM Kategori
Teks Guna
Prepocesing Metode
klasifikasi SVM
SVM Output :
Tabel 2. 8 Hasil Proses Term Frequency tf
�,�
Term t D1
D2 Langkah
1 klasifikasi
1 1
Karya 1
1 Sastra
1 1
Guna 1
1 SVM
2 1
Teks 1
Prepocesing 1
klasifikasi 1
1 Indonesia
1 metode
1 Enam
1 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Menghitung
document frequency
df
Merupakan banyaknya dokumen dimana suatu termt muncul. Sehingga apabila
term
t muncul lebih dari satu kali dalam satu dokumen tetap dihitung satu termt yang dimiliki oleh
dokumen tersebut dan total dari
document frequency
df terbesar adalah banyanya total doumen apabila semua doumen memiliki
termt yang sama dan jumlah terkecil dari
document frequency
df adalah 1 tidak bisa nol karena setiap doumen memiliki termt
sendiri Input :
Tabel 2. 9 Contoh Input Proses Document Freuency df
Term t D1
D2 Langkah
1 klasifikasi
1 1
Karya 1
1 Sastra
1 1
Guna 1
1 SVM
2 1
Teks 1
Prepocesing 1
klasifikasi 1
1 Indonesia
1 metode
1 Enam
1
Output :
Tabel 2. 10 Hasil Output Proses Document Freuencydf
Term t df
Langkah 1
klasifikasi 2
Karya 2
Sastra 2
Guna 2
SVM 2
Teks 1
Prepocesing 1
klasifikasi 2
Indonesia 1
metode 1
Enam 1
Menghitung
invers document frequency
idf
���
�
Sebagai proses untuk mencari nilai
invers
dari hasil
document frequency
df. Input :
Tabel 2. 11 Input Proses Menghitung Invers Document Frecuency idf
Term t df
Langkah 1
klasifikasi 2
Karya 2
Sastra 2
Guna 2
SVM 2
Teks 1
Prepocesing 1
klasifikasi 2
Indonesia 1
metode 1
Enam 1
Output :
Tabel 2. 12 Output Proses Invers Document Frecueny idf
Term t df
idf Langkah
1 0.30103
klasifikasi 2
Karya 2
Sastra 2
Guna 2
SVM 2
Teks 1
0.30103 Prepocesing 1
0.30103 klasifikasi
2 Indonesia
1 0.30103
metode 1
0.30103 Enam
1 0.30103
Menghitung
weight
w untuk menentukan bobot tiap
term
t dari setiap dokumen yang ada
Ini melihat rumus dari 2.1 yang dimana sudah di pisahkan untuk setiap bagiannya sehingga yang dibutuhkan adalah hasil dari
�
�
dan nilai dari tiap term setiap dokumen yang dikalikan. Input :
Tabel 2. 13 Input Proses Mencari Nilai weight w
Term t D1 D2
idf Langkah
1 0.30103
klasifikasi 1
1 Karya
1 1
Sastra 1
1 Guna
1 1
SVM 2
1 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Teks 1
0.30103 Prepocesing 1
0.30103 klasifikasi
1 1
Indonesia 1
0.30103 Metode
1 0.30103
Enam 1
0.30103 Output :
Tabel 2. 14 Hasil Output Proses Weight w
Term t D1 D2
idf D1 w
D2 w Langkah
1 0.30103 0.30103 0
klasifikasi 1
1 Karya
1 1
Sastra 1
1 Guna
1 1
SVM 2
1 Teks
1 0.30103 0.30103 0
Prepocesing 1 0.30103 0.30103 0
klasifikasi 1
1 Indonesia
1 0.30103 0
0.30103 Metode
1 0.30103 0
0.30103 Enam
1 0.30103 0
0.30103
2.4
Support Vector Machine SVM
Klasifikasi merupakan fungsi lain yang terdapat pada data mining setelah clustering. Klasifikasi adalah proses menentukan model yang
berguna untuk mendeskripsikan kelas tertentu, agar suatu objek dapat ditentukan kelasnya sesuai lebel Han, Jiawei dan Micheline Kamber.
2006. Langkah yang pertama dalam mengklasifikasikan data adalah pengklasifikasian dari data training yang telah dibuat dari baris-baris data
yang ada dalam database dan kelas label yang terkait. Setiap baris data disebut juga sebagai atribut kelas label. Atribut kelas label merupakan nilai
diskrit dan tidak terurut. Karena setiap baris data training sudah memiliki kelas label, proses ini juga dikenal dengan
supervised learning
. Langkah selanjutnya yaitu menggunakan model dari data training untuk menghitung
akurasi yang dibandingkan dengan data tes. Data tes diperoleh dari baris- baris data yang dipilih secara acak. Akurasi merupakan presentase data tes
yang diklasifikasikan secara benar menggunakan pengklasifikasi atau model dari data training.
Support Vector Machine
SVM pertama kali diperkenalkan oleh Vapni pada tahun 1992 SVM adalah metode pembelajaran data yang
berusaha menemukan
hyperplane
terbaik antar kelas pada
input space
. Konsep dasar dan SVM adalah
linear classfier
, akan tetapi dikembangkan agar dapat bekerja pada permasalahan non-linear. Klasifikasi dalam SVM
dapat melibatkan fungsi kemel tertentu agar dapat bekerja pada data dengan dimensi yang lebih banya.
Hyperplane
pemisah terbaik antar kelas adalah sebuah garis pemisah antar kedua kelas lihat gambar 2.1.
Hyperplane
pemisah terbaik dapat dicari dengan mengukur margin atau Jarak hypmplane dengan pola terdekat
dari masing-masing kelas dan mencari titik pemisahnya Nupobo, dkk 2003. Data pada titik maksimal tersebutlah yang disebut sebagai support
vector. Diketahui bahwa titik-titk maksimal tersebut membuat garis pemisah
hyperplane
yang lebih sempurna untuk memisahkan data.
Gambar 2. 1 Hyperplane melalui dua kelas linearly
Input data dapat berupa linear dan non linear. Jika input data berupa linear maka pemisahan
hyperplane
dapat diberikan dalam persamaan : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
fX = w.x+ b
2. 2
dimana w adalah n-dimensi bobot vektor dan b adalah pengali skala atau nilai bias. Persamaan ini menemukan maksimum margin untuk memisahkan
kelas dari kelas positif dari kelas negatif. �. + ≥ +
� = +
2. 3
�. + ≥ − � = −
2. 4
Pemillihan Parameter pada
Support vector Machine
Untuk mendapatkan tingkat kinerja yang tinggi, beberapa parameter dari algoritma SVM harus diperbaiki Maimon 2010, termasuk:
1. Pemilihan Fungsi Kernel
Tabel 2. 15 Fungsi kernel
Kernel Definisi Kernel
Linear � ,
= . Quadratic
� , = .
RBF
� , =
−
|| − ||2 2�2
Polynomial � ,
= . +
�
Sigmoid tangen hiperbolik � ,
= tanh � . +
2. Kinerja SVM tergantung pada pilihan fungsi kernel, besaran
parameter kernel dan penentuan parameter C. Fungsi kernel yang berbeda memperoleh tingkat keberhasilan yang berbeda untuk
berbagai jenis data aplikasi. Ketika nilai penentuan parameter C yang dipilih terlalu besar atau terlalu kecil, generalisasi SVM mungkin
berkurang. Jika parameter kernel dan penentuan parameter yang tepat dipilih, kinerja SVM akan optimal.
3. Parameter Kernels .
4. Parameter regularisasi C, ν, ε untuk
tradeoff
antara kompleksitas model dan akurasi mode.
2.4.1 Multi Class SVM