22
2.7.2 Variance Initialization
Variance initialization adalah salah satu algoritma yang digunakan untuk menentukan centroid awal pada proses clustering.
Langkah-langkah variance initialization adalah sebagai berikut Al- Daoud, 2007:
1. Hitung nilai variance data pada setiap dimensi kolom data.
2. Temukan kolom dengan nilai variance terbesar, kemudian sort
data. 3.
Bagi keseluruhan data menjadi K bagian, K adalah jumlah cluster.
4. Temukan median nilai tengah pada setiap bagian.
5.
Gunakan vector data median setiap bagian sebagai centroid awal cluster.
2.8 Cosine Similarity
Metode cosine similarity adalah metode untuk menghitung similaritas antara dua dokumen. Penentuan kesesuaian dokumen dengan query
dipandang sebagai pengukuran similarity measure antara vector dokumen D dengan vector query Q. Perhitungan cosine similarity dirumuskan
sebagai berikut: � �� �, =
∑ � .
=
√∑ �
=
.√∑
=
2.4
23
� adalah dokumen uji, adalah dokumen training, dan adalah nilai bobot setiap term pada dokumen.
Kedekatan query dengan dokumen diindikasikan dengan sudut yang dibentuk. Nilai cosinus yang cenderung besar menunjukkan dokumen
cenderung sesuai query. Proses membandingkan satu dokumen dengan dokumen lain menggunakan angka similaritas yang didapat dengan
perhitungan pada persamaan Putri, 2013.
2.9 Confusion Matrix
Data pelatihan dan pengujian merupakan data yang berbeda sehingga klasifikasi dapat diuji dengan benar. Akurasi dari klasifikasi dihitung dari
jumlah data yang dikenali sesuai dengan target kelasnya. Perhitungan akurasi klasifikasi data dihitung menggunakan tabel yang bernama Confusion Matrix
Tan, Steinbach, dan Kumar, 2006. Tabel 2.5 merupakan Confusion Matrix untuk klasifikasi 2 kelas.
Tabel 2.5 Confusion Matrix 2 kelas Hasil pengujian
1 Target
kelas 1
F11 F10
F01 F00
Fij adalah jumlah data yang dikenali sebagai kelas j dengan target kelas i. Dari Tabel 2.1, didapat persamaan-persamaan untuk menghitung akurasi
dan tingkat kesalahan suatu klasifikasi: