Pembobotan tf-idf Level Entitas dan Aspek

22

2.7.2 Variance Initialization

Variance initialization adalah salah satu algoritma yang digunakan untuk menentukan centroid awal pada proses clustering. Langkah-langkah variance initialization adalah sebagai berikut Al- Daoud, 2007: 1. Hitung nilai variance data pada setiap dimensi kolom data. 2. Temukan kolom dengan nilai variance terbesar, kemudian sort data. 3. Bagi keseluruhan data menjadi K bagian, K adalah jumlah cluster. 4. Temukan median nilai tengah pada setiap bagian. 5. Gunakan vector data median setiap bagian sebagai centroid awal cluster.

2.8 Cosine Similarity

Metode cosine similarity adalah metode untuk menghitung similaritas antara dua dokumen. Penentuan kesesuaian dokumen dengan query dipandang sebagai pengukuran similarity measure antara vector dokumen D dengan vector query Q. Perhitungan cosine similarity dirumuskan sebagai berikut: � �� �, = ∑ � . = √∑ � = .√∑ = 2.4 23 � adalah dokumen uji, adalah dokumen training, dan adalah nilai bobot setiap term pada dokumen. Kedekatan query dengan dokumen diindikasikan dengan sudut yang dibentuk. Nilai cosinus yang cenderung besar menunjukkan dokumen cenderung sesuai query. Proses membandingkan satu dokumen dengan dokumen lain menggunakan angka similaritas yang didapat dengan perhitungan pada persamaan Putri, 2013.

2.9 Confusion Matrix

Data pelatihan dan pengujian merupakan data yang berbeda sehingga klasifikasi dapat diuji dengan benar. Akurasi dari klasifikasi dihitung dari jumlah data yang dikenali sesuai dengan target kelasnya. Perhitungan akurasi klasifikasi data dihitung menggunakan tabel yang bernama Confusion Matrix Tan, Steinbach, dan Kumar, 2006. Tabel 2.5 merupakan Confusion Matrix untuk klasifikasi 2 kelas. Tabel 2.5 Confusion Matrix 2 kelas Hasil pengujian 1 Target kelas 1 F11 F10 F01 F00 Fij adalah jumlah data yang dikenali sebagai kelas j dengan target kelas i. Dari Tabel 2.1, didapat persamaan-persamaan untuk menghitung akurasi dan tingkat kesalahan suatu klasifikasi: