Pembobotan tf-idf Level Entitas dan Aspek

2.7.2 Variance Initialization

Variance initialization adalah salah satu algoritma yang digunakan untuk menentukan centroid awal pada proses clustering. Langkah-langkah variance initialization adalah sebagai berikut Al- Daoud, 2007: 1. Hitung nilai variance data pada setiap dimensi kolom data. 2. Temukan kolom dengan nilai variance terbesar, kemudian sort data. 3. Bagi keseluruhan data menjadi K bagian, K adalah jumlah cluster. 4. Temukan median nilai tengah pada setiap bagian. 5. Gunakan vector data median setiap bagian sebagai centroid awal cluster.

2.8 Cosine Similarity

Metode cosine similarity adalah metode untuk menghitung similaritas antara dua dokumen. Penentuan kesesuaian dokumen dengan query dipandang sebagai pengukuran similarity measure antara vector dokumen D dengan vector query Q. Perhitungan cosine similarity dirumuskan sebagai berikut: � �� , = ∑ � . = √∑ � = .√∑ = 2.4 23 � adalah dokumen uji, adalah dokumen training, dan adalah nilai bobot setiap term pada dokumen. Kedekatan query dengan dokumen diindikasikan dengan sudut yang dibentuk. Nilai cosinus yang cenderung besar menunjukkan dokumen cenderung sesuai query. Proses membandingkan satu dokumen dengan dokumen lain menggunakan angka similaritas yang didapat dengan perhitungan pada persamaan Putri, 2013.

2.9 Confusion Matrix

Data pelatihan dan pengujian merupakan data yang berbeda sehingga klasifikasi dapat diuji dengan benar. Akurasi dari klasifikasi dihitung dari jumlah data yang dikenali sesuai dengan target kelasnya. Perhitungan akurasi klasifikasi data dihitung menggunakan tabel yang bernama Confusion Matrix Tan, Steinbach, dan Kumar, 2006. Tabel 2.5 merupakan Confusion Matrix untuk klasifikasi 2 kelas. Tabel 2.5 Confusion Matrix 2 kelas Hasil pengujian 1 Target kelas 1 F11 F10 F01 F00 Fij adalah jumlah data yang dikenali sebagai kelas j dengan target kelas i. Dari Tabel 2.1, didapat persamaan-persamaan untuk menghitung akurasi dan tingkat kesalahan suatu klasifikasi:

Pembobotan tf-idf Level Entitas dan Aspek

2.7.2 Variance Initialization

2.8 Cosine Similarity

2.9 Confusion Matrix

Parts

Dokumen yang terkait

Clustering Jamur Asterinaceae Menggunakan Metode K-Means

Analisis sentimen dengan klasifikasi naïve bayes pada pesan twitter menggunakan data seimbang

Analisis sentimen pada Twitter menggunakan pendekatan agglomerative Hierarchical Clustering.

Implementasi K-Means Clustering pada lingkungan big data menggunakan model pemrograman MapReduce.

Analisis sentimen pada Twitter menggunakan pendekatan agglomerative Hierarchical Clustering

DATA MINING PENERAPAN K-MEANS ALGORITM CLUSTERING

Optimasi K Means Clustering Menggunakan

Penerapan Metode K Means Clustering Data (1)

Clustering Data Polutan Udara Kota Pekanbaru dengan Menggunakan Metode K-Means Clustering

Kata kunci : Data Mining, K-Means Clustering,

Dukungan

Links

Pembobotan tf-idf Level Entitas dan Aspek

2.7.2 Variance Initialization

2.8 Cosine Similarity

2.9 Confusion Matrix

Parts

Dokumen yang terkait

Clustering Jamur Asterinaceae Menggunakan Metode K-Means

Analisis sentimen dengan klasifikasi naïve bayes pada pesan twitter menggunakan data seimbang

Analisis sentimen pada Twitter menggunakan pendekatan agglomerative Hierarchical Clustering.

Implementasi K-Means Clustering pada lingkungan big data menggunakan model pemrograman MapReduce.

Analisis sentimen pada Twitter menggunakan pendekatan agglomerative Hierarchical Clustering

DATA MINING PENERAPAN K-MEANS ALGORITM CLUSTERING

Optimasi K Means Clustering Menggunakan

Penerapan Metode K Means Clustering Data (1)

Clustering Data Polutan Udara Kota Pekanbaru dengan Menggunakan Metode K-Means Clustering

Kata kunci : Data Mining, K-Means Clustering,

Dokumen yang Anda mencari sudah siap untuk unduhkan