Konsep Data Mining Pengelompokan Sekolah Menengah Atas di Provinsi Daerah Istimewa Yogyakarta berdasarkan nilai Ujian Nasional menggunakan algoritma K-Means Clustering.
= rata-rata jarak data ke – terhadap semua data lainnya dalam satu
cluster. = jumlah data dalam cluster ke-
. adalah jarak data ke- dengan data ke- dalam suatu cluster .
Berikut adalah formula untuk menghitung {
∑ }
Di mana: = cluster
n = cluster
= index data = jumlah data dalam cluster ke-
. = Nilai terkecil dari rata-rata jarak data ke-
terhadap semua data dari cluster yang lain tidak dalam satu cluster dengan data ke-
. = jarak data ke- dalam cluster j dengan data ke- dalam suatu
cluster .
Prasetyo, 2014. Untuk mendapatkan nilai jumlah Silhouette data ke-
menggunakan persamaan berikut:
{ }
Di mana: = Silhouette data ke i dalam 1 cluster
= Nilai terkecil dari rata-rata jarak data ke- terhadap semua data dari
cluster yang lain tidak dalam satu cluster dengan data ke- .
= rata-rata jarak data ke – terhadap semua data lainnya dalam satu
cluster. Kaufman dan Rousseeuw, 2005
Nilai S rata-rata dari sebuah cluster didapatkan dengan menghitung rata-
rata nilai S semua data yang bergabung dalam cluster tersebut, seperti pada
persamaan berikut: ∑
= Rata-rata Silhouette cluster j = Silhouette data ke i dalam 1 cluster j
= index = jumlah data dalam cluster ke-
. Nilai rata-rata
dari data set didapatkan dengan menghitung rata-rata nilai
dari semua cluster seperti pada persamaan berikut: ∑
= jumlah cluster. = Rata-rata Silhouette dari data set
= Rata-rata Silhouette cluster j Prasetyo, 2014.
Nilai mengukur seberapa mirip sebuah data dengan cluster yang
diikutinya, nilai yang semakin kecil menandakan semakin tepatnya data tersebut berada dalam cluster tersebut. Nilai
yang besar menandakan seberapa jeleknya data terhadap cluster yang lain. Prasetyo, 2014
Hasil perhitungan nilai Silhouette Coeficient dapat bervariasi antara -1 hingga 1. Jika
= 1 maka objek berada dalam cluster yang tepat. Jika = 0 maka objek
berada di antara dua cluster sehingga objek tersebut tidak jelas harus dimasukan ke dalam cluster A atau B. Akan tetapi, jika
= -1 artinya cluster yang dihasilkan overlapping, sehingga objek
lebih tepat dimasukan ke dalam cluster lain.Alfian dkk, 2012. Silhouette Coeficient adalah ukuran yang
berguna dari jumlah struktur clustering yang telah ditemukan oleh algoritma klasifikasi. Silhouette Coeficient adalah berdimensi kuantitas yang paling sama
dengan 1. Perhitungan nilai Silhouette Coeficient dapat dirumuskan sebagai berikut:
Di mana: SC = Silhouette Coeficient
= Nilai Silhouette = cluster
= Nilai maksimum dari semua k.
Rata-rata dari untuk semua objects pada sebuah cluster, yang
disebut rata-rata silhouette dalam sebuah cluster. Rata-rata dari untuk =
1,2,...n, yang disebut rata-rata silhouette pada data set. Nilai maksimum didapatkan dari semua percobaan k pada silhouette, dimana
= 2,3,... n-1. Menurut interpretasi subjektif dari Kauffman dan Rousseeuw2005 dapat
dilihat pada tabel 2.1. Kauffman dan Rousseeuw,2005. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Tabel 2. 1 Kriteria Subjektif Kualitas Pengelompokkan Berdasarkan Silhouette Coeficient SC
Nilai SC Interpretasi Oleh Kauffman
0,72 – 1,00
Strong Classification 0,51-0,70
Good Classification 0,26-0,50
Weak Classification 0-0,25
Bad Classification PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI