19
Tabel 2.1 Data Contoh
Nama Sekolah MAT1
MAT2 MAT3 MAT4 MAT5 MAT6 MAT7 SMA NEGERI 3 YOGYAKARTA
54.55 74.33
76.87 92.51
74.87 66.84
88.23 SMA NEGERI 4 YOGYAKARTA
36.42 70.37
58.03 79.63
60.49 50.62
75.52 SMA NEGERI 6 YOGYAKARTA
31.35 61.08
67.43 81.62
64.32 50.81
82.70 SMA NEGERI 9 YOGYAKARTA
42.75 68.12
64.49 92.75
67.39 48.55
79.47 SMA NEGERI 11 YOGYAKARTA
34.39 60.85
51.98 79.37
48.15 38.10
70.55 SMA STELLA DUCE 1
YOGYAKARTA 36.59
73.98 64.63
83.74 69.92
47.97 84.55
SMA BOPKRI 1 YOGYAKARTA 37.21
81.40 60.75
89.53 37.21
39.53 77.13
Contoh perhitungan penerapan algoritma
Partitioning Around Medoids
PAM atau K-Medoids terlampir pada lampiran 1.
2.5 Silhouette
2.5.1 Silhouette Index
SI
Jika DBI digunakan untuk mengukur validasi seluruh
cluster
dalam set data, maka
Silhouette Index
SI dapat digunakan untuk menvalidasi baik sebuah data,
cluster
tunggal satu
cluster
dari sejumlah
cluster
, atau bahkan keseluruhan
cluster
. Metode ini yang paling banyak digunakan untuk memvalidasi
cluster
yang menggabungkan nilai kohesi dan separasi. Untuk menghitung nilai SI dari sebuah data
ke-i, ada 2 komponen yaitu a
i
dan b
i
. a
i
adalah rata-rata jarak ke-
i
terhadap semua data lainnya dalam satu
cluster
, sedangkan b
i
didapatkan dengan menghitung rata-rata jarak data ke-
i
terhadap semua data dari
cluster
yang lain tidak dalam satu
cluster
dengan data ke-
i
, kemudian diambil yang terkecil Tan
et al
, 2006 Petrovic, 2003. Berikut formula untuk menghitung
: =
−
∑ �
= ≠
, � , � = , , … , � ………………… 2.4 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20 Dimana :
j =
cluster
i =
index
data = rata-rata jarak data ke
–
i
terhadap semua data lainnya dalam satu
cluster.
m
j
= jumlah data dalam
cluster
ke-
j
. � , � adalah jarak data ke-
i
dengan data ke-
r
dalam satu
cluster j
.
Berikut formula untuk menghitung :
=
= ,…, ≠
{
�
∑ � , �
�
= ≠
}
,
� = , , … , � ……………….. 2.5
Dimana : j =
cluster
n =
cluster
i =
index
data m
n
= banyak data dalam satu
cluster
= nilai terkecil dari rata-rata jarak data ke-
i
terhadap semua data dari
cluster
yang lain tidak dalam satu cluster dengan data ke-
i
� , � adalah jarak data ke-
i
dalam satu
cluster j
dengan data ke-
r
dalam suatu
cluster
n.
Untuk mendapatkan
Silhouette Index
SI data ke-
i
menggunakan persamaan berikut: �� =
− max{ , }
……….………………………2.6 Dimana :
�� =
Silhouette Index
data ke-
i
dalam satu
cluster
= nilai terkecil dari rata-rata jarak data ke-
i
terhadap semua data dari
cluster
yang lain tidak dalam satu cluster dengan data ke-
i
= rata-rata jarak data ke –
i
terhadap semua data lainnya dalam satu
cluster.
21 Nilai a
i
mengukur seberapa tidak mirip sebuah data dengan
cluster
yang diikutinya, nilai yang semakin kecil menandakan semakin tepatnya data tersebut berada
dalam
cluster
tersebut. Nilai b
i
yang besar menandakan seberapa jeleknya data terhadap
cluster
yang lain. Nilai SI yang didapat dalam rentang [-1, +1]. Nilai SI yang mendekati 1 menandakan bahwa data tersebut semakin tepat berada dalam
cluster
tersebut. Nilai SI negatif a
i
b
i
menandakan bahwa data tersebut tidak tepat berada di dalam
cluster
tersebut karena lebih dekat ke
cluster
yang lain. SI bernilai 0 atau mendekati 0 berarti data tersebut posisinya berada di perbatasan di antara dua
cluster
. Untuk nilai SI dari sebuah
cluster
didapatkan dengan menghitung rata-rata nilai SI semua data yang bergabung dalam
cluster
tersebut, seperti pada persamaan berikut :
�� = ∑ ��
=
……………….……………………… 2.7 Dimana :
�� = Rata-rata
Silhouette Index cluster