Partitioning Around Medoids Implementasi algoritma Partitioning Around Medoids (PAM) untuk pengelompokan Sekolah Menengah Atas di DIY berdasarkan nilai daya serap Ujian Nasional

19 Tabel 2.1 Data Contoh Nama Sekolah MAT1 MAT2 MAT3 MAT4 MAT5 MAT6 MAT7 SMA NEGERI 3 YOGYAKARTA 54.55 74.33 76.87 92.51 74.87 66.84 88.23 SMA NEGERI 4 YOGYAKARTA

36.42 70.37

58.03 79.63

60.49 50.62

75.52 SMA NEGERI 6 YOGYAKARTA 31.35 61.08 67.43 81.62 64.32 50.81 82.70 SMA NEGERI 9 YOGYAKARTA 42.75 68.12 64.49 92.75 67.39 48.55 79.47 SMA NEGERI 11 YOGYAKARTA 34.39 60.85 51.98 79.37 48.15 38.10 70.55 SMA STELLA DUCE 1 YOGYAKARTA 36.59 73.98 64.63 83.74 69.92 47.97 84.55 SMA BOPKRI 1 YOGYAKARTA 37.21 81.40 60.75 89.53 37.21 39.53 77.13 Contoh perhitungan penerapan algoritma Partitioning Around Medoids PAM atau K-Medoids terlampir pada lampiran 1.

2.5 Silhouette

2.5.1 Silhouette Index

SI Jika DBI digunakan untuk mengukur validasi seluruh cluster dalam set data, maka Silhouette Index SI dapat digunakan untuk menvalidasi baik sebuah data, cluster tunggal satu cluster dari sejumlah cluster , atau bahkan keseluruhan cluster . Metode ini yang paling banyak digunakan untuk memvalidasi cluster yang menggabungkan nilai kohesi dan separasi. Untuk menghitung nilai SI dari sebuah data ke-i, ada 2 komponen yaitu a i dan b i . a i adalah rata-rata jarak ke- i terhadap semua data lainnya dalam satu cluster , sedangkan b i didapatkan dengan menghitung rata-rata jarak data ke- i terhadap semua data dari cluster yang lain tidak dalam satu cluster dengan data ke- i , kemudian diambil yang terkecil Tan et al , 2006 Petrovic, 2003. Berikut formula untuk menghitung : = − ∑ � = ≠ , � , � = , , … , � ………………… 2.4 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 20 Dimana : j = cluster i = index data = rata-rata jarak data ke – i terhadap semua data lainnya dalam satu cluster. m j = jumlah data dalam cluster ke- j . � , � adalah jarak data ke- i dengan data ke- r dalam satu cluster j . Berikut formula untuk menghitung : = = ,…, ≠ { � ∑ � , � � = ≠ } , � = , , … , � ……………….. 2.5 Dimana : j = cluster n = cluster i = index data m n = banyak data dalam satu cluster = nilai terkecil dari rata-rata jarak data ke- i terhadap semua data dari cluster yang lain tidak dalam satu cluster dengan data ke- i � , � adalah jarak data ke- i dalam satu cluster j dengan data ke- r dalam suatu cluster n. Untuk mendapatkan Silhouette Index SI data ke- i menggunakan persamaan berikut: �� = − max{ , } ……….………………………2.6 Dimana : �� = Silhouette Index data ke- i dalam satu cluster = nilai terkecil dari rata-rata jarak data ke- i terhadap semua data dari cluster yang lain tidak dalam satu cluster dengan data ke- i = rata-rata jarak data ke – i terhadap semua data lainnya dalam satu cluster. 21 Nilai a i mengukur seberapa tidak mirip sebuah data dengan cluster yang diikutinya, nilai yang semakin kecil menandakan semakin tepatnya data tersebut berada dalam cluster tersebut. Nilai b i yang besar menandakan seberapa jeleknya data terhadap cluster yang lain. Nilai SI yang didapat dalam rentang [-1, +1]. Nilai SI yang mendekati 1 menandakan bahwa data tersebut semakin tepat berada dalam cluster tersebut. Nilai SI negatif a i b i menandakan bahwa data tersebut tidak tepat berada di dalam cluster tersebut karena lebih dekat ke cluster yang lain. SI bernilai 0 atau mendekati 0 berarti data tersebut posisinya berada di perbatasan di antara dua cluster . Untuk nilai SI dari sebuah cluster didapatkan dengan menghitung rata-rata nilai SI semua data yang bergabung dalam cluster tersebut, seperti pada persamaan berikut : �� = ∑ �� = ……………….……………………… 2.7 Dimana : �� = Rata-rata Silhouette Index cluster