Agglomerative Hierarchical Clustering Pengenalan pola keberhasilan seminaris dengan menggunakan agglomerative hierarchical clustering, sebuah studi kasus atas keberhasilan studi para seminaris di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang

Dari perhitungan dengan menggunakan Matlab ini diketahui: � � = [− . . . . ] � = [ . . ] Sampai pada tahap ini telah ditemukan eigenvalue dan eigenvector. Selanjutnya dapat dilakukan feature vector. Pembentukan feature vector-nya adalah dengan mengambil diagonal utama dari � dengan urutan dari besar ke kecil descending. Kemudian, nilai eigenvector disusun mengikuti indeks eigenvalue yang telah di-sort secara descending. Hasilnya adalah feature vector, yaitu [ .. ]. Pada tahap terakhir, berdasarkan feature vector yang telah didapat, diturunkan data set yang baru. Caranya adalah feature vector tersebut dikalikan dengan data matriks � Tabel 2.3 Zero-mean untuk PCA. � = � � � � 2.6 Hasil data set yang baru adalah sebagai berikut: Tabel 2.4 Data final untuk contoh PCA Data Z a 11.1786 b -2.1624 c -8.2344 d -5.0004 e 4.2186

2.3 Agglomerative Hierarchical Clustering

Seminari Menegah Mertoyudan adalah tempat penelitian ini. Dengan mengambil sisi scientia pengetahuan sebagai salah satu tekanan pembinaan di seminari tersebut, tulisan ini dibuat. Data perolehan dari seminari menjadi sumber tulisan ini. Data yang diperoleh diolah terlebih dahulu supaya dapat dipergunakan dengan baik. Berkaitan dengan pengolahan data, di dalam data mining ada beberapa metode yang dapat digunakan. Satu di antara metode yang ada adalah clustering. Metode clustering ini yang akan digunakan dalam pengolahan data tersebut. Clustering dapat dimengerti sebagai metode yang digunakan untuk pengelompokan obyek yang sama menjadi satu kelompok cluster, sedangkan obyek yang berbeda di cluster yang berbeda pula. Cluster bertujuan untuk menemukan kemiripan similarity antara data. Kemiripan yang dimaksud berkaitan dengan karakteristik yang ditemukan di dalam data tersebut. Dengan demikian akan terbentuk kelompok-kelompok data di mana masing-masing kelompok mengandung data yang memiliki kedekatan karakteristik. 29 Dapat dikatakan ada dua jenis pendekatan dengan menggunakan clustering, yaitu partition clustering dan hierarchical clustering. Dengan menggunakan pendekatan partition clustering, pertama ditentukan lebih dulu jumlah cluster, kemudian data dipisahkan ke dalam cluster-cluster tersebut berdasarkan kemiripannya. Algoritma yang menggunakan pendekatan partition clustering contohnya adalah k-means. Sejalan dengan partition clustering, hierarchical clustering juga membuat pengelompokkan data. Namun, sesuai dengan namanya, pendekatan hierarchical clustering, pengelompokan data dibuat berdasarkan tingkatannya. Dengan cara ini 29 Jiawei Han, Micheline Kamber, “Data mining Concepts and Techniques”, Morgan Kaufmann, USA, 2011, hal. 20. dapat dihasilkan suatu kumpulan partisi yang berurutan dengan visualisasi dendogram. Obyek dengan tingkat similarity atau kemiripan yang tinggi akan menjadi satu kelompok, begitu juga dengan data-data lain yang memiliki tingkat kemiripan tinggi akan dijadikan satu kelompok. Secara singkat dapat dikatakan bahwa metode hierarchical clustering bekerja untuk mengelompokkan obyek data ke dalam struktur cluster berdasarkan tingkat kemiripannya. Pengelompokan ini bertujuan untuk menentukan kemiripan antar data yang memiliki karakteristik yang serupa. Sehingga, dengan menggunakan hierarchical clustering data yang memiliki kemiripan berada pada hierarki yang sama, yang berbeda pada hierarki yang berbeda pula. Metode hierarchical clustering terbagi dalam dua bagian, yaitu agglomerative bottom-up dan divisive top-down. Namun yang dipilih dalam penelitian ini adalah pendekatan agglomerative hierarchical clustering. Pemilihan ini berdasarkan pada; pertama algoritma penggunaan hierarchical clustering tampaknya sederhana. Kedua, pengelompokan data dapat dilihat dengan menggunakan dendogram. Ketiga, penentuan jumlah cluster di awal tidak diperlukan. Selain itu, alasan yang terakhir adalah karena agglomerative hierarchical clustering menggunakan desain bottom-up sehingga pengelompokkan data dimulai dari yang kecil ke arah pengelompokan yang besar. Desain ini sangat membantu untuk proses pengenalan similaritas dan pengelompokan data. Metode agglomerative hierarchical clustering AHC menggunakan strategi desain bottom-up yang dimulai dengan meletakkan setiap obyek sebagai sebuah cluster tersendiri atomic cluster dan selanjutnya menggabungkan atomic cluster – atomic cluster tersebut menjadi cluster yang lebih besar dan lebih besar lagi sampai akhirnya semua obyek menyatu dalam sebuah cluster atau proses berhenti jika telah mencapai batasan kondisi tertentu. Dengan pengertian lain, agglomerative melakukan proses clustering dari n cluster menjadi satu kesatuan cluster. Dengan pengertian ini, setiap data pada awalnya dapat dianggap sebagai sebuah cluster atomic cluster. Ini berarti jika terdapat jumlah data sebanyak n, dan k dianggap sebagai jumlah cluster, maka besarnya n = k. Pada langkah selanjutnya, dihitung jarak antar cluster-nya. Sebelum pembentukan sebuah cluster perlu dihitung jarak kemiripan antara obyek data. Ada beberapa cara untuk mengetahui kemiripan data. Satu di antara cara yang ada adalah similarity matrix dengan perhitungan euclidean distance. Euclidean distance didevinisikan sebagai berikut: , = √ | − | + | − | + | − | + … + | − | 2.6 atau dapat disingkat dengan 30 : , = √∑ − � = 2.7 Keterangan:  adalah jumlah atribut atau dimensi  dan adalah data 30 Eko Prasetyo, “…Konsep Dan Aplikasi …”, op. cit. hal. 216. Dalam hierarchical clustering ada beberapa metode untuk perhitungan jarak antar cluster, di antaranya adalah single linkage, average linkage, dan complete linkage. 31 Berikut ini adalah pendefinisian perhitungan jarak-jarak tersebut. 1. Single Linkage Perhitungan dengan teknik single linkage adalah untuk mencari jarak minimum antar cluster. Dengan single linkage jarak antara dua cluster didefinisikan sebagai berikut: , = min � , ∈ {� , } 2.8 Keterangan:  {� , } adalah jarak antara data dan y dari masing-masing cluster A dan B. 2. Average Linkage Untuk menghitung jarak rata-rata antar cluster digunakan teknik average linkage. Teknik ini didefinisikan sebagai: , = ∑ ∑ �{ , } ∈ ∈ 2.9 Keterangan:  dan adalah banyaknya data dalam cluster A dan B. 3. Complete Linkage 31 Eko Prasetyo, “Data Mining: Pengolahan Data Menjadi Informasi Menggunakan Matlab”, Andi, Yogyakarta, 2014, hal. 246-247. Dengan menggunakan teknik complete linkage akan diketahui jarak maksimum antar cluster, didefinisikan sebagai berikut: , = max ∈ , ∈ {� , } 2.10 Keterangan:  {� , } adalah jarak antara data dan y dari masing-masing cluster A dan B. Dengan menggunakan formula perhitungan-perhitungan di atas akan diketahui jarak antar cluster. Jarak minimum antar data yang ditemukan pertama akan menjadi cluster yang pertama pula. Perhitungan selanjutnya juga akan dilakukan untuk pembentukan cluster selanjutnya. Masing-masing perhitungan dapat menghasilkan dendrogram. Pada penelitian ini yang akan digunakan adalah single linkage. J a r a k 1 2 0,5 1,5 a b c e d f D a t a Gambar 2.2 Dendrogram Dari penjelasan yang telah dipaparkan di atas, maka secara singkat AHC dapat dimengerti sebagai metode yang dimulai dengan setiap n cluster yang membentuk cluster masing-masing. Kemudian dua cluster dengan jarak terdekat bergabung. Selanjutnya cluster yang lama akan bergabung dengan cluster yang sudah ada dan membentuk cluster baru.Hal ini tetap memperhitungkan jarak kedekatan antar cluster. Proses akan berulang hingga akhirnya terbentuk satu cluster yang memuat keseluruhan cluster. a b c d e f a b c d e Gambar 2.3 Cluster hasil AHC Penggunaan algoritma agglomerative hierarchical clustering untuk mengelompokkan n obyek data adalah sebagai berikut 32 : 1. Hitung matriks jarak antar data. 2. Ulangi langkah 3 dan 4 hingga hanya satu kelompok yang tersisa. 3. Gabungkan dua kelompok terdekat berdasarkan parameter kedekatan yang ditentukan. 4. Ubah matriks jarak antar data untuk merepresentasikan kedekatan di antara kelompok baru dan kelompok yang masih tersisa. 5. Selesai. 32 Pang- Ning Tan, Michael Steinbach, Vipin Kumar, “Introduction to Data Mining”, Pearson Education. Inc., Boston, 2006, hal. 516. Sebagai contoh, terdapat beberapa data seperti dapat dilihat pada tabel 2.6 di bawah ini. Data ini akan dibentuk dengan menggunakan AHC dengan perhitungan kemiripan obyek data menggunakan euclidean distance dan perhitungan jarak cluster dengan single linkage, average linkage, dan complate linkage. Tabel 2.5 Contoh data perhitungan AHC Data X Y a 1 1 b 4 1 c 1 2 d 3 4 e 5 4 Dengan menggunakan euclidean distance setiap obyek data tersebut dihitung similaritasnya sebagai berikut: , = √ | − | + | − | = , = √ | − | + | − | = , = √ | − | + | − | = , , = √ | − | + | − | = , = √ | − | + | − | = , , = √ | − | + | − | = , , = √ | − | + | − | = , , = √ | − | + | − | = , , = √ | − | + | − | = , , = √ | − | + | − | = Berdasarkan perhitungan tersebut dapat dibentuk similarity matrix seperti seperti pada tabel 2.7. Berdasarkan perhitungan euclidean distance, similarity matrix ini bersifat positif, simetris, dan triangle inequality. Tabel 2.6 Similarity matrix a b c d e a 3 1 3.61 5 b 3 3.16 3.16 3.16 c 1 3.16 2.83 4.47 d 3.61 3.16 2.83 2 e 5 3.16 4.47 2 Karena similarity matrix ini bersifat simetris, matriks ini dapat juga dituliskan seperti pada tabel 2.8 berikut dan menjadi matriks jarak. Tabel 2.7 Matriks jarak a b c d e a 3 1 3.61 5 b 3.16 3.16 3.16 c 2.83 4.47 d 2 e 1. Single Linkage Selanjutnya dari tabel 2.8 dapat dilihat jarak obyek data yang paling dekat, yaitu a dan c, berjarak 1. Kedua obyek data ini menjadi satu cluster pertama. Kemudian untuk menemukan cluster berikutnya dicari jarak antar obyek data dari sisa yang ada b, d, e dan berada paling dekat dengan cluster ac. Untuk pencarian jarak ini pertama digunakan single linkage.  = min{ , } = min{ , . } =  = min{ , } = min{ . , . } = .  = min{ , } = min{ , . } = . Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster ac, sehingga matriks jarak menjadi seperti berikut ini: Tabel 2.8 Matriks jarak pertama single linkage ac b d e ac 3 2.83 4.47 b 3.16 3.16 d 2 e Berdasar pada matriks jarak pertama tabel 2.9, dipilih kembali jarak terdekat antar cluster. Ditemukan cluster de yang paling dekat, yaitu bernilai 2. Kemudian dihitung jarak dengan cluster yang tersisa, ac, dan b.  = min{ , , , } = min{ . , . , , . } = ,  = min{ , } = min{ . , . } = . Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster de, sehingga matriks jarak menjadi seperti berikut ini: Tabel 2.9 Matriks jarak kedua single linkage ac b de ac 3 2.83 b 3.16 de Berdasar pada matriks jarak kedua tabel 2.10, dipilih kembali jarak terdekat antar cluster. Ditemukan cluster acde yang paling dekat, yaitu bernilai 2.83. Kemudian dihitung jarak dengan cluster yang tersisa, yaitu b.  = min{ , , , } = min{ , , , . , . } = Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster ac dan de dihapus dan ditambahkan baris dan kolom untuk cluster acde, sehingga matriks jarak menjadi seperti berikut ini: Tabel 2.10 Matriks jarak ketiga single linkage acde b acde 3 b Dengan demikian proses iterasi perhitungan jarak untuk pembentukan cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster acde dan b digabung menjadi satu, yaitu cluster acdeb dengan jarak terdekat adalah 3. Berikut ini adalah hasil dendrogram hasil AHC dengan single linkage: Gambar 2.4 Dendrogram single linkage untuk 5 obyek data 2. Average Linkage Menggunakan average linkage akan dicari jarak antar cluster dengan menghitung nilai rata-rata pasangan setiap cluster. Dengan tetap menggunakan tabel matriks jarak tabel 2.8, perhitungan average linkage ini dilakukan. Pada awal perhitungan, cluster ac tetap digunakan sebagai cluster pertama karena jarak antar obyek yang paling dekat. Berikut ini akan dilakukan perhitungan jarak antara cluster ac dengan b, d, dan e.  = average{ , } = average{ , . } = + . = .  = average{ , } = average{ . , . } = . + . = .  = average{ , } = average{ , , } = + . = . Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster ac, sehingga matriks jarak menjadi seperti berikut ini: Tabel 2.11 Matriks jarak pertama average linkage ac b d e ac 3.08 3.22 4.73 b 3.16 3.16 d 2 e Berdasar pada matriks jarak pertama tabel 2.12, dipilih kembali jarak terdekat antar cluster. Ditemukan cluster de yang paling dekat, yaitu bernilai 2. Kemudian dihitung jarak dengan cluster yang tersisa, ac, dan b.  = average{ , , , } = average{ . , . , , . } = . + . + + . = .  = average{ , } = average{ . , . } = . + . = . Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster de, sehingga matriks jarak menjadi seperti berikut ini: Tabel 2.12 Matriks jarak kedua average linkage ac b de ac 3.08 3.97 b 3.16 de Berdasar pada matriks jarak kedua Tabel 2.13, dipilih kembali jarak terdekat antar cluster. Ditemukan cluster ac dengan b yang paling dekat, yaitu bernilai 3.08. Kemudian dihitung jarak dengan cluster yang tersisa, de.  = average{ , , , , , } = average{ . , , . , . , . , . } = . + + . + . + . + . = . Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster ac dan b dihapus dan ditambahkan baris dan kolom untuk cluster acb, sehingga matriks jarak menjadi seperti berikut ini: Tabel 2.13 Matriks jarak ketiga average linkage acb de acb 3.7 de Dengan demikian proses iterasi perhitungan jarak untuk pembentukan cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster acb dan de digabung menjadi satu, yaitu cluster acbde dengan jarak rata-rata adalah 3.7. Berikut ini adalah hasil dendrogram hasil AHC dengan single linkage: Gambar 2.5 Dendrogram average linkage untuk 5 obyek data 3. Complete Linkage Penghitungan jarak dengan complete linkage akan dicari jarak antar cluster dengan yang paling jauh. Dengan tetap menggunakan tabel matriks jarak tabel 2.8, perhitungan complete linkage ini dilakukan. Pada awal perhitungan, cluster ac tetap digunakan sebagai cluster pertama karena jarak antar obyek yang paling dekat, yaitu 1. Berikut ini akan dilakukan perhitungan jarak antara cluster ac dengan b, d, dan e.  = max{ , , } = max{ , . } = .  = max{ , , } = max{ . , . } = .  = max{ , , } = max{ , . } = Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster ac, sehingga matriks jarak menjadi seperti berikut ini: Tabel 2.14 Matriks jarak pertama complete linkage ac b d e ac 3.16 3.61 5 b 3,16 3,16 d 2 e Berdasar pada matriks jarak pertama tabel 2.15, dipilih kembali jarak terdekat antar cluster. Ditemukan cluster de yang paling dekat, yaitu bernilai 2. Kemudian dihitung jarak dengan cluster yang tersisa, ac, dan b.  = max{ , , , } = max{ . , . , , . } =  = max{ , } = max{ . , . } = . Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster de, sehingga matriks jarak menjadi seperti berikut ini: Tabel 2.15 Matriks jarak kedua complete linkage ac b de ac 3.16 5 b 3,16 de Berdasar pada matriks jarak kedua tabel 2.16, dipilih kembali jarak terdekat antar cluster. Ditemukan cluster acb dan cluster deb, yaitu bernilai 3.16. Karena kedua cluster tersebut berada pada obyek yang sama, dapat dipilih satu di antaranya. Dipilih cluster deb. Kemudian dihitung jarak dengan cluster yang tersisa, ac.  = max{ , , , , , } = max{ . , . , , . , , . } = Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster ac dan b dihapus dan ditambahkan baris dan kolom untuk cluster acb, sehingga matriks jarak menjadi seperti berikut ini: Tabel 2.16 Matriks jarak ketiga complete linkage acb de acb 5 de Dengan demikian proses iterasi perhitungan jarak untuk pembentukan cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster acb dan de digabung menjadi satu, yaitu cluster acbde dengan jarak maksimum adalah 5. Berikut ini adalah hasil dendrogram hasil AHC dengan complete linkage: Gambar 2.6 Dendrogram complete linkage untuk 5 obyek data Pada bagian akhir AHC, setelah perhitungan pembentukan dendrogram, jumlah cluster dapat ditentukan dengan memotong cut off bagian tertentu dari dendrogram yang terbentuk pada jarak tertentu. Misalnya pada gambar 2.4, dendrogram dipotong pada jarak 2,5. Dengan pemotongan ini akan terbentuk 3 cluster, yaitu ac, de, dan b dengan masing-masing obyek datanya. Gambar 2.7 Contoh pemotongan dendrogram single linkage

2.4 Uji Akurasi Data