Metode Clustering Identifikasi penyakit hepatitis dengan pendekatan Agglomerative Hierarchical Clustering.

Pada gambar tersebut tidak terdapat label yang menyertakan orang tersebut terkena hipertensi atau tidak. Pada clustering, ditentukan labelnya berdasarkan tingkat kemiripan data. Seperti pada gambar dibawah ini terdapat 2 buah cluster,cluster pertama berada pada tingkat gemuk dan sangat gemuk serta terletak pada usia muda dan paruh baya. Sedangkan cluster kedua pada tingkat terlalu gemuk dan usia paruh baya dan tua, maka dari hal tersebut dapat disimpulkan bahwa pada cluster kedua merupakan pasien yang terkena hipertensi. Sedangkan pada cluster pertama tidak. Gambar 2.4 Ali, 2006 hasil clusteringpada data hipertensi

2.3 Metode Clustering

2.3.1 Pengertian Clustering

Metode data mining yang akan dipakai adalah clustering.Clustering merupakan proses pengelompokan objek yang sama menjadi satu kelompok, sedangkan obyek diantara kelompok tersebut berbeda satu sama lain. Pada proses clusteringmemilikicluster, yaitu kumpulan objek data yang sama satu sama lain dalam cluster yang sama dan berbeda untuk objek dalam kelompok lain. Tujuan dari cluster ini untuk menemukan kemiripan antara data, sesuai dengan karakteristik yang ditemukan di dalam data dan pengelompokan data objek yang sama ke dalam kelompok-kelompok tertentu HanKamber.2004. Jadi, prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu cluster dan meminimumkan kesamaan antar cluster. Pada clustering terdapat 2 jenis metode, yaituhierarchical clusteringdan partition clustering. Hierarchical clusteringadalah teknik clustering yang membentuk hirarki dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki yang berjauhan. Metode ini terbagi menjadi dua yaitu bottom-up agglomerative yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down divisive yang memecah cluster besar menjadi cluster yang lebih kecil. Sedangkan partition clustering adalah teknik pengelompokan obyek ke dalam cluster tertentu dengan menentukan jumlah cluster terlebih dahulu. Contohnya: algoritma K-Means dan Fuzzy K-Means. Metode yang akan digunakan untuk penelitian ini menggunakan pendekatan hirarki yaitu dengan menggunakan agglomerative hierarchical clustering. Pemilihan metode agglomerative hierarchical clusteringkarena algoritmanya yang sederhana, jarak untuk setiap gejala dapat diketahui, model pengelompokannya dapat dilihat dengan dendrogram, dan tidak perlu menentukan jumlah cluster yang diinginkan diawal. Metode tersebut bekerja dengan mengelompokan data-data yang mirip ke dalam hirarki yang sama sedangkan yang jauh dikelompokan pada hirarki yang berbeda. Agglomerative melakukan proses clustering dari Ncluster menjadi satu kesatuan cluster, dimana N adalah jumlah data. Jenis pengukuran jarak yang akan digunakan adalah single linkage, average linkagedan complete linkage. Penggunaan tiga pengukuran kemiripan jarak karena dapat mengetahui mana hasil yang terbaik dengan melihat dendrogram yang dihasilkan. a. Single linkage merupakan jarak minimum antara elemen dari setiap cluster. Jarak antara dua cluster didefinisikan sebagai 2.3 Keterangan : - S xy merupakan jarak antara dua data x dan y dari masing cluster A dan B. b. Average linkagemerupakan rata-rata jarak antara elemen dari setiap cluster pada setiap data. Jarak antar cluster didefinisikan sebagai, , = 1 { , } � � 2.4 Keterangan : - n A dan n B adalah banyaknya data dalam set A dan B. dA,B = min {S xy } � , � c. Complete linkagemelihat jarak maksimum antar elemen dalam cluster. Jarak antar cluster didefinisikan sebagai, 2.5 Keterangan : - S xy merupakan jarak antara dua data x dan y dari masing cluster A dan B. Ketiga jenis pengukuran jarak tersebutmenggunakan prinsip jarak minimum yang diawali dengan mencari dua obyek terdekat dan keduanya membentuk cluster yang pertama. Langkah selanjutnya dapat dipilih menjadi dua kemungkinan, obyek ketiga akan bergabung dengan cluster yang telah terbentuk, atau membentuk cluster baru. Proses ini akan berlanjut sampai akhirnya terbentuk cluster tunggal. Hasil dari pengelompokan ini dapat ditampilkan dalam bentuk dendrogram. Gambar 2.5 : dendrogram dA,B = max {S xy } � , � Pada dendrogram diatas terdapat jarak antar obyek. Garis vertikal merupakan jarak, sedangkan garis horizontal merupakan obyek. Salah satu cara untuk mempermudah pengembangan dendrogram untuk hierarchicalclustering ini adalah dengan membuat similarity matrix yang memuat tingkat kemiripan antar data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam cara seperti : a. Euclidean distance, pengukuran jarak yang biasa digunakan dan sering disebut dengan formula phytagoras. 2.6 Keterangan : - n = jumlah atribut atau dimensi. - p k dan q k = data. b. Minskowski distance, merupakan generalisasi dari euclidean matrix. 2.7 Keterangan : 1. r = parameter 2. n = jumlah dimensi atau atribut, 3. p k dan q k = obyek data p dan q c. Simple Matching Coefficients, biasa digunakan jika data hanya memiliki atribut bertipe biner. Cara kerjanya adalah jumlah data yang cocok dibagi dengan jumlah atribut. SMC = M 11 + M 00 M 01 + M 10 + M 11 + M 00 2.8 Keterangan : 1. M 01 = jumlah atribut dimana p = 0 dan q = 1 2. M 10 = jumlah atribut dimana p = 1 dan q = 0 3. M 00 = jumlah atribut dimana p = 0 dan q = 0 4. M 11 = jumlah atribut dimana p = 1 dan q = 1 d. Jaccard Coefficient, biasa digunakan jika data hanya memiliki atribut bertipe biner. Cara kerjanya adalah jumlah biner 1 dan 1 yang cocok dibagi dengan jumlah nilai atribut yang keduanya tidak 0. J = M 11 M 01 + M 10 + M 11 2.9 Keterangan : 1. M 01 = jumlah atribut dimana p = 0 dan q = 1 2. M 10 = jumlah atribut dimana p = 1 dan q = 0 3. M 00 = jumlah atribut dimana p = 0 dan q = 0 4. M 11 = jumlah atribut dimana p = 1 dan q = 1

2.3.2 Agglomerative Hierarchical Clustering

Pada agglomerative hierarchical clustering, harus dihitung jarak masing- masing obyek. Setelah jarak dari semua obyek dihitung, maka lakukan langkah- langkah berikut ini : 1. Biarkan setiap data point menjadi sebuah cluster 2. Hitung matriks kemiripan 3. Kelompokkan data paling mirip untuk dimasukan ke dalam cluster yang sama dengan melihat jarak dalam matriks kemiripan 4. Perbarui matriks kemiripan dengan jarak yang baru. 5. Ulangi sampai tersisa hanya satu cluster. Tan,Steinbach,dkk 2004. Gambar 2.6 hasil ilustrasiclustering Rumus yang digunakan dalam menghitung jarak antar obyek bermacam- macam dan salah satu yang digunakan adalah euclidean distance. Pada tabel dibawah ini merupakan contoh data yang belum dihitung jarak kedekatannya. Dari tabel inilah dapat dihitung dengan menggunakan rumus euclidean distance. Tabel 2.3 Contoh Data Titik X Y 1 0.4 0.53 2 0.22 0.38 3 0.35 0.32 4 0.26 0.19 5 0.08 0.41 6 0.45 0.30 Setelah dihitung jarak antar obyek maka dibuatkan matriks jarak. Dalam matriks ini jarak dari setiap pasang obyek dihitung dan nilai dalam satu masukan menunjukan jarak antar obyek dari indeks dari kolom dan baris. Matriks jarak ini bersifat simetris. Tabel 2.4 Contoh Matriks Similiarity 1 2 3 4 5 6 1 0.24 0.22 0.37 0.34 0.23 2 0.24 0.15 0.20 0.14 0.25 3 0.22 0.15 0.15 0.28 0.11 4 0.37 0.20 0.15 0.29 0.22 5 0.34 0.14 0.28 0.29 0.39 6 0.23 0.25 0.11 0.22 0.39 Untuk mengukur jarak antara dua cluster A dan B digunakan 3 pengukuran kemiripan, yaitu : a. Jarak minimum antara elemen dari setiap cluster singlelinkage Pada single linkage, akan mengelompokan data dengan cara melihat jarak yang paling minimum. Gambar 2.7 : matriks jarak Pertama gabungkan dua item yang paling dekat, karena objek 5 dan 3 memiliki jarak yang minimum, maka kedua obyek tersebut digabung mind ik = d 53 = 2 untuk membentuk cluster 35. Kemudian untuk menemukan cluster berikutnya, maka memerlukan jarak-jarak antara cluster 35 dan objek-objek yang lain yang tersisa yaitu 1, 2 dan 4. Jarak yang berdekatan, yaitu : - d 35 1 = min { d 31, d 51} = min {3, 11} = 3 - d 35 2 = min { d 32, d 52} = min {7, 10} = 7 - d 35 4 = min { d 34, d 54} = min { 9, 8} = 8 Kemudian menghapus baris dan kolom yang bersesuaian dengan objek 3, 5 dan untuk cluster 35, maka mendapatkan matrik jarak yang baru. Gambar 2.8 : matriks jarak keduasingle linkage Dari matriks jarak yang baru tersebut, cari jarak terkecil antara pasangan- pasangan cluster sekarang, yaitu d 351 = 3. Lalu menggabungkan cluster 1 dengan cluster 35 untuk mendapatkan cluster berikutnya dengan menghitung : - d 135 2 = min { d 352, d 12} = min {7, 9} = 7 - d 135 4 = min { d 354, d 14} = min {8, 6} = 6 Kemudian hapus baris dan kolom dari cluster 35 dan 1, maka akan mendapatkan matrik jarak untuk hasil cluster berikutnya, yaitu : Gambar 2.9 : matriks jarak ketigasingle linkage Jarak terdekat berikutnya yang paling kecil antara pasangan cluster adalah 24 = 5. Kemudian gabung objek 4 dan 2 untuk mendapatkan cluster 24. Saat ini sudah mempunyai 2 cluster yang berlainan, 135 dan 24, maka jarak terdekatnya, yaitu - d 135 24 = min { d 135 2 , d 135 4 } = min {7, 6} = 6 Proses perhitungan sudah selesai karena cluster sudah tersisa satu. Dari hasil diatas menghasilkan matriks jarak yang terakhir dan dendrogramnya sebagai berikut : Gambar 2.10 : matriks jarak terakhirsingle linkage Gambar 2.11: Dendrogram single linkage untuk jarak antara 5 obyek b. Jarak maksimum antara elemen dalam cluster complete linkage. Pada complete linkage, semua item dalam satu cluster berada dalam jarak paling jauh satu sama lain. Pada complete linkage ini menggunakan matriks jarak pertama yang digunakan untuk menghitung single linkage. Pada tahap pertama objek- objek 3 dan 5 digabung karena jaraknya paling dekat. Perbedaan single linkagedengan complete linkageadalah pemilihan jaraknya. Setelah dihitung maka akan menghasilkan matriks jarak baru. Kolom dan baris 3 dan 5 akan dihapus untuk membentuk cluster 35. - d 35 1 = maks { d 31, d 51} = maks {3, 11} = 11 - d 35 2 = maks { d 32, d 52} = maks {7, 10} = 10 - d 35 4 = maks { d 34, d 54} = maks { 9, 8} = 9 Gambar 2.12 : matriks jarak keduacomplete linkage Penggabungan berikutnya terjadi antara kelompok yang paling dekat 2 dan 4 untuk membentuk cluster 24 = 5. Pada tahap ini menghasilkan matrik jarak yang baru dengan menghapus baris dan kolom yang bersesuaian. - d 2435 = maks { d 235, d 435} = maks {10, 9} = 10 - d 241 = maks { d 21, d 41} = 9 Gambar 2.13: matriks jarak ketigacomplete linkage Penggabungan berikutnya menghasilkan cluster 124. Pada tahap akhir kelompok 35 dan 124 digabungkan menjadi cluster tunggal 12345 pada perhitungan d 12435 = maks { d 135 , d 2435 } = maks {11, 10} = 11. Dari hasil inilah maka dapat dibuat bentuk dendrogramnya seperti pada gambar dibawah ini. Gambar 2.14 : dendrogram complete linkage untuk jarak 5 objek c. Rata-rata jarak antara elemen dari setiap cluster average linkage. Pada average linkage, jarak antara dua cluster dihitung sebagai jarak rata- rata antara semua pasangan item-item yang ada pada tiap cluster. Pada average linkageini juga masih menggunakan matriks jarak pertama. Pada tahap pertama objek 3 dan 5 digabung karena mereka paling dekat jaraknya. Pada tahap kedua, hitung jarak seperti dibawah ini. - d 35 1 = { d 31+ d 51} 2 = {3 +11} 2 = 7 - d 35 2 = { d 32 + d 52}2 = {7 + 10}2 = 8,5 - d 35 4 = { d 34 + d 54}2 = { 9 + 8}2 = 8,5 Gambar 2.15 : matriks jarak keduaaverage linkage Kemudian cari jarak yang paling dekat berikutnya. Kelompok yang paling mirip adalah 2 dan 4 untuk membentuk cluster 24 = 5. Pada tahap ketiga, hitung gabungan cluster untuk menghasilkan matrik jarak yang baru. - d 2435 = {d 2,3 + d2,5 + d4,3 +d4,5 }4 = 7+10+9+84 = 8,5 - d 241 = { d 2,1 + d 4,1 }2 = 9+62 = 7,5 Gambar 2.16: Matriks jarak ketigaaverage linkage Pada tahap ini, jarak yang paling dekat menghasilkan cluster 135. Kemudian cluster 135 dan 24 digabungkan menjadi cluster tunggal 13524. Perhitungan ini akan menghasilkan matriks jarak baru dan dendrogram. - d 13524 = { d 2,1+ d 2,3 + d 2,5 + d 4,1+ d 4,3 + d 4,5 }6 = 496 =8,17 Gambar 2.17: matriks jarak terakhir average linkage Gambar 2.18 : Dendrogram average linkage untuk jarak 5 obyek. Setelah proses perhitungan dengan single linkage, average linkage dan complete linkage, maka dibuatkan dendrogram untuk mengetahui pengelompokkan dari hasil perhitungan tersebut. Pada, agglomerative hierarchical clustering, dapat menentukan jumlah cluster dengan cara memotong dendrogram pada jarak tertentu. Contohnya pada gambar dibawah ini. Pada gambar 2.21 dapat dilihat bahwa cluster terbagi menjadi 2. Cluster 1 berisi obyek 1, 3 dan 5, sedangkan cluster 2 berisi obyek 2 dan 4. Gambar 2.19 : Dendrogram yang sudah dilakukan pemotongan cut-off Cut off

2.4 Dimensionality Reduction