K-Means Clustering Clustering Hirarki Hierarchical Clustering

4. Grid-based: pembentukan cluster berdasarkan pada struktur multiple- level granularity 5. Model-based: sebuah model dianggap sebagai hipotesa untuk masing- masing cluster dan model yang baik dipilih diantara model hipotesa tersebut.

2.4.1 K-Means Clustering

Algoritma K-Means adalah algoritma yang disusun atas dasar ide yang sederhana. Ada awalnya ditentukan berapa cluster yang akan dibentuk. Sembarang obyek atau elemen pertama dalam cluster dapat dipilih untuk dijadikan sebagai titik tengah centroid point cluster. Algoritma K-Means selanjutnya akan melakukan pengulangan langkah-langkah berikut sampai terjadi kestabilan tidak ada obyek yang dapat dipindahkan : 1. menentukan koordinat titik tengah setiap cluster, 2. menentukan jarak setiap obyek terhadap koordinat titik tengah, 3. mengelompokkan obyek-obyek tersebut berdasarkan pada jarak minimumnya. Algoritma K-means dinilai cukup efisien, yang ditunjukkan dengan kompleksitasnya Otkn, dimana n adalah banyaknya obyek data, k adalah jumlah cluster yang dibentuk, dan t banyaknya iterasi. Nilai k dan t jauh lebih kecil daripada nilai n. Selain itu, dalam iterasinya, algoritma ini akan berhenti dalam kondisi optimum lokal William, 2005. Sedangkan kelemahan algoritma ini adalah adanya keharusan menetukan banyaknya cluster yang akan dibentuk, hanya dapat digunakan dalam data yang mean-nya dapat ditentukan, dan tidak mampu menangani data yang mempunyai penyimpangan-penyimpangan noisy data dan outlier. Selai itu juga bergantung pada pemilihan nilai awal centroid, tidak diketahui berapa banyak cluster k yang terbaik, dan hanya bekerja pada atribut numerik.

2.4.2 Clustering Hirarki Hierarchical Clustering

Clustering Hirarki membangun sebuah Hirarki cluster atau dengan kata lain sebuah pohon cluster, yang juga dikenal sebagai dendrogram. Setiap node cluster mengandung cluster anak; cluster-cluster saudara yang membagi point yang ditutupi oleh induk mereka. Metode-metode clustering Hirarki dikategorikan ke dalam agglomeratif bawah-atas dan divisive atas-bawah Jain Dubes, 1988; Kaufman Rousseeuw, 1990. Clustering agglomeratif dimulai dengan cluster satu point singleton dan secara berulang menggabungkan dua atau lebih cluster yang paling tepat. Cluster divisive dimulai dengan satu cluster dari semua point data dan secara berulang membagi cluster yang paling tepat. Proses tersebut berlanjut hingga kriteria penghentian seringkali, jumlah k yang diperlukan dari cluster dicapai. Kelebihan cluster Hirarki meliputi: - fleksibilitas yang tertanam mengenai level granularitas, - kemudahan menangani bentuk-bentuk kesamaan atau jarak, - dapat digunakan pada tipe-tipe atribut apapun. Kelemahan dari clustering Hirarki berhubungan dengan: - ketidakjelasan kriteria terminasi, - terhadap perbaikan hasil clustering, sebagian besar algoritma Hirarki tidak mengunjungi kembali cluster-clusternya yang telah dikonstruksi. Untuk clustering Hirarki, menggabungkan atau memisahkan subset dari point- point dan bukan point-point individual, jarak antara point-point individu harus digeneralisasikan terhadap jarak antara subset. Ukuran kedekatan yang diperoleh disebut matrik hubungan. Tipe matrik hubungan yang digunakan secara signifikan mempengaruhi algoritma Hirarki, karena merefleksikan konsep tertentu dari kedekatan dan konektivitas. Matrik hubungan antar cluster utama Murtagh 1985, Olson 1995 termasuk hubungan tunggal, hubungan rata-rata, dan hubungan sempurna. Semua matrik hubungan diatas dapat diperoleh sebagai jarak dari pembaharuan formula Lance-Williams Lance Williams, 1967. DC i · · C j , C k = ɑ i d C i , C k + ɑ k d C j , C k + bd C i , C j + c | d C i , C k – d C j , C j | Dimana a, b, c adalah koefisien-koefisien yang sesuai dengan hubungan tertentu. Formula ini menyatakan sebuah matrik hubungan antara kesatuan dari dua cluster dan cluster ketiga dalam bentuk komponen-komponen yang mendasari. Clustering Hirarki berdasarkan matrik hubungan mengalami kompleksitas waktu. Dibawah asumsi-asumsi yang tepat, seperti kondisi daya reduksi metode- metode grafik memenuhi kondisi ini, metode-metode matrik hubungan memiliki kompleksitas N 2 Olson 1995.

2.5 Teknik Analisis Cluster Hirarki