Clustering Hirarkhi Hierarchical Clustering Clustering Partisional Partitional Clustering

Pertimbangan dataset X yang terdiri dari point-point data atau secara sinonim, objek-objek, hal-hal kasus-kasus, pola, tuple, transaksi x i = x i1 , …, x id Є A dalam ruang atribut A, dimana i = 1, N, dan setiap komponen adalah sebuah atribut A kategori numerik atau nominal. Sasaran akhir dari clustering adalah untuk menemukan point-point pada sebuah sistem terbatas dari subset k, cluster. Biasanya subset tidak berpotongan asumsi ini terkadang dilanggar, dan kesatuan mereka sama dengan dataset penuh dengan pengecualian yang memungkinkan outlier. C i adalah sekelompok point data dalam dataset X, dimana X = C i .. C k .. C outliers , C jl .. C j2 = 0.

2.3.1. Clustering Hirarkhi Hierarchical Clustering

Clustering hirarkhi membangun sebuah hirarkhi cluster atau dengan kata lain sebuah pohon cluster, yang juga dikenal sebagai dendrogram. Setiap node cluster mengandung cluster anak; cluster-cluster saudara yang membagi point yang ditutupi oleh induk mereka. Metode-metode clustering hirarkhi dikategorikan ke dalam agglomerative bawah-atas dan idivisive atas-bawah Jain Dubes, 1988; Kaufman Russeeuw, 1990. Clustering agglomerative dimulai dengan cluster satu point singleton dan secara berulang mengabungkan dua atau lebih cluster yang paling tepat. Cluster divisive dimulai dengan satu cluster dari semua point data dan secara berulang membagi cluster yang paling tepat. Proses tersebut berlanjut hingga kriteria penghentian seringkali, jumlah k yang diperlukan dari cluster dicapai. Kelebihan cluster hirarkhi meliputi : Universitas Sumatera Utara I Fleksibilitas yang tertanam mengenai level granularitas II Kemudahan menangani bentuk-bentuk kesamaan atau jarak III Pada akhirnya, daya pakai pada tipe-tipe atribut apapun Kelemahan dari clustering hirarkhi berhubungan dengan : I Ketidakjelasan kriteria terminasi II Terhadap perbaikan hasil clustering, sebagian besar algoritma hirarkhi tidak mengunjungi kembali cluster-clusternya yang telah dikonstruksi. Untuk clustering hirarkhi, menggabungkan atau memisahkan subset dari point-point dan bukan point-point individual, jarak antara pint-point individu harus digeneralisasikan terhadap jarak antara subset. Ukuran kedekatan yang diperoleh disebut metrik hubungan. Tipe metrik hubungan yang digunakan secara signifikan mempengaruhi algortima hirarkhi, karena merefleksikan konsep tertentu dari kedekatan dan koneksitas. Metrik hubungan antar cluster utama Murtagh 1985, Olson 1995 termasuk hubungan tunggal, hubungan rata-rata dan hubungan sempurna. Semua metrik hubungan

2.3.2. Clustering Partisional Partitional Clustering

Dengan mengetahui objek-objek database N, sebuah algoritma clustering partisional membentuk k bagian dari data, dimana setiap cluster mengoptimalkan kriteria clustering, seperti minimasi jumlah jarak kuadrat dari rata-rata dalam setiap cluster. Universitas Sumatera Utara Salah satu isu dengan algoritma-algoritma tersebut adalah kompleksitas tinggi, karena menyebutkan semua pengelompokkan yang memungkinkan dan berusaha mencari optimum global. Bahkan untuk jumlah objek yang kecil, jumlah partisi adalah besar. Itulah sebabnya mengapa solusi-solusi umum dimulai dengan sebuah partisi awal, biasanya acak, dan berlanjut dengan penyempurnaannya. Praktek yang lebih baik akan berupa pelaksanaan algoritma partisional untuk kumpulan point-point awal yang berbeda yang dianggap sebagai representative dan meneliti apakah semua solusi menyebabkan partisi akhir yang sama atau tidak. Algoritma-algoritma clustering partisional berusaha memperbaiki secara local sebuah kriteria tertentu. Pertama, menghitung nilai-nilai kesamaan atau jarak, mengurutkan hasil, dan mengangkat nilai yang mengoptimalkan kriteria. Oleh karena itu, dapat dianggap sebagai algoritma seperti greedy. Sebuah pendekatan terhadap pembagian data adalah mengambil sudut pandang konseptual yang mengidentifikasikan cluster dengan model tertentu yang parameternya tidak diketahui harus ditemukan. Model-model probabilistik menganggap bahwa data berasal dari campuran beberapa populasi yang didistribusi dan prioritasnya ingin ditemukan. Sebuah kelebihan yang jelas dari metode-metode probabilitas adalah daya interpretasi dari cluster-cluster yang dibuat. Dengan memiliki representasi cluster yang tepat juga memungkinkan penghitungan yang tidak ekspensif dari ukuran-ukuran intra-cluster dari kesesuaian yang memberikan fungsi objektif yang tergantung pada sebuah pembagian partition. Tergantung pada bagaimana representative dibuat, Universitas Sumatera Utara algoritma-algoritma partitioning optimasi literative dibagi lagi ke dalam metode- metode K-medoids dan K-means.

2.4 Analisis Cluster