Pertimbangan dataset X yang terdiri dari point-point data atau secara sinonim, objek-objek, hal-hal kasus-kasus, pola, tuple, transaksi x
i
= x
i1
, …, x
id
Є A dalam ruang atribut A, dimana i = 1, N, dan setiap komponen adalah sebuah atribut A kategori numerik atau nominal. Sasaran akhir dari clustering
adalah untuk menemukan point-point pada sebuah sistem terbatas dari subset k, cluster. Biasanya subset tidak berpotongan asumsi ini terkadang dilanggar, dan
kesatuan mereka sama dengan dataset penuh dengan pengecualian yang memungkinkan outlier. C
i
adalah sekelompok point data dalam dataset X, dimana X = C
i
.. C
k
.. C
outliers
, C
jl
.. C
j2
= 0.
2.3.1. Clustering Hirarkhi Hierarchical Clustering
Clustering hirarkhi membangun sebuah hirarkhi cluster atau dengan kata lain sebuah pohon cluster, yang juga dikenal sebagai dendrogram. Setiap node cluster
mengandung cluster anak; cluster-cluster saudara yang membagi point yang ditutupi oleh induk mereka. Metode-metode clustering hirarkhi dikategorikan ke
dalam agglomerative bawah-atas dan idivisive atas-bawah Jain Dubes, 1988; Kaufman Russeeuw, 1990. Clustering agglomerative dimulai dengan
cluster satu point singleton dan secara berulang mengabungkan dua atau lebih cluster yang paling tepat. Cluster divisive dimulai dengan satu cluster dari semua
point data dan secara berulang membagi cluster yang paling tepat. Proses tersebut berlanjut hingga kriteria penghentian seringkali, jumlah k yang diperlukan dari
cluster dicapai. Kelebihan cluster hirarkhi meliputi :
Universitas Sumatera Utara
I Fleksibilitas yang tertanam mengenai level granularitas
II Kemudahan menangani bentuk-bentuk kesamaan atau jarak
III Pada akhirnya, daya pakai pada tipe-tipe atribut apapun
Kelemahan dari clustering hirarkhi berhubungan dengan : I
Ketidakjelasan kriteria terminasi II
Terhadap perbaikan hasil clustering, sebagian besar algoritma hirarkhi tidak mengunjungi kembali cluster-clusternya yang telah dikonstruksi.
Untuk clustering hirarkhi, menggabungkan atau memisahkan subset dari point-point dan bukan point-point individual, jarak antara pint-point individu
harus digeneralisasikan terhadap jarak antara subset. Ukuran kedekatan yang diperoleh disebut metrik hubungan. Tipe metrik
hubungan yang digunakan secara signifikan mempengaruhi algortima hirarkhi, karena merefleksikan konsep tertentu dari kedekatan dan koneksitas. Metrik
hubungan antar cluster utama Murtagh 1985, Olson 1995 termasuk hubungan tunggal, hubungan rata-rata dan hubungan sempurna. Semua metrik hubungan
2.3.2. Clustering Partisional Partitional Clustering
Dengan mengetahui objek-objek database N, sebuah algoritma clustering partisional membentuk k bagian dari data, dimana setiap cluster mengoptimalkan
kriteria clustering, seperti minimasi jumlah jarak kuadrat dari rata-rata dalam setiap cluster.
Universitas Sumatera Utara
Salah satu isu dengan algoritma-algoritma tersebut adalah kompleksitas tinggi, karena menyebutkan semua pengelompokkan yang memungkinkan dan
berusaha mencari optimum global. Bahkan untuk jumlah objek yang kecil, jumlah partisi adalah besar. Itulah sebabnya mengapa solusi-solusi umum dimulai dengan
sebuah partisi awal, biasanya acak, dan berlanjut dengan penyempurnaannya. Praktek yang lebih baik akan berupa pelaksanaan algoritma partisional untuk
kumpulan point-point awal yang berbeda yang dianggap sebagai representative dan meneliti apakah semua solusi menyebabkan partisi akhir yang sama atau
tidak. Algoritma-algoritma clustering partisional berusaha memperbaiki secara local sebuah kriteria tertentu. Pertama, menghitung nilai-nilai kesamaan atau
jarak, mengurutkan hasil, dan mengangkat nilai yang mengoptimalkan kriteria. Oleh karena itu, dapat dianggap sebagai algoritma seperti greedy.
Sebuah pendekatan terhadap pembagian data adalah mengambil sudut pandang konseptual yang mengidentifikasikan cluster dengan model tertentu
yang parameternya tidak diketahui harus ditemukan. Model-model probabilistik menganggap bahwa data berasal dari campuran beberapa populasi yang
didistribusi dan prioritasnya ingin ditemukan. Sebuah kelebihan yang jelas dari metode-metode probabilitas adalah daya interpretasi dari cluster-cluster yang
dibuat. Dengan memiliki representasi cluster yang tepat juga memungkinkan penghitungan yang tidak ekspensif dari ukuran-ukuran intra-cluster dari
kesesuaian yang memberikan fungsi objektif yang tergantung pada sebuah pembagian partition. Tergantung pada bagaimana representative dibuat,
Universitas Sumatera Utara
algoritma-algoritma partitioning optimasi literative dibagi lagi ke dalam metode- metode K-medoids dan K-means.
2.4 Analisis Cluster