2.5.2 Clustering Partisional Partional Clustering
Dengan mengetahui objek-objek database n, sebuah algoritma clustering partisional membentuk k bagian dari data, dimana setiap cluster mengoptimalkan kriteria
clustering, seperti minimisasi jumlah jarak kuadrat dari rata-rata dalam setiap cluster.
Salah satu isu dengan algoritma-algoritma tersebut adalah kompleksitas tinggi, karena menyebutkan semua pengelompokan yang memungkinkan dan
berusaha mencari optimum global. Bahkan untuk jumlah objek yang kecil, jumlah partisi adalah besar. Itulah sebabnya mengapa solusi-solusi umum dimulai dengan
sebuah partisi awal, biasanya acak, dan berlanjut dengan penyempurnaannya. Praktek yang lebih baik akan berupa pelaksanaan algoritma partisional untuk
kumpulan point-point awal yang berbeda yang dianggap sebagai representatif dan meneliti apakah semua solusi menyebabkan partisi akhir yang sama atau tidak.
Algoritma-algoritma clustering partisional berusaha memperbaiki secara lokal sebuah kriteria tertentu. Pertama, menghitung nilai-nilai kesamaan atau jarak, mengurutkan
hasil, dan mengangkat nilai yang mengoptimalkan kriteria. Oleh karena itu, dapat dianggap sebagai algoritma seperti greedy.
Sebuah pendekatan terhadap pembagian data adalah mengambil sudut pandang konseptual yang mengidentifikasikan cluster dengan model tertentu yang
parameternya tidak diketahui harus ditemukan. Model-model probabilistik menganggap bahwa data berasal dari campuran beberapa populasi yang distribusi
dan prioritasnya ingin ditemukan. Sebuah kelebihan yang jelas dari metode-metode probabilistis adalah daya interpretasi dari cluster-cluster yang dibuat. Dengan
memiliki representasi cluster yang tepat juga memungkinkan penghitungan yang tidak ekspensif dari ukuran-ukuran intra-cluster dari kesesuaian yang memberikan fungsi
objektif global. Pendekatan lain dimulai dengan definisi fungsi objektif yang tergantung pada sebuah pembagian partition. Tergantung pada bagaimana
representatif dibuat, algoritma-algoritma partitioning optimisasi iteratif dibagi lagi ke dalam metode-metode K-Medoids dan K-means.
Universitas Sumatera Utara
Dalam pendekatan probabilistis, data dianggap sebuah sampel yang diambil secara independen dari sebuah model campuran dari beberapa distribusi probabilitas
McLachlan Basford, 1988. Asumsi utama adalah point-point data dihasilkan melalui, pertama, pengambilan secara acak model j
dengan probabilitas τ
j
LX|C = Π , J = 1; k,
dan, kedua, melalui pengambilan point x dari sebuah distribusi yang sesuai. Daerah sekitar rata-rata dari setiap distribusi anggaplah unimodal membentuk sebuah
cluster natural. Kemungkinan menyeluruh dari data pelatihan adalah probabilitasnya untuk ditarik dari sebuah model campuran tertentu.
i =1:N j=1:k =
�
j
P
r
X
i
|C
j
Algoritma SNOB Wallace Dowe, 1994 menggunakan model campuran bersama dengan Minimum Message Length
MML principal. Algoritma AUTOCLASS Cheeseman Stutz, 1996 menggunakan model campuran dan
meliputi varietas distribusi yang luas, termasuk Bernoulli, Poisson, gaussian, dan distribusi-distribusi lognormal. Clustering probabilistis memiliki beberapa sifat
penting: 2.3
I Dapat memodifikasi untuk menangani record dari struktur kompleks.
II Dapat dihentikan dan dimulai kembali dengan batch data konsekutif,
karena cluster-cluster memiliki representasi yang berbeda secara total dari kumpulan point-point.
III Pada tahap apapun dari proses iteratif, model campuran intermediate
dapat digunakan untuk menentukan kasus-kasus property on-line. IV
Menghasilkan sistem cluster yang dapat diinterpretasikan dengan mudah. Dalam metode-metode K-Medoids, cluster direpresentasikan oleh salah satu
pointnya. Ketika Medoids dipilih, cluster didefinisikan sebagai subset point-point yang dekat dengan Medoid respektif, dan fungsi objektif didefinisikan sebagai
jarak yang dirata-ratakan atau ukuran ketidaksamaan lainnya antara sebuah point dan Medoids-nya. Untuk versi-versi awal dari metode-metode k-Medoids adalah
algoritma PAM Partitioning around Medoids dan algoritma CLARA Clustering LARge Applications Kaufmann Rousseeuw, 1990. CLARANS Clustering
Universitas Sumatera Utara
Large Applications berdasarkan Upon RANdomized Search dalam konteks clustering dalam database spatial.
2.6 Analisis Cluster