Clustering Partisional Partional Clustering

2.5.2 Clustering Partisional Partional Clustering

Dengan mengetahui objek-objek database n, sebuah algoritma clustering partisional membentuk k bagian dari data, dimana setiap cluster mengoptimalkan kriteria clustering, seperti minimisasi jumlah jarak kuadrat dari rata-rata dalam setiap cluster. Salah satu isu dengan algoritma-algoritma tersebut adalah kompleksitas tinggi, karena menyebutkan semua pengelompokan yang memungkinkan dan berusaha mencari optimum global. Bahkan untuk jumlah objek yang kecil, jumlah partisi adalah besar. Itulah sebabnya mengapa solusi-solusi umum dimulai dengan sebuah partisi awal, biasanya acak, dan berlanjut dengan penyempurnaannya. Praktek yang lebih baik akan berupa pelaksanaan algoritma partisional untuk kumpulan point-point awal yang berbeda yang dianggap sebagai representatif dan meneliti apakah semua solusi menyebabkan partisi akhir yang sama atau tidak. Algoritma-algoritma clustering partisional berusaha memperbaiki secara lokal sebuah kriteria tertentu. Pertama, menghitung nilai-nilai kesamaan atau jarak, mengurutkan hasil, dan mengangkat nilai yang mengoptimalkan kriteria. Oleh karena itu, dapat dianggap sebagai algoritma seperti greedy. Sebuah pendekatan terhadap pembagian data adalah mengambil sudut pandang konseptual yang mengidentifikasikan cluster dengan model tertentu yang parameternya tidak diketahui harus ditemukan. Model-model probabilistik menganggap bahwa data berasal dari campuran beberapa populasi yang distribusi dan prioritasnya ingin ditemukan. Sebuah kelebihan yang jelas dari metode-metode probabilistis adalah daya interpretasi dari cluster-cluster yang dibuat. Dengan memiliki representasi cluster yang tepat juga memungkinkan penghitungan yang tidak ekspensif dari ukuran-ukuran intra-cluster dari kesesuaian yang memberikan fungsi objektif global. Pendekatan lain dimulai dengan definisi fungsi objektif yang tergantung pada sebuah pembagian partition. Tergantung pada bagaimana representatif dibuat, algoritma-algoritma partitioning optimisasi iteratif dibagi lagi ke dalam metode-metode K-Medoids dan K-means. Universitas Sumatera Utara Dalam pendekatan probabilistis, data dianggap sebuah sampel yang diambil secara independen dari sebuah model campuran dari beberapa distribusi probabilitas McLachlan Basford, 1988. Asumsi utama adalah point-point data dihasilkan melalui, pertama, pengambilan secara acak model j dengan probabilitas τ j LX|C = Π , J = 1; k, dan, kedua, melalui pengambilan point x dari sebuah distribusi yang sesuai. Daerah sekitar rata-rata dari setiap distribusi anggaplah unimodal membentuk sebuah cluster natural. Kemungkinan menyeluruh dari data pelatihan adalah probabilitasnya untuk ditarik dari sebuah model campuran tertentu. i =1:N j=1:k = � j P r X i |C j Algoritma SNOB Wallace Dowe, 1994 menggunakan model campuran bersama dengan Minimum Message Length MML principal. Algoritma AUTOCLASS Cheeseman Stutz, 1996 menggunakan model campuran dan meliputi varietas distribusi yang luas, termasuk Bernoulli, Poisson, gaussian, dan distribusi-distribusi lognormal. Clustering probabilistis memiliki beberapa sifat penting: 2.3 I Dapat memodifikasi untuk menangani record dari struktur kompleks. II Dapat dihentikan dan dimulai kembali dengan batch data konsekutif, karena cluster-cluster memiliki representasi yang berbeda secara total dari kumpulan point-point. III Pada tahap apapun dari proses iteratif, model campuran intermediate dapat digunakan untuk menentukan kasus-kasus property on-line. IV Menghasilkan sistem cluster yang dapat diinterpretasikan dengan mudah. Dalam metode-metode K-Medoids, cluster direpresentasikan oleh salah satu pointnya. Ketika Medoids dipilih, cluster didefinisikan sebagai subset point-point yang dekat dengan Medoid respektif, dan fungsi objektif didefinisikan sebagai jarak yang dirata-ratakan atau ukuran ketidaksamaan lainnya antara sebuah point dan Medoids-nya. Untuk versi-versi awal dari metode-metode k-Medoids adalah algoritma PAM Partitioning around Medoids dan algoritma CLARA Clustering LARge Applications Kaufmann Rousseeuw, 1990. CLARANS Clustering Universitas Sumatera Utara Large Applications berdasarkan Upon RANdomized Search dalam konteks clustering dalam database spatial.

2.6 Analisis Cluster