Clustering Hirarkhi Hierarchical Clustering

V Pengkajian output jika dibutuhkan. Representasi pola merujuk pada jumlah kelas, jumlah pola-pola yang ada, dan jumlah, tipe dan skala fitur yang tersedia untuk algoritma clustering. Beberapa informasi ini dapat tidak bisa dikontrol oleh praktisioner. Seleksi sifat fitur adalah proses pengidentifikasian subset fitur original yang paling efektif untuk digunakan dalam clustering. Ekstraksi fitur adalah penggunaan satu atau lebih transformasi dari sifat-sifat input untuk menghasilkan sifat-sifat baru yang lebih baik. Pertimbangkan dataset X yang terdiri dari point-point data atau secara sinonim, objek-objek, hal-hal, kasus-kasus, pola, tuple, transaksi x i = x i1 , …, x id Є A dalam ruang atribut A, dimana i = 1, N, dan setiap komponen adalah sebuah atribut A kategori numerik atau nominal. Sasaran akhir dari clustering adalah untuk menentukan point-point pada sebuah sistem terbatas dari subset k, cluster. Biasanya subset tidak berpotongan asumsi ini terkadang dilanggar, dan kesatuan mereka sama dengan dataset penuh dengan pengecualian yang memungkinkan outlier. C i adalah sekelompok point data dalam dataset X, dimana X = C i .. C k .. C outliers , C j1 .. C j2 = 0.

2.5.1 Clustering Hirarkhi Hierarchical Clustering

Clustering hirarkhi membangun sebuah hirarkhi cluster atau, dengan kata lain, sebuah pohon cluster, yang juga dikenal sebagai dendrogram. Setiap node cluster mengandung cluster anak; cluster-cluster saudara yang membagi point yang ditutupi oleh induk mereka. Metode-metode clustering hirarkhi dikategorikan ke dalam agglomeratif bawah-atas dan divisive atas-bawah Jain Dubes, 1988; Kaufman Rousseeuw, 1990. Clustering agglomeratif dimulai dengan cluster satu point singleton dan secara berulang menggabungkan dua atau lebih cluster yang paling tepat. Cluster divisive dimulai dengan satu cluster dari semua point data dan secara berulang membagi cluster yang paling tepat. Proses tersebut berlanjut hingga kriteria Universitas Sumatera Utara penghentian seringkali, jumlah k yang diperlukan dari cluster dicapai. Kelebihan cluster hirarkhi meliputi: I Fleksibilitas yang tertanam mengenai level granularitas II Kemudahan menangani bentuk-bentuk kesamaan atau jarak III Pada akhirnya, daya pakai pada tipe-tipe atribut apapun. Kelemahan dari clustering hirarkhi berhubungan dengan: I ketidakjelasan kriteria terminasi II Terhadap perbaikan hasil clustering, sebagian besar algoritma hirarkhi tidak mengunjungi kembali cluster-clusternya yang telah dikonstruksi. Untuk clustering hirarkhi, menggbungkan atau memisahkan subset dari point-point dan bukan point-point individual, jarak antara point-point individu harus digeneralisasikan terhadap jarak antara subset. Ukuran kedekatan yang diperoleh disebut metrik hubungan. Tipe metrik hubungan yang digunakan secara signifikan mempengaruhi algoritma hirarkhi, karena merefleksikan konsep tertentu dari kedekatan dan konektivitas. Metrik hubungan antar cluster utama Murtagh 1985, Olson 1995 termasuk hubungan tunggal, hubungan rata-rata, dan hubungan sempurna. Semua metrik hubungan diatas dapat diperoleh sebagai jarak dari pembaharuan formula Lance-Williams Lance Williams, 1967. DC i · · C j , C k = ɑ i d C i , C k + ɑ k d C j , C k + bd C i , C j + c | d C i , C k – d C j , C j Dimana, a, b, c, adalah koefisien-koefisien yang sesuai dengan hubungan tertentu. Formula ini menyatakan sebuah metrik hubungan antara kesatuan dari dua cluster dan cluster ketiga dalam bentuk komponen-komponen yang mendasari. | 2.1 Clustering hirarkhi berdasarkan metrik hubungan mengalami kompleksitas waktu. Dibawah asumsi-asumsi yang tepat, seperti kondisi daya reduksi metode- metode grafik memenuhi kondisi ini, metode-metode metrik hubungan memiliki kompleksitas N 2 Olson 1995. Universitas Sumatera Utara Metrik-metrik hubungan berdasarkan jarak Euclidean untuk clustering hirarkhi dari data spatial secara natural mempengaruhi cluster-cluster dari bentuk- bentuk convex yang tepat. Sementara itu, scanning visual dari gambar-gambar spatial sering memperlihatkan cluster-cluster dengan tampilan curvy. Dalam linguistik, pencarian informasi, dan taksonomi biner aplikasi clustering dokumen adalah sangat membantu. Metode-metode aljabar linear, yang didasarkan pada dekomposisi nilai singular Singular Value Decomposition - SVD digunakan untuk tujuan ini dalam filtering kolaboratif dan pencarian informasi Berry Browne, 1999. Aplikasi SVD terhadap clustering divisive hirarkhi dari kumpulan dokumen menghasilkan algoritma PDDP Principal Direction Divisive Partitioning Boley, 1998. Algoritma ini membagi dua data dalam ruang Euclidean dengan sebuah hyperplane yang mengalir melalui centroid data secara ortogonal pada eigenvector dengan nilai singular yang besar. Pembagian cara k juga memungkinkan jika k nilai singular terbesar dipertimbangkan. Divisive hirarkhi yang membagi dua rata-rata k terbukti Steinbach et al. 2000 dapat dipilih untuk clustering dokumen. Algoritma clustering hirarkhi populer untuk data kategorikal COBWEB Fisher, 1987 memiliki dua kualitas yang sangat penting. Pertama, menggunakan pembelajaran incremental. Daripada mengikuti pendekatan divisive atau agglomerative, secara dinamis membangun sebuah dendrogram melalui pengolahan satu point data pada suatu waktu. Kedua, COBWEB termasuk pada pembelajaran berdasarkan konseptual atau model. Ini berarti bahwa setiap cluster dianggap sebagai sebuah model yang dapat dijelaskan secara intrinsik, dan bukan sebagai sebuah kumpulan point yang ditentukan terhadapnya. Dendrogram COBWEB disebut pohon klasifikasi. Setiap node pohon C, sebuah cluster, berhubungan dengan probabilitas kondisional untuk pasangan-pasangan nilai-nilai atribut kategorikal, yakni : P r X i = v lp | C, l = 1 : d,p = 1|A l | 2.2 Universitas Sumatera Utara

2.5.2 Clustering Partisional Partional Clustering