V Pengkajian output jika dibutuhkan.
Representasi pola merujuk pada jumlah kelas, jumlah pola-pola yang ada, dan jumlah, tipe dan skala fitur yang tersedia untuk algoritma clustering. Beberapa
informasi ini dapat tidak bisa dikontrol oleh praktisioner. Seleksi sifat fitur adalah proses pengidentifikasian subset fitur original yang paling efektif untuk digunakan
dalam clustering. Ekstraksi fitur adalah penggunaan satu atau lebih transformasi dari sifat-sifat input untuk menghasilkan sifat-sifat baru yang lebih baik.
Pertimbangkan dataset X yang terdiri dari point-point data atau secara sinonim, objek-objek, hal-hal, kasus-kasus, pola, tuple, transaksi x
i
= x
i1
, …, x
id
Є A dalam ruang atribut A, dimana i = 1, N, dan setiap komponen adalah sebuah
atribut A kategori numerik atau nominal. Sasaran akhir dari clustering adalah untuk menentukan point-point pada sebuah sistem terbatas dari subset k, cluster. Biasanya
subset tidak berpotongan asumsi ini terkadang dilanggar, dan kesatuan mereka sama dengan dataset penuh dengan pengecualian yang memungkinkan outlier. C
i
adalah sekelompok point data dalam dataset X, dimana X = C
i
.. C
k
.. C
outliers
, C
j1
.. C
j2
= 0.
2.5.1 Clustering Hirarkhi Hierarchical Clustering
Clustering hirarkhi membangun sebuah hirarkhi cluster atau, dengan kata lain, sebuah pohon cluster, yang juga dikenal sebagai dendrogram. Setiap node cluster
mengandung cluster anak; cluster-cluster saudara yang membagi point yang ditutupi oleh induk mereka. Metode-metode clustering hirarkhi dikategorikan ke dalam
agglomeratif bawah-atas dan divisive atas-bawah Jain Dubes, 1988; Kaufman Rousseeuw, 1990. Clustering agglomeratif dimulai dengan cluster satu point
singleton dan secara berulang menggabungkan dua atau lebih cluster yang paling tepat. Cluster divisive dimulai dengan satu cluster dari semua point data dan secara
berulang membagi cluster yang paling tepat. Proses tersebut berlanjut hingga kriteria
Universitas Sumatera Utara
penghentian seringkali, jumlah k yang diperlukan dari cluster dicapai. Kelebihan cluster hirarkhi meliputi:
I Fleksibilitas yang tertanam mengenai level granularitas
II Kemudahan menangani bentuk-bentuk kesamaan atau jarak
III Pada akhirnya, daya pakai pada tipe-tipe atribut apapun.
Kelemahan dari clustering hirarkhi berhubungan dengan: I
ketidakjelasan kriteria terminasi II
Terhadap perbaikan hasil clustering, sebagian besar algoritma hirarkhi tidak mengunjungi kembali cluster-clusternya yang telah dikonstruksi.
Untuk clustering hirarkhi, menggbungkan atau memisahkan subset dari point-point dan bukan point-point individual, jarak antara point-point individu harus
digeneralisasikan terhadap jarak antara subset. Ukuran kedekatan yang diperoleh disebut metrik hubungan. Tipe metrik
hubungan yang digunakan secara signifikan mempengaruhi algoritma hirarkhi, karena merefleksikan konsep tertentu dari kedekatan dan konektivitas. Metrik
hubungan antar cluster utama Murtagh 1985, Olson 1995 termasuk hubungan tunggal, hubungan rata-rata, dan hubungan sempurna. Semua metrik hubungan
diatas dapat diperoleh sebagai jarak dari pembaharuan formula Lance-Williams Lance Williams, 1967.
DC
i
· · C
j
, C
k
=
ɑ i d
C
i
, C
k
+
ɑ k d
C
j
, C
k
+
bd
C
i
, C
j
+
c
|
d
C
i
, C
k
–
d
C
j
, C
j
Dimana, a, b, c, adalah koefisien-koefisien yang sesuai dengan hubungan tertentu. Formula ini menyatakan sebuah metrik hubungan antara kesatuan dari dua cluster
dan cluster ketiga dalam bentuk komponen-komponen yang mendasari.
| 2.1
Clustering hirarkhi berdasarkan metrik hubungan mengalami kompleksitas waktu. Dibawah asumsi-asumsi yang tepat, seperti kondisi daya reduksi metode-
metode grafik memenuhi kondisi ini, metode-metode metrik hubungan memiliki kompleksitas N
2
Olson 1995.
Universitas Sumatera Utara
Metrik-metrik hubungan berdasarkan jarak Euclidean untuk clustering hirarkhi dari data spatial secara natural mempengaruhi cluster-cluster dari bentuk-
bentuk convex yang tepat. Sementara itu, scanning visual dari gambar-gambar spatial sering memperlihatkan cluster-cluster dengan tampilan curvy.
Dalam linguistik, pencarian informasi, dan taksonomi biner aplikasi clustering dokumen adalah sangat membantu. Metode-metode aljabar linear, yang
didasarkan pada dekomposisi nilai singular Singular Value Decomposition - SVD digunakan untuk tujuan ini dalam filtering kolaboratif dan pencarian informasi
Berry Browne, 1999. Aplikasi SVD terhadap clustering divisive hirarkhi dari kumpulan dokumen menghasilkan algoritma PDDP Principal Direction Divisive
Partitioning Boley, 1998. Algoritma ini membagi dua data dalam ruang Euclidean dengan sebuah hyperplane yang mengalir melalui centroid data secara ortogonal
pada eigenvector dengan nilai singular yang besar. Pembagian cara k juga memungkinkan jika k nilai singular terbesar dipertimbangkan. Divisive hirarkhi
yang membagi dua rata-rata k terbukti Steinbach et al. 2000 dapat dipilih untuk clustering dokumen.
Algoritma clustering hirarkhi populer untuk data kategorikal COBWEB Fisher, 1987 memiliki dua kualitas yang sangat penting. Pertama, menggunakan
pembelajaran incremental. Daripada mengikuti pendekatan divisive atau agglomerative, secara dinamis membangun sebuah dendrogram melalui pengolahan
satu point data pada suatu waktu. Kedua, COBWEB termasuk pada pembelajaran berdasarkan konseptual atau model. Ini berarti bahwa setiap cluster dianggap
sebagai sebuah model yang dapat dijelaskan secara intrinsik, dan bukan sebagai sebuah kumpulan point yang ditentukan terhadapnya. Dendrogram COBWEB
disebut pohon klasifikasi. Setiap node pohon C, sebuah cluster, berhubungan dengan probabilitas kondisional untuk pasangan-pasangan nilai-nilai atribut
kategorikal, yakni : P
r
X
i
= v
lp
| C, l = 1 : d,p = 1|A
l
| 2.2
Universitas Sumatera Utara
2.5.2 Clustering Partisional Partional Clustering