8 metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD
secara keseluruhan.
5. Interpretationatau Evaluation Penerjemahan pola-pola yang dihasilkan dari data mining.Pola informasi yang
dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah mimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari
proses KDD yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.
2.2 Pengertian Clustering
Menurut Han
dan Kamber
2011, Clustering
adalah proses
pengelompokkan kumpulan data menjadi beberapa kelompok sehingga objek di dalam satu kelompok memiliki banyak kesamaan dan memiliki banyak perbedaan
dengan objek dikelompok lain. Perbedaan dan persamaannya biasanya berdasarkan nilai atribut dari objek tersebut dan dapat juga berupa perhitungan
jarak. Clustering sendiri juga disebut Unsupervised Classification, karena clustering lebih bersifat untuk dipelajari dan diperhatikan. Cluster analysis
merupakan proses partisi satu set objek data ke dalam himpunan bagian. Setiap himpunan bagian adalah cluster, sehingga objek yang di dalam cluster mirip satu
sama dengan yang lainnya, dan mempunyai perbedaan dengan objek dari cluster yang lain. Partisi tidak dilakukan dengan manual tetapi dengan algoritma
clustering. Oleh karena itu,clustering sangat berguna dan bisa menemukan group yang tidak dikenal dalam data.
2.2.1 Tipe Clustering
Clustering merupakan suatu kumpulan dari keseluruhan cluster H. G.
Wilson .Beberapa dari clustering adalah :
9 1. Partitional vs Hierarchical
Partitional clustering adalah pembagian objek data kedalam sub himpunancluster yang tidak overlap sedemikian hingga tiap objek data
berada dalam tepat satu sub-himpunan.Hierarchical clustering merupakan sebuah himpunan cluster bersarang yang diatur sebagai suatu pohon
hirarki.Tiap simpulcluster dalam pohonkecuali simpul daun merupakan gabungan dari anaknyasubcluster dan simpul akar berisi
semua objek
2. Exclusive vs non-exclusive Semua bentuk clustering merupakan exclusive clustering ,karena setiap
objek berada tepat pada satu cluster.sebaliknya dalam overlapping atau non-exclusive clustering ,sebuah objek dapat berada di lebih dari satu
cluster secara bersamaan.
3. Fuzzy vs non-Fuzzy Dalam fuzzy clustering ,sebuah titik termasuk dalam setiap cluster
dengan suatu nilai bobot antara 0 dan 1.jumlah dari bobot-bobot tersebut sama dengan 1.clustering probabilitas mempunyai karakteristik yang
sama.
4. Partial vs Complete Dalam complete clustering ,setiap objek ditempatkan dalam sebuah
cluster.Tetapi dalam partial clustering,tidak semua objek ditempatkan dalam sebuah cluster.kemungkinan ada objek yang tidak tepat untuk
ditempatkan di salah satu cluster,misalkan berupa outlier atau noise.
2.2.2 Pengertian Hierarchical Clustering
Menghasilkan sebuah himpunan dari cluster bersarang sebagai suatu pohon hirarki.Dapat divisualisasikan sebagai sebuah dendogram,yaitu sebuah
10 pohon yang berfungsi sebagai diagram yang mencatat urutan dari penggabungan
atau pemisahan seperti pada gambar berikut :
Ada dua tipe utama hierarchical clustering , yaitu divisive dan agglomerative Tan,Steinbach,dkk 2004
: Agglomerative:
1. Mulai dengan titik-titik sebagai individual clusters. 2. Pada tiap langkah,gabungkan pasangan cluster terdekat sampai hanya
terdapat satu cluster atau k cluster yang tersisa
Divisive :
1. Mulai dengan satu,semua inclusive cluster. 2. Pada tiap langkah,pisahkan sebuah cluster sampai tiap cluster terdiri dari
sebuah titikatau ada k cluster. Tradisional algoritma hirarikal menggunakan sebuah matriks similaritas atau
matriks jarak dengan menggabungkan atau memisahkan satu cluster dalam tiap langkahnya.
2.2.3 Konsep Agglomerative Hierarchical Clustering