Contoh pengklusteran dalam bisnis dan penelitian adalah: 1.
Melakukan pengklusteran terhadap ekspresi dari gen, untuk mendapatkan kemiripan perilaku dari gen dalam jumlah besar.
2. Mendapatkan kelompok-kelompok konsumen untuk target pemasaran
dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar.
3. Untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap
perilaku finansial dalam baik dan mencurigakan.
6. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang
belanja.
Contoh asosiasi dalam bisnis dan penelitian adalah : 1.
Menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli secara bersamaan.
2. Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler
yang diharapkan untuk memberikan respons positif terhadap penawaran upgrade layanan yang diberikan.
2.3. Clustering
Clustering pengelompokan data mempertimbangkan sebuah pendekatan penting untuk mencari kesamaan dalam data dan menempatkan data yang sama ke dalam
kelompok-kelompok. Clustering membagi kumpulan data ke dalam beberapa kelompok dimana kesamaan dalam sebuah kelompok adalah lebih besar daripada
diantara kelompok-kelompok yang lain Rui Xu Donald 2009. Gagasan mengenai pengelompokan data, atau clustering, memiliki sifat yang sederhana dan dekat dengan
cara berpikir manusia kapanpun kepada kita dipresentasikan jumlah data yang besar,
kita biasanya cenderung merangkumkan jumlah data yang besar ini ke dalam sejumlah kecil kelompok-kelompok atau kategori-kategori untuk memfasilitasi analisanya lebih
lanjut. Selain dari itu, sebagian besar data yang dikumpulkan dalam banyak masalah terlihat memiliki beberapa sifat yang melekat yang mengalami pengelompokan-
pengelompokan natural Hammouda Karray, 2003.
Namun demikian, penemuan pengelompokan-pengelompokan ini atau upaya untuk mengkategorikan data adalah bukan sebuah tugas yang sederhana bagi manusia
kecuali data memiliki dimensionalitas rendah dua atau tiga dimensi paling banyak. Inilah sebabnya mengapa beberapa metode dalam soft computing telah dikemukakan
untuk menyelesaikan jenis masalah i ni. Metode ini disebut “Metode-Metode
Pengelompokan Data” Hammouda Karray, 2003.
Algoritma-algoritma clustering digunakan secara ekstensif tidak hanya untuk mengorganisasikan dan mengkategorikan data, akan tetapi juga sangat bermanfaat
untuk kompresi data dan konstruksi model. Melalui pencarian kesamaan dalam data, seseorang dapat merepresentasikan data yang sama dengan lebih sedikit simbol. Dan
juga, jika kita dapat menemukan kelompok-kelompok data, kita dapat membangun sebuah model masalah berdasarkan pengelompokan-pengelompokan ini Dubes
Jain, 1988.
Clustering menunjuk pada pengelompokan record, observasi-observasi, atau kasus-kasus ke dalam kelas-kelas objek yang sama. Cluster adalah sekumpulan record
yang sama dengan satu sama lain dan tidak sama dengan record dalam cluster lain. Clustering berbeda dari klasifikasi dimana tidak ada variabel target untuk clustering.
Tugas clustering mencoba untuk tidak mengklasifikasikan, mengestimasi, atau memprediksi nilai variabel target Larose, 2005. Bahkan, algoritma clustering
berusaha mensegmentasikan seluruh kumpulan data ke dalam subkelompok- subkelompok atau cluster-cluster homogen secara relatif. Dimana kesamaan record
dalam cluster dimaksimalkan dan kesamaan dengan record diluar cluster ini diminimalkan.
Clustering sering dilaksanakan sebagai langkah pendahuluan dalam proses pengumpulan data, dengan cluster-cluster yang dihasilkan digunakan sebagai input
lebih lanjut ke dalam sebuah teknik yang berbeda, seperti neural network. Karena ukuran yang besar dari banyak database yang dipresentasikan saat ini, dapat
membantu untuk menggunakan analisa clustering terlebih dahulu, untuk mengurangi ruang pencarian untuk algoritma-algoritma downstream. Aktivitas clustering pola
khusus meliputi langkah-langkah berikut Dubes Jain, 1988 :
1. Representasi pola secara opsional termasuk ekstraksi danatau seleksi sifat.
2. Defenisi ukuran kedekatan pola yang tepat untuk domain data.
3. Clustering pengelompokan.
4. Penarikan data jika dibutuhkan.
5. Pengkajian output jika dibutuhkan.
Representasi pola merujuk pada jumlah kelas, jumlah pola-pola yang ada, dan jumlah, tipe dan skala fitur yang tersedia untuk algoritma clustering. Beberapa
informasi ini dapat tidak bisa dikontrol oleh praktisioner. Seleksi sifat fitur adalah proses pengidentifikasian subset fitur original yang paling efektif untuk digunakan
dalam clustering. Ekstraksi fitur adalah penggunaan satu atau lebih transformasi dari sifat-sifat input untuk menghasilkan sifat-sifat baru yang lebih baik.
Pertimbangkan data himpunan X dataset yang terdiri dari point-point data atau secara sinonim, objek-objek, hal-hal, kasus-kasus, pola, tuple, transaksi x
i
= x
i1
, …, x
id
ϵ A dalam ruang atribut A, dimana i = 1, N, dan setiap komponen adalah sebuah atribut A kategori numerik atau nominal. Sasaran akhir dari clustering adalah
untuk menentukan point-point pada sebuah sistem terbatas dari subset k, cluster. Biasanya subset tidak berpotongan asumsi ini terkadang dilanggar, dan kesatuan
mereka sama dengan dataset penuh dengan pengecualian yang memungkinkan outlier. C
i
adalah sekelompok point data dalam dataset X, dimana X = C
i
.. C
k
.. C
outliers
, C
j1
.. C
j2
= 0.
Secara garis besar, terdapat beberapa metode clustering data. Pemilihan metode clustering bergantung pada tipe data dan tujuan clustering itu sendiri. Metode-
metode beserta algortima yang termasuk didalamnya adalah sebagai berikut:
1. Partitioning Methdos
Metode yang membangun berbagai partisi dan kemudian mengevaluasi partisi tersebut dengan beberapa kriteria. Algoritma yang dipakai pada metode ini
adalah K-Means, K-Medoid, PROCLUS, CLARA, CLARANS dan PAM.
2. Hierarchical Methods
Metode yang membuat suatu penguraian secara hierarchical dari himpunan data dengan menggunakan beberapa kriteria. Metode ini terdiri atas dua jenis,
yaitu Agglomerative yang menggunakan strategi bottom-up dan Disisive yang menggunakan strategi top-down. Metode ini meliputi algoritma BIRCH,
AGNES, DIANA, CURE dan CHAMELEON.
3. Density-Based Methods
Metode ini berdasarkan konektivitas dan fungsi densitas. Metode ini meliputi algoritma DBSCAN, OPTICS dan DENCLU.
4. Grid-Based Methods
Metode ini berdasarkan suatu struktur granularitas multi-level. Metode clustering ini meliputi algoritma STING, WaveCluster dan CLIQUE.
5. Model-Based Methods
Suatu model dihipotesakan untuk masing-masing cluster dan ide untuk mencari best fit dari model tersebut untuk masing-masing yang lain. Metode
clustering ini meliputi pendekatan statistik, yaitu algoritma COBWEB dan jaringan syaraf tiruan SOM.
Partitioning Clustering
Partitioning Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan unsupervised. Konsep dasar dari partitioning clustering adalah membagi n
jumlah cluster ke dalam k cluster. Metode ini merupakan metode pengelompokan yang bertujuan mengelompokkan objek sehingga jarak antara setiap objek ke pusat
kelompok di dalam satu kelompok adalah minimum.
Metode Pengelompokan
Cluster adalah kumpulan data dimana jika objek data yang terletak didalam cluster harus memiliki kemiripan sedangkan yang tidak berada dalam suatu cluster tidak
mempunyai kemiripan.
Jika ada n objek penelitian dengan p variabel maka sebelum dilakukan pengelompokan data atau objek terlebih dahulu menentukan ukuran kedekatan sifat
antar data. Ukuran data yang bisa digunakan adalah jarak euclidius euclidean distance, antara dua objek dari p dimensi pengamatan. Jika objek pertama yang
diamati adalah
=
1 , 2,
… , dan =
1 , 2,
… , maka rumus euclidean distance adalah sebagai berikut:
, = −
2 =1
2.1
dimana:
d : distance x :
1, 2, 3,
… , y :
1, 2, 3,
… , j : merepresentasikan nilai atribut
p : dimensi data
2.4. Algoritma K-Means