5. Pengklusteran Clustering
Pengklusteran merupakan
pengelompokkan record,
pengamatan atau
memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. clusteradalah kumpulan recordyang memiliki kemiripan satu dengan yang lainnya
dan memiliki
ketidakmiripan dengan
record-recorddalam clusterlain.
Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam pengklusteran. Pengklusteran tidak mencoba untuk melakukan klasifikasi,
mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma pengklusteran mencoba untuk melakukan pembagian terhadap keseluruhan data
menjadi kelompok-kelompok yang memiliki kemiripan homogen, yang mana kemiripan recorddalam satu kelompok akan bernilai maksimal, sedangkan
kemiripan dengan recorddalam kelompok lain akan bernilai minimal. Contoh pengklusteran dalam bisnis dan penelitian adalah :
a. Melakukan pengklusteran terhadap ekspresi dari gen, untuk mendapatkan
kemiripan perilaku dari gen dalam jumlah besar. b.
Untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap perilaku finansial dalam keadaan baik atau mencurigakan.
c. Asosiasi Assosiation
d. Tugas asosiasi dalam Data Miningadalah menemukan atribut yang muncul
dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja. Contoh asosiasi dalam bisnis dan penelitian adalah :
a. Menemukan barang dalam supermarket yang dibeli secara bersamaan
dan barang yang tidak pernah dibeli secara bersamaan. b.
Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran
yang besar. c.
Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respons posistif terhadap
penawaran upgrade layanan yang diberikan.
2.3. Proses Data Mining
Berikut ini adalah langkah-langkah dalam perancangan proses model pembelajaran teknik Data Mining, ditunjukan pada gambar 2.1
Universitas Sumatera Utara
Gambar 2.1. Perancangan Proses Data Mining Sumber:Budiman, 2012
2.4. Clustering
Salah satu teknik yang dikenal dalam Data Mining yaitu clustering. Pengertian clusteringkeilmuan dalam Data Mining adalah pengelompokan sejumlah data atau
objek ke dalam clustergroup sehingga setiap dalam clustertersebut akan berisi data yang semirip mungkin dan berbeda dengan objek dalam clusteryang lainnya. Sampai
saat ini, para ilmuwan masih terus melakukan berbagai usaha untuk melakukan perbaikan model clusterdan menghitung jumlah clusteryang optimal sehingga dapat
dihasilkan clusteryang paling baik. Dalam clustering diupayakan untuk menempatkan objek yang mirip jaraknya dekat dalam satu klaster dan membuat jarak antar klaster
sejauh mungkin. Hermansyah, A 2001 menyatakan bahwa clustering adalah proses pengelompokan
objek data ke dalam kelompok yang sama. Klaster adalah sekumpulan objek data yang memiliki kesamaan satu sama lain di satukan dalam kelompok yang sama dan tidak
memiliki kesamaan dengan objek data yang lain Hosseini, 2010. Dalam clustering diupayakan untuk menempatkan objek yang mirip jaraknya dekat dalam satu cluster
dan membuat jarak antar cluster sejauh mungkin. Clustering merupakan teknik Prediction and interpretation
Model Development Selection of Atributes
Exploratory analysis Data mart
Data gathering and itegration
Objectives defenition Exploratory analysis
Exploratory analysis
Universitas Sumatera Utara
unsupervised learning yang tidak memerlukan label ataupun keluaran dari setiap data Santoso, 2007.
Ada dua pendekatan dalam clustering yaitu partisi dan hirarki. Dalam partisi pengelompokan objek dimasukan ke dalam k cluster, dapat dilakukan dengan
menentukan pusat cluster awal lalu dilakukan realokasi objek berdasarkan kriteria tertentu sampai dicapai pengelompokan yang optimum. Dalam cluster hirarki dimulai
dengan membuat m cluster dimana setiap cluster beranggotakan satu objek dan berakhir dengan satu cluster dimana anggota m objek, pada setiap tahap prosedurnya,
satu cluster digabung dengan satu cluster lain, lalu dapat dipilih cluster yang diinginkan dengan menentukan cut off pada tingkat tertentu Santoso, 2007.
Clustering melakukan pengelompokan data tanpa berdasar pada kelas data tertentu yang sudah ditetapkan dari awal. Proses ini sangat berbeda dengan proses pada
classification yang pada awal proses harus memberikan kelas-kelas data. Sehingga clustering sering disebut dengan pengelompokan data yang tidak terstruktur.
2.4.1.
Ciri- ciri Cluster
Menurut Santoso, 2002, ciri-ciri Cluster adalah: 1.
Homogenitas kesamaan yang tinggi antar anggota dalam satu cluster Within Cluster.
2. Heterogenitas perbedaan yang tinggi antar cluster
yang satu dengan cluster yang lainya Between Cluster 2.4.2.
Istilah penting dalam Cluster 1.
Skedul Aglomerasi Aglomeration Schedule, ialah jadwal yang memberikan informasi tentang objek atau kasus yang akan dikelompokkan pada setiap tahap
pada suatu proses analisis cluster dengan metode hierarki. 2.
Rata-rata Cluster ClusterCentroid, ialah nilai rata-rata variabel dari semua objek atau observasi dalam cluster tertentu.
3. Pusat Cluster Cluster Centers, ialah titik awal dimulainya pengelompokan di
dalam cluster non hierarki. 4.
Keanggotaan Cluster ClusterMemberships, ialah keanggotaan yang menunjukan cluster untuk setiap objek yang menjadi anggotanya.
5. Dendogram, dapat disebut juga dengan grafik pohon, yaitu output SPSS yang
menggambarkan hasil analisis cluster yang dilakukan peneliti. Garis vertikal atau tegak menunjukan cluster yang digabung bersama. Posisi garis pada skala
Universitas Sumatera Utara
menunjukan jarak untuk mana cluster digabung. Dendogram harus dibaca dari kiri ke kanan.
6. Distances Between Cluster Centers, ialah jarak yang menunjukan bagaimana
terpisahnya pasangan individu cluster Supranto, 2004.
2.5.Algoritma Clustering Clustering Algorithm
Data Clusteringmerupakan salah satu metode Data Mining yang bersifat tanpa arahan unsupervised. K-Means merupakan salah satu metode data Clustering Non Hirarki
yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster. Metode ini mempartisi data ke dalam clustersehingga data yang memiliki
karakteristik yang sama dikelompokkan ke dalam satu clusteryang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang
lain. Adapun tujuan dari data clusteringini adalah untuk meminimalisasikan objective functionyang diatur dalam proses clustering, yang pada umumnya berusaha
meminimalkan variasi di dalam suatu clusterdan memaksimalkan variasi antar cluster Heryanto, et al. 2013.
Pada dasarnya clustering merupakan suatu metode untuk mencari dan mengelompokkan data yang memiliki kemiripan karakteriktik similarity antara satu
data dengan data yang lain. Clusteringmerupakan salah satu metode Data Miningyang bersifat tanpa arahan unsupervised, maksudnya metode ini diterapkan tanpa adanya
latihan training dan tanpa ada guru teacherserta tidak memerlukan target output. Dalam Data Mining ada dua jenis metode clustering yang digunakan dalam
pengelompokan data, yaitu HierarchicalClusteringdan Non HierarchicalClustering Santosa, 2007.
Cluster memegang peran penting dalam pengklasifikasian obyek. Bergantung pada aplikasinya, obyek biasa berupa sinyal, pelanggan, pasien, berita, tanaman, dan lain-
lain. Teknik clustering adalah teknik nonparametric yang sangat banyak diaplikasikan dalam
kasus nyata.
Teknik cluster
dikelompokkan ke dalam dua kelas besar : Partioning Cluster dan Hierarcichal Cluster. Ada dua
macam teknik cluster yang cukup sering dipakai. Yang pertama adalah K-Means mewakili Partitioning Cluster atau Non Hierarcichal dan yang berikutnya adalah
hierarcichal Clustering Santosa, 2007.
Universitas Sumatera Utara
Tujuan utama dari metoda klaster adalah pengelompokan sejumlah dataobyek ke dalam cluster group sehingga setiap klaster akan berisi data yang semirip mungkin.
Ini berarti obyek dalam satu klaster sangat mirip satu sama lain dan berbeda dengan obyek dalam klaster-klaster yang lain Santosa, 2007
Gambar 2.2 Contoh Proses Clustering Sumber : Nugraheni, 2011
Ada dua metode Clustering yang kita kenal, yaitu Hierarchical Clustering dan Partitioning Clustering. Metode Hierarchical Clusteringsendiri terdiri dari Complete
Linkage Clustering, Single Linkage Clustering, Average Linkage Clusteringdan Centroid Linkage Clustering. Sedangkan metode Partitioningsendiri terdiri dari K-
Means dan Fuzzy K-Means Alfina, et al. 2012. Hierachical Clusteringadalah suatu metode pengelompokan data yang dimulai dengan
mengelompokkan dua atau lebih objek yang memiliki kesamaan paling dekat. Kemudian proses diteruskan ke objek lain yang memiliki kedekatan kedua. Demikian
seterusnya sehingga cluster akan membentuk semacam pohon dimana ada hierarki tingkatan yang jelas antar objek, dari yang paling mirip sampai yang paling tidak
mirip. Secara logika semua objek pada akhirnya hanya akan membentuk sebuah cluster. Dendogram biasanya digunakan untuk membantu memperjelas proses hierarki
tersebut Santoso, 2010. Berbeda
dengan metode
Hierarchical Clustering,
metode Non
HierarchicalClusteringjustru dimulai dengan menentukan terlebih dahulu jumlah cluster yangdiinginkan dua cluster, tiga cluster, atau lain sebagainya. Setelah jumlah
clusterdiketahui, baru proses cluster dilakukan tanpa mengikuti proses hierarki. Metode inibiasa disebut dengan K-MeansClustering Santoso, 2010.
Universitas Sumatera Utara
2.5.1. Clustering Hirarkhi Hierarchical Clustering
Clusteringhirarkhi membangun sebuah hirarkhi clusteratau dengan kata lain sebuah pohon
cluster, yang
juga dikenal
sebagai dendrogram.
Setiap node
clustermengandung clusteranak; cluster-cluster saudara yang membagi point yang ditutupi oleh induk mereka. Metode-metode clusteringhirarkhi dikategorikan ke dalam
agglomerative bawah-atas dan idivisive atas-bawah Paulanda, 2012. Clustering agglomerative dimulai dengan clustersatu point singleton dan secara
berulang mengabungkan dua atau lebih clusteryang paling tepat. Cluster divisive dimulai dengan satu clusterdari semua point data dan secara berulang membagi
clusteryang paling tepat. Proses tersebut berlanjut hingga kriteria penghentian seringkali, jumlah k yang diperlukan dari cluster dicapai. Kelebihan clusterhirarkhi
meliputi : 1.
Fleksibilitas yang tertanam mengenai level granularitas. 2.
Kemudahan menangani bentuk-bentuk kesamaan atau jarak. 3.
Pada akhirnya, daya pakai pada tipe-tipe atribut apapun Kelemahan dari clusteringhirarkhi berhubungan dengan :
1. Ketidakjelasan kriteria terminasi.
2. Terhadap perbaikan hasil clustering, sebagian besar algoritma hirarkhi tidak
mengunjungi kembali cluster-clusternya yang telah dikonstruksi. Untuk clusteringhirarki, menggabungkan atau memisahkan subset dari point-point
dan bukan point-point individual, jarak antara point-point individu harus digeneralisasikan terhadap jarak antara subset.
Ukuran kedekatan yang diperoleh disebut metrik hubungan. Tipe metrik hubungan yang digunakan secara signifikan mempengaruhi algortima hirarkhi, karena
merefleksikan konsep tertentu dari kedekatan dan koneksitas. Metrik hubungan antar clusterutama Paulanda, 2011 termasuk hubungan tunggal, hubungan rata-rata dan
hubungan sempurna. Dalam clustering hirarki kita hitung jarak masing-masing obyek dengan setiap obyek
yang lain. Selanjutnya kita temukan pasangan obyek yang jaraknya dekat. Sehingga tiap obyek akan berpasangan dengan satu obyek atau kelompok obyek yang lain yang
paling dekat jaraknya. Langkah-langkah yang perlu dilakukan untuk melakukan clustering dengan cara clustering hirarki adalah: Santosa, 2007
Universitas Sumatera Utara
a. Kelompokkan setiap obyek ke dalam kelompokclusternya sendiri.
b. Temukan pasangan paling mirip untuk dimasukkan ke dalam cluster yang
sama dengan melihat data dalam matriks kemiripan resemblance. c.
Gabungkan kedua obyek dalam satu cluster. d.
Ulangi sampai tersisa hanya satu cluster. Clusteringhirarkhi membangun sebuah hirarkhi clusteratau dengan kata lain sebuah
pohon cluster, yang juga dikenal sebagai dendrogram. Setiap nodeclustermengandung clusteranak; cluster-cluster saudara yang membagi point yang ditutupi oleh induk
mereka. Metode-metode
clusteringhirarkhi dikategorikan
ke dalam
agglomerativebawah-atas dan idivisive atas-bawah . Clustering agglomerative dimulai dengan clustersatu point singleton dan secara berulang mengabungkan dua
atau lebih clusteryang paling tepat. Clusterdivisivedimulai dengan satu clusterdari semua point data dan secara berulang membagi clusteryang paling tepat. Proses
tersebut berlanjut hingga kriteria penghentian seringkali, jumlah k yang diperlukan dari cluster dicapai Paulanda, 2012.
Untuk clusteringhirarkhi, menggabungkan atau memisahkan subset dari point-point dan bukan point-point individual, jarak antara point-point individu harus
digeneralisasikan terhadap jarak antara subset Paulanda, 2012. Ukuran kedekatan yang diperoleh disebut metrik hubungan. Tipe metrik hubungan
yang digunakan secara signifikan mempengaruhi algortima hirarkhi, karena merefleksikan konsep tertentu dari kedekatan dan koneksitas. Metrik hubungan antar
clusterutama termasuk hubungan tunggal, hubungan rata-rata dan hubungan sempurna.
a. Single Lingkage Clustering Pautan Tunggal
Metode ini didasarkan pada jarak minimum. Dimulai dengan dua objek yang dipisahkan dengan jarak paling pendek, maka keduanya akan ditempatkan pada
cluster pertama, dan seterusnya. Metode ini dikenal pula dengan nama pendekatan tetangga terdekat.
Metode Pautan Tunggal single lingkage akan mengelompokan dua objek yang mempunyai jarak terdekat dahulu. Jadi pada setiap tahapan, banyaknya cluster
berkurang satu. Secara formal dua buah cluster Br dan Bs, jarak antara Br dan Bs misalkan h Br, Bs didefinisikan sebagai:
Universitas Sumatera Utara
Hasil Single Linkage Clustering dapat disajikan dalam bentuk Dendogram atau diagram pohon. Cabang-cabang tersebut bertemu bersama-sama menggabung pada
simpul posisinya sepanjang suatu sumbu jarak kemiringan menunjukan tingkat dimana penggabungan terjadi. Input untuk algoritma single linkage bisa berujud jarak
atau similarities antara pasangan-pasangan dari objek-objek. Kelompok-kelompok dibentuk dari entities individu dengan menggabungkan jarak paling pendek atau
similarities kemiripan yang paling besar. b.
Complete Linkage Clustering Pautan Lengkap Metode ini didasarkan pada jarak maksimum. Metode Pautan Lengkap Complete
lingkage akan mengelompokan dua objek yang mempunyai jarak terjauh dahulu. Metode ini dikenal pula dengan nama pendekatan tetangga terjauh. Metode ini
memberikan kepastian bahwa semua item-item dalam satu kelompok berada dalam jarak paling jauh similaritas terkecil satu sama lain.
Hasil Complete Linkage Clustering dapat disajikan dalam bentuk Dendogram atau diagram pohon. Cabang-cabang tersebut bertemu bersama-sama menggabung pada
simpul posisinya sepanjang suatu sumbu jarak kemiringan menunjukan tingkat dimana penggabungan terjadi. Complete Linkage memberikan kepastian bahwa semua
item-item dalam satu cluster berada dalam jarak paling jauh similaritas terkecil satu sama lain.
c. Averaging Lingkage Clustering
Average Linkage memperlakukan jarak antara dua cluster sebagai jarak rata-rata antara semua pasangan item-item di mana satu anggota dari pasangan tersebut
kepunyaan tiap cluster. Mulai dengan mencari matriks jarak D = {dik} untuk memperoleh objek-objek paling dekat paling mirip misalnya U dan V . Objek objek
ini digabungkan untuk membentuk cluster UV. Untuk langkah dari algoritma di atas jarak-jarak antaraUV dan cluster W yang lain ditentukan oleh:
=
Universitas Sumatera Utara
di mana dik adalah jarak antara objek i dalam Cluster UV dan objek k dalam ClusterW , dan Nuv dan Nw berturut-turut adalah banyaknya item-item dalam Cluster
UV dan W. 2.5.2.
Clustering Partisional Partitional Clustering Dalam partisioning kita mengelompokkan obyek
ke dalam k cluster. Ini bisa dilakukan dengan menentukan pusat cluster awal, lalu dilakukan
realokasi obyek berdasarkan kriteria tertentu sampai dicapai pengelompokan yang optimum. Dalam cluster hirarki, kita mulai dengan membuat m cluster dimana setiap
cluster beranggotakan satu obyek dan berakhir dengan satu cluster dimana anggotanya adalah m obyek. Pada setiap tahap dalam prosedurnya, satu cluster digabung dengan
satu cluster yang lain. Kita bisa memilih berapa jumlah cluster yang diinginkan dengan menentukan cut-off pada tingkat tertentu Santosa, 2007.
Salah satu isu dengan algoritma-algoritma tersebut adalah kompleksitas tinggi, karena menyebutkan semua pengelompokkan yang memungkinkan dan berusaha mencari
optimum global. Bahkan untuk jumlah objek yang kecil, jumlah partisi adalah besar. Itulah sebabnya mengapa solusi-solusi umum dimulai dengan sebuah partisi awal,
biasanya acak, dan berlanjut dengan penyempurnaannya. Sebuah pendekatan terhadap pembagian data adalah mengambil sudut pandang
konseptual yang
mengidentifikasikan clusterdengan
model tertentu
yang parameternya tidak diketahui harus ditemukan. Model-model probabilistik
menganggap bahwa data berasal dari campuran beberapa populasi yang didistribusi dan prioritasnya ingin ditemukan. Sebuah kelebihan yang jelas dari metode-metode
probabilitas adalah daya interpretasi dari cluster-clusteryang dibuat. Dengan memiliki representasi clusteryang tepat juga memungkinkan penghitungan
yang tidak ekspensif dari ukuran-ukuran intra-clusterdari kesesuaian yang memberikan fungsi objektif yang tergantung pada sebuah pembagian partition.
Paulanda, 2012. Sedangkan metode partitioning sendiri terdiri dari k-means dan fuzzy K-Means.Dengan mengetahui objek-objek database N, sebuah algoritma
clusteringpartisional membentuk
k bagian
dari data,
dimana setiap
clustermengoptimalkan kriteria clustering, seperti minimasi jumlah jarak kuadrat dari rata-rata dalam setiap cluster.
Salah satu isu dengan algoritma-algoritma tersebut adalah kompleksitas tinggi, karena menyebutkan semua pengelompokkan yang memungkinkan dan berusaha mencari
Universitas Sumatera Utara
optimum global. Bahkan untuk jumlah objek yang kecil, jumlah partisi adalah besar. Itulah sebabnya mengapa solusi-solusi umum dimulai dengan sebuah partisi awal,
biasanya acak, dan berlanjut dengan penyempurnaannya. Praktek yang lebih baik akan berupa pelaksanaan algoritma partisional untuk
kumpulan point-point awal yang berbeda yang dianggap sebagai representative dan meneliti apakah semua solusi menyebabkan partisi akhir yang sama atau tidak.
Algoritma-algoritma clusteringpartisional berusaha memperbaiki secara local sebuah kriteria tertentu. Pertama, menghitung nilai-nilai kesamaan atau jarak, mengurutkan
hasil, dan mengangkat nilai yang mengoptimalkan kriteria. Oleh karena itu, dapat dianggap sebagai algoritma seperti greedy. Sebuah pendekatan terhadap pembagian
data adalah mengambil sudut pandang konseptual yang mengidentifikasikan clusterdengan model tertentu yang parameternya tidak diketahui harus ditemukan.
Model-model probabilistik menganggap bahwa data berasal dari campuran beberapa populasi yang didistribusi dan prioritasnya ingin ditemukan. Sebuah
kelebihan yang jelas dari metode-metode probabilitas adalah daya interpretasi dari cluster-clusteryang dibuat. Dengan memiliki representasi clusteryang tepat juga
memungkinkan penghitungan yang tidak ekspensif dari ukuran-ukuran intra clusterdari kesesuaian yang memberikan fungsi objektif yang tergantung pada sebuah
pembagian partition. Tergantung pada bagaimana representative dibuat, algoritma partitioning optimasi literative dibagi lagi ke dalam metode-metode K-medoids dan K-
means. a.
K-Means Clustering Salah satu metode partisi atau biasa disebut juga dengan metode non hirarki. Salah
satu metode partisi yang biasa digunakan adalah metode K-Means Clustering. Metode K-Means Clustering dapat diterapkan pada kasus dengan jumlah objek yang sangat
besar Utami Sutikno, 2010. Dari beberapa teknik clustering yang paling sederhana dan umum dikenal adalah
clustering k-means. Dalam teknik ini kita ingin mengelompokkan obyek ke dalam k kelompok atau cluster. Untuk melakukan clustering ini, nilai k harus ditentukan
terlebih dahulu. Biasanya user atau pemakai sudah mempunyai informasi awal tentang obyek yang sedang dipelajari, termasuk berapa jumlah cluster yang paling tepat.
Secara detail kita bisa menggunakan ukuran ketidakmiripan untuk mengelompokkan obyek kita. Jika jarak dua obyek atau data titik cukup dekat, maka dua obyek itu
Universitas Sumatera Utara
mirip. Semakin dekat berarti semakin tinggi kemiripannya. Semakin tinggi nilai jarak, semakin tinggi ketidakmiripannya Santosa, 2007
K-Means Clusteringmerupakan salah satu metode data clustering non hirarki yang mengelompokan data dalam bentuk satu atau lebih clusterkelompok. Data-data yang
memiliki karakteristik yang sama dikelompokan dalam satu clusterkelompok dan data
yang memiliki
karakteristik yang
berbeda dikelompokan
dengan clusterkelompok yang lain sehingga data yang berada dalam satu clusterkelompok
memiliki tingkat variasi yang kecil Agusta, 2007. Metode K-Means digunakan sebagai alternatif metode cluster untuk data dengan
ukuran besar karena memiliki kecepatan yang lebih tinggi dibandingkan metode hirarki. Menurut Forgy 1965 K-Means adalah salah satu algoritma terkenal dalam
clustering , awalnya dikenal sebagai metode Forgy’s dan telah digunakan secara luas
di berbagai bidang termasuk Data Mining, analisi statistik data dan aplikasi bisnis lainnya.
Untuk k-means, k menunjukkan jumlah cluster. Nilai k ditentukan oleh pemakai atau user. Untuk kasus dimana ada pertimbangan dari ahli yang kompeten atau expert di
bidangnya, nilai k akan mudah di tentukan. Tetapi sering sekali terjadi bahwa nilai k ini harus ditentukan dengan melihat pada data tanpa ada pertimbangan dari expert
Mahrus, et al. 2013 K-Means merupakan algoritma clustering yang berulang-ulang. Algoritma K-Means
dimulai dengan pemilihan secara acak K, K disini merupakan banyaknya cluster yang ingin dibentuk. Kemudian tetapkan nilai-nilai K secara random, untuk sementara nilai
tersebut menjadi pusat dari cluster atau biasa disebut dengan centroid, mean atau “means”. Hitung jarak setiap data yang ada terhadap masing-masing centroid
menggunakan rumus Euclidian hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid. Klasifikasikan setiap data berdasarkan kedekatannya dengan
centroid. Lakukan langkah tersebut hingga nilai centroid tidak berubah stabil Rismawan, 2008
Konsep dasar dari algortima K-Means adalah pencarian pusat cluster centroidpoints secara iterative. Pusat cluster ditetapkan berdasarkan jarak setiap data ke pusat cluster.
Proses clustering dimulai dengan mengidentifikasikan data yang akan di-cluster, dengan n adalah jumlah data yang akan di cluster dan m
adalah jumlah variable.
Universitas Sumatera Utara
Pada awal iterasi, pusat setiap cluster ditetapkan secara bebas sembarang, . Kemudian dihitung jarak antara setiap data dengan setiap pusat
cluster. Untuk melakukan perhitungan jarak data ke - ke-I pada pusat cluster ke
, diberi nama dapat digunakan formula
Euclidean, yaitu:
Suatu data akan menjadi anggota dari clusterke-j apabila jarak data tersebut ke pusat clusterke-j bernilai paling kecil jika dibandingkan dengan jarak ke pusat
clusterlainnya. Selanjutnya, kelompokkan data-data yang menjadi anggota pada setiap cluster. Nilai pusat clusteryang baru dapat dihitung dengan cara mencari nilai rata-rata
dari data-data yang menjadi anggota pada clustertersebut, dengan rumus:
Menurut Santosa 2007, langkah-langkah melakukan Clustering dengan metode K-Meansadalah sebagai berikut:
a. Pilih jumlah cluster k.
b. Inisialisasi k pusat clusterini bisa dilakukan dengan berbagai cara. Namun
yang paling sering dilakukan adalah dengan cara random. Pusat-pusat cluster diberi nilai awal dengan angka-angka random.
c. Alokasikan semua data objek ke cluster terdekat. Kedekatan dua objek
ditentukan berdasarkan jarak kedua objek tersebut. Demikian juga kedekatan suatu data ke clustertertentu ditentukan jarak antara data dengan pusat cluster.
Dalam tahap ini perlu dihitung jarak tiap data ke tiap pusat cluster. Jarak paling antara satu data dengan satu clustertertentu akan menentukan suatu data
masuk dalam Clustermana. Untuk menghiutng jarak semua data ke setiap tiitk pusat Cluster dapat menggunakan teori jarak Euclidean yang dirumuskan
sebagai berikut:
Universitas Sumatera Utara
dimana: Jarak data ke i ke pusat Clusterj
Data ke i pada atribut data ke k Titik pusat ke j pada atribut ke k
d. Hitung kembali pusat Clusterdengan keanggotaan Clusteryang sekarang. Pusat
Clusteradalah rata-rata dari semua data objek dalam Clustertertentu. Jika dikehendaki bisa juga menggunakan median dari Cluster tersebut. Jadi rata-
rata mean bukan satu-satunya ukuran yang bisa dipakai. e.
Tugaskan lagi setiap objek memakai pusat Clusteryang baru. Jika pusat Clustertidak berubah lagi maka proses clusteringselesai. Atau, kembali ke
langkah nomor 3 sampai pusat clustertidak berubah lagi. Algoritma K-Means adalah algoritma yang terbaik dalam algoritma Partitional
Clustering dan yang paling sering digunakan diantara algoritma Clustering lainnya, karena kesederhanaan dan efesiensinya Budiman, 2012.
Ya
Tidak
Gambar 2.3 Flowchart Algoritma Metode K-MeansClustering Sumber : Nugraheni, 2011
Menentukan jumlah Cluster
Menentukan centroid Menentukan nilai De
Distance Euclidean Menghitung jarak objek dengan nilai
De Distance Euclidean
Ada Objek yang berpindah
Universitas Sumatera Utara
Seperti disinggung dalam salah satu langkah dalam prosedur clustering bahwa rata- rata mean sebagai pusat cluster bisa diganti dengan ukuran pemusatan yang lain
seperti median. Untuk kasus-kasus tertentu pemakaian median sebagai alternatif dari mean memberikan hasil yang lebih baik. Seperti kita ketahui median tidak sensitif
terhadap data outlier, data yang terletak jauh dari kebanyakan data yang lain. Jika kita mempunyai data yang kita yakini mempunyai data outlier yang mengandung
informasi penting pemakaian ukuran pemusatan berupa median dalam Clustering ini mungkin bisa di coba. Perhatikan contoh berikut ini
a. Mean dari 1, 3, 5, 7, 9 adalah 5
b. Mean dari 1, 3, 5, 7, 1009 adalah 205
c. Median dari 1, 3, 5, 7, 1009 adalah 5
d. Kelihatan bahwa median tidak sensitif terhadap nilai ekstrim. Hasil Cluster
dengan metode K-Mean sangat bergantung pada nilai pusat Cluster yang diberikan. Pemberian nilai awal yang berbeda bisa menghasilkan hasil Cluster
yang berbeda. Ada beberapa cara memberi nilai awal misalnya dengan mengambil sampel awal dari data, lalu mencari pusatnya, memberi nilai awal
secara random, kita tentukan nilai awalnya atau menggunakan hasil dari Cluster hirarki dengan jumlah Cluster yang sesuai.
Pada Survey yang dipublikasikan Springer ” Tio 10 Algorithm in Data Mining” Budiman, 2012, algoritma K-Means ditempatkan pada posisi 2 dua sebagai
algoritma paling banyak digunakan dalam Data Mining menjadi posisi pertama untuk algoritma Clustering. Urutan Top Algoritma-nya adalah sebagai berikut :
1 C4.5
2 K-Means
3 SVM Support Vector Machines
4 Algoritma Apriori
5 EM Expectation Maximazation
6 Algoritma PageRank
7 Algoritma AdaBoost
8 K-Nearest Neighbor
9 Naïve Bayes
10 Classification and Regression Trees.
Universitas Sumatera Utara
b. Fuzzy K-Means Clustering
Fuzzy K-means Clustering atau fuzzy isodata dikembangkan oleh Bezdek pada tahun 1981 untuk menyelesaikan masalah optimasi Agusta, 2007. Pengelompokan dengan
mempertimbangkan tingkat keanggotaan yang mencakup himpunan fuzzy sebagai dasar pembobotan bagi pengelompokan disebut dengan Fuzzy Clustering. Metode
Fuzzy K-means Clustering merupakan pengembangan dari metode K-means Clustering untuk meminimalkan masalah kegagalan konvergen Utami Sutikno,
2010. Metode K-Means Clustering memiliki matriks keanggotaan biner yaitu 0 dan 1,
sedangkan fuzzy K-Means Clustering memiliki matriks keanggotaan kontinu antara 0 dan 1. Pada Fuzzy K-Means Clustering, fungsi keanggotaan memiliki nilai antara 0
sampai 1 dengan fungsi pembatas berikut:
Derajat keanggotaan terbesar dari setiap objek menunjukkan kecenderungan objek tersebut menjadi anggota dari kelompok tertentu. Prinsip utama dari fuzzy K-means
Clustering adalah meminimumkan fungsi objektif, yaitu jarak antara objek dengan setiap pusat kelompok.
Tidak ada nilai w yang optimum, tetapi nilai w yang sering digunakan adalah 2 Agusta, 2007. Fungsi objektif dapat diminimumkan dengan fungsi pembatas dengan
menggunakan pengganda lagrange kelompok yang optimum pada metode fuzzy K- means clustering.
2.6. Sum of Squared Error SSE