b. Fuzzy K-Means Clustering
Fuzzy K-means Clustering atau fuzzy isodata dikembangkan oleh Bezdek pada tahun 1981 untuk menyelesaikan masalah optimasi Agusta, 2007. Pengelompokan dengan
mempertimbangkan tingkat keanggotaan yang mencakup himpunan fuzzy sebagai dasar pembobotan bagi pengelompokan disebut dengan Fuzzy Clustering. Metode
Fuzzy K-means Clustering merupakan pengembangan dari metode K-means Clustering untuk meminimalkan masalah kegagalan konvergen Utami Sutikno,
2010. Metode K-Means Clustering memiliki matriks keanggotaan biner yaitu 0 dan 1,
sedangkan fuzzy K-Means Clustering memiliki matriks keanggotaan kontinu antara 0 dan 1. Pada Fuzzy K-Means Clustering, fungsi keanggotaan memiliki nilai antara 0
sampai 1 dengan fungsi pembatas berikut:
Derajat keanggotaan terbesar dari setiap objek menunjukkan kecenderungan objek tersebut menjadi anggota dari kelompok tertentu. Prinsip utama dari fuzzy K-means
Clustering adalah meminimumkan fungsi objektif, yaitu jarak antara objek dengan setiap pusat kelompok.
Tidak ada nilai w yang optimum, tetapi nilai w yang sering digunakan adalah 2 Agusta, 2007. Fungsi objektif dapat diminimumkan dengan fungsi pembatas dengan
menggunakan pengganda lagrange kelompok yang optimum pada metode fuzzy K- means clustering.
2.6. Sum of Squared Error SSE
Sum of Squared Error SSE diterjemahkan sebagai penjumlahan nilai kuadrat dari jarak data dengan pusat Cluster. SSE dinyatakan dengan rumus berikut:
Dimana, d adalah jarak antara data dengan pusat cluster.
Universitas Sumatera Utara
2.7.D istance Space Untuk Menghitung Jarak Antara Data dan Centroid
Tetapi secara umum distance space yang sering digunakan adalah Manhattan dan Euclidean. Euclidean sering digunakan karena penghitungan jarak dalam distance
space ini merupakan jarak terpendek yang bisa didapatkan antara dua titik yangdiperhitungkan, sedangkan Manhattan sering digunakan karena kemampuannya
dalammendeteksi keadaan khusus seperti keberadaaan outliers dengan lebih baik. Konsep ketidakmiripan pada metode ini berdasarkan pada ukuran jarak antar objek,
dimana jarak yang besar menunjukan sedikit kesamaan dan jarak yang pendek atau kecil menunjukan bahwa suatu objek semakin mirip dengan objek yang lainya.
Berbeda dengan ukuran korelasi, ukuran jarak berfokus pada besarnya nilai. Cluster berdasarkan ukuran korelasi bisa saja tidak memiliki kesamaan nilai tapi hanya
memiliki kesamaan pola, sedangkan cluster berdasarkan ukuran jarak lebih memiliki kesamaan nilai meskipun polanya berbeda. Adapun macam-macam dari ukuran jarak
dapat diuraikan sebagai berikut: 2.7.1.
Jarak Euclidean Konsep jarak Euclidean ini memperlakukan semua peubah adalah bebas tidak
berkorelasi. Transformasi baku yang dilakukan berarti menghilangkan pengaruh keragaman data atau dengan kata lain semua peubah akan memberikan kontribusi
yang sama untuk jarak. Jarak Euclidean adalah besarnya jarak suatu garis lurus yang menghubungkan antar
objek. Misalkan ada dua objek yaitu A dengan koordinat x1,y1 dan B dengan koordinat x2,y2 maka jarak antar kedua objek tersebut dapat diukur dengan rumus:
Ukuran jarak atau ketidaksamaan antar objek ke-i denganobjek ke-j, disimbolkan dengan
dij dan k=1,…..,p. Nilai dij diperoleh melalui perhitungan jarak kuadrat Euclidean sebagai berikut:
Keterangan : dij
= Jarak Kuadrat Euclidean antar objek ke-i dengan obejk ke-j P
= Jumlah Variabel cluster
Universitas Sumatera Utara
Xik = Nilai atau data dari objek ke-i pada variable ke-k
Xjk = Nilai atau data dari objek ke-j pada variable ke-k Everit, 1993
2.7.2. Jarak Menhattan
Jarak manhattan adalah besarnya jarak daridua objek ditinjau dari nilai selisih kedua objek tersebut. Misalkan ada dua objek yaitu A dengan koordinat x1,y1 dan B
dengan koordinat x2,y2 maka jarak antar kedua objek tersebut dapat diukur dengan rumus.
Maka jarak manhattan dari objek i ke objek j, disimbolkan dij dengan k=1,2,…,p variabel objek dapat dihintung dengan :
2.7.3. Jarak Pearson
Jarak Pearson merupakan perluasan dari jarak Euclidean. Ukuran kesamaan dalam jarak ini meninjau varian dari kedua objeknya juga. Ukuran pearson merupakan
ukuran jarak Euclidean yang dalam tiap variabelnya dibagi dengan varian seluruh variabel yang ada. Maka jarak pearson dari objek i ke objek j, disimbolkan dij dengan
k=1,2,…,p variabel objekdapat dihitung dengan:
Namun pada umumnya, ukuran jarak yang sering dipakai oleh peneliti adalah jarak Euclidean. Karena jarak ini cukup fleksibel untuk dilakukan modifikasi dalam
mengatasi kelemahan data. Misalnya kelemahan karena unit pengukuran dan atau skala pengukuran yang berbeda bisa diperbaiki dengan melakukan transformasi baku
Z dari rumus jaraknya. Beberapa distance spacetelah diimplementasikan dalam menghitung jarak
distance antara data dan centroidtermasuk di antaranya L1 ManhattanCity Block distance space, L2 Euclidean distance space, dan Lp Minkowski distance space.
Jarak antara dua titik x1dan x2 pada ManhattanCity Block distance spacedihitung dengan menggunakan rumussebagai berikut:
Universitas Sumatera Utara
Rumus:
dimana : P
: Dimensi data | . |
: Nilai Absolut Sedangkan untuk L2 Euclidean distance space, jarak antara dua titik dihitung
menggunakan rumus sebagai berikut: Rumus:
dimana : p : Dimensi data
Lp Minkowski distance spaceyang merupakan generalisasi dari beberapa distance space yang ada seperti L1 ManhattanCity Block dan L2 Euclidean, juga
telahdiimplementasikan.
2.8.Riset Terkait
Dalam melakukan penelitian, penulis menggunakan beberapa riset terkait yang dijadikan acuan yang membuat penelitian berjalan lancar. Adapun riset-riset terkait
yang dijadikan acuan yang membuat penelitian berjalan lancar. Adapun riset-riset terkait tersebut adalah seperti tercantum pada tabel 2.1 berikut ini.
Tabel 2.1 Riset-riset Terkait No
Judul Riset Nama dan
Tahun Peneliti
Metode yang
Digunakan Hasil Penelitian
1 Modifikasi K-Means
Berbasis Ordered Weighted Averaging OWA Untuk
Kasus Klastering Ulya. M
2011 Algoritma
K-Means OWA
Penentuan Pusat Clustering
dengan Algoritma K-Means OWA
3 Aplikasi K-Means Untuk
Pengelompokkan Mahasiswa Berdasarkan
Kusuma dewi. S.,
Rismawan. Algoritma
K-Mean Clustering
Penentuan pusat Cluster
Menggunakan
Universitas Sumatera Utara
Nilai Body Mass Index BMI Ukuran Kerangka
T 2008 Metode K-Means
Clustering 4
Implementasi Algoritma K- Means Clustering Untuk
Menentukan Strategi Marketing
PresidentUniversity Ong. J. O
2013 Algoritma
K-Mean Clustering
Penentuan Pusat Cluster
Menggunakan Metode K-Means
Clustering
5 Penerapan Radial Basis
Function Network Dengan K-Means Cluster Untuk
Peramalan Kebutuhan Straw
Heryanto, D. N.,
Rachman, F. H. Satoto,
B. D 2013 Metode
Radial Basis
Function Penentuan Pusat
Cluster dan Titik Centroid
Menggunakan Metode Radial
Basis Function 2.9.Perbedaan dengan Riset Sebelumnya
Berdasarkan riset yang telah dilakukan, peneliti membuat perbedaan dalam penelitian ini, yaitu;
1. Algoritma K-MeansClustering yang digunakan dalam penentuan pusat cluster
adalah algoritma Modified K-MeansClustering berbasis Sum Of Squared Error SSE
2. Untuk menghitung jarak distance antara data dan centroid menggunakan
Euclidean Distance Space.
Universitas Sumatera Utara
BAB III METODOLOGI PENELITIAN