Sum of Squared Error SSE

b. Fuzzy K-Means Clustering Fuzzy K-means Clustering atau fuzzy isodata dikembangkan oleh Bezdek pada tahun 1981 untuk menyelesaikan masalah optimasi Agusta, 2007. Pengelompokan dengan mempertimbangkan tingkat keanggotaan yang mencakup himpunan fuzzy sebagai dasar pembobotan bagi pengelompokan disebut dengan Fuzzy Clustering. Metode Fuzzy K-means Clustering merupakan pengembangan dari metode K-means Clustering untuk meminimalkan masalah kegagalan konvergen Utami Sutikno, 2010. Metode K-Means Clustering memiliki matriks keanggotaan biner yaitu 0 dan 1, sedangkan fuzzy K-Means Clustering memiliki matriks keanggotaan kontinu antara 0 dan 1. Pada Fuzzy K-Means Clustering, fungsi keanggotaan memiliki nilai antara 0 sampai 1 dengan fungsi pembatas berikut: Derajat keanggotaan terbesar dari setiap objek menunjukkan kecenderungan objek tersebut menjadi anggota dari kelompok tertentu. Prinsip utama dari fuzzy K-means Clustering adalah meminimumkan fungsi objektif, yaitu jarak antara objek dengan setiap pusat kelompok. Tidak ada nilai w yang optimum, tetapi nilai w yang sering digunakan adalah 2 Agusta, 2007. Fungsi objektif dapat diminimumkan dengan fungsi pembatas dengan menggunakan pengganda lagrange kelompok yang optimum pada metode fuzzy K- means clustering.

2.6. Sum of Squared Error SSE

Sum of Squared Error SSE diterjemahkan sebagai penjumlahan nilai kuadrat dari jarak data dengan pusat Cluster. SSE dinyatakan dengan rumus berikut: Dimana, d adalah jarak antara data dengan pusat cluster. Universitas Sumatera Utara 2.7.D istance Space Untuk Menghitung Jarak Antara Data dan Centroid Tetapi secara umum distance space yang sering digunakan adalah Manhattan dan Euclidean. Euclidean sering digunakan karena penghitungan jarak dalam distance space ini merupakan jarak terpendek yang bisa didapatkan antara dua titik yangdiperhitungkan, sedangkan Manhattan sering digunakan karena kemampuannya dalammendeteksi keadaan khusus seperti keberadaaan outliers dengan lebih baik. Konsep ketidakmiripan pada metode ini berdasarkan pada ukuran jarak antar objek, dimana jarak yang besar menunjukan sedikit kesamaan dan jarak yang pendek atau kecil menunjukan bahwa suatu objek semakin mirip dengan objek yang lainya. Berbeda dengan ukuran korelasi, ukuran jarak berfokus pada besarnya nilai. Cluster berdasarkan ukuran korelasi bisa saja tidak memiliki kesamaan nilai tapi hanya memiliki kesamaan pola, sedangkan cluster berdasarkan ukuran jarak lebih memiliki kesamaan nilai meskipun polanya berbeda. Adapun macam-macam dari ukuran jarak dapat diuraikan sebagai berikut: 2.7.1. Jarak Euclidean Konsep jarak Euclidean ini memperlakukan semua peubah adalah bebas tidak berkorelasi. Transformasi baku yang dilakukan berarti menghilangkan pengaruh keragaman data atau dengan kata lain semua peubah akan memberikan kontribusi yang sama untuk jarak. Jarak Euclidean adalah besarnya jarak suatu garis lurus yang menghubungkan antar objek. Misalkan ada dua objek yaitu A dengan koordinat x1,y1 dan B dengan koordinat x2,y2 maka jarak antar kedua objek tersebut dapat diukur dengan rumus: Ukuran jarak atau ketidaksamaan antar objek ke-i denganobjek ke-j, disimbolkan dengan dij dan k=1,…..,p. Nilai dij diperoleh melalui perhitungan jarak kuadrat Euclidean sebagai berikut: Keterangan : dij = Jarak Kuadrat Euclidean antar objek ke-i dengan obejk ke-j P = Jumlah Variabel cluster Universitas Sumatera Utara Xik = Nilai atau data dari objek ke-i pada variable ke-k Xjk = Nilai atau data dari objek ke-j pada variable ke-k Everit, 1993 2.7.2. Jarak Menhattan Jarak manhattan adalah besarnya jarak daridua objek ditinjau dari nilai selisih kedua objek tersebut. Misalkan ada dua objek yaitu A dengan koordinat x1,y1 dan B dengan koordinat x2,y2 maka jarak antar kedua objek tersebut dapat diukur dengan rumus. Maka jarak manhattan dari objek i ke objek j, disimbolkan dij dengan k=1,2,…,p variabel objek dapat dihintung dengan : 2.7.3. Jarak Pearson Jarak Pearson merupakan perluasan dari jarak Euclidean. Ukuran kesamaan dalam jarak ini meninjau varian dari kedua objeknya juga. Ukuran pearson merupakan ukuran jarak Euclidean yang dalam tiap variabelnya dibagi dengan varian seluruh variabel yang ada. Maka jarak pearson dari objek i ke objek j, disimbolkan dij dengan k=1,2,…,p variabel objekdapat dihitung dengan: Namun pada umumnya, ukuran jarak yang sering dipakai oleh peneliti adalah jarak Euclidean. Karena jarak ini cukup fleksibel untuk dilakukan modifikasi dalam mengatasi kelemahan data. Misalnya kelemahan karena unit pengukuran dan atau skala pengukuran yang berbeda bisa diperbaiki dengan melakukan transformasi baku Z dari rumus jaraknya. Beberapa distance spacetelah diimplementasikan dalam menghitung jarak distance antara data dan centroidtermasuk di antaranya L1 ManhattanCity Block distance space, L2 Euclidean distance space, dan Lp Minkowski distance space. Jarak antara dua titik x1dan x2 pada ManhattanCity Block distance spacedihitung dengan menggunakan rumussebagai berikut: Universitas Sumatera Utara Rumus: dimana : P : Dimensi data | . | : Nilai Absolut Sedangkan untuk L2 Euclidean distance space, jarak antara dua titik dihitung menggunakan rumus sebagai berikut: Rumus: dimana : p : Dimensi data Lp Minkowski distance spaceyang merupakan generalisasi dari beberapa distance space yang ada seperti L1 ManhattanCity Block dan L2 Euclidean, juga telahdiimplementasikan. 2.8.Riset Terkait Dalam melakukan penelitian, penulis menggunakan beberapa riset terkait yang dijadikan acuan yang membuat penelitian berjalan lancar. Adapun riset-riset terkait yang dijadikan acuan yang membuat penelitian berjalan lancar. Adapun riset-riset terkait tersebut adalah seperti tercantum pada tabel 2.1 berikut ini. Tabel 2.1 Riset-riset Terkait No Judul Riset Nama dan Tahun Peneliti Metode yang Digunakan Hasil Penelitian 1 Modifikasi K-Means Berbasis Ordered Weighted Averaging OWA Untuk Kasus Klastering Ulya. M 2011 Algoritma K-Means OWA Penentuan Pusat Clustering dengan Algoritma K-Means OWA 3 Aplikasi K-Means Untuk Pengelompokkan Mahasiswa Berdasarkan Kusuma dewi. S., Rismawan. Algoritma K-Mean Clustering Penentuan pusat Cluster Menggunakan Universitas Sumatera Utara Nilai Body Mass Index BMI Ukuran Kerangka T 2008 Metode K-Means Clustering 4 Implementasi Algoritma K- Means Clustering Untuk Menentukan Strategi Marketing PresidentUniversity Ong. J. O 2013 Algoritma K-Mean Clustering Penentuan Pusat Cluster Menggunakan Metode K-Means Clustering 5 Penerapan Radial Basis Function Network Dengan K-Means Cluster Untuk Peramalan Kebutuhan Straw Heryanto, D. N., Rachman, F. H. Satoto, B. D 2013 Metode Radial Basis Function Penentuan Pusat Cluster dan Titik Centroid Menggunakan Metode Radial Basis Function 2.9.Perbedaan dengan Riset Sebelumnya Berdasarkan riset yang telah dilakukan, peneliti membuat perbedaan dalam penelitian ini, yaitu; 1. Algoritma K-MeansClustering yang digunakan dalam penentuan pusat cluster adalah algoritma Modified K-MeansClustering berbasis Sum Of Squared Error SSE 2. Untuk menghitung jarak distance antara data dan centroid menggunakan Euclidean Distance Space. Universitas Sumatera Utara

BAB III METODOLOGI PENELITIAN