Data Clustering Analisis Perbandingan Proses Cluster Menggunakan K- Means Clustering dan K-Nearest Neighbor pada Penyakit Diabetes Mellitus

data. Data yang telah ditransformasi, kemudian ditambang dengan berbagai teknik. Proses data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan fungsi- fungsi tertentu. Fungsi atau algoritma dalam data mining sangat bervariasi, dimana pemilihannya bergantung pada tujuan dan proses pencarian pengetahuan secara menyeluruh.  Pattern Evaluation Untuk mengidentifikasi pola yang benar-benar menarik interestingness measures yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik. Tahap ini merupakan bagian dari proses pencarian pengetahuan yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.  Knowledge Presentation Graphical User Interface Tahap ini merupakan gambaran teknik visualisasi dan pengetahuan yang digunakan untuk memberikan pengetahuan yang telah ditambang kepada user. Pada tahap ini, dipresentasikan pengetahuan dalam bentuk yang mudah dipahami pengguna atau pihak yang berkepentingan.

2.3. Data Clustering

Data Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan unsupervised. Ada dua jenis data clustering yang sering dipergunakan dalam proses pengelompokan data yaitu hierarchical data clustering dan non-hierarchical data clustering . K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster kelompok. Metode ini mempartisi data ke dalam cluster kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain. Adapun tujuan dari data clustering ini adalah untuk meminimalisasikan objective function yang diset dalam proses clustering, yang pada umumnya berusaha Universitas Sumatera Utara meminimalisasikan variasi di dalam suatu cluster dan memaksimalisasikan variasi antar cluster. 2.4.Clustering Pada dasarnya clustering terhadap data adalah suatu proses untuk mengelompokkan sekumpulan data tanpa suatu atribut kelas yang telah didefinisikan sebelumnya, berdasarkan pada prinsip konseptual clustering yaitu memaksimalkan dan juga meminimalkan kemiripan intra kelas. Misalnya, sekumpulan obyek-obyek komoditi pertama-tama dapat di clustering menjadi sebuah himpunan kelas-kelas dan lalu menjadi sebuah himpunan aturan-aturan yang dapat diturunkan berdasarkan suatu klasifikasi tertentu. Proses untuk mengelompokkan secara fisik atau abstrak obyek-obyek ke dalam bentuk kelas-kelas atau obyek-obyek yang serupa, disebut dengan clustering atau unsupervised classification. Melakukan analisa dengan clustering, akan sangat membantu untuk membentuk partisi-partisi yang berguna terhadap sejumlah besar himpunan obyek dengan didasarkan pada prinsip divide and conquer yang mendekomposisikan suatu sistem skala besar, menjadi komponen- komponen yang lebih kecil, untuk menyederhanakan proses desain dan implementasi. 2.4.1. K-Means Clustering Salah satu metode partisi atau biasa disebut juga dengan metode non hierarki. Salah satu metode partisi yang biasa digunakan adalah metode K-Means Clustering. Metode K-Means Clustering dapat diterapkan pada kasus dengan jumlah objek yang sangat besar UTA10. Dari beberapa teknik clustering yang paling sederhana dan umum dikenal adalah clustering K-Means. Dalam teknik ini kita ingin mengelompokkan obyek ke dalam K kelompok atau cluster. Untuk melakukan clustering ini, nilai K harus ditentukan terlebih dahulu. Biasanya user atau pemakai sudah mempunyai informasi awal tentang obyek yang sedang dipelajari, termasuk berapa jumlah cluster yang paling tepat. Secara detail kita bisa menggunakan ukuran ‘ketidakmiripan” untuk mengelompokkan obyek kita. Jika jarak dua obyek atau data titik cukup dekat, maka dua obyek itu mirip. Semakin dekat berarti semakin tinggi kemiripannya. Universitas Sumatera Utara Semakin tinggi nilai jarak, semakin tinggi ketidak miripannya SAN07. K-Means Clustering merupakan salah satu metode data clustering non hirarki yang mengelompokan data dalam bentuk satu atau lebih cluster. Data yang memiliki karakteristik yang sama dikelompokan dalam satu cluster dan data yang memiliki karakteristik yang berbeda dikelompokan dengan cluster yang lain sehingga data yang berada dalam satu cluster memiliki tingkat variasi yang kecil AGU07. Metode K-Means digunakan sebagai alternatif metode cluster untuk data dengan ukuran besar karena memiliki kecepatan yang lebih tinggi dibandingkan metode hierarki. Menurut Forgy 1965 K-Means adalah salah satu algoritma terkenal dalam clustering, awalnya dikenal sebagai metode Forgy ’s dan telah digunakan secara luas di berbagai bidang termasuk Data Mining, analisis statistik data dan aplikasi bisnis lainnya. Untuk K-means, K menunjukkan jumlah cluster. Nilai K ditentukan oleh pemakai atau user. Untuk kasus dimana ada pertimbangan dari ahli yang kompeten atau expert di bidangnya, nilai K akan mudah di tentukan. Tetapi sering sekali terjadi bahwa nilai K ini harus ditentukan dengan melihat pada data tanpa ada pertimbangan dari expert MAH13. K-Means merupakan algoritma clustering yang berulang-ulang. Algoritma K- Means dimulai dengan pemilihan secara acak K, K disini merupakan banyaknya cluster yang ingin dibentuk. Kemudian tetapkan nilai-nilai K secara random, untuk sementara nilai tersebut menjadi pusat dari cluster atau biasa disebut dengan centroid , mean atau “means”. Hitung jarak setiap data yang ada terhadap masing- masing centroid menggunakan rumus Euclidian hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid. Klasifikasikan setiap data berdasarkan kedekatannya dengan centroid. Lakukan langkah tersebut hingga nilai centroid tidak berubah stabil [RIS08]. 2.4.1.1. Algoritma K-Means Clustering Algoritma K-Means adalah algoritma yang terbaik dalam algoritma Partitional Clustering dan yang paling sering digunakan diantara algoritma Clustering lainnya, karena kesederhanaan dan efesiensinya BUD12. Langkah-langkah melakukan cluster dengan metode K-Means clustering adalah sebagai berikut: 1. Pilih jumlah cluster K. Universitas Sumatera Utara 2. Menentukan Centroid titik pusat cluster awal secara random. Penentuan centroid awal dilakukan secara random acak dari objek-objek yang tersedia sebanyak K cluster. 3. Kemudian dihitung jarak antara setiap data dengan setiap pusat cluster. Untuk melakukan perhitungan jarak data ke - i pada pusat cluster ke – k Ck, dapat digunakan formula Euclidean Distance seperti pada persamaan 1 berikut, yaitu: � , = ∑ � − � , = . . . . . . . . . . . .. . . . . . . . . . . . . . .2.1 Dimana: d ik = Euclidian distance titik X ke C X ij = Sample data ke-i C kj = Centroid ke-i m= jumlah sample 4. Alokasikan masing-masing objek ke dalam centroid yang paling terdekat. Suatu data akan menjadi anggota dari cluster ke-j apabila jarak data tersebut ke pusat cluster ke-j bernilai paling kecil jika dibandingkan dengan jarak ke pusat cluster lainnya. Selanjutnya, kelompokkan data yang menjadi anggota pada setiap cluster. 5. Lakukan iterasi, kemudian tentukan posisi centroid baru dengan menggunakan persamaan sebagai berikut : . . . . . . . . . . . . . . . . .. . . . . .2.2 Dimana: µ = centroid pada cluster � = objek ke-i n = banyaknya objekjumlah objek yang menjadi anggota cluster 6. Jika pusat cluster tidak berubah lagi maka proses clustering selesai. Atau kembali ke langkah nomor 3 sampai pusat cluster tidak berubah lagi. Universitas Sumatera Utara 2.4.2 K - Nearest Neighbor Prinsip kerja K-Nearest Neighbor KNN adalah mencari jarak terdekat antara data yang akan dievaluasi dengan K tetangga neighbor terdekatnya dalam data pelatihan RIS08. K-nearest neighbor adalah salah satu contoh instance-based learning, dengan set data pelatihan training set disimpan, sehingga klasifikasi untuk record baru yang belum terklasifikasi dapat ditemukan hanya dengan membandingkannya dengan record paling mirip dalam training set Larose 2005.Tahap pelatihan algoritma ini hanya menyimpan vektor fitur dan label kelas dari sampel pelatihan MIR11. Algoritma K-Nearest Neighbor bersifat sederhana, bekerja dengan berdasarkan kemiripan dari sampel uji testing sample ke sampel latih training sample untuk menentukan K -Nearest Neighbor nya. Setelah mengumpulkan K -Nearest Neighbor , kemudian diambil mayoritas dari K-Nearest Neighbor KNN untuk dijadikan prediksi dari sample uji. KNN memiliki beberapa kelebihan yaitu tangguh terhadap training data yang noise dan efektif apabila data latih nya besar. Pada fase training , algoritma ini hanya melakukan penyimpanan vektor-vektor fitur dan klasifikasi data training sample. Pada fase klasifikasi, fitur-fitur yang sama dihitung untuk testing data atau yang klasifikasinya tidak diketahui. Jarak dari vektor baru yang ini terhadap seluruh vektor training sample dihitung dan sejumlah K buah yang paling dekat diambil. Titik yang baru klasifikasinya diprediksikan termasuk pada klasifikasi terbanyak dari titik- titik tersebut. 2.4.2.1. Algoritma K - Nearest Neighbor Nearest Neighbor adalah pendekatan untuk mencari kasus dengan menghitung kedekatan antara kasus baru dengan kasus lama, yaitu berdasarkan pada pencocokan bobot dari sejumlah fitur yang ada. Misalkan, diinginkan untuk mencari solusi terhadap seorang pasien baru dengan menggunakan solusi dari pasien terdahulu.Untuk mencari kasus pasien mana yang akan digunakan maka dihitung kedekatan kasus pasien baru dengan semua kasus pasien lama. Kasus pasien lama dengan jarak terdekat yang akan diambil solusinya untuk digunakan pada kasus pasien baru. Universitas Sumatera Utara Gambar 2.3. Ilustrasi Kedekatan Kasus Pasien Larose, 2005 Seperti tampak pada Gambar 2.3, terdapat tiga pasien lama A, B, dan C. Ketika ada pasien baru New, maka solusi yang akan diambil adalah solusi dari pasien terdekat dari pasien baru. Seandainya d1 adalah kedekatan antara pasien baru dan pasien A, d2 adalah kedekatan antara pasien baru dengan pasien B, dan d3 adalah kedekatan antara pasien baru dengan pasien C, maka terlihat bahwa d1 lebih dekat daripada d2 dan d3. Dengan demikian, solusi dari pasien A yang akan digunakan untuk memberikan solusi pada pasien baru. Adapun penjelasan cara kerja algoritma K - Nearest Neighbor adalah: 1. Tentukan parameter K sebagai jumlah tetangga terdekat. 2. Hitung jarak antara data baru dengan semua data training dengan rumus. � � , � = �� − ‖� −� ‖ 2 � 2 . . . . . . . . . . . .. . . . . . 2.3 Dimana: �� ,� = Euclidean Distance dari atribut data training dan data testing � = banyak sample � = Data training � = Data testing 3. Urutkan jarak tersebut dan tetapkan tetangga terdekat berdasarkan jarak Minimum. 4. Periksa kelas dari tetangga terdekat. 5. Gunakan mayoritas sederhana dari kelas tetangga terdekat sebagai nilai prediksi data baru. Universitas Sumatera Utara 2.5.Euclidean Distance Konsep Euclidian Distance ini memperlakukan semua peubah adalah bebas. Transformasi baku yang dilakukan berarti menghilangkan pengaruh keragaman data atau dengan kata lain semua peubah akan memberikan kontribusi yang sama untuk jarak. Euclidean Distance adalah besarnya jarak suatu garis lurus yang menghubungkan antar objek. Misalkan ada dua buah objek yaitu A dengan koordinat x1, y1 dan B dengan koordinnat x2, y2 dapat diketahui jarak antar kedua objek tersebut menggunakan rumus Euclidean Distance. 2.6.Centroids Pusat cluster adalah centroids, yaitu rata-rata dari semua titik pada cluster tersebut, namun dapat juga digunakan medoid, yaitu titik yang paling mewakili pada sebuah cluster .Centroid digunakan untuk menghitung jarak suatu objek data terhadap centroid . Dimana pada setiap cluster terdapat titik pusat centroids yang mempresentasikan cluster tersebut.

2.7. Dataset