data. Data yang telah ditransformasi, kemudian ditambang dengan berbagai teknik. Proses data mining adalah proses mencari pola atau
informasi menarik dalam data terpilih dengan menggunakan fungsi- fungsi tertentu. Fungsi atau algoritma dalam data mining sangat
bervariasi, dimana pemilihannya bergantung pada tujuan dan proses pencarian pengetahuan secara menyeluruh.
Pattern Evaluation Untuk mengidentifikasi pola yang benar-benar menarik interestingness
measures yang mewakili pengetahuan berdasarkan atas beberapa
tindakan yang menarik. Tahap ini merupakan bagian dari proses pencarian pengetahuan yang mencakup pemeriksaan apakah pola atau
informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.
Knowledge Presentation Graphical User Interface Tahap ini merupakan gambaran teknik visualisasi dan pengetahuan
yang digunakan untuk memberikan pengetahuan yang telah ditambang kepada user. Pada tahap ini, dipresentasikan pengetahuan dalam
bentuk yang mudah dipahami pengguna atau pihak yang berkepentingan.
2.3. Data Clustering
Data Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan unsupervised. Ada dua jenis data clustering yang sering dipergunakan dalam proses
pengelompokan data yaitu hierarchical data clustering dan non-hierarchical data clustering
. K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster
kelompok. Metode ini mempartisi data ke dalam cluster kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang
sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain.
Adapun tujuan dari data clustering ini adalah untuk meminimalisasikan objective function
yang diset dalam proses clustering, yang pada umumnya berusaha
Universitas Sumatera Utara
meminimalisasikan variasi di dalam suatu cluster dan memaksimalisasikan variasi antar cluster.
2.4.Clustering
Pada dasarnya clustering terhadap data adalah suatu proses untuk mengelompokkan sekumpulan data tanpa suatu atribut kelas yang telah didefinisikan sebelumnya,
berdasarkan pada prinsip konseptual clustering yaitu memaksimalkan dan juga meminimalkan kemiripan intra kelas. Misalnya, sekumpulan obyek-obyek
komoditi pertama-tama dapat di clustering menjadi sebuah himpunan kelas-kelas dan
lalu menjadi sebuah himpunan aturan-aturan yang dapat diturunkan berdasarkan suatu klasifikasi tertentu.
Proses untuk mengelompokkan secara fisik atau abstrak obyek-obyek ke dalam bentuk kelas-kelas atau obyek-obyek yang serupa, disebut dengan
clustering atau unsupervised classification. Melakukan analisa dengan clustering,
akan sangat membantu untuk membentuk partisi-partisi yang berguna terhadap sejumlah besar himpunan obyek dengan didasarkan pada prinsip divide and
conquer yang mendekomposisikan suatu sistem skala besar, menjadi komponen-
komponen yang lebih kecil, untuk menyederhanakan proses desain dan implementasi.
2.4.1. K-Means Clustering Salah satu metode partisi atau biasa disebut juga dengan metode non hierarki. Salah
satu metode partisi yang biasa digunakan adalah metode K-Means Clustering. Metode K-Means Clustering dapat diterapkan pada kasus dengan jumlah objek yang
sangat besar UTA10. Dari beberapa teknik clustering yang paling sederhana dan umum dikenal
adalah clustering K-Means. Dalam teknik ini kita ingin mengelompokkan obyek ke dalam K kelompok atau cluster. Untuk melakukan clustering ini, nilai K harus
ditentukan terlebih dahulu. Biasanya user atau pemakai sudah mempunyai informasi awal tentang obyek yang sedang dipelajari, termasuk berapa jumlah cluster
yang paling tepat. Secara detail kita bisa menggunakan ukuran ‘ketidakmiripan”
untuk mengelompokkan obyek kita. Jika jarak dua obyek atau data titik cukup dekat, maka dua obyek itu mirip. Semakin dekat berarti semakin tinggi kemiripannya.
Universitas Sumatera Utara
Semakin tinggi nilai jarak, semakin tinggi ketidak miripannya SAN07. K-Means Clustering
merupakan salah satu metode data clustering non hirarki yang mengelompokan data dalam bentuk satu atau lebih cluster. Data yang memiliki
karakteristik yang sama dikelompokan dalam satu cluster dan data yang memiliki karakteristik yang berbeda dikelompokan dengan cluster yang lain sehingga data
yang berada dalam satu cluster memiliki tingkat variasi yang kecil AGU07. Metode K-Means digunakan sebagai alternatif metode cluster untuk data
dengan ukuran besar karena memiliki kecepatan yang lebih tinggi dibandingkan metode hierarki. Menurut Forgy 1965 K-Means adalah salah satu algoritma
terkenal dalam clustering, awalnya dikenal sebagai metode Forgy ’s dan telah
digunakan secara luas di berbagai bidang termasuk Data Mining, analisis statistik data dan aplikasi bisnis lainnya. Untuk K-means, K menunjukkan jumlah cluster.
Nilai K ditentukan oleh pemakai atau user. Untuk kasus dimana ada pertimbangan dari ahli yang kompeten atau expert di bidangnya, nilai K akan mudah di tentukan.
Tetapi sering sekali terjadi bahwa nilai K ini harus ditentukan dengan melihat pada data tanpa ada pertimbangan dari expert MAH13.
K-Means merupakan algoritma clustering yang berulang-ulang. Algoritma K- Means
dimulai dengan pemilihan secara acak K, K disini merupakan banyaknya cluster
yang ingin dibentuk. Kemudian tetapkan nilai-nilai K secara random, untuk sementara nilai tersebut menjadi pusat dari cluster atau biasa disebut dengan
centroid , mean atau
“means”. Hitung jarak setiap data yang ada terhadap masing- masing centroid menggunakan rumus Euclidian hingga ditemukan jarak yang paling
dekat dari setiap data dengan centroid. Klasifikasikan setiap data berdasarkan kedekatannya dengan centroid. Lakukan langkah tersebut hingga nilai centroid tidak
berubah stabil [RIS08]. 2.4.1.1. Algoritma K-Means Clustering
Algoritma K-Means adalah algoritma yang terbaik dalam algoritma Partitional Clustering
dan yang paling sering digunakan diantara algoritma Clustering lainnya, karena kesederhanaan dan efesiensinya BUD12.
Langkah-langkah melakukan cluster dengan metode K-Means clustering adalah sebagai berikut:
1. Pilih jumlah cluster K.
Universitas Sumatera Utara
2. Menentukan Centroid titik pusat cluster awal secara random. Penentuan centroid
awal dilakukan secara random acak dari objek-objek yang tersedia sebanyak K cluster.
3. Kemudian dihitung jarak antara setiap data dengan setiap pusat cluster. Untuk melakukan perhitungan jarak data ke - i pada pusat cluster ke
– k
Ck, dapat digunakan formula Euclidean Distance seperti pada persamaan 1 berikut, yaitu:
� , = ∑
� −
� , =
. . . . . . . . . . . .. . . . . . . . . . . . . . .2.1 Dimana:
d
ik
= Euclidian distance titik X ke C X
ij
= Sample data ke-i
C
kj
= Centroid ke-i
m= jumlah sample
4. Alokasikan masing-masing objek ke dalam centroid yang paling terdekat. Suatu data akan menjadi anggota dari cluster ke-j apabila jarak data
tersebut ke pusat cluster ke-j bernilai paling kecil jika dibandingkan dengan jarak ke pusat cluster lainnya. Selanjutnya, kelompokkan data
yang menjadi anggota pada setiap cluster. 5. Lakukan iterasi, kemudian tentukan posisi centroid baru
dengan menggunakan persamaan sebagai berikut :
. . . . . . . . . . . . . . . . .. . . . . .2.2
Dimana: µ = centroid pada cluster
� = objek ke-i n
= banyaknya objekjumlah objek yang menjadi anggota cluster 6. Jika pusat cluster tidak berubah lagi maka proses clustering selesai.
Atau kembali ke langkah nomor 3 sampai pusat cluster tidak berubah lagi.
Universitas Sumatera Utara
2.4.2 K - Nearest Neighbor Prinsip kerja K-Nearest Neighbor KNN adalah mencari jarak terdekat antara data
yang akan dievaluasi dengan K tetangga neighbor terdekatnya dalam data pelatihan RIS08.
K-nearest neighbor adalah salah satu contoh instance-based learning, dengan
set data pelatihan training set disimpan, sehingga klasifikasi untuk record baru yang belum terklasifikasi dapat ditemukan hanya dengan membandingkannya dengan
record paling mirip dalam training set Larose 2005.Tahap pelatihan algoritma ini
hanya menyimpan vektor fitur dan label kelas dari sampel pelatihan MIR11. Algoritma K-Nearest Neighbor bersifat sederhana, bekerja dengan berdasarkan
kemiripan dari sampel uji testing sample ke sampel latih training sample untuk menentukan K -Nearest Neighbor nya. Setelah mengumpulkan K -Nearest
Neighbor , kemudian diambil mayoritas dari K-Nearest Neighbor KNN untuk
dijadikan prediksi dari sample uji. KNN memiliki beberapa kelebihan yaitu tangguh terhadap training data yang noise dan efektif apabila data latih nya besar. Pada fase
training , algoritma ini hanya melakukan penyimpanan vektor-vektor fitur dan
klasifikasi data training sample. Pada fase klasifikasi, fitur-fitur yang sama dihitung untuk testing data atau yang klasifikasinya tidak diketahui. Jarak dari vektor baru
yang ini terhadap seluruh vektor training sample dihitung dan sejumlah K buah yang paling dekat diambil. Titik yang baru klasifikasinya diprediksikan termasuk pada
klasifikasi terbanyak dari titik- titik tersebut. 2.4.2.1. Algoritma K - Nearest Neighbor
Nearest Neighbor adalah pendekatan untuk mencari kasus dengan menghitung
kedekatan antara kasus baru dengan kasus lama, yaitu berdasarkan pada pencocokan bobot dari sejumlah fitur yang ada. Misalkan, diinginkan untuk mencari solusi
terhadap seorang pasien baru dengan menggunakan solusi dari pasien terdahulu.Untuk mencari kasus pasien mana yang akan digunakan maka dihitung
kedekatan kasus pasien baru dengan semua kasus pasien lama. Kasus pasien lama dengan jarak terdekat yang akan diambil solusinya untuk digunakan pada
kasus pasien baru.
Universitas Sumatera Utara
Gambar 2.3. Ilustrasi Kedekatan Kasus Pasien Larose, 2005 Seperti tampak pada Gambar 2.3, terdapat tiga pasien lama A, B, dan C. Ketika
ada pasien baru New, maka solusi yang akan diambil adalah solusi dari pasien terdekat dari pasien baru. Seandainya d1 adalah kedekatan antara pasien baru dan
pasien A, d2 adalah kedekatan antara pasien baru dengan pasien B, dan d3 adalah kedekatan antara pasien baru dengan pasien C, maka terlihat bahwa d1 lebih dekat
daripada d2 dan d3. Dengan demikian, solusi dari pasien A yang akan digunakan untuk memberikan solusi pada pasien baru.
Adapun penjelasan cara kerja algoritma K - Nearest Neighbor adalah: 1.
Tentukan parameter K sebagai jumlah tetangga terdekat. 2.
Hitung jarak antara data baru dengan semua data training dengan rumus.
� � , � = �� −
‖� −� ‖
2
�
2
. . . . . . . . . . . .. . . . . . 2.3 Dimana:
�� ,� = Euclidean Distance dari atribut data training dan data testing
� = banyak sample � = Data training
� = Data testing
3. Urutkan jarak tersebut dan tetapkan tetangga terdekat berdasarkan
jarak Minimum. 4.
Periksa kelas dari tetangga terdekat. 5.
Gunakan mayoritas sederhana dari kelas tetangga terdekat sebagai nilai prediksi data baru.
Universitas Sumatera Utara
2.5.Euclidean Distance
Konsep Euclidian Distance ini memperlakukan semua peubah adalah bebas. Transformasi baku yang dilakukan berarti menghilangkan pengaruh keragaman data
atau dengan kata lain semua peubah akan memberikan kontribusi yang sama untuk jarak. Euclidean Distance adalah besarnya jarak suatu garis lurus yang
menghubungkan antar objek. Misalkan ada dua buah objek yaitu A dengan koordinat x1, y1 dan B dengan koordinnat x2, y2 dapat diketahui jarak antar kedua objek
tersebut menggunakan rumus Euclidean Distance.
2.6.Centroids
Pusat cluster adalah centroids, yaitu rata-rata dari semua titik pada cluster tersebut, namun dapat juga digunakan medoid, yaitu titik yang paling mewakili pada sebuah
cluster .Centroid digunakan untuk menghitung jarak suatu objek data terhadap
centroid . Dimana pada setiap cluster terdapat titik pusat centroids yang
mempresentasikan cluster tersebut.
2.7. Dataset