Proses training pada algoritma K-Nearest Neighbor

= [ . . ]+[ . . ]+[ . . ] [ , . ]+[ . . ]+[ . . ] [ . . ]+[ . ]+[ . . ] = [ . . ] = [ . . . . . . . ] = [ . . ]+[ . . ]+[ . . ] = [ . . ] = [ . . . . . . . ] Sesuai dengan hasil perhitungan yang diperoleh sebelumnya maka didapat posisi centroids terbaru seperti dalam tabel 3.5 berikut: Tabel 3.5. Hasil Pergeseran centroids Centroid Centroid Centroid awal [1 87 78 27 32 34 0.1 22] [5 187 76 27 207 43 1.03 53] Centroid baru [ . . . . . . . ] [ . . . . . . . ]

3.3. Proses training pada algoritma K-Nearest Neighbor

Proses training pada K-Nearest Neighbor pada penerapannya hanyalah terdiri dari 5 proses yaitu proses perhitungan jarak menggunakan Euclidean Distance dalam menghitung tingkat kemiripan pada sample training dengan sample testing dan kemudian diakhiri dengan proses pengelompokan dengan mempertimbangkan dan menghitung nilai ambang batas threshold. 3.3.1. Proses perhitungan similarity function pada algoritma K-Nearest Neighbor Algoritma K-Nearest Neighbor menjadikan nilai similarity function sebagai pertimbangan dalam proses clustering, ini berarti jika sebuah sample memiliki Universitas Sumatera Utara kemiripan dengan sample yang lain maka besar kemungkinan bahwa sample tersebut memiiki target ataupun berasal dari kelompok yang sama. Pada penelitian kali ini proses perhitungan similarity fuction dilakukan mengggunakan radial basis function , dikarenakan radial basis function memiliki perhitungan yang cukup sederhana jika digunakan pada dataset yang memiliki mayoritas tipe data integer serta memiliki nilai similarity yang cukup akurat walaupun dibandingkan dengan similarity function yang lain seperti: hamming distance dan manhattan distance. Maka berikut perhitungan nilai similarity function berupa radial basis function menggunakan Euclidean Distance yang dilakukan pada beberapa sample: Pada Euclidean distance nilai fungsi jarak yang didapat merupakan jarak antara sample testing terhadap masing-masing sample training yang digunakan, dan pada algoritma K-Nearest Neighbor yang harus diperhatikan adalah bahwa nilai Euclidean distance yang memiliki nilai paling kecil berarti sample testing tersebut adalah anggota dari sample training terdekat. Pada penelitian kali ini, penulis akan menjelaskan bagaimana proses perhitungan fungsi jarak pada algoritma K-Nearest Neighbor menggunakan Euclidean distance sebagai distance function- nya. Pada proses perhitungan Euclidean Distance pada algoritma K-Nearest Neighbor aplikasi data mining terdiri dari dua data,yaitu:  Data Testing Data Testing yang akan digunakan seperti pada tabel 3.6 berikut: Tabel 3.6. Nilai Data Testing yang akan digunakan Sample testing �1 �2 �3 �4 �5 �6 �7 �8 Target Sample 1 87 78 27 32 34.6 0.1 22 ?  Data Training Data Training yang akan digunakan seperti pada tabel 3.7 berikut: Tabel 3.7.Nilai Data Training Sample Ke- �1 �2 �3 �4 �5 �6 �7 �8 Target Sample 1 6 148 72 35 33.6 0.627 50 1 Universitas Sumatera Utara Sample 2 1 85 66 29 26.60 0.351 31 Sample 3 8 183 64 23.30 0.672 32 1 Sample 4 1 89 66 23 94 28.10 0.167 21 Sample 5 137 40 35 168 43.10 2.288 33 1 Sample 44 9 171 110 24 240 45,5 0,74 54 1 Sample 107 1 96 122 22,4 0,207 27 Sample 441 189 104 25 34,3 0,435 41 1 Sample 550 4 189 110 31 28,5 0,68 37 Sample 663 8 167 106 46 231 37,6 0,165 43 1 Sample 692 13 158 114 42,3 0,257 44 1 Perhitungan Euclidean distance untuk sebagian sample training pada tabel 3.7 dengan nilai data testing table 3.6 dengan menggunakan nilai K=5 seperti yang diuraikan sebagai berikut: Universitas Sumatera Utara Seluruh hasil perhitungan Euclidean Distance pada sebagian sample ditunjukkan pada Tabel 3.8 sebagai berikut: Tabel 3.8.Hasil Euclidean Distance Pada sebagian data training Sample Ke- Euclidean Distance Sample 1 75,201 Sample 2 36,346 Sample 3 106,967 Sample 4 63,649 Sample 5 150,67 Sample 44 229,25 Sample 107 62,8 Sample 441 111,67 Sample 550 112,87 Sample 663 218,27 Sample 692 93,68 Dari hasil perhitungan Euclidean Distance pada tabel 3.8, Kemudian mengurutkan objek-objek tersebut ke dalam kelompok yang mempunyai jarak Euclid terkecil dengan nilai K=5 pada tabel 3.9 sebagai berikut. Tabel 3.9.Mengurutkan Objek ke dalam Kelompok ke Jarak Euclid Terkecil Sample Ke- Euclidean Distance Jarak terkecil Sample 1 75,201 4 Universitas Sumatera Utara Sample 2 36,346 1 Sample 3 106,967 6 Sample 4 63,649 3 Sample 5 150,67 9 Sample 44 229,25 11 Sample 107 62,8 2 Sample 441 111,67 7 Sample 550 112,87 8 Sample 663 218,27 10 Sample 692 93,68 5 Dari hasil pengelompokan objek pada tabel 3.9, Kemudian Mengumpulkan label class klasifikasi Nearest Neighbor pada tabel 3.10 sebagai berikut. Tabel 3.10 Label Class Y Sample Ke- Euclidean Distance Jarak terkecil Target KNN Sample 1 75,201 4 1 1 Sample 2 36,346 1 1 Sample 3 106,967 6 1 Sample 4 63,649 3 1 Sample 5 150,67 9 1 Sample 44 229,25 11 1 Sample 107 62,8 2 1 Sample 441 111,67 7 1 Universitas Sumatera Utara Sample 550 112,87 8 Sample 663 218,27 10 1 Sample 692 93,68 5 1 1 Dari hasil pengumpulkan label class klasifikasi Nearest Neighbor pada tabel 3.10, Kemudian Mencari Mayoritas Kategori seperti pada tabel 3.11 sebagai berikut. Tabel 3.11 Hasil Akhir Mayoritas Kategori Sample Ke- Euclidean Distance Jarak terkecil Target KNN Sample 1 75,201 4 1 1 Sample 2 36,346 1 1 Sample 3 106,967 6 1 Sample 4 63,649 3 1 Sample 5 150,67 9 1 Sample 44 229,25 11 1 Sample 107 62,8 2 1 Sample 441 111,67 7 1 Sample 550 112,87 8 Sample 663 218,27 10 1 Sample 692 93,68 5 1 1 Seperti tampak pada Tabel 3.11, terdapat 11 data training. Ketika ada data testing, maka solusi yang akan diambil adalah hasil dari 5 sample terdekat dari data testing. Maka terlihat bahwa sample 1,2,4,107 dan 692 memiliki jarak lebih dekat dari pada sample lainya. Dengan demikian, mayoritas dari ke-5 sample yang terdekat adalah negatif.jadi data testing satu cluster dengan sample 2. Universitas Sumatera Utara

3.4. Struktur Tabel