=
[ . .
]+[ . . ]+[
. . ]
[ , . ]+[
. . ]+[ . .
] [
. . ]+[ .
]+[ . .
]
=
[ . .
]
= [ .
. . . . . . ] =
[ . . ]+[
. . ]+[ . .
]
=
[ . .
]
= [ .
. . . .
. . ]
Sesuai dengan hasil perhitungan yang diperoleh sebelumnya maka didapat posisi centroids
terbaru seperti dalam tabel 3.5 berikut: Tabel 3.5. Hasil Pergeseran centroids
Centroid Centroid
Centroid awal [1 87 78 27 32 34 0.1 22]
[5 187 76 27 207 43 1.03 53] Centroid
baru [ .
. . . . . . ] [
. . .
. . .
. ]
3.3. Proses training pada algoritma K-Nearest Neighbor
Proses training pada K-Nearest Neighbor pada penerapannya hanyalah terdiri dari 5 proses yaitu proses perhitungan jarak menggunakan Euclidean Distance dalam
menghitung tingkat kemiripan pada sample training dengan sample testing dan kemudian diakhiri dengan proses
pengelompokan dengan mempertimbangkan dan menghitung nilai ambang batas threshold.
3.3.1. Proses perhitungan similarity function pada algoritma K-Nearest Neighbor
Algoritma K-Nearest Neighbor menjadikan nilai similarity function sebagai
pertimbangan dalam proses clustering, ini berarti jika sebuah sample memiliki
Universitas Sumatera Utara
kemiripan dengan sample yang lain maka besar kemungkinan bahwa sample tersebut memiiki target ataupun berasal dari kelompok yang sama. Pada penelitian
kali ini proses perhitungan similarity fuction dilakukan mengggunakan radial basis function
, dikarenakan radial basis function memiliki perhitungan yang cukup sederhana jika digunakan pada dataset yang memiliki mayoritas tipe data integer
serta memiliki nilai similarity yang cukup akurat walaupun dibandingkan dengan similarity function
yang lain seperti: hamming distance dan manhattan distance. Maka berikut perhitungan nilai similarity function berupa radial basis function
menggunakan Euclidean Distance yang dilakukan pada beberapa sample: Pada Euclidean distance nilai fungsi jarak yang didapat merupakan jarak
antara sample testing terhadap masing-masing sample training yang digunakan, dan pada algoritma K-Nearest Neighbor yang harus diperhatikan adalah bahwa
nilai Euclidean distance yang memiliki nilai paling kecil berarti sample testing tersebut adalah anggota dari sample training terdekat. Pada penelitian kali ini,
penulis akan menjelaskan bagaimana proses perhitungan fungsi jarak pada algoritma K-Nearest Neighbor
menggunakan Euclidean distance sebagai distance function-
nya. Pada proses perhitungan Euclidean Distance pada algoritma K-Nearest
Neighbor aplikasi data mining terdiri dari dua data,yaitu:
Data Testing Data Testing
yang akan digunakan seperti pada tabel 3.6 berikut: Tabel 3.6. Nilai Data Testing yang akan digunakan
Sample testing �1
�2 �3
�4 �5
�6 �7
�8 Target
Sample 1
87 78
27 32
34.6 0.1
22 ?
Data Training Data Training
yang akan digunakan seperti pada tabel 3.7 berikut: Tabel 3.7.Nilai Data Training
Sample Ke- �1
�2 �3
�4 �5
�6 �7
�8 Target
Sample 1
6 148
72 35
33.6 0.627 50
1
Universitas Sumatera Utara
Sample 2 1
85 66
29 26.60 0.351 31
Sample 3 8
183 64
23.30 0.672 32 1
Sample 4 1
89 66
23 94
28.10 0.167 21 Sample 5
137 40
35 168
43.10 2.288 33 1
Sample 44 9
171 110
24 240
45,5 0,74
54 1
Sample 107
1 96
122 22,4
0,207 27 Sample 441
189 104
25 34,3
0,435 41 1
Sample 550 4
189 110
31 28,5
0,68 37
Sample 663 8
167 106
46 231
37,6 0,165 43
1 Sample 692
13 158
114 42,3
0,257 44 1
Perhitungan Euclidean distance untuk sebagian sample training pada tabel 3.7 dengan nilai data testing table 3.6 dengan menggunakan nilai K=5 seperti yang
diuraikan sebagai berikut:
Universitas Sumatera Utara
Seluruh hasil perhitungan Euclidean Distance pada sebagian sample ditunjukkan pada Tabel 3.8 sebagai berikut:
Tabel 3.8.Hasil Euclidean Distance Pada sebagian data training
Sample Ke- Euclidean Distance
Sample 1
75,201 Sample 2
36,346 Sample 3
106,967 Sample 4
63,649 Sample 5
150,67 Sample 44
229,25 Sample
107 62,8
Sample 441 111,67
Sample 550 112,87
Sample 663 218,27
Sample 692 93,68
Dari hasil perhitungan Euclidean Distance pada tabel 3.8, Kemudian mengurutkan objek-objek tersebut ke dalam kelompok yang mempunyai jarak Euclid terkecil
dengan nilai K=5 pada tabel 3.9 sebagai berikut. Tabel 3.9.Mengurutkan Objek ke dalam Kelompok ke Jarak Euclid Terkecil
Sample Ke- Euclidean Distance
Jarak terkecil Sample
1 75,201
4
Universitas Sumatera Utara
Sample 2 36,346
1 Sample 3
106,967 6
Sample 4 63,649
3 Sample 5
150,67 9
Sample 44 229,25
11 Sample
107 62,8
2 Sample 441
111,67 7
Sample 550 112,87
8 Sample 663
218,27 10
Sample 692 93,68
5
Dari hasil pengelompokan objek pada tabel 3.9, Kemudian Mengumpulkan label class
klasifikasi Nearest Neighbor pada tabel 3.10 sebagai berikut. Tabel 3.10 Label Class Y
Sample Ke- Euclidean Distance
Jarak terkecil Target
KNN Sample
1 75,201
4 1
1 Sample 2
36,346 1
1 Sample 3
106,967 6
1 Sample 4
63,649 3
1 Sample 5
150,67 9
1 Sample 44
229,25 11
1 Sample
107 62,8
2 1
Sample 441 111,67
7 1
Universitas Sumatera Utara
Sample 550 112,87
8 Sample 663
218,27 10
1 Sample 692
93,68 5
1 1
Dari hasil pengumpulkan label class klasifikasi Nearest Neighbor pada tabel 3.10, Kemudian Mencari Mayoritas Kategori seperti pada tabel 3.11 sebagai berikut.
Tabel 3.11 Hasil Akhir Mayoritas Kategori Sample Ke-
Euclidean Distance Jarak terkecil
Target KNN
Sample 1
75,201 4
1 1
Sample 2 36,346
1 1
Sample 3 106,967
6 1
Sample 4 63,649
3 1
Sample 5 150,67
9 1
Sample 44 229,25
11 1
Sample 107
62,8 2
1 Sample 441
111,67 7
1 Sample 550
112,87 8
Sample 663 218,27
10 1
Sample 692 93,68
5 1
1
Seperti tampak pada Tabel 3.11, terdapat 11 data training. Ketika ada data testing, maka solusi yang akan diambil adalah hasil dari 5 sample terdekat dari data testing.
Maka terlihat bahwa sample 1,2,4,107 dan 692 memiliki jarak lebih dekat dari pada sample lainya. Dengan demikian, mayoritas dari ke-5 sample yang terdekat
adalah negatif.jadi data testing satu cluster dengan sample 2.
Universitas Sumatera Utara
3.4. Struktur Tabel