K-Means Clustering Diagram Block
45
Setelah mendapatkan nilai dari variance, maka mencari variance terbesar, lalu sort dokumen berdasarkan variance terbesar. Pada data diatas,
variance terbesar berada pada kata : bendera didokumen 3 dan 4, serta
teman didokumen 7 dan 8, sebagai acuan diambil pada kata bendera didokumen 3, maka sort dokumen 3 yang memiliki variance terbesar. Lihat
tabel 3.14.
Tabel 3.14. Tabel Sort Lirik
Cinta bendera
tuhan teman
Dokumen 3 -0.5
1.5 -0.5
-0.5 Dokumen 4
-0.5 1.5
-0.5 -0.5
Dokumen 1 1.5
-0.5 -0.5
-0.5 Dokumen 2
1.5 -0.5
-0.5 -0.5
Dokumen 6 -0.5
-0.5 1.5
-0.5 Dokumen 7
-0.5 -0.5
-0.5 1.5
Dokumen 8 -0.5
-0.5 -0.5
1.5 Dokumen 5
0.31404 -0.79612 1.278192
-0.79612 Selanjutnya untuk mencari centroid langkahnya adalah bagi jumlah data
dokumen menjadi empat bagian, lalu cari rata-rata mean pada tiap-tiap bagian, maka itulah centroid awal yang didapat. Lihat Tabel 3.15.
Tabel 3.15. Tabel Centroid
cinta bendera
tuhan teman
Dokumen 3 -0.5
1.5 -0.5
-0.5 Dokumen 4
-0.5 1.5
-0.5 -0.5
Dokumen 1 1.5
-0.5 -0.5
-0.5 Dokumen 2
1.5 -0.5
-0.5 -0.5
Dokumen 6 -0.5
-0.5 1.5
-0.5 Dokumen 7
-0.5 -0.5
-0.5 1.5
Dokumen 8 -0.5
-0.5 -0.5
1.5 Dokumen 5
0.31404 -0.79612 1.278192
-0.79612 C1
-0.5 1.5
-0.5 -0.5
C2 1.5
-0.5 -0.5
-0.5 C3
-0.5 -0.5
0.5 0.5
C4 -0.09298 -0.64806 0.389096
0.351942
46
Setelah menemukan centroid awal menggunakan variance initializaion, selanjutnya mencari jarak antara centroid dengan dokumen menggunakan
kedekatan Euclidean Distance. Maka terbentuklah empat cluster.Lihat Tabel 3.16.
Tabel 3.16. Tabel Jarak Terdekat Euclidean Distance C1
C2 C3
C4 Jarak
Terdekat
Dokumen 1 2.828427125
2.44949 2.018862
C2 Dokumen 2
2.828427125 2.44949
2.018862 C2
Dokumen 3 2.93737E-16
2.828427 2.44949
2.509206 C1
Dokumen 4 2.22045E-16
2.828427 2.44949
2.509206 C1
Dokumen 5 3.030588336
2.178035 1.742368
1.515294 C4
Dokumen 6 2.828427125
2.828427 1.414214
1.465435 C3
Dokumen 7 2.828427125
2.828427 1.414214
1.515294 C3
Dokumen 8 2.828427125
2.828427 1.414214
1.515294 C3
Setelah mendapatkan jarak terdekat maka centroid baru di cek kembali dengan dokumen hingga centroid tidak berubah lagi.