Penerapan Metode K Means Clustering Data (1)
Penerapan Metode K-Means Clustering Datamining pada Tingkat
Persaingan SBMPTN di Program Studi ITS
Tugas : Demo Program Data Mining
Disusun sebagai salah satu syarat untuk memenuhi tugas Projek Akhir mata kuliah Data Mining.
Oleh :
Riza Nidhom Fahmi
NRP 2110157002
PROGRAM STUDI D4 LJ PJJ TEKNIK INFORMATIKA
DEPARTEMEN TEKNIK INFORMATIKA DAN KOMPUTER
POLITEKNIK ELEKTRONIKA NEGERI SURABAYA
2016
Metode K-Means Clustering digunakan dalam data mining untuk mengelompokan datadata kedalam cluster atau beberapa kelompok berdasarkan suatu kemiripan variabel atau atribut
data. Berikut adalah contoh data yang saya Gunakan:
NO
Nama Prodi
FISIKA
MATEMATIKA
STATISTIKA
KIMIA
BIOLOGI
TEKNIK MESIN
TEKNIK ELEKTRO
TEKNIK KIMIA
TEKNIK FISIKA
TEKNIK INDUSTRI
TEKNIK MATERIAL DAN
METALURGI
12 TEKNIK SIPIL
13 ARSITEKTUR
1
2
3
4
5
6
7
8
9
10
11
data tampung 2016
peminat
2015
30
39
36
36
27
60
48
48
45
60
39
361
493
759
586
644
1.784
1.199
956
898
1.225
1.235
45
30
1.653
1.135
Berdasarkan data diatas saya ingin mengelompokkan Tingkat Persaingan yang ada di Program
Studi ITS dengan kriteria Daya Tampung program studi dan peminat program studi tersebut.
Algoritma Metode K Means Clustering
Algoritma Flowchart Metode Klastering K Means
Langkah- Langkah perhitungannya adalah:
1. Menentukan Jumlah cluster data.
2. Tentukan titik pusat cluster secara Random.
3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster
4. kelompokan obyek (Alokasikan masing-masing data ke centroid/rata-rata terdekat)
5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai
centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada
objective function yang digunakan di atas nilai threshold yang ditentukan
Distance space digunakan untuk menghitung jarak antara data dan centroid. Adapun
persamaan yang dapat digunakan salah satunya yaitu Euclidean Distance Space. Euclidean
distance space sering digunakan dalam perhitungan jarak, hal ini dikarenakan hasil yang diperoleh
merupakan jarak terpendek antara dua titik yang diperhitungkan. Adapun persamaannya adalah
sebagai berikut :
dimana :
dij = Jarak objek antara objek i dan j
P = Dimensi data
Xik
= Koordinat dari obyek i pada dimensi k
Xjk
= Koordinat dari obyek j pada dimensi k
Dalam tahap ini akan dijelaskan langkah-langkah pengoperasian algoritma K-Means secara
manual:
Langkah 1. Menentukan Jumlah Claster.
Diketahui:
Jumlah Cluster = 3,
jumlah data
= 13,
jumlah atribut = 2
NO
Nama Prodi
FISIKA
MATEMATIKA
STATISTIKA
KIMIA
BIOLOGI
TEKNIK MESIN
TEKNIK ELEKTRO
TEKNIK KIMIA
TEKNIK FISIKA
TEKNIK INDUSTRI
TEKNIK MATERIAL DAN
METALURGI
12 TEKNIK SIPIL
13 ARSITEKTUR
1
2
3
4
5
6
7
8
9
10
11
data tampung 2016 peminat 2015
30
39
36
36
27
60
48
48
45
60
39
361
493
759
586
644
1.784
1.199
956
898
1.225
1.235
45
30
1.653
1.135
Langkah 2. Tentukan Titik Pusat Cluster Secara Random.
Di ambil data random sebagai pusat cluster ke-1
Di ambil data random sebagai pusat cluster ke-2
Di ambil data random sebagai pusat cluster ke-3
30
27
45
586
1199
759
Langkah 3. Perhitungan Jarak Pusat Cluster
Untuk mengukur jarak antara dengan pusat Cluster digunakan Euclidian Distance, kemudian
akan didapatkan matriks jarak yaitu C1, C2 dan C3 sebagai berikut:
Berikut perhitungannya dengan menggunakan persamaan Euclidean Distance Space :
- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster pertama.
C1= SQRT((30-30)^2+(361-586)^2)=225
- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster ke-dua.
C2= SQRT((30-27)^2+(361-1199)^2)= 838.0054
- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster ke-tiga.
C3= SQRT((30-45)^2+(361-759)^2)= 398.2826
Adapun hasil dari perhitungan dari keseluruhan data terhadap tiap pusat cluster awal disajikan
pada tabel berikut
NO
Nama Prodi
1
2
3
4
5
6
7
8
9
10
11
FISIKA
MATEMATIKA
STATISTIKA
KIMIA
BIOLOGI
TEKNIK MESIN
TEKNIK ELEKTRO
TEKNIK KIMIA
TEKNIK FISIKA
TEKNIK INDUSTRI
TEKNIK
MATERIAL DAN
METALURGI
TEKNIK SIPIL
ARSITEKTUR
12
13
data
tampung
2016
30
39
36
36
27
60
48
48
45
60
39
45
30
peminat
2015
C1
C2
C3
Jarak
Terpendek
361
493
759
586
644
1.784
1.199
956
898
1.225
1.235
225
93.43447
173.104
6
58.07753
1198.376
613.2642
370.4376
312.3604
639.7038
838.0054
706.0255
441.0215
613.3974
555.6564
588.0689
48
247.6954
304.3452
65.39113
398.2826
266.0677
9
173.2339
116.4002
1025.11
440.0102
197.0228
139
466.2414
225
93.43447
9
6
58.07753
588.0689
48
197.0228
139
65.39113
1.653
1.135
649.0624 53.07542 476.0378
1067.105 456.2247
894
549 70.68239 376.2991
53.07542
456.2247
70.68239
Langkah 4. Pengelompokan Data
Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan
pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan
pusat cluster terdekat.
Berikut ini akan ditampilkan data matriks pengelompokkan group, nilai 1 berarti data tersebut
berada dalam group(kelompok data).
NO
1
2
3
4
5
6
7
8
9
10
11
12
13
C1
1
1
0
1
1
0
0
0
0
0
0
0
0
C2
0
0
0
0
0
1
1
0
0
1
1
1
1
C3
0
0
1
0
0
0
0
1
1
0
0
0
0
Kelompok data 1
Langkah 5. Penentuan pusat cluster baru
Setelah diketahui anggota tiap-tiap cluster kemudian pusat cluster baru dihitung
berdasarkan data anggota tiap-tiap cluster sesuai dengan rumus pusat anggota cluster . Sehingga
didapatkan perhitungan sebagai berikut :
C1
C2
C3
1
2
33
521
47 1371.833
43
871
Ulangi langkah ke 3 (kedua) hingga posisi data tidak mengalami perubahan.
No
Nama Prodi
1 FISIKA
2 MATEMATIKA
3 STATISTIKA
data
tampung
2016
30
39
peminat
2015
c1
c2
c3
361
493
160.0281
28.63564
1010.976
878.8694
510.1657
378.0212
36
759
238.0189
612.9317
112.2185
4 KIMIA
5 BIOLOGI
6 TEKNIK MESIN
36
27
586
644
65.06919
123.1463
785.91
728.1077
285.086
227.5632
60
1784
1263.289
412.372
913.1583
7 TEKNIK ELEKTRO
8 TEKNIK KIMIA
48
1199
678.1659
172.8359
328.0381
48
956
9 TEKNIK FISIKA
10 TEKNIK INDUSTRI
11 TEKNIK MATERIAL
DAN METALURGI
12 TEKNIK SIPIL
13 ARSITEKTUR
45
898
435.2585
377.1909
415.8342
473.8372
85.14693
27.07397
60
39
1225
1235
704.5176
714.0252
147.4074
137.0667
354.408
364.022
45
30
1653
1135
1132.064
281.1741
782.0026
614.0073
237.4424
264.3199
Langkah selanjutnya sama dengan langkah pada nomor 4 jarak hasil perhitungan akan
dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster , jarak ini
menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.
NO
1
2
3
4
5
6
7
8
9
10
11
12
13
C1
1
1
0
1
1
0
0
0
0
0
0
0
0
C2
0
0
0
0
0
1
1
0
0
1
1
1
1
C3
0
0
1
0
0
0
0
1
1
0
0
0
0
Kelompok data 2
Keterangan: Karena kelompok data 1 dan Kelompok data 2 sudah tidak ada perbedaan maka Proses
Perulangannya di Hentikan karena proses pengclasifikasian sudah selesai.
Persaingan SBMPTN di Program Studi ITS
Tugas : Demo Program Data Mining
Disusun sebagai salah satu syarat untuk memenuhi tugas Projek Akhir mata kuliah Data Mining.
Oleh :
Riza Nidhom Fahmi
NRP 2110157002
PROGRAM STUDI D4 LJ PJJ TEKNIK INFORMATIKA
DEPARTEMEN TEKNIK INFORMATIKA DAN KOMPUTER
POLITEKNIK ELEKTRONIKA NEGERI SURABAYA
2016
Metode K-Means Clustering digunakan dalam data mining untuk mengelompokan datadata kedalam cluster atau beberapa kelompok berdasarkan suatu kemiripan variabel atau atribut
data. Berikut adalah contoh data yang saya Gunakan:
NO
Nama Prodi
FISIKA
MATEMATIKA
STATISTIKA
KIMIA
BIOLOGI
TEKNIK MESIN
TEKNIK ELEKTRO
TEKNIK KIMIA
TEKNIK FISIKA
TEKNIK INDUSTRI
TEKNIK MATERIAL DAN
METALURGI
12 TEKNIK SIPIL
13 ARSITEKTUR
1
2
3
4
5
6
7
8
9
10
11
data tampung 2016
peminat
2015
30
39
36
36
27
60
48
48
45
60
39
361
493
759
586
644
1.784
1.199
956
898
1.225
1.235
45
30
1.653
1.135
Berdasarkan data diatas saya ingin mengelompokkan Tingkat Persaingan yang ada di Program
Studi ITS dengan kriteria Daya Tampung program studi dan peminat program studi tersebut.
Algoritma Metode K Means Clustering
Algoritma Flowchart Metode Klastering K Means
Langkah- Langkah perhitungannya adalah:
1. Menentukan Jumlah cluster data.
2. Tentukan titik pusat cluster secara Random.
3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster
4. kelompokan obyek (Alokasikan masing-masing data ke centroid/rata-rata terdekat)
5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai
centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada
objective function yang digunakan di atas nilai threshold yang ditentukan
Distance space digunakan untuk menghitung jarak antara data dan centroid. Adapun
persamaan yang dapat digunakan salah satunya yaitu Euclidean Distance Space. Euclidean
distance space sering digunakan dalam perhitungan jarak, hal ini dikarenakan hasil yang diperoleh
merupakan jarak terpendek antara dua titik yang diperhitungkan. Adapun persamaannya adalah
sebagai berikut :
dimana :
dij = Jarak objek antara objek i dan j
P = Dimensi data
Xik
= Koordinat dari obyek i pada dimensi k
Xjk
= Koordinat dari obyek j pada dimensi k
Dalam tahap ini akan dijelaskan langkah-langkah pengoperasian algoritma K-Means secara
manual:
Langkah 1. Menentukan Jumlah Claster.
Diketahui:
Jumlah Cluster = 3,
jumlah data
= 13,
jumlah atribut = 2
NO
Nama Prodi
FISIKA
MATEMATIKA
STATISTIKA
KIMIA
BIOLOGI
TEKNIK MESIN
TEKNIK ELEKTRO
TEKNIK KIMIA
TEKNIK FISIKA
TEKNIK INDUSTRI
TEKNIK MATERIAL DAN
METALURGI
12 TEKNIK SIPIL
13 ARSITEKTUR
1
2
3
4
5
6
7
8
9
10
11
data tampung 2016 peminat 2015
30
39
36
36
27
60
48
48
45
60
39
361
493
759
586
644
1.784
1.199
956
898
1.225
1.235
45
30
1.653
1.135
Langkah 2. Tentukan Titik Pusat Cluster Secara Random.
Di ambil data random sebagai pusat cluster ke-1
Di ambil data random sebagai pusat cluster ke-2
Di ambil data random sebagai pusat cluster ke-3
30
27
45
586
1199
759
Langkah 3. Perhitungan Jarak Pusat Cluster
Untuk mengukur jarak antara dengan pusat Cluster digunakan Euclidian Distance, kemudian
akan didapatkan matriks jarak yaitu C1, C2 dan C3 sebagai berikut:
Berikut perhitungannya dengan menggunakan persamaan Euclidean Distance Space :
- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster pertama.
C1= SQRT((30-30)^2+(361-586)^2)=225
- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster ke-dua.
C2= SQRT((30-27)^2+(361-1199)^2)= 838.0054
- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster ke-tiga.
C3= SQRT((30-45)^2+(361-759)^2)= 398.2826
Adapun hasil dari perhitungan dari keseluruhan data terhadap tiap pusat cluster awal disajikan
pada tabel berikut
NO
Nama Prodi
1
2
3
4
5
6
7
8
9
10
11
FISIKA
MATEMATIKA
STATISTIKA
KIMIA
BIOLOGI
TEKNIK MESIN
TEKNIK ELEKTRO
TEKNIK KIMIA
TEKNIK FISIKA
TEKNIK INDUSTRI
TEKNIK
MATERIAL DAN
METALURGI
TEKNIK SIPIL
ARSITEKTUR
12
13
data
tampung
2016
30
39
36
36
27
60
48
48
45
60
39
45
30
peminat
2015
C1
C2
C3
Jarak
Terpendek
361
493
759
586
644
1.784
1.199
956
898
1.225
1.235
225
93.43447
173.104
6
58.07753
1198.376
613.2642
370.4376
312.3604
639.7038
838.0054
706.0255
441.0215
613.3974
555.6564
588.0689
48
247.6954
304.3452
65.39113
398.2826
266.0677
9
173.2339
116.4002
1025.11
440.0102
197.0228
139
466.2414
225
93.43447
9
6
58.07753
588.0689
48
197.0228
139
65.39113
1.653
1.135
649.0624 53.07542 476.0378
1067.105 456.2247
894
549 70.68239 376.2991
53.07542
456.2247
70.68239
Langkah 4. Pengelompokan Data
Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan
pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan
pusat cluster terdekat.
Berikut ini akan ditampilkan data matriks pengelompokkan group, nilai 1 berarti data tersebut
berada dalam group(kelompok data).
NO
1
2
3
4
5
6
7
8
9
10
11
12
13
C1
1
1
0
1
1
0
0
0
0
0
0
0
0
C2
0
0
0
0
0
1
1
0
0
1
1
1
1
C3
0
0
1
0
0
0
0
1
1
0
0
0
0
Kelompok data 1
Langkah 5. Penentuan pusat cluster baru
Setelah diketahui anggota tiap-tiap cluster kemudian pusat cluster baru dihitung
berdasarkan data anggota tiap-tiap cluster sesuai dengan rumus pusat anggota cluster . Sehingga
didapatkan perhitungan sebagai berikut :
C1
C2
C3
1
2
33
521
47 1371.833
43
871
Ulangi langkah ke 3 (kedua) hingga posisi data tidak mengalami perubahan.
No
Nama Prodi
1 FISIKA
2 MATEMATIKA
3 STATISTIKA
data
tampung
2016
30
39
peminat
2015
c1
c2
c3
361
493
160.0281
28.63564
1010.976
878.8694
510.1657
378.0212
36
759
238.0189
612.9317
112.2185
4 KIMIA
5 BIOLOGI
6 TEKNIK MESIN
36
27
586
644
65.06919
123.1463
785.91
728.1077
285.086
227.5632
60
1784
1263.289
412.372
913.1583
7 TEKNIK ELEKTRO
8 TEKNIK KIMIA
48
1199
678.1659
172.8359
328.0381
48
956
9 TEKNIK FISIKA
10 TEKNIK INDUSTRI
11 TEKNIK MATERIAL
DAN METALURGI
12 TEKNIK SIPIL
13 ARSITEKTUR
45
898
435.2585
377.1909
415.8342
473.8372
85.14693
27.07397
60
39
1225
1235
704.5176
714.0252
147.4074
137.0667
354.408
364.022
45
30
1653
1135
1132.064
281.1741
782.0026
614.0073
237.4424
264.3199
Langkah selanjutnya sama dengan langkah pada nomor 4 jarak hasil perhitungan akan
dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster , jarak ini
menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.
NO
1
2
3
4
5
6
7
8
9
10
11
12
13
C1
1
1
0
1
1
0
0
0
0
0
0
0
0
C2
0
0
0
0
0
1
1
0
0
1
1
1
1
C3
0
0
1
0
0
0
0
1
1
0
0
0
0
Kelompok data 2
Keterangan: Karena kelompok data 1 dan Kelompok data 2 sudah tidak ada perbedaan maka Proses
Perulangannya di Hentikan karena proses pengclasifikasian sudah selesai.