Penerapan Metode K Means Clustering Data (1)

Penerapan Metode K-Means Clustering Datamining pada Tingkat
Persaingan SBMPTN di Program Studi ITS

Tugas : Demo Program Data Mining

Disusun sebagai salah satu syarat untuk memenuhi tugas Projek Akhir mata kuliah Data Mining.

Oleh :
Riza Nidhom Fahmi
NRP 2110157002

PROGRAM STUDI D4 LJ PJJ TEKNIK INFORMATIKA
DEPARTEMEN TEKNIK INFORMATIKA DAN KOMPUTER
POLITEKNIK ELEKTRONIKA NEGERI SURABAYA
2016

Metode K-Means Clustering digunakan dalam data mining untuk mengelompokan datadata kedalam cluster atau beberapa kelompok berdasarkan suatu kemiripan variabel atau atribut
data. Berikut adalah contoh data yang saya Gunakan:

NO


Nama Prodi

FISIKA
MATEMATIKA
STATISTIKA
KIMIA
BIOLOGI
TEKNIK MESIN
TEKNIK ELEKTRO
TEKNIK KIMIA
TEKNIK FISIKA
TEKNIK INDUSTRI
TEKNIK MATERIAL DAN
METALURGI
12 TEKNIK SIPIL
13 ARSITEKTUR

1
2
3

4
5
6
7
8
9
10
11

data tampung 2016

peminat
2015

30
39
36
36
27
60

48
48
45
60
39

361
493
759
586
644
1.784
1.199
956
898
1.225
1.235

45
30


1.653
1.135

Berdasarkan data diatas saya ingin mengelompokkan Tingkat Persaingan yang ada di Program
Studi ITS dengan kriteria Daya Tampung program studi dan peminat program studi tersebut.

Algoritma Metode K Means Clustering

Algoritma Flowchart Metode Klastering K Means

Langkah- Langkah perhitungannya adalah:
1. Menentukan Jumlah cluster data.
2. Tentukan titik pusat cluster secara Random.
3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster
4. kelompokan obyek (Alokasikan masing-masing data ke centroid/rata-rata terdekat)
5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai
centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada
objective function yang digunakan di atas nilai threshold yang ditentukan
Distance space digunakan untuk menghitung jarak antara data dan centroid. Adapun

persamaan yang dapat digunakan salah satunya yaitu Euclidean Distance Space. Euclidean
distance space sering digunakan dalam perhitungan jarak, hal ini dikarenakan hasil yang diperoleh

merupakan jarak terpendek antara dua titik yang diperhitungkan. Adapun persamaannya adalah
sebagai berikut :

dimana :
dij = Jarak objek antara objek i dan j
P = Dimensi data
Xik
= Koordinat dari obyek i pada dimensi k
Xjk
= Koordinat dari obyek j pada dimensi k

Dalam tahap ini akan dijelaskan langkah-langkah pengoperasian algoritma K-Means secara
manual:
Langkah 1. Menentukan Jumlah Claster.
Diketahui:
Jumlah Cluster = 3,
jumlah data

= 13,
jumlah atribut = 2

NO

Nama Prodi

FISIKA
MATEMATIKA
STATISTIKA
KIMIA
BIOLOGI
TEKNIK MESIN
TEKNIK ELEKTRO
TEKNIK KIMIA
TEKNIK FISIKA
TEKNIK INDUSTRI
TEKNIK MATERIAL DAN
METALURGI
12 TEKNIK SIPIL

13 ARSITEKTUR

1
2
3
4
5
6
7
8
9
10
11

data tampung 2016 peminat 2015
30
39
36
36
27

60
48
48
45
60
39

361
493
759
586
644
1.784
1.199
956
898
1.225
1.235

45

30

1.653
1.135

Langkah 2. Tentukan Titik Pusat Cluster Secara Random.
Di ambil data random sebagai pusat cluster ke-1
Di ambil data random sebagai pusat cluster ke-2
Di ambil data random sebagai pusat cluster ke-3

30
27
45

586
1199
759

Langkah 3. Perhitungan Jarak Pusat Cluster
Untuk mengukur jarak antara dengan pusat Cluster digunakan Euclidian Distance, kemudian

akan didapatkan matriks jarak yaitu C1, C2 dan C3 sebagai berikut:
Berikut perhitungannya dengan menggunakan persamaan Euclidean Distance Space :
- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster pertama.
C1= SQRT((30-30)^2+(361-586)^2)=225
- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster ke-dua.
C2= SQRT((30-27)^2+(361-1199)^2)= 838.0054
- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster ke-tiga.
C3= SQRT((30-45)^2+(361-759)^2)= 398.2826
Adapun hasil dari perhitungan dari keseluruhan data terhadap tiap pusat cluster awal disajikan
pada tabel berikut
NO

Nama Prodi

1
2
3
4
5
6

7
8
9
10
11

FISIKA
MATEMATIKA
STATISTIKA
KIMIA
BIOLOGI
TEKNIK MESIN
TEKNIK ELEKTRO
TEKNIK KIMIA
TEKNIK FISIKA
TEKNIK INDUSTRI
TEKNIK
MATERIAL DAN
METALURGI
TEKNIK SIPIL
ARSITEKTUR

12
13

data
tampung
2016
30
39
36
36
27
60
48
48
45
60
39

45
30

peminat
2015

C1

C2

C3

Jarak
Terpendek

361
493
759
586
644
1.784
1.199
956
898
1.225
1.235

225
93.43447
173.104
6
58.07753
1198.376
613.2642
370.4376
312.3604
639.7038

838.0054
706.0255
441.0215
613.3974
555.6564
588.0689
48
247.6954
304.3452
65.39113

398.2826
266.0677
9
173.2339
116.4002
1025.11
440.0102
197.0228
139
466.2414

225
93.43447
9
6
58.07753
588.0689
48
197.0228
139
65.39113

1.653
1.135

649.0624 53.07542 476.0378
1067.105 456.2247
894
549 70.68239 376.2991

53.07542
456.2247
70.68239

Langkah 4. Pengelompokan Data
Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan
pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan
pusat cluster terdekat.
Berikut ini akan ditampilkan data matriks pengelompokkan group, nilai 1 berarti data tersebut
berada dalam group(kelompok data).
NO
1
2
3
4
5
6
7
8
9
10
11
12
13

C1
1
1
0
1
1
0
0
0
0
0
0
0
0

C2
0
0
0
0
0
1
1
0
0
1
1
1
1

C3
0
0
1
0
0
0
0
1
1
0
0
0
0

Kelompok data 1

Langkah 5. Penentuan pusat cluster baru
Setelah diketahui anggota tiap-tiap cluster kemudian pusat cluster baru dihitung
berdasarkan data anggota tiap-tiap cluster sesuai dengan rumus pusat anggota cluster . Sehingga
didapatkan perhitungan sebagai berikut :
C1
C2
C3

1
2
33
521
47 1371.833
43
871

Ulangi langkah ke 3 (kedua) hingga posisi data tidak mengalami perubahan.
No

Nama Prodi

1 FISIKA
2 MATEMATIKA
3 STATISTIKA

data
tampung
2016
30
39

peminat
2015

c1

c2

c3

361
493

160.0281
28.63564

1010.976
878.8694

510.1657
378.0212

36

759

238.0189

612.9317

112.2185

4 KIMIA
5 BIOLOGI
6 TEKNIK MESIN

36
27

586
644

65.06919
123.1463

785.91
728.1077

285.086
227.5632

60

1784

1263.289

412.372

913.1583

7 TEKNIK ELEKTRO
8 TEKNIK KIMIA

48

1199

678.1659

172.8359

328.0381

48

956

9 TEKNIK FISIKA
10 TEKNIK INDUSTRI
11 TEKNIK MATERIAL
DAN METALURGI
12 TEKNIK SIPIL
13 ARSITEKTUR

45

898

435.2585
377.1909

415.8342
473.8372

85.14693
27.07397

60
39

1225
1235

704.5176
714.0252

147.4074
137.0667

354.408
364.022

45
30

1653
1135

1132.064

281.1741

782.0026

614.0073

237.4424

264.3199

Langkah selanjutnya sama dengan langkah pada nomor 4 jarak hasil perhitungan akan
dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster , jarak ini
menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.
NO
1
2
3
4
5
6
7
8
9
10
11
12
13

C1
1
1
0
1
1
0
0
0
0
0
0
0
0

C2
0
0
0
0
0
1
1
0
0
1
1
1
1

C3
0
0
1
0
0
0
0
1
1
0
0
0
0

Kelompok data 2

Keterangan: Karena kelompok data 1 dan Kelompok data 2 sudah tidak ada perbedaan maka Proses
Perulangannya di Hentikan karena proses pengclasifikasian sudah selesai.