DATA MINING PENERAPAN K-MEANS ALGORITM CLUSTERING
LAPORAN TUGAS DATA MINING
PENERAPAN K-MEANS ALGORITM CLUSTERING
PADA DATA PRODUKSI GARAM SETIAP PROVINSI DI INDONESIA
Disusun Oleh :
Yogi Anggara
[1500018073]
Rynto E. S.
[1500018074]
Ridho Febrian
[1500018083]
Mayang Notri.S
[1500018102]
Vita Silvia
[1500018114]
Indriyanto A. P
[1500018118]
Prodi Teknik Informatika
Fakultas Teknologi Industri
Universitas Ahmad Dahlan
Yogyakarta
2017
Latar Belakang
garam adalah salah satu bahan poko dalam masakkan. Indonesia salah satu produksen garam yang masih terbatas
produksinya di karenakkan asih menggunakkan cara tradisional dalam produksinya, yaitu dengan cara penyinaran
sinar matahari. Produksi garam di Indonesia ini hanya mampu memenuhi kebutuhan garam dalam negeri, in juga
salah satu dampak dari masih tradisionalnya cara produksi garam. Bahkan pada waktu-waktu sebelumnya di
Indonesia di katakkan sedang krisis garam, sehingga pemerintah meimpor garam dari Australia untuk memenuhi
kebutuhan garam di Indonesia. Dengan adanya keputusan tersebut berdampak pada harga garam local yang bisa
merugikan petani garam di Indonesia.
Dengan adanya data set ini kami bisa menghitung dan memperkirakkan dengan luas lahan,
tingkat produktifitas
dapat mengetahui seberapa banyak garam yang bisa di produksi. Sehingga data set ini bisa jadi acuhan
pemerintahan untuk mengembangkan system pembuatan garam dan impor garam luar negeri yang bisa membebani
ptani garam.
Tujuan
Dengan menghitungan data set “Data Produksi Garam Setiap Provinsi Di Indonesia Menggunakkan K-Means
Algoritm Clustering” :
1. Untuk mengetahui tingkat produktivitas pembuatan garam di setiap daerah
2. Untuk mengetahui tingkat produksi garam di setiap daerah
3. Untuk medapatkkan data yang telah dikelompokkan sehingga dapat menghasilkan informasi
4. Menjadikan acuhan pemerintah untuk menyikapi krisis garam di indonesia
Dasar teori
K-Means
K-Means adalah suatu metode penganalisaan data atau metode Data Mining yang melakukan proses pemodelan
tanpa supervisi (unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan data dengan
sistem partisi. Metode k-means berusaha mengelompokkan data yang ada ke dalam beberapa kelompok, dimana
data dalam satu kelompok mempunyai karakteristik yang sama satu sama lainnya dan mempunyai karakteristik
yang berbeda dengan data yang ada di dalam kelompok yang lain. Dengan kata lain, metode ini berusaha untuk
meminimalkan variasi antar data yang ada di dalam suatu cluster dan memaksimalkan variasi dengan data yang ada
di cluster lainnya.
CLustering
Clustering atau klasterisasi adalah metode pengelompokan data. Menurut Tan, 2006 clusteringadalah sebuah
proses untuk mengelompokan data ke dalam beberapa cluster atau kelompok sehingga data dalam
satu cluster memiliki tingkat kemiripan yang maksimum dan data antarcluster memiliki kemiripan yang minimum.
Clustering merupakan
proses
partisi
satu set objek
data
ke
dalam
himpunan
bagian
yang
disebut
dengan cluster. Objek yang di dalam cluster memiliki kemiripan karakteristik antar satu sama lainnya dan berbeda
dengan cluster yang lain. Partisi tidak dilakukan secara manual melainkan dengan suatu algoritma clustering. Oleh
karena itu, clustering sangat berguna dan bisa menemukan group atau kelompokyang tidak dikenal dalam
data. Clustering banyak digunakan dalam berbagai aplikasi seperti misalnya pada business inteligence, pengenalan
pola
citra,
web
search, bidang
inteligence, clusteringbisa
ilmu
mengatur
biologi,
dan
untuk
banyak customer ke
keamanan
dalam
(security).
banyaknya
Di
dalam business
kelompok.
Contohnya
mengelompokan customer ke dalam beberapa cluster dengan kesamaan karakteristik yang kuat. Clustering juga
dikenal sebagai data segmentasi karena clustering mempartisi banyak data set ke dalam banyak group berdasarkan
kesamaannya. Selain itu clustering juga bisa sebagai outlier detection.
Data Produksi Garam
Terdapat 415 data dengan 8 atribut :
1. Id
: varchar 5 auto increatmen
2. Kabupaten
: varchar 25
3. Nama provinsi
: varchar 25
4. Param garam
: varchar 15
5. Tahun
: date
6. Luas lahan
: int 15
7. Produksi
: int 15
8. Produktivitas
: int 15
Data produksi garam setelah di filter
Data yang telah di clastering, yang awal 415 menjadi 351 data yang telah di filter, dengan 8 atribut :
1. Id
: varchar 5 auto increatmen
2. Kabupaten
: varchar 25
3. Nama provinsi
: varchar 25
4. Param garam
: varchar 15
5. Tahun
: date
6. Luas lahan
: int 15
7. Produksi
: int 15
8. Produktivitas
: int 15
Penerapan dalam aplikasi anaconda
A.
Melakukan Import Library yang akan digunakan untuk clustering
B. Melakukan Import data excel alumni kedalam python
Gambar 1 : hasil dari import data produksi garam, dengan jumlah data 415
C. Seleksi kolom dari data frame yang akan dilakukan clustering keseluruhan
Gambar 2 : setting untuk mengatur berapa banyak kolom dan baris yang di gunakkan,
Serta pemberian nama kolom. Terdapat fungsi untuk menghapus data yang none.
D. Check kembali hasil formating data table apakah sudah sesuai
Gambar 3: pada gambar tersebut dapat di ketahu bahwa type data produksi dan produktivitas harus di
ubah ke float.
E. Merubah type data obyek ke float pada data produksi dan produktivitas
Gambar 4 : hasil dari perubahan
F. Cek kembali type data
Gambar 5 : data telah berubah dari objek ke float
G. Ubah index dataframe agar lebih memudahkan dalam melakukan clustering.
Gambar 6 : .reset_index(drop= True) merupakan reset index pada dataframe
H. Ambil data PRODUKSI dan PRODUKTIVITAS untuk dilakukan cluster.
Gambar 7 : .as_matrix() merupakan konversi dataframe ke format matrix. Terbentuk matrik-matrik
I. Proses clustering, clustering akan dilakukan pada data alumni dengan 2 jumlah feature
diantaranya IPK dan MASA STUDI. Jumlah cluster yang ditentukan adalah 3. Dengan ploting
graph 2 dimensi, dikarenakan menggunakan 2 jumlah feature. Perintah dapat dilihat sebagai
berikut.
Gambar 8 : terbetuk 340 koordinat, dengan 3 claster : claster 0= 280, claster 1 = 19, claster 2 = 41
Gamabar 9 : merupakan graf dari data Produksi Garam
Uji Coba Secara Manual
ID
Kabupaten
26 BIMA
27 SUMBAWA
28 KOTA
BIMA
29 LOMBOK
TIMUR
30 LOMBOK
BARAT
NamaProvinsi
Nusa Tenggara
Barat
Nusa Tenggara
Barat
Nusa Tenggara
Barat
Nusa Tenggara
Barat
Nusa Tenggara
Barat
ParamGara
m
PUGAR
Tahu
n
2011
LuasLaha
n
130.1
Produksi
10277.9
Produktivita
s
79
PUGAR
2011
34.86
2719.08
78
PUGAR
2011
26.3
1972.5
75
PUGAR
2011
47.17
3584.92
76
PUGAR
2011
60
1320
22
Gambar: contoh data dari data produksi garam di ambil 5 sempel data untuk di hitung
Langkah pertama algoritma K-means Menanyakan kepada pemakai algoritma k-means,
catatan-catatan
yang
ada
akan
dibuat
menjadi
berapa
kelompok.
Jika
diambil
pengkelompokannya dengan jumlah tiga, nilai k-nya adalah 3 atau k=3
Kabupaten
BIMA
SUMBAWA
KOTA BIMA
LOMBOK TIMUR
LOMBOK BARAT
Produksi
10277.9
2719.08
1972.5
3584.92
1320
Produktivitas
79
78
75
76
22
Gambar : table yang telah di kelompokkan
Langkah Kedua algoritma K-Means
Pada langkah kedua algoritma ini, kita akan secara sembarang memilih k=3 buah titik pusat
(dari 5 data yang ada) sebagai pusat-pusat kelompok awal, misalnya:
a. Catatan B sebagai pusat kelompok 1 sehingga m1 = (2719.08 , 78),
b. Catatan C sebagai pusat kelompok 2 sehingga m2 = (1972.50 , 75),
c. Catatan E sebagai pusat kelompok 3 sehingga m3 = (1320
Kabupaten
A
B
C
D
E
Produksi
10277.9
2719.08
1972.5
3584.92
1320
Produktivitas
79
78
75
76
22
, 22),
M1
M2
M3
Gambar: yang telah di symbol data kabupaten, untuk mempermudah perhitungan
Catetan :
A : Bima
B : Sumbawa
C : Kota Bima
D : Lombok Timur
E : Lombok Barat
Perhitungan rasio ke-1
Langkah Ketiga algoritma K-Means kelompok
Pada langkah ini setiap data akan ditentukan pusat kelompok terdekatnya. Data tersebut akan ditetapkan
sebagai anggota kelompok yang terdekat pusat kelompoknya menggunakan rumus sebagai berikut:
Kabupaten
Produksi
Produktivitas
A
B
C
D
E
10277.9
2719.08
1972.5
3584.92
1320
79
78
75
76
22
Contoh penghitungan:
a.
A1 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m1 (2719.08 , 78)
√
A1 = d (x,y) =√
√
b. A2 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m2 (1972.50 , 75)
√
A2 = d (x,y) =√
√
a. A3 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m3 (1320
√
A3 = d (x,y) =√
, 22)
√
Untuk penghitungan B1 sampai E3 dilakukan langkah yang sama seperti di atas. Dan Menghasilkan seperti yang
tampak dalam table dibawah ini:
Data
Kabupaten
Jarak Ke Pusat
M1 (2719.08 , 78)
Jarak Ke Pusat
M2(1972.50 , 75)
Jarak Ke Pusat
M3(1320 , 22)
A(10277.9 , 79)
A1
7558.820066
A2
8305.400963
A3
8958.081346
B(2719.08 , 78)
B1
746.5860275
B2
1400.200288
B3
2720.198531
C(1972.5 , 75)
C1
654.6489517
C2
1973.925341
C3
1973.925341
D(3584.92 , 76)
D1
3585.725506
D2
3585.725506
D3
3585.725506
E(1320, 22)
E1
1320.183321
E2
1320.183321
E3
1320.183321
Gambar : table yang jarak pusat setiap data
Untuk setiap data akan ditentukan pusat kelompok terdekatnya dengan cara membandingkan nilai jarak setiap
data dengan pusat M, dengan mencari nilai paling terkecil. Sehingga di dapatkan table dibawah ini :
Jarak ke pusat
m1 (2719.08 , 78)
A1
7558.820066
B1
0
C1
746.5860275
D1
865.8423099
E1
1400.200288
jarak ke pusat
m2(1972.50 , 75)
A2
8305.400963
B2
746.5860275
C2
0
D2
1612.42031
E2
654.6489517
jarak ke pusat
m3(1320 , 22)
A3
8958.081346
B3
1400.200288
C3
650.3439475
D3
2265.56364
E3
0
Jarak terdekat
ke kelompok
m1
m1
m2
m1
m3
Dari table 2 didapatkan keanggotaan sebagai berikut:
a. Kelompok 1 (atau m1) ={A, B, D}
b. Kelompok 2 (atau m2) = {C}, dan
c. Kelompok 3 (atau m3) = {E}.
Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation (BCV) dengan Within
Cluster Variation (WCV), seperti berikut:
a. Rumus untuk menghitung Between Cluster Variation (BCV) sebagai berikut:
∑
Dimana i dan j adalah pusat kelompok. Karena pusat kelompok ada 3 dan d(mi,mj)
Menyatakan jarak Euclidean dari mi ke mj, Maka penyelesaian BCV menjadi sebagai berikut:
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
Dengan m1 (2719.08 , 78), m2(1972.50 , 75), dan m3(1320 , 22), sehingga :
d (m1, m2) = √
d (m1, m3) = √
d (m2, m3) = √
√
√
√
√
√
√
Sehingga didapatkan hasil sebagai berikut :
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
BCV = 746.5860275 + 1400.200288 + 654.6489517 = 2801.435267
1400.200288
b. Rumus untuk menghitung Within Cluster Variation (WCV) sebagai berikut:
∑
Jarak ke pusat
m1 (2719.08 , 78)
A1
7558.820066
B1
0
C1
746.5860275
D1
865.8423099
E1
1400.200288
jarak ke pusat
m2(1972.50 , 75)
A2
8305.400963
B2
746.5860275
C2
0
D2
1612.42031
E2
654.6489517
jarak ke pusat
m3(1320 , 22)
A3
8958.081346
B3
1400.200288
C3
650.3439475
D3
2265.56364
E3
0
Jarak terdekat
ke kelompok
m1
m1
m2
m1
m3
Dari table di atas didapatkan
Jarak terkecil A = 7558.820066
Jarak terkecil B = 0
Jarak terkecil C = 0
Jarak terkecil D = 865.8423099
Jarak terkecil E = 0
Sehingga didapatkan hasil sebagai berikut :
WCV = 7558.820066 + 0 + 0 + 865.8423099 + 0 = 8424.662376
Sehingga besarnya rasio adalah
= 0.332527897
Mengingat langkah sebelumnya belum mendapatkan rasio ini, maka perbandingan rasio belum dapat
dilakukan dan algoritma dilanjutkan ke langkah ke empat.
Perhitungan Rasio Ke-2
Langkah keempat Algoritma K-means (iterasi ke1)
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
Jarak ke pusat
m1 (2719.08 , 78)
A1
7558.820066
B1
0
C1
746.5860275
D1
865.8423099
E1
1400.200288
jarak ke pusat
m3(1320 , 22)
A3
8958.081346
B3
1400.200288
C3
650.3439475
D3
2265.56364
E3
0
jarak ke pusat
m2(1972.50 , 75)
A2
8305.400963
B2
746.5860275
C2
0
D2
1612.42031
E2
654.6489517
berikut:
Jarak terdekat
ke kelompok
m1
m1
m2
m1
m3
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
berikut:
5527.3 , 77.66666667)
a) m1 = rata-rata(mA, mB, mD)
=
b) m2 = rata-rata(mC)
= (1972.5 , 75)
c) m3 = rata-rata(mE)
= (1320, 22)
selanjutnya, kita akan kembali ke langkah 3 untuk mencari pembadingan
Langkah ketiga Algoritma K-Means (iterasi-2)
A. Pada langkah ini setiap nasabah akan ditentukan pusat kelompok terdekatnya. Nasabah tersebut
akan ditetapkan sebagai anggota kelompok yang terdekat pusat kelompok yang baru (cara
seperti langkah 3 diatas)
.
Contoh penghitungan:
a) A1 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m1 5527.3 , 77.66666667)
√
A1 = d (x,y) =√
√
b) A2 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m2 (1972.5 , 75)
√
A2 = d (x,y) =√
√
c) A3 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m3 (1320
√
A3 = d (x,y) =√
Jarak ke pusat
m1 5527.3 , 77.66666667)
A1
B1
C1
D1
E1
4750.600187
2808.22002
3554.801
1942.380715
4207.668246
jarak ke pusat
m2(1972.50 , 75)
, 22)
√
jarak ke pusat
m3(1320 , 22)
A2
A3
8305.400963
8958.081346
B2
B3
746.5860275
1400.200288
C2
C3
0
650.3439475
D2
D3
1612.42031
2265.56364
E2
E3
654.6489517
0
Gambar : table jarak terdekat yang baru,
Jarak terdekat ke
kelompok
m1
m2
m2
m2
m3
Dari table diatas didapatkan keanggotaan sebagai berikut:
a. Kelompok 1 (atau m1) ={A}
b. Kelompok 2 (atau m2) = {B, C, D}, dan
c. Kelompok 3 (atau m3) = {E}.
Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation (BCV) dengan within Cluster
Variation (WCV), seperti berikut:
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
Dengan m1 5527.3 , 77.66666667), m2(1972.50 , 75), dan m3(1320 , 22), sehingga :
d (m1, m2) = √
√
d (m1, m3) =√
√
d (m2, m3)=√
Jarak ke pusat
m1 5527.3 , 77.66666667)
A1
B1
C1
D1
E1
4750.600187
2808.22002
3554.801
1942.380715
4207.668246
√(
jarak ke pusat
m2(1972.50 , 75)
A2
B2
C2
D2
E2
√
√(
√
)
(
(
)
Jarak terdekat ke
kelompok
8958.081346
1400.200288
650.3439475
2265.56364
0
Sehingga didapatkan hasil sebagai berikut :
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
BCV = 3554.801 + 4207.668246 + 654.6489517 = 8417.118198
B. Besar Rasio 2
WCV = 4750.600187 + 746.5860275 + 0 + 1612.42031 + 0 = 7109.606525
Sehingga besarnya rasio adalah
=
)
√
jarak ke pusat
m3(1320 , 22)
A3
B3
C3
D3
E3
8305.400963
746.5860275
0
1612.42031
654.6489517
)
= 1.183907741
m1
m2
m2
m2
m3
Perhitungan Rasio Ke-3
Langkah keempat Algoritma K-means (iterasi ke1)
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
Jarak ke pusat
m1 5527.3 , 77.66666667)
A1
B1
C1
D1
E1
4750.600187
2808.22002
3554.801
1942.380715
4207.668246
jarak ke pusat
m2(1972.50 , 75)
A2
B2
C2
D2
E2
jarak ke pusat
m3(1320 , 22)
8305.400963
746.5860275
0
1612.42031
654.6489517
A3
B3
C3
D3
E3
Jarak terdekat ke
kelompok
8958.081346
1400.200288
650.3439475
2265.56364
0
m1
m2
m2
m2
m3
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
m1 = rata-rata(mA)
= (10277.9, 79)
m2 = rata-rata(, mB, mC , mD)
=
m3 = rata-rata(mE)
= (1320, 22)
berikut:
berikut:
Langkah ketiga Algoritma K-Means (iterasi-2)
Pada langkah ini setiap nasabah akan ditentukan pusat kelompok terdekatnya. Nasabah tersebut
akan ditetapkan sebagai anggota kelompok yang terdekat pusat kelompok yang baru (cara
seperti langkah 3 diatas)
.
Contoh penghitungan:
a)
A1 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m1 (10277.9, 79)
√
A1 = d (x,y)=√
b)
A2 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m2 (2758.833333
√
A2 = d (x,y)=√
c)
A3 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m3 (1320
√
A3 = d (x,y)=√
Jarak ke pusat
m1(10277.9, 79)
, 76.33333333)
, 22)
√
jarak ke pusat
m3(1320 , 22)
jarak ke pusat
m2(2758.833333 , 76.33333333)
Jarak terdekat ke
kelompok
A1
0
A2
7519.06714
A3
8958.081346
m1
B1
7558.820066
B2
39.78825567
B3
1400.200288
m2
C1
8305.400963
C2
786.3344638
C3
654.6489517
m3
D1
6692.980672
D2
826.0867339
D3
2265.56364
m2
E1
8958.081346
E2
E3
1439.858838
Gambar : table jarak terdekat yang baru,
0
m3
Dari table diatas didapatkan keanggotaan sebagai berikut:
a) Kelompok 1 (atau m1) ={A}
b) Kelompok 2 (atau m2) = {B, D}, dan
c) Kelompok 3 (atau m3) = { C, E}.
Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation (BCV) dengan within
Cluster Variation (WCV), seperti berikut:
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
Dengan m1 (10277.9, 79), m2(2758.833333
,76.33333333) dan m3(1320 , 22), sehingga :
d (m1, m2) =√
√
d (m1, m3) =√
√
d (m2, m3) =√
√
Jarak ke pusat
m1(10277.9, 79)
jarak ke pusat
m2(2758.833333 , 76.33333333)
jarak ke pusat
m3(1320 , 22)
Jarak terdekat ke
kelompok
A1
0
A2
7519.06714
A3
8958.081346
m1
B1
7558.820066
B2
39.78825567
B3
1400.200288
m2
C1
8305.400963
C2
786.3344638
C3
654.6489517
m3
D1
6692.980672
D2
826.0867339
D3
2265.56364
m2
E1
8958.081346
E2
1439.858838
E3
0
m3
Sehingga didapatkan hasil sebagai berikut :
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
BCV = 7519.06714 + 8958.081346 + 1439.858838 = 17917.00732
C. Besar Rasio 3
WCV = 0 + 39.78825567+ 654.6489517 + 826.0867339+ 0 = 1520.523941
Sehingga besarnya rasio adalah
=
= 11.78344309
Perhitungan Rasio Ke-4
Langkah keempat Algoritma K-means (iterasi ke1)
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
Jarak ke pusat
m1(10277.9, 79)
A1
B1
C1
D1
E1
jarak ke pusat
m3(1320 , 22)
jarak ke pusat
m2(2758.833333 , 76.33333333)
A2
B2
C2
D2
E2
0
7558.820066
8305.400963
6692.980672
8958.081346
A3
B3
C3
D3
E3
7519.06714
39.78825567
786.3344638
826.0867339
1439.858838
berikut:
Jarak terdekat ke
kelompok
8958.081346
1400.200288
m1
m2
654.6489517
2265.56364
m3
m2
0
m3
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
m1 = rata-rata(mA)
= (10277.9, 79)
m2 = rata-rata(mB , mD)
=
m3 = rata-rata(mC , mE)
=
berikut:
Langkah ketiga Algoritma K-Means (iterasi-2)
Pada langkah ini setiap nasabah akan ditentukan pusat kelompok terdekatnya. Nasabah tersebut
akan ditetapkan sebagai anggota kelompok yang terdekat pusat kelompok yang baru (cara
seperti langkah 3 diatas)
.
Contoh penghitungan:
a)
A1 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m1 (10277.9, 79)
√
A1 = d (x,y)=√
b)
A2 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m2 (3152 , 77)
√
A2 = d (x,y)=√
c)
A3 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m3 (1646.25 , 48.5)
A3 = d (x,y)=√
Jarak ke pusat
m1(10277.9 , 79)
jarak ke pusat
m2(3152 , 77)
√
jarak ke pusat
m3(1646.25 , 48.5)
Jarak terdekat ke kelompok
A1
0
A2
7125.900281
A3
8631.703886
m1
B1
7558.820066
B2
432.9211549
B3
1073.23551
m2
C1
8305.400963
C2
1179.501696
C3
327.3244759
m3
D1
6692.980672
D2
432.9211549
D3
1938.865034
m2
E1
8958.081346
E2
E3
1832.825414
327.3244759
Gambar : table jarak terdekat yang baru,
m3
Dari table diatas didapatkan keanggotaan sebagai berikut:
d) Kelompok 1 (atau m1) ={A}
e) Kelompok 2 (atau m2) = {B, D}, dan
f) Kelompok 3 (atau m3) = { C, E}.
Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation (BCV) dengan within
Cluster Variation (WCV), seperti berikut:
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
Dengan m1 (10277.9, 79), m2(3152 ,77) dan m3(1646.25 , 48.5)sehingga :
d (m1, m2) =√
√
d (m1, m3) =√
√
d (m2, m3) =√
√
Jarak ke pusat
m1(10277.9 , 79)
A1
B1
C1
D1
E1
jarak ke pusat
m3(1646.25 , 48.5)
jarak ke pusat
m2(3152 , 77)
0
7558.820066
8305.400963
6692.980672
8958.081346
A2
7125.900281
B2
432.9211549
C2
1179.501696
D2
432.9211549
E2
1832.825414
A3
B3
C3
D3
E3
Jarak terdekat ke
kelompok
8631.703886
m1
1073.23551
m2
327.3244759
m3
1938.865034
m2
327.3244759
m3
Sehingga didapatkan hasil sebagai berikut :
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
BCV = 7125.900281 + 8631.703886 + 1506.019692 = 17263.62386
Besar Rasio 4
WCV = 0 + 432.9211549 + 327.3244759 + 432.9211549 + 327.3244759 = 1520.491262
Sehingga besarnya rasio adalah
=
= 11.35397769
Perhitungan Rasio Ke-5
Langkah keempat Algoritma K-means (iterasi ke1)
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
Jarak ke pusat
m1(10277.9, 79)
A1
B1
C1
D1
E1
jarak ke pusat
m3(1320 , 22)
jarak ke pusat
m2(2758.833333 , 76.33333333)
A2
B2
C2
D2
E2
0
7558.820066
8305.400963
6692.980672
8958.081346
A3
B3
C3
D3
E3
7519.06714
39.78825567
786.3344638
826.0867339
1439.858838
berikut:
Jarak terdekat ke
kelompok
8958.081346
1400.200288
m1
m2
654.6489517
2265.56364
m3
m2
0
m3
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
m1 = rata-rata(mA)
= (10277.9, 79)
m2 = rata-rata(mB , mD)
=
m3 = rata-rata(mC , mE)
=
berikut:
Langkah ketiga Algoritma K-Means (iterasi-2)
Pada langkah ini setiap nasabah akan ditentukan pusat kelompok terdekatnya. Nasabah tersebut
akan ditetapkan sebagai anggota kelompok yang terdekat pusat kelompok yang baru (cara
seperti langkah 3 diatas)
.
Contoh penghitungan:
d)
A1 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m1 (10277.9, 79)
√
A1 = d (x,y)=√
e)
A2 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m2 (3152 , 77)
√
A2 = d (x,y)=√
f)
A3 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m3 (1646.25 , 48.5)
A3 = d (x,y)=√
Jarak ke pusat
m1(10277.9 , 79)
jarak ke pusat
m2(3152 , 77)
√
jarak ke pusat
m3(1646.25 , 48.5)
Jarak terdekat ke kelompok
A1
0
A2
7125.900281
A3
8631.703886
m1
B1
7558.820066
B2
432.9211549
B3
1073.23551
m2
C1
8305.400963
C2
1179.501696
C3
327.3244759
m3
D1
6692.980672
D2
432.9211549
D3
1938.865034
m2
E1
8958.081346
E2
E3
1832.825414
327.3244759
Gambar : table jarak terdekat yang baru,
m3
Dari table diatas didapatkan keanggotaan sebagai berikut:
g) Kelompok 1 (atau m1) ={A}
h) Kelompok 2 (atau m2) = {B, D}, dan
i) Kelompok 3 (atau m3) = { C, E}.
Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation (BCV) dengan within
Cluster Variation (WCV), seperti berikut:
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
Dengan m1 (10277.9, 79), m2(3152 ,77) dan m3(1646.25 , 48.5)sehingga :
d (m1, m2) =√
√
d (m1, m3) =√
√
d (m2, m3) =√
√
Jarak ke pusat
m1(10277.9 , 79)
A1
B1
C1
D1
E1
jarak ke pusat
m3(1646.25 , 48.5)
jarak ke pusat
m2(3152 , 77)
0
7558.820066
8305.400963
6692.980672
8958.081346
A2
7125.900281
B2
432.9211549
C2
1179.501696
D2
432.9211549
E2
1832.825414
A3
B3
C3
D3
E3
Jarak terdekat ke
kelompok
8631.703886
m1
1073.23551
m2
327.3244759
m3
1938.865034
m2
327.3244759
m3
Sehingga didapatkan hasil sebagai berikut :
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
BCV = 7125.900281 + 8631.703886 + 1506.019692 = 17263.62386
Besar Rasio 5
WCV = 0 + 432.9211549 + 327.3244759 + 432.9211549 + 327.3244759 = 1520.491262
Sehingga besarnya rasio adalah
=
=11.35397769
Perhitungan Rasio Ke-6
Langkah keempat Algoritma K-means (iterasi ke1)
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
Jarak ke pusat
m1(10277.9, 79)
A1
B1
C1
D1
E1
jarak ke pusat
m3(1320 , 22)
jarak ke pusat
m2(2758.833333 , 76.33333333)
A2
B2
C2
D2
E2
0
7558.820066
8305.400963
6692.980672
8958.081346
A3
B3
C3
D3
E3
7519.06714
39.78825567
786.3344638
826.0867339
1439.858838
berikut:
Jarak terdekat ke
kelompok
8958.081346
1400.200288
m1
m2
654.6489517
2265.56364
m3
m2
0
m3
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
m1 = rata-rata(mA)
= (10277.9, 79)
m2 = rata-rata(mB , mD)
=
m3 = rata-rata(mC , mE)
=
berikut:
Langkah ketiga Algoritma K-Means (iterasi-2)
Pada langkah ini setiap nasabah akan ditentukan pusat kelompok terdekatnya. Nasabah tersebut
akan ditetapkan sebagai anggota kelompok yang terdekat pusat kelompok yang baru (cara
seperti langkah 3 diatas)
.
Contoh penghitungan:
g)
A1 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m1 (10277.9, 79)
√
A1 = d (x,y)=√
h)
A2 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m2 (3152 , 77)
√
A2 = d (x,y)=√
i)
A3 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m3 (1646.25 , 48.5)
A3 = d (x,y)=√
Jarak ke pusat
m1(10277.9 , 79)
jarak ke pusat
m2(3152 , 77)
√
jarak ke pusat
m3(1646.25 , 48.5)
Jarak terdekat ke kelompok
A1
0
A2
7125.900281
A3
8631.703886
m1
B1
7558.820066
B2
432.9211549
B3
1073.23551
m2
C1
8305.400963
C2
1179.501696
C3
327.3244759
m3
D1
6692.980672
D2
432.9211549
D3
1938.865034
m2
E1
8958.081346
E2
E3
1832.825414
327.3244759
Gambar : table jarak terdekat yang baru,
m3
Dari table diatas didapatkan keanggotaan sebagai berikut:
j) Kelompok 1 (atau m1) ={A}
k) Kelompok 2 (atau m2) = {B, D}, dan
l) Kelompok 3 (atau m3) = { C, E}.
Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation (BCV) dengan within
Cluster Variation (WCV), seperti berikut:
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
Dengan m1 (10277.9, 79), m2(3152 ,77) dan m3(1646.25 , 48.5)sehingga :
d (m1, m2) =√
√
d (m1, m3) =√
√
d (m2, m3) =√
√
Jarak ke pusat
m1(10277.9 , 79)
A1
B1
C1
D1
E1
jarak ke pusat
m3(1646.25 , 48.5)
jarak ke pusat
m2(3152 , 77)
0
7558.820066
8305.400963
6692.980672
8958.081346
A2
7125.900281
B2
432.9211549
C2
1179.501696
D2
432.9211549
E2
1832.825414
A3
B3
C3
D3
E3
Jarak terdekat ke
kelompok
8631.703886
m1
1073.23551
m2
327.3244759
m3
1938.865034
m2
327.3244759
m3
Sehingga didapatkan hasil sebagai berikut :
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
BCV = 7125.900281 + 8631.703886 + 1506.019692 = 17263.62386
Besar Rasio 6
WCV = 0 + 432.9211549 + 327.3244759 + 432.9211549 + 327.3244759 = 1520.491262
Sehingga besarnya rasio adalah
=
=11.35397769
Kesimpulan
Jarak ke pusat
m1(10277.9 , 79)
A1
B1
C1
D1
E1
jarak ke pusat
m3(1646.25 , 48.5)
jarak ke pusat
m2(3152 , 77)
0
7558.820066
8305.400963
6692.980672
8958.081346
A2
B2
C2
D2
E2
7125.900281
432.9211549
1179.501696
432.9211549
1832.825414
A3
B3
C3
D3
E3
Jarak terdekat ke
kelompok
8631.703886
m1
1073.23551
m2
327.3244759
m3
1938.865034
m2
327.3244759
m3
Pada perhitungan ke 4, 5 , 6 memiliki nilai batas yang sama dan nilai rasio yang sama maka perhitungan di
hentikan. Sebab nilai batas telah di temukan, yaitu :
m1 = rata-rata(mA)
=C1
= (10277.9 , 79)
m2 = rata-rata(mB , mD)
=C2
= (3152 , 77)
m3 = rata-rata(mC , mE)
=C3
= (1646.25 ,48.5)
sehingga nilai batas tersebut di jadikkan sebagai acuhan data untuk menentukan pengelompokkan data setiap
claster.
PENERAPAN K-MEANS ALGORITM CLUSTERING
PADA DATA PRODUKSI GARAM SETIAP PROVINSI DI INDONESIA
Disusun Oleh :
Yogi Anggara
[1500018073]
Rynto E. S.
[1500018074]
Ridho Febrian
[1500018083]
Mayang Notri.S
[1500018102]
Vita Silvia
[1500018114]
Indriyanto A. P
[1500018118]
Prodi Teknik Informatika
Fakultas Teknologi Industri
Universitas Ahmad Dahlan
Yogyakarta
2017
Latar Belakang
garam adalah salah satu bahan poko dalam masakkan. Indonesia salah satu produksen garam yang masih terbatas
produksinya di karenakkan asih menggunakkan cara tradisional dalam produksinya, yaitu dengan cara penyinaran
sinar matahari. Produksi garam di Indonesia ini hanya mampu memenuhi kebutuhan garam dalam negeri, in juga
salah satu dampak dari masih tradisionalnya cara produksi garam. Bahkan pada waktu-waktu sebelumnya di
Indonesia di katakkan sedang krisis garam, sehingga pemerintah meimpor garam dari Australia untuk memenuhi
kebutuhan garam di Indonesia. Dengan adanya keputusan tersebut berdampak pada harga garam local yang bisa
merugikan petani garam di Indonesia.
Dengan adanya data set ini kami bisa menghitung dan memperkirakkan dengan luas lahan,
tingkat produktifitas
dapat mengetahui seberapa banyak garam yang bisa di produksi. Sehingga data set ini bisa jadi acuhan
pemerintahan untuk mengembangkan system pembuatan garam dan impor garam luar negeri yang bisa membebani
ptani garam.
Tujuan
Dengan menghitungan data set “Data Produksi Garam Setiap Provinsi Di Indonesia Menggunakkan K-Means
Algoritm Clustering” :
1. Untuk mengetahui tingkat produktivitas pembuatan garam di setiap daerah
2. Untuk mengetahui tingkat produksi garam di setiap daerah
3. Untuk medapatkkan data yang telah dikelompokkan sehingga dapat menghasilkan informasi
4. Menjadikan acuhan pemerintah untuk menyikapi krisis garam di indonesia
Dasar teori
K-Means
K-Means adalah suatu metode penganalisaan data atau metode Data Mining yang melakukan proses pemodelan
tanpa supervisi (unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan data dengan
sistem partisi. Metode k-means berusaha mengelompokkan data yang ada ke dalam beberapa kelompok, dimana
data dalam satu kelompok mempunyai karakteristik yang sama satu sama lainnya dan mempunyai karakteristik
yang berbeda dengan data yang ada di dalam kelompok yang lain. Dengan kata lain, metode ini berusaha untuk
meminimalkan variasi antar data yang ada di dalam suatu cluster dan memaksimalkan variasi dengan data yang ada
di cluster lainnya.
CLustering
Clustering atau klasterisasi adalah metode pengelompokan data. Menurut Tan, 2006 clusteringadalah sebuah
proses untuk mengelompokan data ke dalam beberapa cluster atau kelompok sehingga data dalam
satu cluster memiliki tingkat kemiripan yang maksimum dan data antarcluster memiliki kemiripan yang minimum.
Clustering merupakan
proses
partisi
satu set objek
data
ke
dalam
himpunan
bagian
yang
disebut
dengan cluster. Objek yang di dalam cluster memiliki kemiripan karakteristik antar satu sama lainnya dan berbeda
dengan cluster yang lain. Partisi tidak dilakukan secara manual melainkan dengan suatu algoritma clustering. Oleh
karena itu, clustering sangat berguna dan bisa menemukan group atau kelompokyang tidak dikenal dalam
data. Clustering banyak digunakan dalam berbagai aplikasi seperti misalnya pada business inteligence, pengenalan
pola
citra,
web
search, bidang
inteligence, clusteringbisa
ilmu
mengatur
biologi,
dan
untuk
banyak customer ke
keamanan
dalam
(security).
banyaknya
Di
dalam business
kelompok.
Contohnya
mengelompokan customer ke dalam beberapa cluster dengan kesamaan karakteristik yang kuat. Clustering juga
dikenal sebagai data segmentasi karena clustering mempartisi banyak data set ke dalam banyak group berdasarkan
kesamaannya. Selain itu clustering juga bisa sebagai outlier detection.
Data Produksi Garam
Terdapat 415 data dengan 8 atribut :
1. Id
: varchar 5 auto increatmen
2. Kabupaten
: varchar 25
3. Nama provinsi
: varchar 25
4. Param garam
: varchar 15
5. Tahun
: date
6. Luas lahan
: int 15
7. Produksi
: int 15
8. Produktivitas
: int 15
Data produksi garam setelah di filter
Data yang telah di clastering, yang awal 415 menjadi 351 data yang telah di filter, dengan 8 atribut :
1. Id
: varchar 5 auto increatmen
2. Kabupaten
: varchar 25
3. Nama provinsi
: varchar 25
4. Param garam
: varchar 15
5. Tahun
: date
6. Luas lahan
: int 15
7. Produksi
: int 15
8. Produktivitas
: int 15
Penerapan dalam aplikasi anaconda
A.
Melakukan Import Library yang akan digunakan untuk clustering
B. Melakukan Import data excel alumni kedalam python
Gambar 1 : hasil dari import data produksi garam, dengan jumlah data 415
C. Seleksi kolom dari data frame yang akan dilakukan clustering keseluruhan
Gambar 2 : setting untuk mengatur berapa banyak kolom dan baris yang di gunakkan,
Serta pemberian nama kolom. Terdapat fungsi untuk menghapus data yang none.
D. Check kembali hasil formating data table apakah sudah sesuai
Gambar 3: pada gambar tersebut dapat di ketahu bahwa type data produksi dan produktivitas harus di
ubah ke float.
E. Merubah type data obyek ke float pada data produksi dan produktivitas
Gambar 4 : hasil dari perubahan
F. Cek kembali type data
Gambar 5 : data telah berubah dari objek ke float
G. Ubah index dataframe agar lebih memudahkan dalam melakukan clustering.
Gambar 6 : .reset_index(drop= True) merupakan reset index pada dataframe
H. Ambil data PRODUKSI dan PRODUKTIVITAS untuk dilakukan cluster.
Gambar 7 : .as_matrix() merupakan konversi dataframe ke format matrix. Terbentuk matrik-matrik
I. Proses clustering, clustering akan dilakukan pada data alumni dengan 2 jumlah feature
diantaranya IPK dan MASA STUDI. Jumlah cluster yang ditentukan adalah 3. Dengan ploting
graph 2 dimensi, dikarenakan menggunakan 2 jumlah feature. Perintah dapat dilihat sebagai
berikut.
Gambar 8 : terbetuk 340 koordinat, dengan 3 claster : claster 0= 280, claster 1 = 19, claster 2 = 41
Gamabar 9 : merupakan graf dari data Produksi Garam
Uji Coba Secara Manual
ID
Kabupaten
26 BIMA
27 SUMBAWA
28 KOTA
BIMA
29 LOMBOK
TIMUR
30 LOMBOK
BARAT
NamaProvinsi
Nusa Tenggara
Barat
Nusa Tenggara
Barat
Nusa Tenggara
Barat
Nusa Tenggara
Barat
Nusa Tenggara
Barat
ParamGara
m
PUGAR
Tahu
n
2011
LuasLaha
n
130.1
Produksi
10277.9
Produktivita
s
79
PUGAR
2011
34.86
2719.08
78
PUGAR
2011
26.3
1972.5
75
PUGAR
2011
47.17
3584.92
76
PUGAR
2011
60
1320
22
Gambar: contoh data dari data produksi garam di ambil 5 sempel data untuk di hitung
Langkah pertama algoritma K-means Menanyakan kepada pemakai algoritma k-means,
catatan-catatan
yang
ada
akan
dibuat
menjadi
berapa
kelompok.
Jika
diambil
pengkelompokannya dengan jumlah tiga, nilai k-nya adalah 3 atau k=3
Kabupaten
BIMA
SUMBAWA
KOTA BIMA
LOMBOK TIMUR
LOMBOK BARAT
Produksi
10277.9
2719.08
1972.5
3584.92
1320
Produktivitas
79
78
75
76
22
Gambar : table yang telah di kelompokkan
Langkah Kedua algoritma K-Means
Pada langkah kedua algoritma ini, kita akan secara sembarang memilih k=3 buah titik pusat
(dari 5 data yang ada) sebagai pusat-pusat kelompok awal, misalnya:
a. Catatan B sebagai pusat kelompok 1 sehingga m1 = (2719.08 , 78),
b. Catatan C sebagai pusat kelompok 2 sehingga m2 = (1972.50 , 75),
c. Catatan E sebagai pusat kelompok 3 sehingga m3 = (1320
Kabupaten
A
B
C
D
E
Produksi
10277.9
2719.08
1972.5
3584.92
1320
Produktivitas
79
78
75
76
22
, 22),
M1
M2
M3
Gambar: yang telah di symbol data kabupaten, untuk mempermudah perhitungan
Catetan :
A : Bima
B : Sumbawa
C : Kota Bima
D : Lombok Timur
E : Lombok Barat
Perhitungan rasio ke-1
Langkah Ketiga algoritma K-Means kelompok
Pada langkah ini setiap data akan ditentukan pusat kelompok terdekatnya. Data tersebut akan ditetapkan
sebagai anggota kelompok yang terdekat pusat kelompoknya menggunakan rumus sebagai berikut:
Kabupaten
Produksi
Produktivitas
A
B
C
D
E
10277.9
2719.08
1972.5
3584.92
1320
79
78
75
76
22
Contoh penghitungan:
a.
A1 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m1 (2719.08 , 78)
√
A1 = d (x,y) =√
√
b. A2 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m2 (1972.50 , 75)
√
A2 = d (x,y) =√
√
a. A3 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m3 (1320
√
A3 = d (x,y) =√
, 22)
√
Untuk penghitungan B1 sampai E3 dilakukan langkah yang sama seperti di atas. Dan Menghasilkan seperti yang
tampak dalam table dibawah ini:
Data
Kabupaten
Jarak Ke Pusat
M1 (2719.08 , 78)
Jarak Ke Pusat
M2(1972.50 , 75)
Jarak Ke Pusat
M3(1320 , 22)
A(10277.9 , 79)
A1
7558.820066
A2
8305.400963
A3
8958.081346
B(2719.08 , 78)
B1
746.5860275
B2
1400.200288
B3
2720.198531
C(1972.5 , 75)
C1
654.6489517
C2
1973.925341
C3
1973.925341
D(3584.92 , 76)
D1
3585.725506
D2
3585.725506
D3
3585.725506
E(1320, 22)
E1
1320.183321
E2
1320.183321
E3
1320.183321
Gambar : table yang jarak pusat setiap data
Untuk setiap data akan ditentukan pusat kelompok terdekatnya dengan cara membandingkan nilai jarak setiap
data dengan pusat M, dengan mencari nilai paling terkecil. Sehingga di dapatkan table dibawah ini :
Jarak ke pusat
m1 (2719.08 , 78)
A1
7558.820066
B1
0
C1
746.5860275
D1
865.8423099
E1
1400.200288
jarak ke pusat
m2(1972.50 , 75)
A2
8305.400963
B2
746.5860275
C2
0
D2
1612.42031
E2
654.6489517
jarak ke pusat
m3(1320 , 22)
A3
8958.081346
B3
1400.200288
C3
650.3439475
D3
2265.56364
E3
0
Jarak terdekat
ke kelompok
m1
m1
m2
m1
m3
Dari table 2 didapatkan keanggotaan sebagai berikut:
a. Kelompok 1 (atau m1) ={A, B, D}
b. Kelompok 2 (atau m2) = {C}, dan
c. Kelompok 3 (atau m3) = {E}.
Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation (BCV) dengan Within
Cluster Variation (WCV), seperti berikut:
a. Rumus untuk menghitung Between Cluster Variation (BCV) sebagai berikut:
∑
Dimana i dan j adalah pusat kelompok. Karena pusat kelompok ada 3 dan d(mi,mj)
Menyatakan jarak Euclidean dari mi ke mj, Maka penyelesaian BCV menjadi sebagai berikut:
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
Dengan m1 (2719.08 , 78), m2(1972.50 , 75), dan m3(1320 , 22), sehingga :
d (m1, m2) = √
d (m1, m3) = √
d (m2, m3) = √
√
√
√
√
√
√
Sehingga didapatkan hasil sebagai berikut :
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
BCV = 746.5860275 + 1400.200288 + 654.6489517 = 2801.435267
1400.200288
b. Rumus untuk menghitung Within Cluster Variation (WCV) sebagai berikut:
∑
Jarak ke pusat
m1 (2719.08 , 78)
A1
7558.820066
B1
0
C1
746.5860275
D1
865.8423099
E1
1400.200288
jarak ke pusat
m2(1972.50 , 75)
A2
8305.400963
B2
746.5860275
C2
0
D2
1612.42031
E2
654.6489517
jarak ke pusat
m3(1320 , 22)
A3
8958.081346
B3
1400.200288
C3
650.3439475
D3
2265.56364
E3
0
Jarak terdekat
ke kelompok
m1
m1
m2
m1
m3
Dari table di atas didapatkan
Jarak terkecil A = 7558.820066
Jarak terkecil B = 0
Jarak terkecil C = 0
Jarak terkecil D = 865.8423099
Jarak terkecil E = 0
Sehingga didapatkan hasil sebagai berikut :
WCV = 7558.820066 + 0 + 0 + 865.8423099 + 0 = 8424.662376
Sehingga besarnya rasio adalah
= 0.332527897
Mengingat langkah sebelumnya belum mendapatkan rasio ini, maka perbandingan rasio belum dapat
dilakukan dan algoritma dilanjutkan ke langkah ke empat.
Perhitungan Rasio Ke-2
Langkah keempat Algoritma K-means (iterasi ke1)
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
Jarak ke pusat
m1 (2719.08 , 78)
A1
7558.820066
B1
0
C1
746.5860275
D1
865.8423099
E1
1400.200288
jarak ke pusat
m3(1320 , 22)
A3
8958.081346
B3
1400.200288
C3
650.3439475
D3
2265.56364
E3
0
jarak ke pusat
m2(1972.50 , 75)
A2
8305.400963
B2
746.5860275
C2
0
D2
1612.42031
E2
654.6489517
berikut:
Jarak terdekat
ke kelompok
m1
m1
m2
m1
m3
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
berikut:
5527.3 , 77.66666667)
a) m1 = rata-rata(mA, mB, mD)
=
b) m2 = rata-rata(mC)
= (1972.5 , 75)
c) m3 = rata-rata(mE)
= (1320, 22)
selanjutnya, kita akan kembali ke langkah 3 untuk mencari pembadingan
Langkah ketiga Algoritma K-Means (iterasi-2)
A. Pada langkah ini setiap nasabah akan ditentukan pusat kelompok terdekatnya. Nasabah tersebut
akan ditetapkan sebagai anggota kelompok yang terdekat pusat kelompok yang baru (cara
seperti langkah 3 diatas)
.
Contoh penghitungan:
a) A1 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m1 5527.3 , 77.66666667)
√
A1 = d (x,y) =√
√
b) A2 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m2 (1972.5 , 75)
√
A2 = d (x,y) =√
√
c) A3 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m3 (1320
√
A3 = d (x,y) =√
Jarak ke pusat
m1 5527.3 , 77.66666667)
A1
B1
C1
D1
E1
4750.600187
2808.22002
3554.801
1942.380715
4207.668246
jarak ke pusat
m2(1972.50 , 75)
, 22)
√
jarak ke pusat
m3(1320 , 22)
A2
A3
8305.400963
8958.081346
B2
B3
746.5860275
1400.200288
C2
C3
0
650.3439475
D2
D3
1612.42031
2265.56364
E2
E3
654.6489517
0
Gambar : table jarak terdekat yang baru,
Jarak terdekat ke
kelompok
m1
m2
m2
m2
m3
Dari table diatas didapatkan keanggotaan sebagai berikut:
a. Kelompok 1 (atau m1) ={A}
b. Kelompok 2 (atau m2) = {B, C, D}, dan
c. Kelompok 3 (atau m3) = {E}.
Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation (BCV) dengan within Cluster
Variation (WCV), seperti berikut:
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
Dengan m1 5527.3 , 77.66666667), m2(1972.50 , 75), dan m3(1320 , 22), sehingga :
d (m1, m2) = √
√
d (m1, m3) =√
√
d (m2, m3)=√
Jarak ke pusat
m1 5527.3 , 77.66666667)
A1
B1
C1
D1
E1
4750.600187
2808.22002
3554.801
1942.380715
4207.668246
√(
jarak ke pusat
m2(1972.50 , 75)
A2
B2
C2
D2
E2
√
√(
√
)
(
(
)
Jarak terdekat ke
kelompok
8958.081346
1400.200288
650.3439475
2265.56364
0
Sehingga didapatkan hasil sebagai berikut :
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
BCV = 3554.801 + 4207.668246 + 654.6489517 = 8417.118198
B. Besar Rasio 2
WCV = 4750.600187 + 746.5860275 + 0 + 1612.42031 + 0 = 7109.606525
Sehingga besarnya rasio adalah
=
)
√
jarak ke pusat
m3(1320 , 22)
A3
B3
C3
D3
E3
8305.400963
746.5860275
0
1612.42031
654.6489517
)
= 1.183907741
m1
m2
m2
m2
m3
Perhitungan Rasio Ke-3
Langkah keempat Algoritma K-means (iterasi ke1)
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
Jarak ke pusat
m1 5527.3 , 77.66666667)
A1
B1
C1
D1
E1
4750.600187
2808.22002
3554.801
1942.380715
4207.668246
jarak ke pusat
m2(1972.50 , 75)
A2
B2
C2
D2
E2
jarak ke pusat
m3(1320 , 22)
8305.400963
746.5860275
0
1612.42031
654.6489517
A3
B3
C3
D3
E3
Jarak terdekat ke
kelompok
8958.081346
1400.200288
650.3439475
2265.56364
0
m1
m2
m2
m2
m3
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
m1 = rata-rata(mA)
= (10277.9, 79)
m2 = rata-rata(, mB, mC , mD)
=
m3 = rata-rata(mE)
= (1320, 22)
berikut:
berikut:
Langkah ketiga Algoritma K-Means (iterasi-2)
Pada langkah ini setiap nasabah akan ditentukan pusat kelompok terdekatnya. Nasabah tersebut
akan ditetapkan sebagai anggota kelompok yang terdekat pusat kelompok yang baru (cara
seperti langkah 3 diatas)
.
Contoh penghitungan:
a)
A1 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m1 (10277.9, 79)
√
A1 = d (x,y)=√
b)
A2 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m2 (2758.833333
√
A2 = d (x,y)=√
c)
A3 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m3 (1320
√
A3 = d (x,y)=√
Jarak ke pusat
m1(10277.9, 79)
, 76.33333333)
, 22)
√
jarak ke pusat
m3(1320 , 22)
jarak ke pusat
m2(2758.833333 , 76.33333333)
Jarak terdekat ke
kelompok
A1
0
A2
7519.06714
A3
8958.081346
m1
B1
7558.820066
B2
39.78825567
B3
1400.200288
m2
C1
8305.400963
C2
786.3344638
C3
654.6489517
m3
D1
6692.980672
D2
826.0867339
D3
2265.56364
m2
E1
8958.081346
E2
E3
1439.858838
Gambar : table jarak terdekat yang baru,
0
m3
Dari table diatas didapatkan keanggotaan sebagai berikut:
a) Kelompok 1 (atau m1) ={A}
b) Kelompok 2 (atau m2) = {B, D}, dan
c) Kelompok 3 (atau m3) = { C, E}.
Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation (BCV) dengan within
Cluster Variation (WCV), seperti berikut:
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
Dengan m1 (10277.9, 79), m2(2758.833333
,76.33333333) dan m3(1320 , 22), sehingga :
d (m1, m2) =√
√
d (m1, m3) =√
√
d (m2, m3) =√
√
Jarak ke pusat
m1(10277.9, 79)
jarak ke pusat
m2(2758.833333 , 76.33333333)
jarak ke pusat
m3(1320 , 22)
Jarak terdekat ke
kelompok
A1
0
A2
7519.06714
A3
8958.081346
m1
B1
7558.820066
B2
39.78825567
B3
1400.200288
m2
C1
8305.400963
C2
786.3344638
C3
654.6489517
m3
D1
6692.980672
D2
826.0867339
D3
2265.56364
m2
E1
8958.081346
E2
1439.858838
E3
0
m3
Sehingga didapatkan hasil sebagai berikut :
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
BCV = 7519.06714 + 8958.081346 + 1439.858838 = 17917.00732
C. Besar Rasio 3
WCV = 0 + 39.78825567+ 654.6489517 + 826.0867339+ 0 = 1520.523941
Sehingga besarnya rasio adalah
=
= 11.78344309
Perhitungan Rasio Ke-4
Langkah keempat Algoritma K-means (iterasi ke1)
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
Jarak ke pusat
m1(10277.9, 79)
A1
B1
C1
D1
E1
jarak ke pusat
m3(1320 , 22)
jarak ke pusat
m2(2758.833333 , 76.33333333)
A2
B2
C2
D2
E2
0
7558.820066
8305.400963
6692.980672
8958.081346
A3
B3
C3
D3
E3
7519.06714
39.78825567
786.3344638
826.0867339
1439.858838
berikut:
Jarak terdekat ke
kelompok
8958.081346
1400.200288
m1
m2
654.6489517
2265.56364
m3
m2
0
m3
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
m1 = rata-rata(mA)
= (10277.9, 79)
m2 = rata-rata(mB , mD)
=
m3 = rata-rata(mC , mE)
=
berikut:
Langkah ketiga Algoritma K-Means (iterasi-2)
Pada langkah ini setiap nasabah akan ditentukan pusat kelompok terdekatnya. Nasabah tersebut
akan ditetapkan sebagai anggota kelompok yang terdekat pusat kelompok yang baru (cara
seperti langkah 3 diatas)
.
Contoh penghitungan:
a)
A1 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m1 (10277.9, 79)
√
A1 = d (x,y)=√
b)
A2 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m2 (3152 , 77)
√
A2 = d (x,y)=√
c)
A3 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m3 (1646.25 , 48.5)
A3 = d (x,y)=√
Jarak ke pusat
m1(10277.9 , 79)
jarak ke pusat
m2(3152 , 77)
√
jarak ke pusat
m3(1646.25 , 48.5)
Jarak terdekat ke kelompok
A1
0
A2
7125.900281
A3
8631.703886
m1
B1
7558.820066
B2
432.9211549
B3
1073.23551
m2
C1
8305.400963
C2
1179.501696
C3
327.3244759
m3
D1
6692.980672
D2
432.9211549
D3
1938.865034
m2
E1
8958.081346
E2
E3
1832.825414
327.3244759
Gambar : table jarak terdekat yang baru,
m3
Dari table diatas didapatkan keanggotaan sebagai berikut:
d) Kelompok 1 (atau m1) ={A}
e) Kelompok 2 (atau m2) = {B, D}, dan
f) Kelompok 3 (atau m3) = { C, E}.
Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation (BCV) dengan within
Cluster Variation (WCV), seperti berikut:
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
Dengan m1 (10277.9, 79), m2(3152 ,77) dan m3(1646.25 , 48.5)sehingga :
d (m1, m2) =√
√
d (m1, m3) =√
√
d (m2, m3) =√
√
Jarak ke pusat
m1(10277.9 , 79)
A1
B1
C1
D1
E1
jarak ke pusat
m3(1646.25 , 48.5)
jarak ke pusat
m2(3152 , 77)
0
7558.820066
8305.400963
6692.980672
8958.081346
A2
7125.900281
B2
432.9211549
C2
1179.501696
D2
432.9211549
E2
1832.825414
A3
B3
C3
D3
E3
Jarak terdekat ke
kelompok
8631.703886
m1
1073.23551
m2
327.3244759
m3
1938.865034
m2
327.3244759
m3
Sehingga didapatkan hasil sebagai berikut :
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
BCV = 7125.900281 + 8631.703886 + 1506.019692 = 17263.62386
Besar Rasio 4
WCV = 0 + 432.9211549 + 327.3244759 + 432.9211549 + 327.3244759 = 1520.491262
Sehingga besarnya rasio adalah
=
= 11.35397769
Perhitungan Rasio Ke-5
Langkah keempat Algoritma K-means (iterasi ke1)
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
Jarak ke pusat
m1(10277.9, 79)
A1
B1
C1
D1
E1
jarak ke pusat
m3(1320 , 22)
jarak ke pusat
m2(2758.833333 , 76.33333333)
A2
B2
C2
D2
E2
0
7558.820066
8305.400963
6692.980672
8958.081346
A3
B3
C3
D3
E3
7519.06714
39.78825567
786.3344638
826.0867339
1439.858838
berikut:
Jarak terdekat ke
kelompok
8958.081346
1400.200288
m1
m2
654.6489517
2265.56364
m3
m2
0
m3
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
m1 = rata-rata(mA)
= (10277.9, 79)
m2 = rata-rata(mB , mD)
=
m3 = rata-rata(mC , mE)
=
berikut:
Langkah ketiga Algoritma K-Means (iterasi-2)
Pada langkah ini setiap nasabah akan ditentukan pusat kelompok terdekatnya. Nasabah tersebut
akan ditetapkan sebagai anggota kelompok yang terdekat pusat kelompok yang baru (cara
seperti langkah 3 diatas)
.
Contoh penghitungan:
d)
A1 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m1 (10277.9, 79)
√
A1 = d (x,y)=√
e)
A2 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m2 (3152 , 77)
√
A2 = d (x,y)=√
f)
A3 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m3 (1646.25 , 48.5)
A3 = d (x,y)=√
Jarak ke pusat
m1(10277.9 , 79)
jarak ke pusat
m2(3152 , 77)
√
jarak ke pusat
m3(1646.25 , 48.5)
Jarak terdekat ke kelompok
A1
0
A2
7125.900281
A3
8631.703886
m1
B1
7558.820066
B2
432.9211549
B3
1073.23551
m2
C1
8305.400963
C2
1179.501696
C3
327.3244759
m3
D1
6692.980672
D2
432.9211549
D3
1938.865034
m2
E1
8958.081346
E2
E3
1832.825414
327.3244759
Gambar : table jarak terdekat yang baru,
m3
Dari table diatas didapatkan keanggotaan sebagai berikut:
g) Kelompok 1 (atau m1) ={A}
h) Kelompok 2 (atau m2) = {B, D}, dan
i) Kelompok 3 (atau m3) = { C, E}.
Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation (BCV) dengan within
Cluster Variation (WCV), seperti berikut:
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
Dengan m1 (10277.9, 79), m2(3152 ,77) dan m3(1646.25 , 48.5)sehingga :
d (m1, m2) =√
√
d (m1, m3) =√
√
d (m2, m3) =√
√
Jarak ke pusat
m1(10277.9 , 79)
A1
B1
C1
D1
E1
jarak ke pusat
m3(1646.25 , 48.5)
jarak ke pusat
m2(3152 , 77)
0
7558.820066
8305.400963
6692.980672
8958.081346
A2
7125.900281
B2
432.9211549
C2
1179.501696
D2
432.9211549
E2
1832.825414
A3
B3
C3
D3
E3
Jarak terdekat ke
kelompok
8631.703886
m1
1073.23551
m2
327.3244759
m3
1938.865034
m2
327.3244759
m3
Sehingga didapatkan hasil sebagai berikut :
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
BCV = 7125.900281 + 8631.703886 + 1506.019692 = 17263.62386
Besar Rasio 5
WCV = 0 + 432.9211549 + 327.3244759 + 432.9211549 + 327.3244759 = 1520.491262
Sehingga besarnya rasio adalah
=
=11.35397769
Perhitungan Rasio Ke-6
Langkah keempat Algoritma K-means (iterasi ke1)
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
Jarak ke pusat
m1(10277.9, 79)
A1
B1
C1
D1
E1
jarak ke pusat
m3(1320 , 22)
jarak ke pusat
m2(2758.833333 , 76.33333333)
A2
B2
C2
D2
E2
0
7558.820066
8305.400963
6692.980672
8958.081346
A3
B3
C3
D3
E3
7519.06714
39.78825567
786.3344638
826.0867339
1439.858838
berikut:
Jarak terdekat ke
kelompok
8958.081346
1400.200288
m1
m2
654.6489517
2265.56364
m3
m2
0
m3
Pada langkah ini, pembaruan pusat-pusat kelompok yang baru akan dilakukan seperti
m1 = rata-rata(mA)
= (10277.9, 79)
m2 = rata-rata(mB , mD)
=
m3 = rata-rata(mC , mE)
=
berikut:
Langkah ketiga Algoritma K-Means (iterasi-2)
Pada langkah ini setiap nasabah akan ditentukan pusat kelompok terdekatnya. Nasabah tersebut
akan ditetapkan sebagai anggota kelompok yang terdekat pusat kelompok yang baru (cara
seperti langkah 3 diatas)
.
Contoh penghitungan:
g)
A1 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m1 (10277.9, 79)
√
A1 = d (x,y)=√
h)
A2 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m2 (3152 , 77)
√
A2 = d (x,y)=√
i)
A3 didapatkan dari titik nasabah A(10277.9 , 79) dengan titik pusat m3 (1646.25 , 48.5)
A3 = d (x,y)=√
Jarak ke pusat
m1(10277.9 , 79)
jarak ke pusat
m2(3152 , 77)
√
jarak ke pusat
m3(1646.25 , 48.5)
Jarak terdekat ke kelompok
A1
0
A2
7125.900281
A3
8631.703886
m1
B1
7558.820066
B2
432.9211549
B3
1073.23551
m2
C1
8305.400963
C2
1179.501696
C3
327.3244759
m3
D1
6692.980672
D2
432.9211549
D3
1938.865034
m2
E1
8958.081346
E2
E3
1832.825414
327.3244759
Gambar : table jarak terdekat yang baru,
m3
Dari table diatas didapatkan keanggotaan sebagai berikut:
j) Kelompok 1 (atau m1) ={A}
k) Kelompok 2 (atau m2) = {B, D}, dan
l) Kelompok 3 (atau m3) = { C, E}.
Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation (BCV) dengan within
Cluster Variation (WCV), seperti berikut:
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
Dengan m1 (10277.9, 79), m2(3152 ,77) dan m3(1646.25 , 48.5)sehingga :
d (m1, m2) =√
√
d (m1, m3) =√
√
d (m2, m3) =√
√
Jarak ke pusat
m1(10277.9 , 79)
A1
B1
C1
D1
E1
jarak ke pusat
m3(1646.25 , 48.5)
jarak ke pusat
m2(3152 , 77)
0
7558.820066
8305.400963
6692.980672
8958.081346
A2
7125.900281
B2
432.9211549
C2
1179.501696
D2
432.9211549
E2
1832.825414
A3
B3
C3
D3
E3
Jarak terdekat ke
kelompok
8631.703886
m1
1073.23551
m2
327.3244759
m3
1938.865034
m2
327.3244759
m3
Sehingga didapatkan hasil sebagai berikut :
BCV= d(m1,m2) + d(m1,m3) + d(m2,m3)
BCV = 7125.900281 + 8631.703886 + 1506.019692 = 17263.62386
Besar Rasio 6
WCV = 0 + 432.9211549 + 327.3244759 + 432.9211549 + 327.3244759 = 1520.491262
Sehingga besarnya rasio adalah
=
=11.35397769
Kesimpulan
Jarak ke pusat
m1(10277.9 , 79)
A1
B1
C1
D1
E1
jarak ke pusat
m3(1646.25 , 48.5)
jarak ke pusat
m2(3152 , 77)
0
7558.820066
8305.400963
6692.980672
8958.081346
A2
B2
C2
D2
E2
7125.900281
432.9211549
1179.501696
432.9211549
1832.825414
A3
B3
C3
D3
E3
Jarak terdekat ke
kelompok
8631.703886
m1
1073.23551
m2
327.3244759
m3
1938.865034
m2
327.3244759
m3
Pada perhitungan ke 4, 5 , 6 memiliki nilai batas yang sama dan nilai rasio yang sama maka perhitungan di
hentikan. Sebab nilai batas telah di temukan, yaitu :
m1 = rata-rata(mA)
=C1
= (10277.9 , 79)
m2 = rata-rata(mB , mD)
=C2
= (3152 , 77)
m3 = rata-rata(mC , mE)
=C3
= (1646.25 ,48.5)
sehingga nilai batas tersebut di jadikkan sebagai acuhan data untuk menentukan pengelompokkan data setiap
claster.