Terkadang peneliti dan analis secara sederhana ingin mencoba mancari cara untuk menggambarkan pola dan kecendrungan yang terdapat dalam data.
Deskripsi dari pola dan kecendrungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecendrungan.
2. Estimasi Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi
lebih ke arah numerik dari pada ke arah kategori. 3. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai ari hasil akan ada di masa mendatang.
4. Klasifikasi Dalam klasifikasi, terdapat target variabel kategori.
5. Pengklusteran Pengklusteran merupakan pengelompokkan record, pengamatan, atau
memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan.
6. Asosiasi Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul
dalam satu waktu.
2.6 Clustering
Clustering adalah
suatu metode
pengelompokan berdasarkan
ukuran kedekatankemiripan.Clustering berbeda dengan group, kalau group berarti
kelompok yang samakondisinya kalau tidak ya pasti bukan kelompoknya.Tetapi kalau cluster tidak harus sama akan tetapi pengelompokannya berdasarkan pada
kedekatan dari suatu karakteristik sample yang ada, salah satunya dengan menggunakan rumus jarak euclidean.Aplikasinya cluster ini sangat banyak,
Universitas Sumatera Utara
karena hampir dalam mengidentifikasi permasalahan atau pengambilan keputusan selalu tidak sama persis akan tetapi cenderung memiliki kemiripan saja. Edi
satriyanto, M,Si Clustering adalah suatu alat untuk analisa data, yangmemecahkan
permasalahan penggolongan.http:www.bandmservices.com Clustering berarti penyatuan sekelompok data yang mempunyai korelasi atau
karakteristik sejenis
atau dengan
kata lain
mempunyai kemiripan
http:wwwbestbuydoc.com.
2.7 K-Means
K-Means merupakan algoritma clustering yang berulang. Algoritma K-Means dimulai dengan pemilihan secara acak K, K disini merupakan banyaknya cluster
yang ingin dibentuk kemudian tetapkan nilai-nilai K secara acak, untuk sementara nilai tersebut menjadi pusat dari cluster atau biasa disebut dengan centroid, mean
atau “means” hitung jarak setiap data yang ada terhadap masing-masing centroid menggunakan rumus Euclidean hingga ditemukan jarak yang paling dekat dari
setiap data dengan centroid. Klasifikasikan setiap data berdasarkan kedekatannya dengan
centroid. Lakukan
langkah tersebut
hingga nilai
centroid stabil.Rismawan, 2008.
Sebagai gambaran, akan diambil contoh kasus berikut : anda diberi data tentang 8 nasabah yang pernah memperoleh kredit dari Bank Bhatara Putra. Selain
itu, data mereka menyangkut jumlah rumah dan jumlah mobil yang mereka miliki data lengkapnya sebagai berikut :
Universitas Sumatera Utara
Tabel 2.1 Sampel Data Nasabah
Jumlah Rumah Jumlah Mobil
A 1
3
B
3 3
C
4 3
D 5
3
E 1
2
F
4 2
G
1 1
H 2
1 Kita akan menerapkan algoritma K-Means pada data di atas. Adapun langkah-
langkah pada algoritma K-Means adalah sebagai berikut : 1. Tentukan K.
2. Pilih K buah catatan dari sekian catatan yang ada sebagai pusat kelompok awal m
i
3. Untuk langkah ke – 3 ini lakukan :
a. Untuk setiap catatan, tentukan pusat kelompok terdekatnya dan tetapkan catatan tersebut sebagai kelompok anggota dari kelompok
yang terdekat pusat kelompoknya. b. Hitung BCV Between Cluster Variation = Jarak Antar Cluster
c. Hitung WCV Within cluster Variation = Jarak antara anggota dalam Cluster.
d. rasio =
BCV WCV
e. Bandingkan rasio tersebut dengan rasio sebelumnya jika sudah ada, jika rasio tersebut nilainya semakin besar maka lanjutkan ke
langkah ke -4, namun jika tidak hentikan prosesnya. 4. Perbaharui pusat-pusat kelompok bedasarkan kelompok yang di dapat
dari langkah ke – 3 dan kembalilah ke langkah ke-3.
Implementasi dari algoritma k-means untuk kasus di atas adalah sebagai berikut ini :
1 K = 3
Universitas Sumatera Utara
2 B m
1
= 3,3 E m
2
= 1,2 F m
3
.= 4,2 3 Iterasi 1
A C
1
=
1 − 3
2
+ 3 − 3
2
= −2
2
+
2
= 4 = 2
C
2
=
1 − 1
2
+ 3 − 2
2
=
2
+ 1
2
= 1 = 1
C
3
=
1 − 4
2
+ 3 − 2
2
= −3
2
+ 1
2
= 10 = 3,162
Dari hasil tersebut diperoleh tabel iterasi 1 sebagai berikut :
Tabel 2.2 Tabel Iterasi 1 Catatan
C
1
C
2
C
3
Jarak Terdekat A
2 1
3,162 C
2
B 2,236
1,414 C
1
C
1 3,162
1 C
3
D 2
4,123 1,414
C
3
E 2,236
3 C
2
F 1,414
3 C
3
G 2,828
1 3,162
C
2
H 2,236
1,414 2,236
C
2
Dari tabel iterasi 1 C1 = B 3,3
C2 = A,E,G,H = 1,3, 1,2, 1,1, 2,1
C3 =.C, D, F
Universitas Sumatera Utara
= 4,3, 15,3, 4,2 Hitung BCV
BCV = d m1, m2 + d m2, m3 + d m1,m3 =
3 − 1
2
+ 3 − 2
2
+
1 − 4
2
+ 2 − 2
2
+
3 − 4
2
+ 3 − 2
2
= 2
2
+ 1
2
+ −3
2
+
2
+ −1
2
+ 1
2
= 5 + 9 + 2
= 2,263 + 3 + 1,414 = 6,650
Hitung WCV diambil dari jarak terdekat A C2 = 1
B C1 = 0 C C3 = 1
D C3 = 1,414 E C2 = 0
F C3 = 0 G C2 =1
H C2 = 1,414 WCV = 1
2
+ 0
2
+ 1
2
+ 1,414
2
+0
2
+ 0
2
+ 1
2
+ 1,414
2
= 1 + 0 + 1 + 1,999 + 0 + 0 + 1 +1,999 = 6,998 Rasio =
BCV WCV
Universitas Sumatera Utara
=
6,650 6,998
= 0,950 4 m
1
rata-rata C
1
m
B
= 3,3 m
2
rata-rata C
2
m
A
, m
E
, m
G
, m
H
1,3 ; 1,2 ; 1,1 ; 2,1
1+1+1+2 4
∶
3+2+1+1 4
5 4
:
7 4
1,25 ; 1,75
m
3
rata-rata C
3
m
C
, m
D
, m
F
4,3 ; 5,3 ; 4,2
4+5+4 3
∶
3+3+2 3
13 3
:
8 3
4,333 ; 2,666
5 A C
1
= 1 − 3
2
+ 3 − 3
2
= −2
2
+
2
= 4 = 2
Universitas Sumatera Utara
C
2
= 1 − 1,25
2
+ 3 − 1,75
2
= 0,25
2
+ 1,25
2
= 0,062
2
+ 1,562
2
= 1,624 = 1,274
C
3
= dst…
Dari hasil tersebut diperoleh tabel iterasi 2 sebagai berikut :
Tabel 2.3 Tabel Iterasi 2 Catatan
C
1
C
2
C
3
Jarak Terdekat
A 2
1,275 3,350
C
2
B 1,768
1,374 C
1
C 1
3,021 0,471
C
3
D
2 3,953
0,745 C
3
E 2,236
0,354 3,399
C
2
F 1,414
2,813 0,745
C
3
G 2,828
0,791 3,727
C
2
H 2,236
1,061 2,867
C
2
Dari tabel iterasi 2 C
1
= B C
2
= A,E,G,H C
3
=.C, D, F = 4,3, 15,3, 4,2
Hitung BCV BCV = d m
1
, m
2
+ d m
2
, m
3
+ d m
1
,m
3
Universitas Sumatera Utara
= 3 − 1,25
2
+ 3 − 1,75
2
+ 3 − 4,333
2
+ 3 − 2,666
2
+ 1,25 − 4,333
2
+ 1,75 − 2,666
2
= 1,75
2
+ 1,25
2
+ −1,333
2
+ 0,334
2
+ −3,083
2
+ −0,916
2
= 6,714
Hitung WCV diambil dari jarak terdekat WCV = sama
= 4,833 Rasio =
BCV WCV
= 1,394 Rasio ke-2 1,394 lebih besar dari rasio ke 1 0,950 sehingga proses
dilanjutkan ke iterasi ke -3
6 m
1
rata-rata m
B
= 3,3 m
2
rata-rata m
A
, m
E
, m
G
, m
H
1,25 ; 1,75 m
3
rata-rata m
C
, m
D
, m
F
4,333 ; 2,667
Dari hasil tersebut diperoleh tabel iterasi 3 sebagai berikut :
Universitas Sumatera Utara
Tabel 2.4 Tabel Iterasi 3 Catatan
C
1
C
2
C
3
Jarak Terdekat A
2 1,275
3,350 C
2
B 1,768
1,374 C
1
C 1
3,021 0,471
C
3
D
2 3,953
0,745 C
3
E 2,236
0,354 3,399
C
2
F 1,414
2,813 0,745
C
3
G 2,828
0,791 3,727
C
2
H 2,236
1,061 2,867
C
2
Dari tabel iterasi 3 C
1
= B C
2
= A,E,G,H C
3
=.C, D, F Hitung BCV
BCV = 6,741
Hitung WCV WCV = 4,833
Rasio =
BCV WCV
= 1,394
Universitas Sumatera Utara
Rasio 3 tidak lagi lebih besar nilainya dari rasio 2 sehingga algoritma dihentikan Susanto; 2010 : 81-92.
2.8 Penelitian Terdahulu