Institutional Repository | Satya Wacana Christian University: Perancangan Clustering Data Menggunakan Algoritma K-Means Berbasis Heat Map T1 672010122 BAB II

Bab 2
Tinjauan Pustaka
2.1

Penelitian Terdahulu
Adapun penelitian terdahulu yang berkaitan dalam

penelitian ini berjudul “Penentuan Wilayah Usaha Pertambangan
Menggunakan Metode Fuzzy K-Mean Clustering Berbasis Sistem
Informasi Geografi”. Pada penelitian ini, metode Fuzzy K-Mean
Clustering

diterapkan

pada

penentuan

wilayah

usaha


pertambangan di Kabuapten Trenggalek, Jawa Timur. Hasil dari
penerapan metode tersebut adalah segmentasi wilayah usaha
pertambangan yang dapat menggambarkan karakteristik bahan
galian

pada

setiap

kelompoknya,

sehingga

selain

dapat

mempermudah penetapan rencana umum tata ruang daerah dalam
pengalokasian wilayah usaha pertambangan bahan galian, hasil

segmentasi ini juga dapat mempermudah peminat dan pelaku
usaha tambang dalam memilih wilayah kegiatan usaha tambang
yang prospek di Kabupaten Trenggalek, Jawa Timur (Suryana,
2010).
Penelitian yang berjudul “Sistem Market Basket Untuk
Menentukan

Tata

Letak

Produk

Pada

Suatu

Swalayan

Menggunakan Algoritma K-Means Clustering” juga merupakan

salah satu penilitian yang berkaitan dengan penilitian ini. Market
basket analysis adalah salah satu teknik data mining yang dapat

menemukan pola yang berupa produk-produk yang sering dibeli
bersamaan dalam sebuah transaksi. Dalam penelitian tersebut,

5

6

dijelaskan

bagaimana

menggunakan

market

Algoritma


basket

K-Means

analysis

clustering

dengan

berdasarkan

kebiasaan konsumen berbelanja untuk menghasilkan suatu model
tata letak produk. Algoritma K-Means clustering digunakan
untuk membagi data ke dalam cluster sehingga data yang
memiliki karakteristik yang sama dikelompokkan ke dalam satu
cluster yang sama dan data yang mempunyai karakteristik

berberda dikelompokkan ke dalam cluster lain. Hasil dari
penelitian tersebut adalah sebuah model tata letak produk yang

dapat digunakan oleh pihak manajemen swalayan (Sebayang,
2012).
Penelitian lain yang berkaitan dalam penelitian ini
berjudul “Implementasi Metode Heatmap 2-D Untuk Visualisasi
Data Terdistribusi”. Penelitian ini membuat aplikasi sebagai alat
bantu untuk menampilkan data terdistribusi dalam bentuk visual
sehingga lebih menarik dan mudah dibaca. Adapun aplikasi ini
dibuat dengan tujuan mempermudah pengguna dalam mencari
data dalam basis data XML serta mudah dalam mengambil
kesimpulan dan atau keputusan manajerial (Lisana dan Praman,
2013).
Mengacu pada penelitian terdahulu, maka akan dilakukan
penelitian

yang

berjudul

Perancangan


dan

Implementasi

Clustering Data Menggunakan Algoritma K-Means Berbasis

Heatmap. Dalam penelitian ini, data yang akan dikelompokkan

7

adalah potensi bahan tambang di Provinsi Papua Barat kemudian
disajikan dalam sebuah aplikasi web menggunakan Heat Map.
2.2

Clustering

Clustering merupakan salah satu teknik dalam data
mining. Clustering membagi objek ke dalam kelompok atau
cluster tertentu, sehingga objek dalam suatu cluster memiliki


kemiripan dengan objek lain dalam cluster yang sama dan
berbeda dengan objek pada cluster yang lain. Kemiripan objek
umumnya didefinisikan berdasarkan jarak kedekatan antar objek
yang ditentukan melalui fungsi jarak (Han dkk, 2011).

Gambar 2.1 Clustering Dalam Ruang Dua Dimensi.
(a) Inisialisasi Data;(b) Data dalam tiga cluster ;
(c) Data dalam empat cluster (Kantardzic, 2011)

Pada Gambar 2.1 terdapat sembilan objek yang akan
dikelompokkan. Gambar 2.1(b) menggambarkan kesembilan
objek tersebut dikelompokkan menjadi tiga cluster , objek yang
saling berdekatan dikelompokkan dalam satu cluster yang sama.

8

Sedangkan pada Gambar 2.1(c), terlihat kesembilan objek yang
ada dikelompokkan menjadi empat cluster .
Clustering telah diterapkan pada beberapa bidang seperti


berikut ini (Zaiane, 2007):
1.

Bidang Pemasaran
Dalam bidang pemasaran, algoritma clustering digunakan

untuk membantu menemukan perbedaan kelompok pelanggan
dan kemudian mengembangkan program pemasaran yang
ditargetkan.
2.

Bidang Biologi
Algoritma clustering ini digunakan dalam bidang biologi

untuk menemukan gen-gen yang memiliki fungsi yang serupa
untuk digolongkan menjadi suatu cluster tertentu.
3.

Bidang Land Use
Algoritma clustering ini digunakan dalam bidang land use


untuk mengidentifikasi bidang tanah yang sama yang digunakan
dalam pengamatan bumi.
4.

Bidang Asuransi
Algoritma clustering ini digunakan dalam bidang asuransi

untuk mengidentifikasi kelompok pemegang polis asuransi motor
dengan rata-rata klaim biaya yang tinggi.
5.

Bidang Perencanaan Tata Kota
Algoritma

clustering

ini

digunakan


dalam

bidang

perencanaan tata kota untuk mengidentifikasi kelompok dari
rumah ke rumah sesuai jenis, nilai dan geografis lokasi.

9

Secara umum metode clustering dapat dibagi menjadi
beberapa kategori, antara lain metode parsial dan metode hirarki
(Han dkk, 2011).
1.

Metode Parsial
Metode parsial adalah metode clustering yang sederhana

dan merupakan konsep dasar dari analisis cluster . Metode parsial
mengorganisir sejumlah data tertentu ke dalam kelompok yang

lebih spesifik atau cluster . Jumlah cluster yang diberikan
merupakan parameter dalam untuk memulai metode parsial.
Secara formal, pemberian sejumlah data (D) dari n objek
dan jumlah cluster (K) untuk melakukan proses clustering.
Sebuah algortima partisi mengorganisir objek ke dalam partisi K
dengan K ≤ n, sehingga setiap partisi mewakili sebuah cluster .
Cluster

dibentuk

untuk

mengoptimalkan

sebuah

tujuan

pembagian kriteria, seperti fungsi perbedaan berdasarkan jarak,
sehingga objek dalam satu cluster mirip dengan objek lain dalam
cluster tersebut, dan berbeda dengan objek di cluster lain.

Algoritma yang sering digunakan dalam metode parsial ini adalah
algoritma K-Medoids dan K-Means.
2.

Metode Hirarki
Metode hirarki dalam clustering mengelompokkan objek

data ke dalam sebuah hirarki atau pohon cluster . Menampilkan
objek data dalam bentuk sebuah hirarki berguna untuk
penyimpulan atau peringkasan serta penyajian data. Sebagai
contoh, seorang manajer sumber daya manusia di perusahaan X

10

dapat mengatur karyawannya ke dalam kelompok besar seperti
eksekutif, manajer dan staf. Selain itu, pengelompokkan tersebut
dapat dilanjutkan menjadi sub kelompok yang lebih kecil.
Misalnya untuk kelompok umum untuk semua staf dapat dibagi
menjadi sub kelompok pegawai senior, pegawai dan pegawai
yang masih dalam masa percobaan. Setelah melakukan
pengelompokkan,

maka

sebuah

hirarki

dapat

terbentuk.

Berdasarkan hirarki tersebut, proses penarikan kesimpulan atau
klasifikasi data dapat dilakukan dengan mudah.
2.3

Euclidean Distance

Euclidean distance adalah metrika yang sering digunakan

untuk menghitung kesamaan dua vektor. Euclidean distance
menghitung akar dari kuadrat perbedaan dua vektor. Rumus
Euclidean distance adalah sebagai berikut (Putra, 2010) :

√∑(

)

Gambar 2.2 Rumus Euclidean Distance (Putra, 2010)

dengan :
= distance
= 1, 2, 3, ……,

p

= 1, 2, 3, ……,

p

= merepresentasikan nilai atribut
= dimensi data
= objek data

11

Berikut ini adalah contoh penggunaan rumus Euclidean
distance :

Terdapat dua vektor A dan B, vektor A = [0, 3, 4, 5] dan
vector B = [7, 6, 3, -1]. Euclidean distance dari vector A dan B
adalah :




(



)




Semakin besar jarak antara dua vektor, maka tingkat
kesamaan atau kemiripannya kecil. Sebaliknya, semakin kecil
jarak

antara

dua

vektor,

maka

tingkat

kesamaan

atau

kemiripannya besar.
2.4

Algoritma K-Means
Algoritma

pengelompokan

K-Means
data

yang

merupakan
sering

salah

satu

digunakan.

teknik

K-Means

mengelompokkan objek yang mirip dalam cluster yang sama.
Gambaran umum dari algoritma tersebut adalah sebagai berikut
(Aggarwal & Reddy, 2013) :
1. Menentukan nilai K atau jumlah cluster yang diinginkan
serta menentukan centroid atau pusat cluster . Centroid

12

ditentukan secara acak dari objek data yang ada sesuai
dengan nilai K, jika nilai K adalah dua maka centroid
yang ditentukan juga dua.
2. Membagi setiap objek ke dalam cluster yang paling mirip.
Cluster yang paling mirip adalah cluster dengan centroid

terdekat. Perhitungan kedekatan antara objek dengan
centroid dapat dilakukan menggunakan fungsi jarak,

seperti Euclidean Distance.
3. Menghitung ulang K cluster dengan rata-rata dari semua
objek yang diberikan untuk tiap cluster .
4. Ulangi langkah kedua dan ketiga sampai tidak ada lagi
objek yang berpindah cluster .
2.5

Heatmap
Heatmap digunakan untuk menggambarkan distribusi dan

kepadatan titik pada peta. Heatmap memudahkan viewer untuk
memahami distribusi dan intensitas relatif titik data pada peta.
Distribusi data pada Heatmap diwakilkan menggunakan warna
(Google, 2014).