Clustering hasil operasi OLAP untuk datawarehouse HOTSPOT menggunakan algoritme K-means

CLUSTERING HASIL OPERASI OLAP UNTUK DATA
WAREHOUSE HOTSPOT MENGGUNAKAN ALGORITME
K-MEANS

TSAMRUL FUAD

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2009

CLUSTERING HASIL OPERASI OLAP UNTUK DATA
WAREHOUSE HOTSPOT MENGGUNAKAN ALGORITME
K-MEANS

TSAMRUL FUAD

Skripsi
Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2009

ABSTRACT
TSAMRUL FUAD. Clustering of OLAP operation result for hospot datawarehouse using k-means
algorithm. Under the direction of ANNISA.
Hayardisi (2008) has developed a datawarehouse as tool to analyze hotspot spread. That
application gives information in form of table, crosstab and graph. We improve that aplication by
adding webGIS module to visualize hotspot location easily. WebGIS developed using Mapserver and
chameleon.To show the distribution problem of hotspot, we clusterize number of hotspot occurencies
into four classes low, medium, high and very high using k-means algorithms.

Judul

: Clustering hasil operasi OLAP untuk datawarehouse HOTSPOT menggunakan algoritme

K-means

Nama

: Tsamrul Fuad

NIM

: G64052541

Menyetujui:

Pembimbing,

Annisa, S.Kom., M.Kom.
NIP 197907312005012

Mengetahui,
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor

Dr. Drh. Hasim, DEA
NIP 196103281986011002

Tanggal Lulus :

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan hidayah-Nya
sehingga tugas akhir dengan judul Clustering hasil operasi OLAP untuk datawarehouse HOTSPOT
menggunakan algoritme K-means dapat diselesaikan. Penelitian ini dilaksanakan mulai Maret 2009
sampai dengan Juli 2009, bertempat di Departemen Ilmu Komputer.
Terima kasih penulis ucapkan kepada pihak-pihak yang telah membantu dalam penyelesaian
tugas akhir ini, antara lain:
1 Kepada Ibu Imas Sukesih Sitanggang, S.Si, M.Kom. selaku pembimbing pertama saya yang telah
banyak memberi arahan selama penulis menjalankan penelitian
2 Kepada Ibu Annisa, S.Kom., M.Kom. selaku pembimbing yang telah banyak memberi arahan
selama penulis menjalankan penelitian
3 Kepada seluruh keluarga atas doa, dukungan, dan kasih sayangnya.
4 Kepada teman seperjuangan satu bimbingan yang selama ini selalu bersama dalam mengerjakan

tugas akhir ini dan saling memberikan semangat.
5 Kepada sahabat-sahabat saya atas semangat dan dukungannya.
6 Kepada Muthia Aziza yang telah membantu dan memberi semangat dalam pengerjaan tugas akhir
ini.
7 Kepada teman-teman seperjuangan ilkomerz 42, serta pihak lain yang turut membantu baik secara
langsung maupun tidak langsung dalam penyelesaian tugas akhir ini.
Semoga karya ilmiah ini bermanfaat.

Bogor, Agustus 2009

Tsamrul Fuad

RIWAYAT HIDUP
Penulis dilahirkan di Blora pada tanggal 26 Agustus 1987 dari ayah Sudirman dan Ibu Ni’amah.
Penulis merupakan anak kedua dari dua bersaudara.
Tahun 2005, penulis lulus dari SMUN 1 Cepu dan pada tahun yang sama penulis diterima di
Institut Pertanian Bogor (IPB) melalui jalur SPMB. Tahun 2007, penulis diterima sebagai mahasiswa
di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB. Tahun 2008,
penulis menjalankan kegiatan praktik lapangan di PT.Apexindo Pratama Duta. Tbk.

DAFTAR ISI
Halaman
DAFTAR TABEL........................................................................................................................... v
DAFTAR GAMBAR ...................................................................................................................... v
DAFTAR LAMPIRAN ................................................................................................................... v
PENDAHULUAN
Latar Belakang.............................................................................................................................. 1
Tujuan .......................................................................................................................................... 1
Ruang Lingkup ............................................................................................................................. 1
Manfaat ........................................................................................................................................ 1
TINJAUAN PUSTAKA
Clustering ..................................................................................................................................... 1
Algoritme K-Means ...................................................................................................................... 1
Evaluasi Cluster............................................................................................................................ 2
Sistem Informasi Geografis (SIG) ................................................................................................. 2
Bentuk dan Stuktur Data pada SIG ................................................................................................ 3
Operasi dalam SIG ........................................................................................................................ 3
Hotspot (titik panas)...................................................................................................................... 3
Data Warehouse ........................................................................................................................... 3
Aplikasi OLAP (On-line Analytical Processing) ............................................................................ 3

METODE PENELITIAN
Praproses Data .............................................................................................................................. 4
Clustering ..................................................................................................................................... 4
Evaluasi Cluster............................................................................................................................ 5
Visualisasi Clustering ................................................................................................................... 5
Integrasi OLAP dan SIG................................................................................................................ 5
Lingkungan pengembangan. .......................................................................................................... 5
HASIL DAN PEMBAHASAN
Praproses Data .............................................................................................................................. 6
Clustering ..................................................................................................................................... 6
Evaluasi Cluster............................................................................................................................ 7
Visualisasi Clustering ................................................................................................................... 8
Integrasi OLAP dan SIG ............................................................................................................... 8
Presentasi Persebaran Hotspot Hasil Clustering ........................................................................... 11
KESIMPULAN DAN SARAN
Kesimpulan................................................................................................................................. 12
Saran .......................................................................................................................................... 12
DAFTAR PUSTAKA ..................................................................................................................... 13
LAMPIRAN ................................................................................................................................... 14

iv

DAFTAR TABEL
Halaman
1
2
3
4

Pusat cluster untuk k=4 dan s= 15....................................................................................... 7
Persentase dan jumlah anggota cluster untuk k=4 dan s=15 ................................................ 7
Total SSE dengan k=4 dan dengan kombinasi random seed ................................................. 7
Jumlah iterasi dengan k=4................................................................................................... 8
DAFTAR GAMBAR
Halaman

1
2
3
4

5
6
7
8

Desain layout ...................................................................................................................... 5
Arsitektur sistem ................................................................................................................. 5
Tahapan penelitian .............................................................................................................. 5
Halaman web aplikasi clustering ......................................................................................... 8
Tampilan utama aplikasi OLAP........................................................................................... 9
Visualisasi grafik hasil operasi OLAP. ............................................................................. 10
Modul filter visualisasi GIS. .............................................................................................. 10
Visualisasi GIS hasil clustering. ........................................................................................ 11

DAFTAR LAMPIRAN
Halaman
1
2
3
4

5
6
7
8
9
10
11

Pusat cluster untuk k=4 dan s=15......................................................................................
Jumlah anggota cluster untuk k=4 dan s=15. .....................................................................
Contoh visualisasi clustering untuk wilayah kabupaten dan periode waktu bulan................
Contoh visualisasi clustering untuk wilayah provinsi dan periode waktu bulan. ..................
Contoh visualisasi clustering untuk wilayah pulau dan periode waktu bulan. ......................
Contoh visualisasi clustering untuk wilayah kabupaten dan periode waktu quarter. ............
Contoh visualisasi clustering untuk wilayah provinsi dan periode waktu quarter ................
Contoh visualisasi clustering untuk wilayah pulau dan periode waktu quarter. ...................
Contoh visualisasi clustering untuk wilayah kabupaten dan periode waktu tahun................
Contoh visualisasi clustering untuk wilayah provinsi dan periode waktu tahun. ..................
Contoh visualisasi clustering untuk wilayah pulau dan periode waktu tahun. ......................

15
16
17
17
18
18
19
19
20
20
21

v

0

PENDAHULUAN
Latar Belakang
Pada tahun 90-an di Indonesia banyak
terjadi kebakaran hutan. Apabila hal ini tidak

mendapat penanganan atau perhatian khusus
tentu akan berdampak buruk. Salah satu
penanganan yang bisa dilakukan adalah
dengan melakukan pencegahan. Pencegahan
yang bisa dilakukan adalah dengan
mengetahui persebaran titik-titik panas
(hotspot). Pada penelitian sebelumnya yang
dilakukan oleh Hayardisi (2008) data titik-titik
panas telah diolah dengan membangun data
warehouse dan aplikasi OLAP mengenai
persebaran hotspot yang disajikan dalam
bentuk crosstab dan grafik.
Untuk
memudahkan pengguna dalam mendapatkan
kelompok sebaran jumlah hotspot di setiap
wilayah di Indonesia, diperlukan visualisasi
hasil clustering dari data tersebut dalam
bentuk peta. Visualisasi dalam bentuk peta
dirasa perlu karena ketika informasi yang di
tampilkan hanya dalam bentuk keterangan
lokasi tanpa ada visualisasi langsung dimana
lokasi itu berada, pengguna akan mengalami
kesulitan karena harus mengerjakan dua tugas,
yaitu melihat lokasi persebaran titik panas,
kemudian melihat lagi dalam peta dimana
lokasi tersebut sebenarnya berada. Pada
visualisasi dalam bentuk peta, pengguna akan
langsung mengetahui lokasi geografis
persebaran titik panas, sehingga ketika
seorang pengguna yang kurang familiar
mengenai
informasi
lokasi-lokasi
di
Indonesia, dia tetap bisa mengetahui lokasi
pasti persebaran titik panas.
Jumlah hotspot di Indonesia perlu di
visualisasikan karena jika persebaran hotspot
diketahui, pencegahan kebakaran hutan di
Indonesia dapat diatasi lebih dini. Visualisasi
dalam bentuk peta juga akan mempermudah
pihak yang berwenang untuk segera
melakukan langkah pencegahan kebakaran
hutan. Hasil clustering divisualisasikan dalam
bentuk peta yang menggambarkan persebaran
titik panas supaya pihak yang berwenang
lebih mudah untuk menentukan daerah mana
dulu yang menjadi prioritas untuk segera
dilakukan pencegahan kebakaran hutan.
Tujuan
Tujuan dari penelitian ini adalah:
Membangun sistem informasi geografis
untuk mengelola hasil operasi OLAP (On-

line Analytical Processing) untuk data
warehouse persebaran Hotspot
Memvisualisasikan hasil clustering dalam
bentuk peta dalam sistem informasi
geografis berbasis web untuk memudahkan
pengguna melihat lokasi persebaran titik
panas secara langsung.
Ruang Lingkup
Clustering
dilakukan
untuk
data
persebaran hotspot sampai dengan tingkat
Kabupaten dari tahun 2000 sampai dengan
2004 menggunakan metode K-means.
Manfaat
Aplikasi yang dibuat dalam penelitian ini
diharapkan dapat melengkapi hasil visualisasi
pada OLAP untuk persebaran hotspot yang
telah dibangun dalam penelitian sebelumnya
(Hayardisi 2008). Informasi yang dihasilkan
dapat digunakan oleh
pihak-pihak yang
membutuhkan informasi mengenai persebaran
hotspot
untuk
keperluan
pencegahan
kebakaran hutan.

TINJAUAN PUSTAKA
Clustering
Pengertian umum dari clustering adalah
proses pengelompokan objek-objek fisik
maupun abstrak ke dalam kelas-kelas tertentu
di mana objek dalam tiap kelas (cluster)
memiliki kemiripan dan tiap kelas memiliki
perbedaan yang membedakan dari objek
dalam kelas lain (Han & Kamber 2006).
Kemiripan dari objek dinilai berdasar nilai
atribut dan deskripsi objek
Algoritme K-Means
K-means adalah algoritme clustering
yang bersifat partitional yaitu membagi data
menjadi sub himpunan data (cluster ) yang
tidak overlap, sehingga tiap objek data hanya
memiliki tepat satu kelas. Dalam partitionalclustering yang paling sering digunakan
adalah clustering berdasarkan criteria square
error yang tujuannya adalah untuk
memperoleh partisi dengan jumlah cluster
tetap tetapi dengan total square error yang
kecil.
Sebagai contoh misalkan terdapat
himpunan N data yang dipartisi dalam k
cluster {C1 , C 2 ,...,C k } , tiap C k mempunyai n k
sample dan tiap sample dan tepat satu cluster,

1

sehingga

nk

N,

di mana k=1,..,K. Mean

vector M k dari cluster C k didefinisikan
sebagai centroid dari cluster (Kantardzic
2003) atau:
nk

Mk

(1 / n k )

x ik

,
dengan xik adalah sample ke-i pada
cluster C k . Square error untuk cluster C k
adalah jumlah kuadrat jarak Euclidean antara
tiap sample dalam C k dan centroidnya. Error
ini juga disebut within-cluster variation.
i 1

nk

ek2

M k )2

( xik

i 1
.
Square Error untuk seluruh cluster yang
terdiri dari k clusters adalah jumlah dari
within-cluster variations.
K

E k2

e k2

k 1
,
Langkah-langkah dalam algoritme K-Means
(Kantardzic 2003):

1.

2.
3.
4.

Menentukan initial partition dengan k
cluster yang berisi sample yang dipilih
secara acak, kemudian dihitung centroid
dari tiap-tiap cluster.
Membangkitkan partisi baru dengan
penugasan tiap sample terhadap pusat
cluster terdekat.
Menghitung pusat cluster baru sebagai
centroid dari cluster.
Mengulangi langkah 2 dan 3 sampai nilai
optimum dari fungsi kriteria dipenuhi
(atau sampai anggota cluster stabil)

Karakteristik algoritme K-Means (Katardzic
2003) sebagai berikut:
Kompleksitasnya O(nkl) dangan n adalah
jumlah objek data, k adalah jumlah cluster
dan l adalah banyaknya iterasi. Pada
umumnya k dan l tetap sehingga
kompleksitas algoritme ini linear terhadap
ukuran data.
Bisa digunakan untuk menyimpan data
dalam memori utama dengan waktu akses
elemen yang cepat dan efisien.
Sangat sensitif pada noise dan outline
karena mempengaruhi nilai mean.
Evaluasi Cluster
Kemampuan untuk mendeteksi ada
tidaknya struktur tidak acak pada data. Hal ini
merupakan salah satu aspek penting dalam
validasi cluster. Aspek lain yang juga

merupakan aspek penting dalam validasi
cluster (Tan et al.2006) yaitu:
Menentukan clustering tendency dari data.
Menentukan jumlah cluster yang tepat.
Mengevaluasi seberapa baik hasil analisis
cluster
tanpa
diberikan
informasi
eksternal.
Membandingkan hasil analisis cluster
terhadap hasil eksternal yang diketahui.
Membandingkan dua himpunan cluster
untuk menentukan cluster terbaik.
Ukuran–ukuran
evaluasi
dapat
digolongkan menjadi 3 jenis (Tan et al. 2006)
antara lain:
Unsupervised: mengukur goodness dari
struktur clustering tanpa informasi
eksternal, salah satu contohnya adalah SSE
Supervised: mengukur kecocokan stuktur
clustering dengan struktur eksternal.
Relative: membandingkan clustering yang
berbeda. Besaran evaluasi cluster relatif
merupakan teknik supervised atau
unsupervised yang digunakan.
Sistem Informasi Geografis (SIG)
Sistem informasi geografis adalah suatu
sistem berbasis komputer yang memiliki
kemampuan untuk menangkap, menyimpan,
mengkueri, menganalisis dan menyajikan data
geospatial (Chang 2008). Data geospatial
adalah data yang menjelaskan lokasi dan
karakteristik dari fitur sapsial seperti jalan,
bidang tanah, permekaan tanah, serta vegetasi
(Chang 2008).
Secara umum komponen SIG dapat
dibagi menjadi beberapa komponen utama
(Chang 2008) yaitu:
Sistem
komputer
yang
mencakup
perangkat keras dan sistem operasi yang
berkaitan dengan GIS.
Perangkat lunak GIS yang mencakup
program dan antarmuka pengguna untuk
menjalankan perangkat keras. Tampilan
untuk user yang biasanya ada dalam GIS
adalah: menu area, ikon grafik, dan
command line.
Manusia yang mengacu pada ahli GIS
dan pengguna yang memerlukan GIS
Data yang terdiri dari banyak input yang
digunakan sistem untuk menghasilkan
informasi.
Infrastruktur
yang
mengacu
pada
organisasi, administratif, dan lingkungan
yang paling sesuai untuk mendukung
operasi GIS.
2

Bentuk dan Stuktur Data pada SIG
Data SIG dalam kerangka kerjanya dapat
dibagi menjadi dua kategori (Chang 2008)
yaitu:
Data spatial merupakan data yang
menjelaskan lokasi dari fitur spatial yang
merupakan bentukan dari fitur-fitur spatial
seperti titik, garis dan bidang yang akan
membentuk koordinat (data vektor), atau
bisa juga diartikan sebagai data yang cara
penggunaan untuk merepresentasikan
variasi spatial nya menggunakan grid
(data raster). Data ini bisa berupa diskret
(direpresentasikan dengan data vektor)
atau kontinu (direpresentasikan dengan
data raster).
Data
atribut
yang
merupakan
pendeksripsian karakteristik fitur-fitur
spatial.
Operasi dalam SIG
Secara umum operasi dalam SIG dapat
digolongkan ke dalam enam kelompok
(Chang 2008) yaitu:
Input data spatial yang merupakan
pemasukan data dan pengubahan data.
Manajemen data atribut yang merupakan
pemasukan
dan
verifikasi
selama
digitalisasi dan pengeditan. Tabel atribut
dalam database harus didesain untuk
memfasilitasi pemasukan, pencarian, temu
kembali, manipulasi data dan hasil
keluaran.
Menampilkan data dalam bentuk peta,
Tabel dan grafik dari hasil query dan
analisis data.
Eksplorasi data yang merupakan query dan
analisis yang berpusat pada data untuk
melihat trend data, subset data dan
hubungan antar data.
Analisis data. Pada data vektor analisis
dilakukan dengan: buffering, overlay,
distance measure, dan manipulasi peta.
Pada analisis raster, akan berkaitan dengan
local neighborhood, zonal dan global
Pemodelan
SIG
yang
merupakan
penunjukan dari penggunaan SIG dalam
pembuatan model analisis.
Hotspot (titik panas)
Data hotspot
merupakan salah satu
indikator kemungkinan terjadinya kebakaran
hutan pada wilayah tertentu. Pemantauan
hotspot dilakukan dengan pengindraan jauh

(remote sensing)
(Hayardisi 2008).

menggunakan

satelit

Satelit yang biasa digunakan adalah
satelit NOAA (national Ocean and
Atmospheric Administration) melalui sensor
AVHRR (Advanced Very High Resolution
Radiometer) karena sensor tersebut dapat
membedakan suhu permukaan di darat dan
laut. Satelit ini mendeteksi objek di
permukaan bumi yang memiliki suhu relatif
lebih tinggi dibandingkan sekitarnya. Suhu
yang dideteksi berkisar antara 210 K (37°C)
untuk malam hari dan 315 K (42°C) untuk
saing hari.
Penginderaan satelit tersebut tentunya
akan membantu penanganan
masalah
kebakaran hutan, karena jika posisi lokasi
hotspot telah diketahui maka bisa dilakukan
penanganan lebih dini untuk mencegah
terjadinya kebakaran hutan.
Data Warehouse
Data warehouse adalah sistem data yang
mengelola operasi secara terpisah dari
database. Sistem ini menyediakan layanan
pengintegrasian dengan aplikasi lain. Data
warehouse juga menyediakan arsitektur yang
bisa digunakan sebagai alat analisis (Han &
Kamber 2006).
Karakteristik yang membedakan data
warehouse dengan sistem penyimpanan lain
adalah (Han & Kamber 2006).
Berorientasi subjek: disusun berdasar
pada subjek utama. Data yang tidak
berguna dihapus pada pengambilan
keputusan.
Terintegrasi: biasanya dibangun dengan
mengintegrasikan berbagai sumber yang
berbeda. Teknik pembersihan dan
integrasi
data
dilakukan
untuk
memastikan kekonsistenan data.
Time-variant: data disimpan untuk
menyediakan informasi berdasarkan
perspektif waktu.
Non-volatile: data warehouse secara fisik
terpisah dari database operasional
Aplikasi OLAP (On-line Analytical
Processing)
OLAP merupakan teknologi database
yang menyediakan sebuah penampilan
multidimensional dari sebuah data dan alat
yang cocok untuk menganalisisnya. Fungsi
OLAP bagi pengguna antara lain (Cabbibo &
Torlone 1997):
3

Mendefinisikan analisis persamaan
melalui dimensi-dimensi data beserta
perhitungannya
Menyimpulkan dataset, agregasi dan
desagregasi dari beberapa dimensi.
Mengevaluasi dan menampilkan dari
hasil analisis.
Operasi OLAP secara umum adalah sebagai
berikut (Han & Kamber 2006):
Roll-up: operasi ini dilakukan pada
kubus pusat dengan menaikkan tingkatan
satu hierarki (pada saat dilakukan operasi
ini jumlah dimensi akan berkurang).
Misalnya
dari
kubus
kecamatan
dinaikkan menjadi kubus kabupaten.
Drill-down: operasi ini merepresentasikan kubus secara lebih detail (kebalikan
dari operasi roll-up).
Slice dan dice: operasi ini melakukan
pemilihan satu dimensi dari kubus
sehingga dihasilkan subcube. Operasi
dice mendefinisikan subcube
dari
pemilihan dua dimensi atau lebih.
Pivot (rotate): operasi ini merupakan
visualisasi data secara berbeda (dengan
memutar koordinat) sehingga didapat
presentasi data dalam bentuk lain.

METODE PENELITIAN
Pada penelitian ini akan dilakukan
pengembangan
aplikasi
OLAP
untuk
persebaran data hotspot dengan tambahan
modul visualisasi. Tahap-tahap yang akan
dilakukan untuk mengembangkan aplikasi
OLAP untuk hotspot adalah sebagai berikut:
Praproses Data
Pada tahap praproses dilakukan pemilihan
data dan pengambilan data, transformasi data
dan pembersihan data. Pada tahapan data
cleaning, dilakukan pembersihan database
untuk menghilangkan atau mengurangi
kesalahan-kesalahan pada database. Pada
aplikasi OLAP yang sebelumnya, telah
tersedia database untuk wilayah-wilayah
persebaran hotspot. Tahap data cleaning yang
dilakukan yaitu dengan penyesuaian nama
wilayah dari database OLAP dengan
penamaan pada file .dbf. File dbf merupakan
file yang menyimpan data wilayah. Data ini
akan terhubung ke file shp yang merupakan
file
yang menyimpan
data
spatial.
Penyesuaian dilakukan pada file .dbf, yaitu
dengan menyamakan penamaan suatu

wilayah, tujuannya yaitu agar ketika
dilakukan query, data yang terambil sesuai
antara output dari aplikasi OLAP dengan data
yang ada pada file .dbf.
Clustering
Tahapan ini merupakan tahapan di mana
dilakukan pengambilan data dari hasil operasi
OLAP sehingga data menjadi sesuatu yang
lebih bermanfaat dan bermakna. Algoritme
yang dipakai untuk modul ini adalah
Algoritme K-Means. Data hotspot hasil
operasi OLAP pada data warehouse
persebaran hotspot dilakukan clustering.
Sebagai contoh, ketika ingin melihat
persebaran titik panas pada tahun X di
wilayah Y. Data yang diambil adalah data
pada tahun X di wilayah Y. Pertama
dilakukan operasi OLAP untuk memilih salah
satu wilayah tertentu (drill-down sampai level
yang diinginkan). Dari wilayah ini ditentukan
dimensi tahun (drill-down) tertentu. Setelah
didapat crosstab dengan dimensi yang
menampilkan tahun dan wilayah (sesuai
dengan level hirarki yang diinginkan,
misalnya: provinsi atau kabupaten), yang
dilakukan selanjutnya adalah operasi slice dan
dice pada tahun sehingga didapatkan data
persebaran titik panas dalam tahun tertentu
pada suatu cakupan wilayah tertentu (provinsi
/kabupaten). Atribut yang digunakan untuk
tahap clustering yaitu atribut jumlah titik
panas.
Setelah diperoleh data titik persebaran
titik panas pada cakupan wilayah tertentu dan
tahun tertentu yang dilakukan selanjutnya
adalah clustering. Jumlah kelas yang dipilih
adalah sejumlah 4 yakni kecil, sedang, besar,
dan sangat besar. Tingkatan kelas ini
didasarkan pada jumlah titik panas yang ada
pada wilayah tertentu dan tahun tertentu.
Langkah-langkah clustering mengunakan
Algoritme K-means adalah sebagai berikut:
1.

2.

3.
4.

Menentukan initial partition dengan k
cluster berisi samples yang dipilih secara
acak, hitung centroid dari tiap-tiap
cluster.
Membangkitkan partisi baru dengan
assigning setiap sample terhadap pusat
cluster terdekat.
Menghitung pusat-pusat cluster baru
sebagai centroids dari cluster.
Mengulangi langkah 2 dan 3 sampai nilai
optimum dari fungsi kriteria dipenuhi
(atau sampai cluster membership stabil).
cluster membership ialah keanggotaan
4

yang menunjukkan cluster, untuk setiap
objek/ kasus yang menjadi anggotanya

visualisasi. Untuk tahapan penelitian disajikan
pula pada Gambar 3.

Evaluasi Cluster

Data Sumber
DBF

Pada tahap ini dilakukan evaluasi
terhadap cluster yang dihasilkan. Evaluasi
cluster dilakukan dengan menggunakan Sum
of Square Error (SSE) dari kombinasi random
seed.

DBF

DBF

XLS

Lapis bawah:
Data Warehouse
DBMS

Data Preprocessing

MsSQL Server

Data
Warehouse

Visualisasi Clustering
Pada tahap ini akan dibangun modul
visualisasi. Modul ini menampilkan dari hasil
clustering dalam bentuk peta. Peta dibangun
menggunakan MapServer sebagai web-server
dan Chameleon sebagai framework. Peta
menunjukkan pengelompokan wilayah hotspot
berdasarkan kelasnya yaitu tinggi, sedang dan
rendah. Rancangan tampilan peta dapat dilihat
pada Gambar 1 yang diadopsi dari penelitian
sebelumnya (Harianja 2008).

ADOdb
Palo
Excel
Add-In

Lapis tengah:
Web server
OLAP server

Palo API
Palo
OLAP server

Apache PHP
web server
JpGraph

Clusteirng
Laptop

KEYMAP

Workstation

Visualis
asi

LEGEND

Presentasi
OLAP tool

MAP

Lapis atas:
Web browser

NAVIGATION
TOOLS
SCALEBAR
MEANS INFORMATION

Line Plot

Grafik Analisa

Crosstab

GIS

Gambar 2 Arsitektur sistem.
Sumber
Data

Gambar 1 Desain layout
Integrasi OLAP dan SIG
Pada tahap ini akan dilakukan
pengintegrasian dari aplikasi OLAP yang
sebelumnya telah dikembangkan (Hayardisi
2008) dengan aplikasi visualisasi GIS yang
telah dikembangkan oleh Harianja 2008.
Tahap
pengintegrasian
yaitu
dengan
menambahkan modul yang merupakan link
dari aplikasi OLAP yang telah di modifikasi
ke aplikasi SIG yang telah dimodifikasi.
Untuk memperjelas langkah-langkah pada
metode penelitian, bisa dilihat pada arsitektur
sistem yang disajikan pada Gambar 2 dan
disajikan pula tahapan penelitian untuk
memperjelas alur penelitian. Dalam penelitian
ini dilakukan pada aplikasi tambahan ini
adalah pengembangan modul visualisasi yang
di dalamnya mencakup modul clustering.
Pada modul ini akan ditambahkah menu untuk
memilih tahun, modul untuk clustering ini
sendiri terpisah dari aplikasi OLAP, clustering
dilakukan di luar sistem kemudian data hasil
clustering digunakan untuk keperluan

Data
Persebara
n Hotspot

Operasi
Olap

Jumlah

Cluster

K-Means
Clustering
Cluster
terbaik=

dengan
random
seed n

Cluster
Ya

Tidak
akurasi random
seed n > akurasi
random seed (n+1)

terbaik=

dengan
random
seed (n+1)

Cluster
terbaik untuk
visualisasi

Visualisasi

Peta
Persebaran
Hotspot

Gambar 3 Tahapan penelitian.
Lingkungan Pengembangan.
Beberapa perangkat lunak dan perangkat
keras yang digunakan untuk mengembangkan
sistem adalah sebagai berikut:

5

Perangkat lunak:
Sistem operasi: Windows XP Home
Edition,
WEKA versi 3.5.7,
ArcView GIS 3.3,
Map Server For Windows (ms4w) 2.3.1
Chameleon 2.4.1
Perangkat keras:
Prosessor intel Pentium 4 ~2GHz
Memory 2 GB RAM
Monitor dengan resolusi 1024×768
Mouse dan keyboard
HASIL DAN PEMBAHASAN
Praproses Data
Data awal penelitian ini diperoleh dari
hasil operasi OLAP. Data ini merupakan data
titik panas untuk wilayah Indonesia pada
tingkat pulau, provinsi dan kabupaten dalam
tahun, quarter dan bulan periode 2000 hingga
2004. Tahap pengambilan data yaitu dengan
menggunakan modul php sederhana. Data
yang didapat dari operasi OLAP disimpan
dalam format txt dengan ukuran 349kb. Data
ini mempunyai 15895 record dan mempunyai
dua atribut yaitu nama wilayah (pulau/
provinsi/
kabupaten)
[spasi]
waktu
(tahun/quarter/bulan) dan jumlah titik panas.
Atribut yang digunakan pada tahap clustering
yaitu atribut jumlah titik panas karena atribut
ini merupakan atribut numerik, karena
clutering hanya bisa dilakukan pada atribut
numerik. Atribut ini nantinya akan
dikelompokan kedalam 9 kelompok yang
kemudian akan diolah untuk keperluan
clustering dengan menggunakan WEKA.
Tahapan praproses yang dilakukan antara lain:
Pengelompokan data. Data yang didapat
dalam file txt tadi dikelompokan
berdasarkan jangkauan wilayah dan
waktunya. Pengelompokan dilakukan
dengan algoritme php sederhana. Hasil
dari pemisahan ini menghasilkan 9 file
txt. Masing-masing file mempunyai
tingkatan berbeda. Hasil dari pemisahan
ini yaitu:
o Tingkat Pulau dalam Tahun
o Tingkat Pulau dalam Quarter
o Tingkat Pulau dalam Bulan
o Tingkat Provinsi dalam Tahun
o Tingkat Provinsi dalam Quarter
o Tingkat Provinsi dalam Bulan
o Tingkat Kabupaten dalam Tahun
o Tingkat Kabupaten dalam Quarter

o

Tingkat Kabupaten dalam Bulan.
Pembersihan data dilakukan pada file dbf,
yaitu penghilangan atribut-atribut yang
tidak dipergunakan dan penyesuaian
nama-nama wilayah pada file dbf agar
sama dengan nama wilayah pada hasil
operasi OLAP.
Transformasi
data.
Data
hasil
pengelompokan diubah menjadi format
ARFF agar dapat diproses dalam
perangkat lunak WEKA. Atribut yang
dipergunakan dalam clustering adalah
atribut jumlah titik panas yang bertipe
numerik karena algoritme K-means
bekerja secara baik pada data dengan tipe
numerik, sedangkan atribut keterangan
wilayah dan waktu merupakan data yang
bertipe kategorik dan hanya dipergunakan
sebagai keterangan.

Clustering
Tahap clustering dilakukan menggunakan
algoritme
K-Means
yang
dilakukan
menggunakan WEKA versi 3.5.7. Data yang
di-cluster-kan yaitu data jumlah titik panas.
Percobaan dilakukan untuk ukuran cluster
sebanyak 4 cluster dan dilakukan percobaan
dengan random seed (s) 5, 10, 15, 20.
Percobaan
dilakukan
pada
sembilan
kombinasi clustering, sembilan kombinasi
tersebut mewakili tingkatan cakupan wilayah
dan tingkatan cakupan waktu. Clustering
dilakukan sebanyak jumlah kombinasi data
berdasarkan cakupan wilayah dan waktu.
Total percobaan clustering adalah 9 × 4 = 36
percobaan. Clustering tidak dilakukan
berdasarkan tiap hasil operasi OLAP karena
jika dilakukan clustering untuk tiap hasil
operasi OLAP. Sebagai contoh, misalnya data
pada tahun 2000 untuk wilayah A dilakukan
clustering yang berbeda dengan data tahun
2001 untuk wilayah A, data hasil clustering
kurang sesuai karena tidak ada patokan untuk
cluster satu dan cluster lainnya, misal nilai
besar untuk tahun 2000 termasuk kecil pada
tahun 2001, padahal jika di lihat dari datanya,
tahun 2000 memiliki jumlah titik panas yang
lebih sedikit dari tahun 2001, namun karena
data pembanding berbeda hasil dari clustering
akan berbeda, sehingga diperlukan standar
untuk semua clustering agar terdapat patokan
nilai titik panas untuk suatu wilayah tergolong
low, medium, high, atau very high. Hal ini
diterapkan agar standar nilai kecil pada tahun
misalnya 2000 dengan batas kecil pada tahun
2001 sama, hal ini juga bisa digunakan untuk

6

memantau perubahan titik panas dari waktu ke
waktu.
Hasil dari algoritme K-means adalah
pusat cluster (means) untuk masing-masing
cluster sesuai dengan ukuran clusternya.
Pemilihan jumlah 4 cluster disesuaikan
dengan
banyaknya
kelas
yang
di
representasikan yaitu low, medium, high, dan
very high. Pusat cluster yang dihasilkan dari
clustering dengan k=4 dan random seed s=5
pada data tingkat provinsi dengan periode
waktu bulan dapat dilihat pada Tabel 1. Pusat
cluster untuk kombinasi lain dapat dilihat
pada Lampiran 1.
Tabel 1 Pusat cluster untuk k=4 dan s=5
Cluster

Pusat cluster

Cluster 0

13.1344

Cluster 1

431.0612

Cluster 2

1240

Cluster 3

3060.6

Persentase dan jumlah anggota masingmasing cluster untuk ukuran cluter k=4 dan
s=5 pada tingkat provinsi dan periode waktu
bulan disajikan dalam Tabel 2. Persentase dan
jumlah anggota masing-masing cluster
disajikan pada Lampiran 2.
Tabel 2 Persentase dan jumlah anggota cluster
untuk k=4 dan s=5
Cluster
0
1
2
3

Jumlah
anggota
1131
49
15
5

Persentase(%)
94
4
1
0

Hasil dari tiap kombinasi wilayah dan
waktu dengan kombinasi k (ukuran cluster)
dan s (random seed) dievaluasi menggunakan
total SSE (Sum of square error). Total SSE
sudah mencukupi untuk evaluasi cluter
menggunakan K-means karena meminimalkan
SSE
(cohesion)
ekuivalen
dengan
memaksimalkan SSB (separation), (Tan P
2006).
Pada nilai k yang sama dengan perbedaan
nilai s, hasil clustering tidak menunjukkan
perbedaan yang berarti. Pada Tabel 3 dapat
dilihat bahwa nilai SSE rata-rata terbaik
didapat pada saat penggunaan random seed
5.Perbedaan iterasi juga tidak terlalu berubah
untuk nilai k yang sama. Hal ini dapat dilihat
pada Tabel 4 yakni iterasi pada k=4.
Karena nilai K-means menghitung error
dengan mengambil jarak titik tengah dari nilai
tiap anggota. Jadi ketika jumlah anggota sama
dengan jumlah cluster, tiap cluster akan
memiliki anggota yang nilainya sama dengan
nilai titik tengah nya sehingga tidak ada nilai
error.
Semua clustering menggunakan jumlah
cluster 4 sehingga didapat standar yang sama
sebagai patokan untuk semua clustering.
Pembagian cluster menjadi 4 cluster terdiri
dari cluster 0 yang merupakan clustering
dengan jumlah titik panas kecil, cluster 1 yang
merupakan clustering dengan jumlah titik
panas sedang, cluster 2 yang merupakan
clustering dengan jumlah titik panas besar,
cluster 3 yang merupakan clustering dengan
jumlah titik panas sangat besar.

Evaluasi Cluster
Tabel 3 Total SSE dengan k=4 dengan kombinasi random seed
Bln-Kab
Qtr-Kab
Thn-Kab
Bln-prov
Qtr-prov
Thn-prov
Bln-plu
Qtr-plu
Thn-plu
Rata-rata

S=5
0.5527
0.4260
0.3276
0.2979
0.2755
0.3238
0.2755
0.1369
0.0339
0.294422

S=10
0.5527
0.4260
0.3276
0.2979
0.2755
0.3238
0.2755
0.1369
0.0339
0.294422

S=15
0.5527
0.4260
0.3276
0.2979
0.2755
0.3238
0.2755
0.1369
0.2462
0.318011

S=20
0.5527
0.4260
0.3276
0.2979
0.2755
0.3238
0.2755
0.1369
0.2462
0.318011

7

Tabel 4 Jumlah iterasi dengan k=4
random
seed
Bln-Kab
Qtr-Kab
Thn-Kab
Bln-prov
Qtr-prov
Thn-prov
Bln-plu
Qtr-plu
Thn-plu
Rata-rata

S=5

S=10

S=15

S=20

25
22
21
20
17
5
14
15
8
16.33

26
22
21
20
17
7
18
14
2
16.33

26
21
21
19
17
9
18
13
6
16.33

24
19
22
20
13
7
18
16
4
15.88

Visualisasi Clustering
Hasil clustering dari data persebaran titik
panas divisualisasikan agar mempermudah
analisis. Untuk keperluan tersebut maka
dibuatlah aplikasi dalam bentuk sistem
informasi geografis (SIG) berbasis web.
Aplikasi
yang
dikembangkan
ini
menggunakan metode dan modul-modul yang
sebelumnya telah dikembangkan oleh
Harianja (2008). Aplikasi ini memplotkan
hasil clustering dengan melibatkan aspek
spatialya dan menampilkan nilai titik tengah
tiap cluster dan detail nilai atributnya
Aplikasi visualisasi ini diintegrasikan
pada aplikasi OLAP yang sebelumnya telah
dikembangkan oleh Hayardisi (2008).
Aplikasi ini dikembangkan menggunakan
Mapserver sebagai web servernya, map file
sebagai konfigurasi, Chameleon sebagai
framework, modul php dan html file sebagai
template. Pada penelitian ini modul-modul
dan file-file yang dipakai tersebut sebelumnya
dibuat dengan modul php, namun pengaturan
dan formatnya sama dengan modul dan filefile yang telah dikembangkan oleh Harianja
(2008), namun karena modul visualisasi yang
akan dikembangkan ingin bersifat dinamis
maka beberapa file-file yang dipakai dibuat
pada saat dibutuhkan.
Map file menyimpan konfigurasi dari
aplikasi yang dibutuhkan oleh Mapserver.
Konfigurasi ini meliputi informasi mengenai
ukuran peta, warna peta, path dari file shp dan
dbf, huruf yang digunakan, dan lain-lain. File
html digunakan untuk menyimpan template
yang dipergunakan. Template ini berisi
komponen-komponen yang akan dipakai
untuk keperluan visualisasi. Komponenkomponen tersebut telah disediakan oleh

Chameleon. Komponen yang dipergunakan
antara lain mapDHTML, KeyMap, ZoomIn,
ZoomOut, PanMap, Recenter, ZoomAllLayers,
Extent, Query. Modul php adalah modul untuk
melihat detail data setiap ukuran cluster.
Penambahan pengaturan yang dilakukan
yaitu pada map file. Pada map file
ditambahkan class untuk menutup daerah
yang tidak ingin divisualisasikan.
Data yang dipakai untuk keperluan
visualisasi disimpan dalam file .dbf. Data ini
berisi hasil operasi OLAP yang telah dicluster-kan. Hasil dari data yang diolah ini
adalah peta yang memplotkan suatu daerah
dalam wilayah dan periode tertentu, serta label
cluster-nya. Proses pemasukan nilai cluster
pada file dbf dilakukan dengan menggunakan
spreadsheet.
Pada halaman visualisasi diplotkan
dengan warna yang berbeda untuk tiap cluster.
Komponen lain yang terdapat pada halaman
visualisasi antara lain legend. Komponen
legend memberi keterangan tentang warna
untuk tiap cluster. Dalam halaman ini juga
terdapat komponen scalebar, dan navigation
tools yang terdiri dari zoom in, zoom out,
recenter, pan, map unit, left extent (batas kiri),
right extent(batas kanan), top extent (batas
atas), dan bottom extent (batas bawah) dari
map . Mouse x dan mouse y menyatakan letak
pointer pada map. Semua komponen ini juga
telah tersedia pada aplikasi yang sebelumnya
(Harianja, 2008) untuk lebih jelasnya tampilan
aplikasi yang telah dikembangkan (Harianja
2008) dapat dilihat pada Gambar 4.

Gambar 4 halaman web aplikasi clustering
Integrasi OLAP dan SIG
Integrasi dilakukan dengan memodifikasi
modul utama aplikasi OLAP, yaitu untuk
menghubungkan web server Apache dan
WebServis. Modifikasi tersebut dilakukan
pada modul olapCrosstab.php
dan pada

8

index.php yaitu dengan menambahkan modul
untuk pemilihan waktu dan wilayah.
Pada modul pemilihan tahun dan wilayah,
data kombinasi yang dipilih yaitu data dari
semua periode waktu. Pemilihan waktu bisa
dilakukan pada tingkat tahun, quarter, dan
bulan. Setelah memilih tahun, kombinasi yang
bisa dipilih adalah kombinasi wilayah.
Batasan pemilihan wilayah yaitu dari tingkat
pulau sampai pada tingkat kabupaten saja.
Modul yang dibuat selanjutnya adalah
modul untuk membuat file-file yang
diperlukan oleh aplikasi visual clustering. File
tersebut adalah file dalam bentuk file map dan
file phtml. Setelah diperoleh data yang ingin
ditampilkan, file-file tersebut ditulis, file-file
tersebut kemudian dimuat ke dalam modul
visualisasi untuk keperluan visualisasi.
Pada pengintegrasian antara aplikasi
OLAP dan SIG sebelumnya harus dilakukan
pengaturan terlebih dahulu, yang meliputi
penentuan file-file yang dibutuhkan (extension
untuk library php nya) yang perlu
ditambahkan dan dibutuhkan serta framework.
Modul visualisasi dan modul OLAP
merupakan dua modul yang terpisah. Modul
visualisasi mengolah data di luar aplikasi
OLAP. Data yang diolah merupakan data
persebaran titik panas yang telah dilakukan
clustering. Data tersebut disimpan dalam file
dbf. Data ini kemudian di-load untuk
keperluan visualisasi. Data yang disimpan ini
berupa data titik panas dan keterangan

mengenai clusternya. Nilai cluster inilah yang
digunakan sebagai pembeda pengelompokan
warna antar tiap daerah. Selain nilai cluster,
atribut yang diambil yaitu atribut wilayahnya.
Fasilitas-fasilitas yang sebelumnya telah
ada pada aplikasi OLAP (Hayardisi 2008)
antara lain (dapat dilihat pada Gambar 5):
Pengguna dapat memilih database, kubus
data dan dimensi yang akan ditampilkan
Visualisasi dalam bentuk crosstab dan
grafik yang bisa berupa bar plit dan pie
plot (dapat dilihat pada Gambar 6)
Operasi OLAP seperti drill down dan
roll up
Filter dimensi untuk menyeleksi tampilan
pada kolom (x-axis) dan baris (y-axis).
Filter pada dimensi waktu meliputi
quarter dan bulan
Fasilitas yang ditambahkan pada aplikasi
OLAP (dapat dililhat pada Gambar 7):
Filter dimensi waktu dan wilayah untuk
visualisasi.
Clustering data persebaran titik panas
dari operasi OLAP dengan batasan bulan
dan kabupaten.
Visualisasi dalam bentuk SIG yang
dikembangkan dari aplikasi visual
clustering (Harianja 2008), dapat dilihat
pada Gambar 8.
Detail data hasil clustering yang
dikembangkan oleh Harianja (2008).

Gambar 5 Tampilan utama aplikasi OLAP

9

Gambar 6 Visualisasi grafik hasil operasi OLAP.

Gambar 7 Modul filter Visualisasi GIS.

10

Gambar 8 Visualisasi GIS hasil Clustering.
Gambar 8 bagian kiri merupakan legend.
Legend disini berfungsi untuk menampilkan
layer-layer yang di load pada peta. Gambar di
tengah merupakan visualisasi hasil clustering
berupa peta. Bagian atas tengah merupakan
judul atau keterangan mengenai lokasi dan
waktu yang divisualisasikan (tampilan utama).
Tampilan sebelah kanan merupakan keymap
(peta kecil untuk mempermudah navigasi),
zoom in, zoom out, recenter, pan , dan lainlain Bagian bawah dari gambar merupakan
informasi dari hasil clustering. Pada bagian ini
dijelaskan tiap cluster memiliki nilai tengah
berapa, standar deviasinya berapa beserta
jumlah hotspot/titik panas. Jadi untuk tiap
cluster dapat dilihat berapa jumlah jangkauan
titik panasnya.
Presentasi
Clustering

Persebaran

Hotspot

Hasil

Dari aplikasi OLAP diambil 9 kombinasi
clustering pada wilayah Indonesia dari tahun
2000 sampai tahun 2004 dengan tingkat
wilayah kabupaten, provinsi dan pulau.

Pada tingkat kabupaten dan bulan,
diambil data titik panas untuk semua
kabupaten di Indonesia pada bulan Januari
2000 sampai bulan desember 2004. Data ini
kemudian di-cluster-kan. Sebagai contoh
ketika ingin dilihat clustering untuk kabupaten
pada provinsi Kalimantan tengah bulan
Januari 2000, pertama-tama dipilih periode
tahun 2000 dan bulan Januari, kemudian
dipilih kabupaten-kabupaten pada provinsi
Kalimantan tengah. Hasil clustering bisa
dilihat pada Lampiran 3.
Pada tingkat kabupaten dan quarter,
diambil data titik panas untuk semua
kabupaten di Indonesia pada quarter pertama
2000 sampai quarter ke empat tahun 2004.
Data ini kemudian di-cluster-kan. Sebagai
contoh ketika ingin dilihat clustering untuk
kabupaten pada Kalimantan tengah pada
quarter pertama tahun 2000, pertama-tama
dipilih periode tahun yaitu tahun 2000 dan
quarter 1, kemudian dipilih kabupatenkabupaten pada provinsi Kalimantan tengah.
Hasil clustering bisa dilihat pada Lampiran 4.
Pada tingkat kabupaten dan tahun,
diambil data titik panas untuk semua
kabupaten di Indonesia pada tahun 2000
11

sampai tahun 2004. Data ini kemudian
dilakukan clustering. Sebagai contoh ketika
ingin dilihat clustering untuk kabupaten pada
Kalimantan tengah pada tahun 2000, pertamatama dipilih periode tahun yaitu tahun 2000,
kemudian dipilih kabupaten-kabupaten pada
provinsi Kalimantan tengah. Hasil clustering
bisa dilihat pada Lampiran 5.
Pada tingkat provinsi dan bulan, diambil
data titik panas untuk semua provinsi di
Indonesia pada bulan Januari 2000 sampai
bulan desember 2004. Data ini kemudian
dilakukan clustering. Sebagai contoh ketika
ingin dilihat clustering untuk provinsi
Kalimantan pada bulan Januari 2000, pertama
dipilih periode tahun 2000 dan bulan Januari,
kemudian dipilih provinsi Kalimantan. Hasil
clustering bisa dilihat pada Lampiran 6.
Pada tingkat provinsi dan quarter,
diambil data titik panas untuk semua provinsi
di Indonesia pada quarter pertama 2000
sampai quarter ke-empat 2004. Data ini
kemudian dilakukan clustering. Sebagai
contoh ketika ingin dilihat clustering untuk
provinsi Kalimantan pada quarter pertama
2000, pertama-tama dipilih periode tahun
2000 dan quarter 1, kemudian dipilih provinsi
Kalimantan. Hasil clustering bisa dilihat pada
Lampiran 7.
Pada tingkat provinsi dan tahun, diambil
data titik panas untuk semua provinsi di
Indonesia pada tahun 2000 sampai tahun
2004. Data ini kemudian dilakukan clustering.
Sebagai contoh ketika ingin dilihat clustering
untuk provinsi Kalimantan pada tahun 2000,
pertama-tama dipilih periode tahun 2000,
kemudian dipilih provinsi Kalimantan. Hasil
clustering bisa dilihat pada Lampiran 8.
Pada tingkat pulau dan bulan, diambil
data titik panas untuk semua pulau di
Indonesia pada bulan Januari 2000 sampai
bulan desember 2004. Data ini kemudian
dilakukan clustering. Sebagai contoh ketika
ingin dilihat clustering untuk pulau di
Indonesia bulan Januari 2000, pertama-tama
dipilih periode tahun 2000 dan bulan Januari,
kemudian dipilih All Indonesia. Hasil
clustering bisa dilihat pada Lampiran 9.
Pada tingkat pulau dan quarter, diambil
data titik panas untuk semua pulau di
Indonesia pada quarter pertama tahun 2000
sampai quarter ke-empat 2004. Data ini
kemudian dilakukan clustering. Sebagai
contoh ketika ingin dilihat clustering untuk
pulau di Indonesia quarter pertama tahun

2000, pertama dipilih periode tahun 2000 dan
quarter 1, kemudian dipilih All Indonesia.
Hasil clustering bisa dilihat pada Lampiran
10.
Pada tingkat pulau dan tahun, diambil
data titik panas untuk semua pulau di
Indonesia dari tahun 2000 sampai tahun 2004.
Data ini kemudian dilakukan clustering.
Sebagai contoh ketika ingin dilihat clustering
untuk pulau di Indonesia tahun 2000, pertamatama dipilih periode tahun 2000, kemudian
dipilih All Indonesia. Hasil clustering bisa
dilihat pada Lampiran 11

KESIMPULAN DAN SARAN
Kesimpulan
Proses clustering yang dilakukan pada
penelitian ini menggunakan algoritme KMeans data persebaran titik panas dari hasil
operasi OLAP. Hasil clustering ini kemudian
diplotkan dengan melibatkan aspek spatialnya
untuk membantu keperluan visualisasi dalam
bentuk Sistem Informasi Geografis (SIG)
berbasis web. Clustering dilakukan dengan
ukuran cluster 4 dan random seed 5, 10, 15,
20.
Clustering dilakukan dengan ukuran
cluster 4 dan random seed 5 karena pada
ukuran ini didapat range dan nilai SSE yang
cukup baik. Dari visualisasi terlihat bahwa
clustering jumlah titik panas untuk pulau
Kalimantan dan Sumatera sama kecuali pada
tahun 2000, di mana pulau Sumatera
tergolong dalam cluster 3, sementara pulau
Kalimantan pada cluster 1. Untuk pulau Jawa
dan Sulawesi juga mempunyai kesamaan
clustering kecuali pada tahun 2004, di mana
pulau Sulawesi tergolong cluster 1 sementara
pulau jawa tergolong cluster 0. Jumlah titik
panas terbesar terdapat pada tahun 2004. Dari
penelitian dapat dilihat juga bahwa dari
periode tahun 2000 sampai 2004, pulau Jawa
tergolong pada cluster 0.
Dari visualisasi bisa diketahui bahwa
pulau Sumatera dan Kalimantan memiliki
jumlah titik panas yang besar, sehingga dapat
dilakukan langkah-langkah pencegahan atau
penanganan.
Saran
Modul tambahan pada aplikasi OLAP ini
masih memiliki beberapa kekurangan. Saran
untuk penelitian lebih lanjut adalah :

12

Pembuatan modul update data untuk
clustering, sehingga ketika data pada
aplikasi OLAP di update, secara otomatis
data clustering juga ter-update secara
otomatis.
Merapikan
tampilan
dengan
menghilangkan keterangan legend layer
pada daerah yang tidak di-cluster-kan.
Pembuatan aplikasi dengan framework
yang lain seperti pmapper dan lain-lain,
untuk aplikasi ini dikembangkan dengan
Chameleon 2.4.1.
Penambahan clustering untuk dimensi
dimensi waktu lain pada aplikasi OLAP.
Pada penelitian ini dimensi waktu yang
digunakan adalah dimensi untuk monthly
hotspot.
Visualisasi dalam bentuk titik-titik panas
dan informasi lain seperti lahan hutan,
pertanian, dan lain-lain.

DAFTAR PUSTAKA
Cabbibo L, Torlone R. 1997. Querying
Multidimensional
Database.
http://citeseer.ist.psu.edu/cache/papers/cs
/21194/http:zSzzSzwww.dia.uniroma3.itzS
z~cabibbozSzpubzSzpdfzSzdbp197.pdf/ca
bibbo97queriying.pdf [9 Januari 2008]

Chang kang-Tsung.2008. Introduction to
Geograpic Information System.New York
: McGraw-Hills.
Han J, Kamber M.2006. Data mining:
Concept and techniques Ed ke-2. San
Francisco: Morgan kaufman Publisher.
Harianja H. 2008. Visualisasi K-means
Clustering pada Data Potensi Pertanian
Desa di Bogor menggunakan Mapserver
[Skripsi]. Bogor. Program Studi Ilmu
Komputer Fakultas Matematika dan Ilmu
Pengetahuan Alam.
Hayardisi G. 2008. Pengembangan data
warehouse dan aplikasi OLAP untuk
persebaran hotspot di wilayah Indonesia
[Skripsi]. Bogor. Program Studi Ilmu
Komputer Fakultas Matematika dan Ilmu
Pengetahuan Alam.
Kantardzic M.2003. Data mining: Concept,
model, method, and algoritme.: New
York :John Wiley &sons.
Tan P, Mickael S, Vipin K. 2006. Introduction
to Data mining. Pearsen education inc.
.

13

LAMPIRAN

14

Lampiran 1 Pusat cluster untuk k=4 dan s=5.
Tabel Pusat cluster untuk dengan kombinasi
bulan kabupaten
Cluster
Cluster 0
Cluster 1
Cluster 2
Cluster 3

Pusat cluster Standar deviasi
2.2806
7.7012
141.3506
531
1389.75

Cluster 2
Cluster 3

58.7555

1762.875

430.1974

163.7075

Cluster 2

3520.25

660.1311

436.4132

Cluster 3

10364.5

4123.1396

Pusat cluster Standar deviasi
13.1344
30.7252

Tabel Pusat cluster untuk dengan kombinasi
tahun kabupaten

148.6634

1240

199.0567

Cluster 2

968.4118

327.1338

3060.6

1010.6927

Cluster 3

3366.5

1409.7609

431.0612

Pusat cluster Standar deviasi
35.553
73.7068
708.2778

222.9151

Cluster 2

1888.9231

466.7391

Cluster 3

4929.2

1448.5476

Tabel Pusat cluster untuk dengan kombinasi
quarter kabupaten

Cluster 2
Cluster 3

Pusat cluster Standar deviasi
5.986
14.812

120.6

Clustering hasil operasi OLAP untuk datawarehouse HOTSPOT menggunakan algoritme K-means

Dokumen yang terkait

Clustering Jamur Asterinaceae Menggunakan Metode K-Means

Clustering tanaman herbal penyusun jamu menggunakan algoritme K-means

Deteksi pencilan data titik api di provinsi riau menggunakan algoritme Clustering K-Means

Aplikasi Berbasis Web Untuk Deteksi Pencilan Titik Panas Menggunakan Algoritme Clustering K-Means Dan Framework Shiny

Clustering Dokumen Ringkasan Tesis Mahasiswa Pascasarjana Ipb Berbasis Frequent Itemsets Menggunakan Algoritme Bisecting K-Means.

DATA MINING PENERAPAN K-MEANS ALGORITM CLUSTERING

Optimasi K Means Clustering Menggunakan

Datawarehouse olap dan data mining

Perbandingan Algoritme K-Means Dengan Algoritme Fuzzy C Means (FCM) Dalam Clustering Moda Transportasi Berbasis GPS

Algoritme Genetika Untuk Optimasi K-Means Clustering Dalam Pengelompokan Data Tsunami

Dukungan

Links

Clustering hasil operasi OLAP untuk datawarehouse HOTSPOT menggunakan algoritme K-means

Dokumen yang terkait

Clustering Jamur Asterinaceae Menggunakan Metode K-Means

Clustering tanaman herbal penyusun jamu menggunakan algoritme K-means

Deteksi pencilan data titik api di provinsi riau menggunakan algoritme Clustering K-Means

Aplikasi Berbasis Web Untuk Deteksi Pencilan Titik Panas Menggunakan Algoritme Clustering K-Means Dan Framework Shiny

Clustering Dokumen Ringkasan Tesis Mahasiswa Pascasarjana Ipb Berbasis Frequent Itemsets Menggunakan Algoritme Bisecting K-Means.

DATA MINING PENERAPAN K-MEANS ALGORITM CLUSTERING

Optimasi K Means Clustering Menggunakan

Datawarehouse olap dan data mining

Perbandingan Algoritme K-Means Dengan Algoritme Fuzzy C Means (FCM) Dalam Clustering Moda Transportasi Berbasis GPS

Algoritme Genetika Untuk Optimasi K-Means Clustering Dalam Pengelompokan Data Tsunami

Dokumen yang Anda mencari sudah siap untuk unduhkan