Spatio-temporal Clustering Hotspot di Sumatera Selatan Tahun 2002-2003 Menggunakan Algoritme ST-DBSCAN dan Bahasa Pemrograman Python

SPATIO-TEMPORAL CLUSTERING HOTSPOT DI SUMATERA
SELATAN TAHUN 2002-2003 MENGGUNAKAN
ALGORITME ST-DBSCAN DAN BAHASA
PEMROGRAMAN PYTHON

COLIN SABATINI LUMBAN TOBING

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Spatio-temporal
Clustering Hotspot di Sumatera Selatan Tahun 2002-2003 Menggunakan
Algoritme ST-DBSCAN dan Bahasa Pemrograman Python adalah benar karya
saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk
apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau
dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah

disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Juli 2014
Colin Sabatini Lumban Tobing
NIM G64100065

ABSTRAK
COLIN SABATINI LUMBAN TOBING. Spatio-temporal Clustering Hotspot di
Sumatera Selatan Tahun 2002-2003 Menggunakan Algoritme ST-DBSCAN dan
Bahasa Pemrograman Python. Dibimbing oleh HARI AGUNG ADRIANTO.
Beberapa tahun terakhir ini isu kebakaran hutan di Sumatera meningkat
secara dramatis sehingga menarik perhatian dunia internasional. Data hotspot
yang dipantau menggunakan satelit dapat dijadikan indikator terjadinya kebakaran
di permukaan bumi. Salah satu pendekatan untuk menganalisis dataset hotspot
adalah spatio-temporal clustering yang dapat mengenali pola kejadian hotspot
berdasarkan ruang dan waktu. Penelitian ini menerapkan clustering menggunakan
ST-DBSCAN pada data hotspot di Sumatera Selatan tahun 2002-2003. Sebagai
bahasa pemrograman yang multiparadigma, Python dipilih agar algoritme STDBSCAN dapat bekerja dengan cepat. Dengan menggunakan parameter jarak

spasial (Eps1) 22 km, jarak temporal (Eps2) 7 hari, dan kepadatan cluster (MinPts)
7 didapat 41 cluster dengan banyak pola stationary pada kabupaten Musi Banyu
Asin. Rata-rata runtime eksekusi ST-DBSCAN menggunakan Python berdurasi
4.934 detik.
Kata kunci: kebakaran hutan, Python, spatio-temporal clustering, ST-DBSCAN

ABSTRACT
COLIN SABATINI LUMBAN TOBING. Spatio-temporal Clustering on South
Sumatera Hotspot in Year 2002-2003 Using ST-DBSCAN Algorithm and Python
Programming Language. Supervised by HARI AGUNG ADRIANTO.
These last few years the issues of forest fire in Sumatera increase
dramatically, attracting international attention. Hotspot data which are monitored
using satellites can be used as an indicator of the occurrence of fire on the Earth's
surface. One approach to analyze hotspot dataset is spatio-temporal clustering
which can recognize patterns of hotspot event based on space and time. This study
applies ST-DBSCAN clustering using hotspot data in South Sumatera 2002-2003.
As multi-paradigm programming language, Python is chosen so that STDBSCAN algorithm can work fast. By using spatial distance (Eps1) 22 km,
temporal distance (Eps2) 7 days, and density of cluster (MinPts) 7, 41 clusters
were found to have many stationary patterns in Musi Banyu Asin. The average
ST-DBSCAN execution runtime using Python was 4.934 seconds.

Keywords: forest fire, Python, spatio-temporal clustering, ST-DBSCAN

SPATIO-TEMPORAL CLUSTERING HOTSPOT DI SUMATERA
SELATAN TAHUN 2002-2003 MENGGUNAKAN
ALGORITME ST-DBSCAN DAN BAHASA
PEMROGRAMAN PYTHON

COLIN SABATINI LUMBAN TOBING

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014


Penguji:
1 Dr Imas Sukaesih Sitanggang, SSi MKom
2 Endang Purnama Giri, SKom MKom

Judul Skripsi : Spatio-temporal Clustering Hotspot di Sumatera Selatan Tahun
2002-2003 Menggunakan Algoritme ST-DBSCAN dan Bahasa
Pemrograman Python
Nama
: Colin Sabatini Lumban Tobing
NRP
: G64100065

Disetujui oleh

Hari Agung Adrianto, SKom MSi
Pembimbing

Diketahui oleh


Dr Ir Agus Buono, MSi MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas segala
karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Judul yang dipilih
dalam penelitian yang dilaksanakan sejak bulan Januari 2014 ini ialah Spatiotemporal Clustering Hotspot di Sumatera Selatan Tahun 2002-2003
Menggunakan Algoritme ST-DBSCAN dan Bahasa Pemrograman Python.
Terima kasih penulis ucapkan kepada seluruh keluarga atas segala doa dan
kasih sayangnya. Ungkapan terima kasih juga disampaikan kepada Bapak Hari
Agung Adrianto, SKom MSi selaku pembimbing yang telah membina dan
membantu dalam penelitian ini.
Semoga karya ilmiah ini bermanfaat.

Bogor, Juli 2014
Colin Sabatini Lumban Tobing

DAFTAR ISI

DAFTAR TABEL

ix

DAFTAR GAMBAR

ix

DAFTAR LAMPIRAN

ix

PENDAHULUAN

1

Latar Belakang

1


Perumusan Masalah

2

Tujuan Penelitian

2

Manfaat Penelitian

2

Ruang Lingkup Penelitian

2

TINJAUAN PUSTAKA

2


Praproses Data

2

Algoritme ST-DBSCAN

3

Penghitungan Jarak Menggunakan Metrik Euclidean

5

Pola Penyebaran Hotspot

5

METODE

7


Data Penelitian

7

Tahapan Penelitian

7

Lingkungan Pengembangan

8

HASIL DAN PEMBAHASAN

9

Sumber Data dan Karakteristik Data

9


Praproses Data

10

Penentuan Nilai Parameter

10

Implementasi ST-DBSCAN Menggunakan Python

11

Hasil Clustering ST-DBSCAN

12

Pengujian Runtime

12


Analisis Pola

12

Evaluasi Cluster

14

Visualisasi Cluster

15

SIMPULAN DAN SARAN
Simpulan

17
17

Saran

17

DAFTAR PUSTAKA

18

LAMPIRAN

20

RIWAYAT HIDUP

28

DAFTAR TABEL
1
2
3
4
5

Jarak derajat lintang dan bujur (Kirvan 1997)
Contoh transformasi tanggal ke format number
Atribut hotspot
Jumlah hotspot dalam cluster besar
Pola hotspot yang ditemukan di Sumatera Selatan

9
10
10
12
14

DAFTAR GAMBAR
1 Core-point, border-point, dan noise (Verma 2009)
2 Directly density-reachable, density-reachable, dan density-connected
(Cassisi 2011)
3 Algoritme ST-DBSCAN (Birant dan Kut 2007)
4 Ilustrasi pola stationary
5 Ilustrasi pola reappearing regular
6 Ilustrasi pola reappearing irregular
7 Ilustrasi pola occasional
8 Ilustrasi pola tracks
9 Diagram alir penelitian
10 Ilustrasi koefisien Silhouette (Rousseeuw 1987)
11 Sumatera Selatan (Purwanto 2012)
12 Grafik pergeseran penggerombolan (Purwanto 2012)
13 Hubungan titik noise dengan Eps1 (Purwanto 2012)
14 Grafik persebaran hotspot di Sumatera Selatan tahun 2002-2003
15 Hotspot di Sumatera Selatan tahun 2002-2003
16 Cluster 18 pada periode 1 (paling kiri), 2, 3 dan 4 (paling kanan)
17 Visualisasi cluster secara tiga dimensi (1)
18 Visualisasi cluster secara tiga dimensi (2)
19 Visualisasi cluster secara dua dimensi

3
3
4
5
6
6
6
6
7
8
9
10
11
12
13
13
15
16
16

DAFTAR LAMPIRAN
1
2
3
4
5
6

Implementasi ST-DBSCAN menggunakan Python
Antarmuka aplikasi ST-DBSCAN
Pola occasional pada cluster 0 (periode = 7 hari)
Pola track pada cluster 29 (periode = 7 hari)
Contoh visualisasi per cluster secara tiga dimensi
Contoh visualisasi per cluster secara dua dimensi

20
21
22
25
26
27

PENDAHULUAN
Latar Belakang
Pada musim kemarau, Indonesia sering mengalami kebakaran hutan.
Intensitas kebakaran hutan akan semakin meningkat seiring terjadinya peristiwa
El-Niño. Kebakaran hutan di Indonesia tidak hanya terjadi pada lahan kering
tetapi juga lahan basah seperti gambut yang akan menghasilkan sangat banyak
asap. Beberapa tahun terakhir ini isu kebakaran hutan di Sumatera meningkat
secara dramatis sehingga menarik perhatian dunia internasional dikarenakan arus
angin serta pola pergerakan udara dari Sumatera telah membawa sebagian besar
asap kebakaran ke Singapura dan Malaysia (WRI 2013).
Titik panas (hotspot) di permukaan bumi dapat dipantau dengan metode
penginderaan jarak jauh menggunakan satelit. Pemantauan kebakaran hutan
dengan satelit ini sering disebut sebagai penentuan hotspot (Thoha 2008). Melihat
data NASA tahun 2001-2012, penentuan hotspot di Sumatera berjumlah sekitar
20000 setiap tahun. Dataset hotspot yang diperoleh melalui satelit meliputi data
spasial (latitude dan longitude), temporal (waktu/tanggal) dan nonspasial (seperti
temperatur), sehingga dapat dikategorikan sebagai dataset spatio-temporal (Rao et
al. 2012).
Dataset hotspot dapat dijadikan salah satu indikator kemungkinan terjadinya
kebakaran di permukaan bumi (Adinugroho et al. 2005). Salah satu pendekatan
untuk menganalisis dataset hotspot adalah clustering, seperti yang dilakukan pada
penelitian Purwanto (2012) menggunakan algoritme DBSCAN dan ST-DBSCAN
– pengembangan dari DBSCAN. Pengelompokkan penyebaran hotspot dengan
clustering dapat dijadikan acuan prediksi kejadian kebakaran hutan berdasarkan
pola yang ditemukan pada setiap cluster.
DBSCAN yang termasuk ke dalam kategori density-based clustering
algorithm memanfaatkan kepekatan titik-titik dalam suatu wilayah untuk
menemukan sebuah cluster. Untuk menghitung kepekatan suatu wilayah,
DBSCAN membutuhkan dua parameter, yaitu Eps dan MinPts. Hal ini
menyebabkan DBSCAN sangat sensitif terhadap perubahan nilai parameter yang
diambil (Han et al. 2001). Sebagai perkembangan DBSCAN, ST-DBSCAN
menambahkan satu Eps untuk atribut temporal dan  untuk atribut nonspasial
(Birant dan Kut 2007).
Pada penilitian ini, algoritme ST-DBSCAN akan diimplementasikan
menggunakan Python dengan memodifikasi modul DBSCAN pada package
Scikit-learn. Python sangat unggul dalam mengatur penggunaan memory sehingga
diyakinkan dapat mengolah data besar (Ewing 2014). Pada penulisan programnya
pun, Python lebih ringkas dibanding bahasa pemrograman lainnya sehingga
mudah untuk dimengerti (Pyzo 2013). Python juga merupakan salah satu fasilitas
perangkat lunak yang sangat efektif dalam visualisasi cluster menggunakan
package Matplotlib. Terlebih lagi, Python dapat digunakan secara gratis.
Pada penelitian ini akan dilakukan proses data mining pada dataset hotspot
di Sumatera Selatan tahun 2002-2003 dengan algoritme ST-DBSCAN
menggunakan Python. Clustering dengan algoritme ST-DBSCAN diharapkan

2
dapat menghasilkan pola penyebaran hotspot yang dapat dijadikan acuan untuk
mengendalikan kebakaran hutan di Indonesia.
Perumusan Masalah
Perumusan masalah dalam penelitian ini ialah bagaimana cara
mengimplementasikan algoritme ST-DBSCAN menggunakan Python dan
menganalisis pola pada setiap cluster yang dihasilkan.
Tujuan Penelitian
Tujuan dari penelitian ini ialah mengimplementasikan algoritme STDBSCAN menggunakan Python dan menemukan pola penyebaran hotspot di
Sumatera Selatan.
Manfaat Penelitian
Pola penyebaran hotspot pada hasil penelitian ini diharapkan dapat menjadi
acuan prediksi kejadian kebakaran hutan di Sumatera Selatan dan dapat digunakan
oleh pihak terkait, di antaranya peneliti di bidang kehutanan, pemerintah, maupun
masyarakat.
Ruang Lingkup Penelitian
Dataset hotspot pada penelitian ini dibatasi pada provinsi Sumatera Selatan
tahun 2002-2003. Algoritme clustering yang akan digunakan untuk pengolahan
dataset hotspot adalah ST-DBSCAN. Parameter yang digunakan pada penilitan
ini hanya mencakup Eps1 (parameter jarak spasial), Eps2 (parameter jarak
temporal), dan MinPts (parameter kepadatan cluster). Implementasi algoritme STDBSCAN dilakukan menggunakan bahasa pemrograman Python.

TINJAUAN PUSTAKA
Praproses Data
Praproses diperlukan untuk meningkatkan kualitas data yang selanjutnya
akan membantu meningkatkan akurasi dan efisiensi pada proses mining. Tindakan
yang dapat dilakukan adalah pembersihan data (mengisi missing value,
menghilangkan noisy, membuang pencilan, dan memisahkan data yang
inconsistent), integrasi data (penggabungan data dari berbagai sumber),
transformasi, dan reduksi data.
Pada transformasi data, data diubah atau digabungkan menjadi bentuk yang
tepat untuk mining. Transformasi data ini mencakup smoothing (untuk
menghilangkan noise), agregasi (operasi peringkasan atau penyatuan), generalisasi
(penyamarataan level pada suatu atribut), normalisasi (atribut diskalakan sehingga
nilainya berkurang ke rentang yang lebih kecil), dan konstruksi atribut (atribut
baru dibuat dan ditambahkan dari sekumpulan atribut lain).

3
Reduksi data dilakukan untuk mengurangi ukuran data tanpa merubah hasil
mining. Reduksi data menghasilkan representasi dataset tereduksi yang berukuran
lebih kecil namun memperlihatkan hasil analisis yang sama atau hampir sama.
Strategi reduksi data meliputi agregrasi, seleksi subset atribut, reduksi
dimensional, dan reduksi jumlah (Han et al. 2012).
Algoritme ST-DBSCAN
Algoritme ST-DBSCAN membutuhkan empat parameter, yaitu Eps1 (ɛ1),
Eps2 (ɛ2), MinPts, dan . Eps1 dan Eps2 adalah parameter jarak untuk atribut
spasial dan temporal yang dapat dihitung dengan metrik Euclidean, Manhattan,
Minkowski, dsb. MinPts adalah jumlah minimum objek yang berada dalam jarak
Eps1 dan Eps2. Suatu wilayah dinyatakan tinggi kepadatannya jika memiliki
jumlah objek lebih banyak dari nilai MinPts. Parameter  digunakan untuk
mencegah ditemukannya kombinasi cluster akibat kecilnya perbedaan atribut
nonspasial.
Algoritme ST-DBSCAN dimulai dari objek pertama p di D. Jika p
merupakan core-object – suatu objek yang memiliki tetangga minimal sejumlah
MinPts dalam radius Eps1 dan Eps2 (dapat dilihat pada Gambar 1), maka
terbentuklah suatu cluster. Algoritme mengembalikan semua objek yang berada
dalam jangkauan Eps1 dan Eps2 (directly density-reachable, dapat dilihat pada
Gambar 2) dari p. Jika p adalah border-object – bukan core-object tetapi densityreachable dari core-object lainnya, tidak ada objek-objek lain yang densityreachable dari p, maka algoritme akan mengunjungi objek berikutnya di D.
Proses berulang sampai semua objek diproses.

Gambar 1 Core-point, border-point, dan noise (Verma 2009).

(a)
(b)
(c)
Gambar 2 Directly density-reachable, density-reachable, dan density-connected
(Cassisi 2011). (a) q directly density-reachable dari p, (b) q densityreachable dari p, dan (c) q density-connected ke p dengan o adalah
objek penghubung p dan q.

4
Pada Gambar 3, algoritme dimulai dari objek pertama o1 di D (poin i).
Setelah memproses objek o1, dipilih objek selanjutnya (o2) di D. Jika objek o2
belum termasuk ke dalam cluster manapun (poin ii), fungsi Retrieve_Neighbours
dipanggil pada (poin iii). Pemanggilan fungsi Retrieve_Neighbours(o2, Eps1,
Eps2) mengembalikan objek yang berada pada jarak kurang dari parameter Eps1
dan Eps2 dari objek o2.

Gambar 3 Algoritme ST-DBSCAN (Birant dan Kut 2007).
Retrieve_Neighbours(oi, Eps1, Eps2) sama dengan mencari irisan dari
Retrieve_Neighbours(oi, Eps1) dan Retrieve_Neighbours(oi, Eps2). Jika jumlah
objek yang dikembalikan dalam Eps-Neighborhood kurang dari MinPts, maka
objek ditetapkan sebagai noise – oi tidak memiliki cukup tetangga untuk
membentuk suatu cluster pada (poin iv). Objek yang telah ditandai sebagai noise

5
dapat berubah pada proses selanjutnya jika density-reachable dari objek-objek
lain di D. Kejadian seperti ini sering terjadi pada border-object di cluster.
Jika oi adalah core-object, cluster baru dibuat (poin v). Semua objek yang
directly density-reachable dari core-object tersebut juga ditandai sebagai label
cluster baru. Lalu algoritme mengumpulkan objek yang density-reachable secara
iteratif menggunakan stack (poin vi). Stack yang dimaksud berguna untuk mencari
objek lain yang density-reachable dari objek directly density-reachable – ekspansi
cluster. Jika suatu objek tidak ditandai sebagai noise atau tidak dalam cluster
manapun, dan perbedaan antara nilai rataan cluster dengan nilai objek tersebut
kurang dari , maka objek tersebut dilabeli sebagai cluster yang sedang diproses
(poin vii). Setelah memproses objek tersebut, algoritme memilih objek
selanjutnya di D dan berlanjut sampai semua objek diproses.
Jika dua cluster C1 dan C2 berhimpitan satu sama lain, ketika objek p dapat
menjadi anggota cluster kedua-duanya (border-object antara C1 dan C2).
Algoritme ST-DBSCAN akan menetapkan objek p ke cluster yang terlebih dahulu
ditemukan.
Penghitungan Jarak Menggunakan Metrik Euclidean
Banyak pilihan metrik yang dapat digunakan untuk penghitungan jarak.
Pada penelitian ini metrik Euclidean dipilih untuk menghitung jarak spasial dan
temporal objek. Berikut adalah penghitungan jarak menggunakan Euclidean
antara titik i dan j:
d i, j = √(xi1 -xj1 )2 +(xi2 -xj2 )2 +…+(xin -xjn )2

dengan i = (xi1, xi2, … , xin) dan j = (xj1, xj2, … , xjn) adalah n-dimensi objek (Han
et al. 2012).
Pola Penyebaran Hotspot
Dengan menggunakan berbagai macam algoritme clustering, hasil cluster
yang diperoleh pasti memiliki kesamaan baik secara spasial maupun temporal.
Kita dapat mendeteksi tipe-tipe cluster (stationary, reappearing, occasional, dan
tracks) berdasarkan Pöelitz dan Andrienko (2010). Tipe-tipe cluster dapat
dikelompokkan sebagai berikut:
1 Stationary
Cluster dibatasi secara spasial dan diperluas secara temporal pada rentang
waktu penelitian. Sebagai contoh, kejadian pada lokasi x di rentang t1, t2, t3, …,
tn dengan t1-tn masih dalam rentang waktu penelitian yang diilustrasikan pada
Gambar 4.

t1

t2
t3
t4
Gambar 4 Ilustrasi pola stationary.

tn

6
2 Reappearing
Beberapa cluster temporal terjadi dalam lokasi yang sama dan dipisahkan oleh
interval waktu. Tipe cluster reappearing dibagi menjadi dua:
a Regular (periodik)
Cluster dipisahkan pada interval yang kira-kira hampir sama pada setiap
kemunculan objek. Sebagai contoh, kejadian pada lokasi x dan waktu t1, t3,
t5, …, tn dengan perbedaan waktu t1-t3 = 2 minggu, t3-t5 = 2 minggu, begitu
seterusnya hingga tn yang diilustrasikan pada Gambar 5.

t1

t2
t3
t4
t5
t6
Gambar 5 Ilustrasi pola reappearing regular.

b Irregular
Cluster dipisahkan pada interval waktu yang berbeda-beda. Sebagai contoh,
kejadian pada lokasi x dan waktu t1, t3, t4, t5 dengan perbedaan waktu t1-t3 =
2 minggu, t3-t4 = 1 minggu, dan t4-t6 = 2 minggu yang diilustrasikan pada
Gambar 6.

t1

t2
t3
t4
t5
t6
Gambar 6 Ilustrasi pola reappearing irregular.

3 Occasional
Cluster ini berpindah-pindah tempat seiring dengan perubahan waktu. Sebagai
contoh adalah kejadian kecelakaan lalu lintas yang diilustrasikan pada Gambar
7.

t1

t2
t3
t4
Gambar 7 Ilustrasi pola occasional.

tn

4 Tracks
Pola cluster terbentuk saat kejadian setelahnya bergerak secara spasial setelah
kejadian sebelumnya terjadi. Contohnya adalah serangkaian foto yang diambil
oleh Flickr user dalam perjalanan yang diilustrasikan pada Gambar 8.

t1
t2
t3
Gambar 8 Ilustrasi pola tracks.

7

METODE
Data Penelitian
Data yang digunakan pada penelitian ini adalah data hotspot kebakaran
hutan di Sumatera Selatan pada tahun 2002-2003.
Tahapan Penelitian
Tahapan-tahapan yang dilakukan pada penelitian ini dapat dilihat pada
Gambar 9.

Gambar 9 Diagram alir penelitian.
a Pengumpulan data
Data hotspot diperoleh dari FIRMS (https://earthdata.nasa.gov/data/near-realtime-data/firms/active-fire-data).
b Praproses data
Tahap praproses data meliputi transformasi dan reduksi data.
c Implementasi ST-DBSCAN menggunakan Python
Implementasi algoritme ST-DBSCAN menggunakan Python dilakukan dengan
cara memodifikasi modul DBSCAN pada package Scikit-learn.
d Pengujian runtime
Setelah implementasi ST-DBSCAN berhasil dilakukan akan diuji runtime
algoritme ST-DBSCAN menggunakan Python selama sepuluh kali.
e Clustering dengan ST-DBSCAN
Data hasil praproses akan diolah menggunakan algoritme clustering STDBSCAN yang telah diimplementasikan menggunakan Python sehingga
menghasilkan cluster hotspot yang akan dianalisis lebih lanjut. Penghitungan
jarak yang digunakan adalah metrik Euclidean.

8
f Analisis dan evaluasi cluster
Hasil cluster yang diperoleh pasti memiliki persamaan spasial dan temporal.
Oleh karena itu, akan dianalisis pola yang dimiliki pada setiap cluster. Cluster
yang ditemukan akan dievaluasi seberapa bagus cluster yang telah terbentuk
menggunakan koefisien Silhouette. Berikut formula koefisien Silhouette untuk
satu titik i:
b(i) - a(i)
s i =
max{a(i), b(i)}
dengan a(i) adalah rataan jarak intra-cluster dan b(i) adalah rataan jarak
nearest-cluster (Sklearn 2014). Misalkan titik i berada dalam cluster A
(Gambar 10), cluster B adalah cluster terdekatnya, dengan a(i) adalah rataan
jarak titik i dengan titik lain di dalam cluster A dan b(i) adalah rataan jarak titik
i ke semua titik dalam cluster B. Nilai koefisien Silhouette secara keseluruhan
pada N jumlah titik dapat dihitung dengan:
N

1
SC= ∑ s(i)
N
i=1

Gambar 10 Ilustrasi koefisien Silhouette (Rousseeuw 1987).
g Visualisasi cluster
Setelah cluster ditemukan, maka akan divisualisasikan secara tiga dan dua
dimensi guna melihat penyebaran hotspot. Matplotlib menyediakan fitur
visualisasi tiga dimensi yang akan digunakan untuk melihat perbedaan hasil
cluster dari atribut temporalnya. Untuk visualisasi dua dimensi, digunakan
package Basemap sehingga hotspot dapat divisualisasikan di atas layer peta.
Lingkungan Pengembangan
Spesifikasi yang digunakan untuk penelitian ini adalah sebagai berikut.
1 Perangkat lunak:
 Sistem operasi: Windows 8.1 Pro 64-bit
 Praproses: Microsoft Excel 2013
 Penulisan script: Notepad++ v6.6
 Bahasa pemrograman: Python 2.7.6
 Package Python: Scikit-learn 0.14.1, Numpy-MKL 1.8.1, Matplotlib 1.3.1,
dan Basemap 1.0.7
 Analisis: QuantumGIS 2.2.0 – Valmiera

9
2 Perangkat keras:
 Processor: Intel® CoreTM i3-330M 2.13 GHz
 Memori (RAM): 2.00 GB DDR3 1066 MHz

HASIL DAN PEMBAHASAN
Sumber Data dan Karakteristik Data
Dataset hotspot diperoleh dari Fire Information for Resource Management
System (FIRMS) yang disediakan oleh National Aeronautics and Space
Administration (NASA). Hotspot dipantau menggunakan satelit Terra dan Aqua
dengan sensor bernama Moderate Resolution Imaging Spectroradiometer
(MODIS). Wilayah dari pengumpulan data penelitian dapat dilihat pada Gambar
11.

Gambar 11 Sumatera Selatan (Purwanto 2012).
Data yang diteliti adalah data hotspot di Sumatera Selatan yang terletak
antara 5o10’ sampai 1o20’ Lintang Selatan dan 101o40’ sampai 106o30’ Bujur
Timur. Setiap 1o akan mewakili jarak sekitar 110 km (Tabel 1).
Tabel 1 Jarak derajat lintang dan bujur (Kirvan 1997)
Derajat
0o
15o
30o
45o
60o
75o
90o

∆1LAT
110.574 km
110.649 km
110.852 km
111.132 km
111.412 km
111.618 km
111.694 km

∆1LONG
111.320 km
107.551 km
96.486 km
78.847 km
55.800 km
28.902 km
0.000 km

10
Praproses Data
Tahapan praproses data yang dilakukan adalah sebagai berikut:
1 Tranformasi Tanggal
Data tanggal akan diubah ke dalam format number dengan hari pertama
dimulai dari 1 Januari 1900 seperti contoh pada Tabel 2.
Tabel 2 Contoh transformasi tanggal ke format number
Tanggal (mm/dd/yyyy)
Tanggal (number)
01/01/2002
37257
01/02/2002
37258
01/03/2002
37259
01/04/2002
37260
2 Reduksi Data
Reduksi data dilakukan dengan cara memilih atribut yang akan digunakan saja,
yaitu latitude, longitude, dan acq_time pada Tabel 3.

Atribut
latitude
longitude
brightness
Scan
Track
acq_date
acq_time
satellite
confidence
version
bright_t31
frp

Tabel 3 Atribut hotspot
Keterangan
bujur (o)
lintang (o)
temperatur (K)
ukuran piksel
ukuran piksel
tanggal (mm/dd/yyyy)
waktu (hhmm)
Aqua/Terra
kualitas hotspot (0-100%)
sumber sensor
temperatur channel-31 (K)
fire radiative power (MegaWatts)
Penentuan Nilai Parameter

Penentuan nilai Eps bertujuan untuk mendapatkan total cluster dalam
jumlah sedikit, sedangkan penentuan MinPts bertujuan untuk memperkecil jumlah
noise. Pada Purwanto (2012), hasil cluster paling sedikit didapatkan pada
Eps1=0.2 (≈ 22 km) seperti pada Gambar 12.

Gambar 12 Grafik pergeseran penggerombolan (Purwanto 2012).

11
Berdasarkan nilai Eps1 diperoleh titik noise paling sedikit pada k=4, k=7,
dan k=11. Pada penelitian ini akan digunakan k=7 – k merupakan representasi dari
MinPts. Pemilihan k=7 disebabkan jumlah noise yang cenderung stabil seiring
dengan penambahan nilai Eps1 yang dapat dilihat pada Gambar 13. Nilai Eps2=7
dipilih dengan tujuan untuk mendapatkan pola penyebaran hotspot dalam rentang
waktu yang cenderung singkat.

Gambar 13 Hubungan titik noise dengan Eps1 (Purwanto 2012).
Implementasi ST-DBSCAN Menggunakan Python
Implementasi ST-DBSCAN menggunakan Python dapat dilihat pada
Lampiran 1 dengan nilai Eps1=0.2, Eps2=7, dan MinPts=7. Modifikasi modul
DBSCAN pada Scikit-learn menjadi ST-DBSCAN dilakukan pada baris 19-29.
Modifikasi dilakukan pada penghitungan jarak dan pencarian tetangga secara
spasial dan temporal.
Berdasarkan modul DBSCAN, penghitungan jarak hanya dilakukan pada
aspek spasial. Untuk memenuhi keperluan parameter temporalnya, penghitungan
jarak juga dilakukan pada aspek temporal. Penghitungan jarak menggunakan
metrik Euclidean dilakukan dengan memanggil fungsi pairwise_distance()
pada modul pairwise. Hasil penghitungan jarak disimpan dalam DS dan DT yang
merupakan matriks jarak spasial dan matriks jarak temporal (baris 19 dan 20).
Matriks jarak yang didapat akan digunakan selanjutnya untuk mencari
tetangga. Pencarian tetangga dilakukan terhadap kedua aspek. Tetangga didapat
melalui pencarian nilai yang lebih kecil sama dengan epsilon dalam matriks jarak
atau dengan kata lain masih dalam radius epsilon.
Daftar tetangga spasial tersimpan dalam spat_neighbor (baris 21),
sedangkan daftar tetangga temporal tersimpan dalam temp_neighbor (baris 22).
Tetangga spasial dan tetangga temporal harus diiris (baris 26) guna mendapatkan
tetangga akhir secara spatio-temporal.
Parameter  diduga dapat meningkatkan cohesion intra-cluster dan
separation antar-cluster, karena parameter tersebut mencakup aspek nonspasial.
Ketidakikutsertaan parameter  pada penelitian ini dapat membuat hasil cluster
tidak optimal. Selain itu, diharapkan pada penelitian selanjutnya dapat mencari
nilai parameter (Eps1, Eps2, dan MinPts) secara otomatis berdasarkan Gaonkar
dan Sawant (2013) sehingga cluster yang terbentuk optimal. Antarmuka sistem
ST-DBSCAN menggunakan Python dapat dilihat pada Lampiran 2.

12
Hasil Clustering ST-DBSCAN
Pada data hotspot di Sumatera Selatan tahun 2002-2003 ditemukan 41
cluster dan 712 noise. Terdapat 13 cluster besar dan 28 cluster kecil. Suatu cluster
dikatakan cluster besar jika memiliki lebih dari 30 titik. Jumlah hotspot pada
setiap cluster besar dapat dilihat pada Tabel 4.
Tabel 4 Jumlah hotspot dalam cluster besar
Cluster keJumlah hotspot
0
2029
3
1157
8
150
7
115
12
58
6
55
13
41
11
39
15
36
18
35
10
34
29
32
14
32
Pengujian Runtime
Pengujian runtime dilakukan sebanyak sepuluh kali. Rata-rata runtime berdurasi
4.934 detik. Salah satu faktor yang mempengaruhi kecepatan komputasi Python
adalah penggunaan Numpy yang efisien dalam pengolahan array n-dimensi
(Numpy developers 2013). Selain itu, tidak diikutsertakannya parameter  juga
menjadi penyebab cepatnya runtime eksekusi algoritme ST-DBSCAN.
Analisis Pola
Pada provinsi Sumatera Selatan hotspot banyak terjadi antara bulan
Agustus-November saat musim kemarau berlangsung (Gambar 14) dan terdapat
4822 hotspot di tahun 2002-2003 yang dapat dilihat persebarannya pada Gambar
15.
Jumlah Titik Hotspot

350
300

250
200
150
100
50
0
Nov-01 Feb-02 May-02 Sep-02

Dec-02 Mar-03

Jun-03

Oct-03

Jan-04

Apr-04

Gambar 14 Grafik persebaran hotspot di Sumatera Selatan tahun 2002-2003.

13
Sumatera Selatan
Hotspot

Gambar 15 Hotspot di Sumatera Selatan tahun 2002-2003.
Setelah data hotspot dikelompokkan dengan ST-DBSCAN, terbentuklah 13
cluster besar seperti pada Tabel 4 yang akan dianalisis polanya berdasarkan
Pöelitz dan Andrienko (2010). Setiap cluster besar akan dibagi per periode (tujuh
hari) untuk perbandingan lokasi persebaran hotspot antar-periode. Penentuan
lokasi persebaran hotspot hanya dibatasi pada cakupan kabupaten saja.
Pola hotspot yang ditemukan pada provinsi Sumatera Selatan dapat dilihat
pada Tabel 5. Berdasarkan Tabel 5, pola hotspot yang paling banyak ditemukan
adalah pola stationary yang berlokasi di Musi Banyu Asin dan Muara Enim serta
berlangsung pada Agustus 2002 dan Juni-Oktober 2003.
Sebagai contoh, pada cluster 18 (Gambar 16) terlihat bahwa hotspot berada
pada kabupaten yang sama, yaitu Musi Banyu Asin, di keempat periode. Jika
cluster 18 pada periode 1 diperbesar, maka terlihat bahwa hanya sau titik pencilan
saja yang tidak berada di Musi Banyu Asin. Oleh karena itu, pola stationary telah
ditemukan pada cluster 18 di kabupaten Musi Banyu Asin. Gambar pola
occasional pada cluster 0 dan track pada cluster 29 per periode dicantumkan
dalam Lampiran 3 dan 4.
Musi
Banyu
Asin
Hotspot

Gambar 16 Cluster 18 pada periode 1 (paling kiri), 2, 3 dan 4 (paling kanan).
Pola reappearing regular dan irregular tidak ditemukan pada 13 cluster
besar. Hal ini disebabkan pada pemilihan rentang periode selama tujuh hari. Jika

14
rentang periode dibuat lebih pendek (dua/tiga hari), pola regular dan irregular
akan terlihat. Namun pemilihan rentang periode yang pendek akan menyebabkan
kesulitan pada proses analisis karena masih dilakukan secara manual.
Tabel 5 Pola hotspot yang ditemukan di Sumatera Selatan
Cluster Pola yang
Lokasi
Waktu (bulan)
keditemukan
0
Occasional Seluruh kabupaten dan pinggiran
Agustus-November
kota Pagar Alam
2002
3
Occasional Seluruh wilayah kecuali kota
Juni-September
Pagar Alam
2003
8
Stationary Kabupaten Musi Banyu Asin,
September-Oktober
Banyu Asin, dan Ogan Komering
2003
Ilir
7
Track
Awal: kabupaten Oku Selatan,
September-Oktober
Ogan Komering Ulu, dan Muara
2003
Enim
Menyebar ke: kabupaten Lahat,
Oku Timur, dan semakin
membanyak di Oku Selatan
12
Occasional Kabupaten Lahat, Muara Enim,
Agustus-September
Oku Timur, Ogan Ilir, Ogan
2003
Komening Ilir, dan Ogan
Komering Ulu
6
Stationary Kabupaten Lahat, Musi Rawas,
September-Oktober
Muara Enim, dan pinggiran kota
2003
Pagar Alam
13
Stationary Kabupaten Musi Banyu Asin
Juli-Agustus 2003
11
Stationary Kabupaten Muara Enim dan
Oktober 2003
Ogan Komering Ulu
15
Stationary Kabupaten Musi Banyu Asin
Agustus 2002
18
Stationary Kabupaten Musi Banyu Asin
Juni-Juli 2003
10
Stationary Kabupaten Musi Rawas, Muara
Agustus 2002
Enim, dan perbatasan Lahat
29
Track
Awal: kabupaten Musi Banyu
Mei-Juni 2003
Asin
Menyebar ke: Muara Enim
14
Stationary Kabupaten Ogan Komering Ilir
Agustus-September
2003
Evaluasi Cluster
Evaluasi cluster dilakukan secara spasial dan temporal setelah hasil cluster
didapatkan. Evaluasi cluster dilakukan dengan cara pemanggilan modul koefisien
Sillhouette pada Scikit-learn.
metrics.silhouette_score(X, labels) # Evaluasi cluster secara spasial
metrics.silhouette_score(T, labels) # Evaluasi cluster secara temporal

15
Hasil evaluasi cluster menggunakan koefisien Sillhouette berkisar antara
nilai -1 hingga 1, dengan -1 merupakan nilai terburuk dan 1 merupakan nilai
terbaik (Sklearn 2014). Pada penelitian ini, evaluasi cluster secara spasial bernilai
-0.638 dan -0.745 secara temporal.
Evaluasi cluster yang tidak bagus disebabkan kesalahan pemilihan nilai
parameter. Evaluasi DBSCAN dengan Eps1=0.2 dan MinPts=7 yang diambil dari
hasil penelitian Purwanto (2012) menghasilkan koefisien Sillhouette dengan nilai
0.197. Sedangkan nilai Eps2=7 hanya ditujukan untuk mengambil rentang waktu
yang cukup pendek. Baik ST-DBSCAN maupun DBSCAN sangat sensitif
terhadap pemilihan nilai parameternya. Jika terjadi kesalahan pada pemilihan nilai
parameter, cluster yang dihasilkan pun tidak bagus. Oleh karena itu, diharapkan
penelitian selanjutnya dapat menghasilkan nilai Eps1, Eps2, dan MinPts secara
otomatis berdasarkan Gaonkar dan Sawant (2013) sehingga cluster yang terbentuk
memiliki nilai evaluasi yang bagus.
Visualisasi Cluster
Untuk visualisasi, kode program dimodifikasi dari contoh pemanggilan
modul DBSCAN dalam file plot_dbscan.py. Setiap objek yang berlabel -1 adalah
noise yang akan diberi warna hitam. Pada visualisasi hasil cluster pada Gambar 17
dan Gambar 18 terlihat dua cluster yang memiliki banyak sekali hotspot – disebut
sebagai cluster besar. Kedua cluster besar tersebut terpisah secara temporal yang
dapat dilihat pada rongga antar-cluster.

Gambar 17 Visualisasi cluster secara tiga dimensi (1).

16

Gambar 18 Visualisasi cluster secara tiga dimensi (2).
Hampir setiap titik hotspot yang berada di antara dua cluster besar tersebut
merupakan noise. Noise terjadi antara hari ke-37582 (22 November 2002) sampai
hari ke-37797 (25 Juni 2003) saat musim penghujan berlangsung. Hotspot pada
cluster besar pertama terjadi pada hari ke-37474 (6 Agustus 2002) sampai hari ke37581 (21 November 2002) dan hotspot pada cluster besar kedua terjadi pada hari
ke-37798 (26 Juni 2003) sampai hari ke-37890 (26 September 2003) saat musim
kemarau berlangsung.
Persebaran cluster di atas layer peta Sumatera dapat dilihat pada Gambar 19
yang menunjukkan dua cluster terbesar berwarna jingga dan magenta. Contoh
visualisasi per cluster dapat dilihat Lampiran 5 dan 6.

Gambar 19 Visualisasi cluster secara dua dimensi.

17

SIMPULAN DAN SARAN
Simpulan
Implementasi ST-DBSCAN menggunakan Python berhasil dilakukan.
Ditemukan 41 cluster data hotspot di Sumatera Selatan dengan 13 cluster besar.
Pola yang paling banyak ditemukan adalah pola stationary pada kabupaten Musi
Banyu Asin dan Muara Enim yang berlangsung pada Agustus 2002 dan JuniOktober 2003. Rata-rata runtime ST-DBSCAN menggunakan Python adalah
4.934 detik.
Saran
1

2

3
4
5

6

7

Berikut saran-saran yang diberikan untuk penelitian selanjutnya:
Kekurangan pada penelitian ini adalah belum diimplementasikannya
parameter . Pada penelitian selanjutnya diharapkan dapat menambahkan
parameter tersebut karena parameter nonspasial dapat membuat cohesion dan
separation cluster semakin optimum.
Pada penelitian ini nilai parameter ditentukan manual sehingga belum
menghasilkan cluster yang optimal, diharapkan pada penelitian selanjutnya
dapat menentukan nilai Eps1, Eps2, dan Minpts secara otomatis.
Diharapkan pada penelitian selanjutnya dapat menggunakan Dunn Index (DI)
untuk evaluasi cluster.
Antarmuka sistem dapat dibuat lebih menarik.
Pada sistem ini layer peta yang digunakan adalah peta dunia sehingga proses
visualisasi memakan waktu lama. Diharapkan pada penelitian selanjutnya
dapat menggunakan peta Indonesia saja.
Pada penelitian ini data disimpan di dalam memory. Penggunaan basis data
untuk penyimpanan telah dicoba, tetapi masih terkendala pada saat
penggunaan data dalam jumlah yang sangat besar dikarenakan terlalu banyak
proses overwrite. Diharapkan pada penelitian selanjutnya dapat memanfaatkan
basis data dengan memilih variabel apa saja yang akan disimpan.
Diharapkan pada penelitian selanjutnya dapat mengintegrasikan modul STDBSCAN ke QuantumGIS.

18

DAFTAR PUSTAKA
Adinugroho WC, Suryadiputra INN, Saharjo BH, Siboro L. 2005. Panduan
Pengendalian Kebakaran Hutan dan Lahan Gambut. Bogor (ID): Wetlands
International.
Birant D, Kut A. 2007. ST-DBSCAN: an algorithm for clustering spatialtemporal
data.
Data
and
Knowledge
Engineering.
60:208-221.
doi:10.1016/j.datak.2006.01.013.
Cassisi C. 2011. Implemented methods [internet]. [diacu 2014 Apr 20]. Tersedia
pada: http://www.dmi.unict.it/~cassisi/DBStrata/help/methods.html
Ewing C. 2014. 5 Reasons why Python is powerful enough for Google [internet].
[diacu 2014 Jun 09]. Tersedia pada: https://www.codefellows.org/blogs/5reasons-why-python-is-powerful-enough-for-google.
Gaonkar MN, Sawant K. 2013. AutoEpsDBSCAN: DBSCAN with Eps automatic
for large dataset. International Journal on Advanced Computer Theory and
Engineering. 2:2319-2526.
Han J, Kamber M, Pei J. 2012. Data Mining: Concepts and Techniques. San
Francisco (US): Morgan Kaufmann.
Han J, Kamber M, Anthony KHT. 2001. Spatial clustering methods in data
mining: a survey [ulasan]. Data Mining and Knowledge DiscoveryDATAMINE.
Kirvan AP. 1997. Unit 014 - latitude and longitude [internet]. [diacu 2014 Jun 06].
Tersedia pada http://www.ncgia.ucsb.edu/giscc/units/u014/u014_f.html.
[Numpy Developers]. 2013. NumPy [internet]. [diacu 2014 Jun 10]. Tersedia
pada: http://www.numpy.org/.
Pöelitz C, Andrienko G&N. 2010. Finding arbitrary shaped cluster with related
extents in space and time [simposium]. IEEE-VGTC Simposium on
Visualization.
Purwanto UY. 2012. Penggerombolan spasial Hotspot kebakaran hutan dan lahan
menggunakan DBSCAN dan ST-DBSCAN [tesis]. Bogor (ID): Institut
Pertanian Bogor.
[Pyzo]. 2013. Why Python [internet]. [diacu 2014 Jun 09]. Tersedia pada:
http://www.pyzo.org/whypython.html.
Rao KV, Govardhan A, Rao KVC. 2012. Spatiotemporal data mining: issues,
tasks and applications. International Journal of Computer Science &
Engineering Survey. 3:39-52. doi:10.5121/ijcses.2012.3104.
Rousseeuw PJ. 1987. Silhouettes: a graphical aid to the interpretation and
validation of cluster analysis. Journal of Computational and Applied
Mathematics. 20(1987): 53-65. doi: 10.1016/0377-0427(87)90125-7.
[Sklearn] Scikit-learn. 2014. sklearn.metrics.silhouette_score [internet]. [diacu
2014 Mei 29]. Tersedia pada: http://scikit-learn.org/stable/modules/generated/
sklearn.metrics.silhouette_score.html.
Thoha AS. 2008. Penggunaan data Hotspot untuk monitoring kebakaran hutan dan
lahan di Indonesia [skripsi]. Medan (ID): Universitas Sumatera Utara.
Verma R. 2009. Section 4 DBSCAN [internet]. [diacu 2014 Apr 20]. Tersedia
pada: http://www.hypertextbookshop.com/dataminingbook/public_
version/contents/chapters/chapter004/section004/green/page001.html.

19
[WRI] World Resources Institute. 2013. Data terbaru menunjukkan kebakaran
hutan di Indonesia adalah krisis yang telah berlangsung sejak lama [internet].
[diacu 2013 Okt 20]. Tersedia pada: http://insight.wri.org/ newz/2013/06/dataterbaru-menunjukan-kebakaran-hutan-di-indonesia-adalah-krisis-yang-telahberlans#fire.

20

LAMPIRAN
Lampiran 1 Implementasi ST-DBSCAN menggunakan Python

21
Lampiran 2 Antarmuka aplikasi ST-DBSCAN

22
Lampiran 3 Pola occasional pada cluster 0 (periode = 7 hari)
Palembang (Kota)
Prabumulih (Kota)
Pagar Alam (Kota)
Lubuklinggau (Kota)
Hotspot

Periode 1

Periode 2

Periode 3

Periode 4

Periode 5

Periode 6

23
Lanjutan

Periode 7

Periode 8

Periode 9

Periode 10

Periode 11

Periode 12

24
Lanjutan

Periode 13

Periode 14

Periode 15

Periode 16

25
Lampiran 4 Pola track pada cluster 29 (periode = 7 hari)
Musi Banyu Asin
Muara Enim
Hotspot

Periode 1

Periode 2

Periode 3

Periode 4

Periode 5

Periode 6

26
Lampiran 5 Contoh visualisasi per cluster secara tiga dimensi
Hotspot

Cluster 0

Cluster 3

Cluster 6

Cluster 7

Cluster 8

Cluster 10

27
Lampiran 6 Contoh visualisasi per cluster secara dua dimensi
Hotspot

Cluster 0

Cluster 3

Cluster 6

Cluster 7

Cluster 8

Cluster 10

28

RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 28 Agustus 1993, dari pasangan
Bapak Bennet Parsaoran Lumban Tobing dan Ibu Bina Nainggolan, SPd sebagai
anak kedua dari dua bersaudara. Pada tahun 2010 penulis lulus dari SMA Negeri
12 Jakarta dan lulus seleksi masuk Institut Pertanian Bogor (IPB) melalui jalur
Undangan Seleksi Masuk IPB dan diterima di Departemen Ilmu Komputer,
Fakultas Matematika dan Ilmu Pengetahuan Alam.
Selama mengikuti perkuliahan, penulis pernah aktif menjadi anggota dan
penyiar di Radio Kampus Agri FM IPB. Pada tahun 2013, penulis mengikuti
kegiatan Praktik Kerja Lapangan di Badan Pemeriksa Keuangan Republik
Indonesia (BPK RI).