Deteksi Pencilan pada Data Titik Panas Menggunakan Clustering Berbasis Medoids
i
DETEKSI PENCILAN PADA DATA TITIK PANAS
MENGGUNAKAN CLUSTERING
BERBASIS MEDOIDS
MOHAMAD BENTAR CAHYADAHRENA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
ii
iii
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Deteksi Pencilan pada
Data Titik Panas Menggunakan Clustering Berbasis Medoids adalah benar karya
saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk
apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau
dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah
disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Februari 2015
Mohamad Bentar Cahyadahrena
NIM G64124070
ii
ABSTRAK
MOHAMAD BENTAR. Deteksi Pencilan pada Data Titik Panas Berdasarkan
Clustering berbasis K-Medoids. Dibimbing oleh IMAS SUKAESIH
SITANGGANG.
Kebakaran hutan adalah salah satu bencana yang dampaknya sangat
merugikan. Kebakaran hutan dan lahan di Indonesia disebabkan oleh beberapa
faktor diantaranya, musim kemarau yang panjang, kelalaian manusia dan pihak
yang tidak bertanggung jawab yang sengaja membakar demi mencapai tujuan
tertentu. Titik panas (hotspot) merupakan indikator terjadinya kebakaran hutan.
Tujuan dari penelitian ini adalah mendeteksi pencilan hotspot pada tahun 2001
hingga 2012 yang diperoleh dari FIRM NASA. Deteksi pencilan ini menggunakan
metode clustering berbasis medoids yaitu PAM dan CLARA. Hasil algoritme
PAM pencilan titik panas terjadi pada nilai k=17 dengan cluster ke 13,14,15,16
dan 17. Algoritme CLARA pencilan titik panas terjadi pada nilai k=19 dengan
cluster ke 14,15,17 dan 19. Algoritme PAM dan CLARA terjadi pada bulan
Februari, Maret, Juni, Juli dan Agustus. Hasil analisis pencilan dapat diharapkan
membantu pihak berwenang dalam menentukan daerah yang berpotensi prioritas
pencegahan terjadinya kebakaran hutan.
Kata kunci: clustering, deteksi pencilan, kebakaran hutan, k-medoids, titik panas
ABSTRACT
MOHAMAD BENTAR CAHYADAHRENA. Outlier Detection in Data
Clustering based Hotspots Based K-Medoids. Supervised by IMAS SUKAESIH
SITANGGANG.
Forest fire is one of disasters which has a very adverse impact. Land and
forest fires in Indonesia are caused by several factors, such as prolonged drought,
human negligence and irresponsible parties who deliberately set fire to achieve
certain goals. Hotspot is an indicator of forest fires. The purpose of this study is
to detect outliers in hotspots in 2001 until 2012. Hotspot data were obtained from
the NASA FIRM. The outlier detection was performed using medoid based
clustering methods, namely PAM and CLARA. The result of PAM algorithm
show that outliers occur in cluster k=17 with medoid 13,14,15,16 and 17. The
result of CLARA algorithm show that outliers occur in cluster k = 19 with medoid
14,15,17 and 19. PAM and CLARA algorithm detect outliers in February, March,
June, July and August. Clustering results are expected to assist the authorities in
determining potential areas for forest fires prevention.
Keywords: clustering, k-medoids, forest fires, hotspot, outlier detection
iii
DETEKSI PENCILAN PADA DATA TITIK PANAS
MENGGUNAKAN CLUSTERING
BERBASIS MEDOIDS
MOHAMAD BENTAR CAHYADAHRENA
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
iv
Penguji 1: Hari Agung Adrianto, SKom MSi
Penguji 2: Muhammad Asyhar Agmalaro, SSi MKom
v
Judul Skripsi : Deteksi Pencilan pada Data Titik Panas Menggunakan Clustering
Berbasis Medoids
Nama
: Mohamad Bentar Cahyadahrena
NIM
: G64124070
Disetujui oleh
Dr Imas Sukaesih Sitanggang, SSi MKom
Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Tanggal Lulus:
vi
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Juli 2014 adalah Deteksi
Pencilan pada Data Titik Panas Menggunakan Clustering Berbasis Medoids.
Terima kasih penulis ucapkan kepada ayah tercinta M. Dahlan, ibu tercinta
Susrina dan seluruh keluarga. Ungkapan terima kasih juga disampaikan kepada
Ibu Dr Imas Sukaesih Sitanggang, SSi, Mkom selaku pembimbing, teman – teman
Vilbar dan Riverside Gunung Gede, Shofyan, Salman, Dyha Beahaki, Nuke
Arincy serta seluruh teman-teman Alih Jenis Ilmu Komputer IPB angkatan 7, atas
segala doa dan kasih sayangnya.
Penulis menyadari bahwa karya tulis ini masih jauh dari sempurna karena
keterbatasan pengalaman dan pengetahuan yang dimiliki penulis. Oleh karena itu,
penulis mengharapkan saran dan kritik yang dapat digunakan untuk perbaikan di
masa-masa yang akan datang.
Semoga karya ilmiah ini bermanfaat.
Bogor, Februari 2015
Mohamad Bentar Cahyadahrena
vii
DAFTAR ISI
DAFTAR TABEL
viii
DAFTAR GAMBAR
viii
DAFTAR LAMPIRAN
viii
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
1
Tujuan Penelitian
1
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE
Tahapan Penelitian
2
2
Pengumpulan Data Titik Panas
3
Clustering Data Titik Panas Menggunakan Algoritme PAM dan CLARA
3
Deteksi Pencilan Titik Panas Berdasarkan Hasil Clustering Terbaik
4
Analisis Pencilan
4
Presentasi Pencilan
4
HASIL DAN PEMBAHASAN
Pengumpulan Data Titik Panas
5
5
Clustering Data Titik Panas Menggunakan Algoritme Berbasis Medoid PAM
dan CLARA
6
Algoritme PAM
6
Algoritme CLARA
8
Deteksi Pencilan Titik Panas Berdasarkan Hasil Clustering Terbaik
Algoritme PAM
Algoritme CLARA
9
9
10
Analisis Pencilan
11
Presentasi Pencilan
13
Simpulan
16
Saran
16
DAFTAR PUSTAKA
16
RIWAYAT HIDUP
31
viii
DAFTAR TABEL
1
2
3
4
Hasil clustering menggunakan algoritme PAM pada cluster k=17
Hasil clustering menggunakan algoritme CLARA pada cluster k=19
Persentase anggota cluster hasil algoritme PAM dengan nilai k=17
Presentase anggota cluster hasil algoritme CLARA dengan nilai k=19
6
8
9
10
DAFTAR GAMBAR
1
2
3
4
5
6
7
Tahapan penelitian
Dekomposisi frekuensi titik panas
Scatter plot hasil clustering algoritme PAM untuk k=17
Scatter plot hasil clustering algoritme CLARA untuk k=19
Plot data titik panas tahun 2001 sampai dengan tahun 2012
Plot data titik panas tahun 2001 sampai dengan tahun 2012
Jumlah pencilan algoritme PAM pada setiap bulan pada tahun 2001 2012
8 Jumlah pencilan algoritme CLARA pada setiap bulan pada tahun 2001
- 2012
9 Jumlah objek deteksi pencilan per tahun algoritme PAM
10 Jumlah objek deteksi pencilan per tahun algoritme CLARA
11 Visualisasi objek deteksi pencilan algoritme PAM
12 Visualisasi objek deteksi pencilan algoritme CLARA
2
6
7
9
12
12
13
13
14
14
15
15
DAFTAR LAMPIRAN
1
2
3
4
5
Hasil clustering menggunakan algoritme PAM
Hasil clustering menggunakan algoritme CLARA
Visualiasi peta anggota cluster algoritme PAM
Visualisasi peta anggota cluster algoritme CLARA
Kalender pencilan algoritme PAM dan CLARA
17
20
23
25
27
ix
1
PENDAHULUAN
Latar Belakang
Kebakaran hutan menjadi perhatian internasional sebagai isu lingkungan
dan ekonomi, khususnya pada tahun 1997/1998 yang menghanguskan lahan hutan
seluas 25 juta hektar di seluruh dunia. Menurut (BAPPENAS-ADB 1999) total
luas hutan di Indonesia yang terbakar sekitar 9,75 juta ha. Kebakaran dianggap
sebagai ancaman potensial bagi pembangunan berkelanjutan karena efeknya
secara langsung terhadap ekosistem, peningkatan emisi karbon dan dampaknya
bagi keanekaragaman hayati. Kebakaran hutan mengakibatkan masalah yang
berulang bahkan selama bertahun-tahun. Indonesia mengalami kebakaran hutan
yang paling hebat pada tahun 1997. Lembaga Sosial Masyarakat (LSM) nasional
dan internasional memberikan bantuan biaya kebakaran hutan pada tahun
1997/1998 untuk menekan meluasnya masalah kebakaran hutan. Kebijakan dalam
mengendalikan kebakaran hutan sangat bervariasi pada sektor kehutanan dan
pertanian, perkebunan kelapa sawit dan perkebunan rakyat. Kebijakan tersebut
meliputi pelarangan atau pembekuan izin pembukaan lahan, pencegahan kegiatan
pembalakan liar dan pemberian hukum bagi pihak yang sengaja membuka lahan
dengan cara membakar hutan (Tacconi 2003).
Berbagai studi mengenai kebakaran hutan sudah banyak dilakukan, namun
belum banyak mengatasi kebakaran hutan di Indonesia. Pencegahan kebakaran
hutan dapat dilakukan salah satunya dengan mengetahui sebaran titik panas. Salah
satu penelitian sebelumnya telah dilakukan terkait sebaran titik panas adalah
deteksi pencilan titik panas yang dilakukan oleh Baehaki (2014). Deteksi pencilan
ini, dilakukan untuk mendapatkan frekuensi kemunculan titik panas yang
melampaui batas normal. Informasi mengenai wilayah terjadinya kebakaran
hutan dapat digunakan oleh pihak terkait sebagai upaya pencegahan dan
kebijakan. Penentuan kebijakan dalam tata guna lahan yang memilki kontribusi
dalam terjadinya kebakaran hutan.
Penelitian ini menggunakan metode clustering pada data titik panas tahun
2001 hingga 2012. Teknik data mining yang diterapkan adalah metode clustering
dengan pengelompokkan titik panas. Metode clustering yang digunakan adalah
metode k-medoids Partitioning Around Medoids (PAM) dan Clustering Large
Application (CLARA). Hasil clustering tersebut selanjutnya dilakukan deteksi
pencilan kolektif. Hasil penelitian ini menyajikan tanggal terjadinya kebakaran
hutan dan ditampilkan secara visualiasasi Provinsi Riau dalam bentuk peta.
Perumusan Masalah
Rumusan masalah dalam penelitian ini adalah bagaimana pencilan
diidentifikasi dari data titik panas menggunakan metode clustering berbasis kmedoids dan informasi tentang karakteristik pencilan titik panas.
Tujuan Penelitian
Tujuan dari penelitian ini adalah:
2
1
2
3
Melakukan clustering titik panas menggunakan algoritme berbasis medoids
yaitu algoritme PAM dan CLARA.
Mendeteksi pencilan titik panas berdasarkan hasil clustering terbaik.
Analisis pencilan titik panas yang dihasilkan.
Manfaat Penelitian
Hasil penelitian ini yaitu karakteristik pencilan titik panas yang diharapkan
dapat mempermudah pihak terkait dalam pengambilan keputusan dan upaya
pencegahan titik panas kebakaran hutan.
Ruang Lingkup Penelitian
1
2
Ruang lingkup dari penelitian ini meliputi:
Data titik panas yang digunakan data tahun 2001 sampai dengan 2012 dari
FIRM NASA dan diperoleh dari penelitian sebelumnya (Baehaki 2014).
Pencilan yang dideteksi adalah pencilan kolektif.
METODE
Tahapan Penelitian
Tahapan-tahapan yang dilakukan pada penelitian ini dapat dilihat pada
Gambar 1.
Mulai
Data titik panas
Clustering menggunakan
PAM
Clustering menggunakan
CLARA
Deteksi pencilan
berdasarkan hasil
clustering terbaik
Analisis Pencilan
Kolektif
Presentasi pencilan yang
dihasilkan
Selesai
Gambar 1 Tahapan penelitian
3
Pengumpulan Data Titik Panas
Data titik panas merupakan data kebakaran hutan. Data yang digunakan
dalam penelitian ini adalah data titik panas yang diperoleh dari penelitian
sebelumnya yang dilakukan oleh Baehaki (2014). Data tersebut terdiri dari data
titik panas tahun 2001 hingga tahun 2012 di Provinsi Riau, Sumatera. Proses
inisialisasi titik panas tanggal 1 Januari 2001 dengan ID tanggal =1 sampai
dengan tanggal 31 Desember 2012 dengan ID tanggal = 4383.
Data titik panas tersebut terdiri dari atribut latitude, longitude, brightness,
acq_date, acq_time, bright_t31 dan
frp. Atribut latitude dan longitude
menggambarkan letak geografis titik panas, brightness, bright_t31 dan frp
merupakan tingkat visualisasi kecerahan pada titik panas, acq_date dan acq_time
merupakan keterangan tanggal titik panas yang muncul.
Clustering Data Titik Panas Menggunakan Algoritme PAM dan CLARA
Terdapat beberapa algoritme clustering berbasis medoid, diantaranya PAM
dan CLARA. Algoritme PAM k-medoid menggunakan data yang mewakili
ditengah cluster sebagai centroid. Algoritme PAM bekerja secara efisien pada
dataset yang kecil untuk merepresentasikan dataset yang asli, sedangkan
algoritme CLARA menggunakan sebuah sample acak dari dataset yang besar
untuk clustering dari multiple sample acak dan mengembalikan hasil clustering
menjadi sebuah output (Han et al. 2012).
Pada algoritme k-medoid PAM dan CLARA terdapat nilai k merupakan
jumlah cluster dan nilai n adalah jumlah banyaknya objek. Objek dipartisi ke
dalam beberapa kelompok yang diwakili satu nilai centroid . Centroid adalah nilai
tengah dari objek yang dikelompokan. Algoritme PAM adalah sebagai berikut
(Han et al. 2012):
1 Memilih nilai k cluster dari sebuah dataset D sebagai objek perwakilan;
2 Ulangi:
2.1 Tetapkan setiap objek k cluster dengan objek representatif
terdekat;
2.2 Ambil secara acak objek yang bukan objek representatif,
Orandom;
2.3 Hitung nilai cost, S dari nilai tukar objek representatif Oj
dengan Orandom;
2.4 Jika S < 0 kemudian tukar Oj dengan Orandom untuk nilai dataset
yang baru dari k objek representatif;
Algoritme CLARA mengangani objek yang berbentuk point dan mengambil
sample besar dari dataset dan menerapkan untuk menghasilkan nilai medoid
optimal untuk sample. Kualitas yang dihasilkan nilai medoid diukur dengan
perbedaan rata-rata antara setiap objek dalam seluruh dataset D dan medoid
clusternya. Algoritme CLARA adalah sebagai berikut (Wei et al. 2000).
1 Tentukan minimum cost dari sebuah dataset D sebagai objek
2 Ulangi:
2.1 Tentukan S dengan s objek secara acak dari D
2.2 Tentukan medoid M dari S
2.3 Jika Cost (M,D) < minimum cost
4
Maka,
Minimum cost = Cost (M,D);
Set terbaik = C;
Ulangi hingga selesai C tidak berubah.
dengan:
S = Sample dari dataset
s = Ukurandari S
M= Medoid
D = Dataset
C = Cluster
Deteksi Pencilan Titik Panas Berdasarkan Hasil Clustering Terbaik
Setelah diketahui nilai k terbaik kemudian dilakukan pendeteksian pencilan
pada hasil clustering berbasis medoid. Pencilan digunakan untuk melihat anomali
kemunculan titik panas. Deteksi pencilan berbasis clustering ini terdapat tiga
pendekatan. Pendekatan pertama adalah bila objek tidak temasuk ke dalam kelas
manapun, maka objek tersebut diidentifikasi sebagai pencilan. Pendekatan kedua
adalah apabila terdapat jarak yang besar antara objek dan kelas terdekat, maka
objek tersebut merupakan pencilan. Pendekatan ketiga yaitu bila objek adalah
bagian dari anggota kelas yang kecil, maka seluruh objek dalam kelas tersebut
merupakan pencilan (Han et al. 2012).
Deteksi pencilan dapat dilihat dengan mengevaluasi jarak nilai antara setiap
data yang multi dimensional. Deteksi pencilan dalam penelitian ini adalah
pencilan kolektif. Pencilan kolektif merupakan pendekatan menggunakan nilai
yang dilihat dari titik pusat setiap cluster (Han et al. 2012).
Analisis Pencilan
Pada tahap ini diperlihatkan objek pencilan dari hasil clustering. Data hasil
deteksi pencilan dianalisis untuk mengetahui informasi yang terdapat pada data
titik panas seperti ukuran pemusatan dan tanggal yang terdeteksi pencilan kolektif.
Presentasi Pencilan
Pada tahap ini pencilan kolektif titik panas dipresentasikan dalam bentuk
peta. Hasil pencilan kolektif tersebut adalah output dari algoritme PAM dan
CLARA dengan cluster nilai k terbaik.
Lingkungan Pengembangan
Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk
penelitian ini adalah sebagai berikut:
1 Perangkat keras berupa komputer personal dengan spesifikasi sebagai berikut:
Processor Intel Core i5
RAM 4 GB
Monitor LCD 14.0” HD
Harddisk 500 GB HDD
5
2
Perangkat lunak:
Sistem Operasi Windows 7 Ultimate
Microsoft Excel 2010 untuk pengolahan angka
Rstudio untuk komputasi statistik, clustering dan grafis
HASIL DAN PEMBAHASAN
Pengumpulan Data Titik Panas
Pengumpulan data titik panas telah dilakukan oleh penelitian sebelumnya
oleh Baehaki (2014). Data penelitian ini titik panas dari bulan Januari 2001 hingga
Desember 2012 awalnya sebanyak 156703 record data. Kemudian data tersebut
dilakukan tahap pembersihan dengan memisahkan batas area titik panas
berdasarkan kepulauan Riau, sehingga data berkurang menjadi sebanyak 111091
record data. Praproses data menggunakan perangkat lunak basis data spatial
DBMS PostgreSQL dan Quantum GIS untuk menampilkan layer berdasarkan titik
panas kepulauan Riau.
Hasil pengolahan data titik panas oleh Baehaki (2014) dilakukan agregasi
data. Kejadian titik panas dalam satu hari dijadikan sebagai frekuensi titik panas.
Data tersebut menghasilkan sebanyak 4383 record data titik panas harian dan
frekuensi data panas bulanan sebanyak 144 data.
Setelah frekuensi data titik panas harian didapatkan, dilakukan dekomposisi
dengan menjalankan kode R berikut:
>data.stl0103 dectimes plot(dectimes)
>stl.hotspot0103stl.outlier plot(stl.hotspot0103)
>op plot(stl.hotspot0103, set.pars=NULL)
>sts points(time(sts)[stl.outlier],
0.8*sts[,"remainder"][stl.outlier], pch="x",
col="red")
par(op)
Berdasarkan kode program di atas decompose dan plot merupakan fungsi
R untuk visualisasi hasil plotting. Visualisasi hasil plotting yang dapat dilihat
pada Gambar 2.
6
Gambar 2 Dekomposisi frekuensi titik panas
Pada Gambar 2 menunjukkan hasil dekomposisi harian data titik panas
dengan asumsi jumlah hari pada satu tahun sebanyak 365 hari. Label time
merupakan tanggal kejadian titik panas dari tahun 2001 hingga 2012. Label trend
menunjukkan kenaikkan frekuensi titik panas tahun 2005 yang kemudian
mengalami penurunan tahun 2007 hingga 2009 dan mengalami kenaikan tahun
2010. Label seasonal ditunjukkan frekuensi titik panas mengalami kenaikkan
pada awal dan pertengahan tahun sepanjang tahun 2001 hingga 2012.
Clustering Data Titik Panas Menggunakan Algoritme Berbasis Medoid
PAM dan CLARA
Algoritme PAM
Hasil clustering dengan menggunakan metode PAM pada titik panas
kepulauan Riau menghasilkan pencilan dengan cluster k=17. Pencarian nilai k
terbaik menggunakan algoritme PAM adalah nilai k=2 hingga nilai k=20. Cluster
k=17 yang merupakan hasil cluster yang paling baik dan terdapat nilai frekuensi
yang sangat besar dari frekuensi cluster lainnya yaitu 956. Hasil pencarian nilai k
tersebut dapat dilihat pada Tabel 1.
Tabel 1 Hasil clustering menggunakan algoritme PAM pada cluster k=17
Cluster
1
2
3
4
5
6
7
8
9
10
11
ID
Frekuensi Cluster
medoid medoid
size
4383
50
45
538
4230
63
4262
192
4245
3083
4187
0
8
3
15
49
66
24
36
89
141
209
2163
413
674
258
120
101
203
146
73
56
41
Tanggal
titik panas
medoid
12/31/2012
2/19/2001
2/14/2001
6/22/2002
7/31/2012
3/4/2001
9/1/2012
7/11/2001
8/15/2012
6/10/2009
6/18/2012
7
Cluster
12
13
14
15
16
17
ID
Frekuensi Cluster
medoid medoid
size
1559
1524
1484
1527
3136
1680
110
335
266
648
428
956
50
17
28
16
22
2
Tanggal
titik panas
medoid
4/8/2005
3/4/2005
1/23/2005
3/7/2005
8/2/2009
8/7/2005
Berdasarkan Tabel 1 dapat dilihat bahwa cluster ke-17 merupakan nilai
frekuensi medoid terbaik di antara cluster yang lain. Hal ini untuk mendeteksi
pencilan, dengan id medoid 1680, frekuensi medoid 956 dan cluster size 2.
Terdapat 2 anggota medoid dalam cluster ini yaitu tanggal 8/7/2005 yang
mewakili tanggal medoid dan tanggal 2/21/2005. Kedua tanggal tersebut
merupakan nilai pencilan. Kode R untuk menghasilkan cluster tersebut dijalankan
sebagai berikut:
> library("cluster")
Mengaktifkan library cluster
> datap datap
> resultp summary(resultp)
Melihat hasil clustering
Berdasarkan kode program di atas algoritme PAM dapat dipanggil dengan
mengaktifkan library cluster setelah data.csv dimasukan ke dalam variabel
datap. Data tersebut dikelompokan menggunakan fungsi PAM dan fungsi
summary digunakan untuk melihat hasil clustering pada data.csv. Visualisasi
hasil cluster ke-17 dapat dilihat pada scatter plot Gambar 3.
Gambar 3 Scatter plot hasil clustering algoritme PAM untuk k=17
8
Berdasarkan Gambar 3, titik pada scatter plot yang berbentuk belah ketupat
merupakan kejadian titik panas. Garis x merupakan ID medoid dan garis y
merupakan frekuensi titik panas. Pada cluster ke-17 dengan ID medoid 1680
memiliki nilai frekuensi yang paling besar yaitu 956 yang diindikasikan sebagai
pencilan. Scatter plot menunjukan adanya nilai frekuensi di bawah 200 yang
sering muncul. Sehingga dikategorikan sebagai nilai yang paling berdekatan atau
dominan terjadinya titik panas.
Algoritme CLARA
Hasil clustering dengan menggunakan metode CLARA pada titik panas
kepulauan Riau menghasilkan pencilan dengan cluster k=19. Pencarian nilai k
terbaik menggunakan algoritme CLARA adalah nilai k=2 hingga nilai k=20.
Cluster k=19 yang merupakan hasil cluster yang paling baik dan terdapat nilai
frekuensi yang sangat besar dari frekuensi cluster lainnya yaitu 266. Hasil
pencarian nilai k tersebut dapat dilihat pada Tabel 2.
Tabel 2 Hasil clustering menggunakan algoritme CLARA pada cluster k=19
Cluster
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
ID
Frekuensi Cluster
medoid medoid
size
4357
4380
3923
3491
1876
4151
1643
3975
3886
2940
1626
3525
407
1512
413
2974
1497
4192
1890
0
1
6
3
18
8
52
13
60
84
24
36
94
151
190
139
205
266
254
1831
556
276
337
153
187
112
211
87
56
173
137
73
17
17
47
24
72
17
Tanggal
titik panas
medoid
12/5/2012
12/28/2012
9/28/2011
7/23/2010
2/19/2006
5/13/2012
7/1/2005
11/19/2011
8/22/2011
1/28/2009
6/14/2005
8/26/2010
2/11/2002
2/20/2005
2/17/2002
2/21/2009
2/5/2005
6/23/2012
3/5/2006
Berdasarkan Tabel 2 dapat dilihat bahwa cluster ke-18 merupakan nilai
frekuensi medoid terbaik di antara cluster yang lain. Hal ini untuk mendeteksi
pencilan, dengan ID medoid 4192, frekuensi medoid 266 dan cluster size 72.
Terdapat 72 anggota tanggal medoid dalam cluster ini pada tanggal 6/23/2012
yang mewakili tanggal medoid. 72 anggota tanggal tersebut merupakan nilai
pencilan. Kode R untuk menghasilkan cluster tersebut dijalankan sebagai berikut:
> library("cluster")
Mengaktifkan library cluster
9
> datac resultc summary(resultc)
Melihat hasil cluster
Berdasarkan kode program di atas algoritme CLARA dapat dipanggil
dengan mengaktifkan library cluster setelah data.csv dimasukan ke dalam
variabel datac. Data tersebut dikelompokan menggunakan fungsi CLARA dan
fungsi summary untuk melihat hasil clustering pada data.csv. Visualisasi
hasil cluster ke-18 dapat dilihat pada scatter plot Gambar 4.
Gambar 4 Scatter plot hasil clustering algoritme CLARA untuk k=19
Berdasarkan Gambar 4 titik pada scatter plot berbentuk belah ketupat yang
merupakan simbol kejadian titik panas. Garis x merupakan ID medoid dan garis y
merupakan frekuensi hotspot. Pada cluster ke-18 dengan ID medoid 4192
memiliki nilai frekuensi yang paling besar yaitu 266 yang diindikasikan sebagai
pencilan. Scatter plot menunjukan adanya nilai frekuensi dibawah 100 nilai yang
sering muncul. Sehingga dikategorikan sebagai nilai yang paling berdekatan atau
dominan terjadinya titik panas.
Deteksi Pencilan Titik Panas Berdasarkan Hasil Clustering Terbaik
Algoritme PAM
Hasil clustering terbaik pada algoritme PAM dengan nilai k=17 terdapat
anggota medoid dengan persentase di bawah 1%. Presentase ini berdasarkan
pendekatan clustering yaitu bila objek adalah bagian dari anggota yang kecil,
maka seluruh objek dalam kelas merupakan pencilan (Han et al. 2012). Anggota
setiap cluster 13, 14, 15, 16 dan 17 dapat dilihat pada Lampiran 1. Persentase
anggota cluster terdapat pada Tabel 3.
Tabel 3 Persentase anggota cluster hasil algoritme PAM dengan nilai k=17
10
Cluster
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
ID
Frekuensi Cluster
medoid medoid
size
4383
50
45
538
4230
63
4262
192
4245
3083
4187
1559
1524
1484
1527
3136
1680
0
8
3
15
49
66
24
36
89
141
209
110
335
266
648
428
956
2163
413
674
258
120
101
203
146
73
56
41
50
17
28
16
22
2
Tanggal
Persentase
titik panas
medoid
medoid
12/31/2012
49.34%
2/19/2001
9.42%
2/14/2001
15.37%
6/22/2002
5.88%
7/31/2012
2.73%
3/4/2001
2.30%
9/1/2012
4.63%
7/11/2001
3.33%
8/15/2012
1.66%
6/10/2009
1.27%
6/18/2012
0.93%
4/8/2005
1.14%
3/4/2005
0.38%
1/23/2005
0.63%
3/7/2005
0.36%
8/2/2009
0.50%
8/7/2005
0.04%
Algoritme CLARA
Hasil clustering terbaik pada algoritme CLARA dengan nilai k=19 terdapat
anggota medoid dengan persentase dibawah 1%. Presentase ini berdasarkan
pendekatan clustering yaitu bila objek adalah bagian dari anggota yang kecil,
maka seluruh objek dalam kelas merupakan pencilan (Han et al. 2012). Anggota
setiap cluster 14, 15, 17 dan 19 dapat dilihat pada Lampiran 2. Hasil persentase
cluster terlihat pada Tabel 4.
Tabel 4 Presentase anggota cluster hasil algoritme CLARA dengan nilai k=19
Cluster
1
2
3
4
5
6
7
8
9
10
11
12
13
ID
Frekuensi Medoid
medoid medoid
size
4357
4380
3923
3491
1876
4151
1643
3975
3886
2940
1626
3525
407
0
1
6
3
18
8
52
13
60
84
24
36
94
1831
556
276
337
153
187
112
211
87
56
173
137
73
Tanggal
Persentase
titik panas
medoid
medoid
12/5/2012
41.77%
12/28/2012
12.68%
9/28/2011
6.29%
7/23/2010
7.68%
2/19/2006
3.49%
5/13/2012
4.26%
7/1/2005
2.55%
11/19/2011
4.81%
8/22/2011
1.98%
1/28/2009
1.27%
6/14/2005
3.94%
8/26/2010
3.12%
2/11/2002
1.66%
11
Cluster
14
15
16
17
18
19
ID
Frekuensi Medoid
medoid medoid
size
1512
413
2974
1497
4192
1890
151
190
139
205
266
254
17
17
47
24
72
17
Tanggal
titik panas
medoid
2/17/2002
2/17/2002
2/21/2009
2/5/2005
6/23/2012
3/5/2006
Persentase
medoid
0.38%
0.38%
1.07%
0.54%
1.64%
0.38%
Analisis Pencilan
Pencilan kolektif berdasarkan banyaknya jumlah anggota setiap cluster.
Cluster yang memiliki sedikit anggota merupakan pencilan. Algoritme PAM pada
Tabel 3 yang memiliki anggota terkecil terletak pada cluster 11 dengan 41
anggota, cluster 14 dengan 28 anggota, cluster 13 dengan 17 anggota, cluster 14
dengan 28 anggota, cluster 15 dengan 16 anggota, cluster 16 dengan 22 anggota
dan cluster 17 dengan 2 anggota. Algoritme CLARA pada Tabel 4 yang memiliki
anggota terkecil terletak pada cluster 14 dengan 17 anggota, cluster 15 dengan 17
anggota, cluster 17 dengan 24 anggota dan cluster 19 dengan 17 anggota. Semua
anggota algoritme PAM dan CLARA tersebut persentase anggotanya di bawah
1% yang disebut sebagai pencilan kolektif.
Lampiran 1 merupakan jumlah anggota setiap cluster algoritme PAM.
Lampiran 1 menunjukan jumlah anggota cluster ke-13 banyak terjadi titik panas
pada bulan Agustus 2004, 2005, 2006 dan 2009. Anggota cluster ke-14 banyak
terjadi titik panas pada bulan Juli 2002, 2003, 2007, 2009 dan 2011. Anggota
cluster ke-15 banyak terjadi titik panas pada bulan Juni 2003, 2004, 2005 dan
Februari 2005. Anggota cluster ke-16 banyak terjadi titik panas pada bulan Maret
2005, 2011, Juni 2004, 2005, 2009, 2012 dan Agustus 2005, 2006, 2008, 2009.
Anggota cluster ke-17 banyak terjadi titik panas pada bulan Januari 2005 dan
Agustus 2005. Berdasarkan hasil algoritme PAM ini dapat disimpulkan pencilan
terjadi pada bulan Februari, Maret, Juni, Juli dan Agustus dari Januari 2001
hingga Desember 2012 dan hasil visualisasi peta setiap anggota cluster dapat
dilihat pada Lampiran 3.
Lampiran 2 merupakan jumlah anggota setiap cluster algoritme CLARA.
Lampiran 2 jumlah anggota cluster ke-14 banyak terjadi titik panas pada bulan
Juli 2001, 2002, 2005 dan 2009. Anggota cluster ke-15 banyak terjadi titik panas
pada bulan Juni 2003, 2004, 2005, 2009 dan 2012 serta terjadi pada bulan Juli
2001, 2006, 2009 dan 2011. Anggota cluster ke-17 banyak terjadi titik panas pada
bulan Februari 2002, 2005 dan 2009. Anggota cluster ke-19 banyak terjadi titik
panas pada bulan Juli 2003, 2006, 2009, 2011 dan 2012. Berdasarkan hasil
algoritme CLARA ini dapat disimpulkan pencilan terjadi pada bulan Februari,
Maret, Juni , Juli dan Agustus dari Januari 2001 hingga Desember 2012 dan hasil
visualisasi peta setiap anggota cluster dapat dilihat pada Lampiran 4.
Hasil cluster dari pencilan dari algoritme PAM cluster k=17 dan CLARA
cluster k=19. Kedua algoritme tersebut menghasilkan ID medoid 1513, tanggal
titik panas 2/21/2005 dan frekuensi titik panas 1118. Hasil tersebut sama untuk
kedua metode tersebut seperti ditunjukan pada Gambar 5 dan Gambar 6.
12
Gambar 5 Plot data titik panas tahun 2001 sampai dengan tahun 2012
Berdasarkan Gambar 5 titik pada scatter plot berbentuk simbol segitiga
berwarna hitam merupakan pencilan titik panas. Sumbu garis x merupakan ID
medoid dan garis y merupakan frekuensi hotspot. Hasil visualisasi pada Gambar 4
terlihat bahwa frekuensi yang sering muncul adalah frekuensi di bawah nilai 200
dengan berbagai macam warna dan bentuk. Nilai frekuensi diatas 800 merupakan
pencilan dengan rentang nilai diantara hari ke-1000 sampai ke-2000. Pencilan
tersebut titik panas terjadi sekitar tahun 2005.
Gambar 6 Plot data titik panas tahun 2001 sampai dengan tahun 2012
Berdasarkan Gambar 6 titik pada scatter plot berbentuk belah ketupat,
segitiga merupakan pencilan titik panas. Sumbu garis x merupakan ID cluster dan
garis y merupakan frekuensi hotspot. Hasil visualisasi pada Gambar 5 terlihat
bahwa frekuensi yang sering muncul adalah frekuensi di bawah nilai 200 berbagai
macam warna dan bentuk serta nilai frekuensi diatas 300 merupakan pencilan
dengan rentang nilai hari ke-1000 sampai ke-2000.
13
Presentasi Pencilan
Hasil algoritme PAM dan CLARA dapat disimpulkan pencilan titik panas
terjadi bulan Februari, Maret, Juni, Juli dan Agustus. Pencilan secara keseluruhan
bulan Januari 2001 hingga Desember 2012. Hasil visualiasi pencilan titik panas
berdasarkan bulan pada Gambar 7 dan Gambar 8.
30
Frekuensi
25
27
22
22
20
18
20
15
8
10
4
5
0
1
0
0
0
0
Januari 2001 - Desember 2012
Gambar 7 Jumlah pencilan algoritme PAM pada setiap bulan pada tahun 2001 2012
20
Frekuensi
18
18
16
14
14
11
12
11
9
10
8
6
4
4
4
2
2
0
2
0
0
0
Januari 2001 - Desember 2012
Gambar 8 Jumlah pencilan algoritme CLARA pada setiap bulan pada tahun 2001
- 2012
Gambar 7 dan Gambar 8 menunjukan algoritme PAM pencilan banyak
terjadi pada bulan Februari sebanyak 22 objek, bulan Maret sebanyak 22 objek,
bulan Juni sebanyak 20 objek, bulan Juli 18 objek dan bulan Agustus sebanyak 27
objek. Algoritme CLARA pencilan banyak terjadi pada bulan Februari sebanyak
14
11 objek, bulan Maret sebanyak 9 objek, bulan Juni sebanyak 11 objek, bulan Juli
18 objek dan bulan Agustus sebanyak 14 objek.
Visualisasi jumlah pencilan per tahun algoritme sebagai hasil PAM dan
CLARA pada Gambar 9 dan Gambar 10.
30
Frekuensi
27
25
20
15
9
10
6
7
4
5
10
9
5
4
2
2
0
0
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
Tahun
Gambar 9 Jumlah objek deteksi pencilan per tahun algoritme PAM
18
Frekuensi
16
16
14
14
12
10
8
8
7
8
6
5
6
4
4
4
2
1
2
0
0
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
Tahun
Gambar 10 Jumlah objek deteksi pencilan per tahun algoritme CLARA
Berdasarkan hasil algoritme PAM, pencilan banyak terjadi pada tahun 2005
sebanyak 27 objek dan algoritme CLARA, pencilan banyak terjadi pada tahun
2005 sebanyak 16 objek dan tahun 2009 sebanyak 14 objek. Hasil pencilan
algoritme PAM dan CLARA divisualisakan dalam bentuk kalender bulan dan
tahun dapat dilihat pada Lampiran 5.
Visualisasi jumlah pencilan dalam bentuk peta sebagai hasil algoritme PAM
dan CLARA pada Gambar 11 dan Gambar 12.
15
Gambar 11 Visualisasi objek deteksi pencilan algoritme PAM
Gambar 11 dapat dilihat bahwa objek yang terdeteksi sebagai pencilan
algoritme PAM menyebar di seluruh Provinsi Riau. Pada bulan Februari banyak
pencilan terdeteksi di Kota Pekan Baru dan Kab. Indragiri Hilir serta menyebar di
Kota Dumai. Pada bulan Maret pencilan mayoritas muncul di Kota Dumai serta
menyebar di seluruh Provinsi Riau. Pada bulan Juni, Juli dan Agustus pencilan
muncul secara merata di seluruh Provinsi Riau.
Gambar 12 Visualisasi objek deteksi pencilan algoritme CLARA
Gambar 12 dapat dilihat bahwa objek yang terdeteksi sebagai pencilan
algoritme CLARA menyebar di seluruh Provinsi Riau. Pada bulan Februari
pencilan terdeksi berkumpul di Kota Dumai, bagian utara Kab. Indragiri dan
bagian tenggara Kota Pekan Baru. Pada bulan Maret, Juni, Juli dan Agustus
pencilan tersebar hampir di seluruh Provinsi Riau.
16
SIMPULAN DAN SARAN
Simpulan
Penelitian ini menunjukan deteksi pencilan dari 4383 objek titik panas.
Hasil algoritme PAM pencilan titik panas terjadi pada k=17 dengan cluster ke11,13,14,15,16 dan 17 serta terjadinya pada bulan Februari, Maret, Juni, Juli dan
Agustus. Hasil algoritme CLARA menunjukan pencilan titik panas pada k=19
dengan cluster ke 14,15,17 dan 19 serta terjadi pada bulan Februari, Maret, Juni,
Juli dan Agustus. Frekuensi tertinggi menunjukan pencilan secara keseluruhan
bulan Januari 2001 sampai dengan Desember 2012 adalah dengan frekuensi 1118.
Kejadian tersebut terjadi pada tanggal 2/21/2005. Hasil algoritme PAM, bulan
Februari banyak pencilan terdeteksi di Kota Pekan Baru dan Kab. Indragiri Hilir
serta menyebar di Kota Dumai, bulan Maret pencilan mayoritas muncul di Kota
Dumai serta menyebar di seluruh Provinsi Riau dan bulan Juni, Juli dan Agustus
pencilan muncul secara merata di seluruh Provinsi Riau. Hasil algoritme CLARA,
bulan Februari pencilan terdeksi berkumpul di Kota Dumai, bagian utara Kab.
Indragiri dan bagian tenggara Kota Pekan Baru dan bulan Maret, Juni, Juli,
Agustus pencilan tersebar hampir di seluruh Provinsi Riau.
Saran
Penelitian ini memiliki kekurangan dalam menentukan nilai k. Dalam
penelitian ini menggunakan nilai k=2 sampai k=20 dengan asumsi hasil yang
didapatkan dengan nilai k terbaik. Penelitian selanjutnya diharapkan
menggunakan metode yang lain dengan penentuan nilai k yang lebih optimal.
DAFTAR PUSTAKA
Baehaki D. 2014. Deteksi pencilan data titik panas di provinsi Riau menggunakan
algoritme clustering K-Means [skripsi]. Bogor(ID): Insitut Pertanian Bogor.
BAPPENAS-ADB. 1999. Causes, Extent, Impact and Costs of 1997/1998 Fires
and Drought. National Development Planning Agency (BAPPENAS) and
Asia Development Bank, Jakarta.
Han J, Kamber M, Pei J. 2012. Data Mining Concepts and Techniques Third
Edition. San Massachusetts (US): Morgan Kaufmann Publisher.
Liao TW. 2005. Clustering of time series data—a survey. Pattern Recognition
[Internet]. [diunduh 2014 Mei 30]. 38(1). 1857-1874. Tersedia pada:
http://arxiv.org/ftp/arxiv/papers/1005/1005.4270.pdf
Tacconi L. 2003. Kebakaran Hutan di Indonesia: Penyebab, Biaya dan Implikasi
Kebijakan[paper]. Bogor(ID): Center For International Forestry Research
Wei C, Lee Y, Hsu C. 2000. Empirical Comparison of Fast Clustering Algorithms
for Large Data Set. Taiwan (R.O.C): Department of Information Management
National Sun Yat-Sen University Kaohsiung.
17
Lampiran 1 Hasil clustering menggunakan algoritme PAM
a Anggota cluster 13 dengan ID medoid 1524
Tanggal
ID
Frekuensi
Cluster
titik panas
medoid
medoid
medoid
1
189
3/8/2002
304
2
562
3/12/2002
354
3
563
6/6/2003
341
4
951
6/19/2004
344
5
1149
6/20/2004
328
6
1232
8/11/2004
337
7
1271
1/24/2005
337
8
1353
3/4/2005
335
9
1487
6/20/2005
349
10
1492
8/10/2005
328
11
1512
8/17/2006
354
12
1648
2/21/2008
350
13
1684
7/24/2009
334
14
1895
8/6/2009
305
15
2697
7/12/2011
306
16
3124
8/8/2012
306
17
3901
9/4/2012
321
b
Anggota cluster 14 dengan ID medoid 1484
Cluster
ID
medoid
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
434
560
793
890
942
1269
1314
1484
1538
1678
1689
1863
1890
2233
2375
2773
2944
2969
Tanggal
titik panas
medoid
3/10/2002
7/14/2002
3/4/2003
6/9/2003
7/31/2003
6/22/2004
8/6/2004
1/23/2005
3/18/2005
8/5/2005
8/16/2005
2/6/2006
3/5/2006
2/11/2007
7/3/2007
8/4/2008
1/22/2009
2/16/2009
Frekuensi
medoid
247
279
296
243
250
254
259
266
275
239
295
270
254
271
284
241
269
274
18
c
Cluster
ID
medoid
19
20
21
22
23
24
25
26
27
28
3107
3134
3700
3838
4185
4192
4226
4229
4242
4244
Frekuensi
medoid
241
247
280
242
244
266
275
245
287
270
Anggota cluster 15 dengan ID medoid 1527
Cluster
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
d
Tanggal
titik panas
medoid
7/4/2009
7/31/2009
2/17/2011
7/5/2011
6/16/2012
6/23/2012
7/27/2012
7/30/2012
8/12/2012
8/14/2012
ID
medoid
889
891
1264
1486
1499
1502
1504
1506
1527
1529
1636
2023
2043
3575
3865
4240
Tanggal
titik panas
medoid
6/8/2003
6/10/2003
6/17/2004
1/25/2005
2/7/2005
2/10/2005
2/12/2005
2/14/2005
3/7/2005
3/9/2005
6/24/2005
7/16/2006
8/5/2006
10/15/2010
8/1/2011
8/10/2012
Frekuensi
medoid
730
676
683
623
792
647
652
600
648
736
557
589
596
593
729
761
Anggota cluster 16 dengan ID medoid 3136
Cluster
ID
medoid
1
2
3
4
5
1262
1481
1483
1501
1499
Tanggal
titik panas
medoid
6/15/2004
1/20/2005
1/22/2005
2/9/2005
2/7/2005
Frekuensi
medoid
435
402
434
438
792
19
e
Tanggal
Frekuensi
titik panas
medoid
medoid
6
1525
3/5/2005
454
7
1536
3/16/2005
511
8
1540
3/20/2005
420
6
1525
3/5/2005
454
9
1637
6/25/2005
401
10
1682
8/9/2005
388
11
1865
2/8/2006
405
12
1888
3/3/2006
383
13
2032
7/25/2006
414
14
2044
8/6/2006
386
15
2606
2/19/2008
527
16
2775
8/6/2008
453
17
3090
6/17/2009
400
18
3136
8/2/2009
428
19
3138
8/4/2009
384
20
3577 10/17/2010
498
21
3781
5/9/2011
453
22
4183
6/14/2012
462
Anggota cluster 17 dengan ID medoid 1680
f
Tanggal
Frekuensi
titik panas
medoid
medoid
1
1513
2/21/2005
1118
2
1680
8/7/2005
956
Anggota cluster 11 dengan ID medoid 4187
Cluster
ID
medoid
ID
Cluster
medoid
ID
Cluster
medoid
1
2
3
4
5
6
7
8
9
10
11
12
13
190
411
413
592
597
1236
1270
1493
1497
1500
1511
1514
1515
Tanggal
titik panas
medoid
7/9/2001
2/15/2002
2/17/2002
8/15/2002
8/20/2002
5/20/2004
6/23/2004
2/1/2005
2/5/2005
2/8/2005
2/19/2005
2/22/2005
2/23/2005
Frekuensi
medoid
191
224
190
227
228
191
191
217
205
218
216
229
206
20
Cluster
ID
medoid
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
1517
1534
1541
1635
2011
2025
2046
2059
2103
2105
2695
2770
2772
2784
2942
2971
3067
3070
3072
3092
3093
3116
3120
3141
3780
3854
4187
4194
Tanggal
titik panas
medoid
2/25/2005
3/14/2005
3/21/2005
6/23/2005
7/4/2006
7/18/2006
8/8/2006
8/21/2006
10/4/2006
10/6/2006
5/18/2008
8/1/2008
8/3/2008
8/15/2008
1/20/2009
2/18/2009
5/25/2009
5/28/2009
5/30/2009
6/19/2009
6/20/2009
7/13/2009
7/17/2009
8/7/2009
5/8/2011
7/21/2011
6/18/2012
6/25/2012
Frekeunsi
medoid
186
227
222
191
196
230
235
205
232
210
210
182
183
224
199
202
214
222
216
180
230
214
205
202
189
183
209
181
Lampiran 2 Hasil clustering menggunakan algoritme CLARA
a
Anggota cluster 14 dengan ID medoid 1512
ID
Cluster
medoid
1
2
3
4
5
6
7
8
189
562
563
951
1149
1232
1271
1353
Tanggal
titik panas
medoid
7/8/2001
7/16/2002
7/17/2002
8/9/2003
2/23/2004
5/16/2004
6/24/2004
9/14/2004
Frekeunsi
medoid
165
151
155
154
168
166
166
166
21
b
c
Tanggal
Frekeunsi
titik panas
medoid
medoid
9
1487
1/26/2005
145
10
1492
1/31/2005
157
11
1512
2/20/2005
151
12
1648
7/6/2005
146
13
1684
8/11/2005
161
14
1895
3/10/2006
157
15
2697
5/20/2008
159
16
3124
7/21/2009
152
Anggota cluster 15 dengan ID medoid 413
Cluster
ID
medoid
Cluster
ID
medoid
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
190
413
896
1236
1270
1517
1635
2011
2414
2770
2772
3092
3106
3780
3835
3854
Tanggal
titik panas
medoid
7/9/2001
2/17/2002
6/15/2003
5/20/2004
6/23/2004
2/25/2005
6/23/2005
7/4/2006
8/11/2007
8/1/2008
8/3/2008
6/19/2009
7/3/2009
5/8/2011
7/2/2011
7/21/2011
Frekuensi
Medoid
191
190
171
191
191
186
191
196
174
182
183
180
174
189
171
183
Anggota cluster 17 dengan ID medoid 1497
Cluster
ID
medoid
1
2
3
4
5
6
7
8
411
592
597
1493
1497
1500
1511
1514
Tanggal
titik panas
medoid
2/15/2002
8/15/2002
8/20/2002
2/1/2005
2/5/2005
2/8/2005
2/19/2005
2/22/2005
Frekuensi
medoid
224
227
228
217
205
218
216
229
22
d
Cluster
ID
medoid
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
1515
1534
1541
2059
2105
2695
2784
2942
2971
3067
3070
3072
3116
3120
3141
4187
Tanggal
titik panas
medoid
2/23/2005
3/14/2005
3/21/2005
8/21/2006
10/6/2006
5/18/2008
8/15/2008
1/20/2009
2/18/2009
5/25/2009
5/28/2009
5/30/2009
7/13/2009
7/17/2009
8/7/2009
6/18/2012
Frekuensi
medoid
206
227
222
205
210
210
224
199
202
214
222
216
214
205
202
209
Anggota cluster 19 dengan ID medoid 1890
ID
Cluster
medoid
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
434
890
942
1269
1314
1678
1890
2025
2046
2103
2773
3093
3107
3134
3838
4185
4229
Tanggal
titik panas
medoid
3/10/2002
6/9/2003
7/31/2003
6/22/2004
8/6/2004
8/5/2005
3/5/2006
7/18/2006
8/8/2006
10/4/2006
8/4/2008
6/20/2009
7/4/2009
7/31/2009
7/5/2011
6/16/2012
7/30/2012
Frekuensi
medoid
247
243
250
254
259
239
254
230
235
232
241
230
241
247
242
244
245
23
Lampiran 3 Visualiasi peta anggota cluster algoritme PAM
a Cluster 13 dengan ID medoid 1524
b
Cluster 14 dengan ID medoid 1484
c
Cluster 15 dengan ID medoid 1527
24
d
Cluster 16 dengan ID medoid 3136
e
Cluster 17 dengan ID medoid 1680
f
Cluster 11 dengan ID medoid 4187
25
Lampiran 4 Visualisasi peta anggota cluster algoritme CLARA
a. Cluster 14 dengan ID medoid 1512
b. Cluster 15 dengan ID medoid 413
c. Cluster 17 dengan ID medoid 1497
26
d. Cluster 19 dengan ID medoid 1890
27
Lampiran 5 Kalender pencilan algoritme PAM dan CLARA
a Algoritme CLARA
Tahun
Jan
Feb
Mar
Apr
Mei
Jun
Tanggal (Frekuensi)
2001
2002
17(190)b
10(247)d
Jul
Agus
8(165)a
9(191)b
16(151),
17(155)a
15(227),
20(228)c
Sept
Okt
15(224)c
2003
2004
23(168)a
9(243)d
15(171)b
31(250)d
9(154)a
16(166)a,
20(191)b,
20(254)d
24(166)a
6(259)d
14(166)a
23(191)b
2005
2006
20(151)a,25(186)b,
26(145)
1(217),5(205),
31(157)a
8(218),19(216)
,22(229),23(206)c
14(227),
21(222)c,
5(254)d
23(191)b
6(146)a
4(196)b,
18(230)d
10(157)a
2007
2008
20(159)a
21(152)a
18(210)c
Algoritme CLARA (a = cluster 14, b = cluster 15, c = cluster 17, d = cluster 19)
11(161)a,
5(209)d
21(205)c,
8(235)d
11(174)b
1(182),
3(183)b
15(224)c
4(241)d
6(210)c,
4(243)d
Nov Des
28
Tahun
2009
2010
2011
2012
Jan
Feb
Mar
20(199),18(202)c
Apr
Mei
Jun
20(230)d
8(185)b
18(209)c,
16(244)d
Jul
3(174)b,
13(214),17(205)c,
4(241),31(247)d
5(242)d
2(171),21(183)b
30(245)d
Agus
7(202)c
Sept
Okt
Nov Des
29
b Algoritme PAM
Tahun
Jan
2001
2002
15(224),
17(190)a
2003
2004
2005
Feb
Mar
Apr
Mei
Jun
Tanggal (Frekuensi)
9(191)a
14(279)c
8(304),
12(354)b,
10(247)c
4(296)c
20(191)a
24(337)
b,
25(623)
d,
21(402)
,
22(434)
e
Jul
6(341)b,
9(243)c,
18(730),10(6
76)d
23(191)a
19(244),20(3
28)b
22(254)c
17(683)d
15(435)e
23(191)a
20(349)b
20(349)b
24(557)d
25(401)e
Agus
15(227),
20(228)a
31(250)c
1(217),5(205),
14(227),
21(222),a
8(218),19(216),
22(229),23(206),
4(335)b
18(275)c
25(186)a
23(266)c
7(648),9(736)d
7(792),10(647),
5(454),16(511),
12(652),14(600)d 20(420),5(454)e
9(438),7(792)e
21(1118)f
Algoritme PAM (a = cluster 11, b = cluster 13, c = cluster 14, d= cluster 15, e= cluster 16, f = cluster 17)
11(337)b
6(259)c
10(328)b
5(239),1
6(295)c
9(388)e
7(956)f
Sept
Okt
Nov
Des
30
Tahun
2006
Jan
2007
2008
2009
Feb
6(270)c,
8(405)e
11(271),c
21(350)b,9(527)e
20(199)
a
22(269)
c
Mar
5(254)c,
3(383)e
Apr
Mei
Jun
Jul
4(196)a,
16(589)d
,25(414)e
Agus
8(235),
21(205)a
5(596)d
6(386)e
Sept
3(284)c
18(210)a
18(202)a
16(274)c
19(180),20(2
30)a
17(400)e
13(214),
17(205)a
24(334)b
4(241),3
1(257)c
1(182),3(
183),
15(224)a
4(241)c
6(453)e
7(202)a
6(305)b
2(428),4(
384)e
2010
2011
2012
Okt
4(232),
6(210)a
15(593)
d
17(489)
e
17(280)c
8(189)a
9(453)e
21(183)a,
12(306)b
5(242)c,
1(729)d
18(209),25(1 27(275),
81)a,16(244), 30(245)c
23(266)c
10(761)d
14(462)e
8(306)b
12(287),
14(270)c
4(32
1)b
Nov
Des
31
RIWAYAT HIDUP
Penulis dilahirkan di Ciamis pada tanggal 3 Juni 1991. Penulis merupakan anak pertama
dari 4 bersaudara dari pasangan Bapak M. Dahlan dan Ibu Susrina. Penulis memasuki
jenjang Sekolah Menengah Atas (SMA) pada tahun 2006 di SMAN 71 Jakarta, jenjang
Program Diploma Manajemen Informatika IPB pada tahun 2009 dan pada tahun 2012
melanjutkan pendidikan sebagai mahasiswa Program Studi Alih Jenis Ilmu Komputer,
Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut
Pertanian Bogor
DETEKSI PENCILAN PADA DATA TITIK PANAS
MENGGUNAKAN CLUSTERING
BERBASIS MEDOIDS
MOHAMAD BENTAR CAHYADAHRENA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
ii
iii
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Deteksi Pencilan pada
Data Titik Panas Menggunakan Clustering Berbasis Medoids adalah benar karya
saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk
apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau
dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah
disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Februari 2015
Mohamad Bentar Cahyadahrena
NIM G64124070
ii
ABSTRAK
MOHAMAD BENTAR. Deteksi Pencilan pada Data Titik Panas Berdasarkan
Clustering berbasis K-Medoids. Dibimbing oleh IMAS SUKAESIH
SITANGGANG.
Kebakaran hutan adalah salah satu bencana yang dampaknya sangat
merugikan. Kebakaran hutan dan lahan di Indonesia disebabkan oleh beberapa
faktor diantaranya, musim kemarau yang panjang, kelalaian manusia dan pihak
yang tidak bertanggung jawab yang sengaja membakar demi mencapai tujuan
tertentu. Titik panas (hotspot) merupakan indikator terjadinya kebakaran hutan.
Tujuan dari penelitian ini adalah mendeteksi pencilan hotspot pada tahun 2001
hingga 2012 yang diperoleh dari FIRM NASA. Deteksi pencilan ini menggunakan
metode clustering berbasis medoids yaitu PAM dan CLARA. Hasil algoritme
PAM pencilan titik panas terjadi pada nilai k=17 dengan cluster ke 13,14,15,16
dan 17. Algoritme CLARA pencilan titik panas terjadi pada nilai k=19 dengan
cluster ke 14,15,17 dan 19. Algoritme PAM dan CLARA terjadi pada bulan
Februari, Maret, Juni, Juli dan Agustus. Hasil analisis pencilan dapat diharapkan
membantu pihak berwenang dalam menentukan daerah yang berpotensi prioritas
pencegahan terjadinya kebakaran hutan.
Kata kunci: clustering, deteksi pencilan, kebakaran hutan, k-medoids, titik panas
ABSTRACT
MOHAMAD BENTAR CAHYADAHRENA. Outlier Detection in Data
Clustering based Hotspots Based K-Medoids. Supervised by IMAS SUKAESIH
SITANGGANG.
Forest fire is one of disasters which has a very adverse impact. Land and
forest fires in Indonesia are caused by several factors, such as prolonged drought,
human negligence and irresponsible parties who deliberately set fire to achieve
certain goals. Hotspot is an indicator of forest fires. The purpose of this study is
to detect outliers in hotspots in 2001 until 2012. Hotspot data were obtained from
the NASA FIRM. The outlier detection was performed using medoid based
clustering methods, namely PAM and CLARA. The result of PAM algorithm
show that outliers occur in cluster k=17 with medoid 13,14,15,16 and 17. The
result of CLARA algorithm show that outliers occur in cluster k = 19 with medoid
14,15,17 and 19. PAM and CLARA algorithm detect outliers in February, March,
June, July and August. Clustering results are expected to assist the authorities in
determining potential areas for forest fires prevention.
Keywords: clustering, k-medoids, forest fires, hotspot, outlier detection
iii
DETEKSI PENCILAN PADA DATA TITIK PANAS
MENGGUNAKAN CLUSTERING
BERBASIS MEDOIDS
MOHAMAD BENTAR CAHYADAHRENA
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
iv
Penguji 1: Hari Agung Adrianto, SKom MSi
Penguji 2: Muhammad Asyhar Agmalaro, SSi MKom
v
Judul Skripsi : Deteksi Pencilan pada Data Titik Panas Menggunakan Clustering
Berbasis Medoids
Nama
: Mohamad Bentar Cahyadahrena
NIM
: G64124070
Disetujui oleh
Dr Imas Sukaesih Sitanggang, SSi MKom
Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Tanggal Lulus:
vi
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Juli 2014 adalah Deteksi
Pencilan pada Data Titik Panas Menggunakan Clustering Berbasis Medoids.
Terima kasih penulis ucapkan kepada ayah tercinta M. Dahlan, ibu tercinta
Susrina dan seluruh keluarga. Ungkapan terima kasih juga disampaikan kepada
Ibu Dr Imas Sukaesih Sitanggang, SSi, Mkom selaku pembimbing, teman – teman
Vilbar dan Riverside Gunung Gede, Shofyan, Salman, Dyha Beahaki, Nuke
Arincy serta seluruh teman-teman Alih Jenis Ilmu Komputer IPB angkatan 7, atas
segala doa dan kasih sayangnya.
Penulis menyadari bahwa karya tulis ini masih jauh dari sempurna karena
keterbatasan pengalaman dan pengetahuan yang dimiliki penulis. Oleh karena itu,
penulis mengharapkan saran dan kritik yang dapat digunakan untuk perbaikan di
masa-masa yang akan datang.
Semoga karya ilmiah ini bermanfaat.
Bogor, Februari 2015
Mohamad Bentar Cahyadahrena
vii
DAFTAR ISI
DAFTAR TABEL
viii
DAFTAR GAMBAR
viii
DAFTAR LAMPIRAN
viii
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
1
Tujuan Penelitian
1
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE
Tahapan Penelitian
2
2
Pengumpulan Data Titik Panas
3
Clustering Data Titik Panas Menggunakan Algoritme PAM dan CLARA
3
Deteksi Pencilan Titik Panas Berdasarkan Hasil Clustering Terbaik
4
Analisis Pencilan
4
Presentasi Pencilan
4
HASIL DAN PEMBAHASAN
Pengumpulan Data Titik Panas
5
5
Clustering Data Titik Panas Menggunakan Algoritme Berbasis Medoid PAM
dan CLARA
6
Algoritme PAM
6
Algoritme CLARA
8
Deteksi Pencilan Titik Panas Berdasarkan Hasil Clustering Terbaik
Algoritme PAM
Algoritme CLARA
9
9
10
Analisis Pencilan
11
Presentasi Pencilan
13
Simpulan
16
Saran
16
DAFTAR PUSTAKA
16
RIWAYAT HIDUP
31
viii
DAFTAR TABEL
1
2
3
4
Hasil clustering menggunakan algoritme PAM pada cluster k=17
Hasil clustering menggunakan algoritme CLARA pada cluster k=19
Persentase anggota cluster hasil algoritme PAM dengan nilai k=17
Presentase anggota cluster hasil algoritme CLARA dengan nilai k=19
6
8
9
10
DAFTAR GAMBAR
1
2
3
4
5
6
7
Tahapan penelitian
Dekomposisi frekuensi titik panas
Scatter plot hasil clustering algoritme PAM untuk k=17
Scatter plot hasil clustering algoritme CLARA untuk k=19
Plot data titik panas tahun 2001 sampai dengan tahun 2012
Plot data titik panas tahun 2001 sampai dengan tahun 2012
Jumlah pencilan algoritme PAM pada setiap bulan pada tahun 2001 2012
8 Jumlah pencilan algoritme CLARA pada setiap bulan pada tahun 2001
- 2012
9 Jumlah objek deteksi pencilan per tahun algoritme PAM
10 Jumlah objek deteksi pencilan per tahun algoritme CLARA
11 Visualisasi objek deteksi pencilan algoritme PAM
12 Visualisasi objek deteksi pencilan algoritme CLARA
2
6
7
9
12
12
13
13
14
14
15
15
DAFTAR LAMPIRAN
1
2
3
4
5
Hasil clustering menggunakan algoritme PAM
Hasil clustering menggunakan algoritme CLARA
Visualiasi peta anggota cluster algoritme PAM
Visualisasi peta anggota cluster algoritme CLARA
Kalender pencilan algoritme PAM dan CLARA
17
20
23
25
27
ix
1
PENDAHULUAN
Latar Belakang
Kebakaran hutan menjadi perhatian internasional sebagai isu lingkungan
dan ekonomi, khususnya pada tahun 1997/1998 yang menghanguskan lahan hutan
seluas 25 juta hektar di seluruh dunia. Menurut (BAPPENAS-ADB 1999) total
luas hutan di Indonesia yang terbakar sekitar 9,75 juta ha. Kebakaran dianggap
sebagai ancaman potensial bagi pembangunan berkelanjutan karena efeknya
secara langsung terhadap ekosistem, peningkatan emisi karbon dan dampaknya
bagi keanekaragaman hayati. Kebakaran hutan mengakibatkan masalah yang
berulang bahkan selama bertahun-tahun. Indonesia mengalami kebakaran hutan
yang paling hebat pada tahun 1997. Lembaga Sosial Masyarakat (LSM) nasional
dan internasional memberikan bantuan biaya kebakaran hutan pada tahun
1997/1998 untuk menekan meluasnya masalah kebakaran hutan. Kebijakan dalam
mengendalikan kebakaran hutan sangat bervariasi pada sektor kehutanan dan
pertanian, perkebunan kelapa sawit dan perkebunan rakyat. Kebijakan tersebut
meliputi pelarangan atau pembekuan izin pembukaan lahan, pencegahan kegiatan
pembalakan liar dan pemberian hukum bagi pihak yang sengaja membuka lahan
dengan cara membakar hutan (Tacconi 2003).
Berbagai studi mengenai kebakaran hutan sudah banyak dilakukan, namun
belum banyak mengatasi kebakaran hutan di Indonesia. Pencegahan kebakaran
hutan dapat dilakukan salah satunya dengan mengetahui sebaran titik panas. Salah
satu penelitian sebelumnya telah dilakukan terkait sebaran titik panas adalah
deteksi pencilan titik panas yang dilakukan oleh Baehaki (2014). Deteksi pencilan
ini, dilakukan untuk mendapatkan frekuensi kemunculan titik panas yang
melampaui batas normal. Informasi mengenai wilayah terjadinya kebakaran
hutan dapat digunakan oleh pihak terkait sebagai upaya pencegahan dan
kebijakan. Penentuan kebijakan dalam tata guna lahan yang memilki kontribusi
dalam terjadinya kebakaran hutan.
Penelitian ini menggunakan metode clustering pada data titik panas tahun
2001 hingga 2012. Teknik data mining yang diterapkan adalah metode clustering
dengan pengelompokkan titik panas. Metode clustering yang digunakan adalah
metode k-medoids Partitioning Around Medoids (PAM) dan Clustering Large
Application (CLARA). Hasil clustering tersebut selanjutnya dilakukan deteksi
pencilan kolektif. Hasil penelitian ini menyajikan tanggal terjadinya kebakaran
hutan dan ditampilkan secara visualiasasi Provinsi Riau dalam bentuk peta.
Perumusan Masalah
Rumusan masalah dalam penelitian ini adalah bagaimana pencilan
diidentifikasi dari data titik panas menggunakan metode clustering berbasis kmedoids dan informasi tentang karakteristik pencilan titik panas.
Tujuan Penelitian
Tujuan dari penelitian ini adalah:
2
1
2
3
Melakukan clustering titik panas menggunakan algoritme berbasis medoids
yaitu algoritme PAM dan CLARA.
Mendeteksi pencilan titik panas berdasarkan hasil clustering terbaik.
Analisis pencilan titik panas yang dihasilkan.
Manfaat Penelitian
Hasil penelitian ini yaitu karakteristik pencilan titik panas yang diharapkan
dapat mempermudah pihak terkait dalam pengambilan keputusan dan upaya
pencegahan titik panas kebakaran hutan.
Ruang Lingkup Penelitian
1
2
Ruang lingkup dari penelitian ini meliputi:
Data titik panas yang digunakan data tahun 2001 sampai dengan 2012 dari
FIRM NASA dan diperoleh dari penelitian sebelumnya (Baehaki 2014).
Pencilan yang dideteksi adalah pencilan kolektif.
METODE
Tahapan Penelitian
Tahapan-tahapan yang dilakukan pada penelitian ini dapat dilihat pada
Gambar 1.
Mulai
Data titik panas
Clustering menggunakan
PAM
Clustering menggunakan
CLARA
Deteksi pencilan
berdasarkan hasil
clustering terbaik
Analisis Pencilan
Kolektif
Presentasi pencilan yang
dihasilkan
Selesai
Gambar 1 Tahapan penelitian
3
Pengumpulan Data Titik Panas
Data titik panas merupakan data kebakaran hutan. Data yang digunakan
dalam penelitian ini adalah data titik panas yang diperoleh dari penelitian
sebelumnya yang dilakukan oleh Baehaki (2014). Data tersebut terdiri dari data
titik panas tahun 2001 hingga tahun 2012 di Provinsi Riau, Sumatera. Proses
inisialisasi titik panas tanggal 1 Januari 2001 dengan ID tanggal =1 sampai
dengan tanggal 31 Desember 2012 dengan ID tanggal = 4383.
Data titik panas tersebut terdiri dari atribut latitude, longitude, brightness,
acq_date, acq_time, bright_t31 dan
frp. Atribut latitude dan longitude
menggambarkan letak geografis titik panas, brightness, bright_t31 dan frp
merupakan tingkat visualisasi kecerahan pada titik panas, acq_date dan acq_time
merupakan keterangan tanggal titik panas yang muncul.
Clustering Data Titik Panas Menggunakan Algoritme PAM dan CLARA
Terdapat beberapa algoritme clustering berbasis medoid, diantaranya PAM
dan CLARA. Algoritme PAM k-medoid menggunakan data yang mewakili
ditengah cluster sebagai centroid. Algoritme PAM bekerja secara efisien pada
dataset yang kecil untuk merepresentasikan dataset yang asli, sedangkan
algoritme CLARA menggunakan sebuah sample acak dari dataset yang besar
untuk clustering dari multiple sample acak dan mengembalikan hasil clustering
menjadi sebuah output (Han et al. 2012).
Pada algoritme k-medoid PAM dan CLARA terdapat nilai k merupakan
jumlah cluster dan nilai n adalah jumlah banyaknya objek. Objek dipartisi ke
dalam beberapa kelompok yang diwakili satu nilai centroid . Centroid adalah nilai
tengah dari objek yang dikelompokan. Algoritme PAM adalah sebagai berikut
(Han et al. 2012):
1 Memilih nilai k cluster dari sebuah dataset D sebagai objek perwakilan;
2 Ulangi:
2.1 Tetapkan setiap objek k cluster dengan objek representatif
terdekat;
2.2 Ambil secara acak objek yang bukan objek representatif,
Orandom;
2.3 Hitung nilai cost, S dari nilai tukar objek representatif Oj
dengan Orandom;
2.4 Jika S < 0 kemudian tukar Oj dengan Orandom untuk nilai dataset
yang baru dari k objek representatif;
Algoritme CLARA mengangani objek yang berbentuk point dan mengambil
sample besar dari dataset dan menerapkan untuk menghasilkan nilai medoid
optimal untuk sample. Kualitas yang dihasilkan nilai medoid diukur dengan
perbedaan rata-rata antara setiap objek dalam seluruh dataset D dan medoid
clusternya. Algoritme CLARA adalah sebagai berikut (Wei et al. 2000).
1 Tentukan minimum cost dari sebuah dataset D sebagai objek
2 Ulangi:
2.1 Tentukan S dengan s objek secara acak dari D
2.2 Tentukan medoid M dari S
2.3 Jika Cost (M,D) < minimum cost
4
Maka,
Minimum cost = Cost (M,D);
Set terbaik = C;
Ulangi hingga selesai C tidak berubah.
dengan:
S = Sample dari dataset
s = Ukurandari S
M= Medoid
D = Dataset
C = Cluster
Deteksi Pencilan Titik Panas Berdasarkan Hasil Clustering Terbaik
Setelah diketahui nilai k terbaik kemudian dilakukan pendeteksian pencilan
pada hasil clustering berbasis medoid. Pencilan digunakan untuk melihat anomali
kemunculan titik panas. Deteksi pencilan berbasis clustering ini terdapat tiga
pendekatan. Pendekatan pertama adalah bila objek tidak temasuk ke dalam kelas
manapun, maka objek tersebut diidentifikasi sebagai pencilan. Pendekatan kedua
adalah apabila terdapat jarak yang besar antara objek dan kelas terdekat, maka
objek tersebut merupakan pencilan. Pendekatan ketiga yaitu bila objek adalah
bagian dari anggota kelas yang kecil, maka seluruh objek dalam kelas tersebut
merupakan pencilan (Han et al. 2012).
Deteksi pencilan dapat dilihat dengan mengevaluasi jarak nilai antara setiap
data yang multi dimensional. Deteksi pencilan dalam penelitian ini adalah
pencilan kolektif. Pencilan kolektif merupakan pendekatan menggunakan nilai
yang dilihat dari titik pusat setiap cluster (Han et al. 2012).
Analisis Pencilan
Pada tahap ini diperlihatkan objek pencilan dari hasil clustering. Data hasil
deteksi pencilan dianalisis untuk mengetahui informasi yang terdapat pada data
titik panas seperti ukuran pemusatan dan tanggal yang terdeteksi pencilan kolektif.
Presentasi Pencilan
Pada tahap ini pencilan kolektif titik panas dipresentasikan dalam bentuk
peta. Hasil pencilan kolektif tersebut adalah output dari algoritme PAM dan
CLARA dengan cluster nilai k terbaik.
Lingkungan Pengembangan
Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk
penelitian ini adalah sebagai berikut:
1 Perangkat keras berupa komputer personal dengan spesifikasi sebagai berikut:
Processor Intel Core i5
RAM 4 GB
Monitor LCD 14.0” HD
Harddisk 500 GB HDD
5
2
Perangkat lunak:
Sistem Operasi Windows 7 Ultimate
Microsoft Excel 2010 untuk pengolahan angka
Rstudio untuk komputasi statistik, clustering dan grafis
HASIL DAN PEMBAHASAN
Pengumpulan Data Titik Panas
Pengumpulan data titik panas telah dilakukan oleh penelitian sebelumnya
oleh Baehaki (2014). Data penelitian ini titik panas dari bulan Januari 2001 hingga
Desember 2012 awalnya sebanyak 156703 record data. Kemudian data tersebut
dilakukan tahap pembersihan dengan memisahkan batas area titik panas
berdasarkan kepulauan Riau, sehingga data berkurang menjadi sebanyak 111091
record data. Praproses data menggunakan perangkat lunak basis data spatial
DBMS PostgreSQL dan Quantum GIS untuk menampilkan layer berdasarkan titik
panas kepulauan Riau.
Hasil pengolahan data titik panas oleh Baehaki (2014) dilakukan agregasi
data. Kejadian titik panas dalam satu hari dijadikan sebagai frekuensi titik panas.
Data tersebut menghasilkan sebanyak 4383 record data titik panas harian dan
frekuensi data panas bulanan sebanyak 144 data.
Setelah frekuensi data titik panas harian didapatkan, dilakukan dekomposisi
dengan menjalankan kode R berikut:
>data.stl0103 dectimes plot(dectimes)
>stl.hotspot0103stl.outlier plot(stl.hotspot0103)
>op plot(stl.hotspot0103, set.pars=NULL)
>sts points(time(sts)[stl.outlier],
0.8*sts[,"remainder"][stl.outlier], pch="x",
col="red")
par(op)
Berdasarkan kode program di atas decompose dan plot merupakan fungsi
R untuk visualisasi hasil plotting. Visualisasi hasil plotting yang dapat dilihat
pada Gambar 2.
6
Gambar 2 Dekomposisi frekuensi titik panas
Pada Gambar 2 menunjukkan hasil dekomposisi harian data titik panas
dengan asumsi jumlah hari pada satu tahun sebanyak 365 hari. Label time
merupakan tanggal kejadian titik panas dari tahun 2001 hingga 2012. Label trend
menunjukkan kenaikkan frekuensi titik panas tahun 2005 yang kemudian
mengalami penurunan tahun 2007 hingga 2009 dan mengalami kenaikan tahun
2010. Label seasonal ditunjukkan frekuensi titik panas mengalami kenaikkan
pada awal dan pertengahan tahun sepanjang tahun 2001 hingga 2012.
Clustering Data Titik Panas Menggunakan Algoritme Berbasis Medoid
PAM dan CLARA
Algoritme PAM
Hasil clustering dengan menggunakan metode PAM pada titik panas
kepulauan Riau menghasilkan pencilan dengan cluster k=17. Pencarian nilai k
terbaik menggunakan algoritme PAM adalah nilai k=2 hingga nilai k=20. Cluster
k=17 yang merupakan hasil cluster yang paling baik dan terdapat nilai frekuensi
yang sangat besar dari frekuensi cluster lainnya yaitu 956. Hasil pencarian nilai k
tersebut dapat dilihat pada Tabel 1.
Tabel 1 Hasil clustering menggunakan algoritme PAM pada cluster k=17
Cluster
1
2
3
4
5
6
7
8
9
10
11
ID
Frekuensi Cluster
medoid medoid
size
4383
50
45
538
4230
63
4262
192
4245
3083
4187
0
8
3
15
49
66
24
36
89
141
209
2163
413
674
258
120
101
203
146
73
56
41
Tanggal
titik panas
medoid
12/31/2012
2/19/2001
2/14/2001
6/22/2002
7/31/2012
3/4/2001
9/1/2012
7/11/2001
8/15/2012
6/10/2009
6/18/2012
7
Cluster
12
13
14
15
16
17
ID
Frekuensi Cluster
medoid medoid
size
1559
1524
1484
1527
3136
1680
110
335
266
648
428
956
50
17
28
16
22
2
Tanggal
titik panas
medoid
4/8/2005
3/4/2005
1/23/2005
3/7/2005
8/2/2009
8/7/2005
Berdasarkan Tabel 1 dapat dilihat bahwa cluster ke-17 merupakan nilai
frekuensi medoid terbaik di antara cluster yang lain. Hal ini untuk mendeteksi
pencilan, dengan id medoid 1680, frekuensi medoid 956 dan cluster size 2.
Terdapat 2 anggota medoid dalam cluster ini yaitu tanggal 8/7/2005 yang
mewakili tanggal medoid dan tanggal 2/21/2005. Kedua tanggal tersebut
merupakan nilai pencilan. Kode R untuk menghasilkan cluster tersebut dijalankan
sebagai berikut:
> library("cluster")
Mengaktifkan library cluster
> datap datap
> resultp summary(resultp)
Melihat hasil clustering
Berdasarkan kode program di atas algoritme PAM dapat dipanggil dengan
mengaktifkan library cluster setelah data.csv dimasukan ke dalam variabel
datap. Data tersebut dikelompokan menggunakan fungsi PAM dan fungsi
summary digunakan untuk melihat hasil clustering pada data.csv. Visualisasi
hasil cluster ke-17 dapat dilihat pada scatter plot Gambar 3.
Gambar 3 Scatter plot hasil clustering algoritme PAM untuk k=17
8
Berdasarkan Gambar 3, titik pada scatter plot yang berbentuk belah ketupat
merupakan kejadian titik panas. Garis x merupakan ID medoid dan garis y
merupakan frekuensi titik panas. Pada cluster ke-17 dengan ID medoid 1680
memiliki nilai frekuensi yang paling besar yaitu 956 yang diindikasikan sebagai
pencilan. Scatter plot menunjukan adanya nilai frekuensi di bawah 200 yang
sering muncul. Sehingga dikategorikan sebagai nilai yang paling berdekatan atau
dominan terjadinya titik panas.
Algoritme CLARA
Hasil clustering dengan menggunakan metode CLARA pada titik panas
kepulauan Riau menghasilkan pencilan dengan cluster k=19. Pencarian nilai k
terbaik menggunakan algoritme CLARA adalah nilai k=2 hingga nilai k=20.
Cluster k=19 yang merupakan hasil cluster yang paling baik dan terdapat nilai
frekuensi yang sangat besar dari frekuensi cluster lainnya yaitu 266. Hasil
pencarian nilai k tersebut dapat dilihat pada Tabel 2.
Tabel 2 Hasil clustering menggunakan algoritme CLARA pada cluster k=19
Cluster
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
ID
Frekuensi Cluster
medoid medoid
size
4357
4380
3923
3491
1876
4151
1643
3975
3886
2940
1626
3525
407
1512
413
2974
1497
4192
1890
0
1
6
3
18
8
52
13
60
84
24
36
94
151
190
139
205
266
254
1831
556
276
337
153
187
112
211
87
56
173
137
73
17
17
47
24
72
17
Tanggal
titik panas
medoid
12/5/2012
12/28/2012
9/28/2011
7/23/2010
2/19/2006
5/13/2012
7/1/2005
11/19/2011
8/22/2011
1/28/2009
6/14/2005
8/26/2010
2/11/2002
2/20/2005
2/17/2002
2/21/2009
2/5/2005
6/23/2012
3/5/2006
Berdasarkan Tabel 2 dapat dilihat bahwa cluster ke-18 merupakan nilai
frekuensi medoid terbaik di antara cluster yang lain. Hal ini untuk mendeteksi
pencilan, dengan ID medoid 4192, frekuensi medoid 266 dan cluster size 72.
Terdapat 72 anggota tanggal medoid dalam cluster ini pada tanggal 6/23/2012
yang mewakili tanggal medoid. 72 anggota tanggal tersebut merupakan nilai
pencilan. Kode R untuk menghasilkan cluster tersebut dijalankan sebagai berikut:
> library("cluster")
Mengaktifkan library cluster
9
> datac resultc summary(resultc)
Melihat hasil cluster
Berdasarkan kode program di atas algoritme CLARA dapat dipanggil
dengan mengaktifkan library cluster setelah data.csv dimasukan ke dalam
variabel datac. Data tersebut dikelompokan menggunakan fungsi CLARA dan
fungsi summary untuk melihat hasil clustering pada data.csv. Visualisasi
hasil cluster ke-18 dapat dilihat pada scatter plot Gambar 4.
Gambar 4 Scatter plot hasil clustering algoritme CLARA untuk k=19
Berdasarkan Gambar 4 titik pada scatter plot berbentuk belah ketupat yang
merupakan simbol kejadian titik panas. Garis x merupakan ID medoid dan garis y
merupakan frekuensi hotspot. Pada cluster ke-18 dengan ID medoid 4192
memiliki nilai frekuensi yang paling besar yaitu 266 yang diindikasikan sebagai
pencilan. Scatter plot menunjukan adanya nilai frekuensi dibawah 100 nilai yang
sering muncul. Sehingga dikategorikan sebagai nilai yang paling berdekatan atau
dominan terjadinya titik panas.
Deteksi Pencilan Titik Panas Berdasarkan Hasil Clustering Terbaik
Algoritme PAM
Hasil clustering terbaik pada algoritme PAM dengan nilai k=17 terdapat
anggota medoid dengan persentase di bawah 1%. Presentase ini berdasarkan
pendekatan clustering yaitu bila objek adalah bagian dari anggota yang kecil,
maka seluruh objek dalam kelas merupakan pencilan (Han et al. 2012). Anggota
setiap cluster 13, 14, 15, 16 dan 17 dapat dilihat pada Lampiran 1. Persentase
anggota cluster terdapat pada Tabel 3.
Tabel 3 Persentase anggota cluster hasil algoritme PAM dengan nilai k=17
10
Cluster
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
ID
Frekuensi Cluster
medoid medoid
size
4383
50
45
538
4230
63
4262
192
4245
3083
4187
1559
1524
1484
1527
3136
1680
0
8
3
15
49
66
24
36
89
141
209
110
335
266
648
428
956
2163
413
674
258
120
101
203
146
73
56
41
50
17
28
16
22
2
Tanggal
Persentase
titik panas
medoid
medoid
12/31/2012
49.34%
2/19/2001
9.42%
2/14/2001
15.37%
6/22/2002
5.88%
7/31/2012
2.73%
3/4/2001
2.30%
9/1/2012
4.63%
7/11/2001
3.33%
8/15/2012
1.66%
6/10/2009
1.27%
6/18/2012
0.93%
4/8/2005
1.14%
3/4/2005
0.38%
1/23/2005
0.63%
3/7/2005
0.36%
8/2/2009
0.50%
8/7/2005
0.04%
Algoritme CLARA
Hasil clustering terbaik pada algoritme CLARA dengan nilai k=19 terdapat
anggota medoid dengan persentase dibawah 1%. Presentase ini berdasarkan
pendekatan clustering yaitu bila objek adalah bagian dari anggota yang kecil,
maka seluruh objek dalam kelas merupakan pencilan (Han et al. 2012). Anggota
setiap cluster 14, 15, 17 dan 19 dapat dilihat pada Lampiran 2. Hasil persentase
cluster terlihat pada Tabel 4.
Tabel 4 Presentase anggota cluster hasil algoritme CLARA dengan nilai k=19
Cluster
1
2
3
4
5
6
7
8
9
10
11
12
13
ID
Frekuensi Medoid
medoid medoid
size
4357
4380
3923
3491
1876
4151
1643
3975
3886
2940
1626
3525
407
0
1
6
3
18
8
52
13
60
84
24
36
94
1831
556
276
337
153
187
112
211
87
56
173
137
73
Tanggal
Persentase
titik panas
medoid
medoid
12/5/2012
41.77%
12/28/2012
12.68%
9/28/2011
6.29%
7/23/2010
7.68%
2/19/2006
3.49%
5/13/2012
4.26%
7/1/2005
2.55%
11/19/2011
4.81%
8/22/2011
1.98%
1/28/2009
1.27%
6/14/2005
3.94%
8/26/2010
3.12%
2/11/2002
1.66%
11
Cluster
14
15
16
17
18
19
ID
Frekuensi Medoid
medoid medoid
size
1512
413
2974
1497
4192
1890
151
190
139
205
266
254
17
17
47
24
72
17
Tanggal
titik panas
medoid
2/17/2002
2/17/2002
2/21/2009
2/5/2005
6/23/2012
3/5/2006
Persentase
medoid
0.38%
0.38%
1.07%
0.54%
1.64%
0.38%
Analisis Pencilan
Pencilan kolektif berdasarkan banyaknya jumlah anggota setiap cluster.
Cluster yang memiliki sedikit anggota merupakan pencilan. Algoritme PAM pada
Tabel 3 yang memiliki anggota terkecil terletak pada cluster 11 dengan 41
anggota, cluster 14 dengan 28 anggota, cluster 13 dengan 17 anggota, cluster 14
dengan 28 anggota, cluster 15 dengan 16 anggota, cluster 16 dengan 22 anggota
dan cluster 17 dengan 2 anggota. Algoritme CLARA pada Tabel 4 yang memiliki
anggota terkecil terletak pada cluster 14 dengan 17 anggota, cluster 15 dengan 17
anggota, cluster 17 dengan 24 anggota dan cluster 19 dengan 17 anggota. Semua
anggota algoritme PAM dan CLARA tersebut persentase anggotanya di bawah
1% yang disebut sebagai pencilan kolektif.
Lampiran 1 merupakan jumlah anggota setiap cluster algoritme PAM.
Lampiran 1 menunjukan jumlah anggota cluster ke-13 banyak terjadi titik panas
pada bulan Agustus 2004, 2005, 2006 dan 2009. Anggota cluster ke-14 banyak
terjadi titik panas pada bulan Juli 2002, 2003, 2007, 2009 dan 2011. Anggota
cluster ke-15 banyak terjadi titik panas pada bulan Juni 2003, 2004, 2005 dan
Februari 2005. Anggota cluster ke-16 banyak terjadi titik panas pada bulan Maret
2005, 2011, Juni 2004, 2005, 2009, 2012 dan Agustus 2005, 2006, 2008, 2009.
Anggota cluster ke-17 banyak terjadi titik panas pada bulan Januari 2005 dan
Agustus 2005. Berdasarkan hasil algoritme PAM ini dapat disimpulkan pencilan
terjadi pada bulan Februari, Maret, Juni, Juli dan Agustus dari Januari 2001
hingga Desember 2012 dan hasil visualisasi peta setiap anggota cluster dapat
dilihat pada Lampiran 3.
Lampiran 2 merupakan jumlah anggota setiap cluster algoritme CLARA.
Lampiran 2 jumlah anggota cluster ke-14 banyak terjadi titik panas pada bulan
Juli 2001, 2002, 2005 dan 2009. Anggota cluster ke-15 banyak terjadi titik panas
pada bulan Juni 2003, 2004, 2005, 2009 dan 2012 serta terjadi pada bulan Juli
2001, 2006, 2009 dan 2011. Anggota cluster ke-17 banyak terjadi titik panas pada
bulan Februari 2002, 2005 dan 2009. Anggota cluster ke-19 banyak terjadi titik
panas pada bulan Juli 2003, 2006, 2009, 2011 dan 2012. Berdasarkan hasil
algoritme CLARA ini dapat disimpulkan pencilan terjadi pada bulan Februari,
Maret, Juni , Juli dan Agustus dari Januari 2001 hingga Desember 2012 dan hasil
visualisasi peta setiap anggota cluster dapat dilihat pada Lampiran 4.
Hasil cluster dari pencilan dari algoritme PAM cluster k=17 dan CLARA
cluster k=19. Kedua algoritme tersebut menghasilkan ID medoid 1513, tanggal
titik panas 2/21/2005 dan frekuensi titik panas 1118. Hasil tersebut sama untuk
kedua metode tersebut seperti ditunjukan pada Gambar 5 dan Gambar 6.
12
Gambar 5 Plot data titik panas tahun 2001 sampai dengan tahun 2012
Berdasarkan Gambar 5 titik pada scatter plot berbentuk simbol segitiga
berwarna hitam merupakan pencilan titik panas. Sumbu garis x merupakan ID
medoid dan garis y merupakan frekuensi hotspot. Hasil visualisasi pada Gambar 4
terlihat bahwa frekuensi yang sering muncul adalah frekuensi di bawah nilai 200
dengan berbagai macam warna dan bentuk. Nilai frekuensi diatas 800 merupakan
pencilan dengan rentang nilai diantara hari ke-1000 sampai ke-2000. Pencilan
tersebut titik panas terjadi sekitar tahun 2005.
Gambar 6 Plot data titik panas tahun 2001 sampai dengan tahun 2012
Berdasarkan Gambar 6 titik pada scatter plot berbentuk belah ketupat,
segitiga merupakan pencilan titik panas. Sumbu garis x merupakan ID cluster dan
garis y merupakan frekuensi hotspot. Hasil visualisasi pada Gambar 5 terlihat
bahwa frekuensi yang sering muncul adalah frekuensi di bawah nilai 200 berbagai
macam warna dan bentuk serta nilai frekuensi diatas 300 merupakan pencilan
dengan rentang nilai hari ke-1000 sampai ke-2000.
13
Presentasi Pencilan
Hasil algoritme PAM dan CLARA dapat disimpulkan pencilan titik panas
terjadi bulan Februari, Maret, Juni, Juli dan Agustus. Pencilan secara keseluruhan
bulan Januari 2001 hingga Desember 2012. Hasil visualiasi pencilan titik panas
berdasarkan bulan pada Gambar 7 dan Gambar 8.
30
Frekuensi
25
27
22
22
20
18
20
15
8
10
4
5
0
1
0
0
0
0
Januari 2001 - Desember 2012
Gambar 7 Jumlah pencilan algoritme PAM pada setiap bulan pada tahun 2001 2012
20
Frekuensi
18
18
16
14
14
11
12
11
9
10
8
6
4
4
4
2
2
0
2
0
0
0
Januari 2001 - Desember 2012
Gambar 8 Jumlah pencilan algoritme CLARA pada setiap bulan pada tahun 2001
- 2012
Gambar 7 dan Gambar 8 menunjukan algoritme PAM pencilan banyak
terjadi pada bulan Februari sebanyak 22 objek, bulan Maret sebanyak 22 objek,
bulan Juni sebanyak 20 objek, bulan Juli 18 objek dan bulan Agustus sebanyak 27
objek. Algoritme CLARA pencilan banyak terjadi pada bulan Februari sebanyak
14
11 objek, bulan Maret sebanyak 9 objek, bulan Juni sebanyak 11 objek, bulan Juli
18 objek dan bulan Agustus sebanyak 14 objek.
Visualisasi jumlah pencilan per tahun algoritme sebagai hasil PAM dan
CLARA pada Gambar 9 dan Gambar 10.
30
Frekuensi
27
25
20
15
9
10
6
7
4
5
10
9
5
4
2
2
0
0
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
Tahun
Gambar 9 Jumlah objek deteksi pencilan per tahun algoritme PAM
18
Frekuensi
16
16
14
14
12
10
8
8
7
8
6
5
6
4
4
4
2
1
2
0
0
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
Tahun
Gambar 10 Jumlah objek deteksi pencilan per tahun algoritme CLARA
Berdasarkan hasil algoritme PAM, pencilan banyak terjadi pada tahun 2005
sebanyak 27 objek dan algoritme CLARA, pencilan banyak terjadi pada tahun
2005 sebanyak 16 objek dan tahun 2009 sebanyak 14 objek. Hasil pencilan
algoritme PAM dan CLARA divisualisakan dalam bentuk kalender bulan dan
tahun dapat dilihat pada Lampiran 5.
Visualisasi jumlah pencilan dalam bentuk peta sebagai hasil algoritme PAM
dan CLARA pada Gambar 11 dan Gambar 12.
15
Gambar 11 Visualisasi objek deteksi pencilan algoritme PAM
Gambar 11 dapat dilihat bahwa objek yang terdeteksi sebagai pencilan
algoritme PAM menyebar di seluruh Provinsi Riau. Pada bulan Februari banyak
pencilan terdeteksi di Kota Pekan Baru dan Kab. Indragiri Hilir serta menyebar di
Kota Dumai. Pada bulan Maret pencilan mayoritas muncul di Kota Dumai serta
menyebar di seluruh Provinsi Riau. Pada bulan Juni, Juli dan Agustus pencilan
muncul secara merata di seluruh Provinsi Riau.
Gambar 12 Visualisasi objek deteksi pencilan algoritme CLARA
Gambar 12 dapat dilihat bahwa objek yang terdeteksi sebagai pencilan
algoritme CLARA menyebar di seluruh Provinsi Riau. Pada bulan Februari
pencilan terdeksi berkumpul di Kota Dumai, bagian utara Kab. Indragiri dan
bagian tenggara Kota Pekan Baru. Pada bulan Maret, Juni, Juli dan Agustus
pencilan tersebar hampir di seluruh Provinsi Riau.
16
SIMPULAN DAN SARAN
Simpulan
Penelitian ini menunjukan deteksi pencilan dari 4383 objek titik panas.
Hasil algoritme PAM pencilan titik panas terjadi pada k=17 dengan cluster ke11,13,14,15,16 dan 17 serta terjadinya pada bulan Februari, Maret, Juni, Juli dan
Agustus. Hasil algoritme CLARA menunjukan pencilan titik panas pada k=19
dengan cluster ke 14,15,17 dan 19 serta terjadi pada bulan Februari, Maret, Juni,
Juli dan Agustus. Frekuensi tertinggi menunjukan pencilan secara keseluruhan
bulan Januari 2001 sampai dengan Desember 2012 adalah dengan frekuensi 1118.
Kejadian tersebut terjadi pada tanggal 2/21/2005. Hasil algoritme PAM, bulan
Februari banyak pencilan terdeteksi di Kota Pekan Baru dan Kab. Indragiri Hilir
serta menyebar di Kota Dumai, bulan Maret pencilan mayoritas muncul di Kota
Dumai serta menyebar di seluruh Provinsi Riau dan bulan Juni, Juli dan Agustus
pencilan muncul secara merata di seluruh Provinsi Riau. Hasil algoritme CLARA,
bulan Februari pencilan terdeksi berkumpul di Kota Dumai, bagian utara Kab.
Indragiri dan bagian tenggara Kota Pekan Baru dan bulan Maret, Juni, Juli,
Agustus pencilan tersebar hampir di seluruh Provinsi Riau.
Saran
Penelitian ini memiliki kekurangan dalam menentukan nilai k. Dalam
penelitian ini menggunakan nilai k=2 sampai k=20 dengan asumsi hasil yang
didapatkan dengan nilai k terbaik. Penelitian selanjutnya diharapkan
menggunakan metode yang lain dengan penentuan nilai k yang lebih optimal.
DAFTAR PUSTAKA
Baehaki D. 2014. Deteksi pencilan data titik panas di provinsi Riau menggunakan
algoritme clustering K-Means [skripsi]. Bogor(ID): Insitut Pertanian Bogor.
BAPPENAS-ADB. 1999. Causes, Extent, Impact and Costs of 1997/1998 Fires
and Drought. National Development Planning Agency (BAPPENAS) and
Asia Development Bank, Jakarta.
Han J, Kamber M, Pei J. 2012. Data Mining Concepts and Techniques Third
Edition. San Massachusetts (US): Morgan Kaufmann Publisher.
Liao TW. 2005. Clustering of time series data—a survey. Pattern Recognition
[Internet]. [diunduh 2014 Mei 30]. 38(1). 1857-1874. Tersedia pada:
http://arxiv.org/ftp/arxiv/papers/1005/1005.4270.pdf
Tacconi L. 2003. Kebakaran Hutan di Indonesia: Penyebab, Biaya dan Implikasi
Kebijakan[paper]. Bogor(ID): Center For International Forestry Research
Wei C, Lee Y, Hsu C. 2000. Empirical Comparison of Fast Clustering Algorithms
for Large Data Set. Taiwan (R.O.C): Department of Information Management
National Sun Yat-Sen University Kaohsiung.
17
Lampiran 1 Hasil clustering menggunakan algoritme PAM
a Anggota cluster 13 dengan ID medoid 1524
Tanggal
ID
Frekuensi
Cluster
titik panas
medoid
medoid
medoid
1
189
3/8/2002
304
2
562
3/12/2002
354
3
563
6/6/2003
341
4
951
6/19/2004
344
5
1149
6/20/2004
328
6
1232
8/11/2004
337
7
1271
1/24/2005
337
8
1353
3/4/2005
335
9
1487
6/20/2005
349
10
1492
8/10/2005
328
11
1512
8/17/2006
354
12
1648
2/21/2008
350
13
1684
7/24/2009
334
14
1895
8/6/2009
305
15
2697
7/12/2011
306
16
3124
8/8/2012
306
17
3901
9/4/2012
321
b
Anggota cluster 14 dengan ID medoid 1484
Cluster
ID
medoid
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
434
560
793
890
942
1269
1314
1484
1538
1678
1689
1863
1890
2233
2375
2773
2944
2969
Tanggal
titik panas
medoid
3/10/2002
7/14/2002
3/4/2003
6/9/2003
7/31/2003
6/22/2004
8/6/2004
1/23/2005
3/18/2005
8/5/2005
8/16/2005
2/6/2006
3/5/2006
2/11/2007
7/3/2007
8/4/2008
1/22/2009
2/16/2009
Frekuensi
medoid
247
279
296
243
250
254
259
266
275
239
295
270
254
271
284
241
269
274
18
c
Cluster
ID
medoid
19
20
21
22
23
24
25
26
27
28
3107
3134
3700
3838
4185
4192
4226
4229
4242
4244
Frekuensi
medoid
241
247
280
242
244
266
275
245
287
270
Anggota cluster 15 dengan ID medoid 1527
Cluster
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
d
Tanggal
titik panas
medoid
7/4/2009
7/31/2009
2/17/2011
7/5/2011
6/16/2012
6/23/2012
7/27/2012
7/30/2012
8/12/2012
8/14/2012
ID
medoid
889
891
1264
1486
1499
1502
1504
1506
1527
1529
1636
2023
2043
3575
3865
4240
Tanggal
titik panas
medoid
6/8/2003
6/10/2003
6/17/2004
1/25/2005
2/7/2005
2/10/2005
2/12/2005
2/14/2005
3/7/2005
3/9/2005
6/24/2005
7/16/2006
8/5/2006
10/15/2010
8/1/2011
8/10/2012
Frekuensi
medoid
730
676
683
623
792
647
652
600
648
736
557
589
596
593
729
761
Anggota cluster 16 dengan ID medoid 3136
Cluster
ID
medoid
1
2
3
4
5
1262
1481
1483
1501
1499
Tanggal
titik panas
medoid
6/15/2004
1/20/2005
1/22/2005
2/9/2005
2/7/2005
Frekuensi
medoid
435
402
434
438
792
19
e
Tanggal
Frekuensi
titik panas
medoid
medoid
6
1525
3/5/2005
454
7
1536
3/16/2005
511
8
1540
3/20/2005
420
6
1525
3/5/2005
454
9
1637
6/25/2005
401
10
1682
8/9/2005
388
11
1865
2/8/2006
405
12
1888
3/3/2006
383
13
2032
7/25/2006
414
14
2044
8/6/2006
386
15
2606
2/19/2008
527
16
2775
8/6/2008
453
17
3090
6/17/2009
400
18
3136
8/2/2009
428
19
3138
8/4/2009
384
20
3577 10/17/2010
498
21
3781
5/9/2011
453
22
4183
6/14/2012
462
Anggota cluster 17 dengan ID medoid 1680
f
Tanggal
Frekuensi
titik panas
medoid
medoid
1
1513
2/21/2005
1118
2
1680
8/7/2005
956
Anggota cluster 11 dengan ID medoid 4187
Cluster
ID
medoid
ID
Cluster
medoid
ID
Cluster
medoid
1
2
3
4
5
6
7
8
9
10
11
12
13
190
411
413
592
597
1236
1270
1493
1497
1500
1511
1514
1515
Tanggal
titik panas
medoid
7/9/2001
2/15/2002
2/17/2002
8/15/2002
8/20/2002
5/20/2004
6/23/2004
2/1/2005
2/5/2005
2/8/2005
2/19/2005
2/22/2005
2/23/2005
Frekuensi
medoid
191
224
190
227
228
191
191
217
205
218
216
229
206
20
Cluster
ID
medoid
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
1517
1534
1541
1635
2011
2025
2046
2059
2103
2105
2695
2770
2772
2784
2942
2971
3067
3070
3072
3092
3093
3116
3120
3141
3780
3854
4187
4194
Tanggal
titik panas
medoid
2/25/2005
3/14/2005
3/21/2005
6/23/2005
7/4/2006
7/18/2006
8/8/2006
8/21/2006
10/4/2006
10/6/2006
5/18/2008
8/1/2008
8/3/2008
8/15/2008
1/20/2009
2/18/2009
5/25/2009
5/28/2009
5/30/2009
6/19/2009
6/20/2009
7/13/2009
7/17/2009
8/7/2009
5/8/2011
7/21/2011
6/18/2012
6/25/2012
Frekeunsi
medoid
186
227
222
191
196
230
235
205
232
210
210
182
183
224
199
202
214
222
216
180
230
214
205
202
189
183
209
181
Lampiran 2 Hasil clustering menggunakan algoritme CLARA
a
Anggota cluster 14 dengan ID medoid 1512
ID
Cluster
medoid
1
2
3
4
5
6
7
8
189
562
563
951
1149
1232
1271
1353
Tanggal
titik panas
medoid
7/8/2001
7/16/2002
7/17/2002
8/9/2003
2/23/2004
5/16/2004
6/24/2004
9/14/2004
Frekeunsi
medoid
165
151
155
154
168
166
166
166
21
b
c
Tanggal
Frekeunsi
titik panas
medoid
medoid
9
1487
1/26/2005
145
10
1492
1/31/2005
157
11
1512
2/20/2005
151
12
1648
7/6/2005
146
13
1684
8/11/2005
161
14
1895
3/10/2006
157
15
2697
5/20/2008
159
16
3124
7/21/2009
152
Anggota cluster 15 dengan ID medoid 413
Cluster
ID
medoid
Cluster
ID
medoid
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
190
413
896
1236
1270
1517
1635
2011
2414
2770
2772
3092
3106
3780
3835
3854
Tanggal
titik panas
medoid
7/9/2001
2/17/2002
6/15/2003
5/20/2004
6/23/2004
2/25/2005
6/23/2005
7/4/2006
8/11/2007
8/1/2008
8/3/2008
6/19/2009
7/3/2009
5/8/2011
7/2/2011
7/21/2011
Frekuensi
Medoid
191
190
171
191
191
186
191
196
174
182
183
180
174
189
171
183
Anggota cluster 17 dengan ID medoid 1497
Cluster
ID
medoid
1
2
3
4
5
6
7
8
411
592
597
1493
1497
1500
1511
1514
Tanggal
titik panas
medoid
2/15/2002
8/15/2002
8/20/2002
2/1/2005
2/5/2005
2/8/2005
2/19/2005
2/22/2005
Frekuensi
medoid
224
227
228
217
205
218
216
229
22
d
Cluster
ID
medoid
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
1515
1534
1541
2059
2105
2695
2784
2942
2971
3067
3070
3072
3116
3120
3141
4187
Tanggal
titik panas
medoid
2/23/2005
3/14/2005
3/21/2005
8/21/2006
10/6/2006
5/18/2008
8/15/2008
1/20/2009
2/18/2009
5/25/2009
5/28/2009
5/30/2009
7/13/2009
7/17/2009
8/7/2009
6/18/2012
Frekuensi
medoid
206
227
222
205
210
210
224
199
202
214
222
216
214
205
202
209
Anggota cluster 19 dengan ID medoid 1890
ID
Cluster
medoid
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
434
890
942
1269
1314
1678
1890
2025
2046
2103
2773
3093
3107
3134
3838
4185
4229
Tanggal
titik panas
medoid
3/10/2002
6/9/2003
7/31/2003
6/22/2004
8/6/2004
8/5/2005
3/5/2006
7/18/2006
8/8/2006
10/4/2006
8/4/2008
6/20/2009
7/4/2009
7/31/2009
7/5/2011
6/16/2012
7/30/2012
Frekuensi
medoid
247
243
250
254
259
239
254
230
235
232
241
230
241
247
242
244
245
23
Lampiran 3 Visualiasi peta anggota cluster algoritme PAM
a Cluster 13 dengan ID medoid 1524
b
Cluster 14 dengan ID medoid 1484
c
Cluster 15 dengan ID medoid 1527
24
d
Cluster 16 dengan ID medoid 3136
e
Cluster 17 dengan ID medoid 1680
f
Cluster 11 dengan ID medoid 4187
25
Lampiran 4 Visualisasi peta anggota cluster algoritme CLARA
a. Cluster 14 dengan ID medoid 1512
b. Cluster 15 dengan ID medoid 413
c. Cluster 17 dengan ID medoid 1497
26
d. Cluster 19 dengan ID medoid 1890
27
Lampiran 5 Kalender pencilan algoritme PAM dan CLARA
a Algoritme CLARA
Tahun
Jan
Feb
Mar
Apr
Mei
Jun
Tanggal (Frekuensi)
2001
2002
17(190)b
10(247)d
Jul
Agus
8(165)a
9(191)b
16(151),
17(155)a
15(227),
20(228)c
Sept
Okt
15(224)c
2003
2004
23(168)a
9(243)d
15(171)b
31(250)d
9(154)a
16(166)a,
20(191)b,
20(254)d
24(166)a
6(259)d
14(166)a
23(191)b
2005
2006
20(151)a,25(186)b,
26(145)
1(217),5(205),
31(157)a
8(218),19(216)
,22(229),23(206)c
14(227),
21(222)c,
5(254)d
23(191)b
6(146)a
4(196)b,
18(230)d
10(157)a
2007
2008
20(159)a
21(152)a
18(210)c
Algoritme CLARA (a = cluster 14, b = cluster 15, c = cluster 17, d = cluster 19)
11(161)a,
5(209)d
21(205)c,
8(235)d
11(174)b
1(182),
3(183)b
15(224)c
4(241)d
6(210)c,
4(243)d
Nov Des
28
Tahun
2009
2010
2011
2012
Jan
Feb
Mar
20(199),18(202)c
Apr
Mei
Jun
20(230)d
8(185)b
18(209)c,
16(244)d
Jul
3(174)b,
13(214),17(205)c,
4(241),31(247)d
5(242)d
2(171),21(183)b
30(245)d
Agus
7(202)c
Sept
Okt
Nov Des
29
b Algoritme PAM
Tahun
Jan
2001
2002
15(224),
17(190)a
2003
2004
2005
Feb
Mar
Apr
Mei
Jun
Tanggal (Frekuensi)
9(191)a
14(279)c
8(304),
12(354)b,
10(247)c
4(296)c
20(191)a
24(337)
b,
25(623)
d,
21(402)
,
22(434)
e
Jul
6(341)b,
9(243)c,
18(730),10(6
76)d
23(191)a
19(244),20(3
28)b
22(254)c
17(683)d
15(435)e
23(191)a
20(349)b
20(349)b
24(557)d
25(401)e
Agus
15(227),
20(228)a
31(250)c
1(217),5(205),
14(227),
21(222),a
8(218),19(216),
22(229),23(206),
4(335)b
18(275)c
25(186)a
23(266)c
7(648),9(736)d
7(792),10(647),
5(454),16(511),
12(652),14(600)d 20(420),5(454)e
9(438),7(792)e
21(1118)f
Algoritme PAM (a = cluster 11, b = cluster 13, c = cluster 14, d= cluster 15, e= cluster 16, f = cluster 17)
11(337)b
6(259)c
10(328)b
5(239),1
6(295)c
9(388)e
7(956)f
Sept
Okt
Nov
Des
30
Tahun
2006
Jan
2007
2008
2009
Feb
6(270)c,
8(405)e
11(271),c
21(350)b,9(527)e
20(199)
a
22(269)
c
Mar
5(254)c,
3(383)e
Apr
Mei
Jun
Jul
4(196)a,
16(589)d
,25(414)e
Agus
8(235),
21(205)a
5(596)d
6(386)e
Sept
3(284)c
18(210)a
18(202)a
16(274)c
19(180),20(2
30)a
17(400)e
13(214),
17(205)a
24(334)b
4(241),3
1(257)c
1(182),3(
183),
15(224)a
4(241)c
6(453)e
7(202)a
6(305)b
2(428),4(
384)e
2010
2011
2012
Okt
4(232),
6(210)a
15(593)
d
17(489)
e
17(280)c
8(189)a
9(453)e
21(183)a,
12(306)b
5(242)c,
1(729)d
18(209),25(1 27(275),
81)a,16(244), 30(245)c
23(266)c
10(761)d
14(462)e
8(306)b
12(287),
14(270)c
4(32
1)b
Nov
Des
31
RIWAYAT HIDUP
Penulis dilahirkan di Ciamis pada tanggal 3 Juni 1991. Penulis merupakan anak pertama
dari 4 bersaudara dari pasangan Bapak M. Dahlan dan Ibu Susrina. Penulis memasuki
jenjang Sekolah Menengah Atas (SMA) pada tahun 2006 di SMAN 71 Jakarta, jenjang
Program Diploma Manajemen Informatika IPB pada tahun 2009 dan pada tahun 2012
melanjutkan pendidikan sebagai mahasiswa Program Studi Alih Jenis Ilmu Komputer,
Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut
Pertanian Bogor