Clustering Dataset Titik Panas dengan Algoritme RDBC Menggunakan Web Framework Shiny pada Bahasa R.

CLUSTERING DATASET TITIK PANAS DENGAN
ALGORITME RDBC MENGGUNAKAN WEB
FRAMEWORK SHINY PADA BAHASA R

ARIES SANTOSO

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Clustering Dataset Titik
Panas dengan Algoritme RDBC Menggunakan Web Framework Shiny pada Bahasa
R adalah benar karya saya dengan arahan dari komisi pembimbing dan belum
diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Agustus 2015
Aries Santoso
NIM G64110071

ABSTRAK
ARIES SANTOSO. Clustering Dataset Titik Panas dengan Algoritme RDBC
Menggunakan Web Framework Shiny pada Bahasa R. Dibimbing oleh KARLINA
KHIYARIN NISA.
Indonesia memiliki hutan tropis yang cukup luas, namun sering terbakar
hingga menimbulkan dampak yang besar bagi Indonesia. Pemantauan titik panas
dapat menjadi salah satu penanggulangan bencana kebakaran hutan tersebut. Tiap
titik panas akan dicatat pada suatu dataset sehingga dapat diproses untuk
mendapatkan informasi. Penelitian ini bertujuan untuk membangun aplikasi web
clustering pada data titik panas. Aplikasi ini menggunakan bahasa pemrograman R
dengan mengimplementasikan algoritme Recursive Density Based Clustering
(RDBC) serta menggunakan framework Shiny. Clustering dilakukan pada data titik
panas Pulau Kalimantan dan Provinsi Sumatera Selatan tahun 2002-2003 untuk
menemukan pola penyebaran titik panas. Hasil yang diperoleh dari proses

clustering dievaluasi menggunakan Silhouette Coefficient (SC). Nilai SC yang
diperoleh pada penelitian ini sebesar 0.2045354 untuk dataset Pulau Kalimantan
dan sebesar 0.2414827 untuk dataset Provinsi Sumatera Selatan. Hasil tersebut
ditampilkan dalam bentuk halaman web agar dapat diakses dengan mudah serta
dapat menjadi acuan prediksi kejadian kebakaran selanjutnya.
Kata kunci: clustering, RDBC, Shiny, Silhouette Coefficient, titik panas

ABSTRACT
ARIES SANTOSO. Clustering on Hotspots Dataset with RDBC Algorithm using
Shiny Web Framework on R Programming Language. Supervised by KARLINA
KHIYARIN NISA.
Indonesia has tropical forest that is quite extensive, but forest fires often
occur resulting in great impact for Indonesia. Monitoring hotspots can be one of the
forest fire disaster mitigation efforts. Each hotspot will be recorded on a dataset that
can be processed to obtain information. This study aims to build a clustering web
application on the hotspot data. This application uses the R programming language
to implement Recursive Density Based Clustering (RDBC) algorithms using Shiny
framework. Clustering is performed on hotspot data of the Kalimantan island and
province of South Sumatra in 2002-2003 to find the pattern of spread of hotspots.
The results obtained from the clustering process are evaluated using the Silhouette

Coefficient. The SC value of this research is 0.2045354 for Kalimantan Island
dataset and 0.232323 for South Sumatera Province dataset. The result is displayed
in the form of web pages that can be accessed easily and can be referred for
subsequent fire occurrence prediction.
Keywords: clustering, hotspot, RDBC, Shiny, Silhouette Coefficient

CLUSTERING DATASET TITIK PANAS DENGAN
ALGORITME RDBC MENGGUNAKAN WEB
FRAMEWORK SHINY PADA BAHASA R

ARIES SANTOSO

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR
BOGOR
2015

Penguji : 1 Hari Agung Adrianto, SKom MSi
2 Dr Ir Agus Buono, MSi MKom

Judul Skripsi : Clustering Dataset Titik Panas dengan Algoritme RDBC
Menggunakan Web Framework Shiny pada Bahasa R
Nama
: Aries Santoso
NIM
: G64110071

Disetujui oleh

Karlina Khiyarin Nisa, SKom MT
Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga penulis dapat menyelesaikan tugas akhir dengan judul
Clustering Dataset Titik Panas Dengan Algoritme RDBC Menggunakan Web
Framework Shiny Pada Bahasa R. Penelitian ini dilaksanakan di Departemen Ilmu
Komputer Institut Pertanian Bogor.
Dalam pelaksanaan penelitian ini, penulis ingin menyampaikan terima kasih
kepada:
1 Ayah, ibu dan seluruh anggota keluarga yang selalu memberikan dukungan
serta doa dalam penyelesaian penelitian ini.
2 Ibu Karlina Khiyarin Nisa, SKom MT selaku pembimbing yang sudah
memberikan banyak bantuan dan bimbingan selama proses penyelesaian
penelitian ini.
3 Bapak Dr Ir Agus Buono, MSi Mkom dan Bapak Hari Agung Adrianto, SKom

MSi selaku penguji yang telah banyak memberi bantuan perbaikan dalam
penelitian ini.
4 Seluruh dosen dan staf Departemen Ilmu Komputer IPB yang sudah membantu
proses penyelesaian penelitian ini.
5 Lani Kurnia Sari yang senantiasa memberikan semangat dan motivasinya.
6 Rekan – rekan satu bimbingan yaitu Fitrah dan Ela yang selalu saling
memberikan dukungan satu sama lain dalam menyelesaikan penelitian masing
– masing.
7 Rekan – rekan Ilmu Komputer angkatan 48 yang selalu menjadi motivasi dalam
menyelesaikan penelitian ini.
Semoga karya ilmiah ini bermanfaat.

Bogor, Agustus 2015
Aries Santoso

DAFTAR ISI
DAFTAR TABEL
DAFTAR GAMBAR
PENDAHULUAN

vi
vi
1

Latar Belakang

1

Perumusan Masalah

2

Tujuan Penelitian

2

Manfaat Penelitian

2

Ruang Lingkup Penelitian

2

TINJAUAN PUSTAKA

3

Density Based Clustering

3

Algoritme RDBC

5

Silhouette Coefficient

6

Package Shiny

7

METODE PENELITIAN

8

Data Penelitian

8

Tahapan Penelitian

9

Lingkupan Pengembangan

10

HASIL DAN PEMBAHASAN

11

Praproses Data

11

Implementasi RDBC pada Bahasa R

11

Clustering dengan Algoritme RDBC

12

Evaluasi Cluster

17

Hasil Clustering RDBC

17

SIMPULAN DAN SARAN

18

Simpulan

18

Saran

18

DAFTAR PUSTAKA

19

RIWAYAT HIDUP

20

DAFTAR TABEL
1 Hasil clustering RDBC dan DBSCAN dataset Pulau Kalimantan
2 Hasil perhitungan nilai SC dataset Pulau Kalimantan
3 Hasil perhitungan nilai SC pada dataset Provinsi Sumatera Selatan

12
16
16

DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

Ilustrasi jenis titik dalam Density Based Clustering.
3
Ilustrasi beberapa teknik dalam DBSCAN
4
Ilustrasi algoritme RDBC
5
Ilustrasi (a) Cohesion dan (b) Separation
7
Alur sistem aplikasi Shiny
8
Skema metode penelitian
9
Grafik penentuan nilai Eps (Purwanto 2012)
10
Implementasi fungsi RDBC
12
Pergeseran nilai ambang pada k-dist dataset Pulau Kalimantan
13
Pergeseran nilai ambang pada k-dist dataset Provinsi Sumatera Selatan
13
Pengaruh Eps dan MinPts terhadap jumlah cluster pada dataset Pulau
Kalimantan
14
Pengaruh Eps dan MinPts terhadap jumlah cluster pada dataset Provinsi
Sumatera Selatan
15
Jumlah noise yang terbentuk pada Eps = 0.3 pada dataset Pulau Kalimantan 15
Jumlah noise yang terbentuk pada Eps = 0.14 dan Eps = 0.15 pada dataset
Provinsi Sumatera Selatan
16
Implementasi fungsi menghitung nilai silhouette coefficient
17
Aplikasi web clustering RDBC
18

PENDAHULUAN
Latar Belakang
Indonesia memiliki hutan tropis yang cukup luas. Sebagai aset bangsa dan
dunia, hutan Indonesia sering terbakar hingga menimbulkan dampak yang besar
bagi Indonesia. Hal ini disebabkan oleh alam dan ulah manusia. Pada konteks alam,
kebakaran dapat diakibatkan oleh cuaca terik di musim kemarau dan tak jarang pula
terkena sambaran petir. Dampak yang ditimbulkan kebakaran hutan cukup luas dan
sangat kompleks, tidak hanya kerusakan lingkungan, tetapi juga mencakup bidang
lain seperti perekonomian, budaya, hubungan antarnegara dan lainnya. Pada bidang
lingkungan, kebakaran hutan menyebabkan kerusakan ekosistem satwa liar,
pencemaran kabut asap, peningkatan emisi karbon dan sebagainya. Pada bidang
lainnya, kebakaran hutan dapat menghilangkan mata pencaharian masyarakat,
meningkatnya penyakit saluran pernapasan (ISPA) hingga berkurangnya
pendapatan negara yang berasal dari hasil hutan.
Pemantauan titik panas melalui satelit penginderaan jauh dapat menjadi salah
satu bentuk penanggulangan bencana kebakaran hutan. Pemantauan tersebut
berfungsi sebagai bahan prediksi munculnya kebakaran hutan berikutnya. Setiap
titik panas akan dicatat pada suatu dataset yang meliputi data spasial (latitude dan
longitude), data temporal (waktu dan tanggal pemantauan) dan data nonspasial
(suhu udara, curah hujan, dsb). Persebaran titik panas biasanya akan berkumpul
atau bergerombol pada suatu area tertentu sehingga dari data tersebut dapat di
analisis dengan teknik clustering. Menurut Ester et al. (1996), algoritme DBSCAN
efisien untuk menemukan cluster dari data spasial yang besar. Tetapi menurut
Rehman dan Mehdi (2005), algoritme DBSCAN masih belum efektif dalam
penentuan jumlah titik minimum dan jarak epsilon (Eps) yang tepat. Menurutnya
terdapat algoritme yang lebih efektif dalam menentukan cluster yaitu algoritme
RDBC. Algoritme Recursive Density Based Clustering (RDBC) merupakan
modifikasi dari algoritme DBSCAN dan memiliki runtime lebih cepat serta lebih
efektif pada penentuan parameter.
Algoritme RDBC merupakan modifikasi algoritme DBSCAN yang
mengelompokkan objek dari database ke dalam cluster berdasarkan kepadatan.
Selain itu, algoritme ini tidak memerlukan jumlah cluster yang telah ditetapkan
sebelumnya untuk beroperasi (Zhong Su 1999). Dengan demikian, parameter
jumlah titik minimum dan Eps akan dipilih yang terbaik dengan cara rekursif
sehingga mampu menciptakan cluster dengan kepadatan yang beragam.
Komputasi berbasis dekstop masih banyak dilakukan pada penelitianpenelitian sebelumnya. Data dan komputasi diolah sistem di tempat yang sama
menjadikan sistem tersebut semakin lama dan berat. Kebutuhan akan penyimpanan
yang lebih besar juga menjadi kendala ketika sistem semakin berkembang. Selain
itu, akses terhadap penelitian tersebut terbatas karena hanya dapat diakses pada
komputasi lokal. Oleh sebab itu, diperlukan cara baru dalam pengembangan sistem
yaitu dengan memanfaatkan komputasi berbasis internet yang disebut sebagai cloud
computing.
Cloud computing merupakan kombinasi pemanfaatan teknologi komputer
dengan pengembangan berbasis internet. Teknologi ini memiliki kapabilitas untuk

2
memberikan layanan kepada pengguna dalam mengakses suatu sistem melalui
internet. Kemudian dengan adanya teknologi ini, komputasi menjadi lebih ringan
dan tidak memerlukan penyimpanan yang besar karena penyimpanan dialihkan ke
tempat lain.
Purwanto (2012) telah melakukan clustering data titik panas dengan
algoritme DBSCAN dan ST-DBSCAN menggunakan MATLAB. Sedangkan
Mardhiyyah (2014) telah melakukan clustering dataset titik panas dengan algoritme
DBSCAN menggunakan web framework Shiny pada bahasa R, tetapi penentuan
parameter jumlah titik minimum dan jarak Eps hanya berdasarkan masukan dari
pengguna. Pada penelitian ini, algoritme RDBC diimplementasikan menggunakan
bahasa R dengan memanfaatkan package fpc dan Shiny. Penentuan parameter
dilakukan secara otomatis oleh sistem sehingga menjadi lebih efektif agar
menghasilkan cluster yang terbaik dan pola penyebaran titik panas yang akurat
untuk dijadikan acuan prediksi kejadian kebakaran hutan. Kemudian hasil dari
proses clustering tersebut dapat pula diakses melalui peramban internet.
Perumusan Masalah
Rumusan permasalahan pada penelitian ini adalah bagaimana membangun
aplikasi web yang melakukan clustering dengan algoritme RDBC pada dataset titik
panas menggunakan bahasa R.
Tujuan Penelitian
Penelitian ini bertujuan untuk mengimplementasikan algoritme clustering
RDBC pada data spasial titik panas dengan menggunakan bahasa R dan package
Shiny untuk menghasilkan cluster yang lebih baik dengan penentuan parameter
yang efektif serta dapat ditampilkan pada peramban internet.
Manfaat Penelitian
Penelitian ini diharapkan dapat membangun aplikasi web clustering yang
dapat menghasilkan pola penyebaran titik panas dengan hasil yang lebih akurat dan
mudah diakses oleh seluruh masyarakat. Dengan demikian, tindakan pencegahan
dan evakuasi dapat dilakukan lebih awal.
Ruang Lingkup Penelitian
Ruang lingkup dari penelitian ini adalah:
1 Penelitian ini dibatasi pada data titik panas Pulau Kalimantan dan Provinsi
Sumatera Selatan.
2 Algoritme clustering yang digunakan untuk pengolahan dataset titik panas
adalah algoritme RDBC.
3 Pengimplementasian algoritme RDBC dalam bahasa R memanfaatkan Shiny
sebagai web framework.

3

TINJAUAN PUSTAKA
Density Based Clustering
Clustering adalah proses pengelompokan suatu kumpulan data ke dalam
beberapa kelompok atau cluster. Clustering memiliki beberapa metode, salah
satunya metode Density-Based. Metode Density-Based Clustering lebih banyak
digunakan untuk menemukan wilayah yang padat objek dan dikelilingi wilayah
dengan kepadatan yang rendah. Kemampuan lain yang dimiliki metode ini ialah
mampu menangani data dengan jumlah besar dan membentuk cluster dengan
bentuk yang tidak beraturan (arbitrary shape). Selain itu, algoritme ini cukup baik
dalam menangani noise. Salah satu algoritme yang terkenal dan termasuk dalam
Density-Based Clustering ialah algoritme DBSCAN.
Menurut Putro (2011), ide dasar dari DBSCAN adalah memanfaatkan
jumlah titik minimal yang harus dimiliki untuk menentukan suatu titik digolongkan
menjadi core point, border point, atau noise point yang disebut MinPts. Selain itu,
juga menggunakan threshold yang harus dipenuhi untuk menentukan titik tersebut
menjadi core point, border point, atau noise point yang disebut juga Eps. Tiga jenis
titik tersebut diilustrasikan pada Gambar 1.

Gambar 1 Ilustrasi jenis titik dalam Density Based Clustering.
Core point ditunjukkan oleh titik yang memiliki jarak Eps berwarna merah
pada Gambar 1. Titik tersebut memiliki jumlah ketetanggaan yang lebih dari
MinPts yaitu sebanyak 6 titik. Sedangkan border point ditunjukkan pada titik yang
memiliki jarak Eps berwarna biru. Titik tersebut termasuk anggota ketetanggaan
titik lain yang menjadi core point tetapi memiliki jumlah ketetanggaan yang kurang
dari MinPts yaitu sebanyak 3 titik yang ditunjukkan pada Gambar 1. Adapun titik
lain yaitu noise point yang ditunjukkan pada titik yang memiliki jarak Eps berwarna
hijau. Titik tersebut memiliki jumlah ketetanggaan lebih sedikit dari MinPts
sebanyak 2 titik pada Gambar 1 serta bukan anggota ketetanggaan core point.
Adapun definisi lainnya yang terdapat dalam DBSCAN dan diilustrasikan
pada Gambar 2 yaitu sebagai berikut:

4
Directly Density Reachable
Suatu titik p dikatakan directly density reachable dengan titik q
apabila titik p merupakan anggota q dalam jarak Eps dan titik q merupakan
titik core point yang memiliki anggota himpunan sama atau lebih dari
MinPts.
2 Density Reachable
Suatu titik p dikatakan density reachable apabila terdapat titik
penghubung antara titik p dan q. Titik p tersebut harus directly density
reachable dengan titik penghubung dan titik penghubung juga harus directly
density reachable dengan titik q.
3 Density Connected
Suatu titik p dan q dikatakan density connected apabila dihubungkan
oleh titik o yang density reachable dari titik p dan q.
1

q

p

p

1

p

q

directly density
reachable

density reachable

p

q
o

density connected

Gambar 2 Ilustrasi beberapa teknik dalam DBSCAN
1
2
3
4
5
6
7
8
9
10
11
12
13

Berikut adalah pseudocode DBSCAN (Ester et al. 1996).
DBSCAN (SetOfPoints, Eps, MinPts)
// SetOfPoints is UNCLASSIFIED
ClusterId := nextId(NOISE);
FOR i FROM 1 TO SetOfPoints.size DO
Point := SetOfPoints.get(i);
IF Point.ClId = UNCLASSIFIED THEN
IF ExpandCluster(SetOfPoints, Point,
ClusterId, Eps, MinPts) THEN
ClusterId := nextId(ClusterId)
END IF
END IF
END FOR
END; // DBSCAN

Setelah algoritme DBSCAN diberikan parameter tetap Eps dan MinPts,
kemudian akan dilakukan penelusuran core point untuk memulai proses clustering.
Hal tersebut dilakukan secara rekursif kepada semua titik hingga menghasilkan
cluster. Berikut adalah tahapan algoritme DBSCAN (Ester et al. 1996)
1 Memilih secara acak sebuah titik p seperti pseudocode baris 5.
2 Mencari seluruh titik yang density reachable dengan titik p sesuai Eps dan
MinPts pada fungsi ExpandCluster.
3 Jika p adalah core point , maka akan membentuk cluster dengan mengganti
ClusterId yang sebelumnya didefinisikan sebagai noise.

5
Jika p adalah border point maka dicari kembali titik - titik yang density
reachable dari titik p maka proses penelusuran dilanjutkan ke titik
selanjutnya.
5 Lakukan proses tersebut hingga seluruh titik dalam database.

4

Algoritme RDBC
Recursive Density-Based Clustering (RDBC) adalah algoritme clustering
yang dikembangkan dari algoritme DBSCAN, sebuah algoritme untuk
mengelompokkan objek tetangga ke dalam cluster. Selain itu, algoritme ini tidak
memerlukan tetapan jumlah cluster untuk melakukan clustering (Zhong Su 1999).
Pada algoritme RDBC, penentuan threshold jarak Eps dan threshold MinPts
dilakukan secara rekursif atau berulang hingga menghasilkan jumlah cluster yang
tepat. Menurut Rehman dan Mehdi (2005), perbedaan diantara algoritme RDBC
dengan DBSCAN ialah pada algoritme RDBC perhitungan core point dilakukan
secara terpisah dari proses clustering. Nilai Eps dan MinPts awal digunakan untuk
mengidentifikasi himpunan core point. Setelah jumlah anggota himpunan CSET
tepat, Eps dan MinPts digunakan untuk melakukan clustering DBSCAN pada
dataset.
Berikut adalah pseudocode algoritme RDBC (Rehman dan Mehdi 2005).
1
Set initial values ε = ε1 and Mpts=Mpts1
2
Dataset = data_set
3
RDBC(ε, Mpts, Dataset)
4
Use ε and Mpts to get the core points set Cset
5
If size(Cset) > size(Dataset)/2
6
DBSCAN(Dataset, ε, Mpts);
7
Else
8
ε = ε/2;
9
Mpts=Mpts/4;
10
RDBC(ε, Mpts, Cset);//collect all points
around cluster
Ilustrasi algoritme RDBC dapat dilihat pada Gambar 3. Proses awal
clustering RDBC ialah identifikasi core point. Core point yang diperoleh lalu
dilakukan clustering DBSCAN. Apabila himpunan core point tidak sesuai syarat
atau kurang dari setengah jumlah dataset maka akan dilakukan reduksi nilai Eps
dan MinPts. Kemudian dilakukan proses selanjutnya yaitu clustering titik-titik
selain core point dengan menggunakan nilai parameter yang sudah direduksi.

(a)

(b)
Gambar 3 Ilustrasi algoritme RDBC

(c)

6
Untuk lebih jelasnya, berikut tahapan yang dilakukan algoritme RDBC pada
Gambar 3:
1 Pada Gambar 3a terdapat dataset awal yang berjumlah 11 titik.
2 Kemudian diberikan parameter awal Eps = 1 dan MinPts = 4. Sesuai
pseudocode pada baris ke 4, dilakukan proses identifikasi core point terlebih
dahulu. Pada Gambar 3b diperoleh core point sebanyak 5 titik.
3 Sesuai pseudocode baris 5, jika jumlah core point kurang dari setengah
jumlah dataset maka akan dilakukan reduksi nilai Eps dan MinPts. Jika
jumlah core point sudah lebih dari setengah jumlah dataset maka dilakukan
clustering DBSCAN. Pada Gambar 3, jumlah core point yang diperoleh
sebanyak 5. Karena kurang dari setengah jumlah dataset maka dilakukan
reduksi parameter menjadi Eps = 0.5 dan MinPts = 1 sesuai pseudocode
baris ke 8 dan 9.
4 Kemudian dilakukan rekursif kembali algoritme RDBC dengan mengambil
titik lainnya yang sebelumnya tidak teridentifikasi sebagai core point dan
dengan parameter yang telah direduksi.
5 Dengan nilai Eps dan MinPts yang lebih kecil dari sebelumnya, diperoleh
core point tambahan seperti yang ditunjukkan pada Gambar 3c. Setelah itu
dilakukan clustering DBSCAN hingga diperoleh menjadi 3 cluster dengan
noise sebanyak 2 titik.
Dengan proses rekursif tersebut, noise yang terbentuk menjadi lebih sedikit
dibandingkan hanya melakukan clustering DBSCAN saja setelah identifikasi core
point. Perubahan nilai Eps dan MinPts yang dilakukan berdampak pada hasil yang
diperoleh. Algoritme RDBC akan membangkitkan cluster yang lebih banyak
dibandingkan algoritme DBSCAN.

Silhouette Coefficient
Validasi sangat diperlukan pada hasil cluster baik itu merupakan hasil
klasifikasi maupun hasil clustering. Pada validasi hasil klasifikasi, biasanya
dilakukan perhitungan akurasi, precision, dan recall. Hal tersebut dikarenakan label
dari setiap kelas yang ada sudah diketahui, sedangkan cluster hasil clustering tidak
memiliki label sehingga validasi hasil clustering dilakukan dengan
membandingkan hasil dengan algoritme lain atau menentukan jumlah cluster atau
menghindari pola pada noise.
Menurut Halkidi et al. (2002), validasi cluster digolongkan ke dalam tiga
kategori yaitu internal index, external index, dan relative index. Pada internal index,
validasi dilakukan dengan melakukan pengukuran terhadap goodness struktur
clustering tanpa memperhatikan informasi eksternal. Contoh teknik yang termasuk
internal index ialah Sum of Squared Error (SSE), F-ratio, Silhouette Coefficient,
dll. Sedangkan validasi pada external index dilakukan pengukuran tingkat
kemiripan antara label cluster dengan label kelas yang diberikan diluar proses
clustering. Contoh teknik yang termasuk kedalam external index diantaranya pair
counting, information theoretic, dan set matching. Pada relative index, validasi
dilakukan dengan membandingkan 2 clustering atau cluster yang berbeda. Teknik

7
yang digunakan sama dengan external index atau internal index, biasanya SSE atau
entropy.
Teknik silhouette coefficient mengkombinasikan ide dari cohesion dan
separation untuk masing-masing titik baik dari beberapa cluster atau clustering.
Cohesion mengukur seberapa dekat relasi antar objek di dalam sebuah cluster.
Sedangkan separation mengukur seberapa besar perbedaan cluster dengan cluster
lain. Ilustrasi mengenai cohesion dan separation dijelaskan pada Gambar 4.

(b)

(a)

Gambar 4 Ilustrasi (a) Cohesion dan (b) Separation
Formula untuk menghitung silhouette dari sebuah titik adalah sebagai
berikut (Kaufman dan Rousseeuw 1990)
� � =

b i −a i
max{a i , b i }

Formula 1 Rumus menghitung Silhouette dari sebuah titik
Pada Formula 1, terdapat titik i dalam cluster A dan s(i) merupakan
silhouette dari titik i tersebut, sedangkan a(i) merupakan rata-rata tingkat perbedaan
(dissimilarity) diantara titik i dengan titik lain dan b(i) sebagai rata-rata tingkat
perbedaan antara titik i dengan titik pada cluster yang terdekat dari cluster A.
Kemudian hasil rata-rata silhouette keseluruhan titik pada dataset S’(k) digunakan
untuk menemukan angka yang tepat untuk cluster, k, dan memilih k yang memiliki
nilai S’(k) yang terbesar . Silhouette coefficient (SC) didefinisikan sebagai berikut:
�� = max{� ′ � }

Formula 2 Rumus menghitung Silhouette Coefficient (SC)
Pada Formula 2, nilai maksimum diambil dari keseluruhan k yang dibentuk
dari seluruh silhouette, k = 2,3,…,n-1 (Kaufman dan Rousseeuw 1990).
Package Shiny
Bahasa R merupakan bahasa yang berbasis bahasa S yang dibangun oleh
Rick Becker, John Chambers, dan Allan Wilks pada tahun 80-an di Bell
Laboratories. Kemudian dibangun menjadi sebuah perangkat lunak oleh Ross Ihaka
dan Robert Gentleman yang dinamakan seperti bahasa pemrograman yang
digunakan yaitu R. Fasilitas yang dibawa bahasa pemrograman ini ialah
kemampuan untuk memanipulasi, menghitung serta menampilkan grafik dan
antarmuka pengguna lainnya. Bahasa R termasuk pemrograman yang berorientasi

8
objek dan memiliki banyak library/package yang dikembangkan oleh
kontributornya. Salah satunya ialah package Shiny.
Shiny merupakan sebuah web framework dari RStudio yang mempermudah
pembangunan aplikasi web langsung dari bahasa R. Menurut Beeley (2013), Shiny
merupakan paket yang sempurna untuk R, mudah dan sederhana untuk
menampilkan hasil analisis dan grafik dari R dan pengguna dapat berinteraksi
melalui web. Package ini dapat digolongkan ke dalam pemrograman yang reaktif
atau mampu menampilkan output dengan mudah sesuai inputnya. Nilai output dapat
diperoleh tanpa perlu memuat halaman ulang. Shiny tersusun dari dua komponen
yaitu bagian antarmuka dan bagian server. Antarmuka sebagai pengatur tampilan
dari aplikasi, sedangkan server sebagai tempat instruksi bagi komputer untuk
membangun aplikasi tersebut. Alur sistem aplikasi Shiny dapat dilihat pada
Gambar 5.

Gambar 5 Alur sistem aplikasi Shiny
Mardhiyyah (2014) telah menggunakan Shiny pada penelitiannya yaitu
clustering dataset titik panas dengan algoritme DBSCAN. Pada penelitian tersebut,
hasil clustering langsung ditampilkan dalam bentuk halaman web. Penyimpanan
data masih berbasis file serta instruksi menggunakan server lokal.

METODE PENELITIAN
Data Penelitian
Data titik panas yang digunakan pada penelitian ini adalah data titik panas di
Pulau Kalimantan dan Provinsi Sumatera Selatan tahun 2002-2003. Data ini
diperoleh dari Fire Information for Resource Management System (FIRMS) yang
disediakan oleh National Aeronautics and Space Administration (NASA). Pada
dataset Pulau Kalimantan terdapat 4999 titik panas, sedangkan dataset Provinsi
Sumatera Selatan terdapat 4871. Dataset ini memiliki 11 atribut diantaranya
sebagai berikut:











Latitude
Longitude
Brightness
Scan
Track
Acq_date
Acq_time
Satellite
Confidence
Bright_t31

: bujur (o)
: lintang (o)
: temperatur (K)
: ukuran
: ukuran piksel citra yang diamati oleh satelit
: tanggal kejadian titik panas
: waktu kejadian titik panas
: satelit yang digunakan (Aqua, Terra)
: kualitas titik panas (0-100%)
: temperature channel-31 (K)

9



Frp
Versi
FIRMS

: fire radiative power (MegaWatts)
: 5.0 = MODIS NASA-LANCE, 5.1 = MODIS MODAPS-

Tahapan Penelitian
Tahapan yang dilakukan pada penelitian ini dimulai dari praproses data,
implementasi algoritme RDBC dengan bahasa R, evaluasi atau cluster dengan
Silhouette Coefficient, dan visualisasi dengan Shiny. Ilustrasi tahap pengerjaan
penelitian ini dapat dilihat pada Gambar 6.

Gambar 6 Skema metode penelitian
Praproses Data
Dataset yang diperoleh tidak dapat langsung digunakan untuk proses
clustering. Perlu adanya praproses data untuk mendapatkan data yang dibutuhkan
agar memudahkan proses clustering. Praproses ini dapat dilakukan dengan reduksi
data atau membuang data yang tidak digunakan hingga hanya berisi data yang
diperlukan dalam penelitian ini.
Implementasi Algoritme RDBC
Tahapan selanjutnya ialah implementasi algoritme RDBC pada bahasa R
dengan memanfaatkan modul DBSCAN pada package fpc. Algoritme RDBC
diimplementasi menjadi sebuah fungsi sehingga untuk melakukan clustering
dilakukan dengan memanggil fungsi tersebut dari server aplikasi Shiny.
Clustering dengan Algoritme RDBC
Algoritme RDBC membutuhkan dua parameter sebagai inisialisasi awal
seperti algoritme DBSCAN. Kedua parameter tersebut ialah Eps dan MinPts. Eps
ialah parameter jarak pada data spasial. Sedangkan MinPts merupakan jumlah titik
minimum pada jarak Eps. Oleh karena itu, sebelum melakukan clustering,
diperlukan penentuan Eps dan MinPts terlebih dahulu agar dapat menghasilkan
hasil clustering yang terbaik. Penentuan Eps dilakukan dengan melihat grafik k-

10

Gambar 7 Grafik penentuan nilai Eps (Purwanto 2012)
dist. Grafik tersebut dapat dilihat pada Gambar 7. Sedangkan penentuan MinPts
dilakukan dengan melihat jumlah noise yang terbentuk.
Berikut langkah-langkah penentuan nilai Eps dan MinPts dari grafik k-dist
(Purwanto 2012) :
1 Komputasikan k-dist untuk seluruh titik pada beberapa k. Urutkan dalam
urutan menurun dan plot nilai yang telah diurutkan.
2 Perubahan tajam pada nilai k-dist berhubungan dengan nilai Eps yang
dipilih, sedangkan nilai k gunakan sebagai MinPts yang sesuai.
3 Poin dengan k-dist lebih kecil dari Eps akan disebut sebagai core point
(titik pusat), sementara titik lain akan dilabelkan sebagai titik noise atau
titik border.
4 Jika k terlalu besar maka penggerombolan kecil (ukuran kurang dari k)
cenderung diberi label sebagai titik noise. Jika k terlalu kecil maka titik
noise atau outlier akan salah diberi label sebagai penggerombolan.
5 Eps yang dipilih adalah Eps yang kurang dari jarak yang ditentukan oleh
lembah pertama.
Evaluasi Cluster dengan Silhouette Coefficient
Pada tahapan ini, model clustering yang dihasilkan akan dievaluasi
menggunakan metode Silhouette Coefficient. Hal ini digunakan untuk menguji
apakah model clustering tersebut mampu menempatkan sebuah data ke cluster yang
tepat dengan akurasi yang baik. Nilai silhouette coefficient berkisar antara -1 hingga
1, dengan 1 merupakan nilai terbaik, 0 merupakan nilai netral atau tidak ada
perbedaan antar cluster, dan -1 merupakan nilai terburuk (Struyf et al. 1997).
Visualisasi Hasil Analisis
Tahap terakhir yaitu visualisasi hasil analisis ke dalam halaman website
agar dapat diakses melalui internet. Visualisasi ini memanfaatkan framework Shiny
yang tersedia dalam Rstudio. Algoritme RDBC yang diimplementasikan ke dalam
sebuah fungsi.
Lingkupan Pengembangan
Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk
penelitian ini adalah sebagai berikut:

11
Perangkat lunak :
 Sistem operasi Windows 7
 Bahasa pemrograman R versi 3.1.2
 RStudio versi 0.98.501 dengan package Shiny, fpc, cluster, dan jpeg
 Microsoft Excel 2013
 Google Chrome
Perangkat keras :
 Processor Intel Core i3 2.10 GHz,
 Memori 4 GB DDR3
 Harddisk berkapasitas 500 GB

HASIL DAN PEMBAHASAN
Praproses Data
Pada tahapan ini dilakukan pemilihan data titik panas yang terjadi di Pulau
Kalimantan dan Provinsi Sumatera Selatan pada tahun 2002-2003. Tahapan
praproses data yang dilakukan adalah reduksi data atau menghilangkan atribut/field
untuk memperoleh data yang diperlukan dalam perhitungan clustering.
Berdasarkan dataset titik panas yang diperoleh dari Fire Information for Resource
Management System (FIRMS), terdapat 11 field diantaranya latitude, longitude,
brightness, scan, track, acq_date, satellite, confidence, version, bright_t31, dan frp.
Kemudian direduksi menjadi 2 field yaitu latitude dan longitude.
Implementasi RDBC pada Bahasa R
Berdasarkan algoritme RDBC, dilakukan implementasi ke dalam bahasa
pemrograman R. Implementasi algoritme RDBC dilakukan dengan menyesuaikan
sintaks pada R, kemudian dibantu dengan package untuk mempermudah proses
implementasi. Algoritme RDBC didefinisikan sebagai fungsi dengan masukan
berupa parameter dataset, Eps dan Minpts. Perbedaan yang menonjol dari algoritme
DBSCAN ialah penentuan core point dilakukan secara terpisah dari proses
clustering.
Pada RDBC, jumlah core point sangat dipertimbangkan untuk
menghasilkan cluster yang minim noise. Oleh karena itu, pada algoritme RDBC
diawali dengan perhitungan jumlah core point. Jika jumlah core point kurang dari
setengah jumlah titik pada dataset, maka dilakukan pengurangan nilai Eps dan
MinPts. Proses tersebut dilakukan secara rekursif hingga jumlah core point
memenuhi syarat yakni lebih dari setengah jumlah dataset. Apabila jumlah titik
pusat (core point) sudah memenuhi syarat atau lebih dari setengah jumlah dataset,
maka nilai Eps dan MinPts saat itu akan digunakan untuk melakukan clustering
dengan fungsi dbscan. Implementasi algoritme RDBC dapat dilihat pada
Gambar 8.

12
Algoritme RDBC pada R
# input :
# Memasukkan dataset untuk dilakukan clustering
# Memasukkan nilai eps dan minpts sebagai inisialisasi awal
rdbc

Clustering Dataset Titik Panas dengan Algoritme RDBC Menggunakan Web Framework Shiny pada Bahasa R.

Dokumen yang terkait

Clustering Data Indeks Pembangunan Manusia (IPM) Pulau Jawa Menggunakan Algoritme ST-DBSCAN dan Bahasa Pemrograman R

Deteksi pencilan data titik api di provinsi riau menggunakan algoritme Clustering K-Means

Clustering dataset titik panas dengan algoritme dbscan menggunakan web framework shiny pada bahasa pemrograman r

Optimasi Aturan Asosiasi Multidimensi Menggunakan Algoritme Genetika Untuk Klasifikasi Kemunculan Titik Panas

Klasifikasi Kemunculan Titik Panas Pada Lahan Gambut Di Sumatera Dan Kalimantan Menggunakan Algoritme Random Forest

Aplikasi Berbasis Web Untuk Deteksi Pencilan Titik Panas Menggunakan Algoritme Clustering K-Means Dan Framework Shiny

Deteksi Pencilan pada Data Titik Panas Menggunakan Clustering Berbasis Medoids

Klasifikasi Kemunculan Titik Panas Pada Lahan Gambut Di Sumatera Dan Kalimantan Menggunakan Algoritme Naive Bayes

Clustering Titik Panas Bumi Menggunakan Algoritme Affinity Propagation

Web Application Development with R Using Shiny

Dukungan

Links

Clustering Dataset Titik Panas dengan Algoritme RDBC Menggunakan Web Framework Shiny pada Bahasa R.

Dokumen yang terkait

Clustering Data Indeks Pembangunan Manusia (IPM) Pulau Jawa Menggunakan Algoritme ST-DBSCAN dan Bahasa Pemrograman R

Deteksi pencilan data titik api di provinsi riau menggunakan algoritme Clustering K-Means

Clustering dataset titik panas dengan algoritme dbscan menggunakan web framework shiny pada bahasa pemrograman r

Optimasi Aturan Asosiasi Multidimensi Menggunakan Algoritme Genetika Untuk Klasifikasi Kemunculan Titik Panas

Klasifikasi Kemunculan Titik Panas Pada Lahan Gambut Di Sumatera Dan Kalimantan Menggunakan Algoritme Random Forest

Aplikasi Berbasis Web Untuk Deteksi Pencilan Titik Panas Menggunakan Algoritme Clustering K-Means Dan Framework Shiny

Deteksi Pencilan pada Data Titik Panas Menggunakan Clustering Berbasis Medoids

Klasifikasi Kemunculan Titik Panas Pada Lahan Gambut Di Sumatera Dan Kalimantan Menggunakan Algoritme Naive Bayes

Clustering Titik Panas Bumi Menggunakan Algoritme Affinity Propagation

Web Application Development with R Using Shiny

Dokumen yang Anda mencari sudah siap untuk unduhkan