Spatio-Temporal Sequential Pattern Mining Untuk Deteksi Dini Kebakaran Pada Lahan Gambut Di Provinsi Riau

SPATIO-TEMPORAL SEQUENTIAL PATTERN MINING
UNTUK DETEKSI DINI KEBAKARAN PADA LAHAN
GAMBUT DI PROVINSI RIAU

SODIK KIRONO

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis berjudul Spatio-Temporal
Sequential Pattern Mining untuk Deteksi Dini Kebakaran pada Lahan Gambut di
Provinsi Riau adalah benar karya saya dengan arahan dari komisi pembimbing dan
belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, Juni 2016

Sodik Kirono
NIM G651140566

RINGKASAN
SODIK KIRONO. Spatio-Temporal Sequential Pattern Mining untuk Deteksi Dini
Kebakaran pada Lahan Gambut di Provinsi Riau. Dibimbing oleh IMAS
SUKAESIH SITANGGANG dan LAILAN SYAUFINA.
Kegiatan penyiapan lahan sering dilakukan dengan pembakaran yang tidak
terkendali sering menyebabkan kebakaran sehingga menimbulkan dampak yang
sangat merugikan. Oleh karena itu, perlu dilakukan deteksi dini kebakaran terutama
di lahan gambut.
Tujuan dari penelitian ini adalah menganalisis pola sequential titik panas di
lahan gambut provinsi Riau menggunakan algoritme Douglas-Peucker dan konsep
substring tree structure. Penelitian ini diharapkan dapat bermanfaat untuk
membantu memprediksi kemunculan titik panas pada lahan gambut di provinsi
Riau dan melakukan deteksi dini (early detection system) kebakaran lahan gambut
agar penyebaran kebakaran dapat diminimalkan.

Penelitian ini terdiri dari beberapa tahap utama yaitu praproses data,
pembentukan singular frequent pattern dengan algoritme Douglas-Peucker,
pembentukan frequent sequential pattern dengan konsep substring tree structure,
dan identitifkasi titik panas yang menjadi indikator kuat kebakaran lahan gambut.
Penelitian dilakukan pada data titik panas yang diperoleh dari FIRMS untuk tahun
2000-2015, meskipun pembahasan difokuskan pada data tahun 2014 dan 2015.
Penelitian menghasilkan tiga jenis pola sequential yaitu pola sequential
tanggal, hari, dan lokasi. Pola sequential tanggal yang paling banyak muncul tahun
2014 adalah 11 Maret 2014 diikuti 13 Maret 2014, artinya bahwa terjadi
kemunculan titik panas pada tanggal 11 Maret 2014 dan kemudian muncul kembali
pada tanggal 13 Maret 2014. Pola sequential tersebut terjadi pada 7 kabupaten/ kota
yaitu Indragiri Hilir, Pelalawan, Siak, Kepulauan Meranti, Bengkalis, Rokan Hilir,
dan Dumai.
Pola sequential tanggal yang paling banyak muncul tahun 2015 adalah 9 Juni
2015 diikuti 11 Juni 2015 yang artinya bahwa kemunculan titik panas terjadi pada
tanggal 9 Juni 2015 dan kemudian diikuti pada tanggal 11 Juni 2015. Pola
sequential tersebut terjadi pada 4 kabupaten/ kota yaitu Dumai, Rokan Hilir,
Bengkalis, dan Kepulauan Meranti.
Pola sequential hari yang paling banyak muncul tahun 2014 adalah Kamis
diikuti Jumat, artinya terjadi kemunculan titik panas pada hari Kamis kemudian

diikuti pada hari Jumat pada lokasi yang sama atau dalam radius 1 kilometer. Pola
sequential tersebut terjadi pada 9 dari 12 kabupaten/ kota di provinsi Riau yaitu
Siak, Bengkalis, Pelalawan, Rokan Hilir, Indragiri Hilir, Rokan Hulu, Dumai,
Kepulauan Meranti, dan Indragiri Hulu.
Selain itu, pola yang paling banyak muncul lain adalah Jumat diikuti Sabtu
diikuti Minggu, artinya terjadi kemunculan titik panas pada hari Jumat kemudian
diikuti Sabtu dan kemudian diikuti Minggu. Pola sequential tersebut terjadi pada 7
kabupaten/ kota di provinsi Riau yaitu Bengkalis, Rokan Hilir, Siak, Dumai,
Indragiri Hilir, Pelalawan, dan Kepulauan Meranti.
Pola sequential hari yang paling banyak muncul tahun 2015 adalah Kamis
diikuti Sabtu, artinya terjadi kemunculan titik panas pada hari Kamis kemudian
pada radius 1 km diikuti kemunculan pada hari Sabtu. Pola tersebut penting karena

cenderung terjadi di akhir minggu. Pola sequential tersebut terjadi pada 8
kabupaten/ kota di provinsi Riau yaitu Rokan Hilir, Dumai, Bengkalis, Indragiri
Hilir, Indragiri Hulu, Kepulauan Meranti, Pelalawan, dan Siak.
Pola sequential lokasi yang paling banyak muncul tidak dapat ditentukan. Hal
ini karena jumlah support masing-masing pola yang hampir sama. Selain itu, pola
sequential lokasi juga tidak dapat digunakan untuk deteksi dini kebakaran, hal ini
karena jumlah support yang relatif kecil.

Penelitian juga menghasilkan persentase titik panas yang menjadi indikator
kuat kebakaran lahan gambut di provinsi Riau. Persentase titik panas yang menjadi
indikator kuat kebakaran lahan gambut pada tahun 2014 adalah 22.77%. Artinya,
sekitar 22.77% titik panas yang terjadi di lahan gambut provinsi Riau adalah
potensial kebakaran.
Kata kunci: algoritme Douglas-Peucker, hotspot, peatland fire, sequential pattern
mining, substring tree structure

SUMMARY
SODIK KIRONO. Spatio-temporal Sequential Pattern Mining for Early Detection
of Peatland Fire In Riau Province. Supervised by IMAS SUKAESIH
SITANGGANG and LAILAN SYAUFINA.
The process of land preparation is often conducted by burning process and it
was sometimes become uncontrollable and cause many negative impact for
environment. Therefore, it is needed to build early detection system for peatland
fire.
The objective of this research is to analyze sequential pattern from hotspot
data in peatland area of Riau province using Douglas-Peucker algorithm and
substring tree structure concept. It is expected that the result can help related parties
including ministry of forestry, for preventing and early detection of fire in peatland

area, so the spread of fire can be minimized.
The main steps of this research are data preprocess, generating singular
frequent patten using Douglas-Peucker algorithm, generating frequent sequential
pattern using substring tree structure concept, and identifying hotspot that could
become strong indicator of peatland fire. This research used hotspot data that were
obtained from FIRMS for 2000-2015, meanwhile discussion focus on sequential
patterns generated from data in 2014 and 2015.
This research result 3 types of sequential pattern, namely sequential pattern
of date, day, and location. The most interesting frequent sequential pattern of date
in 2014 is March 11th 2014 then followed by March 13th 2014, meaning that there
was hotspot occurrence in March 11th and then followed by March 13th 2014. The
sequential pattern occurred in 7 districts, including Indragiri Hilir, Pelalawan, Siak,
Kepulauan Meranti, Bengkalis, Rokan Hilir, and Dumai.
Meanwhile, the most interesting frequent sequential pattern in 2015 is June
9th 2015 then followed by June 11th 2015, meaning that there was hotspot
occurrences in June 9th and then followed by June 11th 2015. The sequential pattern
occurred in 4 districts, including Dumai, Rokan Hilir, Bengkalis, dan Kepulauan
Meranti.
The most interesting frequent sequential pattern of day in 2014 is Thursday
then followed by Friday in the location of radius of 1 km. The sequential patterns

were occurred in 9 districts, including are Siak, Bengkalis, Pelalawan, Rokan Hilir,
Indragiri Hilir, Rokan Hulu, Dumai, Kepulauan Meranti, dan Indragiri Hulu.
Another interesting frequent sequential pattern in 2014 is Friday followed by
Saturday and then followed by Sunday, meaning that there were hotspot
occurrences in Friday followed by Saturday and then followed again by Sunday.
The sequential pattern occurred in 7 districts, including Bengkalis, Rokan Hilir,
Siak, Dumai, Indragiri Hilir, Pelalawan, dan Kepulauan Meranti.
The most interesting sequential pattern of day in 2015 is Thursday and then
followed by Saturday, meaning that there was hotspot occurrence in Thursday, and
then in the radius 1 km was followed by Saturday. The sequential pattern is
interesting because it is happened in weekend. The sequential patterns is occurred
occurred in 8 district. They are Rokan Hilir, Dumai, Bengkalis, Indragiri Hilir,
Indragiri Hulu, Kepulauan Meranti, Pelalawan, dan Siak.

The sequential pattern of location can’t be determined which one is more
frequent than others because the support of every pattern is nearly even. Also, the
sequential pattern of location can’t be used for early detecting peatland fire. It is
because its support is very low.
This research also produced percentage of hotspot that could become strong
indicator of peatland fire in Riau province. The percentage that could become strong

indicator of peatland fire is 22.77%, meaning that about 22.77% hotspot occurrence
in peatland area in Riau province is potential of fire.
Keywords: Douglas-Peucker algorithm, hotspot, peatland fire, sequential pattern
mining, substring tree structure

© Hak Cipta Milik IPB, Tahun 2016
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau
menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB

SPATIO-TEMPORAL SEQUENTIAL PATTERN MINING
UNTUK DETEKSI DINI KEBAKARAN PADA LAHAN
GAMBUT DI PROVINSI RIAU

SODIK KIRONO


Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Ilmu Komputer
pada
Program Studi Ilmu Komputer

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016

Penguji Luar Komisi pada Ujian Tesis: Dr Eng Wisnu Ananta Kusuma, ST MT

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala
atas segala karunia-Nya sehingga tesis berjudul Spatio-Temporal Sequential
Pattern Mining untuk Deteksi Dini Kebakaran pada Lahan Gambut di
Provinsi Riau ini dapat diselesaikan.
Terima kasih penulis ucapkan kepada Dr Imas Sukaesih Sitanggang,
SSi MKom dan Dr Ir Lailan Syaufina, MSc selaku pembimbing yang telah

membimbing serta Dr Eng Wisnu Ananta Kusuma, ST MT selaku penguji
yang memberikan saran dan masukan kepada penulis. Terima kasih juga
penulis sampaikan kepada Direktorat Jenderal Pendidikan Tinggi yang telah
memberikan beasiswa melalui program Fresh Graduate - Sinergi, serta
FIRMS MODIS NASA, Badan Pusat Statistik Indonesia, dan Wetland
International Programme Indonesia sebagai penyedia data. Ungkapan terima
kasih juga disampaikan kepada kedua orang tua tercinta, Ayahanda Eko
Dikoro dan Ibunda Sainem yang sampai detik ini selalu memberikan
dukungan, semangat, doa, dan curahan kasih sayang yang tiada terhingga,
begitu juga dengan seluruh anggota keluarga yang menjadi penyemangat dan
sumber doa bagi penulis untuk selalu melakukan yang terbaik. Terima kasih
juga kepada teman-teman Pasca Sarjana Ilmu Komputer 2013 dan 2014 dan
semua pihak baik yang terkait selama penelitian dan studi dilakukan.
Semoga karya ilmiah ini bermanfaat.

Bogor, Juni 2016

Sodik Kirono

DAFTAR ISI

DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi

1 PENDAHULUAN
Latar Belakang
Perumusan Masalah
Tujuan Penelitian
Manfaat Penelitian
Ruang Lingkup Penelitian

1

1
3
3
4
4

2 TINJAUAN PUSTAKA
Perkembangan Penelitian Tentang Sequential Pattern Mining
Lahan Gambut dan Kebakaran Lahan Gambut
Titik Panas (Hotspot)
Data Spasial
Data Temporal
Data Spatio-Temporal
Sequential Pattern Mining
Spatio-Temporal Sequential Pattern Mining
Algoritme Douglas-Peucker
Substring Tree Structure
Algoritme Prefixspan

5
5
6
6
8
9
9
9
10
11
12
14

3 METODE
Wilayah Kajian
Data dan Alat
Tahapan Penelitian

16
16
16
17

4 HASIL DAN PEMBAHASAN
22
Praproses Data
22
Pembentukan Singular Frequent Pattern dengan Algoritme Douglas-Peucker 24
Pembentukan Frequent Sequential Pattern Menggunakan Subsequence
29
Identifikasi Titik Panas yang Menjadi Indikator Kuat Kebakaran di Lahan
Gambut
35
5 SIMPULAN DAN SARAN
Simpulan
Saran

37
37
37

DAFTAR PUSTAKA

38

LAMPIRAN

40

RIWAYAT HIDUP

55

DAFTAR TABEL
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

Perkembangan penelitian pada sequential pattern mining
Contoh sequence, subsequence, element, item
Contoh transaksi dalam sequence
Data sequential S dengan item {a,b,c,d,e,f,g}
Persentase titik panas sebagai indikator kuat kebakaran lahan gambut
Atribut hasil seleksi dari data titik panas
Data titik panas terurut berdasarkan tanggal
Contoh data hasil konversi tanggal akusisi
Data titik panas terurut berdasarkan latitude dan longitude
Hasil konversi latitude dan longitude menjadi daerah/ lokasi
Hasil konversi tanggal akuisisi menjadi hari
Jumlah sequence lokasi tahun 2014
Contoh sequential kemunculan titik panas aspek spasial pada tahun
2014
Contoh data sequential lokasi dengan format masukan SPMF
Jumlah sequence tanggal tahun 2014
Contoh sequential kemunculan titik panas aspek temporal pada tahun
2014
Contoh sequence hari hasil implementasi algoritme Douglas-Peucker
Contoh data sequential tanggal dengan format masukan SPMF
Contoh data sequential hari dengan format masukan SPMF
Jumlah frequent subsequence lokasi yang terbentuk setiap tahun
Pola sequential lokasi yang banyak muncul
Jumlah frequent sequence berdasarkan tanggal
Pola sequential tanggal banyak muncul
Jumlah frequent sequence berdasarkan hari
Pola sequential hari yang banyak muncul
Persentase titik panas sebagai indikator kuat kebakaran lahan gambut
Persentase titik panas sebagai indikator kuat kebakaran lahan gambut

5
10
10
14
20
22
23
23
24
24
24
25
26
26
27
27
28
28
29
29
30
31
31
33
33
36
36

DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
11
12
13

Representasi titik panas dalam radius ±1 km2
Representasi data spasial model vektor: (a) titik, (b) garis, dan (c)
poligon
Representasi (a) segitiga, (b) segitga dalam model raster
Ilustrasi algoritme Douglas-Peucker
Contoh graf (a) graf tidak terhubung, (b) graf terhubung dengan cycle,
dan (c) graf terhubung tanpa cycle (tree)
Ilustrasi algoritme Douglas-Peucker
Peta lahan gambut provinsi Riau
Tahapan penelitian
Lokasi pola sequential tanggal 11 Maret 2014 -1 13 Maret 2014
Lokasi pola sequential tanggal 9 Juni 2015 -1 11 Juni 2015
Lokasi pola sequential hari Kamis diikuti Jumat
Lokasi pola sequential hari Jumat -1 Sabtu -1 Minggu
Lokasi pola sequential hari Kamis -1 Sabtu

7
8
8
12
13
13
16
17
32
32
34
34
35

DAFTAR LAMPIRAN
1
2
3

Pola sequential lokasi kemunculan titik panas yang penting
Pola sequential tanggal kemunculan titik panas yang penting
Pola sequential hari kemunculan titik panas yang penting

40
42
45

1 PENDAHULUAN
Latar Belakang
Indonesia merupakan negara dengan luas lahan gambut terbesar ke empat di
dunia setelah Kanada, Uni Soviet, dan Amerika Serikat (Najiyati 2005 dalam
Sumargo et al. 2011). Lahan gambut berfungsi untuk pelestarian sumber daya air,
peredam banjir, pencegah intrusi air laut, pendukung keanekaragaman hayati, dan
pengendali iklim (IWL 2014), namun kelangsungan lahan gambut semakin hari
semakin mengkhawatirkan (Muslim dan Kurniawan 2008). Menurut BBPPSDLP
(2011), total luas lahan gambut di 3 pulau utama yaitu Sumatra, Kalimantan, dan
Papua adalah 14 905 574. Lahan gambut terluas terdapat di pulau Sumatra yaitu 6
436 649.
Tahun 2009, sekitar 51% atau 10,77 juta hektar lahan gambut telah
mengalami perubahan penggunaan/ penutupan lahan dan pada periode 2000-2009
lahan gambut mengalami deforestasi seluas 2 juta hektar. Pulau Sumatra adalah
penyumbang deforestasi terluas pada lahan gambut yaitu seluas 0.98 juta hektar
(Sumargo et al. 2011). Tutupan hutan alam lahan gambut di Provinsi Riau pada
tahun 2002 sekitar 2.280.198 ha dan tahun 2007 tutupan tersebut hanya tinggal
1.603.008 ha atau telah berkurang 19% dari luas hutan alam lahan gambut pada
tahun 2002 (Muslim dan Kurniawan 2008).
Manusia merupakan penyebab perubahan tutupan lahan terbesar lahan
gambut. Salah satu penyebab terbesar adalah pembukaan dan pengalihfungsian
lahan gambut. Proses pembukaan/ pengalihfungsian lahan gambut biasanya
dilakukan dengan pembakaran (Muslim dan Kurniawan 2008). Pembakaran hutan
adalah tindakan secara sengaja membakar yang dilakukan oleh masyarakat dalam
mengelola lahan untuk kegiatan pertanian dan perladangan, sedangkan kebakaran
adalah proses pembakaran yang menyebar secara bebas dan tidak dapat
dikendalikan dengan mengonsumsi serasah, rumput, humus, ranting-ranting kayu
mati, semak, dan dedaunan kering. Kebakaran pada lahan gambut didominasi oleh
kebakaran bawah, api menjalar di bawah tanah. Meskipun pada permukaan
tanahnya tidak terlihat api dan proses penjalarannya lebih lambat, namun kebakaran
pada lahan gambut sulit dikendalikan (Syaufina 2008). Hal ini dikarenakan sumber
api yang tidak diketahui letak pastinya menyebabkan sulitnya pengendalian.
Dampak kebakaran hutan sangat merugikan dalam berbagai aspek kehidupan
manusia. Kabut asap merupakan salah satu dampak terburuk dari kebakaran hutan.
Kabut asap dapat mengakibatkan gangguan infeksi saluran pernapasan atas (ISPA)
yang bahkan dapat menyebabkan kematian. Aktivitas penerbangan juga sering
dibatalkan karena jarak pandang yang tidak memenuhi syarat. Aktivitas pendidikan
juga terganggu karena kabut asap ini.
Kemunculan titik panas pada suatu wilayah adalah indikator untuk
mengetahui tingkat kebakaran hutan gambut (Musawijaya et al. 2001). Titik panas
adalah suatu area yang terdeteksi memiliki temperature lebih dari ambang batas
wajar yaitu 46,850C (Dephut 2000). Semakin banyak titik panas yang terdeteksi
pada suatu daerah, kemungkinan terjadinya kebakaran semakin besar. Dalam
periode 17 September 2015 sampai 24 September 2015, World Resource Institude
(WRI) melaporkan kemunculan titik panas di Indonesia mencapai 13000 titik,

2
dengan 50% kemunculan di pulau Sumatra berada pada lahan gambut (Minnemeyer
2015).
Data titik panas memiliki aspek spasial dan temporal serta memiliki ukuran
dimensi maupun data yang cukup besar. Kemampuan analisis secara manual akan
membutuhkan sumber daya yang sangat besar. Teknik data mining dapat menjadi
salah satu teknik alternatif yang dapat digunakan. Data mining memungkinkan
menemukan pola yang lebih akurat dengan sumber daya yang lebih terbatas. Selain
itu, teknik data mining memungkinkan menghasilkan pola yang tidak dihasilkan
oleh teknik lain. Salah satu pola tersebut adalah pola sequential. Pemanfaatan pola
sequential berdasarkan aspek spatio-temporal memungkinkan untuk menghasilkan
prediksi urutan kemunculan titik panas pada tempat dan waktu tertentu. Beberapa
penelitian dalam prediksi terjadinya kebakaran hutan yang dilakukan belum banyak
yang menggunakan kedua aspek spasial dan temporal, hanya salah satu dari
keduanya.
Beberapa penelitian terkait dengan pencarian pola sequential dari data spatiotemporal telah dilakukan oleh Tan et al. (2001), Cao et al. (2005), dan Cheng dan
Wang (2006). Tan et al. (2001) melakukan penelitian untuk menemukan pola
penting pada data Earth Science. Metode yang digunakan adalah metode asosiasi
seperti dalam Agrawal dan Srikant (1994). Sebelum dimasukkan ke algoritme
tersebut, terlebih dahulu dilakukan proses untuk menghilangkan pola musiman,
auto korelasi, dan diubah ke market basket data. Metode asosiasi digunakan untuk
mencari pola-pola baik yang bersifat sequential maupun non-sequential. Penelitian
ini menyimpulkan bahwa teknik asosiasi yang diusulkan oleh Agrawal dan Srikant
(1994) dapat digunakan untuk menemukan pola penting baik yang bersifat
sequential dan non-sequential pada data Earth Science dengan terlebih dahulu
mengubah bentuk datanya.
Cao et al. (2005) melakukan penelitian untuk menemukan pola sequential
pada spatio-temporal series data. Teknik yang digunakan adalah mengubah
sekuens yang asli menjadi daftar dari segmen-segmen sekuen dan mendeteksi
wilayah yang region dengan heuristik. Algoritme yang digunakan adalah algoritme
Douglas-Peucker (Douglas and Peukcer 1973) dan substring tree structure (Cao et
al. 2005). Penelitian telah berhasil menemukan pola singular frequent pattern dari
data spatio-temporal dengan mengelompokkan segmen tidak hanya dari kemiripan
bentuk tetapi juga kedekatan jaraknya. Selain itu, dihasilkan juga pendekatan
substring tree baru untuk mempercepat pencarian pola yang lebih panjang. Cheng
dan Wang (2006) telah melakukan penelitian untuk melakukan peramalan dan
prediksi kebakaran dengan menggunakan data spatio-temporal untuk mencegah
kebakaran hutan. Mereka memperkenalkan metode baru yaitu Improved Spatiotemporal Intregated Forecasting Framework (ISTIFF). Algoritme tersebut telah
diujikan untuk memprediksi kebakaran hutan di Kanada. Berdasarkan hasil prediksi
yang didapat, akurasi yang dihasilkan lebih baik daripada metode lain seperti
ARIMA dan STIFF.
Beberapa penelitian yang menggunakan pola sequential pada data titik panas
telah dilakukan oleh Nurulhaq dan Sitanggang (2015), dan Agustina dan
Sitanggang (2015). Nurulhaq dan Sitanggang (2015) memanfaatkan algoritme
Prefixspan untuk menemukan pola sequential tanggal pada data titik panas di
provinsi Riau. Hasil penelitian menunjukkan bahwa didapatkan pola sequential
penting dengan panjang sequence bervariasi dengan support 1% sampai 11% dan

3
menyimpulkan bahwa interval kemunculan titik panas menjadi indikator kuat
kebakaran adalah 3 hari. Selain itu, Agustina dan Sitanggang (2015) juga
melakukan penelitian untuk mendapatkan pola sequential pada data titik panas di
provinsi Riau namun dengan algoritme yang berbeda yaitu Clospan serta
menambahkan factor cuaca. Hasil penelitian menunjukkan bahwa algoritme
Clospan dapat menemukan pola sequential pada data titik panas di provinsi Riau
dan menyimpulkan bahwa wilayah yang kerap muncul titik panas adalah dengan
precipitation 0.3 per inchi per 6 jam dan suhu 29.440C.
Berdasarkan beberapa penelitian di atas, dapat disimpulkan bahwa pola
sequential dapat ditemukan dari data spatio-temporal seperti titik panas dan pola
sequential yang dihasilkan dapat digunakan untuk memprediksi kemunculan titik
panas atau kebakaran dan deteksi dini pada kebakaran. Oleh karena itu, penelitian
ini akan mengambil topik tentang pemanfaatan data spatio-temporal untuk
melakukan deteksi dini kebakaran pada lahan gambut berdasarkan pola sequential
dari data spatio-temporal-nya. Teknik data mining yang akan digunakan adalah
algoritme Douglas-Peucker dan substring tree structure, seperti yang diusulkan
oleh Cao et al. (2005). Keluaran dari teknik ini adalah pola sequential kemunculan
titik panas di lahan gambut di provinsi Riau. Studi kasus akan difokuskan pada
provinsi Riau dengan data berupa data titik panas tahun 2000 sampai 2015 yang
diperoleh dari FIRMS. Penelitian ini diharapkan dapat membantu pihak terkait
dalam melakukan deteksi dini dan pengendalian kebakaran di lahan gambut di
provinsi Riau berdasarkan aspek spasial dan temporalnya.
Perumusan Masalah
Pencegahan dan deteksi dini perlu dikembangkan untuk mencegah semakin
banyaknya kebakaran lahan gambut. Sistem prediksi kebakaran pada lahan gambut
dengan melihat pola kemunculan titik panas dapat menjadi salah satu alternatif.
Sistem prediksi yang telah dikembangkan pada beberapa penelitian terdahulu
belum menggunakan kedua aspek yaitu spasial dan temporal. Beberapa penelitian
hanya menggunakan aspek spasial atau temporal-nya saja, sehingga hasil pola yang
didapatkan hanya bisa memprediksi kebakaran berdasarkan tempat atau waktunya
saja, bukan keduanya. Oleh karena itu, diperlukan sistem yang dapat memprediksi
kemunculan titik panas yang mencakup dua aspek yaitu aspek spasial dan temporal.
Hal ini berguna untuk membantu memprediksi kebakaran lahan gambut
berdasarkan pola tempat dan pola waktunya, sehingga diharapkan hasilnya lebih
akurat. Penelitian ini diharapkan dapat menghasilkan pola sequential titik panas
yang dapat digunakan untuk membantu melakukan deteksi dini kebakaran lahan
gambut.
Tujuan Penelitian
Tujuan penelitian ini adalah untuk analisis pola sequential titik panas di lahan
gambut di provinsi Riau menggunakan algoritme Douglas-Peucker dan konsep
substring tree structure berdasarkan aspek spasial dan temporal sehingga dapat
digunakan untuk membantu deteksi dini kebakaran lahan gambut.

4
Manfaat Penelitian
1

2

Manfaat penelitian ini adalah
Membantu memprediksi kemunculan titik panas pada lahan gambut di
provinsi Riau berdasarkan pola sequential yang didapatkan dari data titik
panas berdasarkan aspek spasial dan temporal-nya.
Melakukan deteksi dini (early detection system) kebakaran lahan gambut

Ruang Lingkup Penelitian
Untuk membatasi lingkup penelitian agar pembahasan berfokus pada tujuan
yang telah ditetapkan, maka diberikan ruang lingkup dan batasan sebagai berikut:
1
Cakupan wilayah penelitian adalah provinsi Riau sampai level desa
2
Data titik panas yang digunakan adalah data titik panas di provinsi Riau
tahun 2001 sampai 2015 diambil dari website FIRMS-MODIS NASA pada
alamat https://firms.modaps.eosdis.nasa.gov/download
3
Data lahan gambut yang akan digunakan adalah data lahan gambut provinsi
Riau diperoleh dari Weatland International

5

2 TINJAUAN PUSTAKA
Perkembangan Penelitian Tentang Sequential Pattern Mining
Tabel 1 berikut menunjukkan perkembangan penelitian tentang titik panas,
spatio-temporal data, dan sequential pattern mining.
Tabel 1 Perkembangan penelitian pada sequential pattern mining
No.
1

2

3

4

5

6

Penulis
Tan
et
(2001)

Kontribusi
al. Menggunakan teknik asosiasi
standard untuk menemukan
pola asosiasi sequential dan
non-sequential pada data
spatio-temporal, Earth Science
Data
Pei et al. (2004) Memperkenalkan metode baru
untuk menemukan pola
sequential dengan pendekatan
bukan Apriori melainkan
melakukan ekplorasi prefix
pada pola sequential

Cao
et
(2005)

al. Memodelkan masalah mining
pola sequential dari data
spatio-temporal dengan
memperhatikan aspek spasial
dan temporalnya dari objek
bergerak
Chen dan Wang Mengaplikasikan spatio(2006)
temporal data mining dan
knowledge discovery (stdmkd)
dan memperkenalkan metode
baru Improved Spatio-temporal
Intregated Forecasting
Framework (ISTIFF) untuk
melakukan prediksi kebakaran.
Nurulhaq dan
Menemukan pola sequential
Sitanggang
pada data titik panas di provinsi
(2015)
Riau dengan algoritme
Prefixspan
Tria dan
Menemukan pola sequential
Sitanggang
berdasarkan data cuaca pada
(2015)
data titik panas di provinsi Riau
dengan algoritme Clospan

Data
Earth Science
Data

Data sequence
hasil pembentukan
dari generator
yaitu C10T8S8I8
dengan jumlah
item 1000 dan
10000 sequence
Jalur pergerakan
bis di Patras,
Yunani

Area kebakaran di
Kanada tahun
1959 - 1999

Data titik panas di
provinsi Riau

Data titik panas
dan cuaca di
provinsi Riau

6
Lahan Gambut dan Kebakaran Lahan Gambut
Lahan gambut adalah daerah dengan lapisan tanah yang kaya akan bahan
organik (kandungan C-organik > 18%) dengan tingkat ketebalan antara 50 cm atau
lebih. Lahan gambut terbentuk dari sisa-sisa tanaman yang telah mati dan tertimbun
di dalam tanah, berbeda dengan tanah mineral yang terbentuk dari pelapukan batuan
atau letusan gunung berapi. Kondisi tanah gambut yang miskin akan unsur hara dan
jenuh air menyebabkan sisa-sisa tanaman tidak dapat melapuk/ terdekomposisi
dengan sempurna sehingga menyebabkan timbunan terus bertambah (Agus dan
Subiksa 2008).
Lahan gambut mempunyai beberapa sifat fisik. Sifat fisik lahan gambut yang
pertama dalah kandungan berat isi (bulk density) yang sangat rendah yang
menyebabkan lahan gambut tidak dapat menahan atau menjadi penyangga. Hal ini
menyebabkan kondisi tanah menjadi agak lembek, sehingga ditanami tanaman
perkebunan pun tanaman sering kali roboh.
Sifat fisik yang kedua adalah sifat mengering tidak balik. Gambut yang telah
mengering tidak bisa menyerap air lagi ketika dibasahi dan mudah hanyut dibawa
aliran air dan mudah terbakar (Agus dan Subiksa 2008). Selain itu, gambut kering
juga tidak dapat lagi menyerap unsur hara dan sifat berubah menjadi seperti arang
sehingga pada musim kemarau sangat rentang terjadi kebakaran (Chotimah 2002
dalam Widyati 2011).
Kebakaran pada lahan gambut tidak seperti kebakaran pada hutan bukan
gambut. Kebakaran yang dapat terjadi pada lahan non gambut adalah kebakaran
tajuk, artinya hanya tanaman saja yang terbakar sedangkan tanahnya tidak terbakar.
Selain itu, api hanya muncul di atas tanah saja. Berbeda dengan kebakaran pada
lahan non gambut, kebakaran pada lahan gambut dapat terjadi pada permukaan
maupun dalam tanah. Hal ini karena sifat dari tanah gambut sendiri yang merupakan
sisa dari bahan organik yang tidak terurai sempurna sehingga dapat terbakar. Selain
itu, rongga-rongga pada gambut yang sudah mengering juga dapat menjadi jalur api
sehingga kebakaran juga dapat muncul di dalam tanah gambut.
Oleh karena itu, kebakaran lahan gambut lebih sulit dipadamkan dan bisa
meluas dengan cara merambat di bagian bawah permukaan tanah (ground fire)
secara tidak terkendali meskipun kebakarannya tidak menyala (Syaufina 2008). Hal
ini karena sulitnya menemukan sumber api dan mengalirkan air ke sumber air
tersebut.
Titik Panas (Hotspot)
Titik panas merupakan istilah untuk suatu daerah (yang direpresentasikan
dengan titik) yang memiliki suhu lebih tinggi dibandingkan ambang batas yang
ditentukan (Dephut 2000). Titik panas dapat menjadi indikator kebakaran hutan,
namun bukan kejadian kebakaran hutan (Musawijaya et al. 2001). Titik panas
dipantau dengan penginderaan jarak jauh (remote sensing) menggunakan satelit.
Salah satu satelit yang digunakan untuk pemantauan titik panas adalah Earth
Observing System (EOS). EOS merupakan satelit milik NASA.
Satelit Tera mengorbit bumi dari arah utara ke selatan pada pagi hari,
sedangkan satelit Aqua mengorbit bumi dari arah utara ke selatan pada sore hari.
Moderate Resolution Imaging Spectroradiometer (MODIS) merupakan instrumen

7
utama pada Terra dan Aqua. MODIS dari Terra dan Aqua memantau keseluruhan
permukaan bumi setiap 1 sampai 2 hari.
Satu piksel citra MODIS merepresentasikan titik panas dalam radius 1 km.
MODIS akan merepresentasikan titik panas dalam radius 1 km sebagai 1 titik,
artinya jika dalam radius 1km terdapat lebih dari 1 titik panas akan tetap terdeteksi
sebagai 1 titik. Adapun jika ada titik panas yang terdeteksi dalam radius 1 km dan
terdapat di perbatasan piksel maka akan terdapat banyak titik panas yang
direpresentasikan oleh MODIS. Ilustrasi representasi titik panas oleh MODIS dapat
dilihat pada Gambar 1 (Giglio 2003).

Gambar 1 Representasi titik panas dalam radius ±1 km2
Ada beberapa faktor yang dapat mempengaruhi komponen MODIS dalam
mendeteksi titik panas. Komponen tersebut adalah tutupan awan, tutupan asap, dan
tutupan pepohonan. Faktor tersebut akan membuat MODIS tidak akurat dalam
mendeteksi titik panas, bahkan menjadi tidak bisa mendeteksi titik panas yang ada.
Selain itu, ada batasan MODIS dapat mendeteksi titik panas. Ketidaksesuaian sudut
pengambilan, posisi matahari, suhu permukaan tanah, tutupan awan, jumlah api,
dan arah angin dapat membuat data MODIS yang didapat menjadi sangat tidak
sesuai dengan aslinya. Pada kondisi seperti ini, besar minimal titik panas yang dapat
dideteksi adalah 1000m2. Pada kondisi yang sangat sesuai (pada titik terendah,
sedikit atau tidak ada asap, permukaan tanah relatif seragam, dan sedikit atau tidak
ada awan) titik panas dengan besar 100m2 dapat dideteksi (FIRMS 2013).
Titik panas yang dideteksi dalam jumlah yang besar pada suatu kelompok dan
terjadi secara terus menerus bisa menjadi indikator kebakaran. Meskipun tidak
semua titik panas adalah indikator kebakaran. Misal daerah industri dan pemukiman
padat yang atapnya terbuat dari seng dapat menyebabkan suhu lingkungan
meningkat dan tertangkap oleh satelit EOS sebagai titik panas. Analisis lebih jauh
tentang titik panas diperlukan untuk menentukan kebenaran dari titik panas tersebut
sebagai kebakaran sesungguhnya atau bukan.

8
Data Spasial
Data spasial dalah data yang menyimpan informasi fenomena geografi. Data
spasial mempunyai field tambahan pada database untuk menyimpan informasi
spasialnya (Rolf 2001). Informasi spasial bisa dalam bentuk diskret ataupun kontinu.
Titik, garis, dan area adalah tipe data spasial diskret, sedangkan contoh tipe data
spasial kontinu adalah elevation dan precipitation (Chang 2008).
Model data spatial dapat dibedakan menjadi dua macam yaitu vektor dan
raster. Model data vektor menggunakan titik dan koordinat (x,y) untuk membentuk
titik (point), garis (line), dan area/ permukaan (polygon) (Chang 2008).
Karakteristik data titik adalah mempunyai koordinat tunggal (x,y), tidak
mempunyai panjang maupun luasan. Karakteristik data garis adalah pasangan
koordinat yang memiliki awal dan akhir (x1, y1); (x2,y2), mempunyai panjang tetapi
tidak mempunyai luasan. Karakteristik data poligon adalah pasangan koordinat
dengan titik awal dan titik akhir yang sama (x1,y1 = xn, yn), mempunyai panjang dan
mempunyai luasan. Contoh representasi data spasial model vektor dapat dilihat
pada Gambar 2.
(x4, y4)

(x3, y3)

(x2, y2)

(x1, y1)

(x1, y1)

(x1, y1)

(x2, y2)

(
(
(
b)
a)
c)
Gambar 2 Representasi data spasial model vektor: (a) titik, (b) garis, dan (c)
poligon
Contoh data spasial berupa titik adalah letak sekolah, letak rumah, dan letak
SPBU. Contoh data spasial berupa garis adalah sungai, dan jalan. Contoh data
spasial berupa poligon adalah lapangan sepak bola, area perumahan, dan pulau.
Model data raster menggunakan petak-petak (grid) yang merepresentasikan objekobjek spasial (Chang 2008). Setiap satu grid adalah representasi satu piksel gambar.
Lokasi piksel dinyatakan dengan baris ke-m dan kolom ke-n. Contoh representasi
data spasial model raster dapat dilihat pada Gambar 3a dan 3b.

(a)

(b)

Gambar 3 Representasi (a) segitiga, (b) segitga dalam model raster

9

Model data vektor sangat baik untuk merepresentasikan objek spasial yang
sifatnya diskret, sedangkan data raster cocok untuk merepresentasikan objek
spasial yang sifatnya kontinu. Data spasial terdiri dari dua aspek yaitu aspek spasial
dan aspek non spasial. Aspek spasial adalah lokasi objek, sedangkan aspek nonspasial adalah atribut lain selain lokasi seperti nama objek.
Data Temporal
Data temporal adalah data mengandung informasi time-stamp (sequence
karakter yang menunjukkan waktu kejadian). Time-stamp dapat dibentuk dengan
valid time (waktu sebenarnya misal 3 Maret 2005), transaction time (elemen waktu
yang dimasukkan database), dan bi-temporally (valid time dan transaction time)
(Mitsa 2005). Ada beberapa tipe dari data temporal yaitu statistic data, sequences,
time stamped, time series, dan fully temporal. Statistic data adalah data temporal
mempunyai Zero temporality. Sequences adalah susunan urutan kejadian atau
transaksi. Meskipun sequences tidak secara langsung merujuk pada temporal, ada
hubungan temporal yang bersifat kualitatif antar item data. Tidak seperti sequences,
time stamped mempunyai informasi yang berhubungan dengan waktu secara jelas.
Hubungan dapat dikuantitatifkan, seperti dapat ditentukan jarak temporal antar
elemen data secara jelas. Bentuk khusus dari time stamped adalah time series data.
Pada time series data, data kejadian mempunyai jarak dengan skala yang seragam.
Tipe yang terakhir adalah fully temporal. Pada fully temporal, masing-masing data
bersifat fully time dependent. Penarikan kesimpulan dari data fully time dependent
juga sangat bersifat temporal (Shahnawaz 2011).
Data Spatio-Temporal
Data spatio-temporal direpresentasikan dalam format tiga dimensi yaitu 2
dimensi untuk informasi spasial dan satu dimensi untuk aspek temporal (Mitsa
2010). Aspek spasial yang dimaksud adalah longitude dan latitude, sedangkan
aspek temporal yang dimaksud adalah waktu kejadian. Sering kali pada data spatiotemporal sangat sulit menemukan kejadian pada lokasi yang sama dan waktu yang
sama. Kejadian yang sering adalah terjadi pada tempat yang sama tetapi waktu
berbeda. Untuk mengatasi hal ini maka waktu dapat saja dibuat menjadi sebuah
interval.
Sequential Pattern Mining
Sequence adalah urutan dari elemen-elemen (transaksi). Contoh sequence
adalah s = , dengan e adalah elemen (transaksi). Setiap elemen terdiri
kumpulan kejadian-kejadian (item). Contoh elemen adalah ei = .
Setiap elemen adalah atribut yang dihubungkan dengan suatu lokasi atau waktu
tertentu. Panjang sequence |s| adalah banyaknya unsur-unsur sequence, sedangkan
k-sequence sebuah sequence yang terdiri dari k kejadian (item). Itemset adalah
himpunan kelompok item, dan k-itemset adalah itemset dengan jumlah item k (Han
dan Kamber 2006). Ilustrasi sequence, subsequence, element, dan item dapat dilihat
pada Tabel 2.

10
Tabel 2 Contoh sequence, subsequence, element, item
Contoh data sequence

Contoh subsequence

Contoh element Contoh item

< {2,4} {3,5,6} {8} >

< {2} {3,5} >

< {3,5,6} >

3

< {1,2} {3,4} >

< {1} {3} >

< {3,4} >

4

< {2,4} {2,4} {2,5} >

< {2} {4} >

< {2,4} >

2

Sequential pattern mining adalah teknik data mining yang mencari pola dari
subsequence yang sering muncul (frequent subsequence). Subsequence adalah
sebuah rangkaian yang terbentuk dari rangkaian lain dengan menghapus beberapa
elemen tanpa menghapus urutan dari elemen sisanya. Dari Tabel 1, terlihat bahwa
adalah subsequence dari < {2,4} {3,5,6} {8} >. Frequent subsequence
adalah subsequence dengan kemunculan lebih dari pattern. Support adalah bagian
dari database transaksi yang mengandung itemset (Han dan Kamber 2006). Ilustrasi
penentuan frequent subsequence dapat dilihat pada Tabel 3.
Tabel 3 Contoh transaksi dalam sequence
SID

sequence

10



20



30



adalah sebuah subsequence dari , jika diberikan
nilai minimum support 2, maka adalah frequent subsequence. Hal ini
dikarenakan ada setidaknya ada 2 subsequence dari seluruh transaksi pada
database, dan oleh karena itu juga merupakan sequential pattern.
Sequential pattern mining telah diimplementasikan oleh Nurulhaq dan
Sitanggang (2015) serta Agustina dan Sitanggang (2015). Kedua penelitian tersebut
berhasil menemukan pola sequential pada data titik panas di Provinsi Riau.
Perbedaan kedua peneltian tersebut adalah Nurulhaq dan Sitanggang (2015)
menemukan pola sequential dengan algoritme prefixspan (Pei et al. 2004),
sedangkan Agustina dan Sitanggang (2015) menemukan pola sequential dengan
algoritme Clospan. Agustina dan Sitanggang (2015) juga memasukkan unsur cuaca
dalam pembahasannya.
Spatio-Temporal Sequential Pattern Mining
Spatio-temporal sequential pattern mining adalah bentuk aplikasi dari
sequential pattern mining. Sebuah spatio-temporal sequence S adalah daftar lokasilokasi (x1, y1, t1), (x2, y2, t2), …, (xn, yn, tn), dengan ti menunjukkan timestamp dari
lokasi (xi, yi) dengan nilai I = 1, 2, 3, … n. Lokasi suatu kejadian biasanya tidak
terulang pada objek yang sama, sehingga objek yang tadinya hanya sebuah deretan
lokasi spasial (series of spatial locations) menjadi suatu wilayah (region) spasial.

11
Pendekatan paling sederhana untuk melakukannnya adalah dengan menggunakan
regular grid (spatial decomposition) untuk membaginya menjadi region dengan
memperhatikan parameter yang ditetapkan (Cao et al. 2005). Spatio-temporal
mengakomodasi aspek spatial data mining dan temporal data mining. Pendekatan
pertama yang dapat digunakan untuk menyelesaikan spatio-temporal data mining
adalah dengan menanamkan aspek temporal pada spatial data mining system,
sedangkan pendekatan kedua adalah menanamkan aspek spasial pada temporal data
mining system (Roddick dan Spiliopoulou 1999).
Beberapa teknik data mining yang dapat digunakan untuk data spatiotemporal adalah menemukan periodic pattern dan mining association rules, amun
data spatio-temporal tidak serta merta dapat dilakukan mining menggunakan teknik
tersebut. Hal ini dikarenakan ukuran spatio-temporal data yang cenderung besar.
Salah satu cara mengurangi ukuran data spatio-temporal adalah dengan reduksi,
teknik yang sangat dikenal adalah line simplification. Ide utama dari line
simplification adalah poligon yang memiliki banyak segmen garis lurus dapat
direpresentasikan cukup dekat dengan poligon lain yang memiliki lebih sedikit
segmen garis lurus. Selain diperlukan teknik reduksi, query khusus data spatiotemporal juga diperlukan. Misalkan ada sekumpulan titik dalam 3-D, Q = (x1, y1,
t1), (x2, y2, t2),..., maka query spatio-temporal yang dapat dijalankan adalah
sebagai berikut (Mitsa 2010):
1
Dimana (Q,t)? – Jawaban dari pertanyaan ini adalah lokasi objek Q pada
waktu t
2
Kapan (Q,t,y)? – Jawaban dari pertanyaan ini adalah waktu objek Q
melewati titik x,y
Algoritme Douglas-Peucker
Algoritme Douglas-Peucker pertama kali diperkenalkan oleh David Douglas
and Thomas Peucker pada tahun 1973. Algoritme ini digunakan untuk mengurangi
jumlah titik untuk merepresentasikan sebuah garis (Douglas and Peukcer 1973).
Algoritme ini menggunakan algoritme dengan pendekatan top down. Algoritme
Douglas-Peucker merupakan salah satu algoritme terbaik dalam pemilihan titik
pemisah (splitting point) (White 1985). Pada pengembangan selanjutnya, algoritme
Douglas-Peucker dapat digunakan untuk menentukan frequent singular pattern dari
sebuah data spatio-temporal (Cao et al. 2005). Algoritme Douglas-Peucker dapat
dituliskan seperti pada Algoritme 1 dan ilustrasi penerapan algoritme DouglasPeucker dalam mengurangi jumlah titik untuk merepresentasikan garis dapat dilihat
pada Gambar 4. Algoritme 1 menjelaskan bahwa jika jarak maksimum titik ke garis
lurus dalam bidang datar lebih dari nilai threshold maka polyline 1 akan terbentuk
dari vertex awal ke titik maksimumnya. Proses dilanjutkan dengan membentuk
polyline 2, yaitu penting garis dari titik maksimumnya ke vertex terakhir. Gambar
4 (Barrilot et al. 2001) menjelaskan bahwa garis dengan banyak kombinasi garis
lurus akan dibagi menjadi beberapa segmen dan dengan threshold tertentu maka
setiap segmen akan digabungkan menjadi sebuah garis kembali dengan lebih sedikit
garis lurus.
Algoritme 1 - Douglas-Peucker (Douglas dan Peucker 1973)
DP(Polyline, Segment, Threshold)
dmax ← greatest distance from Polyline to Segment

12
pmax ← corresponding farthest Polyline vertex
if dmax > Threshold then
Polyline1 ← All Polyline segments from pi
(first vertex) to pmax
Polyline2 ← All Polyline segments from pmax to
pf (last vertex)
Segmen 1 ← [pi, pmax]
Segmen 2 ← [pmax, pf]
Return DP(Polyline1, Segment1) DP(Polyline2,
Segmen2)
else
Return {Segment}
end if
end program

max

Threshold

Polyline,
Segment

Final
Segments

max

Polyline1,
Segment1

(a)

Polyline2,
Segment2
(b)

(c)

Gambar 4 Ilustrasi algoritme Douglas-Peucker
Bentuk poligon awal pada Gambar 4a dihitung masing-masing titik
pertemuan garis dengan garis horizontal yang terbentuk ujung masing-masing garis.
Selain itu, poligon akan di pecah menjadi beberapa polyline dan segment (Gambar
4b). Selanjutnya, pada masing-masing polyline, untuk jarak titik pertemuan dua
garis dengan horizontal antar dua ujung segment-nya kurang dari threshold maka
akan dibuat menjadi sebuah garis saja, sedangkan untuk yang jarak lebih dari
threshold, maka akan tetap menjadi dua garis. Tahap akhir adalah menggabungkan
kembali polyline dan segment menjadi sebuah poligon (Gambar 4c).
Proses pembentukan sequence dan singular frequent pattern dengan
algoritme Douglas-Peucker melewati dua tahap yaitu filtering dan verification.
Tahap filtering dilakukan dengan memisahkan segment dan menghitung jarak antar
segment, sedangkan pada tahap verifikasi, algoritme melakukan penggabungan
segmen ke spatial region ketika perbedaan jarak terpenuhi.
Substring Tree Structure
String adalah sederetan simbol yang tidak tertentu panjangnya, yang dianggap
sebagai panjang satu unit (World Agreement Agenda O812). String dibentuk dari
gabungan beberapa string lain. String yang merupakan penyusun atau bagian dari
string yang lain disebut substring. Misal ada sebuah string “ILMUKOMPUTER”,
“ILMU” adalah contoh substring dari string tersebut.

13
Tree adalah graf tak berarah dengan semua node terhubung dan tidak
membentuk cycle. Graf adalah pasangan terurut antara vertex (node) dan edge
(penghubung) yang dapat dinotasikan sebagai G = {V, E}. Beberapa contoh jenis
graf (termasuk tree) dapat dilihat pada Gambar 5a, 5b, dan 5c.

Node

Edge

(a)

(b)

(c)

Gambar 5 Contoh graf (a) graf tidak terhubung, (b) graf terhubung dengan cycle,
dan (c) graf terhubung tanpa cycle (tree)
Gambar 5a menunjukkan jenis graf tidak terhubung karena ada satu buat titik
(node) yang tidak terhubung dengan titik lainnya. Gambar 5b menunjukkan jenis
graf terhubung sekaligus mengandung cycle, sedangkan gambar 5c adalah contoh
graf terhubung tanpa cycle. Gambar 5c juga merupakan contoh dari tree.
Substring tree dapat digunakan untuk menghitung panjang substring dengan
elemen yang berbeda-beda. Substring tree adalah sebuah rooted directed tree yang
root-nya terhubung ke banyak substring sub-tree. Masing-masing node pada subtree terdiri dari elemen pola dan counter, yang menghitung jumlah substring yang
berkontribusi ke pola yang dibentuk oleh path dari root ke node. Contoh substring
tree dapat dilihat pada Gambar 6 (Cao et al. 2005). Tree dibuat dari hasil ekstraksi
substring yang mengandung elemen-elemen yang berbeda dengan ri = (xi, yi, ti)
(Cao et al. 2005).
Penentuan pola frequent dari substring tree dapat digunakan konsep stack.
Masing-masing elemen stack terdiri dari pola, jumlah, dan level, yang menandakan
pola telah mencapai leaf atau belum. Langkah pertama menentukan pola frequent
yaitu menambahkan pola yang berasosiasi dengan children dari root ke dalam stack.
Kemudian secara iteratif akan menghasilkan pola yang memiliki frekuensi tertinggi
dari dalam stack. Jika yang pola yang dihasilkan bukan pada level leaf dan frequent,
maka pola tersebut dikeluarkan dari dalam stack dan digabungkan dengan elemen
children-nya serta memasukkan pola tersebut ke dalam stack kembali. Sebaliknya
pola hanya akan dikeluarkan jika frequent. Proses ini akan berlangsung sampai
tidak ada pola yang ada pada stack. Output akhir dari algoritme substring tree
structure adalah frequent closed pattern (Cao et al. 2005).

Gambar 6 Ilustrasi algoritme Douglas-Peucker

14

Algoritme Prefixspan
Algoritme Prefix-projected Sequential Pattern Mining (Prefixspan) adalah
salah satu bentuk dari tree data structure. Prefixspan dapat menemukan seluruh
pola tetapi dengan mengurangi proses pembentukan kandidat sequence. Prefixspan
mengurangi ukuran dari database dan mengarahkan pada proses pencarian yang
lebih cepat dan penggunaan memori yang lebih sedikit (Pei et al. 2004). Algoritme
prefixspan cenderung lebih cepat daripada algoritme untuk menemukan pola
sequential lain seperti SPADE dan Clospan (Verma dan Mehta 2014). Algoritme
Prefixspan selengkapnya dapat dilihat pada Algoritme 2 berikut.
Algoritme 2 – Prefixspan (Pei et al. 2004)
1
Find length-1 sequential patterns.
The given sequence S is scanned to get item
(prefix) that occurred frequently in S. For the
number of time that item occurs is equal to
length-l of that item. Length-l is given by
notation : .
2
Divide search space.
Based on the prefix that derived from first step,
the whole sequential pattern set is partitioned in
this phase.
3
Find subsets of sequential patterns. The projected
databases are constructed and sequential patterns
are mined from these databases.
Berikut merupakan contoh mendapatkan pola sequential dari data pada Tabel
2 (Pei et al. 2004).
Tabel 4 Data sequential S dengan item {a,b,c,d,e,f,g}
Sequence_id
1
2
3
4

Sequence