Klasifikasi Kemunculan Titik Panas Pada Lahan Gambut Di Sumatera Dan Kalimantan Dengan Menggunakan Algoritme Pohon Keputusan C5.0

KLASIFIKASI KEMUNCULAN TITIK PANAS PADA LAHAN
GAMBUT DI SUMATERA DAN KALIMANTAN DENGAN
MENGGUNAKAN ALGORITME POHON KEPUTUSAN C5.0

DHITA APRITA

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2016

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Kemunculan
Titik Panas pada Lahan Gambut di Sumatera dan Kalimantan dengan Menggunakan Algoritme Pohon Keputusan C5.0 adalah benar karya saya dengan arahan
dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada
perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya
yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam
teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, Januari 2016
Dhita Aprita
NIM G6413016

ABSTRAK
DHITA APRITA. Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di Sumatera dan Kalimantan dengan Menggunakan Algoritme Pohon Keputusan C5.0 .
Dibawah bimbingan IMAS SUKAESIH SITANGGANG.
Prediksi kejadian kebakaran hutan dilakukan menggunakan titik panas
sebagai indikator kebakaran hutan. Pada penelitian ini dilakukan klasifikasi
kemunculan titik panas di lahan gambut di Sumatera dan Kalimantan. Algoritme
yang digunakan dalam klasifikasi adalah C5.0 dengan model klasifikasi tree dan
rule-based. Penerapan algoritme C5.0 pada dataset kebakaran hutan menghasilkan
nilai akurasi terbesar pada dataset Sumatera tahun 2001 dan Kalimantan tahun 2001.
Model pohon keputusan pada dataset Sumatera 2001 memiliki akurasi 88.98% dan
model berbasis aturan memiliki akurasi 89.83%. Dari model pohon keputusan
diperoleh 8 aturan klasifikasi sedangkan model berbasis aturan terdiri atas 7 aturan
klasifikasi. Dari dataset Kalimantan 2001 dihasilkan model pohon keputusan
dengan akurasi 71.91% dan model berbasis aturan dengan akurasi 71.91%. Dari
model pohon keputusan diperoleh 2 aturan klasifikasi dan model berbasis aturan

terdiri dari 2 aturan klasifikasi. Model dengan akurasi tertinggi diterapkan pada
dataset baru 2015. Akurasi yang dihasilkan pada data baru Kalimantan tahun 2015
sebesar 42.22% dan Sumatera tahun 2015 sebesar 50.99%.
Kata kunci: C5.0; kebakaran hutan; klasifikasi; pohon keputusan; titik panas

ABSTRACT
DHITA APRITA. Classification of Hotspot Occurences on Peatlands in
Suma-tra and Kalimantan using C5.0 Decision Tree Algorithm. Supervised by
IMAS SUKAESIH SITANGGANG.
To predict the incidence of forest fires, hotspots as indicators of forest fires
are used. In this research, the classification models of hotspot occurrences are
determined in Sumatra and Kalimantan. The algorithm used in the classification is
the C5.0 that results decision tree model and rule-based model. Applying the C5.0
algorithm on the dataset produced a classification model with high accuracy on the
dataset Sumatra 2001 and Kalimantan in 2001. Accuracy of the decision tree model
and the rule-based model on the dataset of Sumatera 2001 is 88.98% and 89.93 %,
respectively. The decision tree model consists of 8 classification rules whereas the
rules-based model consists of seven classification rules. Accuracy of the decision
tree model and the rule-based model on the dataset of Kalimantan is 71.91% and
71.91%, respectively. The decision tree model consists of 2 classification rules

whereas the rules-based model consists of 2 classification rules. The best model was
applied on the new dataset in 2015. The accuracy of the model is 42.22% on the
dataset of Kalimantan in 2015 and 50.99 % on the dataset of Sumatra in 2015.
Keywords: C5.0, decision tree, forest fires, classification, hotspots

KLASIFIKASI KEMUNCULAN TITIK PANAS PADA LAHAN
GAMBUT DI SUMATERA DAN KALIMANTAN DENGAN
MENGGUNAKAN ALGORITME POHON KEPUTUSAN C5.0

DHITA APRITA

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR

BOGOR
2016

Penguji :
1 Muhammad Asyhar Agmalaro, SSi, Mkom
2 Muhammad Abrar Istiadi, SKomp, MKom

Judul Skripsi : Klasifikasi Kemunculan Titik Panas Pada Lahan Gambut di
Sumatera dan Kalimantan dengan Menggunakan Algoritme Pohon
Keputusan C5.0
Nama
: Dhita Aprita
NIM
: G64134016

Disetujui oleh

Dr Imas Sukaesih Sitanggang, SSi, MKom
Pembimbing


Diketahui oleh

Dr Ir Agus Buono, MSi, MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji syukur penulis panjatkan kehadirat Allah SWT yang telah memberikan
rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan skripsi yang
berjudul “Klasifikasi Kemunculan Titik Panas pada Lahan Gambut Di Sumatera
dan Kalimantan dengan Menggunakan Algoritme Pohon Keputusan C5.0”.
Skripsi ini disusun sebagai syarat mendapat gelar Sarjan Komputer (SKomp)
pada Program Sarjana Ilmu Komputer di Fakultas Matematika dan Ilmu
Pengetahuan Alam Institut Pertanian Bogor (IPB).
Penulis mengucapkan terima kasih kepada semua pihak yang telah berperan
dalam penelitian ini, di antaranya:
1

Ibu, Ayah, Kakak, adek dan keluarga lainnya yang telah memberikan

dukungan, doa, motivasi, dan semangat untuk keberhasilan studi

2

Ibu Dr Imas Sukaesih Sitanggang, SSi MKom selaku dosen
pembimbing yang telah memberikan bimbingan, saran, arahan, dan
bantuan selama penyelesaian skripsi

3

Bapak Muhammad Ahsyar Agmalaro, SSi MKom dan Bapak
Muhammad Abrar Istiadi, SKomp MKom selaku dosen penguji

4

Sahabat-sahabat terbaik penulis, serta teman-teman satu bimbingan,
terima kasih atas doa, semangat, dan bantuannya

5


Seluruh dosen dan civitas akademika Departemen Ilmu Komputer IPB.
Penulis berharap semoga skripsi ini bermanfaat bagi pihak yang
membutuhkan.
Bogor, Januari 2016
Dhita Aprita

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi

PENDAHULUAN


1

Latar Belakang

1

Perumusan Masalah

2

Tujuan Penelitian

2

Manfaat Penelitian

2

Ruang Lingkup Penelitian


2

METODE

3

Klasifikasi Data Menggunakan Algoritme C5.0

3

Data Penelitian

5

Tahapan Penelitian

8

Praproses Data


9

Pembagian Dataset

9

Pembuatan Model Klasifikasi Menggunakan Algoritme C5.0

9

Perhitungan Akurasi

10

Penerapan Model Terbaik Pada Data Baru

10

Lingkungan Pengembangan


10

HASIL DAN PEMBAHASAN

11

Praproses Data

11

Seleksi Data Titik Panas pada Lahan Gambut

11

Pembuatan Data Non Titik Panas

12

Pembuatan Dataset

14

Penambahan Atribut Primary Key

15

Klasifikasi Titik Panas Menggunakan Algoritme C5.0

15

Penerapan Terbaik Hasil Klasifikasi Titik Panas Pada Data Baru

20

SIMPULAN DAN SARAN

20

Simpulan

20

Saran

21

DAFTAR PUSTAKA

21

LAMPIRAN

23

DAFTAR TABEL
1
2
3
4
5
6
7
8

Atribut data titik panas
5
Luas lahan gambut di Sumatera
7
Luas lahan gambut di Kalimantan
7
Akurasi rata-rata model berbasis pohon keputusan untuk dataset
Kalimantan
18
Akurasi rata-rata model berbasis pohon keputusan untuk dataset
Sumatera
18
Akurasi rata-rata model berbasis aturan untuk dataset
Kalimantan
19
Akurasi rata-rata pada model berbasis aturan untuk dataset
Sumatera
19
Penggunaan variabel penjelas pada model berbasis pohon
keputusan dan berbasis aturan
19

DAFTAR GAMBAR
1
2
3
4
5
6
7
8

Peta lahan gambut di Sumatera
6
Peta lahan gambut di Kalimantan
6
Tahapan penelitian
9
Jumlah data titik panas di Sumatera dan Kalimantan tahun 20012014
11
Hasil seleksi data titik panas pada lahan gambut
12
Hasil buffer titik panas
12
Hasil dissolve titik panas
13
Data titik panas dan non titik panas
13

DAFTAR LAMPIRAN
1
2
3

Contoh penggunaan algoritme C5.0 terhadap dataset kecil
kebakaran hutan
Model klasifikasi pohon keputusan dengan algoritme C5.0
menggunakan perangkat lunak R
Model klasifikasi berbasis aturan dengan algoritme C5.0
menggunakan perangkat lunak R

23
26
28

PENDAHULUAN
Latar Belakang
Kebakaran hutan di Indonesia pada saat ini dapat dipandang sebagai peristiwa
bencana regional dan global. Tahun 1997, kebakaran lahan gambut di Sumatera dan
Kalimantan telah menjadi berita utama. Hal ini disebabkan karena dampak dari
kebakaran hutan sudah menjalar ke negara-negara tetangga dan gas-gas hasil
pembakaran yang diemisikan ke atmosfer seperti karbondioksida berpotensi
menimbulkan pemanasan global (Adinugroho et al. 2005).
Salah satu cara penanggulangan terhadap bencana kebakaran hutan di
Indonesia adalah melakukan pemantauan terhadap titik panas (hotspot). Hotspot
merupakan suatu objek permukaan bumi yang memiliki suhu relatif lebih tinggi
dibandingkan dengan sekitarnya yang dapat deteksi oleh satelit. Area tersebut
direpresentasikan dalam suatu titik yang memiliki koordinat tertentu (Awang 2014).
Data titik panas dapat dijadikan sebagai salah satu indikator kemungkinan
terjadinya kebakaran, tetapi masih perlu dilakukan pemantauan dan pengecekan
ulang di lapangan untuk mengetahui apakah dapat diperlukan penindakan lebih
lanjut atau tidak.
Tacconi (2003) menyebutkan 3 masalah utama terkait dengan kebakaran
hutan di Indonesia yaitu (1) pencemaran kabut asap, emisi karbon dan dampak
terkait lainnya; (2) degradasi hutan, deforestasi dan hilangnya hasil hutan dan
berbagai jasa lingkungan serta (3) kerugian di sektor pedesaan akibat kebakaran
hutan dan anomali cuaca yang dipicu oleh kebakaran hutan. Oleh karena itu,
dibutuhkan suatu sistem untuk membantu mengurangi terjadinya kebakaran hutan.
Data kebakaran hutan umumnya berukuran besar, data titik panas merupakan data
spasial. Untuk analisis data berukuran besar salah satu metode yang dapat untuk
digunakan adalah teknik data mining. Penggunaan teknik data mining mampu
mengolah dan menganalisis data yang berukuran besar.
Salah satu penggunaan data mining dalam pengolahan data titik panas ialah
klasifikasi. Klasifikasi adalah proses menemukan model (fungsi) yang
menggambarkan dan membedakan kelas data atau konsep. Model yang diturunkan
berdasarkan analisis set data pelatihan (yaitu, objek data yang label kelas diketahui).
Model ini digunakan untuk memprediksi label kelas objek yang label kelas tidak
diketahui (Han et al. 2012).
Penelitian Sitanggang et al. (2014) menggunakan algoritme ID3 memiliki
akurasi sebesar 49.02% , C4.5 memiliki akurasi sebesar 65.24%, dan menghasilkan
akurasi dari algoritme spatial decision tree sebesar 71.66%. Hasil penelitian
tersebut menyimpulkan bahwa melibatkan hubungan spasial dalam algoritme
pohon keputusan menghasilkan pengklasifikasi yang lebih baik untuk memprediksi
terjadinya titik panas.
Penelitian Siknun (2015) menggunakan data kebakaran hutan di wilayah
Kabupaten Rokan Hilir, Provinsi Riau dengan algoritme C5.0 dan melakukan
pengembangan aplikasi berbasis web dengan menggunakan framework Shiny.
Penelitian yang dilakukan oleh Siknun (2015) menghasilkan model pohon
keputusan dengan akurasi 72.72%, dan model berbasis aturan dengan akurasi
73.51%.

2
Algoritme pohon keputusan C5.0 yang merupakan penyempurnaan dari
algoritme sebelumnya yaitu, ID3 dan C4.5 yang diperkenalkan terlebih dahulu oleh
J.Ross Quinlan. Algoritme C5.0 menghasilkan pohon keputusan yang lebih
sederhana dan penggunaan memori yang lebih efisien. Algoritme C5.0 dapat
mengklasifikasikan model klasifikasi berstruktur pohon (tree) dan aturan (rulebased). Penggunaan algoritme C5.0 untuk mendapatkan model klasifikasi dengan
hasil tingkat akurasi yang lebih tinggi dibandingkan dengan ID3 dan C4.5. Model
klasifikasi dibuat dengan menggunakan bahasa pemograman R dengan package
yang telah tersedia. Pada R, algortime C5.0 sebagai pengembangan dari algoritme
C4.5. Oleh karena itu, pada penelitian ini akan dibangun model klasifikasi
kemunculan titik panas pada lahan gambut di Pulau Sumatera dan Kalimantan
dengan menggunakan algoritme C5.0. Pemodelan klasifikasi dibangun untuk
memprediksi kejadian kemunculan titik panas dengan beberapa data latih dan data
uji menggunakan teknik 10—fold cross validation.
Perumusan Masalah
Berdasarkan latar belakang di atas, maka perumusan masalah pada penelitian
ini adalah:
1 Bagaimana penerapan algoritme C5.0 untuk mengklasifikasikan
kemunculan titik panas di lahan gambut di Sumatera dan Kalimantan?
2 Bagaimana membuat model klasifikasi kemunculan titik panas di lahan
gambut di Sumatera dan Kalimantan?
3 Bagaimana karakteristik lahan gambut yang berpotensi munculnya titik
panas?
Tujuan Penelitian
Tujuan dari penelitian ini adalah menerapkan algoritme pohon keputusan
C5.0 pada data titik panas di lahan gambut di Pulau Sumatera dan Kalimantan tahun
2001-2014 untuk membuat model klasifikasi kejadian kemunculan titik panas.
Manfaat Penelitian
Model klasifikasi kemunculan titik panas yang dihasilkan pada penelitian ini
diharapkan dapat membantu untuk memprediksi kejadian titik panas di masa
mendatang sehingga dapat membantu dalam pencegahan kebakaran hutan.
Ruang Lingkup Penelitian
Lingkup dari penelitian ini, yaitu:
1 Karakteristik lahan gambut yang dianalisis yaitu tipe lahan gambut,
tutupan lahan gambut, dan kedalaman lahan gambut.
2 Implementasi algoritme C5.0 menggunakan package C50 yang sudah
tersedia pada perangkat lunak RStudio.
3 Wilayah kajian adalah lahan gambut di Pulau Sumatera dan Kalimantan.

3

METODE
Klasifikasi Data Menggunakan Algoritme C5.0
Algoritme C5.0 adalah perluasan dari algoritme C4.5 dan juga ID3 (Patil et
al. 2012). C5.0 adalah algoritme klasifikasi yang dapat menangani kumpulan data
besar. C5.0 lebih baik daripada C4.5 dalam hal kecepatan, memori dan efisiensi.
Model C5.0 bekerja dengan memisahkan sampel berdasarkan bidang yang
menyediakan keuntungan informasi dengan maksimum. Model C5.0 dapat
membagi sampel berdasarkan nilai information gain terbesar. Atribut yang
memiliki information gain terbesar akan dipilih sebagai parent atau untuk node
selanjutnya.
Sebuah pohon keputusan adalah classifier yang direpresentasikan sebagai
struktur pohon, di mana masing-masing simpul adalah simpul daun. Klasifikasi
yang berlaku untuk semua kasus yang mencapai daun atau node non-leaf, beberapa
tes dilakukan pada nilai atribut tunggal, dengan satu cabang dan sub-pohon untuk
setiap kemungkinan hasil tes. Node dalam pohon keputusan melibatkan pengujian
atribut tertentu. Biasanya, tes pada node membandingkan nilai atribut dengan
konstan. Namun, beberapa pohon membandingkan dua atribut satu sama lain, atau
menggunakan beberapa fungsi dari satu atau lebih atribut. Node daun memberikan
klasifikasi yang berlaku untuk semua kasus yang mencapai daun, atau satu set
klasifikasi, atau distribusi probabilitas atas semua klasifikasi yang mungkin (Witten
et al. 2011). Algoritme generate decision tree adalah sebagai berikut (Han et al.
2012):
1 Partisi data, D, data latih yang telah ditentukan label kelasnya
2 Attribute_list, himpunan yang terdiri dari kandidat atribut
3 Attribute_selection_method, prosedur untuk menentukan kriteria
pemotongan yang partisi tuple data terbaik ke kelas masing-masing.
Algoritme klasifikasi pohon keputusan adalah sebagai berikut (Han et al.
2012):
1 Membuat simpul N;
2 Jika semua tupel di D memiliki kelas yang sama yaitu C.
Maka simpul N sebagai simpul daun dan diberi label dengan kelas C.
3 Jika attribute list kosong, maka
Jadikan simpul N sebagai simpul daun dan diberi label = nilai kelas
terbanyak pada sampel
4 Menerapkan attribute selection method (D, attribute list) untuk
memperoleh atribut uji terbaik
5 Beri label simpul N dengan atribut data uji
6 Jika atribut bernilai diskret dan diperbolehkan untuk dipisah, maka
7 Attribute list = 70%.
Tabel target2001 terdiri dari 889 record data titik panas di tahun 2001.
2 Menambahkan satu kolom di dalam tabel false alarm bernama class
dengan nilai default F atau FALSE. Pernyataan SQL untuk langkah
tersebut, yaitu :
ALTER TABLE randompoints2001 ADD COLUMN class
char DEFAULT 'F';
3 Menambahkan satu kolom di dalam tabel titik_panas bernama class
dengan nilai default T atau TRUE. Pernyataan SQL untuk langkah
tersebut, yaitu :
ALTER TABLE reptitikpanas2001 ADD COLUMN class
char DEFAULT 'T';
4 Penggabungan target2001 dan titik acak (non titik panas) dibangkitkan
sejumlah 889 titik acak.
INSERT INTO target2001 (gid,geom,class) SELECT
gid,geom,class FROM randompoints2001;
5 Membuat tabel dataset1
Dataset1 terdiri dari 7 variabel yaitu gid, gid0, the_geom, confidence,
class, depth, dan type. Variabel type menunjukkan tipe dari lahan gambut.
Dataset yang akan diolah untuk klasifikasi terdiri dari 4 variabel yaitu
class, depth, type. Query yang digunakan untuk membuat dataset tersebut
sebagai berikut:
CREATE TABLE dataset1 AS SELECT t.gid, t.gid0,
t.geom, t.confidence, t.class, g.depth, g.type
FROM target2001 AS t, gambut_kalimantan AS g
WHERE ST_Within( t.geom, g.geom) ORDER BY gid;
6 Membuat dataset2 yang akan menjadi input algoritme pohon keputusan.
CREATE TABLE dataset2 AS SELECT t.class,
g.depth,
g.type
FROM
target2001
AS
t,
gambut_kalimantan AS g WHERE ST_Within(t.geom,
g.geom);

15
Penambahan Atribut Primary Key
Penambahan atribut yang bertipe SERIAL dengan nama gid. Atribut gid ini
dibuat sebagai nilai terurut datadi dalam tabel target2001, dan gid yang sebelumnya
diubah menjadi gid0, gid0 merupakan primary key asli namun tidak terurut.
Perubahan atribut ini dengan menggunakan SQL yaitu:
1 SQL untuk mengubah nama kolom gid menjadi gid0
ALTER TABLE target2001 RENAME COLUMN gid TO gid0;
2 Menambahkan kolom bernama gid dengan tipe data BIGSERIAL sebagai
primary key baru
ALTER TABLE target2001 ADD COLUMN gid BIGSERIAL
PRIMARY KEY;
Penambahan gid digunakan untuk membuat dataset1. Selanjutnya data yang
telah diproses dapat diexport menjadi format Comma delimited (.CSV) untuk
implementasi algoritme C5.0 pada R. Setelah melakukan penambahan gid dan
mengubah nama kolom gid maka selanjutnya dilakukan pemuatan dataset ke
Quantum GIS untuk tahap selanjutnya yaitu klasifikasi titik panas menggunakan
algoritme C5.0.
Klasifikasi Titik Panas Menggunakan Algoritme C5.0
Implementasi algoritme C5.0 tersedia pada perangkat lunak R dalam package
C50. Algoritme C5.0 menghasilkan model klasifikasi berupa model pohon
keputusan dan model berbasis aturan. Model berbasis aturan dihasilkan dari model
berbasis aturan yang memiliki kondisi if-then menghasilkan kondisi yang tidak
sama. Model berbasis aturan memiliki banyak aturan yang dapat disederhanakan
dan dipangkas sehingga aturan yang diturunkan dapat berjumlah sedikit dari aturan
yang dihasilkan oleh model berbasis pohon keputusan. Untuk mendapatkan model
pohon keputusan dan model berbasis aturan dilakukan terlebih dahulu partisi data
latih dan data uji. Partisi data ini menggunakan 10-fold cross validation. Untuk
membangun model klasifikasi dengan algoritme C5.0 dilakukan perintah berikut:
Membaca dataset yang akan digunakan
>Dataset set.seed(9850)}
2 Pembagian data menggunakan cross fold validation
>foldsfor(i in 1:10){
>testIndexes testData trainData oneTree oneTree
>summary(oneTree)
4 Nilai akurasi dari model pohon keputusan dihitung menggunakan fungsi
predict. Data yang digunakan adalah data uji. Berikut perintah untuk
melakukan predict by tree:
>oneTreePred postResample(oneTreePred,testData $CLASS)
5 Pembuatan model berbasis aturan diperoleh dengan menggunakan
perintah sebagai berikut:
>rulesrules=TRUE)
>rules
>summary(rules)
6 Dari model berbasis aturan dihitung akurasi menggunakan data uji.Untuk
melakukan predict by rule dilakukan perintah berikut:
>rulesPred postResample(predict(rules,testData),testData
$CLASS)
Dari tahapan implementasi menggunakan algoritme C5.0 dengan
menggunakan perangkat lunak R, diperoleh model berbasis pohon keputusan untuk
dataset Pulau Kalimantan dan Sumatera untuk setiap tahunnya. Akurasi model
pohon keputusan dapat dilihat pada Tabel 4 untuk dataset Kalimantan dan untuk
nilai akurasi dataset Sumatera dapat dilihat pada Tabel 5. Akurasi model berbasis
aturan untuk dataset Kalimantan dapat dilihat pada Tabel 6 dan akurasi dataset
Sumatera pada Tabel 7.
Akurasi rata-rata didapatkan dari jumlah akurasi seluruh dataset dibagi
dengan jumlah dataset. Akurasi rata-rata yang diperoleh dari model pohon
keputusan untuk dataset Kalimantan sebesar 58.80% dan dataset Sumatera sebesar
82.22%. Sedangkan akurasi rata-rata model berbasis aturan untuk dataset
Kalimantan sebesar 58.82% dan dataset Sumatera sebesar 81.86%.
Akurasi tertinggi dari model berbasis pohon keputusan dan berbasis aturan
yaitu pada dataset Sumatera tahun 2001 dan dataset Kalimantan 2001. Dataset
Sumatera 2001 menghasilkan model berbasis pohon keputusan dengan akurasi
sebesar 88.98% dan model berbasis aturan dengan akurasi sebesar 89.83 % terdapat
12 dari 118 data yang diklasifikasikan tidak benar oleh model pohon keputusan dan
model berbasis aturan.
Untuk dataset Kalimantan 2001 model berbasis pohon keputusan dan model
berbasis aturan memiliki akurasi sebesar 71.91% terdapat 57 dari 178 data titik
panas yang diklasifikasikan tidak benar oleh model pohon keputusan dan model
berbasis aturan. Data latih untuk Sumatera tahun 2001 sebanyak 3156 data dan data
uji sebanyak 351 data dari 3507 data dan pada dataset Kalimantan tahun 2001 data
latih sebanyak 1601 data dan data uji sebanyak 178 data dari 1779 data.
Model klasifikasi dengan menggunakan algoritme C5.0 pada dataset di Pulau
Sumatera tahun 2001 menghasilkan pohon keputusan dengan banyaknya aturan
sebesar 8 aturan dan model berbasis aturan yang terdiri dari 7 aturan. Model
klasifikasi yang dihasilkan oleh model pohon keputusan secara lengkap dapat
dilihat pada Lampiran 2 dan model klasifikasi yang dihasilkan oleh model berbasis
aturan dapat dilihat pada Lampiran 3.
Beberapa aturan yang dihasilkan oleh pohon keputusan untuk dataset
Sumatera tahun 2001 sebagai berikut:
1 IF tipe gambut in {(Hemists/mineral (90/10), sedang), (Hemists/Saprists
(60/40), dalam), (Hemists/Saprists (60/40), sangat dalam),
(Hemists/Saprists (60/40), sedang), (Saprists (100), dalam)} THEN
Hotspot (67/23)

17
2

IF tipe gambut in (Hemists/mineral (30/70), dangkal), (Saprists (100),
sedang), (Saprists/Hemists (60/40), dalam), (Saprists/Hemists (60/40),
sedang), (Saprists/ mineral (90/10), sedang), AND tutupan lahan = Kelapa
sawit pada bekas hutan rawa > 5 tahun THEN Non hostpot (44/11)
Aturan ke-1 menyatakan jika tipe lahan gambut adalah (Hemists/mineral
(90/10), sedang) atau (Hemists/Saprists (60/40), dalam) atau (Hemists/Saprists
(60/40), sangat dalam) atau (Hemists/Saprists (60/40), sedang) atau (Saprists (100),
dalam) dan jika kedalaman gambut adalah cukup dalam maka wilayah tersebut
diprediksi terdapat kemunculan titik panas.
Aturan ke-2 menyatakan jika tipe gambut adalah (Hemists/min (30/70),
dangkal) atau (Saprists(100), sedang) atau (Saprists/Hemists (60/40), dalam) atau
(Saprists/Hemists (60/40), sedang) atau (Saprists/mineral (90/10), sedang) dan
tutupan lahan adalah kelapa sawit pada bekas hutan rawa > 5 tahun maka wilayah
tersebut diprediksi tidak terjadi kemunculan titik panas. Nilai (67/23) menyatakan
67 data tergolong kelas hotspot dan 23 data bukan kelas hotspot.
Beberapa Aturan yang dihasilkan dari dataset Sumatera tahun 2001 untuk
model berbasis aturan sebagai berikut:
1 IF tipe gambut in {(Hemists/mineral (90/10), sedang), (Hemists/Saprists
(60/40), dalam), (Hemists/Saprists (60/40), sangat dalam),
(Hemists/Saprists (60/40), sedang), (Saprists (100), dalam)} THEN
hotspot (184/38, lift 1.6).
2 IF
tipe
gambut
in
{(Hemists/mineral
(30/70),dangkal),
(Hemists/mineral(30/70), sedang), (Hemists/mineral(90/10),sedang),
(Hemists/Saprists(60/40),dalam),(Hemists/Saprists
(60/40),sedang),
(Saprists/Hemists(60/40),dalam), (Saprists/Hemists(60/40),sedang),
(Saprists/Hemists (60/40),sedang),(Saprists/mineral (90/10),sedang)}
AND tutupan lahan in {(Belukar rawa, Kelapa pada bekas hutan rawa >
5 tahun)} THEN Non hotspot (150/27, lift 1.6).
Aturan ke-1 menyatakan jika tipe gambut adalah {(Hemists/mineral (90/10),
sedang) atau (Hemists/Saprists (60/40), dalam) atau (Hemists/Saprists(60/40),
sangat dalam) atau (Hemists/Saprists (60/40), sedang) atau (Saprists (100), dalam)}
maka wilayah tersebut diprediksi terdapat kemunculan titik panas. Aturan ke-2
menyatakan jika tipe gambut adalah {(Hemists/mineral (30/70), dangkal) atau
(Hemists/mineral (30/70), sedang) atau (Hemists/mineral (90/10), sedang) atau
(Hemists/Saprists(60/40), dalam) atau (Hemists/Saprists (60/40), sedang) atau
(Saprists/Hemists(60/40), dalam), (Saprists/Hemists(60/40), sedang) atau
(Saprists/Hemists (60/40), sedang) atau (Saprists/mineral (90/10), sedang)} AND
tutupan lahan adalah Belukar rawa, Kelapa pada bekas hutan rawa > 5 tahun maka
wilayah tersebut diprediksi tidak terdapat kemunculan titik panas.
Pada aturan ke-1 nilai (184) menyatakan 184 data tergolong kelas hotspot.
Nilai lift merupakan hasil pembagian akurasi rasio Laplace dengan frekuensi relatif
kelas yang diprediksi. Lift 1.6 adalah hasil pembagian akurasi (n-m+1)/(n+ 2)
dengan frekuensi relatif kelas yang diprediksi. N adalah jumlah data yang benar
tergolong kelas dan m adalah jumlah data yang bukan kelas tetapi diprediksi sebagai
kelas.

18
Tabel 4 Akurasi rata-rata model berbasis pohon keputusan untuk dataset
Kalimantan
Tahun

Ukuran
pohon
2001
2
2002
5
2003
3
2004
4
2005
3
2006
4
2007
4
2008
2
2009
3
2010
3
2011
4
2012
4
2013
4
2014
5
Akurasi rata-rata

Akurasi
(%)
71.91
59.09
62.09
62.11
63.91
59.86
62.30
53.32
59.44
46.43
57.59
59.41
47.30
58.47
58.80%

Sensitivity (%)
63.64
60.63
66.84
69.40
72.19
45.80
38.98
33.33
69.72
85.71
44.80
38.62
58.42
85.64

Tabel 5 Akurasi rata-rata model berbasis pohon keputusan untuk dataset
Sumatera
Tahun

Ukuran
pohon

2001
8
2002
36
2003
33
2004
28
2005
32
2006
36
2007
17
2008
4
2009
21
2010
14
2011
18
2012
21
2013
30
2014
51
Akurasi rata-rata

Akurasi
(%)
88.98
87.24
73.03
77.24
77.24
86.00
83.23
77.36
81.02
77.49
85.63
82.12
84.34
81.92
82.22%

Sensitivity (%)
91.53
83.16
73.37
78.78
73.78
86.71
80.95
66.67
79.67
78.68
85.27
76.05
75.50
85.92

Hasil dari kedua model pohon keputusan dan model berbasis aturan memiliki
persamaan penggunaan variabel penjelas pada aturan yang dihasilkan. Penggunaan
variabel tersebut dapat dilihat pada Tabel 8.

19
Tabel 6 Akurasi rata-rata model berbasis aturan untuk dataset Kalimantan
Tahun

Jumlah
aturan

2001
2
2002
5
2003
3
2004
4
2005
3
2006
4
2007
4
2008
2
2009
3
2010
3
2011
4
2012
4
2013
4
2014
5
Akurasi rata-rata

Akurasi
(%)
71.91
59.09
62.09
62.11
63.91
59.86
62.30
53.90
59.15
46.43
57.59
59.41
47.30
58.47
58.82%

Sensitivity (%)
63.64
60.63
66.84
69.40
72.19
45.80
38.98
44.40
64.98
85.71
44.80
38.62
58.42
85.64

Tabel 7 Akurasi rata-rata pada model berbasis aturan untuk dataset Sumatera
Tahun

Jumlah
aturan

2001
7
2002
18
2003
21
2004
12
2005
23
2006
14
2007
12
2008
4
2009
14
2010
6
2011
13
2012
14
2013
14
2014
24
Akurasi rata-rata

Akurasi
(%)
89.83
86.98
73.33
84.44
77.29
85.56
82.30
77.36
85.39
76.75
85.39
82.02
84.02
81.39
81.86%

Sensitivity (%)
93.22
88.08
73.96
77.44
73.60
84.59
76.19
66.67
84.56
72.06
84.56
75.00
76.07
81.60

Tabel 8 Penggunaan variabel penjelas pada model berbasis pohon keputusan dan
berbasis aturan
Variabel
Tutupan lahan
Tipe gambut
Kedalaman gambut

Presentase penggunaan variabel
Model pohon keputusan Model berbasis aturan
100%
93.66%
100%
91.13%
100%
100%

20
Tabel 8 menunjukan bahwa kedua model tersebut menggunakan tiga variabel
penjelas yang sama untuk klasifikasi yaitu tutupan lahan, tipe gambut, dan
kedalaman gambut. Pada model pohon keputusan variabel tutupan lahan gambut
digunakan 100%. Penggunaan variabel ini menyatakan bahwa pada setiap aturan
pohon keputusan terdapat variabel tutupan lahan gambut. Sedangkan pada model
berbasis aturan variabel tutupan lahan gambut digunakan sebesar 93.66% yang
menyatakan bahwa tidak semua aturan mengandung variabel tutupan lahan.
Nilai akurasi tertinggi untuk model pohon keputusan pada dataset
Kalimantan 71.91% yaitu pada tahun 2001 dan 71.91% untuk model berbasis aturan.
Model pohon keputusan menghasilkan 2 aturan dan model berbasis aturan juga
terdiri dari 2 aturan. Aturan-aturan tersebut adalah
1 IF kedalaman gambut {100-200,200-400,50-100} THEN Non hotspot
(882/256)
2 IF kedalaman gambut in {400-800,800-1200} THEN Hotspot (719/171)
Aturan ke-1 menyatakan bahwa jika kedalaman lahan gambut adalah 100200 atau 200-400 atau 50-100 maka wilayah tersebut diprediksi tidak terdapat
kemunculan titik panas. Aturan ke-2 menyatakan bahwa jika kedalaman lahan
gambut adalah 400-800 atau 800-1200 maka wilayah tersebut diprediksi terdapat
kejadian kemunculan titik panas. Nilai (719/171) adalah 719 tergolong kelas yang
benar diprediksi sebagai titik panas dan 171 adalah data yang tidak benar
diklasifikasikan sebagai kelas titik panas.
Penerapan Terbaik Hasil Klasifikasi Titik Panas Pada Data Baru
Algoritme C5.0 diterapkan pada dataset baru yaitu dataset Kalimantan tahun
2015 dan dataset Sumatera tahun 2015. Data latih yang digunakan adalah data latih
dari masing-masing Pulau yang menghasilkan model klasifikasi dengan akurasi
tertinggi, yaitu data Kalimantan tahun 2001 dan Sumatera tahun 2001. Akurasi yang
dihasilkan pada data baru Pulau Kalimantan sebesar 42.22% untuk model berbasis
pohon keputusan dan 42.22% untuk akurasi berbasis aturan. Dataset Kalimantan
2001 digunakan sebagai data latih dan dataset Kalimantan 2015 sebagai data uji
Jumlah data latih yang digunakan sebanyak 1780 data, dan data uji sebanyak 46
data. Pada data baru Pulau Sumatera menghasilkan akurasi sebesar 50.99% untuk
model berbasis pohon keputusan dan 50.99% untuk model berbasis aturan. Dataset
Sumatera 2001 digunakan sebagai data latih dan dataset Sumatera 2015 sebagai
data uji. Jumlah data latih yang digunakan sebanyak 3508 data dan data uji
sebanyak 1056 data.
Dari hasil penerapan model pada dataset baru menggunakan algoritme C5.0,
maka dapat dinyatakan model yang dihasilkan dapat mengklasifikasi dengan baik
data titik panas.

SIMPULAN DAN SARAN
Simpulan
Penelitian ini menggunakan data titik panas pada lahan gambut di Pulau
Kalimantan dan Sumatera tahun 2001-2014, untuk pengklasifikasian kemunculan

21
titik panas menggunakan algoritme C5.0 yang merupakan pengembangan dari C4.5.
Dataset yang menghasilkan model klasfikasi dengan akurasi tertinggi yaitu dataset
Sumatera tahun 2001 dan Kalimantan tahun 2001. Nilai akurasi tertinggi dari model
berbasis pohon keputusan pada dataset Sumatera tahun 2001 adalah 88.98% dengan
jumlah aturan sebanyak 8 aturan dan model berbasis aturan sebesar 89.93% terdiri
dari 7 aturan. Akurasi yang dihasilkan pada dataset Kalimantan tahun 2001 untuk
model berbasis pohon keputusan sebesar 71.91% dengan jumlah aturan sebanyak 2
aturan dan model berbasis aturan sebesar 71.91% dengan jumlah aturan sebanyak
2 aturan. Penerapan model pada data baru menghasilkan akurasi model klasifikasi
untuk dataset Kalimantan tahun 2015 sebesar 42.22% dan dataset Sumatera tahun
2015 sebesar 50.99%. Algoritme C5.0 berhasil diterapkan untuk memprediksi
kemunculan titik panas pada lahan gambut berdasarkan tipe lahan gambut dan
kedalaman lahan gambut.
Saran
Saran yang dapat dilanjutkan untuk penelitian selanjutnya yaitu
pengembangan aplikasi Shiny dengan menggunakan dataset pada penelitian ini dan
penggunaan aplikasi Shiny yang di adopsi dari penelitian sebelumnya.

DAFTAR PUSTAKA
Adinugroho, WC, INN Suryadiputra, BH Sharjo, dan L Siboro. 2005. Panduan
Pengendalian Kebakaran Hutan dan Lahan Gambut. Bogor (ID) Wetlands
International-Indonesia Programme dan Widlife Habitat Canada: Proyek
Climate Change, Forests dan Peatlands in Indonesia.
Awang. 2014. Hotspot hanyalah indikator bukan kejadian kebakaran hutan/lahan.
[Internet].
[diunduh
2015
Nov
20].
Tersedia
pada:
http//lapan.go.id/index.php//subblog/read/2014/840/Hotspot:Hanyalah
Indikator-Bukan-Kejadian-Kebakaran-Hutan/Lahan.
Fu, L. 1994. Neural Network in Computers Intelligence. Singapura (SG): McGrawHill.
Han J, Kamber M, Pei J. 2012. Data Mining: Concepts and Techniques. 3rd ed.
Massachusetts (US): Morgan Kaufmann Publishers.
Patil N, Lathi R, chitre V. 2012. Customer card classification based on C5.0 &
CART algorithms. International Journal of Engineering Research and
Applications (IJERA). 2:164-167.
Rulequest. 2012. Data mining tools see5 and C5.0. [Internet]. [diunduh 2015 Nov
20]. Tersedia pada: http//rulequest.com/see5-comparison.html.
Siknun GP. 2015. Aplikasi klasifikasi berbasis web untuk data kebakaran hutan
menggunakan framework shiny dan algoritme C5.0 [skripsi]. Bogor (ID):
Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Sitanggang IS, Yaakob R, Mustapha N, Ainuddin AN. 2012. Application of
classification algorithms in data mining for hotspots occurrence prediction in
Riau province Indonesia. JATIT 43(2), pp. 214-221. ISSN: 1992-8645.

22
Sitanggang IS, Yaakob R, Mustapha N, Ainuddin AN. 2014. A decision tree based
on spatial relationships for predicting hotspots in peatlands. Telkomnika.
12(2):511-518.doi:10.12928/TELKOMNIKA.v12i2.2036.
Tacconi L. 2003. Kebakaran Hutan di Indonesia: Penyebab, Biaya, dan Implikasi
Kebijakan. Bogor (ID): Center for International Forestry Research (CIFOR).
Wahyunto, Ritung.S, Suparto, dan H.Subagjo. 2005. Sebaran Gambut dan
Kandungan Karbon di Sumatera dan Kalimantan. Bogor (ID) Weatlands
International-Indonesia Programme dan Widlife Habitat Canada: Proyek
Climate Change, Forests dan Peatlands in Indonesia.
Witten, IH, E Frank E, dan MA Hall. 2011. Data Mining Pratical Machine
Learning Tools and Techniques 3rd ed. United States (US): Morgan Kaufmann
Publishers.

23

LAMPIRAN
Lampiran 1 Contoh penggunaan algoritme C5.0 terhadap dataset kecil kebakaran
hutan
Berikut ini disajikan contoh dataset kebakaran hutan. Kelas C1 (titik panas)
dan C2 (non titik panas).
Tabel 1.1 Contoh dataset kebakaran hutan
Kedalaman gambut
Tipe gambut
Kelas
200-400
200-400
50-100
50-100
100-200
100-200
50-100
100-200
200-400
50-100

Hemists/Fibrists
Hemists/Fibrists
Hemists/Mineral
Hemists/Fibrists
Hemists/Mineral
Hemists/Fibrists
Hemists/Mineral
Hemists/Fibrists
Hemists/Fibrists
Hemists/Fibrists

C1
C1
C1
C2
C2
C1
C1
C1
C2
C2