Klasifikasi Kemunculan Titik Panas Pada Lahan Gambut Di Sumatera Dan Kalimantan Menggunakan Algoritme Naive Bayes

KLASIFIKASI KEMUNCULAN TITIK PANAS PADA LAHAN
GAMBUT DI SUMATERA DAN KALIMANTAN
MENGGUNAKAN ALGORITME NAIVE BAYES

YEVILINA AULIA RIZKA

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2016

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Kemunculan
Titik Panas pada Lahan Gambut di Sumatera dan Kalimantan Menggunakan
Algoritme Naive Bayes adalah benar karya saya dengan arahan dari komisi
pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi
mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan
maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan
dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Januari 2016
Yevilina Aulia Rizka
NIM G64134006

ABSTRAK
YEVILINA AULIA RIZKA. Klasifikasi Kemunculan Titik Panas pada Lahan
Gambut di Sumatera dan Kalimantan Menggunakan Algoritme Naive Bayes.
Dibimbing oleh IMAS SUKAESIH SITANGGANG.
Dampak kebakaran hutan di lahan gambut lebih berbahaya dibandingkan
pada lahan kering, karena selain terbakarnya vegetasi di permukaan, lapisan serasah
dan meterial gambut ikut terbakar sehingga menghasilkan karbon (CO2) ke
atmosfer. Hal ini akan berdampak buruk pada kesehatan manusia, peningkatan gas
emisi rumah kaca, dan kegiatan perekonomian masyarakat. Salah satu indikator
terjadinya kebakaran hutan adalah titik panas. Penelitian ini menggunakan salah
satu teknik data mining yaitu klasifikasi untuk memodelkan kemunculan titik panas
pada lahan gambut di Sumatera dan Kalimantan. Permodelan klasifikasi ini
dilakukan pada dataset titik panas periode 2001 sampai 2015 dan data lahan gambut
menggunakan algoritme Naive Bayes. Karakteristik lahan gambut yang akan

dianalisis terdiri dari lahan gambut, kedalaman gambut, dan tutupan lahan. Akurasi
tertinggi dari model klasifikasi kemunculan titik panas pada lahan gambut pada
dataset tahun 2006 untuk Kalimantan dan dataset tahun 2014 untuk Sumatera
adalah sebesar 100%. Model klasifikasi dapat digunakan untuk memprediksi
kemunculan titik panas di masa yang akan datang sehingga dapat membantu dalam
mencegah kebakaran hutan dan lahan.
Kata kunci: kebakaran hutan, klasifikasi, naive bayes, titik panas

ABSTRACT
YEVILINA AULIA RIZKA. Classification of Hotspots Occurence on Peatland in
Sumatera and Kalimantan Using Naive Bayes Algorithm. Supervised by IMAS
SUKAESIH SITANGGANG.
The impact of forest fires in peatland is more dangerous than in dryland,
because in addition to the burning of vegetation on the surface, layers of peat
materials are also burned releasing carbon dioxide (CO2) into the atmosphere. This
situation has negative impacts on human health and economic activities, and
increases greenhouse gas emissions. One indicator of forest fires occurrence is the
hotspot. This research applied a data mining technique to classify hotspots
occurrences on peatlands in Sumatra and Kalimantan. Classification models on
hotspots datasets in the period 2001 to 2015 were determined using the Naive Bayes

algorithm. Peatland characteristics to be analyzed consist of peatland type, peatland
depth, and land cover. The highest accuracy of classification model to predict the
hotspot on peatland is 100% that was obtained on the 2006 dataset for Kalimantan
and on the 2014 dataset for Sumatera. The classification model can be used to
predict possibility of hotspots occurrences in the future so that the forest and
peatland fires can be prevented.
.
Keywords: classification, forest fire, hotspots, naive bayes

KLASIFIKASI KEMUNCULAN TITIK PANAS PADA LAHAN
GAMBUT DI SUMATERA DAN KALIMANTAN
MENGGUNAKAN ALGORITME NAIVE BAYES

YEVILINA AULIA RIZKA

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer


DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2016

Penguji :
1 Aziz Kustiyo, SSi, MKom
2 Muhammad Asyhar Agmalaro, SSi, MKom

Judul Skripsi : Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di
Sumatera dan Kalimantan Menggunakan Algoritme Naive Bayes
Nama
: Yevilina Aulia Rizka
NIM
: G64134006

Disetujui oleh


Dr Imas Sukaesih Sitanggang, SSi, MKom
Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi, MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah Subhana wa ta'ala. Shalawat
serta salam semoga senantiasa dilimpahkan kepada Nabi Muhammad, keluarganya,
sahabatnya, dan kepada kita yang selau berusaha menggapai ridha Allah.
Alhamdulillah atas bimbingan dan petunjuk dari Allah Subhana wa ta'ala
serta bimbingan dari semua pihak, penyusunan tugas akhir yang berjudul
“Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di Sumatera dan
Kalimantan Menggunakan Algoritme Naïve Bayes” dapat diselesaikan. Tugas akhir
ini tidak mungkin dapat diselesaikan tanpa adanya bantuan dari berbagai pihak.
Oleh karena itu, penulis ingin mengucapkan terimakasih dan penghargaan yang

setinggi-tingginya kepada:
 Papa, Mama, dan keluarga yang selalu mendoakan, memberi nasihat, kasih
sayang, semangat, dan dukungan sehingga penelitian ini bisa diselesaikan.
 Ibu Dr Imas Sukaesih Sitanggang, SSi, MKom selaku pembimbing yang telah
memberi saran, masukan, dan ide-ide dalam penelitian ini.
 Bapak Aziz Kustiyo, SSi, MKom dan Bapak Muhammad Asyhar Agmalaro, SSi,
MKom sebagai penguji.
 Pihak Wetlands yang telah memberikan data lahan gambut untuk wilayah
Sumatera dan Kalimantan.
 Teman seperjuangan Resa, Fitri, dan Dhita yang telah memberikan semangat dan
masukan.
 Departemen Ilmu Komputer IPB, staf, dan dosen yang telah banyak membantu
selama masa perkuliahan hingga penelitian.
Semoga penelitian ini bermanfaat.

Bogor, Januari 2016
Yevilina Aulia Rizka

DAFTAR ISI
DAFTAR TABEL


vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

i

PENDAHULUAN

1

Latar Belakang

1

Perumusan Masalah


2

Tujuan Penelitian

2

Manfaat Penelitian

2

Ruang Lingkup Penelitian

2

METODE

2

Data Penelitian


3

Praproses Data

6

Pembagian Data

6

Pembuatan Model Klasifikasi Menggunakan Algoritme Naive Bayes

6

Perhitungan Akurasi Model

8

Penerapan pada Model Data Baru


8

Lingkungan Pengembangan

8

HASIL DAN PEMBAHASAN

9

Praproses Data

9

Seleksi Data

9

Pembersihan Data


12

Konversi Format

14

Pembagian Data

14

Pembuatan Model Klasifikasi Menggunakan Algoritme Naive Bayes

14

Perhitungan Akurasi

15

Penerapan Model pada Data Baru

17

SIMPULAN DAN SARAN

18

Simpulan

18

Saran

19

DAFTAR PUSTAKA

19

RIWAYAT HIDUP

24

DAFTAR TABEL
Atribut dari titik panas
4
Luas lahan gambut di Pulau Kalimantan
5
Luas lahan gambut di Pulau Sumatera
5
Contoh record dalam dataset 2
12
Jumlah missing value pada dataset Pulau Kalimantan dan
Sumatera
13
6 Akurasi model pada dataset Sumatera
16
7 Akurasi model pada dataset Kalimantan
16
8 Akurasi dan Kappa untuk model klasifikasi pada dataset Sumatera 16
9 Akurasi dan Kappa untuk model klasifikasi pada dataset
Kalimantan
17
10 Matriks confusion untuk model pada dataset Sumatera
18
11 Matriks confusion untuk model pada dataset Kalimantan
18
1
2
3
4
5

DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
11

Tahapan penelitian
Peta data lahan gambut di Sumatera
Peta data lahan gambut di Kalimantan
Struktur dari Bayes Network
Titik panas di Pulau Kalimantan
Jumlah titik panas di Sumatera dan Kalimantan tahun 2001-2014
Buffer untuk titik panas
Titik non titik panas
Titik panas dan non titik panan tahun 2010
Plot data titik panas Kalimantan sebelum dibersihkan
Pernyataan R untuk menghitung akurasi algoritme Naive Bayes

3
4
5
7
9
10
10
11
12
13
15

DAFTAR LAMPIRAN
1
2
3

Luas lahan gambut di Pulau Kalimantan berdasarkan kedalaman
gambut
21
Luas lahan gambut di Pulau Sumatera berdasarkan tutupan lahan
gambut
21
Cara perhitungan Naive Bayes
22

PENDAHULUAN
Latar Belakang
Indonesia merupakan salah satu negara tropis yang memiliki wilayah hutan
terluas ketiga di dunia setelah Republik Demokrasi Kongo dan Brazil. Selain
sebagai habitat flora dan fauna, hutan memiliki fungsi lain yaitu sebagai fungsi
keseimbangan alam. Kebakaran hutan yang terjadi akhir-akhir ini menjadi masalah
global yang yang perlu diperhatikan karena dampaknya tidak hanya dirasakan oleh
penduduk Indonesia melainkan hingga penduduk negara tetangga seperti Malaysia
dan Singapura. Faktor penyebab terjadinya kebakaran hutan bisa beragam yang
dibagi dalam dua kelompok utama, yaitu faktor alam dan campur tangan manusia.
Salah satu faktor campur tangan manusia adalah pengeringan lahan gambut yang
disengaja. Hal ini dapat memicu terjadinya kebakaran hutan di lahan gambut karena
karakteristik lahan gambut yang salah satunya jika lapisan-lapisan organiknya
menjadi kering maka akan mudah terbakar. Asap dari bara api kebakaran gambut
menandung banyak partikel halus dari pecahan-pecahan bahan organik yang
berbahaya bagi kesehatan (Levine 1998). Selain itu ada beberapa dampak dari
polusi yang melewati perbatasan dalam segi kesehatan dan perekonomian akibat
kebakaran hutan dan lahan (Dieterle dan Heil 1998).
Sumatera dan Kalimantan merupakan daerah kawasan persebaran ekosistem
lahan gambut di Indonesia dengan luas 7.2 juta ha untuk Pulau Sumatera dan 5.7
juta ha untuk Pulau Kalimantan (Wibowo dan Suyatno 1998). Menurut LAPAN
(2014), hotspot (titik panas) di wilayah Sumatera dan Kalimantan mengalami
peningkatan tajam sejak akhir Januari 2014 dengan puncaknya terjadi pada Maret
2014. Berdasarkan data MODIS yang diterima oleh stasiun bumi Lapan di Parepare
pada 1-28 September 2014, akumulasi titik panas tertinggi terdapat di wilayah
Provinsi Kalimantan Tengah, yang diikuti oleh Provinsi Sumatera Selatan, dan
Kalimantan Barat (LAPAN 2014). Menurut Adinugroho et al. (2005), data titik
panas dapat dijadikan sebagai salah satu indikator mengenai terjadinya kebakaran
hutan dan lahan.
Salah satu cara untuk mencegah masalah kebakaran hutan ini yaitu dengan
cara membuat suatu model. Permodelan ini dapat menerapkan salah satu teknik
data mining yaitu klasifikasi. Pada penelitian sebelumnya, Sitanggang et al. (2012)
menggunakan Weka untuk klasifikasi titik panas dengan area studi Provinsi Riau
dan menggunakan beberapa algoritme yang tersedia pada perangkat lunak untuk
dibandingkan tingkat akurasinya. Terdapat 3 algoritme yang dibandingkan tingkat
akurasinya yaitu algoritme J48, SimpleCart, dan Naive Bayes. Penelitian
selanjutnya oleh Fernando dan Sitanggang (2014) mengklasifikasikan data spasial
kemunculan titik panas di Provinsi Riau menggunakan algoritme ID3 dengan
akurasi tertinggi yaitu 70.80%. Penelitian yang akan dilakukan ini menggunakan
algoritme Naive Bayes untuk mengklasifikasikan kemunculan titik panas di lahan
gambut Pulau Sumatera dan Kalimantan. Aplikasi yang digunakan untuk mengolah
data dan membuat model klasifikasi adalah R.
Penggunaan algoritme Naive Bayes dalam penelitian ini berdasarkan
ketergantungan dalam hal akurasi pada model probabilitas, Naive Bayes classifier
dapat dilatih dengan sangat efisien pada teknik supervised learning. Meskipun
Naive Bayes terlihat sederhana pada desain dan asumsinya, namun Naive Bayes

2
classifier dapat bekerja lebih baik pada masalah yang kompleks. Pada penelitian
sebelumnya, analisis pada klasifikasi Naive Bayes menunjukan bahwa ada beberapa
alasan secara teoritis yang menunjukan bahwa klasifikasi Naive Bayes efektif
(Witten dan Frank 2000). Keuntungan menggunakan klasifikasi Naive Bayes
adalah penggunaan jumlah data training yang sedikit dapat mengestimasikan
parameter yang dibutuhkan dalam klasifikasi. Penelitian ini diharapkan dapat
menghasilkan model yang akurat untuk memprediksi kemungkinan munculnya titik
panas dimasa yang akan datang sehingga pihak yang berwenang dapat melakukan
tindakan pencegahan terjadinya kebakaran hutan.
Perumusan Masalah
Rumusan masalah pada penelitian ini adalah bagaimana membuat model
klasifikasi menggunakan algoritme Naive Bayes untuk data kebakaran hutan dan
lahan di Pulau Sumatera dan Kalimantan tahun 2001-2015.
Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1 Membangun model klasifikasi kemunculan titik panas di lahan gambut Sumatera
dan Kalimantan dengan menggunakan algoritme Naive Bayes.
2 Menganalisis model klasifikasi untuk memprediksi kemunculan titik panas
menggunakan algoritme Naive Bayes.
Manfaat Penelitian
Penelitian ini diharapkan dapat menghasilkan model yang akurat untuk
memprediksi kemungkinan munculnya titik panas di masa yang akan datang. Titik
panas merupakan salah satu indikator terjadi kebakaran hutan dan lahan. Model
prediksi tersebut dapat digunakan oleh pihak yang berwenang dalam
mengidentifikasi terjadi kebakaran hutan dan lahan, khususnya di lahan gambut
sehingga dapat dilakukan tindakan pencegahan terjadinya kebakaran hutan.
Ruang Lingkup Penelitian
Ruang lingkup dari penelitian ini adalah:
1 Penelitian ini mengimplementasikan model klasifikasi Naive Bayes dengan
menggunakan aplikasi dan package yang terdapat pada R, yaitu caret, gmodels,
e1071, dan klaR. Package caret, e1071, dan klaR merupakan package yang
digunakan untuk membangun model klasifikasi menggunakan Naive Bayes,
sedangkan package gmodels digunakan untuk menghitung matriks confusion.
2 Karakteristik lahan gambut yang dianalisis dalam penelitian ini adalah tipe lahan
gambut, kedalaman gambut, dan tutupan lahan.

METODE
Penelitian terdiri atas lima tahapan, yaitu: pengumpulan data, praproses data,
pembagian data, membuat model klasifikasi, perhitungan akurasi, dan penerapan

3
pada model data baru. Gambar 1 menunjukkan diagram alir penelitian yang
dilakukan.

Gambar 1 Tahapan penelitian
Data Penelitian
Data yang digunakan pada penelitian ini adalah data titik panas Pulau
Sumatera dan Kalimantan tahun 2001 sampai 2015. Data tersebut didapatkan dari
National Aeronautics and Space Administration (NASA) Fire Information for
Resource Management System (FIRMS) dalam format csv. Data titik panas ini
terdiri dari 12 atribut. Atribut ini dapat dilihat pada Tabel 1. Selain itu, terdapat data
lahan gambut dari tahun 1990-2002 dengan 3 variabel yang akan dianalisis yaitu,
tipe lahan gambut, kedalaman gambut, dan tutupan lahan. Pemilihan atribut ini
berdasarkan pada penelitian yang sebelumnya (Sitanggang et al. 2012) yaitu,
kedalaman gambut, tutupan lahan, dan tipe lahan gambut. Dataset wilayah
Kalimantan memiliki atribut tipe lahan gambut dan kedalaman gambut untuk
dianalisis, sedangkan dataset wilayah Sumatera memiliki atribut tipe lahan gambut,
kedalaman gambut, dan tutupan lahan. Data tersebut didapatkan dari Wetlands
Internasional dalam format shp.

4
Tabel 1 Atribut dari titik panas
No
1
2
3
4
5

Atribut
Latitude
Longitude
Acq_date
Acq_time
Confidence

Tipe
Numeric
Numeric
Date
Character varying (5)
Integer

Peta lahan gambut di Pulau Kalimantan dan Sumatera dapat dilihat pada
Gambar 2 dan Gambar 3. Peta tersebut menunjukan tipe lahan gambut yang terdapat
di Sumatera dan Kalimantan. Lahan gambut memiliki beberapa tipe yaitu hemists,
fibrists, saprists, dan mineral. Wilayah Kalimantan memiliki luas lahan gambut 5.7
juta ha dan untuk wilayah Sumatera 7.2 juta ha. Luas lahan gambut di Sumatera dan
Kalimantan dapat dilihat pada Tabel 2 dan Tabel 3, sedangkan luas lahan gambut
berdasarkan kedalaman dan tutupan lahan dapat dilihat pada Lampiran 1 dan
Lampiran 2. Berikut sintaks SQL untuk mengetahui luas lahan gambut di
Kalimantan:
SELECT soil AS type, sum(ST_Area(geom))/10000 AS surface
FROM all _kalimantan_island_peatland GROUP BY soil
HAVING soil=’Hemists/Fibrists’;

Gambar 2 Peta data lahan gambut di Sumatera
Pada Gambar 2 terdapat keterangan Fibrists/Saprists (60/40), sedang.
Maksud dari keterangan tersebut adalah Fibrists dan Saprists adalah tipe lahan
gambut, 60/40 merepresentasikan kombinasi dari Fibrists sebesar 60% dan Saprists
sebesar 40%, kemudian "sedang" menunjukkan ketebalan dari lahan gambut
tersebut. Pada Tabel 2 dan Tabel 3 dapat dilihat luas area (Ha) dari setiap tipe lahan
gambut dari pulau Sumatera dan Kalimantan. Tipe lahan gambut yang berada di
Sumatera berjumlah 28 dan tipe lahan gambut di Kalimantan berjumlah 7.

5

Gambar 3 Peta data lahan gambut di Kalimantan
Tabel 2 Luas lahan gambut di Pulau Kalimantan
No
1
2
3
4
5
6
7

Tipe Gambut
Hemists/Fibrists
Hemists/Fibrists/Mineral
Hemists/Mineral
Saprists/Hemists/Mineral
Saprists/Hemists/Mineral
Hemists/Saprists/Mineral
Hemists/Fibrists/Saprists

Luas (ha)
4.070.888.40
388.442.91
922.584.24
108.626.03
132.833.31
133.670.39
3.028.58

Tabel 3 Luas lahan gambut di Pulau Sumatera
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14

Tipe Gambut
Hemists/Saprists (60/40)sedang
Saprists/min (50/50)dangkal
Saprists/Hemists (60/40)sedang
Saprists/min (30/70)sedang
Saprists/min (90/10)sedang
Hemists (100)dalam
Hemists/Saprists (60/40)dalam
Hemists (100)sedang
Saprists/min (50/50)dalam
Hemists/min(90/10)sangat dalam
Hemists/Saprists (60/40)sedang
Hemists/min (30/70)dangkal
Hemists/Saprists (60/40)sangat dalam
Saprists/Hemists (60/40)dalam

Luas (ha)
1.490.145.51
16.859.44
18.698.37
9.911.09
178.408.66
2.200.51
639.263.33
86.697.37
7.748.18
30.179.83
211.082.30
308.112.73
957.561.63
553.762.96

6
No
15
16
17
18
19
20
21
22
23
24
25
26
27
28

Tipe Gambut
Saprists/Hemists (60/40)sedang
Hemists/min (90/10)dangkal
Hemists/Saprists (60/40)dangkal
Hemists/min (70/30)sedang
Saprists/min (30/70)dalam
Hemists/min (90/10)sedang
Hemists/min (50/50)dangkal
Saprists/min (50/50)sedang
Hemists/min (90/10)sedang
Fibrists/Saprists (60/40)sedang
Saprists/Hemists (60/40)sangat dalam
Hemists/min (30/70)sedang
Saprists (100)sedang
Saprists (100)dalam

Luas (ha)
236.659.27
7.950.20
49.355.05
91.797.22
12.671.89
0.62
2.218.85
118.152.45
578.525.93
10.721.83
1181.264.69
308.958.76
87.885.62
35.182.64

Praproses Data
Pada tahap praproses data, dilakukan tahapan seleksi data. Pemilihan data
dalam proses seleksi menggunakan 3 atribut yaitu longtitude, latitude, dan acq_date.
Latitude dan longitude digunakan untuk menentukan posisi titik panas berdasarkan
koordinat garis lintang dan bujur. Acq_date digunakan untuk mengetahui frekuensi
kemunculan titik panas berdasarkan tanggal. Dalam tahapan ini dilakukan operasi
spasial pada data lahan gambut untuk mendapatkan data titik panas di lahan gambut.
Pembagian Data
Pada tahapan ini, data dibagi menjadi 2 yaitu data latih dan data uji. Data latih
dan data uji menggunakan data titik panas tahun 2001-2014 dan data lahan gambut
tahun 2002. Dalam penelitian, metode yang digunakan dalam proses pemisahan
data latih dan data uji ini adalah metode K-fold cross validation dengan nilai K=10.
Menurut Fu (1994) K-fold cross validation merupakan metode yang membagi
himpunan contoh secara acak menjadi K himpunan bagian.
Pembuatan Model Klasifikasi Menggunakan Algoritme Naive Bayes
Tahapan ini menggunakan model klasifikasi Naive Bayes. Pembentukan
model klasifikasi menggunakan package yang tersedia pada R. Package tersebut
adalah caret, klaR, e071, dan gmodels.
Naive Bayes merupakan classifier yang bersifat statistik yang mana dapat
memprediksi probabilitas masing-masing kelas seperti probabilitas suatu kelas
tertentu. Keunggulan dari pengelompokan Bayes ini yaitu terdapat pada tingkat
akurasinya yang tinggi serta kecepatannya dalam penggunaan basis data yang besar.
Pengelompokan Naive Bayes mengasumsikan bahwa nilai atribut pada setiap kelas
bersifat independen (tidak ada ketergantungan antar kelas) yang dapat memudahkan
dalam perhitungannya (Han et al. 2012). Pengelompokan ini berdasarkan dengan
data training dari probabilitas masing-masing atribut A dengan label kelas C.
Klasifikasi dilakukan dengan menerapkan aturan Bayes untuk menghitung
probabilitas C terhadap masing-masing atribut A1, A2, …, An, kemudian

7
memprediksi kelas berdasarkan probabilitas prior yang tertinggi. Gambar 1
menjelaskan bahwa Naive Bayes classifier memiliki struktur yang sederhana.
Gambar 4 mengasumsikan bahwa setiap atribut (setiap daun pada jaringan)
independen terhadap atribut lainnya (Friedman et al. 1997). Ilustrasi perhitungan
menggunakan Naïve Bayes dapat dilihat pada Lampiran 3.

Gambar 4 Struktur dari Bayes Network
Algoritme klasifikasi Naive Bayes sebagai berikut (Han et al. 2012):
1 Asumsikan D adalah training set dengan label kelas yang terkait. Setiap tupel
dalam training set diwakili oleh atribut vektor n-dimensi, X = (x1, x2, ..., xn),
menggambarkan pengukuran yang dilakukan pada tupel dari n atribut, masingmasing A1, A2,…, An.
2 Misalkan terdapat kelas m, C1, C2,…, Cm. Jika diberikan tupel, X, classifier akan
memprediksi bahwa X termasuk ke dalam kelas yang memilik probabilitas
posterior yang tinggi. Oleh karena itu, Naïve Bayes classifier memprediksi
bahwa tupel X termasuk ke dalam kelas Ci jika dan hanya jika
P(Ci | X) ≤ P(Cj | X) untuk 1 ≤ j ≤ m, j ≠ i

(1)

Kemudian, untuk memaksimalkan P(Ci | X), kelas C1 yang mana P(Cj | X)
maksimal disebut dengan maximum posteriori hypothesis, dengan teorma Bayes,

P(Ci | X =

P X |Ci )P(Ci )
P(X)

(2)

3 Jika P(X) bernilai konstan untuk semua kelas, hanya P(X | Ci)P(Ci) yang harus
dimaksimalkan. Kelas probabilitas prior tidak diketahui, maka diasumsikan
kelasnya sama, yaitu, P(C1) = P(C2) = … = P(Cm) dan P(X | Ci) harus
dimaksimalkan. Kelas probabilitas prior dapat diestimasikan dengan P(C1) = |Ci,
D| / | D |, dengan |Ci, D| merupakan training tuples dari kelas Ci di D.
4 Membuat asumsi Naive Bayes yaitu kelas yang independen untuk mengurangi
perhitungan dalam mengevaluasi P(C | C1).

8
n

P(X | Ci ) = ∏ P xk |Ci )
k=1

(3)

= P(x1 | Ci ) × (x2 | Ci )× …×(xn | Ci )

Kita dapat mengestimasikan dengan mudah probabilitas P(x1 | Ci), P(x2 | Ci), …,
P(xn | Ci) dari training tuples, Jika xk merupakan nilai dari atribut Ak untuk tuple
X. Untuk atribut categorical, maka P(xk | Ci) merupakan tupel dari kelas Ci dan D
yang memiliki nilai xk untuk Ak, dibagi dengan |Ci, D|, tupel dari kelas Ci di D.
5 Untuk memprediksi kelas label X, P(X | Ci)P(Ci) dievaluasi pada masing-masing
kelas Ci. Classifier memprediksi kelas label dari tupel X merupakan kelas Ci jika
dan hanya jika
P(X | Ci)P(Ci) > P(X | Cj)P(Cj) untuk 1 ≠ j ≤ m, j ≠ i

(4)

6 Perhitungan akurasi menggunakan rumus sebagai berikut:
Akurasi =

∑ data uji yang benar diklasifikasikan
∑ data uji

(5)

Perhitungan Akurasi Model
Akurasi diperoleh berdasarkan data pengujian terhadap model klasifikasi.
Untuk menghitung akurasi digunakan rumus yang terdapat pada persamaan 5.
Setelah nilai akurasi didapatkan dari tahun 2001-2014, maka dataset dengan nilai
tertinggi pada masing-masing wilayah akan digunakan sebagai data latih dalam
penerapan klasifikasi pada data baru.
Penerapan pada Model Data Baru
Pada tahapan ini dilakukan penggunaan model pada data baru, yaitu data titik
panas tahun 2015. Pada tahap ini akan digunakan beberapa record data contoh
untuk menunjukkan bagaimana penggunaan klasifikasi pada data baru yang belum
memiliki label kelas.
Lingkungan Pengembangan







Perangkat lunak yang digunakan dalam penelitian ini adalah:
Sistem operasi Windows 8.1
Bahasa pemrograman R-3.1.6 dengan package caret, klaR, e1071, dan gmodels
R Studio versi 0.98.1091
Microsoft Excel 2007 untuk membaca data titik panas
Quantum GIS 2.6.0 untuk melihat plot data titik panas dan analisis data spasial
PostgreSQL versi 9.1 sebagai sistem manajemen basis data (pengolahan kueri
data lahan gambut)

9
Perangkat keras yang digunakan dalam penelitian ini adalah komputer
personal dengan spesifikasi:
• Prosesor Intel Core i3 @1.8 GHz
• RAM 2 GB
• Monitor LCD 14.0” HD
• Harddisk 500 GB HDD

HASIL DAN PEMBAHASAN
Praproses Data
Dalam tahapan ini dilakukan beberapa proses dalam praproses data, yaitu:
seleksi data, pembersihan data, dan konversi format.
Seleksi Data
Hal pertama yang dilakukan dalam dalam proses ini adalah melakukan
overlay data lahan gambut dengan titik panas menggunakan operasi spasial, yaitu
ST_Within di PostgreSQL. Tujuan dilakukan overlay adalah untuk
memproyeksikan data titik panas terhadap lahan gambut. Selain itu sistem referensi
koordinat harus disesuaikan, untuk wilayah Kalimantan menggunakan UTM Zona
49S (WGS84 / UTM Zone 49S / EPSG:32649) sedangkan wilayah Sumatera
WGS84 UTM Zone 47S. Selanjutnya memisahkan data titik panas pertahun. Data
titik panas yang digunakan adalah data titik panas tahun 2001-2014.
Gambar 5 menunjukkan titik panas Sumatera dan Kalimantan tahun 2001
sampai dengan 2014, sedangkan Gambar 6 menunjukkan grafik jumlah atribut titik
panas Sumatera dan Kalimantan tahun 2001-2014.

Gambar 5 Titik panas di Pulau Kalimantan

10

Gambar 6 Jumlah titik panas di Sumatera dan Kalimantan tahun 2001-2014
Langkah selanjutnya adalah pembangkitan titik non titik panas. Ada beberapa
hal yang harus dilakukan dalam membangkitkan non titik panas yaitu melakukan
beberapa operasi geoprocessing seperti buffer, dissolve, difference, dan random
point. Pembuatan buffer menggunakan radius 0.01. Hasil buffer titik panas dapat
dilihat pada Gambar 7.

Gambar 7 Buffer untuk titik panas
Setelah itu dilakukan operasi dissolve untuk menggabungkan fitur yang
memiliki kesamaan atribut, yaitu hasil buffer. Hasil dari buffer dissolve digunakan
untuk memotong atau menghapus area lahan gambut yang tidak overlap dengan
menggunakan operasi difference. Titik non hotspot dibangkitkan dengan membuat
titik acak, jumlah titik disesuaikan dengan titik panas pertahun. Hasil dari
pembangkitan titik acak dapat dilihat pada Gambar 8.

11

Gambar 8 Titik non titik panas
Tahapan selanjutnya adalah membuat tabel target2010. Proses ini dilakukan
menggunakan pernyataan SQL dalam PostgreSQL. Tujuan dibuatnya tabel
target2010 untuk menyimpan data titik panas dan bukan titik panas. Berikut adalah
kueri untuk menambahkan kelas T (True) dan F (False):
ALTER TABLE kal2_false_alarm 2010 ADD COLUMN class char
DEFAULT ’F’;
ALTER TABLE kal2_false_alarm_2010 DROP COLUMN id;
ALTER TABLE kal2_within_2010_rep ADD COLUMN class char
DEFAULT ’T’;
Tahapan selanjutnya adalah membuat tabel target dengan kueri sebagai berikut:
CREATE TABLE target2010 AS SELECT gid, geom, longitude,
latitude, acq date, acq time, confidence, class FROM
hotspot_kalimantan_island_peatland
WHERE
confidence
>=70;
Data titik panas yang diambil pada tabel target adalah titik panas dengan nilai
confidence ≥ 70. Proses selanjutnya yaitu menggabungkan data dengan kelas F ke
dalam tabel target.
INSERT INTO target2010 (gid, geom, class) SELECT gid,
geom, class FROM false_alarm_2010_rep;
Rename gid pada target2010 menjdi gid0, lalu menambahkan gid autonumber.
Hasil dari pembuatan layer target dapat dilihat pada Gambar 9.
ALTER TABLE target2010 RENAME COLUMN gid TO gid0;
ALTER TABLE target2010 ADD COLUMN gid SERIAL;
ALTER TABLE target2010 ADD PRIMARY KEY (gid);

12

Gambar 9 Titik panas dan non titik panan tahun 2010
Setelah tabel target2010 dibuat, tahapan selanjutnya adalah pembuatan
dataset 1 dan 2. Dataset 1 merupakan gabungan data dari data target2010 dan data
lahan gambut Kalimantan, sedangkan dataset 2 merupakan dataset yang akan
digunakan pada proses klasifikasi, contoh record dalam dataset 2 yang digunakan
dapat dilihat pada Tabel 4. Berikut pernyataan SQL untuk membuat dataset 1 dan
dataset 2:
CREATE TABLE dataset1 AS SELECT t.gid, t.gid0, t.geom,
t.confidence, t.class, g.DEPTH, g.SOIL FROM target2010
AS
t,
all_kalimantan_island_peatland
AS
g
WHERE
ST_Within(t.geom,g.geom) ORDER BY gid;
CREATE TABLE dataset2 AS SELECT t.class, g.DEPTH, g.SOIL
FROM target2010 AS t, all_kalimantan_island_peatland as
g WHERE ST Within(t.geom,g.geom);
Tabel 4 Contoh record dalam dataset 2
Kelas
T
T
T
T
T

Kedalaman gambut (cm)
50-100
100-200
50-100
100-200
100-200

Tipe gambut
Hemists/Fibrists
Hemists/Fibrists
Hemists/Fibrists/Mineral
Hemists/Fibrists
Hemists/Fibrists

Pembersihan Data
Dalam proses ini dilakukan salah satu operasi spasial yaitu ST_Within untuk
membersihkan data titik panas. Setelah dibersihkan, jumlah data tereduksi dari
326.866 menjadi 98.666. Data titik panas sebelum dibersihkan pada wilayah

13
Kalimantan dapat dilihat pada Gambar 10 dan setelah dibersihkan dapat dilihat pada
Gambar 5.

Gambar 10 Plot data titik panas Kalimantan sebelum dibersihkan
Proses pembersihan data juga dilakukan terhadap data yang tidak memiliki
nilai atribut yang lengkap (missing value). Pada tahapan pembersihan ini data
dengan atribut yang kosong akan dihapus, karena presentasenya berkisar 0-2%.
Jumlah missing value pada wilayah Kalimantan dan Sumatera dapat dilihat pada
Tabel 5.
Tabel 5 Jumlah missing value pada dataset Pulau Kalimantan dan Sumatera
Dataset
Sumatera2001
Sumatera2002
Sumatera2003
Sumatera2004
Sumatera2005
Sumatera2006
Sumatera2007
Sumatera2008
Sumatera2009
Sumatera2010
Sumatera2011
Sumatera2012
Sumatera2013
Sumatera2014

Jumlah Missing Value
2
35
8
15
18
33
5
8
21
2
10
13
21
43

Jumlah Data
3509
20212
10331
16030
30172
29471
5517
7535
15572
4897
13506
14556
18548
41254

Presentase
0.06%
0.17%
0.08%
0.09%
0.06%
0.11%
0.09%
0.11%
0.13%
0.04%
0.07%
0.09%
0.11%
0.10%

14
Dataset
Kalimantan2001
Kalimantan2002
Kalimantan2003
Kalimantan2004
Kalimantan2005
Kalimantan2006
Kalimantan2007
Kalimantan2008
Kalimantan2009
Kalimantan2010
Kalimantan2011
Kalimantan2012
Kalimantan2013
Kalimantan2014

Jumlah Missing Value
35
332
80
153
79
460
19
21
247
5
111
99
51
232

Jumlah Data
2880
23005
6578
13612
5736
30413
2074
1441
20803
570
7900
8493
3571
18457

Presentase
1.22%
1.44%
1.22%
1.12%
1.36%
1.51%
0.92%
1.46%
1.19%
0.88%
1.41%
1.17%
1.43%
1.26%

Konversi Format
Dalam proses ini dilakukan proses konversi format dari csv ke .shp untuk data
titik panas dari FIRMS Modis NASA. Kemudian dilakukan konversi format dari
dbf ke csv untuk dataset 2 yang akan digunakan untuk klasifikasi.
Pembagian Data
Proses pembagian data latih dan data uji dilakukan di RStudio dengan
menggunakan metode K-fold cross validation dengan nilai K=10. Proses
pembagian data dilakukan secara otomatis dengan menggunakan salah satu metode
yang terdapat pada package klaR yaitu cv. Package ini membagi data dengan
menggunakan K-fold cross validation dengan nilai K yang dapat ditentukan oleh
pengguna.
Pembuatan Model Klasifikasi Menggunakan Algoritme Naive Bayes
Dalam pembuatan model klasifikasi ini, menggunakan beberapa package
yaitu klaR dan caret. Model yang telah dibangun dapat memprediksi model
berdasarkan kelas dan dapat menunjukkan nilai akurasi terhadap model tersebut.
Nilai akurasi terhadap model dapat dilihat pada Gambar 11. Berikut adalah
pernyataan R yang digunakan untuk membangun model menggunakan algoritme
Naive Bayes:
[1]>library(klaR)
[2]>library(caret)
[3]>x = dataset2_try_edited
[4]>y = dataset2_try_edited$V3
[5]>model=train(x,y,’nb’,trControl=trainControl(method=
’cv’,number=10))
[6]>model
[7]>predict(model$finalModel,x)

15
[8]>predict(model$finalModel,x)$class
Package yang digunakan untuk mengklasifikasikan titik panas adalah
package klaR dan caret. Package caret dapat digunkan untuk mengklasifikasikan
data menggunakan algoritme Naive Bayes, karena memiliki fitur yang baik
sedangkan package klaR memiliki Naive Bayes classifier. Baris kelima dari
program merupakan pernyataan untuk melatih model. Baris program ini akan
memproses model Naive Bayes menggunakan 10-fold cross validation. X
merupakan predictor dan y merupakan label, sedangkan ’nb’ menerangkan bahwa
model yang digunakan adalah Naive Bayes. TrainController merupakan bagian
bahwa proses pembagian data menggunakan 10-fold cross validation (’cv’). Sintaks
model berfungsi untuk mencetak hasil model klasifikasi yang berisi nilai akurasi
dan kappa, dapat dilihat pada Gambar 11. Selain itu juga terdapat sintaks predict
yang dapat menampilkan beberapa kelas yang dapat diprediksi berdasarkan peluang
posterior.

Gambar 11 Pernyataan R untuk menghitung akurasi algoritme Naive Bayes
Perhitungan Akurasi
Setelah mendapatkan model Naive Bayes, proses selanjutnya adalah
melakukan perhitungan akurasi. Perhitungan akurasi dapat dilakukan dengan
menggunakan matriks confusion, berdasarkan rumus (5). Akurasi dari model
klasifikasi pada data uji adalah sebesar 100%. Berikut sintaks untuk membangun
matriks confusion dalam R:
>table(predict(model$finalModel,x)$class,y)
Pada Tabel 6 dan 7 terlihat bahwa nilai akurasi tertinggi terdapat pada dataset
2006. FP menyatakan data bukan titik panas yang diklasifikasikan sebagai data
bukan titik panas, TP menyatakan data titik panas yang diklasifikasikan sebagai
data titik panas, FN menyatakan data bukan titik panas yang diklasifikasikan
sebagai data titik panas, dan TN menyatakan data titik panas yang diklasifikasikan
sebagai data bukan titik panas. Akurasi terbaik untuk wilayah Sumatera dan
Kalimantan adalah sebesar 100%. Untuk dataset Sumatera terdapat 19369 FP
sedangkan 10075 TP dan tidak ada data yang salah dalam proses klasifkasi (tidak
ada FN dan TN). Sementara itu, untuk dataset Kalimantan terdapat 19992 FP dan
9961 TP dan tidak ada data yang salah dalam proses klasifkasi (tidak ada FN dan
TN).

16
Tabel 6 Akurasi model pada dataset Sumatera
Dataset
Sumatera2001
Sumatera2002
Sumatera2003
Sumatera2004
Sumatera2005
Sumatera2006
Sumatera2007
Sumatera2008
Sumatera2009
Sumatera2010
Sumatera2011
Sumatera2012
Sumatera2013
Sumatera2014

TP
587
3838
3300
5268
10456
10075
1607
2449
4711
1347
4244
4614
6188
14245

TN
587
3838
3300
5268
10456
10075
1607
2449
4711
1347
4244
4614
6188
14245

FP
0
0
0
0
0
0
0
0
0
0
0
0
0
0

FN
0
0
0
0
0
0
0
0
0
0
0
0
0
0

Akurasi (%)
100
100
100
100
100
100
100
100
100
100
100
100
100
100

Tabel 7 Akurasi model pada dataset Kalimantan
Dataset
Kalimantan2001
Kalimantan2002
Kalimantan2003
Kalimantan2004
Kalimantan2005
Kalimantan2006
Kalimantan2007
Kalimantan2008
Kalimantan2009
Kalimantan2010
Kalimantan2011
Kalimantan2012
Kalimantan2013
Kalimantan2014

TP
889
7477
2005
4311
1815
9961
609
405
6505
136
2404
2548
1106
5995

TN
889
7477
2005
4311
1815
9961
609
405
6505
136
2404
2548
1106
5995

FP
0
0
0
0
0
0
0
0
0
0
0
0
0
0

FN
0
0
0
0
0
0
0
0
0
0
0
0
0
0

Akurasi (%)
100
100
100
100
100
100
100
100
100
100
100
100
100
100

Akurasi model dan kappa statistik digunakan untuk menentukan dataset
terbaik. Berdasarkan Tabel 8 dan Tabel 9 dapat disimpulkan bahwa model terbaik
diperoleh dari dataset tahun 2006 untuk wilayah Kalimantan dan dataset tahun
2014 untuk wilayah Sumatera. Nilai akuasi model dan kappa statistik untuk wilayah
Sumatera adalah 99.996% dan 99.993%. Sementara itu, untuk Kalimantan 99.994%
dan 99.989%. Nilai akurasi ini menunjukkan hasil yang lebih baik dari penelitian
sebelumnya (Sitanggang et al. 2012), yaitu 62.8667% untuk Naive Bayes.
Tabel 8 Akurasi dan Kappa untuk model klasifikasi pada dataset Sumatera
Dataset
Sumatera2001
Sumatera2002

Akurasi (%)
99.915
99.986

Kappa (%)
99.831
99.973

17
Dataset
Sumatera2003
Sumatera2004
Sumatera2005
Sumatera2006
Sumatera2007
Sumatera2008
Sumatera2009
Sumatera2010
Sumatera2011
Sumatera2012
Sumatera2013
Sumatera2014

Akurasi (%)
99.984
99.990
99.966
99.995
99.969
99.814
99.989
99.963
99.988
99.989
99.991
99.996

Kappa (%)
99.969
99.981
99.933
99.990
99.938
99.636
99.978
99.926
99.976
99.978
99.983
99.993

Tabel 9 Akurasi dan Kappa untuk model klasifikasi pada dataset Kalimantan
Dataset
Kalimantan2001
Kalimantan2002
Kalimantan2003
Kalimantan2004
Kalimantan2005
Kalimantan2006
Kalimantan2007
Kalimantan2008
Kalimantan2009
Kalimantan2010
Kalimantan2011
Kalimantan2012
Kalimantan2013
Kalimantan2014

Akurasi (%)
99.944
99.993
99.955
99.988
99.972
99.994
99.918
99.876
99.972
99.655
99.979
99.980
99.955
99.991

Kappa (%)
99.888
99.986
99.910
99.976
99.945
99.989
99.838
99.756
99.945
99.333
99.958
99.960
99.910
99.983

Penerapan Model pada Data Baru
Dalam tahapan ini akan dilakukan validasi model terhadap dataset dari tahun
2001-2014. Kemudian akan diterapkan model dengan akurasi tertinggi pada dataset
baru 2015. Model dengan akurasi tertinggi terdapat pada tahun 2006 untuk wilayah
Kalimantan dan tahun 2014 untuk wilayah Kalimantan. Oleh karena itu data yang
digunakan sebagai data latih merupakan dataset tahun 2006 untuk Sumatera dan
dataset 2014 untuk Kalimantan, data yang digunakan sebagai data uji adalah
dataset tahun 2015 untuk kedua wilayah. Berikut sintaks untuk menerapkan model
pada data baru tahun 2015:
[1]>library(e1071)
[2]>data_traindata_testprop.table(table(data_train$V4))
[5]>prop.table(table(data_test$V4))

18
[6]>data_classifierCrossTable(data prediction,data_test$V4, prop.chisq
= FALSE,prop.t = FALSE, dnn = c(’predicted’,’actual’))
Package yang digunakan merupakan e1071 (baris 1). Package ini
membangun model menggunakan fungsi naiveBayes yang terdapat pada baris
keenam program. Pembagian data dilakukan secara manual. Untuk membangun
matriks confusion diperlukan package tambahan yaitu gmodel. Akurasi model pada
data titik panas baru untuk wilayah Sumatera adalah 99.02% dan Kalimantan adalah
100%.
Pada Tabel 10 dan 11 menunjukkan matriks confusion untuk model
klasifikasi wilayah Sumatera dan Kalimantan. Untuk dataset Sumatera terdapat
1307 data bukan titik panas(F) yang diklasifikasikan sebagai data bukan titik panas
(F) sedangkan terdapat 528 data titik panas(T) yang diklasifikasikan sebagai data
titik panas(T) dan tedapat 18 data titik panas(T) yang diklasifikasikan sebagai data
bukan titik panas(F). Sementara itu, untuk dataset Kalimantan terdapat 77 data
bukan titik panas(F) yang diklasifikasikan sebagai data bukan titik panas(F)
sedangkan terdapat 23 data titik panas(T) yang diklasifikasikan sebagai data titik
panas(T) dan tidak ada data yang salah diklasifkasikan. Dari hasil ini dapat
disimpulkan bahwa kinerja Naive Bayes terhadap data titik panas dan lahan gambut
di Sumatera dan Kalimantan sangat baik.
Tabel 10 Matriks confusion untuk model pada dataset Sumatera
predictive/actual
F (bukan titik panas)
T (titik panas)

F (bukan titik panas)
1307
18

T (titik panas)
0
528

Tabel 11 Matriks confusion untuk model pada dataset Kalimantan
predictive/actual
F (bukan titik panas)
T (titik panas)

F (bukan titik panas)
77
0

T (titik panas)
0
23

SIMPULAN DAN SARAN
Simpulan
Penelitian berhasil mengklasifikasikan kemunculan titik panas di lahan
gambut di Sumatera dan Kalimantanmenggunakan algoritme Naive Bayes. Dataset
yang digunakan untuk klasifikasi terdiri dari tutupan lahan, tipe lahan gambut,
kedalaman gambut, dan kelas. Dataset yang menghasilkan model klasifikasi
dengan nilai akurasi tertinggi untuk wilayah Kalimantan dan Sumatera adalah
dataset tahun 2006 dengan nilai akurasi adalah 99.996% untuk Kalimantan dan
99.992% untuk Sumatera. Model dengan akurasi tertinggi berhasil diterapkan pada

19
dataset baru tahun 2015 dengan akurasi 100% untuk Kalimantan dan 99.02% untuk
Sumatera. Dengan demikian model klasifikasi menggunakan algoritme Naive
Bayes dapat digunakan untuk memprediksi kemunculan titik panas di lahan gambut.
Saran
Saran yang dapat dilakukan untuk penelitian selanjutnya adalah membangun
suatu aplikasi berbasis web untuk menampilkan hasil klasifikasi titik panas
menggunakan algoritme Naive Bayes.

DAFTAR PUSTAKA
Adinugroho WC, Suryadiputra INN, Saharjo BH, Siboro L. 2005. Panduan
Pengendalian Kebakaran Hutan dan Lahan Gambut. Proyek Climate Change,
Forests and Peatlands in Indonesia. Bogor(ID):Wetlands InternationalIndonesian Programme and Wildlife Habitat Canada.
Dieterle G, Heil A. 1998. Impacts of Large Scale Forest and Land Fires in
Indonesia 1997 on Regional Air Pollution. Di dalam: Chokkalingam U, Suyanto,
Wibowo P, editor. Kebakaran di Lahan Rawa/Gambut di Sumatera : Masalah
dan Solusi; 2003 Desember 10-11; Palembang, Indonesia. Bogor(ID): Center
For International Forestry Research.
Fernando V, Sitanggang IS. 2014. Klasifikasi Data Spasial untuk Kemunculan
Hotspot di Provinsi Riau Menggunakan Algoritme ID3. Integrasi Sains MIPA
untuk Mengatasi Masalah Pangan, Energi, Kesehatan, Reklamasi, dan
Lingkungan; 09-11 Mei 2014; Bogor, Indonesia. Bogor (ID): SEMIRATA. hlm
428-436. ISBN: 978-602-70491-0-9.
Friedman, N., Geiger, D., Goldszmidt, M.,1997. Bayesian network classifiers.
Kluwer Academic Publishers, Boston, pp. 1-37.
Han J, Kamber M, Pei J. 2012. Data Mining: Concepts and Techniques 3rd ed.
Massachusetts (US): Morgan Kaufmann Publishers.
[LAPAN]. Lembaga Antariksa dan Penerbangan Nasional. 2014. KEKERINGAN
TAHUN 2014: NORMAL ATAUKAH EKSTRIM [Internet]. [diunduh 2015 04
23].
Tersedia
pada:
http://lapan.go.id/index.php/subblog/read/2014/838/KEKERINGANTAHUN2014-NORMAL-ATAUKAH-EKSTRIM/932.
Levine. 1998. Gaseous and particulate emissions released to the atmosphere during
forest fires: a case study of Kalimantan and Sumatra, Indonesia in 1997. Di
dalam: Chokkalingam U, Suyanto, Wibowo P, editor. Kebakaran di Lahan
Rawa/Gambut di Sumatera : Masalah dan Solusi; 2003 Desember 10-11;
Palembang, Indonesia. Bogor(ID): Center For International Forestry Research.
Sitanggang IS, Yaakob R, Mustapha N, Ainuddin AN. 2012. Application of
classification algorithms in data mining for hotspots occurance prediction in
Riau province Indonesia. JATIT. 43(2): 214-221. ISSN: 1992-8645.
Suwanto A, Maas A, Sutaryo D, Wijaya DY, Sartono D, Achsani H, Komarsa,
Hastuti S, Soli TI. Profil Ekosistem Gambut di Indonesia. Jakarta (ID).

20
Wetlands Internationa Indonesia Programme (WI-IP). Witten H, Frank E. 2000.
Data Mining: Practical Machine Learning Tools and Techniques with Java
Implementations. United States of America:Ac ademic Press.

21
Lampiran 1 Luas lahan gambut di Pulau Kalimantan berdasarkan kedalaman
gambut
No
1
2
3
4
5

Kedalaman gambut
50-100
100-200
200-400
400-800
800-1200

Luas (ha)
1.922.748.40
1.260.926.73
1.146.082.39
1.065.640.91
364.675.44

Lampiran 2 Luas lahan gambut di Pulau Sumatera berdasarkan tutupan lahan
gambut
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

Tutupan Lahan Gambut
Hutan rawa
Belukar rawa
Kelapa sawit pada bekas hutan rawa < 5 th
Kelapa sawit pada bekas hutan rawa > 5 th
Kelapa pada bekas hutan rawa > 5 th
Sawah intensif (padi-palawija/bera), jeruk
Belukar pada bekas sawah
Semak, rumput pada bekas sawah
Lahan terbuka/persiapan perkebunan
Sawah dan kelapa
Lahan hutan konsesi penebangan
Sawah tadah hujan (padi, palawija/bera)
Kelapa pada bekas hutan rawa > 5
Semak dan rumput rawa bekas kebakaran
Kebun karet
Kelapa pada bekas hutan rawa > 5 th
Sawah tadah hujan (padi, palawija, bera)
Kelapa sawit pada bekas hutan rawa > 5 th
Semak rumput pada bekas sawah
Lahan penanaman tanaman industry
Kelapa sawit bekas hutan rawa
Sawah intensif (padi-padi)
Kebun campuran
Tambak
Sawah pasang surut
Semak dan rumput rawa dan beka
Semak dan rumput dan bekas kebakaran
Sawah tadah hujan (padi-pala)
Kelapa sawit pada bekas hutan
Kelapa pada bekas huta rawa > 5 th
Sawah intensif (padi-palawija)

Luas (ha)
3.489.404.14
718.566.35
250.036.40
407.214.51
761.830.36
307.587.60
1.179.60
19.982.90
29.410.10
332.407.67
137.988.98
130.134.57
373.37
235.355.99
83.640.16
761.830.36
1.105.865.13
407.214.51
5.009.43
43.891.88
1.032.31
18.094.84
10.721.04
9.447.26
15.202.54
11.471.98
2.706.00
3.671.44
14.765.14
7.193.15
3.403.85

22

Lampiran 3 Cara perhitungan Naive Bayes
Ide utama dari rumus Bayes yang dapat dilihat pada persamaan (2), yaitu
suatu hipotesis atau kejadian (Ci) dapat diprediksi berdasarkan beberapa bukti (X)
yang dapat diobservasi. Dari rumus Bayes dapat disimpulkan:
1. Peluang prior dari Ci atau P(Ci) : merupakan dari suatu kejadian sebelum
bukti diobservasi.
2. Peluang posterior dari Ci atau P(Ci | X) : merupakan peluang dari suatu
kejadian setelah bukti diobservasi.
Tabel 3.1 Dataset
Tipe Gambut
Kedalaman Gambut (cm) Kelas
Hemists/Saprists/Mineral
50-100
T
Hemists/Saprists/Mineral
50-100
T
Hemists/Fibrists/Saprists
100-200
T
Saprists/Mineral
50-100
T
Hemists/Fibrists
200-400
F
Hemists/Mineral
50-100
F
Hemists/Fibrists
100-200
F
Hemists/Fibrists/Mineral
50-100
F
Saprists/Hemists/Mineral
200-400
F
Hemists/Fibrists
800-1200
F

No
1
2
3
4
5
6
7
1
2
3
4
5
6
7

Tipe gambut
Ket
Hemists/Saprists/Mineral
Hemists/Fibrists/Saprists
Saprists/Mineral
Hemists/Fibrists
Hemists/Mineral
Hemists/Fibrists/Mineral
Saprists/Hemists/Mineral
Hemists/Saprists/Mineral
Hemists/Fibrists/Saprists
Saprists/Mineral
Hemists/Fibrists
Hemists/Mineral
Hemists/Fibrists/Mineral
Saprists/Hemists/Mineral

T
2
1
1
0
0
0
0
2/4
1/4
1/4
0/4
0/4
0/4
0/4

F
0
0
0
3
1
1
1
0/6
0/6
0/6
3/6
1/6
1/6
1/6

Kedalaman gambut
Ket
T
F
50-100
3
2
100-200
1
1
200-400
0
2
800-1200 0
1

50-100
100-200
200-400
800-1200

3/4
1/4
0/4
0/4

2/6
1/6
2/6
1/6

Kelas
T
4

F
6

4/10

6/10

Tabel diatas menunjukkan frekuensi dari masing-masing kejadian. Seperti
contohnya, terdapat 2 contoh dari dataset pada Tabel 3.1 (tipe gambut =
Hemists/Saprists/Mineral | kelas = T). Setelah menghitung semua frekuensi,
tahapan berikutnya adalah membangun model Naive Bayes pada Tabel 13
dengan menghitung P(X|Ci) dan P(Ci), sebagi berikut:
P(tipe gambut = Hemists/Saprists/Mineral | kelas = T) = 2/4

23
Lanjutan
P(kelas = T) = 4/10
Setelah membangun model Naive Bayes, model tersebut dapat digunakan
untuk memprediksi berbagai kejadian, seperti “T” berdasarkan fakta-fakta yang
ada. Jika dilakukan observasi terhadap (tipe gambut = Hemists/Saprists/Mineral)
dan (kedalaman gambut = 800-1200), maka peluang posterior dapat
diestimasikan:
P[T|X] = P[tipe gambut = Hemists/Saprists/Mineral|T] × P[kedalaman gambut =
800-1200|T] × P[T]
=18/28 × 1/4 × 2/5
Peluang untuk T = 18/28 × 1/4 × 4/10 = 0.0642
Peluang untuk F = 1/7 × 5/12 × 6/10 = 0.0357
Pada model Naive Bayes terdapat nilai peluang 0. Untuk menangani kasus
ini dapat digunakan salah satu teknik smoothing yaitu Laplace estimation.
Berikut
implementasi
Laplace
estimation
untuk
atribut
“Hemists/Saprists/Mineral” ketika kelas = F dan kelas = T:
0 + μp1
P(tipe gambut=Hemists/Saprists/Mineral|kelas=F) =
6+μ
0 + μp2
P(tipe gambut=Hemists/Fibrists/Saprists|kelas=F) =
6+μ
0 + μp3
P(tipe gambut=Saprists/Mineral|kelas=F)
=
6+μ
3 + μp4
P(tipe gambut=Hemists/Fibrists|kelas=F)
=
6+μ
1 + μp5
P(tipe gambut=Hemists/Mineral|kelas=F)
=
6+μ
1 + μp6
P(tipe gambut=Hemists/Fibrists/Mineral|kelas=F) =
6+μ
1 + μp7
P(tipe gambut=Saprists/Hemists/Mineral|kelas=F) =
6+μ
dengan (p1 + p2 + p3 + p4 + p5 + p6 + p7) = 1. Oleh karena itu, p1 = p2 = p3 = p4 =
p5 = p6 = p7 = 1/7
0 + μ/
0 + 1/7
=
=
6+μ
6+7
1 + 1/4
1 + μ/4
P(kedalaman gambut=800-1200|kelas=F)
=
=
=
6+4
6+μ
2 + μ/7
2 + 1/7
P(tipe
=
=
=
gambut=Hemists/Saprists/Mineral|kelas=T)
4+μ
4+7
0 + μ/4
0 + 1/4
P(kedalaman gambut=800-1200|kelas=T)
=
=
=
4+μ
4+4
Berdasarkan
perhitungan
nilai
peluang
terhadap
(tipe
gambut=Hemists/Saprists/Mineral) dan (kedalaman gambut=800-1200) dapat
disimpulkan bahwa data tersebut masuk ke dalam kelas T.
P(tipe
gambut=Hemists/Saprists/Mineral|kelas=F)

=

24

RIWAYAT HIDUP
Penulis dilahirkan pada tanggal 26 Januari 1993 di Jakarta. Penulis
merupakan anak pertama dari tiga bersaudara dari pasangan Cendra Yevil dan
Herlina. Pada tahun 2010, penulis lulus dari SMA Negeri 1 Cilegon dan diterima di
Diploma Institut Pertanian Bogor melalui jalur SNMPTN Undangan di Program
Keahlian Teknik Komputer. Penulis lulus dari Diploma IPB tahun 2013. Pada tahun
2013, penulis lulus seleksi masuk program Sarjana Alih Jenis, Departemen Ilmu
Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian
Bogor.