Klasifikasi Kemunculan Titik Panas Pada Lahan Gambut Di Sumatera Dan Kalimantan Menggunakan Algoritme Random Forest

KLASIFIKASI KEMUNCULAN TITIK PANAS PADA LAHAN
GAMBUT DI SUMATERA DAN KALIMANTAN
MENGGUNAKAN ALGORITME RANDOM FOREST

RESA RUKMIGAYATRI

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Prediksi Klasifikasi
Kemunculan Titik Panas pada Lahan Gambut di Sumatera dan Kalimantan
Menggunakan Algoritme Random Forestadalah benar karya saya dengan arahan
dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada
perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya
yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam
teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Desember 2015
Resa Rukmigayatri
NIM G64134011

ABSTRAK
RESA RUKMIGAYATRI. Klasifikasi Kemunculan Titik Panas pada Lahan
Gambut di Sumatera dan Kalimantan Menggunakan Algoritme Random Forest.
Dibimbing oleh IMAS SUKAESIH SITANGGANG.
Pengelolaan lahan gambut dengan menanam jenis tanaman yang tidak sesuai
dengan karakteristik lahan gambut serta kebakaran menyebabkan lahan gambut
mengalami degradasi. Titik panas merupakan suatu indikator kebakaran hutan dan
lahan,meskipun tidak semua titik panas mengindikasikan kebakaran. Kemungkinan
kemunculan titik panas dapat diprediksi berdasarkan karakteristik lahan gambut.
Penelitian ini mengembangkan model klasifikasi dari kemunculan titik panas pada
lahan gambut di Sumatera dan Kalimantan pada periode 2001 sampai 2014
menggunakan algoritme Random Forest. Algoritme ini merupakan pengembangan
dari Classification and Regression Tree (CART). Penerapan algoritme Random
Forest pada dataset menghasilkan akurasi rata-rata model klasifikasi tahun 2001

untuk dataset Sumatera sebesar 87.40% dan 72.50% untuk dataset Kalimantan.
Model klasifikasi terbaik diterapkan pada data baru tahun 2015. Hasil klasifikasi
menunjukkan bahwa 60.80% data titik panas di Sumatera diklasifikasikan benar
dan 39.13% data titik panas di Kalimantan diklasifikasikan benar.
Kata kunci: klasifikasi model prediksi, random forest, titik panas

ABSTRACT
RESARUKMIGAYATRI. Classification of Hotspot Occurences on Peatland in
Sumatera and Kalimantan using Random Forest Algorithm. Supervised by IMAS
SUKAESIH SITANGGANG.
Peatland mismanagement by planting inappropriate plant and the peatland
fire cause peatland degradation. A hotspot is an indicator of forest and land fire.
However, not every hotspot actually indicates a fire. The possibility of hotspot
occurrences can be predicted based on the characteristics of the peatland. This
research developed a classification model of hotspot occurrences on Sumatera and
Kalimantan peatlands within 2001 to 2014 period using Random Forest algorithm.
The Random Forest algorithm is an improvement of Classification and Regression
Tree (CART). The implementation of the Random Forest algorithm on the dataset
resulted in average classification accuracy of 87.40% for Sumatera and 72.50% for
Kalimantan using 2001 data. The best classification model also tested using a new

data from 2015. The results show that 60.80% and 39.13% of hotspots in Sumatera
and Kalimantan, respectively, are correctly classified.
Keywords: hotspots, prediction model classification, random forest

KLASIFIKASI KEMUNCULAN TITIK PANAS PADA LAHAN
GAMBUT DI SUMATERA DAN KALIMANTAN
MENGGUNAKAN ALGORITME RANDOM FOREST

RESA RUKMIGAYATRI

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR

2015

Penguji :
1 Husnul Khotimah, SKomp, MKom
2 Muhammad Asyhar Agmalaro, SSi, MKom

Judul Skripsi : Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di
Sumatera dan Kalimantan Menggunakan Algortime Random Forest
Nama
: Resa Rukmigayatri
NIM
: G64134011

Disetujui oleh

Dr Imas Sukaesih Sitanggang, SSi, MKom
Pembimbing

Diketahui oleh


Dr Ir Agus Buono, MSi, MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah Subhana wa ta'ala.Shalawat
serta salam semoga senantiasa dilimpahkan kepada Nabi Muhammad, keluarganya,
sahabatnya, dan kepada kita yang selau berusaha menggapai ridha Allah.
Alhamdulillah atas bimbingan dan petunjuk dari Allah Subhana wa ta'ala
serta bimbingan dari semua pihak, penyusunan tugas akhir yang berjudul
“Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di Sumatera dan
Kalimantan Menggunakan Algoritme Random Forest” dapat diselesaikan. Tugas
akhir ini tidak mungkin dapat diselesaikan tanpa adanya bantuan dari berbagai
pihak. Oleh karena itu, penulis ingin mengucapkan terima kasih dan penghargaan
yang setinggi-tingginya kepada:
 Papa (Sabari Maryono), Mama (Aida Refni), adik-adikku Niken Safitri dan
Wahyu Agung Wicaksono, serta keluarga yang selalu mendoakan, memberi
nasihat, kasih sayang, semangat, dan dukungan sehingga penelitian ini bisa
diselelsaikan.

 Ibu Dr Imas Sukaesih Sitanggang, SSi, MKom selaku pembimbing yang telah
memberi saran, masukan dan ide-ide dalam penelitian ini.
 IbuHusnul Khotimah, SKomp, MKom dan Bapak Muhammad Asyhar
Agmalaro, SSi, MKom sebagai penguji.
 Pihak Wetlands International yang telah memberikan izin untuk menggunakan
data lahan gambut Sumatera dan Kalimantan.
 Teman seperjuangan Elin, Fitri, dan Dhita yang telah memberikan semangat dan
masukan.
 Departemen Ilmu Komputer IPB, staf dan dosen yang telah banyak membantu
selama masa perkuliahan hingga penelitian.
Semoga penelitian ini bermanfaat.

Bogor, Desember 2015
Resa Rukmigayatri

DAFTAR ISI
DAFTAR TABEL

x


DAFTAR GAMBAR

x

DAFTAR LAMPIRAN

x

PENDAHULUAN

1

Latar Belakang

1

Perumusan Masalah

1


Tujuan Penelitian

2

Manfaat Penelitian

2

Ruang Lingkup Penelitian

2

METODE

2

Data Penelitian

2


Tahapan Penelitian

4

Pengumpulan Data

4

Praproses Data

5

Pembagian Data

6

Pembuatan Model Klasifikasi Menggunakan Algoritme Random Forest

6


Perhitungan Akurasi

8

Penerapan Model Klasifikasi pada Data Baru

8

Peralatan Penelitian
HASIL DAN PEMBAHASAN

8
8

Praproses Data

8

Pembagian Data


12

Pembuatan model klasifikasi menggunakan algoritme Random Forest

12

Perhitungan Akurasi

14

Penerapan pada Model Data Baru

14

SIMPULAN DAN SARAN

15

Simpulan

15

Saran

16

DAFTAR PUSTAKA

16

RIWAYAT HIDUP

34

DAFTAR TABEL
1 Atribut dari titik panas
3
2 Luas lahan gambut berdasarkan tipe gambut di Sumatera
5
3 Luas lahan gambut berdasarkan tipe gambut di Kalimantan
5
4 Akurasi rata-rata model klasifikasi untuk dataset tahun 2001 sampai
2014
13
5 Model klasifikasi terbaik pada datast Sumatera tahun 2001
13
6 Model klasifikasi terbaik pada dataset Kalimantan tahun 2001
14
7 Confusion matrix untuk klasifikasi pada data Sumatera tahun 2015 15
8 Confusion matrix untuk klasifikasi pada data Kalimantan tahun
2015
15

DAFTAR GAMBAR
1
2
3
4
5
6
7
8

Lahan gambut di Sumatera
3
Lahan gambut di Kalimantan
4
Tahapan penelitian
6
Arsitektur umum Random Forest (Verikas et al. 2011)
7
Zona sistem koordinat di Indonesia (Oswald dan Astrini 2012)
9
Jumlah titik panas per tahun
10
Hasil buffer titik panas
10
Hasil pembangkitan random point (non titik panas) disekitar titik
panas
11

DAFTAR LAMPIRAN
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

Contoh dataset sederhana untuk wilayah Kalimantan
Akurasi model untuk dataset pulau Sumatera tahun 2001
Akurasi model untuk dataset pulau Sumatera tahun 2002
Akurasi model untuk dataset pulau Sumatera tahun 2003
Akurasi model untuk dataset pulau Sumatera tahun 2004
Akurasi model untuk dataset pulau Sumatera tahun 2005
Akurasi model untuk dataset pulau Sumatera tahun 2006
Akurasi model untuk dataset pulau Sumatera tahun 2007
Akurasi model untuk dataset pulau Sumatera tahun 2008
Akurasi model untuk dataset pulau Sumatera tahun 2009
Akurasi model untuk dataset pulau Sumatera tahun 2010
Akurasi model untuk dataset pulau Sumatera tahun 2011
Akurasi model untuk dataset pulau Sumatera tahun 2012
Akurasi model untuk dataset pulau Sumatera tahun 2013
Akurasi model untuk dataset pulau Sumatera tahun 2014
Akurasi model untuk dataset pulau Kalimantan tahun 2001
Akurasi model untuk dataset pulau Kalimantan tahun 2002

18
24
24
24
25
25
25
26
26
26
27
27
27
28
28
28
29

18
19
20
21
22
23
24
25
26
27
28
29

Akurasi model untuk dataset pulau Kalimantan tahun 2003
Akurasi model untuk dataset pulau Kalimantan tahun 2004
Akurasi model untuk dataset pulau Kalimantan tahun 2005
Akurasi model untuk dataset pulau Kalimantan tahun 2006
Akurasi model untuk dataset pulau Kalimantan tahun 2007
Akurasi model untuk dataset pulau Kalimantan tahun 2008
Akurasi model untuk dataset pulau Kalimantan tahun 2009
Akurasi model untuk dataset pulau Kalimantan tahun 2010
Akurasi model untuk dataset pulau Kalimantan tahun 2011
Akurasi model untuk dataset pulau Kalimantan tahun 2012
Akurasi model untuk dataset pulau Kalimantan tahun 2013
Akurasi model untuk dataset pulau Kalimantan tahun 2014

29
29
30
30
30
31
31
31
32
32
32
33

PENDAHULUAN
Latar Belakang
Indonesia merupakan negara yang mempunyai lahan gambut seluas
32.656.106 Ha (Suwanto et al. 2010). Penyebaran lahan gambut tersebut meliputi
pulau Sumatera, Kalimantan, Sulawesi, Papua, dan Jawa. Gambut adalah material
organik yang terbentuk dari sisa-sisa tumbuhan yang telah mengalami dekomposisi
dan terakumulasi di daerah rawa atau genangan air (Suwanto et al. 2010).
Kemampuan gambut dalam menyerap air relatif tinggi, oleh karena itu lahan
gambut alaminya tidak mudah terbakar. Namun, keseimbangan ekologis dapat
terganggu dengan adanya konversi lahan atau pembuatan kanal. Pada musim
kemarau, kondisi lahan gambut akan sangat kering sampai kedalaman tertentu dan
hal ini yang menyebabkan lahan mudah terbakar. Terbakarnya lahan gambut
mengakibatkan kerugian besar, seperti kebakaran lahan gambut yang terjadi di Riau
pada bulan Maret tahun 2014.
Menurut Adinugroho et al. (2005) kebakaran lahan dapat diketahui melalui
suatu indikator yaitu titik panas. Dengan indikator titik panas kebakaran hutan dapat
diprediksi dan hal ini dapat membantu pencegahan terjadinya kebakaran. Salah satu
teknik data mining yang dapat dilakukan untuk memprediksi kemunculan titik
panas klasifikasi.
Penelitian mengenai model klasifikasi untuk titik panas yang dilakukan oleh
Sitanggang dan Ismail (2011) menggunakan algoritme Decision Tree dengan hasil
akurasi sebesar 63.17%. Pada penelitian Fernando dan Sitanggang (2014),
pemodelan klasifikasi data spasial kemunculan titik panas dilakukan dengan
menggunakan algoritme ID3. Penelitian tersebut membuat model klasifikasi dan
memprediksi kemunculan titik panas di Provinsi Riau pada tahun 2005. Penelitian
berikutnya yang pernah dilakukan oleh Nurpratami dan Sitanggang (2015)
menggunakan algoritme pohon keputusan untuk memprediksi kejadian titik panas
pada Kabupaten Bengkalis, Provinsi Riau. Penelitian tersebut menghasilkan model
dengan rata-rata akurasi sebesar 89.04% untuk data latih dan 52.05% untuk data
uji. Model klasifikasi dari ketiga penelitian tersebut baru diimplementasikan dalam
bentuk single tree.
Pada penelitian ini dibangun model klasifikasi kemunculan titik panas pada
lahan gambut di Sumatera dan Kalimantan menggunakan algoritme Random
Forest. Algoritme Random Forest merupakan salah satu metode klasifikasi yang
merupakan pengembangan dari Classification and Regression Tree (CART), yaitu
dengan menerapkan metode bootstrap aggregating bagging dan random feature
selection (Breiman 2001).

Perumusan Masalah
Rumusan masalah pada penelitian ini adalah bagaimana algoritme Random
Forest digunakan untuk klasifikasi kemunculan titik panas pada lahan gambut di
Sumatera dan Kalimatan.

2
Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1 Menerapkan algoritme Random Forest pada data titik panas di lahan gambut di
Sumatera dan Kalimantan.
2 Evaluasi akurasi model klasifikasi untuk prediksi kemunculan titik panas di
lahan gambut di pulau Sumatera dan Kalimantan.

Manfaat Penelitian
Manfaat dari penelitian ini adalah bahwa model klasifikasi yang dihasilkan
dapat digunakan untuk mendapatkan karakteristik lahan gambut di lokasi titik panas
terjadi. Informasi ini berguna bagi pihak terkait untuk pencegahan kebakaran hutan.

Ruang Lingkup Penelitian
Ruang lingkup dari penelitian ini adalah:
1 Pembentukan model klasifikasi menggunakan algoritme Random Forest pada
data titik panas dan lahan gambut wilayah Sumatera dan Kalimantan.
2 Karakteristik lahan gambut yang dianalisis adalah tipe lahan gambut (legend),
ketebalan gambut, dan tutupan lahan (landuse).
3 Implementasi klasifikasi model yang digunakan yaitu package randomForest
yang tersedia di R.

METODE
Data Penelitian
Data yang digunakan pada penelitian ini adalah data lahan gambut pulau
Sumatera dan Kalimantan dari tahun 1990-2002 yang didapatkan dari Wetlands
International–Indonesia Programme (WI-IP) dalam format shp. Sementara itu,
data titik panas dari tahun 2001-2015 diperoleh dari Fire Information for Resource
Management System (FIRMS) MODIS NASA dalam format csv. Data titik panas
terdiri dari 12 atribut dan tipe dari masing-masing atribut dapat dilihat pada Tabel
1. Sementara itu, peta lahan gambut di Sumatera dan Kalimantan dapat dilihat pada
Gambar 1 dan Gambar 2. Pemilihan atribut dari titik panas dan lahan gambut
berdasarkan penelitian yang dilakukan oleh Sitanggang et al. (2012) serta
berdasarkan ketersediaan data yang diperoleh dari WI-IP dan FIRMS.
Atribut titik panas (Tabel 1) yang digunakan untuk pengolahan data pada
penelitian ini adalah Latitude, Longitude, dan Confidence. Latitude dan Longitude
dibutuhkan untuk menunjukkan posisi dari titik panas yang terjadi. Sementara itu,
confidence digunakan untuk seleksi titik panas yang diindikasikan kuat sebagai
kebakaran.

3

No
1
2
3
4
5
6
7
8
9
10
11
12

Tabel 1 Atribut dari titik panas
Atribut
Tipe
Latitude
Numerik
Longitude
Numerik
Brigthness
Numerik
Scan
Numerik
Track
Numerik
Acq_date
Date
Acq_time
Character varying (5)
Satelite
Character varying (1)
Confidence
Integer
Version
Character varying (3)
Bright_T31
Numerik
FRP
Numerik

Gambar 1 Lahan gambut di Sumatera
Data lahan gambut berdasarkan tingkat dekomposisi bahan organiknya
dibedakan menjadi 3 yaitu fibrists, hemists, dan saprists (Suwanto et al. 2010). Tipe
lahan gambut fibrists adalah gambut yang masih muda dengan tingkat pelapukan
awal dan lebih dari 3/4 bagian volumenya berupa serat kasar, air perasan berwarna
bening. Tipe gambut hemists adalah gambut yang mempunyai tingkat pelapukan
sedang, bagian yang masih berupa serat kasar sekitar 1/4 hingga kurang dari 3/4
bagian, air perasan berwarna coklat dan mengandung bahan yang tidak larut.

4

Gambar 2 Lahan gambut di Kalimantan
Tipe gambut saprists adalah gambut yang tingkat pelapukannya sudah lanjut
(matang), berupa serat kasar kurang dari 1/4 bagian, dan air perasan berwarna hitam.
Tiga jenis lahan gambut yang berada di Sumatera dan Kalimantan dapat dilihat pada
Gambar 1 dan Gambar 2. Pada Gambar 1 terdapat keterangan Fibrists/Saprists
(60/40), sedang. Maksud dari keterangan tersebut adalah Fibrists dan Saprists
adalah tipe lahan gambut, 60/40 merepresentasikan kombinasi dari Fibrists sebesar
60% dan Saprists sebesar 40%, kemudian "sedang" menunjukkan ketebalan dari
lahan gambut tersebut. Ketebalan dari lahan gambut dibagi menjadi 5 yaitu sangat
dangkal (D0), dangkal (D1), sedang (D2), dalam (D3), dan sangat dalam (D4). D0
merupakan kedalaman lahan gambut < 50 cm. D1 kedalaman lahan gambut antara
10-50 cm, kedalaman lahan gambut D2 100-200 cm, D3 sedalam 200-400cm, dan
kedalaman lahan gambut D4 > 400 cm. Pada Tabel 2 dan Tabel 3 dapat dilihat luas
area (Ha) dari setiap tipe lahan gambut dari pulau Sumatera dan Kalimantan. Tipe
lahan gambut yang berada di Sumatera berjumlah 28 dan tipe lahan gambut di
Kalimantan berjumlah 7.

Tahapan Penelitian
Tahapan-tahapan yang dilakukan pada penelitian ini dapat dilihat pada
Gambar 3.
Pengumpulan Data
Pada tahap pengumpulan data, semua data dari WI-IP dan FIRMS dikumpulkan
untuk praproses data. Pada penelitian ini terdapat 2 format data yang akan diproses
yaitu dalam format csv dan shp. Perbedaan yang terdapat antara lahan gambut di
Sumatera dengan lahan gambut di Kalimantan yaitu data lahan gambut Sumatera
terdiri dari 3 atribut (legend, landuse, dan ketebalan). Sementara itu, pada data lahan
gambut di Kalimantan terdiri dari 2 atribut (legend dan ketebalan).

5

No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28

Tabel 2 Luas lahan gambut berdasarkan tipe gambut di Sumatera
Tipe Gambut
Luas (Ha)
Hemists/Saprists (60/40), sedang
1.490.145.52
Saprists/min (50/50), dangkal
16.859.44
Saprists/Hemists (60/40), sedang
18.698.39
Saprists/min (30/70), sedang
9.911.10
Saprists/min (90/10), sedang
178.408.66
Hemists (100), dalam
2.200.51
Hemists/Saprists (60/40), dalam
639.263.34
Hemists (100), sedang
86.697.37
Saprists/min (50/50), dalam
7.748.19
Hemists/min (90/10), sangat dalam
30.179.83
Hemists/Saprists (60/40), sedang
211.082.31
Hemists/min (30/70), dangkal
308.112.73
Hemists/Saprists (60/40), sangat dalam
957.561.63
Saprists/Hemists (60/40), dalam
553.762.97
Saprists/Hemists (60/40), sedang
236.659.27
Hemists/min (90/10), dangkal
7.950.21
Hemists/Saprists (60/40), dangkal
49.355.05
Hemists/min (70/30), sedang
91.797.22
Saprists/min (30/70), dalam
12.671.89
Hemists/min (90/10), sedang
0.63
Hemists/min (50/50), dangkal
2.218.86
Saprists/min (50/50), sedang
118.152.46
Hemists/min (90/10), sedang
578.525.94
Fibrists/Saprists (60/40), sedang
10.721.84
Saprists/Hemists (60/40), sangat dalam
1.181.264.70
Hemists/min (30/70), sedang
308.958.76
Saprists (100), sedang
87.885.62
Saprists (100), dalam
35.182.65

No
1
2
3
4
5
6
7

Tabel 3 Luas lahan gambut berdasarkan tipe gambut di Kalimantan
Tipe Gambut
Luas (Ha)
Hemists/Fibrists
4.070.888.40
Hemists/Fibrists/Mineral
388.442.91
Hemists/Mineral
922.584.25
Saprists/Mineral
108.626.03
Saprists/Hemists/Mineral
132.833.32
Hemists/Saprists/Mineral
133.670.40
Hemists/Fibrists/Saprists
3.028.59

Praproses Data
Terdapat beberapa tahapan dalam praproses data yaitu pembersihan data,
seleksi variabel data, dan penggabungan data. Pembersihan data dilakukan untuk
menghilangkan missing value. Seleksi variabel data dilakukan untuk mendapatkan
data yang relevan dan penggabungan data sesuai dengan bentuk yang digunakan.
Variabel yang diseleksi meliputi legend, landuse, dan ketebalan. Pada tahapan ini

6
dilakukan penambahan variabel class dan digunakan saat pembuatan model
klasifikasi.

Gambar 3 Tahapan penelitian
Pembagian Data
Pembagian data pada tahapan penelitian dibagi menjadi data latih dan data
uji. Metode yang digunakan dalam pembagian data adalah K-fold cross validation
dengan nilai K=10, sehingga 10% dari data akan dijadikan sebagai data uji. Menurut
Fu (1994) K-fold cross validation merupakan metode yang membagi himpunan
contoh secara acak menjadi K himpunan bagian.
Pembuatan Model Klasifikasi Menggunakan Algoritme Random Forest
Algoritme Random Forest (RF) merupakan pengembangan dari metode
Classification and Regression Tree (CART) dengan menerapkan metode bootstrap
aggregating (bagging) dan random feature selection (Breiman 2001). Algoritme
RF merupakan algoritme yang cocok digunakan untuk klasifikasi data yang besar
dan pada algoritme RF tidak terdapat pruning atau pemangkasan variabel seperti
pada algoritme decision tree. Metode RF menggabungkan banyak pohon (tree)
tidak seperti single tree yang hanya terdiri dari satu pohon untuk membuat
klasifikasi dan prediction class. Pada RF pembentukan tree dilakukan dengan cara
melakukan training sampel data. Sampling with replacement adalah cara yang
digunakan untuk mengambil sampel data. Pemilihan variabel yang digunakan untuk
split diambil secara acak. Klasifikasi dijalankan setelah semua tree terbentuk.
Penentuan klasifikasi pada RF ini diambil berdasarkan vote dari masing-masing

7
tree dan vote terbanyak yang menjadi pemenang. Arsitektur umum dari RF dapat
dilihat pada Gambar 4.

Gambar 4 Arsitektur umum Random Forest (Verikas et al. 2011)
Berikut ini adalah prosedur atau algoritme untuk membangun Random Forest
pada gugus data yang terdiri dari n amatan dan p peubah penjelas (Breiman 2001;
Breiman dan Cutler 2003):
1 Lakukan penarikan contoh acak berukuran n dengan pemulihan pada gugus
data. Langkah ini dinamakan dengan bootstrap (bag).
2 Dengan menggunakan contoh bootstrap, pohon dibangun sampai mencapai
ukuran maksimum yaitu tanpa pemangkasan (pruning). Pembangunan
pohon dilakukan dengan menerapkan random feature selection yaitu m
peubah penjelas dipilih secara acak dengan m 70. Hasil pembangkitan random point (non titik panas) di sekitar titik
panas dapat dilihat pada Gambar 8.

11

Gambar 8 Hasil pembangkitan random point (non titik panas) disekitar titik
panas
Praproses selanjutnya dilakukan import data lahan gambut, data titik panas,
non titik panas ke PostgreSql. Query untuk menambahkan class T dan F pada
dataset sebagai berikut:
update titikpanassumatera2_2001_rep
set class=’T’;
update false_alarm_2001_rep
set class=’F’;
Tabel target dibuat dengan query sebagai berikut:
CREATE TABLE target2001_1 AS
SELECT
gid,the_geom,longitude,latitude,confidence,class
FROM titikpanassumatera2_2001_rep
Proses selanjutnya yaitu menggabungkan data non titik panas ke dalam tabel target.
Penggabungan data dilakukan dengan menggunakan query sebagai berikut:
INSERT INTO target2001_1 (gid,the_geom,class)
SELECT gid,the_geom,class
FROM false_alarm_2001_rep;
Perbandingan jumlah titik panas (T) dan non titik panas (F) pada lahan
gambut adalah seimbang. Langkah selanjutnya adalah mengganti nama atribut gid
pada target2001_1 menjadi gid2, kemudian menambahkan gid auto number dengan
cara sebagai berikut:
ALTER TABLE target2001_1 ADD COLUMN gid BIGSERIAL
PRIMARY KEY;
Hal ini dilakukan agar gid asli dari data target tidak berubah. Tahapan selanjutnya
adalah pembuatan dataset yang diambil dari tabel target dan tabel lahan gambut.
Query yang digunakan sebagai berikut:
CREATE TABLE dataset1 AS
SELECT t.gid,t.gid2,t.the_geom,t.confidence,g.legend,
g.landuse,g.ketebalan
FROM target2001_1 as t,gambutsumatera1_out as g

12
WHERE ST_Within(t.the_geom, g.the_geom) ORDER BY
t.gid;
Dataset1 terdiri dari 7 variabel yaitu gid, gid2, the_geom, confidence, legend,
landuse, dan ketebalan. Variabel legend menunjukkan tipe dari lahan gambut.
Dataset yang akan diolah untuk klasifikasi terdiri dari 4 variabel yaitu class, legend,
landuse, dan ketebalan. Query untuk membuat dataset yang digunakan untuk
tahapan klasifikasi menggunakan algoritme Random Forest tersebut sebagai
berikut:
CREATE TABLE dataset3 AS
SELECT t.class,g.legend,g.landuse,g.ketebalan
FROM target2001_1 as t,gambutsumatera1_out as g
WHERE ST_Within(t.the_geom, g.the_geom);

Pembagian Data
Pembagian data latih dan data uji pada dataset menggunakan 10-fold cross
validation. Data yang digunakan merupakan dataset yang sudah tidak mengandung
missing value. Dataset dibagi menjadi 10 bagian (fold). Pembentukan model
klasifikasi dilakukan menggunakan data latih. Sementara itu, hasil akurasi model
klasifikasi diperoleh dari data uji.

Pembuatan model klasifikasi menggunakan algoritme Random Forest
Jumlah tree yang akan dibangun pada algoritme Random Forest sebanyak
100. Sementara itu, pembagian untuk setiap node sebanyak 3, berdasarkan jumlah
variabel penjelas. Berikut ini adalah pernyataan yang digunakan untuk membangun
model menggunakan algoritme Random Forest:
>library (randomForest)
>set.seed(100)
>trainData1 testData1 rf1tmp.predict.rf1 conf.mat1 accuracy.percent.test1