Klasifikasi Lahan Gambut yang Terbakar di Kabupaten Ogan Komering Ilir Menggunakan Algoritme Random Forest dan Algoritme C5.0.

KLASIFIKASI LAHAN GAMBUT YANG TERBAKAR DI
KABUPATEN OGAN KOMERING ILIR MENGGUNAKAN
ALGORITME RANDOM FOREST DAN ALGORITME C5.0

MELIANA O. MEO

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa tesis berjudul Klasifikasi Lahan Gambut
yang Terbakar di Kabupaten Ogan Komering Ilir Menggunakan Algoritme Random
Forest dan Algoritme C5.0 adalah benar karya saya dengan arahan dari komisi
pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi
mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan
maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan
dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, September 2016
Meliana O. Meo
NIM G651140201

RINGKASAN
MELIANA O. MEO. Klasifikasi Lahan Gambut yang Terbakar di Kabupaten Ogan
Komering Ilir Menggunakan Algoritme Random Forest dan Algoritme C5.0.
Dibimbing oleh IMAS SUKAESIH SITANGGANG dan AGUS BUONO.
Kebakaran hutan atau lahan di Indonesia tidak terjadi hanya pada lahan kering
saja, tetapi terjadi juga pada lahan basah seperti lahan gambut. Kebakaran di lahan
gambut lebih berbahaya dan sulit diatasi dibandingkan dengan kebakaran di daerah
non-gambut, selain itu dampak dari kebakaran lahan gambut sangat merugikan
masyarakat. Salah satu cara yang memungkinkan kita untuk mengetahui kondisi
kebakaran hutan dan lahan gambut adalah dengan memanfaatkan teknologi
penginderaan jauh. Citra satelit yang dihasilkan dari penginderaan jauh dapat
dianalisis melalui proses klasifikasi.
Tujuan dari penelitian ini adalah membangun model klasifikasi menggunakan
algoritme Random Forest (RF) dan algoritme C5.0 untuk mengklasifikasikan area
lahan gambut sebelum terbakar, terbakar, dan setelah terbakar pada citra satelit

Landsat 7 ETM+ dengan tanggal akusisi citra yaitu 6 September 2015. Area yang
digunakan adalah Kabupaten Ogan Komering, Provinsi Sumatera Selatan. Model
yang dibangun menggunakan 2 algoritme tersebut akan dianalisis untuk mengetahui
algoritme yang terbaik dalam mengklasifikasi lahan gambut yang terbakar sehingga
dapat dimanfaatkan untuk mengestimasi luasan lahan gambut yang terbakar.
Penelitian ini terdiri dari tiga pekerjaan utama yaitu praproses citra satelit,
proses klasifikasi citra dan analisis hasil klasifikasi. Hasil penelitian ini menunjukan
bahwa algoritme RF memiliki akurasi terbaik, yaitu sebesar 97.26% dan nilai
koefisien Kappa sebesar 0.97. Algoritme C5.0 memiliki akurasi sebesar 97.10%
dan nilai Kappa sebesar 0.96 serta menghasilkan 27 aturan yang dapat digunakan
untuk mengetahui karakteristik band dari kelas sebelum terbakar, terbakar, dan
setelah terbakar pada citra satelit Landsat 7 ETM+.
Dari aturan yang dihasilkan dapat diketahui bahwa kelas sebelum terbakar
memiliki nilai band 7 lebih besar dari 40 dan lebih kecil dari atau sama dengan 101,
band 4 memiliki nilai lebih besar dari 73, dan band 2 memiliki nilai lebih kecil dari
atau sama dengan 123. Kelas terbakar memiliki nilai band 7 lebih besar dari 78,
band 4 memiliki nilai lebih besar dari 94 dan lebih kecil dari atau sama dengan 149
dan band 2 memiliki nilai lebih besar dari 75. Kelas setelah terbakar memiliki nilai
band 7 lebih besar dari 40 dan lebih kecil dari atau sama dengan 166, band 4
memiliki nilai lebih kecil atau sama dengan 119 dan band 2 memiliki nilai lebih

kecil dari atau sama dengan 82. Kelas awan memiliki nilai band 4 nilai lebih besar
94, dan band 2 memiliki nilai lebih besar 83.
Selain itu, hasil penelitian menunjukan bahwa total estimasi luasan lahan gambut
di kabupaten Ogan Komering Ilir, Sumatera Selatan pada tanggal 6 September 2015
dengan menggunakan algoritme C5.0 adalah 7 119.995 km2 pada kelas sebelum
terbakar, 689.895 km2 pada kelas terbakar dan 2 155.300 km2 pada kelas setelah
terbakar.

Kata kunci: C5.0, kebakaran hutan, klasifikasi, lahan gambut, Random Forest

SUMMARY
MELIANA O. MEO. Classification of Burned Peatland in Ogan Komering Ilir
District using Random Forest Algorithm and C5.0 Algorithm. Supervised by IMAS
SUKAESIH SITANGGANG and AGUS BUONO.
Forest or land fires in Indonesia are not only occurred in dry lands but also in
peatlands. Peatland fires are more dangerous and more difficult to overcome
compared to non-peatland fires and the impacts of peatland fires are very harmful
to society. One of the solutions in assessing forest and peatland fires is remote
sensing technology. Satellite images obtained from remote sensing technology are
usually classified for further analysis.

The main objective of this study is to develop a classification model using
Random Forest (RF) algorithm and C5.0 algorithm to classify area in peatland
before, during and after being burned on the satellite image Landsat 7 ETM + with
the acquisition date September 6th 2015 The study area is Ogan Komering Ilir
District, South Sumatera Province. The classification models that built using RF
algorithm and C5.0 algorithm were analyzed to determine the best algorithm to
classify peat fires.
There are three main steps of this research. These steps include satellite image
preprocessing, image classification and classification result analysis. The
experimental results showed that the RF algorithm generate the most accurate
classifier with the accuracy of 97.26% and a Kappa value of 0.97. In addition, the
C5.0 algorithm results a classifier with the accuracy of 97.10% and Kappa value of
0.96. The C5.0 algorithm produces 27 rules that can be used to determine the
characteristics of the beforeburned class, burned class, and after burned class on the
satellite image Landsat 7 ETM +.
Based on the generatedrules, it can be known that pixels with the before
burned class have values of band 7 greater than 40 and less than or equal to 101,
band 4 greater than 73, and band 2 less than or equal to 123. Pixels with the burned
class have values of band 7 is greater than 78, band 4 greater than 94 and less than
or equal to 149 and band 2 greater than 75. Pixels with the after burned class have

values of band 7 greater than 40 and less than or equal to 166, band 4 less than or
equal to 119 and band 2 less than or equal to 82. Pixels with the cloud class have
values of band 4 greater than 94, and band 2 greater than 83.
In addition, this research results the estimated total area of peat based on the
C5.0 classifier on September 6th 2015 in Ogan Komering Ilir District, South
Sumatera is 7 119.995 km2 at the before burned class, 689.895 km2 at the burned
class and 2 155.300 km2 at the after burned class.

Keywords: C5.0, classification, forest fire, peatland, Random Forest

© Hak Cipta Milik IPB, Tahun 2016
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau
menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB

KLASIFIKASI LAHAN GAMBUT YANG TERBAKAR DI

KABUPATEN OGAN KOMERING ILIR MENGGUNAKAN
ALGORITME RANDOM FOREST DAN ALGORITME C5.0

MELIANA O. MEO

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Komputer
pada
Program Studi Ilmu Komputer

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016

Penguji Luar Komisi pada Ujian Tesis: Dr Eng Wisnu Ananta Kusuma, ST MT

PRAKATA
Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Kuasa atas

segala karunia-Nya sehingga penulis dapat menyelesaikan tesis ini. Tesis ini
disusun sebagai laporan penelitian yang telah dilakukan penulis sejak bulan
Agustus 2015 dengan judul Klasifikasi Lahan Gambut yang Terbakar di Kabupaten
Ogan Komering Ilir Menggunakan Algoritme Random Forest dan Algoritme C5.0.
Keberhasilan penulis menyelesaikan tesis ini tentunya tidak lepas dari
bantuan serta dukungan berbagai pihak, baik secara langsung maupun tidak
langsung. Oleh karena itu, pada kesempatan ini penulis ingin mengucapkan terima
kasih yang sebesar-besarnya kepada pihak-pihak yang telah membantu
penyelesaian tesis ini, antara lain :
1. Kedua orang tua tercinta Bapak Fransiskus Meo, Mama Tresia Go Ai Tjen,
Kak Ika, Kak Ambo, Adik Rina, suamiku Donzilio Antonio Meko dan anakku
tercinta Marcello yang selalu memberikan dukungan, semangat serta doa demi
kelancaran penyusunan laporan tesis ini.
2. Ibu Dr Imas Sukaesih Sitanggang, SSi MKom dan Bapak Dr. Ir. Agus Buono,
MSi MKom selaku dosen pembimbing I dan II yang selalu bersedia
memberikan waktu untuk membantu dan membimbing penulis dalam
menyelesaikan tugas akhir ini.
3. Dr Eng Wisnu Ananta Kusuma, ST MT selaku dosen penguji yang telah
memberikan arahan dan masukan untuk perbaikan tesis ini.
4. Teman-teman mahasiswa Magister Ilmu Komputer angkatan 2014 khususnya

Nalar Istiqomah dan Putri Thariqa yang telah membantu dan memberi masukan
kepada penulis dalam pengolahan data citra.
5. Direktorat Jenderal Pendidikan Tinggi yang telah memberikan beasiswa
melalui program BPP-DN.
Semoga karya ilmiah ini bermanfaat.

Bogor, September 2016
Meliana O. Meo

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN


vi

1 PENDAHULUAN
Latar Belakang
Perumusan Masalah
Tujuan Penelitian
Manfaat Penelitian
Ruang Lingkup Penelitian

1
1
2
3
3
3

2 TINJAUAN PUSTAKA
Kebakaran Lahan Gambut
Satelit Landsat dan Citra Satelit
Klasifikasi Data Citra Satelit

Pohon Keputusan
Algoritme C5.0
Algoritme Random Forest

3
3
4
5
6
7
8

3 METODOLOGI
Area Studi
Bahan
Peralatan Penelitian
Tahapan Penelitian

9
9

9
10
10

4 HASIL DAN PEMBAHASAN
Praproses Citra
Klasifikasi Citra
Klasifikasi Menggunakan Algoritme Random Forest dan C5.0
Analisis Perbandingan Model Klasifikasi

14
14
16
17
19

5 KESIMPULAN
Simpulan
Saran

23
23
23

DAFTAR PUSTAKA

24

LAMPIRAN

26

RIWAYAT HIDUP

45

DAFTAR TABEL
1 Karakteristik sensor Landsat 7 ETM+
2 Confusion matrix
3 Jumlah piksel area contoh
4 Akurasi rata-rata hasil klasifikasi model Random Forest
5 Akurasi rata-rata model berbasis pohon keputusan
6 Akurasi rata-rata model berbasis aturan
7 Perbandingan akurasi algoritme C5.0 dan RF
8 Kesalahan komisi algoritme C5.0 dan RF
9 Kesalahan omisi algoritme C5.0 dan RF
10 Confusion matrix untuk classifier dari algoritme C5.0
11 Confusion matrix untuk classifier dari algoritme RF
12 Estimasi luasan lahan gambut dengan algoritme RF
13 Estimasi luasan lahan gambut dengan algoritme C5.0

4
13
16
17
18
18
19
19
20
20
20
21
21

DAFTAR GAMBAR
1 Tampilan gelombang spektrum Landsat 7ETM+ (GDSC 2010).
2 Tampilan digital number (DN) pada citra (NASA 2006)
3 Skema klasifikasi terbimbing (Lillesand at el. 2004)
4 Pohon keputusan
5 Arsitektur umum Random Forest (Verikas et al. 2011)
6 Tahapan penelitian
7 Proses pengisian gap
8 Proses kombinasi band
9 Tahapan penentuan citra
10 Contoh kelas tutupan lahan
11 Perbandingan citra hasil klasifikasi

4
5
6
6
8
11
14
15
15
16
21

DAFTAR LAMPIRAN
1 Pembentukan tree dengan algoritme pohon keputusan
2 Pembentukan tree dengan algoritme Random Forest
3 Contoh hasil ekstraksi nilai DN
4 Contoh training area
5 Confusion matrix Data Uji 10 Fold pada Algoritme C5.0
6 Confusion matrix Data Uji 10 Fold pada Algoritme RF

27
33
40
40
41
43

1 PENDAHULUAN
Latar Belakang
Lahan gambut merupakan salah satu tipe lahan basah yang memiliki potensi
besar dalam mendukung kehidupan manusia serta alam sekitarnya. Lahan gambut
terdiri atas timbunan bahan-bahan organik yang berasal dari sisa-sisa tumbuhan
yang telah mati dan membusuk (Wetlands 2011). Lahan gambut dapat tumbuh di
berbagai negara, termasuk di Indonesia. Lahan gambut di Indonesia tersebar di
beberapa pulau antara lain pulau Sumatera, Kalimantan dan Papua (BB Litbang
SDLP 2011). Saat ini luasan lahan gambut di Indonesia khususnya di pulau
Sumatera dan Kalimantan mengalami degradasi. Penyebab dari degradasi ini dapat
berupa kejadian alamiah dan aktivitas manusia. Salah satu penyebab degradasi
hutan adalah kebakaran.
Pada bulan September 2015, Badan Penanggulangan Bencana Daerah
(BPBD) Kabupaten Ogan kemering Ilir mendeteksi sebanyak 234 titik panas yang
tersebar di 10 kecamatan (Rohali 2015). Menurut analisis Greenpeace (2014)
frekuensi titik panas memiliki jumlah lima kali lebih banyak pada lahan gambut
dibandingkan dengan tanah mineral (lahan kering). Kebakaran di lahan gambut
sangat sulit diatasi dan lebih berbahaya dibandingkan dengan kebakaran pada lahan
non gambut hal ini disebabkan karena kebakaran di lahan gambut termasuk dalam
tipe kebakaran bawah (ground fire). Kebakaran gambut (ground fire) sulit diketahui
sebarannya, karena kebakaran terjadi di bawah permukaan tanah dan tidak terlihat
adanya nyala api sehingga sulit untuk diamati selain itu juga lapisan gambut yang
terbakar akan bertahan lama dan menghasilkan asap tebal (Syaufina 2008).
Penyebab kebakaran sering kali tidak dapat ditentukan dengan pasti, namun
kebakaran-kebakaran yang terjadi hampir selalu disebabkan oleh ulah manusia
seperti pembukaan lahan dengan cara membakar. Kebakaran hutan telah
memberikan dampak yang cukup serius yaitu adanya akumulasi asap di atas Pulau
Sumatera dan Kalimantan yang mengganggu kesehatan, menganggu kelancaran
lalu lintas penerbangan, transportasi darat dan air, bahkan adanya keluhan dari
negara tetangga (Syaufina 2008). Besarnya angka kerugian akibat kebakaran
menuntut kita untuk melakukan usaha pencegahan dan pengendalian kebakaran
secara terus menerus.
Upaya pencegahan menjadi prioritas utama dalam penanggulangan
kebakaran hutan khususnya untuk daerah-daerah yang menjadi zona kebakaran
salah satunya yaitu di Kabupaten Ogan Komering Ilir. Salah satu upaya yang dapat
dilakukan adalah dengan memanfaatkan teknologi remote sensing. Pengolahan citra
satelit yang dihasilkan dari remote sensing sangat bermanfaat bagi stakeholder
terkait dalam menyediakan informasi mengenai sebaran spasial daerah-daerah yang
telah mengalami kebakaran hutan dan lahan (area terbakar) terutama informasi luas
lahan yang terbakar (Suwarsono et al. 2013).
Salah satu pemanfaatan citra satelit adalah dengan melakukan proses
klasifikasi. Klasifikasi merupakan salah satu metode dalam data mining yang
digunakan untuk membuat model yang menjelaskan kelas-kelas data dan
memprediksi kelas data pada data yang baru. Salah satu algoritme yang digunakan
untuk membuat model klasifikasi per-piksel adalah pohon keputusan. Terdapat

2
berbagai algoritme dalam pohon keputusan antara lain algoritme Random Forest
dan algoritme C5.0.
Beberapa penelitan telah dilakukan dengan menggunakan algoritme pohon
keputusan, antara lain Galiano et al. (2012) mengklasifikasikan data citra Landsat5 Thematic Mapper ke dalam 14 kategori tutupan lahan yang berbeda di selatan
Spanyol dengan menggunakan algoritme Random Forest (RF). Penelitian
menunjukkan bahwa algoritme Random Forest menghasilkan klasifikasi tutupan
lahan yang akurat, dengan nilai akurasi keseluruhan sebesar 92% dan indeks Kappa
sebesar 0,92. Liang et al. (2012), mengklasifikasikan dan membandingkan data
citra tutupan lahan di wilayah Victoria Australia dengan menggunakan algoritme
C5.0 dan maximum likelihood. Hasil penelitian menunjukkan bahwa akurasi terbaik
ditemukan pada algoritme C5.0.
Thariqa et al. (2015) melakukan klasifikasi dan membandingkan data citra
satelit untuk area gambut yang terbakar di Provinsi Riau menggunakan beberapa
algoritme pohon keputusan antara lain algoritme C4.5, algoritme CART, algoritme
C5.0 dan algoritme pohon keputusan berbasis autokorelasi spasial. Hasil penelitian
yang dilakukan menunjukan bahwa algoritme C5.0 memiliki akurasi terbaik yaitu
sebesar 99.79%. Lowe dan Kulkarni (2015) melakukan klasifikasi dan
membandingkan citra satelit Landsat-8 Operational Land Imager (OLI) di wilayah
Mississippi Bottomland dan Yellowstone National Park dengan menggunakan
empat algoritme, yaitu algoritme Random Forest, SVM, maximum likelihood dan
Neural Network. Hasil penelitian menunjukkan bahwa algoritme Random Forest
memiliki akurasi yang paling baik dibandingkan algoritme lainnya.
Algoritme pohon keputusan dapat digunakan untuk mengklasifikasikan data
yang besar, namun hasil klasifikasi pohon keputusan cenderung tidak stabil, karena
perubahan-perubahan kecil pada data learning akan mempengaruhi hasil akurasi
prediksi (Sutton 2005). Untuk memperbaiki stabilitas dan kekuatan akurasi prediksi
pohon klasifikasi dapat digunakan metode boosting. Boosting adalah teknik untuk
menghasilkan dan menggabungkan beberapa pengklasifikasi untuk meningkatkan
akurasi prediksi (Rulequest 2012). Beberapa algoritme yang telah menerapkan
metode ini antara lain algoritme C5.0 dan algoritme Random Forest.
Berdasarkan hal tersebut, maka pada penelitian ini akan dilakukan
pengklasifikasian area lahan gambut yang terbakar di kabupaten Ogan Komering
Ilir dari data citra Landsat 7. Klasifikasi citra sendiri dilakukan dengan
menggunakan algoritme pohon keputusan C5.0 dan algoritme RF. Hasil klasifikasi
dari kedua algoritme ini, selanjutnya akan dibandingkan untuk menemukan
classifier yang terbaik dengan akurasi tinggi yang nantinya dapat digunakan untuk
mengklasifikasikan dan menghitung estimasi luasan lahan atau wilayah yang belum
terbakar, terbakar dan telah terbakar.
Perumusan Masalah
Rumusan masalah dalam penelitian ini adalah bagaimana mengklasifikasikan
data citra satelit untuk area gambut yang terbakar di kabupaten Ogan Komering Ilir,
Sumatera Selatan dengan menerapkan algoritme pohon keputusan C5.0 dan
algoritme Random Forest.

3
Tujuan Penelitian
1.

2.

Tujuan dari penelitian ini adalah :
Membangun model pohon keputusan dengan menggunakan algoritme C5.0
dan Random Forest untuk mengklasifikasikan area lahan gambut yang
terbakar di kabupaten Ogan Komering Ilir, Sumatera Selatan.
Menganalisis hasil perbandingan dari kedua algoritme yang diterapkan untuk
mengetahui classifier terbaik dalam mengklasifikasikan lahan gambut yang
terbakar.
Manfaat Penelitian

Manfaat dari penelitian ini diharapkan dapat memberikan informasi mengenai
karakteristik lahan gambut sebelum terbakar, terbakar, dan setelah terbakar
berdasarkan nilai band yang digunakan pada citra satelit. Karakteristik yang
dihasilkan dapat digunakan untuk mendeteksi terjadinya kebakaran lahan gambut dari
citra satelit. Selain itu hasil klasifikasi citra juga dapat digunakan untuk estimasi
luasan lahan gambut yang sudah terbakar, belum terbakar, dan terbakar.
Ruang Lingkup Penelitian
1.

2.
3.

Ruang lingkup penelitian yang dilakukan meliputi:
Data yang digunakan adalah citra satelit Landsat 7 ETM+ pada lahan gambut
di Kabupaten Ogan Komering Ilir, Provinsi Sumatera Selatan pada tahun
2015 yang diambil dari USGS (United States Geological Survey).
Penelitian ini menerapkan algoritme pohon keputusan C5.0 dan Random
Forest untuk mengklasifikasikan area gambut yang terbakar.
Penelitian ini hanya mengklasifikasikan wilayah lahan gambut yang terbakar
pada permukaan lahan.

2 TINJAUAN PUSTAKA
Kebakaran Lahan Gambut
Kebakaran hutan dapat didefinisikan sebagai suatu kejadian di mana api
melalap bahan bakar bervegetasi yang terjadi di dalam kawasan hutan yang
menjalar secara bebas dan tidak terkendali (Syaufina 2008). Kebakaran hutan tidak
terjadi pada lahan kering saja tetapi juga pada lahan basah seperti lahan/hutan
gambut. Kebakaran hutan dapat dikelompokkan menjadi 3 tipe yaitu :
1. Kebakaran bawah (Ground fire)
Kebakaran ini terjadi di mana api membakar bahan oganik di bawah
permukaan serasah yang pada umumnya berupa humus dan gambut. Penjalaran api
berlangsung secara perlahan dan tidak dipengaruhi oleh angin, tanpa nyala sehingga
sulit untuk dideteksi dan dikontrol. Selain itu ketika terbakar, api akan bercampur
dengan uap air dari dalam gambut dan hasilkan asap yang sangat tebal.
2. Kebakaran permukaan (Surface fire)
Pada kebakaran ini, api membakar serasah, tumbuhan bawah, bekas limbah
pembalakan, dan bahan bakar lain yang terdapat di lantai hutan. Dalam

4
penjalarannya, api dipengaruhi oleh angin permukaan sehingga dapat membakar
tumbuhan yang lebih tinggi hingga ke tajuk pohon. Kebakaran permukaan ini
biasanya merupakan langkah awal menuju kebakaran tajuk.
3. Kebakaran Tajuk (Crown fire)
Pada tipe ini, api menjalar dari tajuk pohon satu ke tajuk pohon berikutnya.
Arah dan kecepatan penjalaran api sangat dipengaruhi oleh angin sehingga api
menjalar sangat cepat dan sulit dikendalikan.
Satelit Landsat dan Citra Satelit
Satelit Landsat merupakan satelit hasil program sumberdaya bumi milik
Amerika Serikat yang dikembangkan oleh NASA (the National Aeronautical and
Space Administration). Satelit Landsat pertama kali diluncurkan pada tanggal 23
Juli 1972 dengan nama ERTS-I (Earth Resources Technology Satellite) yang
kemudian berganti nama menjadi Landsat I. Hingga saat ini, seri Landsat yang
diluncurkan telah sampai pada seri Landsat 8. Satelit ini berorbit sirkular dan
sunsynchronous (melintasi garis equator setiap hari pada waktu lokal yang sama)
serta dapat mencapai lokasi yang sama setiap 16 hari dan beresolusi radiometrik 8bit (DN) (NASA 2013). Kelebihan sensor pada Landsat ETM+ adalah
menggunakan delapan saluran, enam saluran dititikberatkan untuk studi vegetasi,
satu saluran untuk studi geologi dan satu saluran untuk sensor pankromatik seperti
tampak pada Tabel 1.
Tabel 1 Karakteristik sensor Landsat 7 ETM+
Band
Resolusi
Keterangan
Spektral (μm)
1
30 m
Blue
0.441 - 0.514
2
30 m
Green
0.519 - 0.601
3
30 m
Red
0.631 - 0.692
4
30 m
NIR
0.772 - 0.898
5
30 m
SWIR-1
1.547 - 1.749
6
60 m
Thermal IR
10.31 - 12.36
7
30 m
SWIR-2
2.064 – 2.345
8
15 m
Pan
0.515 – 0.896
Landsat 7 ETM+ mencatat jumlah interval panjang gelombang kecil dalam
spektrum elektromagnetik (cahaya tampak, dekat dan pendek inframerah
gelombang) seperti tampak pada Gambar 1.

Gambar 1 Tampilan gelombang spektrum Landsat 7ETM+ (GDSC 2010).

5
Citra merupakan representasi dua dimensi dari suatu objek di dunia nyata.
Menurut Danoedoro (2012), citra dalam bidang remote sensing merupakan
gambaran sebagian permukaan bumi yang diperoleh dari sistem perekaman melalui
sensor yang dipasang pada pesawat terbang ataupun satelit. Citra digital adalah
array angka-angka dalam bentuk dua dimensi. Setiap sel citra digital disebut piksel
yang nilainya koordinatnya diketahui dan nilai intensitasnya diwakili oleh suatu
angka (digital number [DN]) yang merepsentasikan tingkat kecerahan masingmasing piksel penyusun citra tersebut. Piksel merupakan unit terkecil dari sebuah
citra. Masing-masing piksel terkait secara spasial dengan area di permukaan bumi.
Gambar 2 merupakan tampilan digital number (DN) dari data citra satelit.

Gambar 2 Tampilan digital number (DN) pada citra (NASA 2006)
Klasifikasi Data Citra Satelit
Klasifikasi citra satelit merupakan salah satu teknik yang digunakan untuk
mengekstrak informasi dari sejumlah besar gambar satelit. Pada klasifikasi citra
dilakukan proses pengelompokan nilai-nilai piksel ke dalam kelas yang berarti
(Lillesand at el. 2004). Terdapat dua metode klasifikasi citra satelit yaitu klasifikasi
tak terbimbing dan klasifikasi terbimbing.
Klasifikasi tak terbimbing akan mencari kelompok-kelompok piksel dari citra
satelit kemudian menandai setiap piksel ke dalam sebuah kelas berdasarkan
parameter-parameter pengelompokkan awal yang didefinisikan oleh penggunanya.
Algoritme yang biasa digunakan adalah Isodata dan K-means. Sedangkan
klasifikasi terbimbing memerlukan inputan atau informasi yang dikenal sebagai
data latih untuk memulai klasifikasi. Piksel atau kelompok piksel yang sesuai
dijadikan sebagai data latih, piksel-piksel tersebut digunakan untuk melatih dan
mengenali piksel serupa lainnya (Lillesand at el. 2004). Algoritme yang biasa
digunakan pada klasifikasi terbimbing adalah Maximum Likelihood dan Decision
Tree (Abburu dan Golla 2015). Adapun skema dari klasifikasi terbimbing
ditunjukkan pada Gambar 3.
Dari Gambar 3 terdapat 3 tahapan yang terjadi pada klasifikasi terbimbing,
yaitu tahapan training, klasifikasi dan hasil klasifikasi. Pada tahapan awal, terdapat
citra yang terdiri atas 5 channel (band) yang dijadikan sebagai data latih. Setiap
piksel memiliki 5 buah nilai digital. Piksel yang memiliki lima nilai digital tersebut
diklasifikasikan dengan cara dicocokan dengan nilai digital yang sudah memiliki
kelas. Jika nilai digital tersebut sama atau mendekati salah satu nilai digital yang
memiliki kelas maka piksel tersebut masuk dalam kelas yang sudah ditentukan.
Namun apabila nilai digital tersebut tidak sama atau tidak mendekati salah satu nilai
digital pada kelas tersebut, maka akan diberikan label kelas “unknow” atau “tidak

6
diketahui”. Hasil dari klasifikasi tersebut kemudian dipetakan ke dalam bentuk
tematik.
IMAGE DATA SET
(Five digital numbers per pixel)

CATEGORIZE SET
(digital numbers replaced
by category typesl)
Pixel (3, 7)
Water
Sand

DN1
DN2
DN3
DN4
DN5

Forest
Urban
Channel: 1

Corns
2
3

Hay

4

F

F

F

F

F

F

F

F

F

F

F

F

F

F

F

F

F

F

F

C

F

F

F

F

F

F

F

F

C

C

S

S

F

F

F

F

V

C

C

W W S

F

F

F

V

V

C

C

W W S

F

F

F

F

V

V

C

W W W S

F

F

F

V

V

C

W W W S

F

F

F

F

V

F

W W W W S

F

F

F

F

F

W W W W S

F

F

F

F

F

5

Gambar 3 Skema klasifikasi terbimbing (Lillesand at el. 2004)
Pohon Keputusan
Pohon keputusan atau dikenal dengan decision tree merupakan salah satu
metode dalam klasifikasi dan merupakan model prediksi dengan menggunakan
struktur pohon atau struktur hirarki (Han et al. 2012). Peranan pohon keputusan ini
adalah sebagai decision support tool untuk membantu manusia dalam mengambil
suatu keputusan (Tsang et al. 2009). Manfaat dari pohon keputusan adalah
melakukan break down proses pengambilan keputusan yang kompleks menjadi
lebih simpel sehingga orang yang mengambil keputusan akan lebih mudah
menginterpretasikan solusi dari permasalahan. Konsep dasar pohon keputusan
adalah mengubah data menjadi pohon (tree) dan aturan keputusan (rule). Proses
dari pohon keputusan dimulai dari root node hingga leaf node yang dilakukan
secara rekursif (Alpaydin 2004). Gambar 4 merupakan tampilan dari pohon
keputusan.
Root Node

Leaf Node

Internal Node

Leaf Node

Leaf Node

Internal Node

Leaf Node

Leaf Node

Gambar 4 Pohon keputusan
Setiap percabangan menyatakan suatu kondisi yang harus dipenuhi dan pada
setiap ujung pohon menyatakan kelas dari suatu data. Pada pohon keputusan terdiri
dari tiga bagian seperti tampak pada Gambar 4 (Alpaydin 2004). Bagian-bagian
tersebut antara lain :

7
1. Root Node
Node ini merupakan node yang terletak paling atas dari suatu pohon dan tidak
memiliki cabang yang masuk.
2. Internal Node
Node ini merupakan node percabangan, hanya terdapat satu input serta
mempunyai minimal dua output.
3. Leaf Node
Node ini merupakan node akhir, hanya memiliki satu input, dan tidak memiliki
output.
Algoritme C5.0
Algoritme C5.0 adalah pengembangan dari algoritme C4.5 dan juga ID3
(Patil et al. 2012). Algoritme C5.0 memiliki fitur penting yang membuat algoritme
ini menjadi lebih unggul dibandingkan dengan algoritme terdahulunya (C4.5) dan
mengurangi kelemahan yang ada pada algoritme pohon keputusan sebelumnya.
Fitur tersebut (Rulequest 2012) adalah :
1. Boosting: proses yang akan melakukan beberapa kali percobaan dan akan
menghasilkan beberapa aturan dan pohon keputusan. Beberapa aturan dan pohon
keputusan tersebut dikombinasikan untuk meningkatkan prediksi
2. Winnowing: menyebabkan classifier lebih kecil dan menghasilkan akurasi prediksi
yang lebih tinggi
3. Meminimalkan biaya kesalahan: algoritme C5.0 memisahkan biaya kesalahan yang
pada masing-masing pasangan kelas prediksi dengan kelas yang sebenarnya. Jika
pilihan ini digunakan, algoritme C5.0 akan membangun classifier untuk
meminimalkan biaya kesalahan klasifikasi daripada membangun membangun
classifier untuk meminimalkan tingkat kesalahan (error rate).
4. Dari segi akurasi, algoritme C5.0 memiliki tingkat kesalahan yang lebih rendah
dibandingkan dengan algoritme sebelumnya. Algoritme C4.5 dan algoritme
C5.0 memiliki akurasi prediksi yang sama, tetapi set aturan algoritme C5.0 lebih
kecil.
5. Untuk kecepatan, C5.0 jauh lebih cepat, menggunakan algoritme yang berbeda
dan sangat dioptimalkan.
6. Penggunaan memori pada algoritme C5.0 umumnya lebih ringan dari C4.5.
Menurut Patil et al. (2012) pemilihan atribut dalam algoritme C5.0 diproses
dengan menghitung besarnya nilai information gain. Dalam memilih atribut untuk
memecahkan objek harus dipilih atribut yang menghasilkan information gain paling
besar. Atribut yang memiliki information gain terbesar akan dipilih sebagai parent
atau untuk node selanjutnya.
Persamaan entropy dan information gain yang digunakan pada algoritme
algoritme C5.0 adalah sebagai berikut (Han et al. 2012) :


� = −∑ = �



(1)

Di mana info � adalah nilai entropy dari sampel data D, m adalah jumlah kelas
yang ada di atribut, sedangkan �� adalah peluang dari kelas i atau rasio dari kelas.
Partisi tuple di D pada beberapa atribut A memiliki nilai v yang berbeda
{� , � , … . , �� } dari data latih. Atribut A digunakan untuk memisahkan D ke dalam

8
|

|

v partisi atau sub himpunan {D1, D2, …, Dv}.
merupakan bobot partisi ke-j.
Nilai entropy yang dihasilkan untuk mengklasifikasi tuple dari D berdasarkan
partisi oleh A adalah (Han et al. 2012):


� = ∑�=

|

|

�

(� )

(2)

Information gain yang diperoleh pada atribut A adalah:
���
= �
� − �


(3)

Gain(A) menyatakan bahwa ada berapa banyak cabang yang akan diperoleh pada A.
Atribut A dengan information gain tertinggi, maka Gain(A) dipilih sebagai atribut
pada node (Han et al. 2012). Contoh pembentukan pohon keputusan dapat dilihat
pada Lampiran 1.
Algoritme Random Forest
Algoritme Random Forest (RF) merupakan pengembangan dari metode
Classification and Regression Tree (CART) dengan menerapkan metode bootstrap
aggregating (bagging) dan random feature selection (Breiman 2001). Metode ini
merupakan metode pohon gabungan (ensemble tree). Dalam RF, banyak pohon
ditumbuhkan sehingga terbentuk suatu hutan (forest), kemudian analisis dilakukan
pada kumpulan pohon tersebut. Penggunaan bagging pada RF berguna dalam
mengatasi sifat ketidakstabilan dari metode klasifikasi tunggal.
Pada RF pembentukan tree dilakukan dengan cara melakukan training
sampel data. Cara yang digunakan untuk mengambil sampel data adalah dengan
Sampling with replacement. Variabel yang digunakan sebagai split dipilih secara
acak. Proses klasifikasi dilakukan setelah semua tree terbentuk dan penentuan hasil
klasifikasi diambil berdasarkan vote dari masing-masing tree. Vote terbanyak yang
akan menjadi pemenangnya. Arsitektur umum dari RF dapat dilihat pada Gambar
4.
X

tree1

tree2

treeB

kB
k2
k1
Voting
k

Gambar 5 Arsitektur umum Random Forest (Verikas et al. 2011)
Berikut ini adalah prosedur atau algoritme untuk membangun Random Forest
pada gugus data yang terdiri dari n amatan dan p peubah penjelas (Breiman 2001;
Breiman dan Cutler 2003):
1. Lakukan penarikan contoh acak berukuran n dengan pemulihan pada gugus
data. Langkah ini dinamakan dengan bootstrap (bag).

9
Dengan menggunakan contoh bootstrap, pohon dibangun sampai mencapai
ukuran maksimum yaitu tanpa pemangkasan (pruning). Pembangunan pohon
dilakukan dengan menerapkan random feature selection yaitu m peubah
penjelas dipilih secara acak dengan m