Pruning pada Fuzzy Decision Tree dalam Klasifikasi Data Iklim dan Titik Api di Daerah Tjilik Riwut, Palangkaraya, Kalimantan Selatan

PRUNING PADA FUZZY DECISION TREE DALAM
KLASIFIKASI DATA IKLIM DAN TITIK API DI DAERAH
TJILIK RIWUT, PALANGKARAYA, KALIMANTAN SELATAN

AKHMAD AKBAR

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012

PRUNING PADA FUZZY DECISION TREE DALAM
KLASIFIKASI DATA IKLIM DAN TITIK API DI DAERAH
TJILIK RIWUT, PALANGKARAYA, KALIMANTAN SELATAN

AKHMAD AKBAR

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012

ABSTRACT
AKHMAD AKBAR. Pruning on Fuzzy Decision Tree in Classification of Climatology and Hotspot at
Tjilik Riwut, Palangkaraya, South Kalimantan. Supervised by ANNISA.
Forest fire is influenced by several factors, such as humidity, solar radiation intensity,
regional temperature, and rainfall. This research aimed at finding the information and knowledge from
hotspot and climate data, especially those four attributes. The research data was taken from Tjilik
Riwut, Palangkaraya, South Kalimantan in year 2001-2004. Data mining technique used for extracting
the information and knowledge is classification using decision tree method. In this research, fuzzy
aproach is adapted to solve uncertainty of data. To improve the accuracy of classification process,
pruning tree method is utilized. Tree that has the highest accuracy is converted to be the rule. The
formed rule shows that the amount of hotspot is inversely proportional with the scale of humidity.
This research also proves that pruning process in a tree can improve the accuracy of classification

process.
Keyword : data mining, classification, hotspot, decision tree, fuzzy ID3, pruning.

Judul Skripsi

:

Pruning pada Fuzzy Decision Tree dalam Klasifikasi Data Iklim dan Titik Api di
Daerah Tjilik Riwut, Palangkaraya, Kalimantan Selatan

Nama

:

Akhmad Akbar

NRP

:


G64063468

Menyetujui:
Pembimbing

Annisa, S.Kom, M.Kom
NIP 19790731 200501 2 002

Mengetahui:
Ketua Departemen Ilmu Komputer,

Dr. Ir. Agus Buono, M.Si, M.Kom
NIP 19660702 199302 1 001

Tanggal Lulus:

RIWAYAT HIDUP
Penulis yang dilahirkan di Kediri, Jawa Timur, pada tanggal 9 Juli 1987, merupakan anak ketiga
dari tiga bersaudara dengan ayah bernama Slamet Riadi dan Ibu bernama Chadidjah. Pada tahun 2006,
penulis lulus dari Sekolah Menengah Atas Negeri 1 Kediri dan diterima di Program Studi Ilmu

Komputer, Institut Pertanian Bogor melalui jalur Seleksi Penerimaan Mahasiswa Baru (SPMB).
Selama aktif sebagai mahasiswa, penulis juga aktif di berbagai organisasi, di antaranya: LDK Al
Hurriyah IPB, Kesatuan Aksi Mahasiswa Muslim Indonesia Komisariat IPB dan Daerah Bogor,
Kaukus Pemuda dan Mahasiswa Demokrasi (KPMD) Bogor, dan beberapa organisasi mahasiswa
lainnya. Di samping itu, penulis juga pernah bergabung dengan organisasi pemuda dengan nama
Purna Paskibraka Indonesia Daerah Kota Kediri di bidang pembinaan SDM.
Penulis menyusun penelitian ini seiring dengan aktivitasnya sebagai pengajar di BKB Nurul Fikri
Bogor dan penyelesaian beberapa naskah artikel. Di samping bidang ilmu komputer, penulis juga aktif
dalam penulisan-penulisan artikel sosial dan sastra.

PRAKATA
Alhamdulillahi Rabbil ‘alamin. Segala puji dan syukur penulis panjatkan kepada Allah
Subhanahuwata’ala atas limpahan rahmat, kemurahan, dan hidayah-Nya sehingga tugas akhir dengan
judul Pruning pada Fuzzy Decision Tree dalam Klasifikasi Data Iklim dan Titik Api di Daerah Tjilik
Riwut, Palangkaraya, Kalimantan Selatan dapat diselesaikan. Shalawat serta salam juga penulis
ucapkan kepada junjungan Nabi Muhammad Shallalahuwaalaihiwassalam beserta seluruh sahabat
dan umatnya hingga akhir zaman.
Penyelesaian tugas akhir ini tidak terlepas dari bantuan beberapa pihak. Oleh karena itu,
penulis ingin menyampaikan terima kasih kepada semua pihak yang telah membantu dalam
penyelesaian tugas akhir ini, antara lain:

1 Rama dan Umi sebagai motivasi terbesar dan sumber nasihat atas doa, bimbingan, kesabaran,
dan keikhlasan mendidik penulis. Hal yang sama juga untuk kedua kakak tercinta dan
keponakan-keponakan.
2 Ibu Annisa, S.Kom, M.Kom selaku dosen pembimbing yang selalu memberikan saran dan
arahan selama penelitian dan penulisan tugas akhir ini.
3 Bapak Toto Haryanto, S.Kom, M.Si dan Bapak Endang Purnama Giri, S.Kom, M.Kom yang
telah bersedia menjadi dosen penguji.
4 Seluruh dosen, staf pengajar, staf tata usaha, hingga cleaning service di Dept. Ilmu Komputer
atas bantuan dan pelayanannya.
5 Rekan-rekan mahasiswa bimbingan Ibu Annisa, S.Kom, M.Kom terutama Remarchtito dan
Dedek atas bantuan, informasi, saran dan kerjasamanya selama penyelesaian tugas akhir ini.
6 Rekan-rekan yang mengingatkan, membantu dan memberi motivasi dalam penyelesaian tugas
akhir, yaitu Rahmat Firdaus, Satriyo, Fitri, Ust. Fendi, Danang, Mas Tulus, Mas Sugi, Cici,
Ichi, Iin, Keke, Vida, Kang Jay, Kang Dadan, Arifin, dan Uda Redo.
7 Para ustad yang memberi suplemen rohani dengan sangat optimal dan ikhlas.
8 Rekan-rekan yang rela meminjamkan fasilitasnya untuk penyelesaian tugas akhir ini, yakni
Didik Rahmawan, Mas Dito, dan Bang Nizar.
9 Keluarga besar LDK Al Hurriyyah, KAMMI IPB, KAMMI Daerah Bogor, KAMMI Wilayah
Megapolitan, PIA Smas’t, dan BKB Nurul Fikri Bogor atas semua dukungannya.
10 Teman-teman Ilmu Komputer angkatan 43 yang tentu tidak bisa disebutkan satu persatu.

Penulis juga mengucapkan terima kasih kepada semua pihak yang telah membantu selama
pengerjaan penyelesaian tugas akhir ini yang tidak dapat disebutkan satu-persatu. Semoga penelitian
ini dapat memberikan manfaat.

Bogor,

Juni 2012

Akhmad Akbar

DAFTAR ISI
Halaman
DAFTAR TABEL ....................................................................................................... .................... vi
DAFTAR GAMBAR...................................................................................................................... ... vi
DAFTAR LAMPIRAN .............................................................................................................. ...... vi
PENDAHULUAN
Latar Belakang ................................................................................................................ .......
Tujuan .............................................................................................................................. ......
Ruang Lingkup ................................................................................................................ .......
Manfaat Penelitian ........................................................................................................... .......


1
1
1
1

TINJAUAN PUSTAKA
Knowledge Data Discovery .................................................................................................
Data Mining............................................................................................................... ..............
Klasifikasi................................................................................................ ...............................
Decision Tree...................................................................................................................... .....
Fuzzy ........................................................................................................... ...........................
Fuzzy Decision Tree .......................................................................................................... ......
Entropy dan Information Gain..............................................................................................
Threshold............................................................... ................................................................
Fuzzy ID3 (FID3) ................................................................................................................
Overfitting ............................................................... ..............................................................
Pruning ............................................................... ..................................................................

1

2
2
2
2
3
3
3
4
4
4

METODE PENELITIAN
Pembersihan Data ............................................................................................................ .......
Transformasi Data .......................................................................... ........................................
Aplikasi Teknik Data Mining ............................................................................................ .....
Representasi Pengetahuan ......................................................................................................
Lingkungan Pengembangan ...................................................................... .............................

5
5

5
5
6

HASIL DAN PEMBAHASAN
Pembersihan data ......................................................................................................... ........... 6
Transformasi data ................................................................................................................... 6
Data Mining ....................................................................................... ................................... 8
Training ........................................................................... .......................................... 8
Testing ............................................................................... ....................................... 10
Pruning ........................................................................................ ........................................ 10
Chi Square Pruning ......................... ....................................................................... 10
Rule Post Pruning................................................................................................... .... 11
KESIMPULAN DAN SARAN
Kesimpulan ................................................................................................. .......................... 12
Saran ............................................................................................................................ ......... 12
DAFTAR PUSTAKA ......................................................................................... ............................ 12
LAMPIRAN ..................................................................................................................................... 14

v


DAFTAR TABEL
Halaman
1
2
3
4
5
6
7
8
9

Contoh persebaran atribut untuk proses pruning chi square.....................................................
Tahapan-tahapan penelitian ....................................................................................................
Daftar nilai entropy dan information gain ..............................................................................
Confusion matrix hasil uji pada tree.......................................................................................
Sebaran nilai atribut Curah Hujan ...........................................................................................
Sebaran nilai atribut Curah Hujan setelah perhitungan ............................................................
Confusion matrix hasil uji pada tree dengan pruning chi square .............................................

Confusion matrix hasil uji pada tree dengan rule post pruning................................................
Daftar nilai akurasi tree ..........................................................................................................

4
5
9
10
10
10
11
11
11

DAFTAR GAMBAR
Halaman

1
2
3
4
5
6
7

Tahap-tahap dalam proses KDD (Han & Kamber 2001) ............................................................ 2
Metodologi penelitian ............................................................................................................... 5
Himpunan fuzzy atribut penyinaran............................................................................................ 7
Himpunan fuzzy atribut temperatur ............................................................................................ 7
Himpunan fuzzy atribut curah hujan........................................................................................... 8
Himpunan fuzzy atribut kelembaban .......................................................................................... 8
Hasil ekspansi training set berdasarkan atribut Kelembaban ...................................................... 9

DAFTAR LAMPIRAN
Halaman
1
2
3
4
5
6
7
8
9

Contoh data mentah sebelum pembersihan data .........................................................................15
Contoh data hasil proses pembersihan data ...............................................................................17
Contoh data hasil proses fuzzyfikasi dan data training .............................................................. 18
Struktur tree sebelum di-pruning ............................................................................................... 19
Struktur tree setelah chi square pruning. ................................................................................... 20
Struktur tree setelah rule post pruning. ...................................................................................... 21
Aturan (rule) yang dihasilkan pada tree tanpa pruning. .............................................................. 22
Aturan yang dihasilkan pada tree dengan metode chi square pruning. ....................................... 23
Aturan yang dihasilkan pada tree dengan metode rule post pruning...........................................24

vi

1

PENDAHULUAN
Latar Belakang
Kasus kebakaran hutan di Indonesia
merupakan salah satu bencana alam yang sering
terjadi.
Beberapa
faktor
cuaca
yang
mempengaruhinya ialah temperatur, curah
hujan, radiasi matahari, kelembaban, stabilitas
udara, kecepatan angin dan arah angin secara
langsung (Thoha 2001 dalam Dedek 2011).
Indikator kebakaran hutan yang bisa
dijadikan acuan adalah jumlah titik api
(hotspot). Hotspot merupakan titik-titik di
permukaan bumi yang menjadi indikator adanya
kebakaran hutan dan lahan. Salah satu cara
pencegahan kebakaran hutan yang dapat
dilakukan adalah dengan mengetahui hubungan
antara faktor cuaca yang ada di suatu wilayah
dengan jumlah hotspot yang muncul. Metode
klasifikasi dengan menggunakan decision tree
dapat digunakan untuk membuat sebuah
classifier yang berguna untuk melihat pola /
hubungan tersebut.
Data iklim dan hotspot sering kali tidak bisa
didekati melalui pendekatan crisp (tegas). Hal
ini dikarenakan nilai atribut yang sangat
berdekatan mampu memberi pengaruh yang
berbeda di dalam pembentukan hotspot. Untuk
mengatasi hal tersebut, diperlukan pendekatan
dengan kaidah fuzzy. Penerapan kaidah fuzzy di
dalam suatu decision tree
sering dikenal
sebagai fuzzy decision tree.
Hasil dari klasifikasi dapat dilihat dari
tingkat akurasi yang dihasilkan. Namun, sering
kali model decision tree yang dihasilkan
mengalami masalah overfitting. Overfitting di
dalam decision tree menghasilkan suatu keadaan yang lebih kompleks daripada yang
diperlukan. Hal ini juga membuat tingkat
akurasi yang dihasilkan tidak cukup baik untuk
mengklasifikasikan data baru. Oleh karena itu,
diperlukan cara untuk meningkatkan akurasi
dari model tree yang dihasilkan.
Salah satu metode yang bisa digunakan
untuk meningkatkan akurasi dari tree adalah
pruning. Pruning bekerja dengan prinsip
memangkas atau menyederhanakan struktur
tree. Pruning diharapkan mampu meningkatkan
akurasi yang dihasilkan dalam proses klasifikasi
secara signifikan.
Penelitian ini mencoba menemukan
hubungan antara faktor-faktor cuaca dengan
jumlah hotspot yang dibentuknya menggunakan
teknik klasifikasi menggunakan konsep fuzzy
dengan metode decision tree. Untuk
meningkatkan akurasi dalam proses klasifikasi,

diterapkan juga metode pruning. Model tree
dengan nilai akurasi tertinggi diharapkan
mampu memberikan suatu model atau aturan
yang bisa mengklasifikasikan jumlah hotspot
berdasarkan pola pada iklim di daerah tersebut.
Tujuan
Tujuan dari penelitian ini adalah:
1 Menerapkan teknik data mining berupa
klasifikasi dengan metode fuzzy decision
tree.
2 Menerapkan teknik pruning pada tree.
3 Menemukan aturan klasifikasi pada data
titik api (hotspot) sehingga dapat diketahui
kelas jumlah hotspot berdasarkan pada pola
data iklim di daerah tersebut.
Ruang Lingkup
Ruang lingkup penelitian ini dibatasi pada:
1 Penerapan algoritme ID3 dalam Fuzzy
Decision Tree pada data titik api (hotspot) di
daerah
Tjilik
Riwut,
Palangkaraya,
Kalimantan Selatan.
2 Membangun suatu model klasifikasi untuk
mengetahui tingkat potensi kebakaran hutan
di daerah terkait. Hal ini meliputi informasi
dari atribut temperatur, curah hujan,
penyinaran matahari, dan kelembaban
3 Penelitian ini menggunakan teknik data
mining yaitu klasifikasi dengan metode
decision tree. Namun, untuk mengatasi
adanya ketidaktepatan, pendekatan fuzzy
digunakan sebagai bantuan.
4 Penerapan pruning (pemangkasan) tree
untuk menyederhanakan aturan klasifikasi
yang ada.
Manfaat Penelitian
Penelitian
ini
diharapkan
dapat
menunjukkan
potensi
kebakaran
hutan
berdasarkan jumlah hotspot yang ada sehingga
dapat menjadi alat bantu oleh pihak yang
berwenang dalam mengantisipasi dan deteksi
dini kebakaran hutan.

TINJAUAN PUSTAKA
Knowledge Data Discovery (KDD)
Knowledge Data Discovery merupakan
sebuah proses iteratif yang terurut dan data
mining merupakan salah satu langkah dalam
KDD (Han & Kamber 2001). Tahapan proses
KDD menurut Han & Kamber (2001), yaitu:

2

1 Pembersihan Data
Pembersihan terhadap data dilakukan
untuk menghilangkan data yang tidak
konsisten atau data yang mengandung
noise.
2 Integrasi data
Proses integrasi data dilakukan untuk
menggabungkan data dari berbagai
sumber.
3 Seleksi data
Proses seleksi data digunakan untuk
mengambil data yang relevan digunakan
dalam proses analisis.
4 Transformasi data
Proses
mentransformasikan
atau
menggabungkan data ke dalam bentuk
yang tepat untuk di-mining.
5 Data mining
Data mining merupakan proses penting
yang menerapkan metode-metode cerdas
untuk mengekstraksi pola-pola dalam
data.
6 Evaluasi pola
Evaluasi
pola
diperlukan
untuk
mengidentifikasi beberapa pola yang
menarik
yang
merepresentasikan
pengetahuan.
7 Representasi pengetahuan
Penggunaan visualisasi dan teknik
representasi
untuk
menunjukkan
pengetahuan hasil penggalian gunung
data kepada pengguna.
Tahapan di dalam proses KDD akan
ditunjukkan oleh Gambar 1.

2001). Data mining merupakan kumpulan
proses yang mengaplikasikan komputer dan
berbagai macam teknik untuk menemukan
informasi dari sekumpulan data. Data mining
dibagi menjadi dua kategori besar, yaitu
predictive data mining dan descriptive data
mining. Predictive data mining berupaya
menganalisis data dengan tujuan membuat suatu
model dan memprediksi perilaku dari kumpulan
data yang baru. Descriptive data mining lebih
pada upaya menjelaskan sekumpulan data
dengan ringkas yang menjelaskan sifat-sifat
menarik dari data.
Klasifikasi
Klasifikasi adalah suatu cara yang
digunakan untuk membedakan objek, kelas,
atau konsep pada suatu ruang data. Klasifikasi
bertujuan memodelkan suatu fungsi yang dapat
digunakan untuk mengetahui kelas dari suatu
objek yang kelasnya tidak dikenali.
Proses klasifikasi dibagi menjadi dua, yakni
tahap learning dan testing (Han & Kamber
2001). Pada tahap learning, sebagian data yang
telah diketahui label kelasnya (training set)
digunakan
untuk
membentuk
model.
Selanjutnya, pada tahap testing, model yang
sudah terbentuk diuji dengan menggunakan
sebagian data lain (test set) untuk mengetahui
akurasi dari model yang dihasilkan. Jika akurasi
yang didapatkan mencukupi, model tersebut
dapat dipakai untuk memprediksi kelas data
yang belum diketahui.
Decision Tree
Decision tree merupakan suatu pendekatan
yang sangat populer dan praktis dalam machine
learning untuk menyelesaikan permasalahan
klasifikasi. Metode ini digunakan untuk
memperkirakan nilai diskret dari fungsi target.
Fungsi pembelajaran direpresentasikan oleh
sebuah decision tree (Liang 2005).
Decision tree merupakan himpunan aturan
IF...THEN. Setiap path dalam tree dihubungkan
dengan sebuah aturan. Premis aturan terdiri atas
sekumpulan node yang ditemui, sedangkan
kesimpulan aturan terdiri atas kelas yang
terhubung dengan leaf dari path (Marsala 1998
dalam Romansyah et al.2009).
Fuzzy

Gambar 1 Tahap-tahap dalam proses KDD
(Han&Kamber 2001).
Data Mining
Data mining merupakan proses ekstraksi
informasi data berukuran besar (Han & Kamber

Kaidah fuzzy mengijinkan setiap objek
untuk memiliki nilai keanggotaan (membership)
lebih dari satu himpunan. Lebih spesifik lagi,
hal ini disebut sebagai fungsi keanggotaan
(membership function), yaitu suatu fungsi yang
memetakan sejumlah objek himpunan menuju

3

suatu himpunan tujuan dengan
keanggotaan tertentu (Smith 2003).

derajat

Secara formal, definisi dari himpunan fuzzy
adalah sebagai berikut:
Jika X merupakan suatu kumpulan objek yang
secara umum dilambangkan dengan x, himpunan fuzzy A pada X merupakan sebuah himpunan
dengan formulasi sebagai berikut:
A = {(x, µ A (x))| x ɛ X}
Nilai µ A (x) disebut sebagai fungsi atau derajat
keanggotaan x dalam A yang memetakan X ke
ruang keanggotaan M (Zimmerman 1991 dalam
Smith 2003).

G( S , A)  H ( S ) 

dengan bobot Wi =

| Sv |
H (S v )
vValues( A) | S |

| Sv |
adalah rasio dari data
|S|

dengan atribut v pada himpunan contoh.
Pada fuzzy ID3, fuzzy entropy dirumuskan
sebagai berikut:
H f (S )  H s ( S )  i  Pi * log 2 ( Pi )
N

Untuk menentukan fuzzy entropy dan
information gain dari suatu atribut A pada
algoritme fuzzy ID3 (FID3), digunakan
persamaan sebagai berikut:

Fuzzy Decision Tree



Fuzzy Decision Tree memungkinkan untuk
menggunakan nilai-nilai numeric-symbolic
selama konstruksi atau saat mengklasifikasikan
kasus-kasus baru. Manfaat dari teori himpunan
fuzzy dalam decision tree ialah meningkatkan
kemampuan dalam memahami decision tree
ketika menggunakan atribut-atribut kuantitatif.
Bahkan dengan penggunaan teknik fuzzy dapat
meningkatkan ketahanan saat melakukan
klasifikasi kasus-kasus baru (Marsala 1998
dalam Romansyah et al 2009).
Entropy dan Information Gain
Information gain adalah suatu nilai statistik
yang digunakan untuk memilih atribut yang
akan mengekspansi tree dan menghasilkan node
baru pada algoritme ID3. Suatu entropy
dipergunakan untuk mendefinisikan nilai
information gain. Entropy dirumuskan sebagai
berikut:
H s (S )  i  Pi * log 2 ( Pi )
N

Pi adalah rasio dari kelas Ci pada himpunan
contoh S = {x1,x2,…,xk}.


P 

k
j 1

x j  Ci
S

Untuk menghitung nilai information gain
dari suatu atribut A, digunakan persamaan
sebagai berikut:

H f ( S , A)  i 1
C

j

S


N

N

Fuzzy Decision Tree merupakan perluasan
ide dari teori klasik tentang proses klasifikasi
yang kita kenal sebagai Decision Tree. Node
dari tree dengan derajat satu atau disebut daun
(leaf) merupakan label dari konsep klasifikasi,
sedangkan node dengan derajat lebih tinggi
dibentuk dari sekumpulan aturan menggunakan
operator “OR”, “AND”, dan “NOT” (Rhyne &
Smith 1999 dalam Smith 2003).

i



ij

log 2

j

ij

S

(5)
G f ( S )  H f ( S )  v  A
N

| Sv |
* H f ( S v , A)
|S|

Dengan µ ij adalah nilai keanggotaan dari pola
ke-j untuk kelas ke-i. Hf(S) menunjukkan
entropy dari himpunan S dari data pelatihan
pada node. |Sv| adalah ukuran dari subset Sv  S
dari data pelatihan xj dengan atribut v. |S|
menunjukkan ukuran dari himpunan S
(Romansyah et al 2009).
Threshold
Jika proses learning dari FDT dihentikan
sampai semua data contoh pada masing-masing
leaf-node menjadi anggota sebuah kelas, akan
dihasilkan akurasi yang rendah. Oleh karena itu,
untuk meningkatkan akurasinya, proses
learning harus dihentikan lebih awal atau
melakukan pemangkasan tree secara umum
(Liang 2005). Untuk itu, diberikan 2 (dua) buah
threshold yang harus terpenuhi jika tree akan
diekspansi, yaitu:
 Fuzziness control threshold (θr)
Jika proporsi himpunan data dari kelas Ck
lebih besar atau sama dengan nilai threshold
θr, ekspansi tree dihentikan. Sebagai contoh:
jika diberikan θr adalah 85%, pada sebuah
sub-dataset rasio dari kelas 1 adalah 90%
dan kelas 2 adalah 10%, maka ekspansi tree
dihentikan.
 Leaf decision threshold (θn)
Jika banyaknya anggota himpunan data
pada suatu node lebih kecil daripada
threshold θn, ekspansi tree dihentikan.
Sebagai contoh: sebuah himpunan data

4

memiliki 600 contoh dengan θn adalah 2%.
Jika jumlah data contoh pada sebuah node
lebih kecil dari 12 (2% dari 600), ekspansi
tree dihentikan (Romansyah et al. 2009).
Fuzzy ID3 (FID3)
Algoritme ID3 (Iterative Dichotomiser 3)
pertama kali dikenalkan oleh Quinlan.
Algoritme ini menggunakan teori informasi
untuk menentukan atribut yang paling
informatif. Namun, ID3 ternyata sangat tidak
stabil dalam melakukan penggolongan karena
adanya gangguan kecil pada data pelatihan.
Logika fuzzy dapat memberikan suatu
peningkatan dalam melakukan penggolongan di
saat pelatihan. Algoritme fuzzy ID3 merupakan
algoritme yang efisien untuk membuat suatu
fuzzy decision tree (Liang 2005).
Overfitting
Overfitting merupakan masalah yang sering
muncul di dalam upaya klasifikasi. Overfitting
di dalam decision tree menghasilkan sesuatu
yang lebih kompleks daripada yang dibutuhkan.
Gejala yang ditunjukkan di dalam overfitting
memberi informasi kebaikan akurasi pada data
training, namun memberikan akurasi yang
buruk pada data testing. Di samping itu,
overfitting mengakibatkan semakin besar
ukuran dari tree (ditinjau dari jumlah node-nya),
justru memberi nilai akurasi yang rendah dalam
proses klasifikasi. Pruning merupakan cara
yang baik untuk menghindari atau mengatasi
overfitting. Pasca pruning tingkat akurasi dalam
proses klasifikasi bisa meningkat (Tan et al
2005).
Pruning
Pruning (pemangkasan tree) merupakan
bagian dari proses pembentukan decision tree.
Saat pembentukan decision tree, beberapa node
merupakan outlier maupun hasil dari noise data.
Penerapan pruning pada decision tree dapat
mengurangi outlier maupun noise data pada
decision tree awal sehingga dapat meningkatkan
akurasi pada klasifikasi data (Han & Kamber
2001 dalam Budi 2010).
Prinsip pruning terbagi menjadi dua: Prepruning dan post pruning. Pre-pruning
merupakan proses pemangkasan saat tree belum
terbentuk secara sempurna. Salah satu metode
pre-pruning adalah metode chi square. Metode
ini menghitung keterkaitan atau hubungan
setiap atribut terhadap atribut kelasnya sehingga
dapat
diketahui
apakah
atribut
yang
bersangkutan bisa menjadi classifier yang baik
atau tidak.

Misalkan didapatkan suatu atribut dengan m
kategori dan n kategori kelas. Langkah awal chi
square adalah membentuk tabel sederhana
seperti berikut:
Tabel 1 Contoh persebaran atribut untuk proses
pruning chi square

K1
Kn
jumla
h

Kategori1
E11
E21
Ea

Kategori 2
E12
E22
Eb

Kategori m
E13
E23
Ec

Jumlah
∑1m
∑2m
∑1m+
∑2m

Lalu, dengan melihat pada tabel sebaran chi
square , X2 = {α;(m-1)*(n-1)}
Kemudian, dilakukan perhitungan seperti
berikut:
e11 = (∑1m * Ea ) / (∑1m+ ∑2m)
e12 = (∑1m * Eb ) / (∑1m+ ∑2m)
e13 = (∑1m * Ec ) / (∑1m+ ∑2m)
e21 = (∑2m * Ea ) / (∑1m+ ∑2m)
e22 = (∑2m * Eb) / (∑1m+ ∑2m)
e23 = (∑2m * Ec) / (∑1m+ ∑2m)
Berikutnya adalah menghitung nilai X2 dari
data berikut:
X2 hitung = (E11- e11)2 / e11 + (E12- e12)2 / e12 +
(E13- e13)2 / e13 + (E21- e21)2 / e21 +
(E22- e22)2 / e22 + (E23- e23)2 / e23
Kemudian, dibandingkan nilai X2 dengan
nilai X2 hitung. Jika didapatkan nilai X2 hitung yang
lebih besar dari X2 , atribut yang bersangkutan
tidak
bisa
dihilangkan dalam
proses
pengembangan tree. Namun, jika nilai X2 hitung
lebih kecil dari X2, atribut tersebut bisa
diabaikan di dalam proses ekspansi tree.
Berbeda prinsip dengan pre-pruning, post
pruning bekerja setelah tree terbentuk dengan
sempurna. Salah satu metode dari post pruning
adalah rule post pruning. Metode ini berusaha
untuk
menyederhanakan rule dengan memotong antecedent atau leaf pada model tree
dengan prinsip seperti berikut (Mitchell 1997):
1 Infer tree as well as possible.
2 Convert tree to equivalent set of rules.
3 Prune each rule by removing any
preconditions that result in improving its
estimated accuracy.

5

4

Sort final rules by their estimated accuracy
and consider them in this sequence when
classifying.

Metode rule post pruning membutuhkan
suatu alat bantu berupa validation set.
Validation set merupakan bagian dari training
set yang digunakan sebagai objek uji awal dari
rule yang dihasilkan dari proses pruning.
Sebagai contoh, jika didapatkan suatu rule
yang menyatakan R1 = “ If A and B and C Then
D “, metode rule post pruning membuat rule
tersebut menjadi R2 = “If A and B Then D”.
Kemudian, R2 diujikan terhadap validation set
dan diperhatikan apakah nilai akurasi yang
dihasilkan oleh R2 lebih baik daripada R1. Jika
nilai akurasi R2 lebih baik daripada R1, pruning
berhasil dan R2 digunakan. Namun, jika
sebaliknya, R2 tidak digunakan.

METODE PENELITIAN
Tahapan yang dilakukan pada penelitian ini
dapat dilihat pada Gambar 2. Tahap-tahap yang
dilakukan di dalam penelitian ini dijelaskan
sebagai berikut:
a Pembersihan data
Pembersihan data dilakukan jika terdapat
noise, nilai kosong (null value), atau
duplikasi data. Pada tahap ini juga dipilih
atribut yang dibutuhkan di dalam proses
klasifikasi.
b Transformasi data
Data yang sudah dibersihkan kemudian
diubah menjadi bentuk yang tepat untuk dimining. Pada proses ini, data iklim dan titik

Gambar 2 Metodologi penelitian.
api sudah ditransformasikan ke dalam
bentuk fuzzy.
c Aplikasi teknik data mining
Pada data diterapkan teknik data mining.
Untuk menemukan suatu model sistem atau
aturan untuk klasifikasi, digunakan metode
fuzzy decision tree. Tahapan pada metode
tersebut adalah sebagai berikut:
1 Menentukan banyaknya training dan
testing set yang akan digunakan.
2 Memilih besarnya threshold yang akan
digunakan.
3 Membangun fuzzy decision tree dengan
algoritme Fuzzy ID3.
4 Menerapkan proses pruning pada tree
yang terbentuk.
d Representasi pengetahuan
Tahap ini merupakan tahap akhir. Pada

Tabel 2 Tahapan-tahapan penelitian
Langkah
ke-n
1
2
3
4

5

Proses
Pengadaan data
Pembersihan data
Transformasi data
Aplikasi data
mining :
a. Pembagian data
b. Menentukan
threshold
c. Membangun
fuzzy decision
tree
d. Pruning
e. Testing
Representasi
pengetahuan

Penjelasan
Data iklim dan hotspot siap untuk diolah.
Pemilihan atribut data. Data yang mengandung noise, null
value, atau duplikat dibersihkan.
Data diubah menjadi bentuk fuzzy.

Menentukan jumlah training set dan testing set yang akan
dipakai.
Menentukan fuzziness control thres-hold (θr ) dan leaf
decision threshold (θn)
Konstruksi fuzzy decision tree dengan algoritme fuzzy ID3.

Menerapkan proses pruning pada tree yang terbentuk.
Menguji model tree yang terbentuk menggunakan data uji.
Menyajikan aturan / rule sebagai hasil dari proses klasifikasi.

6

tahap ini, pola yang telah ditemukan
dipresentasikan ke pengguna dengan teknik
visualisasi
agar
pengguna
dapat
memahaminya. Deskripsi aturan klasifikasi
akan dipresentasikan dalam bentuk aturan
logika untuk selanjutnya dievaluasi hasil
pengetahuan yang didapatkan.
Setiap tahapan di dalam penelitian ini akan
ditunjukkan di dalam Tabel 2.
Lingkungan Pengembangan
Penelitian ini menggunakan perangkat keras
dan perangkat lunak dengan spesifikasi sebagai
berikut:
1 Perangkat keras
a Intel® Core i3 Processor @ 2.13
GHz.
b Memori DDR2 1 GB.
c Harddisk 320 GB.
d Keyboard dan mouse.
2 Perangkat lunak
a Windows 7 Professional Edition.
b XAMPP versi 1.7.3.
c Microsoft Office 2007.
d PHP 5.3.0.
e Notepad++.

HASIL DAN PEMBAHASAN
Pembersihan Data
Data pada penelitian ini merupakan nilai
kuantitatif faktor-faktor cuaca pada daerah
Tjilik Riwut, Palangkaraya, Kalimantan Selatan.
Pencatatan dilakukan pada tahun 2001-2004
oleh Balai Besar Meteorologi dan Geofisika
Wilayah III, Stasiun Meteorologi Tjilik Riwut.
Pembersihan data diawali dengan memilih
atribut apa saja yang akan dipakai sebagai alat
untuk mengklasifikasikan data. Dari data,
didapatkan enam atribut, yaitu: temperatur (˚C),
curah hujan
(mm),
penyinaran
(%),
kelembaban udara (%), tekanan udara (mb),
dan kecepatan angin. Namun, untuk proses
klasifikasi pada penelitian ini, atribut tekanan
udara dan kecepatan angin tidak diikutsertakan.
Hal ini dikarenakan interval antara nilai
minimum dan maksimum pada kedua atribut
tersebut sangat pendek.
Pada atribut kelembaban udara dan
temperatur, diambillah nilai rata-ratanya. Hal ini
sebagai representasi keteraturan dari kejadian
yang menyangkut kedua atribut tersebut.
Pada tahap ini juga, dipilih record data
dengan mempertimbangkan jumlah kelas. Hal

ini penting untuk membuat model sistem yang
baik dalam proses klasifikasi. Karena jika
terjadi ketidakseimbangan jumlah record kelas
target, pemodelan yang dihasilkan akan kurang
baik.
Selanjutnya, pembersihan data dilakukan
terhadap data yang memiliki nilai kosong dan /
atau duplikat. Setelah dilakukan pembersihan
terhadap record yang mengandung nilai kosong
dan / atau duplikat diperoleh data siap pakai
sebanyak 250 record. Contoh hasil dari proses
pembersihan data dapat dilihat pada Lampiran
2.
Transformasi Data
Penelitian ini menerapkan salah satu teknik
data mining, yaitu fuzzy decision tree. Oleh
karena itu, data yang digunakan harus
direpresentasikan ke dalam bentuk fuzzy. Proses
diawali dengan membuat fungsi nilai
keanggotaan (membership function) pada
masing-masing atribut yang dipakai. Hal ini
adalah bagian dari penerapan prinsip fuzzy yang
menjadi pedoman penelitian.
Pada
kasus-kasus
tertentu
yang
menggunakan konsep fuzzy, tidak ditemukan
referensi atau pakar yang mampu menjelaskan
range nilai setiap atribut sebagai pedoman
pembentukan membership function. Hal ini bisa
diatasi dengan cara lain, seperti survey, polling,
atau hasil dari proses learning (Suyanto 2008).
Pada penelitian ini, tidak didapati referensi
ataupun pakar yang menjelaskan range nilai
setiap atribut. Oleh karena itu, dilakukan
eksperimen sebanyak tiga kali sebelum
diformulasikan menjadi membership function
pada proses fuzzyfikasi.
Contoh transformasi data ke dalam bentuk
fuzzy pada atribut terpilih ialah sebagai berikut:
 Atribut penyinaran matahari
Atribut ini dibagi menjadi 4 kelompok.
Rendah (x < 25%), sedang (25%