Perbandingan Probabilistic Fuzzy Decision Tree dan Fuzzy Decision Tree untuk Model Klasifikasi pada Data Diabetes

MUHAMMAD RAFI MUTTAQIN. Perbandingan Probabilistic Fuzzy Decision Tree dan Fuzzy
Decision Tree untuk Model Klasifikasi pada Data Diabetes. Dibimbing oleh IMAS S.
SITANGGANG dan IRMAN HERMADI.
Data yang dikumpulkan oleh rumah sakit sangat banyak dan bervariasi, termasuk juga data
pasien yang mengidap penyakit diabetes, akan tetapi data tersebut belum banyak dimanfaatkan
secara optimal. Untuk itu diperlukan suatu sistem data mining yang bisa memanfaatkan data
tersebut menjadi suatu informasi yang berguna. Sebuah penelitian tentang teknik klasifikasi pada
data mining telah dilakukan pada data diabetes suatu rumah sakit dengan metode fuzzy decision
tree. Penelitian tersebut menghasilkan 30 buah aturan dengan akurasi 90.69%, pada nilai fuzziness
control threshold sebesar 98% dan leaf decision threshold sebesar 3%. Aturan klasifikasi yang
mengandung kelas target negatif diabetes sebanyak 29 aturan, sedangkan untuk kelas target positif
diabetes sebanyak 1 aturan.
Penelitian ini membandingkan metode probabilistic fuzzy decision tree (PFDT) dan fuzzy
decision tree (FDT) pada data yang sama dengan penelitian sebelumnya. Probabilistic fuzzy
decision tree merupakan pengembangan dari metode fuzzy decision tree dengan memperbaiki
fungsi keanggotaan untuk proses learning dengan menggunakan pendekatan well defined sample
space.
Dari penelitian ini dihasilkan jumlah aturan yang dihasilkan dari FDT lebih banyak dari jumlah
aturan dari PFDT, yaitu sebanyak 41 aturan untuk FDT dan 26 aturan untuk PFDT dengan nilai
fuzziness control threshold sebesar 98% dan leaf decision threshold sebesar 3%. Nilai akurasi FDT
lebih besar dari PFDT yaitu 92.8% untuk FDT dan 90% untuk PFDT dengan nilai fuzziness

control threshold sebesar 98% dan leaf decision threshold sebesar 3%.
Kata kunci: klasifikasi, fuzzy decision tree, probabilistic fuzzy decision tree, well defined sample
space

! "
*

#$ %
$!#

# $&#$ ' ' (! " !
) &
(' $#
# ' #
* & !'$ & # "$ & ! '
& # #$#
# & & ( (

+,- ,


MUHAMMAD RAFI MUTTAQIN. Perbandingan Probabilistic Fuzzy Decision Tree dan Fuzzy
Decision Tree untuk Model Klasifikasi pada Data Diabetes. Dibimbing oleh IMAS S.
SITANGGANG dan IRMAN HERMADI.
Data yang dikumpulkan oleh rumah sakit sangat banyak dan bervariasi, termasuk juga data
pasien yang mengidap penyakit diabetes, akan tetapi data tersebut belum banyak dimanfaatkan
secara optimal. Untuk itu diperlukan suatu sistem data mining yang bisa memanfaatkan data
tersebut menjadi suatu informasi yang berguna. Sebuah penelitian tentang teknik klasifikasi pada
data mining telah dilakukan pada data diabetes suatu rumah sakit dengan metode fuzzy decision
tree. Penelitian tersebut menghasilkan 30 buah aturan dengan akurasi 90.69%, pada nilai fuzziness
control threshold sebesar 98% dan leaf decision threshold sebesar 3%. Aturan klasifikasi yang
mengandung kelas target negatif diabetes sebanyak 29 aturan, sedangkan untuk kelas target positif
diabetes sebanyak 1 aturan.
Penelitian ini membandingkan metode probabilistic fuzzy decision tree (PFDT) dan fuzzy
decision tree (FDT) pada data yang sama dengan penelitian sebelumnya. Probabilistic fuzzy
decision tree merupakan pengembangan dari metode fuzzy decision tree dengan memperbaiki
fungsi keanggotaan untuk proses learning dengan menggunakan pendekatan well defined sample
space.
Dari penelitian ini dihasilkan jumlah aturan yang dihasilkan dari FDT lebih banyak dari jumlah
aturan dari PFDT, yaitu sebanyak 41 aturan untuk FDT dan 26 aturan untuk PFDT dengan nilai
fuzziness control threshold sebesar 98% dan leaf decision threshold sebesar 3%. Nilai akurasi FDT

lebih besar dari PFDT yaitu 92.8% untuk FDT dan 90% untuk PFDT dengan nilai fuzziness
control threshold sebesar 98% dan leaf decision threshold sebesar 3%.
Kata kunci: klasifikasi, fuzzy decision tree, probabilistic fuzzy decision tree, well defined sample
space

Judul : Perbandingan Probabilistic Fuzzy Decision Tree dan Fuzzy Decision
Tree untuk Model Klasifikasi pada Data Diabetes
Nama : Muhammad Rafi Muttaqin
NIM : G64104082

Menyetujui:

Pembimbing I,

Pembimbing II,

Imas S. Sitanggang, S.Si, M.Kom
NIP 132206235

Irman Hermadi, S.Kom, M.S

NIP 132321422

Mengetahui:
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor

Dr. Drh. Hasim, DEA
NIP 131578806

Tanggal Lulus:

. /
Penulis dilahirkan di Purwakarta pada tanggal 20 Agustus 1987 dari pasangan Busrol Karim
dan Heni Yuliati. Penulis merupakan putra ke empat dari empat bersaudara.
Tahun 2004 penulis lulus dari SMA Insan Kamil Bogor dan pada tahun yang sama melanjutkan
pendidikan ke Institut Pertanian Bogor (IPB) melalui jalus Seleksi Penerimaan Mahasiswa Baru
(SPMB) pada Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.
Pada tanggal 02 Juli 2007 sampai dengan 25 Agustus 2007, penulis melaksanakan Praktik
Kerja Lapangan di SMA Insan Kamil Bogor. Penulis ditempatkan di Bagian Teknologi Informasi,
SMA Insan Kamil Bogor untuk merancang Sistem Informasi Akademik Berbasis Wireless

Application Protocol.

Alhamdulillahi Rabbil ‘alamin, puji dan syukur penulis panjatkan kepada Allah SWT atas
segala curahan rahmat dan karunia?Nya sehingga tugas akhir ini dapat diselesaikan. Tugas akhir
ini berjudul Perbandingan Probabilistic Fuzzy Decision Tree dan Fuzzy Decision Tree untuk
Model Klasifikasi pada Data Diabetes.
Dalam menyelesaikan tugas akhir ini penulis mendapatkan banyak sekali bantuan, bimbingan
dan dorongan dari berbagai pihak. Oleh karena itu, penulis ingin mengucapkan terima kasih
kepada semua pihak yang telah membantu dalam penyelesaian tugas akhir ini, antara lain:
1 ABI guruku tercinta yang selalu memberikan doa, nasehat serta dorongan untuk menyelesaikan
tugas akhir ini,
2 Kedua orangtua tercinta, mamah Heni Yuliati dan papap Busrol Karim atas do’a, kasih sayang
dan dukungannya,
3 Kakak?kakakku tercinta Lina Aliani, Wulan Farhani, dan Rani Rahmani atas segala motivasi
dan bantuannya selama proses penyelesaian tugas akhir ini,
4 Ibu Imas S. Sitanggang, S.Si, M.Kom selaku pembimbing pertama atas bimbingan dan
arahannya serta dorongannya untuk menyelesaikan tugas akhir ini dengan cepat,
5 Bapak Irman Hermadi, S.Kom, MS selaku pembimbing kedua atas bimbingan dan arahannya
selama pengerjaan tugas akhir ini,
6 Ustadz Ahmad,Ustadz Ikhlas, Kak Epul, Kak Hadi, Kak Oi, Kak Hadian, Kak Yusuf, Rizal,

Kamal, Yusufa, Afiah dan seluruh Ustadz dan teman di Al?Ihya atas bimbingan, persahabatan,
canda, dan bantuan selama ini,
7 David Singo, Reza, dan Maul yang telah bersedia menjadi pembahas pada seminar penulis,
8 Riza, Hasan, Hode, Henry, Welly, Tri yang setia melakukan bimbingan bersama,
9 Noven, Brank, dan teman?teman ILKOM 41 IPB yang telah banyak membantu penulis selama
kuliah di IPB
Penulis juga mengucapkan terima kasih kepada semua pihak yang telah membantu selama
pengerjaan penyelesaian tugas akhir ini yang tidak dapat disebutkan satu?persatu. Semoga
penelitian ini dapat memberi manfaat.

Bogor,

Juli 2008

Muhammad Rafi Muttaqin

v

! ' &
DAFTAR TABEL ................................................................................................................................. vi

DAFTAR GAMBAR ............................................................................................................................ vi
DAFTAR LAMPIRAN ......................................................................................................................... vi
PENDAHULUAN
Latar Belakang.................................................................................................................................. 1
Tujuan Penelitian .............................................................................................................................. 1
Ruang Lingkup Penelitian ................................................................................................................ 1
Manfaat Penelitian ............................................................................................................................ 1
TINJAUAN PUSTAKA
Data Mining...................................................................................................................................... 1
Klasifikasi ......................................................................................................................................... 2
Fungsi Keanggotaaan ....................................................................................................................... 2
Himpunan Fuzzy ............................................................................................................................... 2
Linguistic Variable (Peubah Linguistik)........................................................................................... 2
Linguistic Term ................................................................................................................................. 3
Sistem Inferensi Fuzzy (Fuzzy Inference System) ............................................................................. 3
Pohon Keputusan .............................................................................................................................. 3
Fuzzy Decision Tree (FDT) .............................................................................................................. 3
Fuzzy ID3 Decision Tree .................................................................................................................. 3
Probabilistic Fuzzy Decision Tree (PFDT) ...................................................................................... 4
Statistical Fuzzy Entropy (SFE) dan Statistical Information Gain ................................................... 4

Threshold .......................................................................................................................................... 4
K fold Cross Validation .................................................................................................................... 5
METODE PENELITIAN
Data .................................................................................................................................................. 5
Metode .............................................................................................................................................. 5
Lingkup Pengembangan Sistem ....................................................................................................... 5
HASIL DAN PEMBAHASAN
Transformasi Data ............................................................................................................................ 5
Pendekatan Without Well Defined Sample Space ............................................................................. 6
Pendekatan Well Defined Sample Space .......................................................................................... 8
Data Mining.................................................................................................................................... 10
Fase Pembentukan Pohon Keputusan ................................................................................. 10
Akurasi FDT, PFDT(1), dan PFDT(2) ................................................................................ 12
Representasi Pengetahuan .............................................................................................................. 13
Aturan?Aturan dari FDT ..................................................................................................... 13
Aturan?aturan dari PFDT(2) ............................................................................................... 13
KESIMPULAN DAN SARAN
Kesimpulan ..................................................................................................................................... 13
Saran ............................................................................................................................................... 13
DAFTAR PUSTAKA .......................................................................................................................... 13

LAMPIRAN ......................................................................................................................................... 15

vi

! ' &
1 Kelompok percobaan ..................................................................................................................... 5
2 Daftar range normal untuk setiap atribut ....................................................................................... 6
3 Rata?rata jumlah aturan FDT ....................................................................................................... 10
4 Rata?rata jumlah aturan PFDT(1) ................................................................................................ 10
5 Rata?rata jumlah aturan PFDT(2) ................................................................................................ 10
6 Contoh perbandingan hasil FDT dan PFDT ................................................................................ 11
7 Rata?rata akurasi FDT ................................................................................................................. 12
8 Rata?rata akurasi PFDT(1) ........................................................................................................... 12
9 Rata?rata akurasi PFDT(2) ........................................................................................................... 12

! ' &
1 Fungsi keanggotaan trapezoidal. ................................................................................................... 2
2 Fungsi keanggotaan gaussian. ....................................................................................................... 2
3 Diagram alur proses klasifikasi PFDT. .......................................................................................... 6
4 Himpunan fuzzy atribut GLUN untuk FDT. .................................................................................. 6

5 Himpunan fuzzy atribut GPOST untuk FDT. ................................................................................. 7
6 Himpunan fuzzy atribut HDL untuk FDT. ..................................................................................... 7
7 Himpunan fuzzy atribut TG untuk FDT. ........................................................................................ 8
8 Himpunan fuzzy atribut GLUN untuk PFDT. ................................................................................ 8
9 Himpunan fuzzy atribut HDL untuk PFDT. ................................................................................... 9
10 Himpunan fuzzy atribut HDL untuk PFDT. ................................................................................. 9
11 Himpunan fuzzy atribut TG untuk PFDT. .................................................................................... 9
12 Perbandingan rata?rata jumlah aturan untuk nilai
sebesar 10%. .......................................... 11
13 Perbandingan rata?rata waktu eksekusi proses training ............................................................. 11
14 Perbandingan rata?rata akurasi untuk nilai
sebesar 10%. ..................................................... 12
15 Akurasi FDT, PFDT(1), dan PFDT(2) untuk nilai
sebesar 10%.......................................... 12

! ' &
1 Fungsi keanggotaan PFDT(1) ................................................................................................... 16
2 Jumlah aturan yang dihasilkan FDT, PFDT(1), dan PFDT(2)
untuk masing?masing training set ............................................................................................. 17
3 Waktu eksekusi FDT, PFDT(1), dan PFDT(2)

untuk masing?masing training set dalam satuan detik .............................................................. 20
4 Akurasi aturan FDT, PFDT(1), dan PFDT(2) setelah pengujian
dengan menggunakan test set .................................................................................................... 24
5 Aturan?aturan yang dihasilkan dari FDT
dengan nilai
dan
masing?masing 98% dan 3% ............................................................... 32
6 Aturan?aturan yang dihasilkan dari PFDT(2)
dengan nilai
dan
masing?masing 98% dan 3% ............................................................... 33

1

$)$ &
#

!

&

Organisasi Kesehatan Dunia (WHO)
memperkirakan, bahwa 177 juta penduduk
dunia mengidap penyakit diabetes mellitus
atau biasa disingkat diabetes. Jumlah ini akan
terus meningkat hingga melebihi 300 juta
pada tahun 2025. Dr Paul Zimmet, direktur
dari International Diabetes Institute (IDI) di
Victoria, Australia, meramalkan bahwa
diabetes akan menjadi epidemi yang paling
dahsyat dalam sejarah manusia.
Perkembangan yang cepat dalam teknologi
pengumpulan dan penyimpanan data telah
memudahkan
suatu
organisasi
untuk
mengumpulkan sejumlah data berukuran
besar. Kondisi ini terjadi pada sebuah rumah
sakit yang mempunyai beribu?ribu record data
pasien dan jenis penyakitnya, misalnya
kumpulan data diabetes yang terkait dengan
hasil pemeriksaan laboratorium dari pasien
rumah sakit. Data diabetes berukuran besar
tersebut seringkali dibiarkan menggunung
tanpa digunakan secara maksimal.
Data mining merupakan proses ekstraksi
informasi atau pola penting dalam basis data
berukuran besar (Han & Kamber 2006). Pada
penelitian ini akan diterapkan salah satu
teknik dalam data mining, yaitu klasifikasi
terhadap data diabetes. Klasifikasi merupakan
salah satu metode dalam data mining untuk
memprediksi label kelas dari suatu record
dalam data. Metode yang digunakan dalam
penelitian ini yaitu metode klasifikasi dengan
probabilistic fuzzy decision tree (PFDT).
Penggunaan teknik fuzzy memungkinkan
melakukan prediksi suatu objek yang dimiliki
oleh lebih dari satu kelas. Dengan menerapkan
data mining pada data diabetes diharapkan
dapat ditemukan aturan klasifikasi yang dapat
digunakan untuk memprediksi potensi
seseorang terserang penyakit diabetes. Pada
penelitian sebelumnya digunakan metode
fuzzy decision tree yang dilakukan oleh Firat
Romansyah (2007) dan menghasilkan nilai
akurasi yang cukup tinggi yaitu di atas 90%.
Metode probabilistic fuzzy decision tree
diharapkan dapat meningkatkan nilai akurasi,
serta membandingkan hasil klasifikasi dengan
metode fuzzy decision tree (FDT).

& !# &

Tujuan penelitian ini adalah:
1 Menerapkan teknik klasifikasi data mining
menggunakan metode probabilistic fuzzy
decision tree.
2 Membandingkan nilai akurasi antara
metode
fuzzy
decision
tree
dan
probabilistic fuzzy decision tree.
$ &

&

$

& !# &

Ruang lingkup penelitian dibatasi pada:
1 Data yang digunakan adalah data
pemeriksaan lab pasien rumah sakit yang
meliputi GLUN (Glukosa Darah Puasa),
GPOST (Glukosa Darah 2 Jam PP), Tg
(Trigliserida), HDL (Kolestrol HDL), serta
diagnosa pasien berdasarkan nilai GLUN,
GPOST, HDL, dan TG.
2 Teknik yang digunakan adalah salah satu
teknik dalam data mining yaitu teknik
klasifikasi dengan menggunakan metode
decision
tree.
Untuk
menangani
ketidakpastian
dan
ketidaktepatan,
pendekatan fuzzy digunakan.
3 Penelitian
dilakukan
dengan
mengimplementasikan Probabilistic Fuzzy
ID3 (Iterative Dichotomiser 3) Decision
Tree.
&0

#

& !# &

Penelitian
ini
diharapkan
dapat
membuktikan teori yang menyatakan bahwa
teknik probabilistic fuzzy decision tree lebih
baik nilai akurasinya dibandingkan dengan
teknik fuzzy decision tree. Penelitian ini juga
diharapkan menjadi dasar untuk memilih
teknik apa yang akan digunakan dalam
membangun aplikasi data mining yang lebih
besar, khususnya untuk teknik klasifikasi.

1
Data mining merupakan proses ekstraksi
informasi data berukuran besar (Han &
Kamber 2006). Dari sudut pandang analisis
data, data mining dapat diklasifikasi menjadi
dua kategori, yaitu descriptive data mining
dan predictive data mining. Descriptive data
mining menjelaskan sekumpulan data dalam
cara yang lebih ringkas. Ringkasan tersebut
menjelaskan sifat?sifat yang menarik dari
data. Predictive data mining menganalisis
data dengan tujuan mengkonstruksi satu atau
sekumpulan model dan melakukan prediksi
perilaku dari kumpulan data baru.

2

!

0

Klasifikasi termasuk ke dalam kategori
predictive data mining. Klasifikasi adalah
proses menemukan model (fungsi) yang
menjelaskan dan membedakan kelas?kelas
atau konsep, dengan tujuan agar model yang
diperoleh dapat digunakan untuk mengetahui
kelas atau objek yang memiliki label kelas
yang tidak diketahui. Model yang diturunkan
didasarkan pada analisis dari data training
(Han & Kamber 2006).
Proses klasifikasi dibagi menjadi dua fase
yaitu learning dan testing. Pada fase learning,
sebagian data yang telah diketahui kelas
datanya (training set) digunakan untuk
membentuk model. Selanjutnya pada fase
testing, model yang sudah terbentuk diuji
dengan sebagian data lainnya (test set) untuk
mengetahui akurasi dari model tersebut. Jika
akurasinya mencukupi maka model tersebut
dapat dipakai untuk prediksi kelas data yang
belum diketahui (Han & Kamber 2006).
' $& &
Konsep logika fuzzy pertama kali
diperkenalkan oleh Prof. Lotfi A Zadeh dari
Universitas California pada bulan Juni 1965.
Logika fuzzy merupakan generalisasi dari
logika klasik yang hanya memiliki dua nilai
keanggotaan 0 dan 1. Dalam logika fuzzy nilai
kebenaran suatu pernyataan berkisar dari
sepenuhnya benar ke sepenuhnya salah.
Dengan teori himpunan fuzzy suatu objek
dapat menjadi anggota dari banyak himpunan
dengan derajat keanggotaan yang berbeda
dalam masing?masing himpunan. Derajat
keanggotaan menunjukan nilai keanggotaan
suatu objek pada suatu himpunan. Nilai
keanggotaan ini berkisar antara 0 sampai 1
(Cox 2005).
$&

&

(#

Jika X adalah kumpulan objek yang
ditandai secara umum oleh x, maka himpunan
fuzzy A pada X didefinisikan sebagai berikut:

{(x ,

)

A ( x) | x ∈ X

Contoh bentuk fungsi keanggotaan adalah
trapezoidal dan gaussian. Fungsi keanggotaan
trapezoidal
dispesifikasi
oleh
empat
parameter (a, b, c, d) sebagai berikut.

0 ; x ≤ a
( x − a ) /(b − a ) ; a ≤ x ≤ b

A ( x ) = 1 ; b ≤ x ≤ c
(d − x ) /( d − c ) ; c ≤ x ≤ d

0 ; d ≤ x
Fungsi keanggotaan gaussian dispesifikasikan
oleh dua parameter ( dan c ) sebagai berikut.

JA x

=e

?

x?c 2
2σ2

Bentuk fungsi keanggotaan trapezoidal dapat
dilihat pada Gambar 1 (Kantardzic 2003).
Bentuk fungsi keanggotaan gaussian dapat
dilhat pada Gambar 2.
1

a

b

c

d

Gambar 1 Fungsi keanggotaan trapezoidal.

c

Gambar 2 Fungsi keanggotaan gaussian.

&

Inti dari himpunan fuzzy adalah fungsi
keanggotaan (membership function). Fungsi
keanggotaan
menggambarkan
hubungan
antara domain himpunan fuzzy dengan nilai
derajat keanggotaan (Cox 2005).

A=

memetakan setiap elemen dari X ke nilai
derajat keanggotaan (Kantardzic 2003).

}

dimana JA(x) adalah fungsi keanggotaan
untuk himpunan fuzzy A. Fungsi keanggotaan

!" 2

$

"

& $ # 3

Linguistic variable merupakan peubah
verbal yang dapat digunakan untuk
memodelkan pemikiran manusia yang
diekspresikan dalam bentuk himunan fuzzy.
Peubah linguistik dikarakterisasi oleh
quintaple (x, T(x), X, G, M) dengan x adalah
nama peubah, T(x) adalah kumpulan dari
linguistic term, G adalah aturan sintaks, M
adalah aturan semantik yang bersesuaian
dengan setiap nilai peubah linguistik. Sebagai
contoh, jika umur diinterpretasikan sebagai
peubah linguistik, maka himpunan dari
linguistik term T(umur) menjadi:

3

T(umur) = {sangat muda, muda, tua}
Setiap term dalam T(umur) dikarakterisasi
oleh himpunan fuzzy, X menunjukkan nilai
interval x. Aturan semantik menunjukan
fungsi keanggotaan dari setiap nilai pada
himpunan linguistic term (Cox 2005).
"#
Linguistic term didefinisikan sebagai
kumpulan himpunan fuzzy yang didasarkan
pada fungsi keanggotaan yang bersesuaian
dengan peubah linguistik (Au & Chan 2001).

kumpulan dari record yang terdiri
Jika
dari kumpulan atribut
, dengan
. Atribut dapat berupa atribut
numerik atau kategorikal. Untuk setiap record
d elemen D,
menotasikan nilai i dalam
record d untuk atribut . Kumpulan linguistic
term dapat didefinisikan pada seluruh domain
dari atribut kuantitatif.
menotasikan linguistic term yang berasosiasi
dengan atribut
, sehingga himpunan fuzzy
dapat didefinisikan untuk setiap
.
,

fuzzy
Himpunan
didefinisikan sebagai:

dom

% dom

untuk
dom

semua
&

!"# $"

jika

!"# $"

jika

$"

$"

& ' ()
& .

diskret

kontinu
,

dengan

Derajat keanggotaan dari nilai & ' dom
dengan beberapa linguistic term
dinotasikan oleh * "# .
# ' &0
"#3

&

2

$" "

"

Sistem inferensi fuzzy adalah suatu
framework yang didasarkan pada konsep
himpunan fuzzy, fuzzy if then rules, dan fuzzy
reasoning. Salah satu metode inferensi fuzzy
yang paling umum digunakan adalah metode
sistem inferensi fuzzy Mamdani. Struktur
dasar dari sistem inferensi fuzzy terdiri dari
tiga komponen yaitu (Jang et al 1997):
1 basis aturan, terdiri dari aturan?aturan
fuzzy,
2 basis data / kamus data, mendefinisikan
fungsi keanggotaan yang digunakan pada
aturan fuzzy, dan
3 mekanisme penalaran, melakukan proses
inferensi pada aturan dan fakta yang

diberikan untuk memperoleh output atau
kesimpulan.
("(&

$#$ &

Pohon keputusan merupakan suatu
pendekatan yang sangat populer dan praktis
dalam machine learning untuk menyelesaikan
permasalah klasifikasi. Metode ini digunakan
untuk memperkirakan nilai diskret dari fungsi
target, yang mana fungsi pembelajaran
direpresentasikan
oleh
sebuah
pohon
keputusan (Liang 2005).
Pohon keputtusan sama dengan satu
himpunan aturan IF…THEN. Setiap path
dalam tree dihubungkan dengan sebuah
aturan, yang mana premis terdiri dari
sekumpulan node node yang ditemui, dan
kesimpulan dari aturan terdiri dari kelas yang
terhubung dengan leaf dari path (Marsala
1998).
"

%

"" 2

3

Fuzzy decision tree memungkinkan untuk
menggunakan nilai?nilai numeric symbolic
selama
konstruksi
atau
saat
mengklarifikasikan kasus?kasus baru. Manfaat
dari teori himpunan fuzzy dalam decision tree
ialah meningkatkan kemampuan dalam
memahami decision tree ketika menggunakan
atribut?atribut kuantitatif. Bahkan, dengan
menggunakan
teknik
fuzzy
dapat
meningkatkan ketahanan saat dilakukan
klasifikasi kasus?kasus baru (Marsala 1998).

4 "

%

""

Saat ini ID3 (Iterative Dichotomiser 3)
adalah algoritme yang paling banyak
digunakan untuk membuat suatu decision tree.
Algoritme ini pertama kali diperkenalkan oleh
Quinlan, menggunakan teori informasi untuk
menentukan atribut mana yang paling
informatif, namun ID3 sangat tidak stabil
dalam melakukan penggolongan berkenaan
dengan gangguan kecil pada data latihan.
Logika fuzzy dapat memberikan suatu
peningkatan
untuk
dalam
melakukan
penggolongan pada saat pelatihan (Liang
2005).
Algoritme fuzzy ID3 merupakan algoritme
yang efisien untuk membuat suatu fuzzy
decision tree. Algoritme fuzzy ID3 adalah
sebagai berikut (Liang 2005):
1. Create a
node that has a
set
of
fuzzy
data
with
membership value 1

4

2. If a node t with a fuzzy set of
data
satisfies the following
conditions, then it is a leaf
node and assigned by the class
name.
• The proportion of a class Ck
is greater than or equal to
!x,

| D Ci |
≥ θr
|D|


the number of a data set is
less than θn
• there are no attributes for
more classifications
3. If a node
does no satisfy the
above conditions, then it is
not a leaf%node. And an new
sub%node
is
generated
as
follow:
• For Ai’s ( =1,…, ) calculate
the information gain, and
select the test attribute Amax
that maximizes them.
• Divide
into fuzzy subset 1
according to Amax ,
where the membership value of
is the product
the data in
of the membership value in
and the value of Fmax, of the
value of Amax in .
• Generate new nodes t1 , …, t
for fuzzy subsets 1
and label the fuzzy sets
Fmax, to edges that connect
between the nodes t and t
(j=1, 2, …,
• Replace
by
m)
and
repeat
from
2
recursively.

%

!

"

%

"" 2

3

Probabilistic
fuzzy
decision
tree
merupakan metode pengembangan dari
metode sebelumnya yaitu fuzzy decision tree.
Metode
PFDT
memperbaiki
fungsi
keanggotaan untuk proses learning pada
metode FDT. Dengan adanya perbaikan pada
membership function maka diharapkan nilai
akurasi yang diperoleh oleh metode PFDT
lebih tinggi dibandingkan metode FDT.

Algoritme probabilistic fuzzy ID3 adalah
sebagai berikut (Liang 2005):
1. Create a
node that has a
set
of
fuzzy
data
with
membership value 1 that fits the
condition of
.

2. Execute the fuzzy ID3 algorithm
from step 2 to end

!
!

%& 2
% '

$% #

3* &

Information gain adalah suatu nilai
statistik yang digunakan untuk memilih atribut
tree
dan
yang
akan
mengekspansi
menghasilkan node baru pada algoritme ID3.
Suatu
entropy
dipergunakan
untuk
mendefinisikan nilai information gain.
Entropy dirumuskan sebagai berikut:
5
$ .

+, -

/$ 0 123 4 /$

(1)

dengan /$ adalah rasio dari kelas Ci pada
himpunan contoh S = {x1,x2,...,xk}.
:
7;< 67

/$

=

' 89

(2)

Untuk menghitung nilai information gain
digunakan persamaan sebagai berikut:
> -?

@=" @
'Values A @=@ +

+ - .

dengan bobot B$

@=" @
@=@

-

(3)

adalah rasio dari data

dengan atribut v pada himpunan contoh.
Pada probabilistic fuzzy ID3, statistical
fuzzy entropy (SFE) dirumuskan sebagai
berikut:
C,D
/ ?

8
GL

.

$ *A

E F*AG H 123 4 FEI*AG H JKK (4)
H$ M H$

EI*A H J

(5)

Setelah SFE diterapkan pada algoritme
probabilistic fuzzy ID3 (PFID3) maka
didapatkan statistical fuzzy decision tree.
Untuk
menentukan
statistical
fuzzy
information gain dari statistical information
gain
dilakukan
penggantian
entropy
menggunakan rumus berikut:
> -?

+,D - .

@=9 @
$ @=@ +,D

-$

(6)

Untuk meyakinkan kondisi dari well defined
sample space, jumlah dari membership
function harus sama dengan 1. Jika jumlah
membership function sama dengan 1, maka
kita telah memperbaiki membership function
dari algoritme fuzzy ID3.
( " (%!)

Jika pada proses learning dari FDT
dihentikan sampai semua data contoh pada
masing?masing leaf node menjadi anggota
sebuah kelas, akan dihasilkan akurasi yang

5

rendah. Oleh karena itu untuk meningkatkan
akurasinya, proses learning harus dihentikan
lebih awal atau melakukan pemotongan tree
secara umum. Untuk itu diberikan 2 (dua)
buah threshold yang harus dipenuhi jika tree
akan diekspansi, yaitu:
Fuzziness control threshold (FCT) /
Jika proporsi dari himpunan data dari kelas
Ck lebih besar atau sama dengan nilai
threshold , maka hentikan ekspansi tree.
Sebagai contoh: jika pada sebuah sub
dataset rasio dari kelas 1 adalah 90%,
adalah
maka kelas 2 adalah 10% dan
85%, maka hentikan ekspansi tree.
Leaf decision threshold (LDT) /
Jika banyaknya anggota himpunan data
pada suatu node lebih kecil dari threshold
, hentikan ekspansi tree. Sebagai
contoh: sebuah himpunan data memiliki
adalah 2%. Jika
600 contoh dengan
jumlah data contoh pada sebuah node lebih
kecil dari 12 (2% dari 600), maka hentikan
ekspansi tree.
*+$%!)

%

!)

data tidak dilakukan, karena tahapan ini telah
dilakukan pada penelitian sebelumnya. Dalam
penelitian ini, percobaan dibagi ke dalam tiga
kelompok seperti dalam Tabel 1.
&

$

& '

&

&

# '

Perangkat keras yang digunakan berupa
notebook dengan spesifikasi:
• processor: Intel Core 2 Duo 2.0 GHz,
• memori: 1 GB, dan
• harddisk: 120 GB.
Perangkat lunak yang digunakan yaitu:
• sistem operasi: Window XP,
• Matlab
7.0.1
sebagai
bahasa
pemrograman, dan
• Microsoft Excel 2007 sebagai tempat
penyimpanan data.
Tabel 1 Kelompok percobaan
Algoritme
Kelompok
yang
digunakan
FDT

Fuzzy ID3

s shaped,
gaussian, p
shaped

PFDT(1)

Probabilistic
Fuzzy ID3

triangle,
trapezoid

PFDT(2)

Probabilistic
Fuzzy ID3

s shaped,
gaussian, p
shaped

%

K fold cross validation dilakukan untuk
membagi training set dan test set. K fold cross
validation mengulang k?kali untuk membagi
sebuah himpunan contoh secara acak menjadi
k subset yang paling bebas, setiap ulangan
disisakan satu subset untuk pengujian dan
subset lainnya untuk pelatihan (Fu 1994).

Fungsi
Keanggotaan

#
Penelitian ini menggunakan data diabetes
yang
merupakan
hasil
pemeriksaan
laboratorium pasien dari sebuah rumah sakit.
Data hasil pemeriksaan lab pasien yang
digunakan dalam penelitian ini meliputi
GLUN (Glukosa Darah Puasa), GPOST
(Glukosa Darah 2 Jam Pasca Puasa), HDL
(Kolesterol HDL), TG (Trigliserida), serta
diagnosa pasien berdasarkan nilai GLUN,
GPOST, HDL dan TG. Nilai GLUN, GPOST,
HDL, TG dinyatakan dalam satuan Mg/DL.
Diagnosa pasien ditransformasi menjadi dua
kategori, yaitu negatif diabetes yang
direpresentasikan dengan angka 1 dan positif
diabetes yang direpresentasikan dengan angka
2. Total data yang digunakan dalam penelitian
ini berjumlah 290 record.
#(*
Tahapan penelitian yang digunakan dapat
dilihat pada Gambar 3. Proses pembersihan

Data yang digunakan dalam penelitian ini
menggunakan data dari penelitian sebelumnya
(Romansyah 2007). Data ini terdiri dari 6
buah kolom yaitu, no.RM (nomor rekam
medis/MRN), GLUN, GPOST, HDL, TG dan
diagutama (hasil pemeriksaan lab / diagnosis).
& 0( '

#

Pada penelitian ini, teknik data mining
yang digunakan adalah fuzzy decision tree
(FDT) dan probabilistic fuzzy decision tree
(PFDT), oleh karena itu data yang digunakan
harus direpresentasikan ke dalam bentuk
himpunan fuzzy. Dari 5 (lima) atribut yang
digunakan pada penelitian ini 4 diantaranya
merupakan atribut yang kontinu, yaitu GLUN,
GPOST, HDL, dan TG. Berdasarkan hasil
laboratorium range normal untuk atribut
GLUN, GPOST, HDL, dan TG diperlihatkan
pada Tabel 2.

6

Tabel 2 Daftar range normal untuk setiap
atribut
!
(*
#$ &
'
&
( ' !
GLUN

Mg/DL

70 – 100

GPOST

Mg/DL

100 – 140

HDL

Mg/DL

40 – 60

TG

Mg/DL

50 – 150

Atribut GLUN
Atribut GLUN dibagi menjadi 4 kelompok
atau linguistic term, yaitu rendah (GLUN < 70
mg/DL), sedang (70 mg/DL