Penerapan Teknik Klasifikasi Menggunakan Metode Fuzzy Decision Tree Dengan Algoritma ID3 Pada Data Diabetes

ABSTRAK
FIRAT ROMANSYAH. Penerapan Teknik Klasifikasi Menggunakan Metode Fuzzy Decision Tree
dengan Algoritma ID3 pada Data Diabetes. Dibimbing oleh IMAS S. SITANGGANG dan SRI
NURDIATI.
Teknologi pengumpulan dan penyimpanan data telah memudahkan suatu organisasi untuk
mengumpulkan data berukuran besar, salah satu contohnya adalah basis data untuk sebuah rumah
sakit. Data yang dikumpulkan oleh rumah sakit sangat banyak dan bervariasi, termasuk juga data
pasien yang berkaitan dengan penyakit diabetes, akan tetapi data tersebut banyak yang belum
dimanfaatkan secara optimal. Diperlukan suatu sistem data mining yang bisa memanfaatkan data
tersebut menjadi suatu informasi yang berguna. Dalam penelitian ini dipelajari bagaimana data
bisa digunakan untuk membantu mengetahui potensi suatu penyakit, khususnya penyakit diabetes.
Salah satu teknik data mining yang dapat digunakan untuk mengetahui label kelas dari suatu
record dalam data adalah klasifikasi.
Decision tree adalah salah satu metode yang umum digunakan untuk melakukan
klasifikasi. Untuk menangani ketidakpastian dan ketidaktepatan, pendekatan fuzzy digunakan.
Pada penelitian ini dilakukan salah satu teknik data mining yaitu klasifikasi menggunakan metode
fuzzy decision tree pada data diabetes agar diperoleh suatu aturan klasifikasi yang dapat
dipergunakan untuk mengetahui label kelas data yang baru. Algoritma sederhana untuk
membangun sebuah fuzzy decision tree dengan akurasi yang cukup tinggi adalah fuzzy ID3 (fuzzy
Iterative Dichotomiser 3).
Dari penelitian yang telah dilakukan jumlah aturan yang diperoleh adalah 30 buah aturan

dengan akurasi 90.69%, pada nilai fuzziness control threshold sebesar 98% dan leaf decision
threshold sebesar 3%. Aturan klasifikasi yang mengandung kelas target negatif diabetes sebanyak
29 aturan, sedangkan untuk kelas target positif diabetes sebanyak 1 aturan. Klasifikasi dengan 30
aturan tersebut dapat digunakan untuk mengetahui potensi seseorang terserang diabetes.
Kata kunci : Data mining, teknik klasifikasi, Decision tree, Fuzzy ID3

PENERAPAN TEKNIK KLASIFIKASI
MENGGUNAKAN METODE FUZZY DECISION TREE
DENGAN ALGORITMA ID3 PADA DATA DIABETES

FIRAT ROMANSYAH
G64103006

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2007

PENERAPAN TEKNIK KLASIFIKASI

MENGGUNAKAN METODE FUZZY DECISION TREE
DENGAN ALGORITMA ID3 PADA DATA DIABETES

FIRAT ROMANSYAH
G64103006

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2007

PENERAPAN TEKNIK KLASIFIKASI
MENGGUNAKAN METODE FUZZY DECISION TREE
DENGAN ALGORITMA ID3 PADA DATA DIABETES

Skripsi
Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer
pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor


Oleh :
FIRAT ROMANSYAH
G64103006

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2007

ABSTRAK
FIRAT ROMANSYAH. Penerapan Teknik Klasifikasi Menggunakan Metode Fuzzy Decision Tree
dengan Algoritma ID3 pada Data Diabetes. Dibimbing oleh IMAS S. SITANGGANG dan SRI
NURDIATI.
Teknologi pengumpulan dan penyimpanan data telah memudahkan suatu organisasi untuk
mengumpulkan data berukuran besar, salah satu contohnya adalah basis data untuk sebuah rumah
sakit. Data yang dikumpulkan oleh rumah sakit sangat banyak dan bervariasi, termasuk juga data
pasien yang berkaitan dengan penyakit diabetes, akan tetapi data tersebut banyak yang belum
dimanfaatkan secara optimal. Diperlukan suatu sistem data mining yang bisa memanfaatkan data

tersebut menjadi suatu informasi yang berguna. Dalam penelitian ini dipelajari bagaimana data
bisa digunakan untuk membantu mengetahui potensi suatu penyakit, khususnya penyakit diabetes.
Salah satu teknik data mining yang dapat digunakan untuk mengetahui label kelas dari suatu
record dalam data adalah klasifikasi.
Decision tree adalah salah satu metode yang umum digunakan untuk melakukan
klasifikasi. Untuk menangani ketidakpastian dan ketidaktepatan, pendekatan fuzzy digunakan.
Pada penelitian ini dilakukan salah satu teknik data mining yaitu klasifikasi menggunakan metode
fuzzy decision tree pada data diabetes agar diperoleh suatu aturan klasifikasi yang dapat
dipergunakan untuk mengetahui label kelas data yang baru. Algoritma sederhana untuk
membangun sebuah fuzzy decision tree dengan akurasi yang cukup tinggi adalah fuzzy ID3 (fuzzy
Iterative Dichotomiser 3).
Dari penelitian yang telah dilakukan jumlah aturan yang diperoleh adalah 30 buah aturan
dengan akurasi 90.69%, pada nilai fuzziness control threshold sebesar 98% dan leaf decision
threshold sebesar 3%. Aturan klasifikasi yang mengandung kelas target negatif diabetes sebanyak
29 aturan, sedangkan untuk kelas target positif diabetes sebanyak 1 aturan. Klasifikasi dengan 30
aturan tersebut dapat digunakan untuk mengetahui potensi seseorang terserang diabetes.
Kata kunci : Data mining, teknik klasifikasi, Decision tree, Fuzzy ID3

Judul : Penerapan Teknik Klasifikasi Menggunakan Metode Fuzzy
Decision Tree dengan Algoritma ID3 pada Data Diabetes

Nama : Firat Romansyah
NRP : G64103006

Menyetujui:
Pembimbing I,

Pembimbing II

Imas S. Sitanggang, S.Si., M.Kom.
NIP 132 206 235

Dr. Ir. Sri Nurdiati, M.Sc.
NIP 131 578 805

Mengetahui:
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor

Prof. Dr. Ir. Yonny Koesmaryono, MS
NIP 131 473 999


Tanggal Lulus:

RIWAYAT HIDUP
Penulis dilahirkan di Mataram pada tanggal 29 Mei 1985 sebagai anak ke tiga dari lima
bersaudara dari pasangan Abdul Husein dan Ida Risnani. Penulis menyelesaikan pendidikan
menengah atas di SMUN 1 Sumbawa Besar dan lulus pada tahun 2003.
Pada tahun yang sama penulis diterima sebagai mahasiswa Departemen Ilmu Komputer,
Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Penulis diterima
melalui jalur Undangan Seleksi Masuk IPB (USMI). Penulis pernah melaksanakan praktek lapang
selama dua bulan di Hotel Salak The Heritage. Tugas yang diberikan pada praktek lapang tersebut
berkaitan dengan perancangan dan implementasi Sistem Inventori Hotel Salak The Heritage.

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah SWT atas limpahan nikmat dan hidayahNya sehingga penulis dapat menyelesaikan karya ilmiah ini. Sholawat dan salam semoga
senantiasa tercurah kepada nabi besar Muhammad SAW, keluarganya, para sahabat, serta para
pengikutnya yang tetap istiqomah mengemban risalah-Nya.
Melalui lembar ini, penulis ingin menyampaikan penghargaan dan terima kasih kepada
semua pihak atas bantuan, dorongan, saran, kritik, serta koreksi selama penulisan karya ilmiah ini.
Ucapan terima kasih penulis ucapkan kepada:

1. Ibu, Abah, ka’ Maya, ka’ Rian, Robi, ade’ Mala, dan seluruh keluargaku atas doa, kasih
sayang, dan pengorbanan yang telah diberikan selama ini.
2. Ibu Imas S. Sitanggang, S.Si., M.Kom. selaku pembimbing I, Ibu Dr. Ir. Sri Nurdiati,
M.Sc. selaku pembimbing II dan Bapak Hari Agung A., S.Kom. selaku dosen penguji.
3. Pandi, Meynar, dan Arum yang telah bersedia menjadi pembahas.
4. Ratih sebagai teman senasib seperjuangan dalam melakukan penelitian dan Sofi yang
banyak membantu peneliti di awal-awal penelitian.
5. Bapak Herwanto yang telah bersedia memberikan data sebagai bahan penelitian.
6. Meynar selaku “Emak” yang selalu memberi dukungan pada peneliti selama di IPB.
7. Jemi, Pandi, PIS, Dhiku, dan anggota “Geng Cinta” lainnya yang telah banyak memberi
inspirasi dan kegembiraan pada peneliti.
8. Gibtha sekeluarga atas dukungan dan bantuannya pada peneliti selama di IPB.
9. Yayan yang telah meminjamkan installer Matlab 7.0.
10. Seluruh staf pengajar yang telah memberikan bekal ilmu dan wawasan selama penulis
menuntut ilmu di Departemen Ilmu Komputer.
11. Seluruh staf administrasi dan perpustakaan Departemen Ilmu Komputer atas
bantuannya.
12. Rekan-rekan Departemen Ilmu Komputer angkatan 40.
Sebagaimana manusia yang tidak luput dari kesalahan, penulis menyadari bahwa karya
ilmiah ini jauh dari sempurna. Namun penulis berharap semoga karya ilmiah ini dapat bermanfaat

bagi siapapun yang membacanya.

Bogor, Mei 2007

Firat Romansyah

v

DAFTAR ISI
Halaman
DAFTAR TABEL............................................................................................................................vi
DAFTAR GAMBAR .......................................................................................................................vi
DAFTAR LAMPIRAN....................................................................................................................vi
PENDAHULUAN ............................................................................................................................ 1
Latar Belakang ..............................................................................................................................1
Tujuan Penelitian ..........................................................................................................................1
Ruang Lingkup Penelitian .............................................................................................................1
Manfaat Penelitian.........................................................................................................................1
TINJAUAN PUSTAKA.................................................................................................................... 1
Knowledge Data Discovery (KDD) ..............................................................................................1

Data Mining ..................................................................................................................................2
Klasifikasi .....................................................................................................................................2
Himpunan Fuzzy............................................................................................................................2
Linguistic Variable (Peubah Linguistik) .......................................................................................3
Linguistic Term .............................................................................................................................3
Fuzzy Decision Tree (FDT)...........................................................................................................3
Fuzzy ID3 Decision Tree...............................................................................................................4
Fuzzy Entropy dan Information Gain ............................................................................................4
Threshold ......................................................................................................................................5
K-fold Cross Validation ................................................................................................................5
Sistem Inferensi Fuzzy ..................................................................................................................5
METODE PENELITIAN.................................................................................................................. 5
Lingkungan Pengembangan ..........................................................................................................6
HASIL DAN PEMBAHASAN......................................................................................................... 6
Pembersihan Data..........................................................................................................................7
Transformasi Data .........................................................................................................................7
Data Mining ..................................................................................................................................9
Training.....................................................................................................................................9
Testing.....................................................................................................................................12
Representasi Pengetahuan ...........................................................................................................13

Evaluasi Kinerja FID3.................................................................................................................13
KESIMPULAN DAN SARAN....................................................................................................... 14
Kesimpulan .................................................................................................................................14
Saran............................................................................................................................................14
DAFTAR PUSTAKA ..................................................................................................................... 14
LAMPIRAN.................................................................................................................................... 16

vi

DAFTAR TABEL
Halaman
1 Nilai referensi hasil laboratorium...................................................................................................7
2 Aturan klasifikasi contoh training set ..........................................................................................10
3 Rata-rata jumlah aturan ................................................................................................................11
4 Rata-rata waktu eksekusi dalam satuan detik...............................................................................11
5 Model untuk training set pertama dengan θr (75%) dan θn (3%) .................................................12
6 Model untuk training set pertama dengan θr (85%) dan θn (3%) .................................................12
7 Evaluasi kinerja FID3...................................................................................................................13

DAFTAR GAMBAR

Halaman
1 Tahapan proses KDD (Han & Kamber 2001) ................................................................................2
2 Diagram alur proses klasifikasi ......................................................................................................6
3 Himpunan fuzzy atribut GLUN ......................................................................................................7
4 Himpunan fuzzy atribut GPOST .....................................................................................................8
5 Himpunan fuzzy atribut HDL .........................................................................................................8
6 Himpunan fuzzy atribut TG ............................................................................................................8
7 Hasil ekspansi training set berdasarkan atribut GPOST ................................................................9
8 Fuzzy decision tree untuk contoh training set.............................................................................10
9 Perbandingan rata-rata jumlah aturan...........................................................................................11
10 Perbandingan rata-rata waktu eksekusi proses training .............................................................12
11 Evaluasi kinerja FID3.................................................................................................................14
12 Antarmuka grafis aplikasi untuk proses training .......................................................................14

DAFTAR LAMPIRAN
Halaman
1 Contoh data hasil proses pembersihan data..................................................................................17
2 Contoh data hasil fuzzifikasi pada proses transformasi data ........................................................18
3 Contoh data untuk proses training ...............................................................................................19
4 Jumlah aturan yang dihasilkan oleh masing-masing training set.................................................20
5 Waktu eksekusi algoritma FID3 untuk masing-masing training set dalam satuan detik..............21
6 Akurasi aturan setelah pengujian dengan menggunakan test set..................................................22

1

PENDAHULUAN
Latar Belakang
Organisasi Kesehatan Dunia (WHO)
memperkirakan, bahwa 177 juta penduduk
dunia mengidap penyakit diabetes melitus
atau biasa disingkat diabetes. Jumlah ini akan
terus meningkat hingga melebihi 300 juta
pada tahun 2025. Dr Paul Zimmet, direktur
dari International Diabetes Institute (IDI) di
Victoria, Australia, meramalkan bahwa
diabetes akan menjadi epidemi yang paling
dahsyat dalam sejarah manusia. Hasil survey
Organisasi Kesehatan Dunia (WHO) juga
menyatakan bahwa jumlah penderita kencing
manis (diabetes mellitus) di Indonesia sekitar
17 juta orang (8,6% dari jumlah penduduk)
atau menduduki urutan terbesar ke-4 setelah
India, Cina dan Amerika Serikat.
Perkembangan yang cepat dalam teknologi
pengumpulan dan penyimpanan data telah
memudahkan
suatu
organisasi
untuk
mengumpulkan sejumlah data berukuran
besar. Kondisi ini terjadi pada sebuah rumah
sakit yang mempunyai beribu-ribu record data
pasien dan jenis penyakitnya, misalnya
kumpulan data diabetes yang terkait dengan
hasil pemeriksaan laboratorium dari pasien
rumah sakit. Data berukuran besar tersebut
seringkali dibiarkan menggunung tanpa
digunakan secara maksimal. Hal ini
disebabkan keterbatasan pengguna komputer
untuk mengolah data tersebut menjadi sebuah
informasi yang berguna. Padahal jika
dianalisis lebih dalam akan menghasilkan
informasi atau pengetahuan yang penting dan
berharga sebagai penunjang pengambilan
keputusan.
Data mining merupakan proses ekstraksi
informasi atau pola penting dalam basis data
berukuran besar (Han & Kamber 2001). Pada
penelitian ini akan diterapkan salah satu
teknik dalam data mining, yaitu klasifikasi
terhadap data diabetes. Klasifikasi merupakan
salah satu metode dalam data mining untuk
mengetahui label kelas dari suatu record
dalam data. Metode yang digunakan dalam
penelitian ini yaitu metode klasifikasi dengan
fuzzy decision tree. Penggunaan teknik fuzzy
memungkinkan dilakukan penentuan suatu
objek yang dimiliki oleh lebih dari satu kelas.
Dengan menerapkan teknik data mining pada
data diabetes diharapkan dapat ditemukan
aturan klasifikasi yang dapat digunakan untuk
mengetahui potensi seseorang terserang
penyakit diabetes.

Tujuan Penelitian
Tujuan dari penelitian ini adalah :
1. Menerapkan salah satu teknik data mining
yaitu klasifikasi menggunakan metode
fuzzy decision tree.
2. Menemukan aturan klasifikasi pada data
diabetes
yang
menjelaskan
dan
membedakan kelas-kelas atau konsep
sehingga
dapat
digunakan
untuk
mengetahui potensi penyakit diabetes
berdasarkan nilai dari atribut lain yang
diketahui.
3. Membangun aplikasi sederhana untuk
membuat model atau aturan-aturan
klasifikasi.
Ruang Lingkup Penelitian
Ruang lingkup penelitian dibatasi pada:
1. Membangun
sebuah
model
untuk
mengetahui potensi pasien terserang
diabetes menggunakan data pemeriksaan
lab pasien dari sebuah rumah sakit yang
meliputi pemeriksaan GLUN (Glukosa
Darah Puasa), GPOST (Glukosa Darah 2
Jam Pasca Puasa), Tg (Trigliserida), HDL
(Kolesterol HDL), serta diagnosa pasien
berdasarkan nilai GLUN, GPOST, HDL,
dan TG.
2. Teknik yang digunakan adalah salah satu
teknik dalam data mining yaitu teknik
klasifikasi dengan menggunakan metode
decision tree.
Untuk menangani
ketidakpastian
dan
ketidaktepatan,
pendekatan fuzzy digunakan.
3. Penelitian
dilakukan
dengan
mengimplementasikan salah satu teknik
fuzzy decision tree yaitu Fuzzy ID3
(Iterative Dichotomiser 3) Decision Tree
pada data hasil pemeriksaan lab pasien.
Manfaat Penelitian
Model yang dihasilkan pada penelitian ini
diharapkan dapat digunakan oleh pihak yang
berkepentingan untuk mengetahui potensi
seseorang atau pasien terserang penyakit
diabetes, sehingga terjadinya penyakit ini
pada seseorang dapat diketahui sedini
mungkin dan dapat dilakukan tindakan
antisipasi.

TINJAUAN PUSTAKA
Knowledge Data Discovery (KDD)
Knowledge discovery in databases (KDD)
adalah proses menemukan informasi yang
berguna dan pola-pola yang ada dalam data
(Goharian & Grossmann 2003). KDD

2

merupakan sebuah proses yang terdiri dari
serangkaian proses iteratif yang terurut dan
data mining merupakan salah satu langkah
dalam KDD (Han & Kamber 2001). Pada
Gambar 1 dapat dilihat tahapan proses KDD
secara berurut. Tahapan proses KDD menurut
Han & Kamber (2001), yaitu :
1. Pembersihan data
Pembersihan terhadap data dilakukan
untuk
menghilangkan data yang tidak
konsisten atau data yang mengandung
noise.
2. Integrasi data
Proses integrasi data dilakukan untuk
menggabungkan data dari berbagai
sumber.
3. Seleksi data
Proses seleksi data mengambil data yang
relevan digunakan untuk proses analisis.
4. Transformasi data
Proses
mentransformasikan
atau
menggabungkan data ke dalam bentuk
yang tepat untuk dimining.
5. Data mining
Data mining merupakan proses yang
penting dimana metode-metode cerdas
diaplikasikan untuk mengekstrak pola-pola
dalam data.
6. Evaluasi pola
Evaluasi
pola
diperlukan
untuk
mengidentifikasi beberapa pola-pola yang
menarik
yang
merepresentasikan
pengetahuan.
7. Presentasi pengetahuan
Penggunaan visualisasi dan teknik
representasi
untuk
menunjukkan
pengetahuan hasil peggalian gunung data
kepada pengguna.
Pattern Evaluation
Data
mining
Task-relevant

Data
Data
Warehouse
Data Cleaning

keseluruhan
proses
mengaplikasikan
komputer dan bermacam-macam teknik untuk
menemukan informasi dari sekumpulan data.
Dari sudut pandang analisis data, data mining
dapat diklasifikasi menjadi dua kategori, yaitu
descriptive data mining dan predictive data
mining. Descriptive data mining menjelaskan
sekumpulan data dalam cara yang lebih
ringkas. Ringkasan tersebut menjelaskan sifatsifat yang menarik dari data. Predictive data
mining menganalisis data dengan tujuan
mengkonstruksi satu atau sekumpulan model
dan melakukan prediksi perilaku dari
kumpulan data yang baru. Aplikasi data
mining telah banyak diterapkan pada berbagai
bidang, seperti analisis pasar dan manajemen,
analisis perusahaan dan manajemen resiko,
telekomunikasi, asuransi dan keuangan.
Klasifikasi
Klasifikasi adalah proses menemukan
model (fungsi) yang menjelaskan dan
membedakan kelas-kelas atau konsep, dengan
tujuan agar model yang diperoleh dapat
digunakan untuk mengetahui kelas atau objek
yang memiliki label kelas yang tidak
diketahui. Klasifikasi termasuk ke dalam
kategori predictive data mining. Model yang
diturunkan didasarkan pada analisis dari
training data. Teknik klasifikasi adalah
pendekatan sistematis untuk pembuatan model
klasifikasi (classifier) dari sebuah data set
input.
Proses klasifikasi dibagi menjadi dua fase,
yaitu learning dan testing (Han & Kamber
2001). Pada fase learning, sebagian data yang
telah diketahui kelas datanya (training set)
digunakan
untuk
membentuk
model.
Selanjutnya pada fase testing, model yang
sudah terbentuk diuji dengan sebagian data
lainnya (test set) untuk mengetahui akurasi
dari model tersebut. Jika akurasinya
mencukupi maka model tersebut dapat dipakai
untuk prediksi kelas data yang belum
diketahui.

Selection and Transformation

Data Integration
Databases

Gambar 1 Tahapan proses KDD (Han &
Kamber 2001)
Data Mining
Data mining merupakan proses ekstraksi
informasi data berukuran besar (Han dan
Kamber 2001). Data mining merupakan

Himpunan Fuzzy
Konsep logika fuzzy pertama kali
diperkenalkan oleh Prof. Lotfi A. Zadeh dari
Universitas California pada bulan Juni 1965.
Logika fuzzy merupakan generalisasi dari
logika klasik yang hanya memiliki dua nilai
keanggotaan 0 dan 1. Dalam logika fuzzy nilai
kebenaran suatu pernyataan berkisar dari
sepenuhnya benar ke sepenuhnya salah. Inti
dari himpunan fuzzy yaitu fungsi keanggotaan
yang menggambarkan hubungan antara

3

domain himpunan fuzzy dengan nilai derajat
keanggotaan. Dengan teori himpunan fuzzy
suatu objek dapat menjadi anggota dari
banyak himpunan dengan derajat keanggotaan
yang
berbeda
dalam
masing-masing
himpunan. Derajat keanggotaan menunjukkan
nilai keanggotaan suatu objek pada suatu
himpunan. Nilai keanggotaan ini berkisar
antara 0 sampai 1 (Cox 2005).
Linguistic Variable (Peubah Linguistik)
Linguistic variable merupakan peubah
verbal yang dapat digunakan untuk
memodelkan pemikiran manusia yang
diekspresikan dalam bentuk himpunan fuzzy.
Peubah linguistik dikarakterisasi oleh
quintaple (x, T(x), X, G, M) dengan x adalah
nama peubah, T(x) adalah kumpulan dari
linguistic term, G adalah aturan sintaks, M
adalah aturan semantik yang bersesuaian
dengan setiap nilai peubah linguistik. Sebagai
contoh, jika umur diinterpretasikan sebagai
peubah linguistik, maka himpunan dari
linguistic term T(umur) menjadi :
T(umur) = {sangat muda, muda, tua}
Setiap term dalam T(umur) dikarakterisasi
oleh himpunan fuzzy, X menunjukkan nilai
interval x. Aturan semantik menunjukkan
fungsi keanggotaan dari setiap nilai pada
himpunan linguistic term (Cox 2005).
Linguistic Term
Linguistic term didefinisikan sebagai
kumpulan himpunan fuzzy yang didasarkan
pada fungsi keanggotaan yang bersesuaian
dengan peubah linguistik (Au & Chan 2001).
Jika D kumpulan dari record yang terdiri
dari kumpulan atribut I = {I 1 ,..., I n } ,
dengan I v , v = 1,..., n . Atribut I dapat berupa
atribut numerik atau kategorikal. Untuk setiap
record d elemen D, d [I v ] menotasikan nilai i
dalam record d untuk atribut I v . Kumpulan
linguistic term dapat didefinisikan pada
seluruh domain dari atribut kuantitatif. L vr ,
r = 1,..., s v menotasikan linguistic term yang

berasosiasi dengan atribut

I v , sehingga
himpunan fuzzy dapat didefinisikan untuk
setiap L vr .
Himpunan fuzzy, L vr , r = 1,..., s v didefinisikan
sebagai :

⎧ ∑ dom( I ) µ Lvr (iv ) jika I diskret
v
v
iv
⎪⎪
Lvr = ⎨
µ L (i )
⎪∫ dom( I v ) vr v jika I v kontinu
⎪⎩
iv
untuk

semua

dom( I v ) = {iv1 ,..., ivn }.

iv ∈ dom( I v ) ,

dengan

Derajat keanggotaan dari nilai iv ∈ dom( I v )
dengan beberapa linguistic term Lvr
dinotasikan oleh µ Lvr .
Fuzzy Decision Tree (FDT)
Decision tree merupakan suatu pendekatan
yang sangat populer dan praktis dalam
machine learning untuk menyelesaikan
permasalahan
klasifikasi.
Metode
ini
digunakan untuk memperkirakan nilai diskret
dari fungsi target, yang mana fungsi
pembelajaran direpresentasikan oleh sebuah
decision tree (Liang 2005).
Decision tree sama dengan satu himpunan
aturan IF…THEN. Setiap path dalam tree
dihubungkan dengan sebuah aturan, yang
mana premis terdiri dari sekumpulan nodenode yang ditemui, dan kesimpulan dari
aturan terdiri dari kelas yang terhubung
dengan leaf dari path (Marsala 1998).
Dalam pohon keputusan, leaf node
diberikan sebuah label kelas. Non-terminal
node, yang terdiri dari root dan internal node
lainnya, mengandung kondisi-kondisi uji
atribut untuk memisahkan record yang
memiliki karakteristik yang berbeda. Edgeedge dapat dilabelkan dengan nilai-nilai
numeric-symbolic. Sebuah atribut numericsymbolic adalah sebuah atribut yang dapat
bernilai numeric ataupun symbolic yang
dihubungkan
dengan
sebuah
variabel
kuantitatif. Sebagai contoh, ukuran seseorang
dapat dituliskan sebagai atribut numericsymbolic: dengan nilai kuantitatif, dituliskan
dengan “1,72 meter”, ataupun sebagai nilai
numeric-symbolic seperti “tinggi” yang
berkaitan dengan suatu ukuran (size). Nilainilai seperti inilah yang menyebabkan
perluasan dari decision tree menjadi fuzzy
decision tree (Yuan dan Shaw 1995).
Penggunaan teknik fuzzy memungkinkan
untuk mengetahui suatu objek yang dimiliki
oleh lebih dari satu kelas.
Fuzzy decision tree memungkinkan untuk
menggunakan nilai-nilai numeric-symbolic
selama
konstruksi
atau
saat
mengklasifikasikan kasus-kasus baru. Manfaat

4

dari teori himpunan fuzzy dalam decision tree
ialah meningkatkan
kemampuan dalam
memahami decision tree ketika digunakan
atribut-atribut
kuantitatif.
Bahkan,
penggunaan teknik fuzzy dapat meningkatkan
ketahanan saat melakukan klasifikasi kasuskasus baru (Marsala 1998).
Fuzzy ID3 Decision Tree
Algoritma ID3 (Iterative Dichotomiser 3)
pertama kali diperkenalkan oleh Quinlan.
Algoritma ini menggunakan teori informasi
untuk menentukan atribut mana yang paling
informatif, namun ID3 sangat tidak stabil
dalam melakukan penggolongan berkenaan
dengan gangguan kecil pada data pelatihan.
Logika fuzzy dapat memberikan suatu
peningkatan dalam melakukan penggolongan
pada saat pelatihan (Liang 2005).
Algoritma fuzzy ID3 merupakan algoritma
yang efisien untuk membuat suatu fuzzy
decision tree. Algoritma fuzzy ID3 adalah
sebagai berikut (Liang 2005):

1.

Create a Root node that has a set
of fuzzy data with membership value
1.

2.

If a node t with a fuzzy set of
data D satisfies the following
conditions, then it is a leaf node
and assigned by the class name.


The proportion of class Ck is
greater than or equal to θr,

| D Ci |
≥ θr
|D|


3.

the number of
less than θn



Replace D by Dj (j=1,2,…,m) and
repeat from 2 recursively.

Fuzzy Entropy dan Information Gain
Information gain adalah suatu nilai
statistik yang digunakan untuk memilih atribut
yang
akan
mengekspansi
tree
dan
menghasilkan node baru pada algoritma ID3.
Suatu
entropy
dipergunakan
untuk
mendefinisikan nilai information gain.
Entropy dirumuskan sebagai berikut:

H s ( S ) = ∑i − Pi * log 2 ( Pi )
N

(1)

dengan Pi adalah rasio dari kelas Ci pada
himpunan contoh S = {x1,x2,…,xk}.

Pi


=

k
j =1

x j ∈ Ci

(2)

S

Terdapat 2 kasus kasus khusus yang terjadi
pada klasifikasi boolean, yang pertama adalah
jika semua anggota dari himpunan S memiliki
tipe yang sama, maka nilai entropy adalah 0
(nol). Hal ini berarti tidak terjadi
ketidakpastian klasifikasi.

H s (S ) = −1* log2 (1) − 0 * log2 (0) = 0
Kedua, jika jumlah contoh positif sama
dengan jumlah contoh negatif, maka nilai
entropy adalah 1 (satu), hal ini menandakan
terjadi ketidakpastian klasifikasi maksimum.
H s ( S ) = −0.5 * log 2 (0.5) − 0.5 * log 2 (0.5) = 1

a

data

set

there are no attributes
more classifications

is
for

If a node D does no satisfy the
above conditions, then it is not a
leaf-node. And an new sub-node is
generated as follow:


For Ai’s (i=1,…,L) calculate
the
information
gain,
and
select the test attribute Amax
that maximizes them.



Devide D into fuzzy subset
D1,…,Dm according to Amax, where
the membership value of the
data in Dj is the product of
the membership value in D and
the value of Fmax,j of the value
of Amax in D.



that connect between the nodes
tj and t.

Generate new node ti,…,tm for
fuzzy subsets D1,…,Dm and label
the fuzzy sets Fmax,j to edges

Untuk melakukan perluasan atribut, yang
didasarkan pada data dari himpunan contoh,
terlebih dahulu harus didefinisikan ukuran
standar information gain. Information gain
digunakan sebagai ukuran seleksi atribut,
yang merupakan hasil pengurangan entropy
dari himpunan contoh setelah membagi
ukuran himpunan contoh dengan jumlah
atributnya. Information gain untuk atribut A
didefinisikan sebagai berikut:
G( S , A) = H ( S ) −



v∈Values ( A)

dengan bobot Wi =

| Sv |
H ( S v ) (3)
|S|

| Sv |
adalah rasio dari
|S|

data dengan atribut v pada himpunan contoh.
Pada himpunan data fuzzy, terdapat
penyesuaian rumus untuk menghitung nilai

5

entropy untuk atribut dan information gain
karena adanya ekspresi data fuzzy. Berikut
adalah persamaan untuk mencari nilai fuzzy
entropy dari keseluruhan data:
H f ( S ) = H s ( S ) = ∑i − Pi * log 2 ( Pi )
N

(4)

Untuk menentukan fuzzy entropy dan
information gain dari suatu atribut A pada
algoritma fuzzy ID3 (FID3) digunakan
persamaan sebagai berikut:
H f ( S , A) = −∑i =1
C



N
j

µ ij

S

G f ( S ) = H f ( S ) − ∑v ⊆ A
N

log 2



N
j

µ ij

(5)

S

| Sv |
* H f ( S v , A)
|S|

(6)

dengan µij adalah nilai keanggotaan dari pola
ke-j untuk kelas ke-i. Hf(S) menunjukkan
entropy dari himpunan S dari data pelatihan
pada node. |Sv| adalah ukuran dari subset Sv
⊆ S dari data pelatihan xj dengan atribut v. |S|
menunjukkan ukuran dari himpunan S (Liang
2005).
Threshold
Jika proses learning dari FDT dihentikan
sampai semua data contoh pada masingmasing leaf-node menjadi anggota sebuah
kelas, akan dihasilkan akurasi yang rendah.
Oleh karena itu untuk meningkatkan
akurasinya, proses learning harus dihentikan
lebih awal atau melakukan pemangkasan tree
secara umum (Liang 2005). Untuk itu
diberikan 2 (dua) buah threshold yang harus
terpenuhi jika tree akan diekspansi, yaitu:


Fuzziness control threshold (FCT) / θr
Jika proporsi himpunan data dari kelas Ck
lebih besar atau sama dengan nilai
threshold θr, maka ekspansi tree
dihentikan.
Sebagai
contoh:
jika
diberikan θr adalah 85%, pada sebuah
sub-dataset rasio dari kelas 1 adalah 90%
dan kelas 2 adalah 10%, maka ekspansi
tree dihentikan.



Leaf decision threshold (LDT) / θn
Jika banyaknya anggota himpunan data
pada suatu node lebih kecil dari threshold
θn, maka ekspansi tree dihentikan.
Sebagai contoh: sebuah himpunan data
memiliki 600 contoh dengan θn adalah
2%. Jika jumlah data contoh pada sebuah
node lebih kecil dari 12 (2% dari 600),
maka ekspansi tree dihentikan.

K-fold Cross Validation
K-fold cross validation dilakukan untuk
membagi training set dan test set. K-fold
cross validation mengulang k-kali untuk
membagi sebuah himpunan contoh secara
acak menjadi k subset yang saling bebas,
setiap ulangan disisakan satu subset untuk
pengujian dan subset lainnya untuk pelatihan
(Fu 1994). Pada metode tersebut, data awal
dibagi menjadi k subset atau “fold” yang
saling bebas secara acak, yaitu S1,S2,…,Sk,
dengan ukuran setiap subset kira-kira sama.
Pelatihan dan pengujian dilakukan sebanyak k
kali. Pada iterasi ke-i, subset Si diperlukan
sebagai data pengujian dan subset lainnya
diperlukan sebagai data pelatihan. Pada iterasi
pertama S2,...,Sk menjadi data pelatihan dan S1
menjadi data pengujian; pada iterasi kedua
S1,S3,...,Sk menjadi data pelatihan dan S2
menjadi data pengujian dan seterusnya.
Sistem Inferensi Fuzzy
Sistem inferensi fuzzy adalah suatu
framework yang didasarkan pada konsep
himpunan fuzzy, fuzzy if-then rules, dan fuzzy
reasoning. FIS dapat menerima input berupa
bilangan crisp atau bilangan fuzzy, tapi
outputnya hampir semua berupa himpunan
fuzzy. Pada sistem inferensi fuzzy yang
outputnya berupa nilai crisp dibutuhkan
metode defuzzifikasi untuk menghasilkan
nilai crisp dari suatu himpunan fuzzy. Salah
satu metode inferensi fuzzy yang paling umum
digunakan adalah metode inferensi Mamdani
(Ormos 2004).

METODE PENELITIAN
Proses dasar sistem mengacu pada proses
dalam Knowledge Discovery in Database
(KDD). Proses tersebut dapat diuraikan
sebagai berikut :
a. Pembersihan data, membuang data dengan
nilai yang hilang dan data yang duplikat.
b. Transformasi data, proses transformasi
data ke bentuk yang dapat di-mining.
Sebelum di-mining, data diabetes diubah
ke dalam bentuk data fuzzy.
c. Data dibagi menjadi training set dan test
set dengan menggunakan metode k-fold
cross validation
d. Aplikasi teknik data mining, merupakan
tahap yang penting karena pada tahap ini
teknik data mining diaplikasikan terhadap
data. Untuk menemukan aturan klasifikasi
digunakan metode fuzzy decision tree.

6

Langkah-langkah pada metode tersebut
yaitu:
1. Menentukan
digunakan.

atribut

yang

akan

2. Menentukan banyaknya fuzzy set untuk
masing-masing atribut.
3. Menentukan banyaknya training set
yang akan digunakan.
4. Menghitung membership value.
5. Memilih besarnya threshold yang akan
digunakan.
6. Membangun fuzzy decision tree dengan
algoritma Fuzzy ID3.
e. Presentasi pengetahuan, merupakan tahap
akhir dimana pada tahap ini pola yang
telah ditemukan dipresentasikan ke
pengguna dengan teknik visualisasi agar
pengguna dapat memahaminya. Deskripsi
aturan klasifikasi akan dipresentasikan
dalam bentuk aturan logika untuk
selanjutnya dievaluasi hasil pengetahuan
yang didapatkan.
Alur proses untuk membangun sebuah
classifier dapat dilihat pada Gambar 2.
Data
Diabetes

Pembersihan
Data

Transformasi
Data

Fuzzy
Data

Training
set

Pembagian Data
(k-fold cross
validation)

Testing (FIS
Mamdani)

Pemilihan nilai
threshold

Training
(FID3)

Test set

Model (kumpulan
aturan)

Tidak

Akurasi > 90

Representasi
Pengetahuan

Ya

Gambar 2 Diagram alur proses klasifikasi
Lingkungan Pengembangan
Spesifikasi perangkat keras dan perangkat
lunak yang digunakan untuk penelitian ini
adalah sebagai berikut :

a. Perangkat keras berupa komputer personal
dengan spesifikasi:
• Prosesor AMD Athlon 64 2800+
• Memori DDR 512 MB
• Harddisk 80 GB
• Keyboard dan mouse
• Monitor
b. Perangkat Lunak
• Sistem
operasi
Windows
XP
Profesional
• Matlab 7.0.1 untuk membangun
aplikasi
• Microsoft Excel 2003 sebagai media
penyimpanan data

HASIL DAN PEMBAHASAN
Sebelum masuk pada proses data mining
data diabetes akan melalui tahap praproses.
Yang
pertama
dilakukan
adalah
menggabungkan 2 (dua) buah file dengan
format spreadsheet excel yang masing-masing
berisi data catatan medis pasien rawat inap
antara lain: KEY_id, TGL_Periksa, MRN
(medical record number), tensi, nadi, suhu,
tinggi, berat dan diagutama, serta data hasil
pemeriksaan laboratorium antara lain:
key_transaksi,
no.RM
(nomor
rekam
medis/MRN), tgl.proses, ordertest_code,
test_name, result, unit, flag, ref_range, status.
Sebelum data digabungkan, terlebih
dahulu dilakukan pemilihan atribut yang ada
pada data hasil pemeriksaan laboratorium.
Atribut yang dipilih untuk membuat aturan
atau model dalam melakukan klasifikasi
potensi seseorang terserang diabetes pada
penelitian ini adalah GLUN, GPOST, HDL,
dan TG (Herwanto 2006).
Atribut GLUN, GPOST, HDL, dan TG
yang pada awalnya merupakan item dari
kolom ordertest_code, masing-masing akan
dijadikan sebagai kolom baru, sedangkan item
yang lain dari kolom ordertest_code tidak
digunakan. Kolom result yang berisi hasil
laboratorium dari pemeriksaan GLUN,
GPOST, HDL, dan TG akan dijadikan item
dari masing-masing atribut tersebut. Setelah
pemilihan atribut dilakukan, diperoleh tabel
baru yang terdiri dari 5 kolom yaitu MRN,
GLUN, GPOST, HDL, dan TG.
Untuk data catatan medis rawat inap hanya
dipilih satu atribut saja, yaitu diagutama (hasil
pemeriksaan lab / diagnosis), sehingga
diperoleh tabel dua kolom yaitu MRN dan
diagutama.

7

Pembersihan Data
Pembersihan data dilakukan terhadap data
yang memiliki nilai kosong dan duplikat.
Setelah dilakukan penghapusan record yang
mengandung nilai kosong dan atau duplikat
diperoleh data bersih sebanyak 290 record.
Beberapa contoh data setelah proses
pembersihan dapat dilihat pada Lampiran 1.
Transformasi Data
Pada penelitian ini, teknik data mining
yang digunakan adalah fuzzy decision tree
(FDT), oleh karena itu data yang digunakan
harus direpresentasikan ke dalam bentuk
fuzzy. Dari 5 (lima) atribut yang digunakan
pada penelitian ini 4 di antaranya merupakan
atribut yang kontinu, yaitu GLUN, GPOST,
HDL, dan TG. Lain halnya dengan atribut
diagutama yang merupakan atribut kategorik.
Berdasarkan referensi hasil laboraturium,
range normal untuk atribut GLUN, GPOST,
HDL, dan TG diperlihatkan pada Tabel 1.

1 ; x < 65

⎪ x − 75
µ rendah ( x) = ⎨
; 65 = 75


⎧ 0
⎪ x − 65

⎪ 10
µsedang( x) = ⎨ 1
⎪ x −115
⎪ − 10
⎪ 0

⎧ 0
⎪ x − 105

⎪ 10
µtinggi ( x) = ⎨ 1
⎪ x − 145
⎪ − 10
⎪ 0


;

x < 65

;

65