Penerapan Teknik Klasifikasi Dengan Metode Derajat Keanggotaan Pada Data Diabetes

PENERAPAN TEKNIK KLASIFIKASI
DENGAN METODE DERAJAT KEANGGOTAAN
PADA DATA DIABETES

RATIH KUSUMAWARDANI
G64103008

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2007

ABSTRAK
RATIH KUSUMAWARDANI. Penerapan Teknik Klasifikasi dengan Derajat Keanggotaan pada
Data Diabetes. Dibimbing oleh IMAS SUKAESIH SITANGGANG dan ANNISA.
Hasil survey Organisasi Kesehatan Dunia (WHO) menyatakan jumlah penderita kencing
manis (diabetes melitus) di Indonesia sekitar 17 juta orang (8,6% dari jumlah penduduk) atau
menduduki urutan terbesar ke-4 setelah India, Cina dan Amerika Serikat. Berdasarkan hal tersebut,
perlu kiranya dilakukan penelitian yang mengarah pada pembuatan aplikasi yang dapat mendeteksi
timbulnya penyakit diabetes, sehingga terjadinya penyakit ini pada seseorang dapat diprediksi
sedini mungkin agar dapat dilakukan tindakan antisipasi. Salah satu teknik yang dapat digunakan

untuk melakukan penelusuran pada data historis untuk mengidentifikasi pola dan memprediksi
trend adalah data mining. Data mining merupakan proses ekstraksi informasi atau pola dalam
basis data yang berukuran besar. Salah satu teknik dalam data mining yaitu klasifikasi untuk
menemukan model (fungsi) yang menjelaskan dan membedakan kelas-kelas data, dengan tujuan
agar model yang diperoleh dapat digunakan untuk memprediksikan kelas atau objek yang
memiliki label kelas yang tidak diketahui. Konsep fuzzy yang diterapkan dalam klasifikasi dapat
lebih baik dalam menangani nilai numerik, karena himpunan fuzzy ”memperhalus” batasan yang
tegas. Metode klasifikasi yang digunakan dalam penelitian ini adalah klasfikasi dengan derajat
keanggotaan dalam fuzzy. Dari penelitian ini diharapkan dapat menemukan aturan yang dapat
memprediksi apakah sesorang dinyatakan positif atau negatif berdasarkan data hasil pemeriksaan
laboratorium.
Prinsip dasar dari metode derajat keanggotaan dalam fuzzy yaitu menghitung nilai
kemenarikan antara dua atau lebih linguistic term. Perhitungan nilai kemenarikan dilakukan
dengan menggunakan analisis residual. Penentuan data training dan testing dilakukan dengan
menggunakan teknik 10-fold cross-validation.
Dari hasil percobaan diperoleh 15 aturan klasifikasi dengan akurasi sebesar 76,9% dan error
rate 23,1%. Atribut yang sering muncul dalam aturan adalah GLUN dan GPOST, sehingga dapat
dikatakan bahwa GLUN dan GPOST merupakan parameter yang sangat berpengaruh dalam
penentuan hasil diagnosis. Aturan klasifikasi yang mengandung kelas target negatif diabetes
sebanyak 2 aturan, sedangkan untuk kelas target positif diabetes sebanyak 13 aturan. Dengan

menggunakan 15 aturan klasifikasi tersebut dapat digunakan untuk memprediksi apakah seseorang
dinyatakan positif atau negatif diabetes.
Kata kunci: data mining, teknik klasifikasi, derajat keanggotaan.

PENERAPAN TEKNIK KLASIFIKASI DENGAN METODE DERAJAT
KEANGGOTAAN PADA DATA DIABETES

Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer
pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor

Oleh :
RATIH KUSUMAWARDANI
G64103008

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2007


Judul

: Penerapan Teknik Klasifikasi dengan Derajat Keanggotaan
pada Data Diabetes
Nama : Ratih Kusumawardani
NIM
: G64103008

Menyetujui:
Pembimbing I,

Pembimbing II,

Imas S. Sitanggang, S.Si., M.Kom.
NIP 132206235

Annisa, S.Kom.
NIP 132311930


Mengetahui:
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor

Prof. Dr. Ir. Yonny Koesmaryono, MS
NIP 131473999

Tanggal Lulus :

iv

PRAKATA
Alhamdulillahi Rabbil ‘alamin, puji dan syukur penulis panjatkan kepada Allah SWT atas
segala curahan rahmat dan karunia-Nya sehingga penelitian ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Januari 2007 ini ialah data mining, dengan
judul Penerapan Teknik Klasifikasi dengan Derajat Keanggotaan pada Data Diabetes.
Penyelesaian penelitian ini tidak terlepas dari bantuan berbagai pihak, karena itu penulis
mengucapkan terima kasih sebesar-besarnya kepada:
1.
Bapak dan Ibu, kakak dan adikku, atas doa, kasih sayang, dan kehangatannya yang tidak

pernah berhenti tercurah selama ini,
2.
Ibu Imas S. Sitanggang, S.Si., M.Kom. selaku pembimbing I, Ibu Annisa, S.Kom. selaku
pembimbing II dan Bapak Hari Agung Adrianto, S.Kom. selaku dosen penguji,
3.
Vita, Sofi dan Ajeng, yang bersedia menjadi pembahas,
4.
Eno, Sofi dan Firat, teman senasib dan seperjuangan di lab data mining,
5.
Dina dan Meynar, atas kesediannya mengurus konsumsi untuk seminar dan sidang,
6.
Sahabat-sahabat Ilkomerz 40, semoga Allah SWT mempererat tali silaturahim antara kita,
7.
Seluruh staf dan karyawan Departemen Ilmu Komputer, serta pihak lain yang telah
membantu dalam penyelesaian penelitian ini,
8.
Seluruh civitas akademika Departemen Ilmu Komputer IPB yang tidak dapat disebutkan satu
persatu.
Segala kesempurnaan hanya milik Allah SWT, semoga hasil penelitian ini dapat bermanfaat,
Amin.


Bogor, Mei 2007

Ratih Kusumawardani

v

RIWAYAT HIDUP
Penulis dilahirkan di Bogor pada tanggal 20 Juli 1985 dari ayah Harisman dan ibu
Indarningsih. Penulis merupakan putri ketiga dari empat bersaudara. Tahun 2003 penulis lulus dari
SMU Negeri I Bogor. Pada tahun yang sama penulis diterima di Program Studi Ilmu Komputer,
Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian
Bogor melalui jalur Ujian Seleksi Masuk IPB (USMI).
Selama mengikuti perkuliahan, penulis pernah menjadi pengurus Himpunan Mahasiswa
Ilmu Komputer (HIMALKOM) tahun kepengurusan 2004/2005. Pada tahun 2006, penulis pernah
melakukan kegiatan praktik lapangan selama dua bulan di Kantor Sub Direktorat Informasi dan
Konservasi Alam di Bogor.

vi


DAFTAR ISI
Halaman
DAFTAR TABEL ............................................................................................................................. vii
DAFTAR GAMBAR ........................................................................................................................ vii
DAFTAR LAMPIRAN..................................................................................................................... vii
PENDAHULUAN
Latar Belakang..........................................................................................................................1
Tujuan Penelitian ......................................................................................................................1
Ruang Lingkup Penelitian ........................................................................................................1
Manfaat Penelitian ....................................................................................................................1
TINJAUAN PUSTAKA
Knowledge Data Discovery (KDD) .........................................................................................1
Data mining ..............................................................................................................................2
Klasifikasi .................................................................................................................................2
Himpunan Fuzzy .......................................................................................................................2
Peubah Linguistik .....................................................................................................................2
Linguistic term ..........................................................................................................................3
Algoritma Derajat Keanggotaan dalam Fuzzy .........................................................................4
Aturan Kemenarikan dalam Data Fuzzy...................................................................................4
Perhitungan Nilai Bobot Bukti .................................................................................................5

Prediksi Nilai Yang Tidak Diketahui Menggunakan Aturan Fuzzy ........................................5
K-Fold Cross Validation ..........................................................................................................6
METODE PENELITIAN
Proses Dasar Sistem..................................................................................................................6
Lingkungan Pengembangan Sistem .........................................................................................7
HASIL DAN PEMBAHASAN
Pembersihan Data .....................................................................................................................8
Transformasi Data.....................................................................................................................8
Data mining ............................................................................................................................10
Training ........................................................................................................................10
Penentuan Aturan Klasifikasi Akhir............................................................................11
Evaluasi Pola...........................................................................................................................13
Representasi Pengetahuan ......................................................................................................13
KESIMPULAN DAN SARAN
Kesimpulan .............................................................................................................................14
Saran........................................................................................................................................14
DAFTAR PUSTAKA ........................................................................................................................14
LAMPIRAN .......................................................................................................................................16

vii


DAFTAR TABEL
Halaman
1
2
3
4

Nilai kategori untuk setiap atribut ..................................................................................................8
Hasil proses training .....................................................................................................................11
Perhitungan bobot klasifikasi akhir ..............................................................................................12
Hasil testing aturan klasifikasi akhir.............................................................................................13

DAFTAR GAMBAR
Halaman
1
2
3
4
5

6

Tahapan Proses KDD (Han & Kamber 2001)..............................................................................2
Algoritma data mining fuzzy (Au & Chan 2001) .........................................................................4
Himpunan fuzzy atribut GLUN .....................................................................................................8
Himpunan fuzzy atribut GPOST ...................................................................................................9
Himpunan fuzzy atribut TG ...........................................................................................................9
Himpunan fuzzy atribut HDL ......................................................................................................10

DAFTAR LAMPIRAN
Halaman
1
2
3
4
5

Tahapan proses dasar sistem .......................................................................................................17
Contoh data diabetes ...................................................................................................................18
Contoh data hasil transformasi....................................................................................................19

Contoh data training set pertama...............................................................................................20
Contoh sebagian aturan menarik pada proses training pertama ................................................21

1

PENDAHULUAN
Latar Belakang
Hasil survey Organisasi Kesehatan Dunia
(WHO) menyatakan jumlah penderita kencing
manis (diabetes melitus) di Indonesia sekitar
17 juta orang (8,6% dari jumlah penduduk)
atau menduduki urutan terbesar ke-4 setelah
India, Cina dan Amerika Serikat. Berdasarkan
hal tersebut, perlu kiranya dilakukan
penelitian yang mengarah pada pembuatan
aplikasi yang dapat mendeteksi timbulnya
penyakit diabetes, sehingga dapat menurunkan
jumlah penderita diabetes. Salah satu teknik
yang dapat digunakan untuk melakukan
penelusuran pada data historis untuk
mengidentifikasi pola dan memprediksi trend
yaitu data mining. Data mining merupakan
proses ekstraksi informasi atau pola dalam
basis data yang berukuran besar. (Han &
Kamber 2001). Teknik data mining yang
digunakan, yaitu klasifikasi.
Klasifikasi merupakan salah satu metode
dalam data mining untuk memprediksi label
kelas yang tidak diketahui. Konsep fuzzy yang
diterapkan dalam klasifikasi dapat lebih baik
dalam menangani nilai numerik, karena
himpunan fuzzy ”memperhalus” batasan yang
tegas.
Data diabetes bersifat numerik sehingga
dapat diterapkan teknik data mining dengan
konsep fuzzy. Teknik klasifikasi yang
digunakan, yaitu klasifikasi dengan metode
derajat keanggotaan dalam fuzzy. Prinsip dasar
dari metode derajat keanggotaan dalam fuzzy
yaitu menghitung nilai kemenarikan antara
dua atau lebih linguistic term. Perhitungan
nilai
kemenarikan
dilakukan
dengan
menggunakan analisis residual.
Dengan
menerapkan data mining diharapkan dapat
ditemukan aturan atau fungsi klasifikasi untuk
memprediksi potensi seseorang terserang
penyakit diabetes.
Tujuan Penelitian
Tujuan dari penelitian ini adalah :
1. Menerapkan salah satu metode data
mining,
yaitu
teknik
klasifikasi
menggunakan metode derajat keanggotaan
dalam fuzzy.
2. Menemukan aturan-aturan klasifikasi pada
data diabetes untuk memprediksi apakah
seseorang dinyatakan positif atau negatif
diabetes
berdasarkan
data
hasil
pemeriksaan laboratorium.

Ruang Lingkup Penelitian
Penelitian ini mencakup penerapan teknik
klasifikasi dengan menggunakan derajat
keanggotaan dalam fuzzy pada data hasil
pemeriksaan laboratorium dan data catatan
medis rawat inap dari tahun 2004 sampai
2005. Jumlah atribut dalam penelitian ini
yaitu lima buah atribut yang terdiri dari empat
atribut kuantitatif dan satu atribut kategorikal
sebagai atribut kelas target.
Manfaat Penelitian
Dengan adanya suatu aplikasi yang dapat
digunakan untuk memprediksi potensi
penyakit diabetes, maka terjadinya penyakit
ini pada seseorang dapat diprediksi sedini
mungkin sehingga dapat dilakukan tindakan
antisipasi.

TINJAUAN PUSTAKA
Knowledge Data Discovery (KDD)
Knowledge discovery in databases (KDD)
adalah proses menemukan informasi yang
berguna dan pola-pola yang ada dalam data
(Goharian & Grossmann 2003). KDD
merupakan sebuah proses yang terdiri dari
serangkaian proses iteratif yang terurut dan
data mining merupakan salah satu langkah
dalam KDD (Han & Kamber 2001). Pada
Gambar 1 dapat dilihat tahapan proses KDD
secara berurut. Tahapan proses KDD menurut
Han & Kamber (2001), yaitu :
1. Pembersihan data
Pembersihan terhadap data dilakukan
untuk
menghilangkan data yang tidak
konsisten dan data yang mengandung
noise.
2. Integrasi data
Proses integrasi data dilakukan untuk
menggabungkan data dari berbagai
sumber.
3. Seleksi data
Proses seleksi data mengambil data yang
relevan digunakan untuk proses analisis.
4. Transformasi data
Proses
menransformasikan
atau
menggabungkan data ke dalam bentuk
yang tepat untuk di-mining.
5. Data mining
Data mining merupakan proses yang
penting dimana metode-metode cerdas
diaplikasikan untuk mengekstrak pola-pola
dalam data.

2
6. Evaluasi pola
Evaluasi
pola
diperlukan
untuk
mengidentifikasi beberapa pola-pola yang
menarik
yang
merepresentasikan
pengetahuan.
7. Representasi pengetahuan
Penggunaan visualisasi dan teknik
representasi
untuk
menunjukkan
pengetahuan hasil penggalian gunung data
kepada pengguna.

Pattern Evaluation
Data
mining
Task-relevant

Data
Data
Warehouse
Data Cleaning

Selection and Transformation

digunakan untuk memprediksikan kelas atau
objek yang memiliki label kelas yang tidak
diketahui. Klasifikasi termasuk ke dalam
kategori predictive data mining. Model yang
diturunkan didasarkan pada analisis dari
training data. Teknik klasifikasi adalah
pendekatan sistematis untuk pembuatan model
klasifikasi (classifier) dari sebuah data set
input.
Proses klasifikasi dibagi menjadi dua fase,
yaitu learning dan testing (Han & Kamber
2001). Pada fase learning, sebagian data yang
telah diketahui kelas datanya (training set)
digunakan
untuk
membentuk
model.
Selanjutnya pada fase testing, model yang
sudah terbentuk diuji dengan sebagian data
lainnya (test set) untuk mengetahui akurasi
dari model tersebut. Jika akurasinya
mencukupi maka model tersebut dapat dipakai
untuk prediksi kelas data yang belum
diketahui.

Data Integration
Databases

Gambar 1 Tahapan Proses KDD (Han &
Kamber 2001)
Data mining
Data mining merupakan proses ekstraksi
informasi data berukuran besar (Han &
Kamber 2001). Menurut Kantardzic (2003),
data mining merupakan keseluruhan proses
mengaplikasikan komputer dan bermacam
teknik untuk menemukan informasi dari
sekumpulan data. Dari sudut pandang analisis
data, data mining dapat diklasifikasi menjadi
dua kategori, yaitu descriptive data mining
dan predictive data mining. Descriptive data
mining menjelaskan sekumpulan data dalam
cara yang lebih ringkas. Ringkasan tersebut
menjelaskan sifat-sifat yang menarik dari
data. Predictive data mining menganalisis
data dengan tujuan mengkonstruksi satu atau
sekumpulan model dan melakukan prediksi
perilaku dari kumpulan data yang baru.
Aplikasi data mining telah banyak
diterapkan pada berbagai bidang, seperti
analisa pasar dan manajemen, analisis
perusahaan
dan
manajemen
resiko,
telekomunikasi, asuransi dan keuangan.
Klasifikasi
Klasifikasi adalah proses menemukan
model (fungsi) yang menjelaskan dan
membedakan kelas-kelas atau konsep, dengan
tujuan agar model yang diperoleh dapat

Himpunan Fuzzy
Konsep logika fuzzy pertama kali
diperkenalkan oleh Prof. Lotfi A Zadeh dari
Universitas California pada bulan Juni 1965.
Logika fuzzy merupakan generalisasi dari
logika klasik yang hanya memiliki dua nilai
keanggotaan 0 dan 1. Dalam logika fuzzy nilai
kebenaran suatu pernyataan berkisar dari
sepenuhnya benar ke sepenuhnya salah. Inti
dari himpunan fuzzy yaitu fungsi keanggotaan
yang menggambarkan hubungan antara
domain himpunan fuzzy dengan nilai derajat
keanggotaan.
Derajat
keanggotaan
menunjukkan nilai keanggotaan suatu objek
pada suatu himpunan. Nilai keanggotaan ini
berkisar antara 0 sampai 1. Dengan teori
himpunan fuzzy suatu objek dapat menjadi
anggota dari banyak himpunan dengan derajat
keanggotaan yang berbeda dalam masingmasing himpunan (Cox 2005).
Peubah Linguistik
Peubah linguistik merupakan peubah yang
mempunyai nilai linguistik berupa kumpulan
kata (linguistic term) yang bersesuaian dengan
derajat keanggotaan dalam suatu himpunan.
Peubah linguistik dikarakterisasi oleh
quintaple ( x, T ( x ), X , G , M ) dengan x adalah
nama peubah, T(x) adalah kumpulan dari
linguistic term, X menunjukkan nilai interval
x,
G
adalah
aturan
sintak
yang
membangkitkan term dalam T(x), M adalah
aturan semantik yang bersesuaian dengan nilai
linguistik M(A), dengan M(A) menunjukkan

3
fungsi keanggotaan untuk himpunan fuzzy
dalam X. Sebagai contoh, jika umur
diinterpretasikan sebagai peubah linguistik,
maka himpunan dari linguistic term T(umur)
menjadi :
T(umur) = {sangat muda, muda, tua}
Setiap term dalam T(umur) dikarakterisasi
oleh himpunan fuzzy dalam X. Aturan sintak
membangkitkan term dalam T(x), sedangkan
aturan
semantik
menunjukkan
fungsi
keanggotaan dari setiap nilai pada himpunan
linguistic term (Kantardzic 2003).
Linguistic term
Linguistic term didefinisikan sebagai
kumpulan himpunan fuzzy yang didasarkan
pada fungsi keanggotaan yang bersesuaian
dengan peubah linguistik (Au & Chan 2001).
D kumpulan dari record yang terdiri dari
kumpulan atribut I = {I1,..., I n} , dengan
I v , v = 1,..., n . Atribut I dapat berupa atribut
numerik atau kategorikal. Untuk setiap record
d elemen D, d [I v ] menotasikan nilai i dalam
record d untuk atribut I v .
Kumpulan
linguistic
term
dapat
didefinisikan pada seluruh domain dari atribut
kuantitatif.
Himpunan
fuzzy
dapat
didefinisikan untuk setiap L vr dengan L vr ,

Secara umum untuk atribut numerik dan
kategorikal, himpunan linguistic term
dinotasikan oleh

{ vr | v = 1,..., n, r = 1,..., sv }

L= L

dengan

sv = m v

, selama linguistic term

digambarkan sebagai himpunan fuzzy, maka
himpunan linguistic term dapat dinyatakan
sebagai himpunan fuzzy.
Diberikan record d ∈ D , linguistic term L

∈ L dan himpunan fuzzy

vr
Lvr ∈ L , nilai derajat

keanggotaan dalam d dengan linguistic term
L vr , dinotasikan oleh µ L (d [I v ]) .
vr

dikarakterisasi oleh term

d

L vr dengan

µ L (d [I v ]) . Jika
µL (d[I v ]) = 1, d secara utuh dikarakterisasi

derajat

keanggotaan

vr

vr

L vr . Jika µ L (d [I v ]) = 0 , d tidak
L vr . Jika
dikarakterisasi oleh term
,
secara
parsial
d
0 < µ L ( d [I v ]) < 1
dikarakterisasi oleh term L vr .
oleh term

vr

vr

d dapat dikarakterisasi oleh lebih dari satu

L vr .

term

Diberikan

Iϕ = { I v | v ∈ ϕ } ,

Iϕ ,

dengan

berasosiasi

oleh

r = 1,..., s v menotasikan linguistic term yang

linguistic term Lϕr , r = 1,....., sφ

berasosiasi dengan atribut I v . Himpunan
fuzzy, Lvr, r = 1,....., sv didefinisikan sebagai :

sϕ = ∏ sv . Notasi ϕ menotasikan subset


µ L (i )

⎪ ∑ dom( I v ) vr v jika I v diskret
iv
⎪⎪
Lvr = ⎨

µ L (i )
⎪∫
⎪ dom( I v ) vr v jika I v kontinu
iv
⎪⎩

untuk

semua

{

}

iv ∈ dom( I v ) ,

dengan

dom( I v ) = iv1 ,..., ivmv .

Derajat keanggotaan dari nilai iv ∈ dom( I v )
dengan beberapa linguistic term Lvr
dinotasikan oleh µ
. Untuk atribut
L
vr
kategorikal, linguistic term L vr , r = 1,..., mv
direpresentasikan oleh himpunan fuzzy
Lvr sebagai :
1
Lvr =
ivr

v∈ϕ

{

dengan

}

dari bilangan integer, ϕ = v1 ,...., vm , dengan

{

}

v ,..., vm ∈ 1,...., n , v1 ≠ .... ≠ vm dan
1

| ϕ |= h ≥ 1 .

Setiap

Lϕr

didefinisikan oleh kumpulan

linguistic term Lv r ,...., Lv r ∈ L . Nilai
m m
11
derajat dengan d dikarakterisasi oleh term
Lϕr λLϕr (d ) , didefinisikan oleh :

(

)



λL ϕr = min ⎜ µ

⎜ Lv r
1 1


( [ ])

d I v ,......, µ L
v m rm
1



( d [I vm ] )⎟⎟


D dapat direpresentasikan oleh kumpulan data
fuzzy F yang dikarakterisasi oleh kumpulan

atribut linguistik, L = (L1 ,...., Ln ) .

Untuk setiap atribut linguistik Lv
dari Lv dalam record t ∈ F adalah

∈ L nilai

4

{(

) (

t [Lv ] = Lv1 , µ v1 ,...., Lvs v , µvsv

)}

1) R1 = {first - order fuzzy rules}

dengan Lvk sebagai linguistic term dan µvk
sebagai
derajat
keanggotaan,
dengan
k ∈ 1,....., sϕ .
Untuk t ∈ F, oLpq Lϕk

{

}

menotasikan nilai derajat dengan t
dikarakterisasi oleh linguistic term Lpq dan
Lϕk , p ∉ φ yang didefinisikan oleh :

oL pq Lψk

=

min



L pq , µ Lϕk

)

(2)

Dengan menggunakan linguistic term, dapat
ditemukan suatu aturan fuzzy dari sejumlah
data fuzzy dan merepresentasikannya dengan
cara yang mudah dipahami oleh manusia (Au
& Chan 2001).

) [ ](

(

(1)

Jumlah dari derajat suatu record dalam F yang
dikarakterisasi oleh linguistic term Lpq dan
Lϕk didefinisikan oleh :
deg L L = ∑ oL L
pq ϕk
pq ϕk
t∈F

2) for (m = 2; Rm −1 ≠ φ ; m + + ) do

3) begin
4)C = {each condition in the antecedent of r | r ∈ Rm1}
5) forall ϕ composed of m elements in C do
6) begin
7) forall t ∈ F do
8) forall L pq , µ pq ∈ t L p , Lϕk , µϕk ∈ t Lϕ , p ∈ϕ
do
9)

(

) [ ]

+ = min (µ pq , µϕk ) ;
deg L L
pq ϕk

) [ ](

) [ ]

10) forall L pq , µ pq ∈ t L p , Lϕk , µϕk ∈ t Lϕ , p ∈ϕ
do
11)
if interesting L pq , Lϕk then

(

(

)

)

Rm = Rm ∪ rulegen L pq , Lϕk ;

12)
13)
end
14) end
15) R = U Rm ;
m

Gambar 2 Algoritma data mining fuzzy (Au &
Chan 2001)

Algoritma Derajat Keanggotaan dalam
Fuzzy

Aturan Kemenarikan dalam Data Fuzzy
dengan Lϕk ,
Hubungan antara Lpq

Prinsip dari algoritma data mining fuzzy
yaitu menyajikan aturan fuzzy dengan
beberapa orde. Orde pertama dari aturan fuzzy
didefinisikan oleh aturan yang hanya
melibatkan sebuah linguistic term dalam
anteseden, orde kedua melibatkan dua buah
linguistic term, orde ketiga melibatkan tiga
buah linguistic term, dan selanjutnya.
Algoritma data mining fuzzy dapat dilihat
pada Gambar 2.

dikatakan menarik, jika nilai

Untuk
mencari
nilai
kemenarikan
(interestingness) dari orde pertama digunakan
ukuran kemenarikan objektif. Setelah
ditemukan nilai kemenarikan maka disimpan
pada peubah R1. Aturan di R1 digunakan untuk
membangkitkan orde kedua yang tersimpan
dalam R2. R2 akan digunakan untuk
membangkitkan aturan orde ketiga yang
tersimpan pada R3 dan begitu seterusnya.
Fungsi interesting (Lpq, Lϕk ) menghitung
nilai hubungan kemenarikan antara Lpq
dengan Lϕk . Jika fungsi interesting (Lpq, Lϕk )
menghasilkan nilai benar maka aturan fuzzy
tersebut dibangkitkan oleh fungsi rulegen,
kemudian dihitung nilai bobot bukti. Semua
aturan fuzzy yang dibangkitkan oleh rulegen
disimpan dalam R dan akan digunakan untuk
proses prediksi.

(

)

jml derajat dari record yang dikarakterisasi oleh L pq dan Lϕk

Pr L pq | Lϕ k =

jml derajat dari record yang dikarakterisasi oleh Lϕk

berbeda dengan nilai

Pr (L pq ) =

jml derajat dari record yang dikarakterisasi oleh L pq

M
s p sϕ

dengan

M = ∑ ∑ degL L .
pu ϕi
u =1i =1

Nilai

perbedaan tersebut, secara objektif dapat
dievaluasi menggunakan nilai adjusted
residual yang didefinisikan oleh :

d Lpq Lϕk =
dengan z Lpq L

ϕk

z Lpq L

ϕk

γ

(3)

Lpq Lϕk

adalah nilai standardized

residual, yang didefinisikan oleh :
z Lpq Lϕk =

deg L

pq Lϕk

eL

− eL
pq Lϕk

pq Lϕk

(4)

5
dengan eLpq Lϕk

adalah jumlah derajat dari

record yang diduga dikarakterisasi oleh Lpq
dengan Lϕk yang didefinisikan oleh :


eL pqLϕk =

∑ deg
i =1

sp

L pq Lϕi

∑ deg
u =1

L pu Lϕk

(5)

M

dan γ Lpq Lϕ adalah nilai maximum likelihood
k

estimate

dari

z Lpq Lϕk ,

ragam

yang

γ

L pq Lϕk

Jika dLpq Lϕk



∑ deg
i =1

M

L pq Lϕi












⎢1 −




sp

∑ deg
u =1

L pu Lϕk

M

(

)

U(
)

(



⎥ (6)





> 1.96 (nilai persentil dari

distribusi normal), dapat disimpulkan bahwa
nilai antara Pr (L pq | Lϕk ) dan Pr (Lpq ) secara



)⎟⎟


(8)

U

wLpq Lϕk dapat diinterpretasikan secara intuitif
sebagai perhitungan perbedaan dari record
Lϕk yang dikarakterisasi oleh Lpq dan Lpi ,
i ≠ q . Diberikan

didefiniskan oleh :



= ⎢1 −





wL pq Lϕk = I L pq : Lϕk − I ⎜ L pi | Lϕk
⎜ i≠q

Pr Lϕk | L pq
= log


Pr ⎜ Lϕk | L pi ⎟


i≠q



oleh

Lϕk yang didefinisikan

kumpulan

term,

linguistic

L v1r 1 ,...., L vm r m ∈ L dapat dibentuk aturan fuzzy

pada tingkat yang lebih tinggi (high-order)
sebagai :
L v1r 1 ,...., L vm r m ⇒ L pq [ wL L ]
pq ϕk

dengan v1 ,...., v m ∈ ϕ (Au & Chan 2001).

signifikan berbeda sehingga hubungan antara
Lpq dengan Lϕk menarik (interesting).

Prediksi Nilai Yang Tidak Diketahui
Menggunakan Aturan Fuzzy
Diberikan
suatu
record,
d ∈ dom I1 × .... × dom I p × .... × dom(I n ) ,

Perhitungan Nilai Bobot Bukti
Diberikan linguistic term

d dikarakterisasi oleh
n
atribut,
α1 ,....., α p ,...., α n dengan α p adalah nilai

Lϕk

yang

berasosiasi dengan linguistic term Lpq , dapat
dibentuk
suatu
aturan
fuzzy
Lϕk ⇒ L pq [ wL L ] dengan w Lpq Lϕ
adalah
k
pq ϕk
nilai bobot bukti.
Selama hubungan antara Lpq dengan Lϕk
menarik, maka terdapat bukti berupa record
yang dikarakterisasi oleh Lpq mempunyai
Lϕk . Perhitungan nilai bobot bukti dikenal

( )

( )

yang akan diprediksi.
L p , p = 1,...., sϕ adalah linguistic term

{

}

dari atribut kelas Ip. lp linguistic term dengan
. Nilai
domain dom I p = L p1 ,..., L ps
p
dari α p didefinisikan oleh nilai lp. Untuk

( )

memprediksi nilai lp digunakan pendekatan
aturan fuzzy dengan L pq ∈ dom I p sebagai

( )

sebagai informasi mutual. Informasi mutual
menghitung nilai ketidakpastian dari Lpq pada
suatu record yang mempunyai Lϕk , yang

konsekuen.

didefinisikan oleh :

dari d dikarakterisasi oleh linguistic term Lϕk

I (Lpq : Lϕk ) = log

Pr (Lpq : Lϕk )
Pr (Lpq )

Kombinasi dari nilai atribut α ϕ , p ∉ ϕ
dengan

(7)

dengan berdasarkan nilai informasi mutual,
perhitungan bobot bukti, didefinisikan
sebagai:

{

λLϕk (d )

derajat

}

k ∈ 1,....., sϕ .

untuk

setiap

Nilai bobot bukti dari

L v1r 1 ,...., L vm r m ⇒ L pq [ wL L ] ,
pq ϕk

{

untuk

}

semua k ∈ ζ ⊆ 1,...., sϕ , didefinisikan oleh :

wL pqαϕ =
Misalkan,

∑ζ w
k∈

L pq Lϕk

n-1

α [1] ,....., α [ j ] ,...., α [β ]

.λLϕk (d )

atribut
dengan

(tanpa

(9)
α p ),

6

α [ j ] = { α i | i ∈ (1,....., n ) − { p}}
ditemukan untuk menyamakan satu atau lebih
aturan, maka bobot bukti untuk nilai lp
diberikan oleh :

wq =

β

∑w

(10)

L pqα [ j ]

j =1

Nilai α p didefinisikan oleh

{(L

p1 , w1

),....., (L

pq , wq

),......, (L

ps p

)}

, ws p .

Jika Ip kategorikal, lp diberikan ke Lpc jika
wc > w g , g = 1,....., s ' p dan g ≠ c

dengan s ' p (≤ s p )

(11)

adalah linguistic term

yang tercantum dalam aturan, dan

( )

αp

diberikan ke ipc ∈ dom I p .
Jika Ip kuantitatif, diberikan linguistic term
L ,...., L p , bobot bukti w1 ,...., w ps ,
p
p1

sp

( )

bobot derajat keanggotaan dari ip

∈ dom I p

dengan himpunan fuzzy Lpu ,

µ ' L pu i p

( )

{

}

u ∈ 1,...., s p .

µ'

L

⎛⎜ i ⎞⎟
⎝ p⎠

pu

METODE PENELITIAN

(i ) = wu .µ L pu (i p )
pu p
( )

i p ∈ dom I p

(12)

{

}

u ∈ 1,...., s p .

dan



L pu ⎟ untuk α p

⎜ u =1





Nilai defuzifikasi F −1 = ⎜

sp

U

didefinisikan sebagai :

F −1

⎛ sp



=⎜
L pu ⎟ =
⎜ u =1




U

∫( µ ')

L p1∪...∪ L ps

(i p ).i p di p

p

dom I p

∫( µ ')

L p1∪...∪ L ps

p

(i p ).di p

(13)

dom I p

(

()

()

( ))

µ X ∪Y i = max µ ' X i , µ 'Y i

dengan

untuk himpunan fuzzy X dan Y. Untuk
mengevaluasi hasil perhitungan digunakan
root-mean-squared error. Nilai root-mean
squared error (rms) didefinsikan oleh :
rms =

1
n

⎛ t r − 1 o r −l ⎞

⎜⎜

u − 1 u − l ⎟⎠
r∈D ⎝



K-Fold Cross Validation
K-Fold Cross Validation dilakukan untuk
membagi training set dan test set. K-Fold
Cross Validation mengulang k-kali untuk
membagi seluruh himpunan contoh secara
acak menjadi k subset yang saling bebas,
setiap ulangan disisakan satu subset untuk
pengujian dan subset lainnya untuk pelatihan
(Fu 1994). Pada metode tersebut, data awal
dibagi menjadi k subset atau “fold“ yang
saling bebas secara acak, yaitu S1,S2,…,Sk,
dengan ukuran setiap subset kira-kira sama.
Pelatihan dan pengujian dilakukan k kali.
Pada iterasi ke-i, subset Si diperlakukan
sebagai data pelatihan. Pada iterasi pertama
S2,…,Sk menjadi data pelatihan dan S1 menjadi
data pengujian, pada iterasi kedua S1,S3,…,Sk,
menjadi data pelatihan dan S2 menjadi data
pengujian, dan seterusnya.

didefinisikan

oleh :
µ 'L

dengan

dengan D sekumpulan test record, n sebagai
untuk record
jumlah test record dalam D,
r ∈ D dan [l, u ] ⊂ ℜ sebagai atribut kelas, tr
sebagai nilai target dari atribut kelas dalam r
dan or nilai yang diprediksi (Au & Chan
2001).

2

(14)

Proses Dasar Sistem
Data yang digunakan dalam penelitian ini
adalah data hasil pemeriksaan laboratorium
dan data catatan medis rawat inap dari tahun
2004 sampai 2005. Tahapan proses dasar
sistem dapat dilihat pada Lampiran 1.
Proses tersebut dapat diuraikan sebagai
berikut :
a. Pembersihan
data,
dilakukan
jika
ditemukan data yang mengandung noise,
nilai hilang dan data yang duplikat.

b. Transformasi data, proses transformasi
data ke bentuk yang dapat di-mining.
Sebelum di-mining, data diabetes diubah
ke dalam bentuk data fuzzy.
c. Aplikasi teknik data mining, merupakan
tahap yang penting karena pada tahap ini
teknik data mining diaplikasikan terhadap
data. Teknik data mining yang digunakan
yaitu klasifikasi. Klasifikasi dilakukan
melalui dua tahapan proses, yaitu :
1. Membangun model untuk menemukan
aturan klasifikasi (training). Tahap
pembangunan model memerlukan

7

training set yang berisi record dengan
label kelas diketahui dan algoritma
pembelajaran. Pada penelitian ini,
metode yang digunakan dalam proses
pembelajaran, yaitu metode derajat
keanggotaan dalam fuzzy. Langkahlangkah pembentukan aturan dengan
metode derajat keanggotaan dalam
fuzzy, yaitu :
a. Menentukan nilai variabel Lpq dan
Lϕk . Lpq menotasikan linguistic term
konsekuen dan Lϕk linguistic term
dari anteseden. Pada tahap awal
hanya melibatkan sebuah linguistic
term dalam anteseden.
b.Mencari hubungan kemenarikan
antara Lpq dan Lϕk . Lpq dan Lϕk
dikatakan menarik jika nilai antara
Pr (L pq | Lϕk ) dan Pr (Lpq ) secara
signifikan berbeda. Nilai perbedaan
dihitung menggunakan adjusted
residual d L L . Perhitungan nilai
pq ϕ k

dL

pq L ϕ k

berdasarkan pada analisis

residual (persamaan 3 sampai dengan
> 1.96 maka
6). Jika nilai d L L
pq ϕ k

dapat
Pr (L pq

dikatakan
bahwa
| Lϕk ) dan Pr (Lpq ) secara

signifikan
berbeda,
sehingga
hubungan antara Lpq dengan Lϕk
menarik (interesting).
c. Menghitung nilai bobot dari aturan
yang
menarik,
menggunakan
persamaan 8.
d.Menggunakan aturan yang telah
terbentuk untuk mencari aturan
dengan orde yang lebih tinggi dan
mengulangi langkah b dan c.
e. Aturan-aturan menarik yang telah
terbentuk akan dilakukan pemilihan
terhadap
aturan-aturan
yang
mengandung kelas target sebagai
konsekuennya.
f. Aturan-aturan kelas target yang telah
terpilih merupakan aturan klasifikasi
untuk setiap proses training.
g.Aturan klasifikasi akhir diperoleh
dari aturan klasifikasi yang selalu
muncul pada 10 proses training.

2. Evaluasi terhadap model yang telah
terbentuk (testing). Proses evaluasi
dilakukan
dengan
menghitung
banyaknya test record yang diprediksi
secara benar atau tidak benar oleh
model klasifikasi. Untuk memprediksi
nilai digunakan persamaan (9 sampai
dengan 11). Model dapat diterima jika
mencapai nilai akurasi yang tinggi dan
error rate yang rendah ketika
diaplikasikan ke test set.
e. Representasi pengetahuan, merupakan
tahap akhir dimana pada tahap ini pola
yang telah ditemukan direpresentasikan ke
pengguna dengan teknik visualisasi agar
pengguna dapat memahaminya. Deskripsi
aturan klasifikasi akan disajikan dalam
bentuk aturan logika.
Lingkungan Pengembangan Sistem
Spesifikasi perangkat keras dan perangkat
lunak pada komputer personal yang digunakan
dalam pengembangan sistem adalah sebagai
berikut :
Perangkat keras berupa komputer personal
dengan spesifikasi :


XP



Sistem Operasi : Windows XP
Professional 2002
Matlab
7.0.1
sebagai
bahasa
pemograman.
Microsoft Excel 2003 sebagai media
penyimpanan data.

Processor: AMD AthlonTM
2400+
• Memori 512 MB
• Harddisk 120 GB
• Alat input mouse dan keyboard
• Monitor 15”
Perangkat lunak :




HASIL DAN PEMBAHASAN
Data diabetes diperoleh dari data hasil
pemeriksaan laboratorium dan data catatan
medis pasien rawat inap dari tahun 2004
sampai 2005. Data catatan medis rawat inap
terdiri dari sembilan atribut, yaitu KEY_id,
record
TGL_Periksa,
MRN
(medical
number), tensi, nadi, suhu, tinggi, berat dan
diagutama. Namun, atribut tensi, nadi, suhu,
tinggi dan berat bernilai null, sehingga atribut
tersebut tidak dapat digunakan untuk
membuat model atau aturan klasifikasi. Data
hasil pemeriksaan laboratorium terdiri dari

8
sepuluh atribut, antara lain key_transaksi,
no.RM
(nomor
rekam
medis/MRN),
tgl.proses, ordertest_code, test_name, result,
unit, flag, ref_range, status. Atribut result
berisi data laboratorium dari pemeriksaan
GLUS (Glukosa Darah Sewaktu dalam
mg/dL), AST, GLUN, GPOST, Tg dan HDL.
Pada penelitian sebelumnya (Herwanto
2006), jumlah atribut yang digunakan untuk
membuat model atau aturan klasifikasi
sebanyak 12 atribut, antara lain umur, jenis
kelamin, GLUN, GPOST, Tg, HDL, Upost,
Actn, Actpp, Ldl, Urn dan Chol. Nilai atributatribut tersebut dinyatakan dalam bentuk
bilangan crisp. Penelitian tersebut (Herwanto
2006) menghasilkan model atau aturan
klasifikasi yang hanya melibatkan empat buat
atribut, yaitu GLUN, GPOST, Tg dan HDL.
Pada penelitian ini, atribut yang digunakan
untuk membuat model atau aturan klasifikasi,
yaitu GLUN (Glukosa Darah Puasa dalam
mg/dL), GPOST (Glukosa Darah Pasca Puasa
dalam mg/dL), Tg (Trigliserida dalam
mg/dL), HDL (Kolesterol HDL dalam mg/dL)
mengacu pada model klasifikasi yang
dihasilkan pada penelitian sebelumnya.
Nilai atribut GLUN, GPOST, Tg dan HDL
diperoleh dari data hasil pemeriksaan
laboratorium,
sedangkan
nilai
atribut
Diagnosis diperoleh dari data diagutama
catatan medis rawat inap dengan nomor rekam
medis yang sama. Atribut Diagnosis
merupakan atribut kelas target. Jumlah record
data sebanyak 300 buah record. Contoh
sebagian data diabetes dapat dilihat pada
Lampiran 2.
Pembersihan Data
Pembersihan data dilakukan karena
ditemukannya data yang bernilai kosong dan
duplikat. Pembersihan data dilakukan dengan
menghapus record yang mengandung nilai
kosong dan duplikat, sehingga diperoleh data
bersih sebanyak 290 record.
Transformasi Data
Proses transformasi data dilakukan dengan
mengubah data bersih ke dalam bentuk fuzzy.
Kelima buah atribut tersebut satu-persatu akan
ditransformasi ke dalam bentuk himpunan
fuzzy. Penentuan himpunan fuzzy untuk atribut
GLUN, GPOST, Tg dan HDL berdasarkan
pada nilai kategori yang terdapat pada
masing-masing atribut (Tabel 1). Penentuan
pembentukan nilai kategori terhadap data hasil
pemeriksaan
laboratorium
berdasarkan
referensi yang ada di sebuah rumah sakit. Di
bawah ini akan dijelaskan himpunan fuzzy dan

fungsi keanggotaan untuk masing-masing
atribut.
Tabel 1 Nilai kategori untuk setiap atribut
Atribut
GLUN
GLUN
GLUN
GLUN
GPOST
GPOST
GPOST
GPOST
HDL
HDL
HDL
TG
TG
TG

Nilai Kontinyu
GLUN < 70
70