EVALUASI PERFORMA ALGORITMA KLASIFIKASI DECISION TREE ID3, C4.5, DAN CART PADA DATASET READMISI PASIEN DIABETES

Mochammad, Evaluasi Performa Algoritma Klasifikasi…23

EVALUASI PERFORMA ALGORITMA KLASIFIKASI DECISION TREE ID3,
C4.5, DAN CART PADA DATASET READMISI PASIEN DIABETES
1,2,3

Mochammad Yusa*1, Ema Utami2, Emha Taufiq Luthfi3
STMIK AMIKOM ; Jl. Ring Road Utara, Condong Catur, Sleman, Yogyakarta
Telp: (0274)884201-207 Fax: (0274) 884208
1,2.3
Magister Teknik Informatika, STMIK AMIKOM, Yogyakarta
e-mail: *1mochammad.yusa@amikom.ac.id, 2ema.u@amikom.ac.id,
3
emhataufiqluthfi@amikom.ac.id

Abstract
Classification is one of the techniques contained in data mining. The purpose or objective
of data mining classification technique is to predict accurately target class using variables related.
There are many models of algorithms in data mining classification techniques. Klasfikasi algorithm
model has a different value and highly dependent on the number of attributes and records of the
dataset. The selected dataset relates to readmission of diabetic patients. The dataset still contains

missing values so that in this study, the data prepocessing stage is developed. After prepocessing
phase, the selected dataset consists of 47 attributes and 49 735 records. In this study also, Decision
Tree algorithm performance will be explored by the selected dataset. The Decision Tree Classifiers
which are evaluated are ID3, C4.5 and CART. 10-fold Cross Validation technique was developed
to validate or generate performance result of each classifier. This study shows that C4.5 classifier
outperforms ID3 and CART. C4.5 results 54.13% of accuracy and 6 seconds execution time
performance.
Keywords— Data Mining, Classification, ID3, C4.5, CART, Machine Learning, Performance,
Accuracy, Execution Time, Decision Tree
Abstrak
Klasifikasi merupakan salah satu teknik yang terdapat pada data mining. Tujuan atau
objectif dari teknik klasifikasi data mining adalah untuk memprediksi kelas target secara akurat
dengan menggunakan variabel-variabel terkait. Terdapat banyak model algoritma dalam teknik
klasifikasi data mining. Model algoritma klasfikasi memiliki nilai yang berbeda-beda dan sangat
bergantung pada jumlah atribut dan records dari dataset. Dataset yang digunakan adalah dataset
terkait proses readmisi pasien diabetes. Dataset yang digunakan masih mengandung missing
values sehingga dalam penelitian ini tahap prepocessing data dilakukan. Setelah tahap
prepocessing data dilakukan didapat dataset yang terdiri dari 47 atribut dan 49.735 records. Di
dalam penelitian ini juga, teknik klasifikasi menggunakan berbagai macam algoritma Decision
Tree akan dieksplorasi performanya pada dataset. Algoritma-algoritma klasifikasi yang akan

dievaluasi adalah ID3, C4.5, dan CART. Teknik perhitungan atau validasi yang digunakan adalah
10-fold Cross Validation. Hasil dari penelitian ini menunjukkan bahwa model klasifikasi C4.5
memiliki nilai performa yang paling baik. Nilai performa yang dihasilkan adalah 54,13% performa
akurasi dan 6 detik Execution time.
Kata kunci— Data Mining, Klasifikasi, ID3, C4.5, CART, Machine Learning, Performa, Akurasi,
Execution Time, Decision Tree

PENDAHULUAN
Teknik klasifikasi merupakan salah satu teknik data mining yang perkembangannya cukup
signifikan. Ini dibuktikan dengan banyaknya penelitian yang mengimplementasikan teknik
klasfikasi data mining pada berbagai bidang misalnya di bidang manufacturing [1] , bidang
agriculture [2], bidang ekonomi [3], bidang pendidikan [4], dan bidang kesehatan [5].

24. InfoSys Journal, Vol 4 No 1 Februari 2016, hlm 23-34

ISSN : 2087-3085

Teknik klasifikasi digunakan untuk menentukan item atau informasi yang berdasarkan
sekelompok atribut dengan satu target kelas tertentu dari jumlah data yang besar [13]. Tujuan atau
objectif dari teknik klasifikasi data mining adalah untuk memprediksi kelas target secara akurat

dengan menggunakan variabel-variabel terkait.
Di dalam teknik klasifikasi data mining terdapat banyak model-model algoritma klasifikasi
dengan nilai performa yang berbeda-beda. Harper [6] menyatakan bahwa setiap model algoritma
klasifikasi memiliki nilai performa yang berbe-beda sesuai dengan kasus atau dataset yang
digunakan. Kemudian pernyataan itu diperkuat oleh penelitian Rahman dan Afroz [7] yang
menyatakan bahwa model algoritma yang baik pada satu kasus belum tentu algoritma tersebut
mempunyai nilai yang baik pada kasus lain. Dalam kasus yang lebih spesifik, Temurtas, Yumusak,
dan Temurtas [8]dalam penelitiannya menyatakan bahwa model algoritma klasifikasi memiliki
nilai yang berbeda-beda dan nilai performa sangat bergantung pada model algoritma yang
diterapkan. Sehingga berdasarkan penelitian-penelitian tersebut, melakukan evaluasi model
algoritma klasifikasi pada dataset tertentu untuk mendapatkan hasil performa yang optimal akan
menjadi sangat penting.
LITERATUR REVIEW
Berikut ini adalah beberapa literatur review terkait dengan dengan penelitian yang akan
dilakukan:
Dari penelitian Sheu [9] diperoleh hasil bahwa metode ID3 dari Decision Tree merupakan
metode yang paling baik jika dibandingkan dengan beberapa algoritma klasifikasi lainnya.
Sharma dan Sahni [10] membandingkan algoritma ID3, CART, ADTree, J48 (C4.5) pada
spam email. dataset yang dievaluasi terdiri 4601 records dan 58 atribut. Hasil menunjukkan bahwa
algoritma J48 atau C4.5 memiliki nilai akurasi yang paling baik.

Yadav dan Pal [11] bertujuan untuk mengekplorasi nilai performa model algoritma klasifikasi
Decision Tree ID3, C4.5, dan CART untuk memprediksi keberhasilan atau kelulusan nilai ujian
akhir mahasiswa teknik. Model algoritma klasifikasi Decision Tree C4.5 memiliki nilai akurasi
yang paling tinggi yaitu 67.7778% sedangkan Execution time tercepat didapat dari model algoritma
klasifikasi.
Lavanya & Rani [12] mengevaluasi performa akurasi algoritma ID3, C4.5, dan CART dengan
empat dataset yang berbeda dengan berbagai jumlah record dan atribut. Hasil menunjukkan bahwa
dari semua dataset yang dibandingkan algoritma CART memiliki nilai performa akurasi yang
paling baik.
Dari hasil penelitian-penelitian tersebut [9-12], tampak jelas bahwa model algoritma dari
Decision tree: ID3, C4.5, dan CART memiliki nilai performa yang berbeda-beda. Maka dari itu
evaluasi algoritma sangat penting dilakukan untuk mengetahui peforma algoritma dari kasus-kasus
yang spesifik. Maka dari itu, penelitian ini bertujuan untuk menghitung performa model algoritma
klasifikasi yang berbeda dan jumlah serta records yang berbeda.
LANDASAN TEORI
Teknik Klasifikasi
Klasifikasi adalah penugasan data mining yang memperkerjakan sebuah objek ke salah satu
kategori yang sudah didefinisikan berdasarkan atribut-atribut objeknya [13]. Input yang dimasukan
pada problem adalah sebuah dataset yang disebut training set yang terdiri dari sejumlah sampel
yang mempunyai jumlah atribut-atribut. Atribut-atribut tersebut juga bersifat berkelanjutan ketika

values dari atribut dapat dihitung atau bersifat kategorikal ketika nilai atribut atau values dari
atribut tidak dapat dihitung. Salah satu atribut kategorikal disebut class-label atau atribut yang
telah diklasifikasikan. Tujuannya adalah untuk menggunakan training-set dalam membangun
sebuah model dari class-label berdasarkan pada atribut-atribut lain agar model tersebut dapa
digunakan untuk mengklasifikasikan data baru bukan dari data-set yang sudah di-training. Teknik
klasifikasi telah dipelajari secara ekstensif pada ilmu statistik, machine-learning, neural networks,
dan sistem pakar [14].

Mochammad, Evaluasi Performa Algoritma Klasifikasi…25
Model Algoritma Decision Tree
Salah satu teknik klasifikasi yang paling popular digunakan adalah decision tree [13,15].
Decision Tree juga merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal [16].
Decision tree merupakan salah satu metode klasifikasi yang menggunakan representasi struktur
pohon (tree) di mana setiap node merepresentasikan atribut, cabangnya merepresentasikan nilai
dari atribut, dan daun merepresentasikan kelas.
a. ID3
Information Gain merupakan suatu ukuran korelasi pada model parametrik yang
menggambarkan ketergantungan antara dua peubah acak X dan Y. Biasa metode atau teknik
splitting optimal point ini digunakan pada model algoritma ID3[17]. Information Gain dapat dilihat
pada rumus (1) berikut :

(1)
dimana,
(2)
Adalah split info yang didapatdari rumus :
(3)
m mempresentasikan banyaknya nilai yang berbeda atribut label kelas yang akan
mendefinisikan kelas yang berbeda, Ci (i = 1,2,...,m). Si mrepresentasikan jumlah sampel dalam
himpunan sampel S (berisi s sampel) yang masuk kelas Ci .. pi merepresentasikan eluang bahwa
suatu sampel akan masuk ke kelas Ci dan diestimasi dengan
b. C4.5
Gain Ratio merupakan modifikasi dari Information Gain untuk mengurangi bias atribut
yang memiliki banyak cabang biasanya digunakan pada model algoritma C4.5 [17]. Gain Ratio
memiliki sifat : (1) Bernilai besar bila data menyebar rata, dan (2) Bernilai kecil bila semua data
masuk dalam satu cabang. Gain Ratio memiliki rumus :
(4)
Dimana rumus split info seperti pada (Rumus 4) dengan m menyatakan banyaknya split.
Jenis split yang dipilih adalah split yang memiliki nilai Gain Ratio yang terbesar.
c. CART
algoritma CART (C&RT) merupakan metode algoritma Decision Tree menggunakan
kriterian Gini Index untuk menentukan titik pemecah terbaik (splitting optimal point) [17]. Semakin

rendah nilai Gini Index maka semakin besar pula ukuran kesamaannya. Gini Index atribut t untuk
data dengan m kelas didefinisikan pada rumus (5) sebagai berikut :
(5)
Bila data dipecah terhadap A menjadi 2 subset D1 dan D2, maka Gini Index didefinisikan pada
rumus (6) berikut :
(6)
Berdasarkan banyaknya edge keluar dari suatu atribut, maka terdapat dua jenis pemisahan yaitu
binary split yang menghasilkan dua buah edge keluar dan multyway split yang menghasilkan lebih
dari dua edge keluar.
DATASET
Penelitian ini menggunakan data yang berasal dari UCI Machine Learning yang dapat
diunduh untuk penelitian-penelitian tentang data mining. Data penelitian ini berasal dari The
Health Facts Database (Cerner Corporation). Data ini bersifat real yang memang berasal dari
gabungan-gabungan pasien-pasien yang telah melakukan perawatan atau medikasi di rumah sakit.
Database terdiri dari data yang secara sistematis dikumpulkan dari record-record medis elektronis

26. InfoSys Journal, Vol 4 No 1 Februari 2016, hlm 23-34

ISSN : 2087-3085


dari berbagai institusi yang dikumpulkan yang digunakan dan diektraksi yang merepresentasikan
selama 10 tahun (1998-2008) dari penanganan medis di 130 rumah sakit di US.
Dataset yang digunakan untuk evaluasi pada penelitian ini terdiri dari 55 atribut dengan
101.766 records. Atribut-atribut tersebut adalah Encounter ID, Patient Number, Race, Gender,
Age, Weight, Admission Type, Discharge Disposition, Admission Source, Time in Hospital, Payer
Code, Medical Specialty, Number of lab procedures, Number of procedures, Number of
medications, Number of outpatients visits, Number of emergency visits, Number of inpatients
visits, Diagnosis 1, Diagnosis 2, Diagnosis 3, Number of diagnoses, Glucose serum test result, A1c
test result, Change of medication, Diabetes Medication, 24 features for medications, dan Status.
Daftar lengkap tentang atribut dan deskripsi serta value dapat dilihat pada penelitian Stract, et.al
[18].
METODE PENELITIAN
Dalam penelitian ini terdapat dua tahap. Tahap yang pertama adalah preparasi data dan
yang kedua adalah tahap evaluasi.
a. Tahap Preparasi Data
Pada bagian ini, analisis dataset akan dilakukan data terlebih dahulu sebelum dilakukan uji
performa menggunakan machine learning. Database original yang tersedia berisikan informasi
yang redundant dan tidak lengkap sesuai dengan data yang didapat dari database real. Hal ini perlu
dilkukan karena data yang biasanya berasal dari dunia nyata memiliki nilai atau data yang bersifat
redundant, noisy, multiple (ganda), dan tidak komplit. Tahap-tahap yang akan dilakukan dalam

preparasi data adalah sebagai berikut:
1. Feature Selection
Tahap ini adalah langkah dimana akan dilakukannya tahap pemilihan atribut atau feature
yang akan digunakan. Dalam tahap ini, penghapusan atribut yang tidak berpengaruh terhadap
proses readmisi pasien diabetes dihapuskan. Atribut-atribut yang dianggap tidak berpengaruh
adalah payer code dan patient code.
2. Identifikasi Missing Values
Setelah tahap feature selection dilakukan, tahap selanjutnya adalah menganalisis jumlah
record yang tidak ada pada setiap atribut atau langkah identifikasi missing values. Pada dataset
yang tersedia, terdapat empat jumlah atribut yang memiliki record mengandung missing
values. Atribut-atribut tersebut adalah weight sebanyak 97%, race sebanyak 2 %, Diagnosis 3
sebanyak 1 %, dan medical specialty sebanyak 47%. Fitur weight memiliki data missing
values yang sangat besar sehingga tidak dimungkinkan untuk diganti dengan data-data yang
dapat dilakukan dengan teknik-teknik statistik sehingga atribut ini dikategorikan sebagai
kandidat atribut yang dihapus.
3. Identifikasi duplikat data
Tahap ini dilakukan untuk menghindari terjadi data yang sama untuk setiap atribut.
Setelah dilakukan analisis, dataset menunjukkan bahwa tidak adanya duplikasi data sehingga
kandidat dataset yang terakhir merupakan kandidat dataset yang akan ditransformasi pada
langkah selanjutnya.

4. Transformasi data atau values
Langkah ini adalah mengkategorisasikan value-value yang bertipe numeric. Dan
merubah kode-kode value dari atribut diagnosis 1, diagnosis 2, dan diagnosis 3 sesuai dengan kode
icd9 (International Statistical Classification of Diseases and Related Health Problems).
Setelah tahap preparasi data dilakukan, dataset final atau dataset yang akan digunakan
untuk penelitian terdiri dari 47 atribut dengan 49.735 records. Daftar lengkap dapat dilihat pada
Tabel 1 berikut ini.

Mochammad, Evaluasi Performa Algoritma Klasifikasi…27
Tabel 1. Daftar lengkap dataset final
No
1
2

Nama Atribut
Encaounter ID
Race

Tipe
Polynominal (ID)

Polynominal

3
4

Gender
Age

Polynominal
Polynominal

5

Admission Type

Polynominal

6
7

Discharge Disposition
Admission Source

Polynominal
Polynominal

8

Time in Hospital

Polynominal

9

Medical Specialty

Polynominal

10

Number of lab procedures

Polynominal

11

Number of procedures

Polynominal

12

Number of medications

Polynominal

13

Number of outpatients
visits

Polynominal

14

Number of emergency
visits

Polynominal

15

Number of inpatients
visits

Polynominal

16
17
18

Diagnosis 1
Diagnosis 2
Diagnosis 3

Polynominal
Polynominal
Polynominal

19

Number of diagnoses

Polynominal

20

Glucose serum test result

Polynominal

21

A1c test result

Polynominal

22

Change of medication

Polynominal

23

Diabetes Medication

Polynominal

24

24 features for
medications
Status

Polynominal

25

Polynominal
(Label Target)

Deskripsi
Nomor Kunjungan sebagai ID
Value : Caucasian, Asian, African American,
Hispanic, dan Other
Nilai : Male, Female, dan Unknown
Value :Dikelompokan dengan interval 10 tahun (010, 10-20,...,90-100)
Value : Emegency, urgent, elective, newborn, dan
not available.
Value :discharge to home, expired, not available.
Value : physician referral, emergency room, dan
transfer from hospital.
Jumlah atau lama pasien dirawat dirumah sakit dari
pendaftaran sampai pelepasan keluar dari rumah
sakit. Value : [0-5],[6-10], dan [11-15]
Penanganan khusus misalnya cadiology, internal
medicine, dan dll.
Jumlah tes-tes lab yang dilakukan pada sekali
kunjungan. Dikelompokkan dengan interval
sebesar 15 misalnya [1-15],[16-30]...[121-135]
Jumlah prosedur pada satu kali kunjungan. Value:
0,1,2,...,6
Jumlah obat-obatan untuk pasien yang diberikan
dalam sekali kunjungan. Dikelompokan dengan
interval 9 seperti [1-9], [10-18],...,[74-81]
Jumlah Kunjungan pasien rawat jalan dalam sekali
proses pengobatan. Value dengan interval 5 seperti
[0],[1-5],[6-10]...,[26-30]
Jumlah kunjungan emergency ketika sedang dalam
tahap pengobatan. Value : [0], [1-9], [1018],...,[74-81]
Jumlah kunjungan pasien rawat inap yang sedang
dalam tahap pengobatan. Value : [0],[1-4], [58],[9-12],[13-16].
Diagnosis utama (Tabel 3.2)
Diagnosis kedua (Tabel 3.2)
Diagnosis tambahan yang mendukung diagnosis
kedua; (Tabel 3.2)
Jumlah diagnosa yang di-inputkan ke dalam
system. Value : [0], [1-4],[5-8].
Mengindikasikan rentang hasil; nilai, >200,>300,
normal, dan none (tidak ada).
Lebih dari normal diindikasikan dengan nilai >8%,
jika dalam batas normal yaitu antara 7-8%
dikodekan dengan normal, sedangkan jika
kekurangan diindikasikan dengan kode 30 untuk pasien yang kembali dirawat inap
lebih dari 30 hari, Nilai >30 untuk pasien yang
kembali dirawat inap kurang dari 30 hari, dan No
untuk yang tidak direadmisi.

28. InfoSys Journal, Vol 4 No 1 Februari 2016, hlm 23-34

ISSN : 2087-3085

b.

Tahap Evaluasi (Skenario Percobaan)
Skenario evaluasi pada penelitian ditunjukkan pada Gambar 2. Pada skenarion pengujian
ini terdapat beberapa teknik pengujian sesuai dengan kapabilitas yang dimiliki oleh model
algoritma tersebut.
Setelah tahap prepocessing dilakukan, dataset di-import ke dalam machine learning
Rapidminer 7.0.0. Skenario ujicoba pertama adalah dengan mengimplementasi model algoritma
ID3, kedua adalah algoritma C4.5, dan yang ketiga adalah algoritma CART. Setelah
diimplementasi satu persatu, setiap algoritma akan dievaliasi menggunakan teknik 10-fold crossvalidation. Metode ini membagi secara acak sebanya 10 Subset seperti penelitian yang dilakukan
oleh Ashari, Paryudi, & Tjoa [19] dan kemudian setiap Subset n=1 akan menjadi data traning
sedangkan n=2,3,...,10 akan menjadi data testing. Kemudian dilakukan sebanyak 10 iterasi dengan
data testing n+1 dan syarat data testing tidak sama dengan data training. Lalu hasilnya
digenerating dengan confusion matriks. Setelah itu akan dihitung performanya berdasarkan
performa akurasi dan execution time.
Dataset Final

Implementasi
Decision Tree

ID3

C4.5

CART

evaluasi
menggunakan 10-fold
cross validation
10-fold cross
validation
data testing/validasi

Data Training

iterasi ke 1

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

iterasi ke 2

x2

x1

x3

x4

x5

x6

x7

x8

x9

x10

iterasi ke 3

x3

x1

x2

x4

x5

x6

x7

x8

x9

x10

x10

x1

x2

x3

x4

x5

x6

x7

x8

x9

iterasi ke n
iterasi ke 10

Generating Hasil
Performa

Accuracy

Time Execution

Gambar 1. Skenario Percobaan

HASIL DAN PEMBAHASAN
Di dalam penelitian, dua parameter pendekatan perhitungan performa algoritma klasifikasi
diperhitungkan. Parameter-parameter tersebut adalah Akurasi (accuracy) dan Execution time.

Mochammad, Evaluasi Performa Algoritma Klasifikasi…29
Accuracy dalam klasifikasi adalah persentase ketepatan record data yang diklasifikasikan
secara benar setelah dilakukan pengujian pada hasil klasifikasi[13]. Rumus Accuracy dapat
didefinisikan pada rumus (7) berikut ini:
(7)
Dimana, TP merupakan jumlah record/tuple positif yang dilabelkan secara benar oleh
model algoritma klasifikasi, TN merupakan jumlah record/tuple negatif yang dilabelkan secara
salah oleh model algoritma klasifikasi, dan P merupakan total semua record yang dievaluasi.
Execution time merupakan salah pengukuran algoritmik yang digunakan untuk mengukur
efesiensi sebuah model algoritma klasifikasi [20]. Pendekatan pengukuran performa yang diukur
adalah seberapa cepat waktu yang digunakan sebuah algoritma klasifikasi dalam satu kali evaluasi
dataset.
Confusion Matrix Algorima ID3
Tabel 2 Confusion Matrix Algoritma ID3

Tabel 2 merupakan upaya generating result performa dari algoritma ID3. Dari data tersebut,
dapat dilihat bahwa terdapat 939 records yang terprediksi benar untuk label 30, dan 16.233 records yang terprediksi benar untuk label NO.
Sehingga, nilai akurasi yang didapatkan adalah sebagai berikut:

Jadi untuk model algoritma klasifikasi ID3, Hasil akurasi yang diperoleh adalah 47,82%.
Confusion Matrix Algorima C4.5
Tabel 3 Confusion Matrix Algoritma C4.5

Hasil yang tampilkan pada Tabel 3 menunjukkan bahwa terdapat 607 records label 30, dan 20.504 records
untuk label NO. Hasil akurasinya adalah sebagai berikut:

30. InfoSys Journal, Vol 4 No 1 Februari 2016, hlm 23-34

ISSN : 2087-3085

Data tersebut menunjukkan bahwa hasil performa akurasi model algoritma klasifikasi C4.5
lebih tinggi dibandingkan dengan model algoritma klasifikasi ID3 yaitu dengan nilai 54,13%.
Confusion Matrix Algorima CART
Tabel 4. Confusion Matrix Algoritma CART

Dari confusion matrix yang ditunjukkan pada Tabel 4, terdapat 930 records yang
terklasifikasi benar untuk label 30, dan 16.235 records untuk label NO. Berdasarkan data yang ditunjukkan oleh Tabel 4, maka
nilai performa akurasi dapat dihitung seperti berikut:

Sehingga untuk model algoritma CART, nilai akurasi yang dihasilkan adalah 47,84%. Nilai
akurasi ini lebih kecil daripada model algoritma klasifikasi C4.5 namun nilai performa algoritma
CART ini memiliki keunggulan nilai performa akurasi dibandingkan dengan ID3.
Hasil Performa Model Algoritma
Tabel 5. Daftar Hasil performa Algoritma

Parameter Performa
No
1
2
3

Model Algoritma
ID3
C4.5
CART

Accuracy (%)

Execution time (second)

47,82
54,13
47,84

9
4
6

Tabel 5 merepresentasikan hasil pengujian performa algoritma yang dievaluasi berdasarkan
nilai performa akurasi dan execution time. Pada chapter-chapter berikut ini:

Mochammad, Evaluasi Performa Algoritma Klasifikasi…31
Perbandingan Performa Akurasi

Gambar 2. Grafik Hasil Perfoma Akurasi

Gambar 3 menunjukan bahwa nilai performa accuracy tertinggi didapat dari implementasi
algoritma klasifikasi C4.5 dengan nilai performa sebesar 54,13%. Sedangkan nilai performa akurasi
yang terendah diperoleh dari model algoritma klasifikasi ID3 dengan 47,82%. Namun performa
akurasi ini memiliki nilai yang berbeda sangat tipis dengan pengimplementasian model algoritma
CART yaitu 47,84%. Ini membuktikan bahwa dengan jumlah atribut 47 atribut dengan record
sebanyak 49.735, model algoritma C4.5 memiliki nilai performa yang paling baik. Hal tersebut
sangat bertolak belakang penelitian Lavanya dan Rani [12] yang membuktikan bahwa algoritma
CART memiliki nilai performa akurasi yang baik.
Kemudian dari model algoritma Decision Tree ID3, C4.5, dan CART, algoritma C4.5
memiliki nilai performa akurasi yang baik jika digunakan pada jumlah atribut yang besar. Hal ini
juga dibuktikan pada penelitian Sharma dan Sahni [10] yang menunjukkan bahwa model algoritma
klasfikasi C4.5 memiliki nilai akurasi yang baik setelah dievaluasi menggunakan dataset yang
terdiri dari 58 atribut dan 4601 records.

32. InfoSys Journal, Vol 4 No 1 Februari 2016, hlm 23-34

ISSN : 2087-3085

Perbandingan Performa Execution Time

Gambar 3 Grafik Hasil Perfoma Execution Time

Pada tabel 4 tersebut dapat dilihat bahwa dari model algoritma C4.5 memiliki performa
execution time yang paling cepat yaitu dengan 4 detik waktu klasifikasi. Sedangkan waktu
klasifikasi terlama diperoleh dari model algoritma klasifkasi ID3 dengan execution time sebesar 9
detik. Penelitian Yadav dan Pal [11] menyatakan bahwa model algoritma klasifikasi ID3 memiliki
waktu eksekusi (execution time) yang paling cepat daripada model algoritma Decision Tree yang
lainnya seperti C4.5 dan CART. Namun berdasarkan hasil pengujian yang dilakukan pada
penelitian ini, model C4.5 memiliki execution time yang paling cepat.
KESIMPULAN
Berdasarkan data hasil evaluasi kinerja dari beberapa algoritma klasifikasi Decision Tree
yaitu: ID3, C4.5, dan CART dapat disimpulkan bahwa model algoritma klasfikasi Decision Tree
C4.5 memiliki nilai performa yang paling tinggi baik berdasarkan performa akurasi maupun
performa execution time. Performa yang dihasilkan adalah akurasi sebesar 54,13 dan execution
time sebesar 4 detik. Sedangkan performa paling rendah diperoleh dari model algoritma klasifikasi
ID3 dengan nilai akurasi sebsar 47,82% dan 9 detik execution time.
SARAN
Penelitian ini hanya mengeksplorasi tingkat atau nilai performa algoritma klasifikasi
Decision Tree tetapi tidak mengeksplorasi model-model algoritma klasifikasi secara statistikal dan
sequensial. Pada penelitian selanjutnya diharapkan dapat dilakukan uji performa dengan
mengimplementasikan model-model algoritma dengan pendekatan-pendekatan statistik ataupun
sequensial.

Mochammad, Evaluasi Performa Algoritma Klasifikasi…33
DAFTAR PUSTAKA
[1] Son, H., Kim, C., Hwang, N., Kim, C., & Kang, Y. 2014. Classification of major construction
materials in construction environments using ensemble classifiers. Elsevier - Advanced
Engineering Informatics Vol. 28, pp. 1-10.
[2] Taghizadeh-Mehrjardi, R., Nabiollahi, K., Minasny, B., & Triantafilis, J. 2015. Comparing
data mining classifiers to predict spatial distribution of. Geoderma 253-254, Elsavier, pp. 6777.
[3] Koutanaei, F. N., Sajedi, H., & Khanbabaei, M. 2015. A hybrid data mining model of feature
selection algorithms and ensemble learning classifiers for credit scoring. Journal of Retailing
and Consumer Services 27 , pp. 11-23.
[4] Ragab, A. H., Noaman, A. Y., Al-Ghamdi, A. S., & Madbouly, A. I. 2014. A comparative
analysis of classification algorithms for students college enrollment approval using data
mining. In Proceedings of the 2014 Workshop on Interaction Design in Educational
Environments. ACM., pp. 106-112.
[5] Upadhyaya, S., Baker-Demaray, K., & Farahmand, T. 2013. Comparison of NN and LR
classifiers in the context of screening native American elders with diabetes. Elsevier Expert
Systems with Applications Vol 40, pp. 5830-5838.
[6] Harper, P. R. 2005. A review and comparison of classification algorithms. Health Policy
Volume. 71, pp. 315–331.
[7] Rahman, R. M., & Afroz, F. 2013. Comparison of Various Classification Techniques Using
Different Data Mining Tools for Diabetes Diagnosis. Journal of Software Engineering and
Applications Vol.6, pp. 85-97..
[8] Temurtas, H., Yumusak, N., & Temurtas, F. 2009. A comparative study on diabetes disease
diagnosis using neural networks. Expert Systems with Applications Volume 36 Elsevier,. pp.
8610–8615.
[9] Sheu, Jyh-Jian, May 2008, An Efficient Two-phase Spam Filtering Methode Based on E-mails
categorization. International Journal of Network Security, Vol. 8, No. 3, pp.334-343.
[10] Sharma, A.K. dan Sahni, Suruchi. 2011. A Comparative Study of Classification Algorithms
for Spam Email Data Analysis. International Journal on Computer Science and Engineering
(IJCSE) Vol. 3 No. 5. pp. 1890-1895.
[11] Yadav, S. K., & Pal, S. 2012. Data Mining: A Prediction for Performance Improvement of
Engineering Students using Classification. World of Computer Science and Information
Technology Journal (WCSIT) Vol. 2, No. 2, pp. 51-56.
[12] Lavanya, D. & Rani, K.Usha . 2011. Performance Evaluation of Decision Tree Classifiers on
Medical Datasets. International Journal of Computer Applications. Volume.26 No.4. pp. 1-4.
[13] Kamber, M., & Han, J. 2006. Data Mining; Concepts and Techniques Second Edition. San
Francisco: Morgan Kaufmann Publishers.
[14] Mitchell, T. 1997. Machine Learning. McGraw Hill.
[15] Berry, M. J., & Linoff, G. S. 2004. Data Mining Techniques For Marketing, Sales, Customer
Relationship Management Second Editon. New York: Wiley Publishing, Inc.
[16] Kusrini, & Luthfi, E. 2009. Algoritma Data Mining. Yogyakarta: Andi Publisher.
[17] Gorunescu, F. 2011. Data Mining Concept Model and Techniques. Berlin: Springer.
[18] Strack, B., DeShazo, J. P., Gennings, C., Olmo, J. L., Ventura, S., Cios, K. J., & Clore, J. N.
2014. Impact of HbA1c measurement on hospital readmission rates: analysis of 70,000 clinical
database patient records. BioMed research international Hindawi, pp. 1-11.
[19] Ashari, A., Paryudi, I., & Tjoa, A. M. 2013. Performance Comparison between Naïve Bayes,
Decision Tree and k-Nearest Neighbor in Searching Alternative Design in an Energy
Simulation Tool. (IJACSA) International Journal of Advanced Computer Science and
Applications, Vol. 4, No. 11, pp. 33-29.

34. InfoSys Journal, Vol 4 No 1 Februari 2016, hlm 23-34

ISSN : 2087-3085

[20] Mittal, P., & Gill, N. S. 2014. A Comparative Analysis Of Classification Techniques On
Medical Data Sets. IJRET: International Journal of Research in Engineering and Technology,
Volume: 03 Issue: 06, pp. 454-460.

Dokumen yang terkait

PENGARUH PEMBERIAN SEDUHAN BIJI PEPAYA (Carica Papaya L) TERHADAP PENURUNAN BERAT BADAN PADA TIKUS PUTIH JANTAN (Rattus norvegicus strain wistar) YANG DIBERI DIET TINGGI LEMAK

23 199 21

KEPEKAAN ESCHERICHIA COLI UROPATOGENIK TERHADAP ANTIBIOTIK PADA PASIEN INFEKSI SALURAN KEMIH DI RSU Dr. SAIFUL ANWAR MALANG (PERIODE JANUARI-DESEMBER 2008)

2 106 1

ANALISIS KOMPARATIF PENDAPATAN DAN EFISIENSI ANTARA BERAS POLES MEDIUM DENGAN BERAS POLES SUPER DI UD. PUTRA TEMU REJEKI (Studi Kasus di Desa Belung Kecamatan Poncokusumo Kabupaten Malang)

23 307 16

FREKUENSI KEMUNCULAN TOKOH KARAKTER ANTAGONIS DAN PROTAGONIS PADA SINETRON (Analisis Isi Pada Sinetron Munajah Cinta di RCTI dan Sinetron Cinta Fitri di SCTV)

27 310 2

MANAJEMEN PEMROGRAMAN PADA STASIUN RADIO SWASTA (Studi Deskriptif Program Acara Garus di Radio VIS FM Banyuwangi)

29 282 2

ANALISIS PROSPEKTIF SEBAGAI ALAT PERENCANAAN LABA PADA PT MUSTIKA RATU Tbk

273 1263 22

PENERIMAAN ATLET SILAT TENTANG ADEGAN PENCAK SILAT INDONESIA PADA FILM THE RAID REDEMPTION (STUDI RESEPSI PADA IKATAN PENCAK SILAT INDONESIA MALANG)

43 322 21

KONSTRUKSI MEDIA TENTANG KETERLIBATAN POLITISI PARTAI DEMOKRAT ANAS URBANINGRUM PADA KASUS KORUPSI PROYEK PEMBANGUNAN KOMPLEK OLAHRAGA DI BUKIT HAMBALANG (Analisis Wacana Koran Harian Pagi Surya edisi 9-12, 16, 18 dan 23 Februari 2013 )

64 565 20

PEMAKNAAN BERITA PERKEMBANGAN KOMODITI BERJANGKA PADA PROGRAM ACARA KABAR PASAR DI TV ONE (Analisis Resepsi Pada Karyawan PT Victory International Futures Malang)

18 209 45

STRATEGI KOMUNIKASI POLITIK PARTAI POLITIK PADA PEMILIHAN KEPALA DAERAH TAHUN 2012 DI KOTA BATU (Studi Kasus Tim Pemenangan Pemilu Eddy Rumpoko-Punjul Santoso)

119 459 25