Penerapan Data Mining Menggunakan Algoritme C4.5 dalam Penentuan Jurusan Siswa SMA Negeri 2 Surakarta Artikel

perpustakaan.uns.ac.id

digilib.uns.ac.id

PENERAPAN DATA MINING MENGGUNAKAN ALGORITME
C4.5 DALAM PENENTUAN JURUSAN SISWA
SMA NEGERI 2 SURAKARTA
Nadya Al Fitriani, Isnandar Slamet, dan Tri Atmojo Kusmayadi
Program Studi Matematika
Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Sebelas Maret Surakarta

Abstrak. Data mining merupakan proses eksplorasi terhadap data yang berukuran besar untuk menemukan pola dalam pengambilan keputusan. Klasifikasi adalah
teknik dalam data mining dengan menerapkan metode pohon keputusan untuk membentuk data dalam grup atau kelas. Algoritme yang digunakan dalam pohon keputusan adalah algoritme C4.5. Pada dunia pendidikan, proses penentuan jurusan
siswa adalah hal penting yang perlu diputuskan dengan benar. Tujuan dalam penelitian ini untuk menentukan penjurusan siswa SMA menggunakan algoritme C4.5.
Berdasarkan pembahasan dapat disimpulkan bahwa algoritme C4.5 dapat digunakan dalam klasifikasi penjurusan karena memiliki akurasi tinggi. Dalam penelitian
ini, penentuan jurusan diperoleh dengan menghitung jumlah kasus IPA dan IPS tiap
atribut, entropy, gain, split info dan gain ratio. Hasil pengujian terhadap nilai siswa
SMA Negeri 2 Surakarta pada data testing yang dilakukan sebanyak lima kali secara random, diperoleh rata-rata persentase keakuratan sebesar 86,82% dengan recall
92,19% dan presisi 88,17%. Sedangkan hasil pengujian secara keseluruhan presentase
keakuratan sebesar 89,78%.

Kata kunci: data mining, klasifikasi, algoritme C4.5

1. Pendahuluan
Di zaman modern perkembangan teknologi penyimpanan data dan pengolahan data semakin banyak. Kemampuan seseorang dalam mengumpulkan
dan mengolah data berlimpah dapat dimanfaatkan untuk analisis yang hasilnya
dapat memberikan suatu pengetahuan atau informasi. Berry dan Linoff [2] mendefinisikan data mining sebagai proses eksplorasi data dan analisis data untuk
menemukan pola yang bermakna. Pada dunia pendidikan, proses penentuan jurusan siswa menjadi hal yang penting untuk diputuskan dengan benar. Salah
satu teknik yang digunakan dalam penentuan jurusan adalah klasifikasi. Menurut Adhatrao et al. [1] klasifikasi adalah teknik dalam data mining menggunakan
pohon keputusan untuk membentuk data dalam grup atau kelas. Salah satu
algoritme yang digunakan dalam pohon keputusan adalah algoritme C4.5.
Algoritme C4.5 banyak digunakan dalam klasifikasi karena mudah diinterpretasikan, cepat dan memiliki akurasi serta presisi tinggi. Kamagi dan
Hansun [4] tahun 2014 memprediksi tingkat kelulusan mahasiswa menggunakan
algoritme C4.5. Hasil penelitian inicommit
menunjukkan
to user tingkat keakurasian 87,5 persen. Proses penjurusan di SMA Negeri 2 Surakarta dilakukan pada tahun kedua,
1

perpustakaan.uns.ac.id

digilib.uns.ac.id


Algoritme C4.5 pada Data Mining . . .

N.A.Fitriani, I.Slamet, T.A.Kusmayadi

yaitu kelas XI. Penjurusan dilakukan untuk menentukan jurusan seorang siswa
yaitu apakah siswa tersebut masuk dalam jurusan Ilmu Pengetahuan Alam (IPA)
atau Ilmu Pengetahuan Sosial (IPS). Masalah yang sering terjadi pada proses
penjurusan adalah keterlambatan nilai siswa dari para wali kelas, sehingga penentuan penjurusan kurang tepat karena terbatasnya waktu.
Pada penelitian ini diterapkan data mining menggunakan algoritme C4.5
dalam penentuan jurusan siswa SMA Negeri 2 Surakarta. Atribut yang digunakan adalah data nilai rapor kenaikan kelas X Tahun Ajaran 2009/2010 sampai
2012/2013.
2. DATA MINING
Menurut Larose [7] data mining merupakan gabungan dari beberapa bidang keilmuan yang menyatukan teknik dari mesin pembelajaran, pengenalan
pola, statistik, database, dan visualisasi untuk penanganan permasalahan pengambilan informasi dari database yang besar.
Berdasarkan tugas yang dilakukan data mining dibagi menjadi enam kelompok (Larose [7]).
1. Deskripsi. Deskripsi adalah teknik yang digunakan untuk menggambarkan
pola dan kecenderungan yang terdapat dalam data.
2. Klasifikasi. Klasifikasi merupakan proses membedakan kelas data dalam
beberapa kategori. Beberapa metode yang terdapat pada klasifikasi yaitu

pohon keputusan, neural network, k-nearest neighbor classifiers, casebased reasoning dan algoritme genetika. Menurut Han dan Kamber [3]
pohon keputusan adalah salah satu metode klasifikasi yang paling populer dan mudah untuk diinterpretasikan. Pohon keputusan juga berguna
untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah variabel input dengan sebuah variabel target (Kusrini dan Luthfi
[6]). Salah satu metode yang dapat digunakan untuk membangun pohon
keputusan adalah Algoritme C4.5 (Adhatrao et al. [1]).
3. Estimasi. Estimasi hampir sama
dengan
commit
to userklasifikasi, tetapi variabel target
estimasi lebih ke arah numerik daripada ke arah kategorik.
Prodi Matematika

2

2016

perpustakaan.uns.ac.id

digilib.uns.ac.id


Algoritme C4.5 pada Data Mining . . .

N.A.Fitriani, I.Slamet, T.A.Kusmayadi

4. Prediksi. Prediksi hampir sama dengan klasifikasi dan estimasi, tetapi
nilai dari hasil prediksi akan ada di masa mendatang.
5. Klaster. Klaster merupakan pengelompokan sejumlah data yang mempunyai kemiripan ke dalam kelompok-kelompok data.
6. Asosiasi. Asosiasi adalah teknik yang digunakan untuk mencari hubungan
antara karakteristik tertentu dalam satu waktu.
3. Algoritme C4.5
Algoritme C4.5 merupakan pengembangan dari iterative dichotomiser
3 (ID3 ). ID3 diperkenalkan pertama kali oleh Quinlan tahun 1986. Adapun
langkah-langkah menggunakan algoritme C4.5 menurut Kareem dan Duaimi [5]
untuk memperoleh gain ratio sebagai berikut.
(1) Entropy. Entropy adalah ukuran ketidakpastian dimana semakin tinggi entropy semakin tinggi ketidakpastian. Di dalam information theory,
entropy sering digunakan sebagai parameter untuk mengukur heterogenity
(keberagaman) dari suatu sampel data. Entropy(S) dinyatakan sebagai
Entropy(S) =

n



−pi × log2 (pi )

(3.1)

i=1

dimana S adalah himpunan kasus, n adalah banyaknya kelas dan pi adalah
proporsi Si terhadap S.
(2) Gain. Gain yang dikenal juga sebagai nilai gain atau informasi gain
adalah salah satu langkah pemilihan atribut yang digunakan untuk memilih tes atribut tiap simpul (node) pada pohon. Gain(S,A) dinyatakan
sebagai
Gain(S, A) = Entropy(S) −


vϵnilai(A)

Sv
Entropy(Sv )

S

(3.2)

dimana A adalah atribut, nilai(A) adalah semua kemungkinan nilai dari
atribut A, Entropy Sv adalah entropy untuk sampel-sampel yang memiliki
nilai v, Sv adalah proporsi Scommit
pada atribut
to user A dengan nilai v, dan v adalah
banyaknya nilai yang mungkin untuk atribut A.
Prodi Matematika

3

2016

perpustakaan.uns.ac.id

digilib.uns.ac.id


Algoritme C4.5 pada Data Mining . . .

N.A.Fitriani, I.Slamet, T.A.Kusmayadi

(3) Gain Ratio. Gain Ratio adala normalisasi dari informasi gain yang memperhitungkan entropy dari distribusi probabilitas subset setelah dilakukan
proses partisi. Atribut dengan nilai gain ratio tertinggi dipilih sebagai
atribut tes untuk suatu node. Untuk menghitung gain ratio perlu terlebih
dahulu menghitung SplitInfo. SplitInfo(S,A) dapat dihitung dengan cara
SplitInf o(S, A) =

v


−pj × log2 (pj )

j=1

dimana pj adalah proporsi Sj terhadap S. Selanjutnya gain ratio dihitung
dengan cara
GainRatio(S, A) =


Gain(S, A)
SplitInf o(S, A)

(3.3)

4. Metode Penelitian
Pada penelitian ini digunakan algoritme C4.5 untuk menentukan jurusan
siswa SMA Negeri 2 Surakarta. Perhitungan dalam penelitian ini menggunakan
Microsoft Excel dan Software Tanagra. Data yang digunakan adalah data nilai
rapor kenaikan siswa SMA Negeri 2 Surakarta kelas X Tahun Ajaran 2009/2010
sampai 2012/2013 sejumlah 1595. Langkah awal untuk menentukan jurusan
dilakukan dengan menghitung jumlah kasus untuk keputusan IPA dan jumlah
kasus untuk keputusan IPS pada setiap atribut. Selanjutnya dihitung entropy
dari semua kasus dan kasus yang dibagi berdasarkan atribut nilai rapor untuk
mengukur keberagaman data menggunakan persamaan (3.1). Setelah itu nilai
gain dari tiap-tiap atribut dihitung menggunakan persamaan (3.2). Langkah
selanjutnya adalah menghitung nilai gain ratio dari tiap-tiap atribut menggunakan persamaan (3.3). Berikutnya adalah menetapkan salah satu atribut nilai
rapor dengan nilai rasio gain tertinggi sebagai akar. Kemudian, dibuat cabang
untuk tiap-tiap atribut nilai rapor dengan menghitung rasio gain dari atribut

lain sampai semua kasus pada cabang memiliki kelas yang sama. Setelah semua
atribut memiliki kelas, langkah terakhir
melakukan
commit
to user pengujian untuk menganalisis
serta membandingkan terhadap kebenaran data yang ada.
Prodi Matematika

4

2016

perpustakaan.uns.ac.id

digilib.uns.ac.id

Algoritme C4.5 pada Data Mining . . .

N.A.Fitriani, I.Slamet, T.A.Kusmayadi


5. Hasil dan Pembahasan
5.1. Deskripsi Atribut Data. Atribut yang digunakan dalam penentuan jurusan terdiri dari data nilai mata pelajaran Matematika, Fisika, Kimia, Biologi,
Sejarah, Geografi, Ekonomi, dan Sosiologi. Nilai mata pelajaran tersebut digunakan sebagai variabel input. Selanjutnya, variabel input digunakan untuk
penentuan variabel target yaitu jurusan IPA dan jurusan IPS. Daftar kriteria
dan rentang skor seluruh atribut dapat dilihat pada Tabel 1.
Tabel 1. Atribut Nilai Siswa

Rentang Skor Nilai
80-100
70-79
60-69
40-59
0-39

A
B
C
D
E


5.2. Analisis Algoritme C4.5. Berikut adalah penjelasan dalam pembentukan
pohon keputusan menggunakan algoritme C4.5.
(1) Menentukan node akar. Langkah yang digunakan untuk menentukan node
akar adalah dengan menghitung entropy, gain, split info dan gain ratio
dari delapan atribut data sebagai nilai awal dari pohon (tree). Hasil perhitungan rasio gain ditunjukkan pada Tabel 2.
Tabel 2. Penentuan Node Akar

Atribut
Matematika
Fisika
Kimia
Biologi

Gain Ratio

Atribut

Gain Ratio

0,1406
0,0909
0,0882
0,1469

Sejarah
Geografi
Ekonomi
Sosiologi

0,0276
0,0659
0,0612
0,0377

Dari Tabel 2 dapat diketahui bahwa atribut Biologi menjadi node
akar karena memiliki nilai gain ratio terbesar yaitu 0,1469. Setelah diperoleh node akar dilihat nilai entropy untuk masing-masing rentang skor.
Ada tiga nilai rentang skor pada atribut Biologi yaitu A, B, dan C. Perlu
dilakukan perhitungan lebihcommit
lanjut to
pada
userketiga nilai rentang skor tersebut
karena belum mengklasifikasikan jurusan siswa.
Prodi Matematika

5

2016

perpustakaan.uns.ac.id

digilib.uns.ac.id

Algoritme C4.5 pada Data Mining . . .

N.A.Fitriani, I.Slamet, T.A.Kusmayadi

(2) Menentukan node cabang. Proses penentuan node cabang dipilih berdasarkan gain ratio terbesar setelah menghapus atribut yang telah terpilih
sebagai node akar. Berdasarkan output diperoleh
(a) Iterasi pertama. Pada node Biologi C diperoleh nilai gain ratio tertinggi pada atribut Kimia yaitu sebesar 0,1408.
(b) Iterasi kedua. Pada node Biologi C Kimia B diperoleh nilai gain ratio
tertinggi pada atribut Ekonomi yaitu sebesar 0,1942.
(c) Iterasi ketiga. Pada node Biologi C Kimia B Ekonomi B diperoleh nilai gain ratio tertinggi pada atribut Matematika yaitu sebesar 0,6973.
Ada tiga nilai rentang skor pada atribut Matematika yaitu B, C,
dan D. Ketiga nilai tersebut sudah mengklasifikasikan jurusan siswa. Sedangkan untuk node Biologi C Kimia B Ekonomi C diperoleh
nilai gain ratio tertinggi juga pada atribut Matematika yaitu sebesar 1. Ada dua nilai rentang skor pada atribut Matematika yaitu
C dan D. Kedua nilai tersebut sudah mengklasifikasikan jurusan siswa. Dengan demikian, diperoleh pohon keputusan akhir sebagaimana
dalam Gambar 1.

mat

b

ips

c

ipa
c

ips
c

bio

c

kim

b

eko

b

mat

a

b
a

ips
ipa

ips

Gambar 1. Pohon Keputusan Akhir Biologi C Kimia B

5.3. Interpretasi Pohon Klasifikasi.
Dalam
penelitian ini pembentukan aturan
commit
to user
klasifikasi dari pemodelan algoritme C4.5 dengan pembobot delapan atribut dari
Prodi Matematika

6

2016

perpustakaan.uns.ac.id

digilib.uns.ac.id

Algoritme C4.5 pada Data Mining . . .

N.A.Fitriani, I.Slamet, T.A.Kusmayadi

1595 data terdapat 219 aturan. Berikut adalah contoh pembentukan aturan klasifikasi untuk Biologi C Kimia B.
(1) Jika Biologi C dan Kimia B dan Ekonomi B dan Matematika B, maka
Jurusan IPA.
(2) Jika Biologi C dan Kimia B dan Ekonomi B dan Matematika C, maka
Jurusan IPS.
(3) Jika Biologi C dan Kimia B dan Ekonomi B dan Matematika D, maka
Jurusan IPS.
(4) Jika Biologi C dan Kimia B dan Ekonomi C dan Matematika C, maka
Jurusan IPA.
(5) Jika Biologi C dan Kimia B dan Ekonomi C dan Matematika D, maka
Jurusan IPS.
5.4. Pengujian dan Evaluasi. Setelah model pohon keputusan dari data training
didapatkan, tahap selanjutnya yaitu melakukan pengujian dan evaluasi terhadap hasil model pohon keputusan data training tersebut. Hasil pengujian data
training secara keseluruhan dapat dilihat pada Tabel 3.
Tabel 3. Hasil Pengujian Data Training secara Keseluruhan

Kelas Prediksi

Kelas Aktual

IPS

IPA

Jumlah

1002
122

41
430

1043
552

Jumlah 1124

471

1595

IPS
IPA

Berdasarkan Tabel 3 dari 1595 data training secara keseluruhan terdapat
1432 data dengan klasifikasi benar, sehingga diperoleh presentase akurasi sebesar 89,78% dengan recall 96,07% dan presisi sebesar 89,15%. Sedangkan hasil
pengujian data testing yang dilakukan secara random sebanyak lima kali dengan
jumlah data yang berbeda dapat dilihat pada Tabel 4.
Berdasarkan Tabel 4 diperoleh
rata-rata
commit
to user akurasi sebesar 86,82% dengan
recall 92,19% dan presisi 88,17%.
Prodi Matematika

7

2016

perpustakaan.uns.ac.id

digilib.uns.ac.id

Algoritme C4.5 pada Data Mining . . .

N.A.Fitriani, I.Slamet, T.A.Kusmayadi

Tabel 4. Hasil Pengujian dan Evaluasi
Presentase Data Data Training
20%
40%
50%
60%
80%

:
:
:
:
:

80%
60%
50%
40%
20%

Data Testing

Akurasi

Recall

Presisi

1276
957
797
638
319

90,20%
77,22%
92,22%
91,38%
83,07%

96,78%
82,09%
95,76%
93,69%
92,65%

89,23%
83,15%
92,55%
93,01%
82,89%

86,82%

92,19%

88,17%

319
638
798
957
1276
rata-rata

6. Kesimpulan
Berdasarkan hasil pembahasan diperoleh kesimpulan bahwa pohon keputusan dengan algoritme C4.5 dapat digunakan dalam penentuan penjurusan
siswa SMA Negeri 2 Surakarta. Hal ini didukung oleh hasil pengujian yang menggunakan seluruh data training dengan 219 aturan klasifikasi diperoleh presentase
akurasi sebesar 89,78%. Sedangkan penggunaan data testing yang dilakukan
sebanyak lima kali secara random diperoleh rata-rata akurasi sebesar 86,82%
dengan recall 92,19% dan presisi 88,17%.
DAFTAR PUSTAKA
1. Adhatrao, K., A. Gaykar, A. Dhawan, R. Jha and V. Honrao, Predicting Students
Performance using id3 and c4.5 Classification Algorithms, International Journal of Data
Mining & Knowledge Management Process 3 (2013), 39–52.
2. Berry, M. J. A and G. S. Linoff, Data Mining Technique : for Marketing, Sales, and Customer
Support, John Wiley & Sons, New York, 1997.
3. Han, J., G. Cohen and Kamber, Data Mining : Concepts and Techniques, second ed., Simon
Fraser University, USA: Morgan Kaufman, 2006.
4. Kamagi, D.H dan S. Hansun, Implementasi Data Mining dengan Algoritma c4.5 untuk
Memprediksi Tingkat Kelulusan Mahasiswa, ULTIMATICS 1 (2014), 15–20.
5. Kareem, I. A and M. G. Duaimi, Improved Accuracy for Decision Tree Algorithm Based
on Unsupervised Discretization, International Journal of Computer Science and Mobile
Computing 3 (2014), 176–183.
6. Kusrini dan E. T. Luthfi, Algoritma Data Mining, Andi Offset, Yogyakarta, 2009.
7. Larose, D. T., Discovering Knowledge in Data: An Introduction to Data Mining, John Willey
& Sons. Inc, Hoboken, New Jersey, 2005.

commit to user

Prodi Matematika

8

2016