Implementasi Data Mining Menggunakan Algoritme C5.0 Pada Data Kelulusan Mahasiswa S1 Universitas Sebelas Maret Surakarta

IMPLEMENTASI DATA MINING MENGGUNAKAN ALGORITME C5.0
PADA DATA KELULUSAN MAHASISWA S1 UNIVERSITAS SEBELAS
MARET SURAKARTA
Guntur Arief Darmawan, Yuliana Susanti, Siswanto
Program Studi Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Sebelas Maret
ABSTRAK. Universitas Sebelas Maret (UNS) merupakan salah satu lembaga
yang bergerak di bidang pendidikan. Setiap tahunnya data kelulusan mahasiswa S1
UNS selalu bertambah dan semakin besar, maka diperlukan suatu analisis untuk
mengatasi data yang jumlahnya besar yaitu dengan data mining. Metode data
mining yang digunakan dalam penelitian ini adalah algoritme C5.0. Penelitian ini
bertujuan untuk menerapkan teknik data mining menggunakan algoritme C5.0 pada
data kelulusan mahasiswa UNS. Berdasarkan hasil penelitian, klasifikasi data
kelulusan mahasiswa UNS menghasilkan model pohon keputusan dengan 16
klasifikasi status lama studi mahasiswa UNS dan diperoleh akurasi dari pohon
keputusan sebesar 80,4 %.

Kata Kunci: Data mining, Klasifikasi, Algoritme C5.0
1. PENDAHULUAN
Universitas Sebelas Maret (UNS) merupakan salah satu lembaga yang
bergerak di bidang pendidikan. Dalam satu tahun, UNS mengadakan 6 periode

wisuda untuk meluluskan mahasiswanya. Setiap periode wisuda, data kelulusan
mahasiswa selalu bertambah. Pertambahan dari akumulasi data kelulusan
mahasiswa ternyata menciptakan kondisi dimana jumlah data semakin banyak
tetapi kurang akan informasi. Data mining dapat digunakan untuk memperoleh
suatu informasi sebagai pertimbangan dalam pengambilan keputusan atau
membantu dalam menentukan strategi pendidikan yang lebih baik. Salah satu
teknik pengolahan data mining adalah klasifikasi. Klasifikasi merupakan bentuk
analisis data yang digunakan untuk membentuk model dari data yang berisi kelaskelas atau untuk memprediksi trend data yang akan datang (Han dan Kamber [1]).
Teknik klasifikasi yang dipilih untuk menganalisis data yang dimiliki adalah
dengan algoritme C5.0. Algoritme C5.0 dapat mengklasifikasikan model
berstruktur pohon (tree) dan aturan (rule-based) (Rulequest [4]). Algoritme C5.0
memiliki keakuratan yang lebih baik dibandingkan algoritme C4.5. Pohon
keputusan yang dibentuk oleh algoritme C5.0 lebih sederhana dibandingkan
1

Implementsasi Data Mining Menggunakan …

G. A. Darmawan, Y. Susanti, Siswanto

dengan algoritme C4.5 (Upadhayay et al. [5]). Oleh karena itu, penulis tertarik

untuk menerapkan teknik data mining menggunakan algoritme C5.0 pada data
kelulusan mahasiswa Universitas Sebelas Maret.
2. DATA MINING
Data mining merupakan proses pencarian pola dalam sejumlah data yang
besar dengan tujuan untuk melakukan klasifikasi, estimasi, prediksi, asosiasi,
klaster, deskripsi dan visualisasi. Data mining merupakan salah satu tahapan
dalam keseluruhan proses Knowledge Discovery in Database (KDD). KDD
adalah proses menentukan informasi yang berguna dalam data, informasi ini
terkandung dalam basis data berukuran besar (Han dan Kamber [1]). Menurut
Larose [2], salah satu teknik data mining berdasarkan tujuan yang dicapai adalah
klasifikasi. Klasifikasi merupakan bentuk analisis data yang dapat digunakan
untuk membentuk model dari data yang berisi kelas-kelas untuk memprediksi
trend data yang akan datang. Menurut Han dan Kamber [1], pohon keputusan
merupakan salah satu teknik yang dapat digunakan untuk melakukan klasifikasi
terhadap sekumpulan objek.
3. ALGORITME C5.0
Algoritme C5.0 adalah salah satu algortitme klasifikasi data mining yang
khususnya diterapkan pada Teknik pohon keputusan. Pemilihan atribut dalam
algoritme C5.0 akan diproses menggunakan information gain. Dalam memilih
atribut untuk memecah objek dalam beberapa kelas harus dipilih atribut yang

menghasilkan nilai information gain tertinggi. Atribut dengan nilai information
gain tertinggi ini dipilih sebagai akar dan yang tertinggi berikutnya menjadi node
cabang. Perhitungan nilai information gain dilakukan hingga semua kasus pada
cabang memiliki kelas. Formula untuk perhitungan nilai entropy (Patil et al. [3])
adalah

2

Implementsasi Data Mining Menggunakan …

S adalah himpunan

G. A. Darmawan, Y. Susanti, Siswanto

,

adalah banyaknya kelas, dan

proporsi kelas. Untuk mendapatkan informasi nilai subset dari atribut


adalah
digunakan

formula

adalah sampel pada kelas

dan subset

dari atribut

. Untuk mendapatkan

nilai information gain, selanjutnya digunakan formula

4. PENGUKURAN KINERJA KLASIFIKASI
Evaluasi model klasifikasi didasarkan pada pengujian untuk memprediksi
objek yang benar dan salah, urutan pengujian ditunjukkan dalam tabel confusion
matrix, (Han dan Kamber [1]). Tabel confusion matrix ditunjukkan pada Tabel 1.
Tabel 1. Confusion Matrix

Classification

Predicted Class
Class = yes
Class = no
Class = yes
True Positive (TP)
False Negative (FN)
Class = no
False Positive (FN)
True Negative (TN)
Akurasi adalah persentase dari total data yang diprediksi secara benar.

Semakin tinggi nilai akurasi maka semakin tinggi ketepatan model pohon
keputusan dalam melakukan proses klasifikasi.
5. METODE PENELITIAN
Pada penelitian ini menggunakan data sekunder mengenai data kelulusan
mahasiswa S1 UNS. Atribut dari data tersebut diantaranya adalah lama studi, jenis
kelamin, fakultas, IPK, dan jumlah SKS. Data diperoleh dari data wisuda UNS [6]
periode Desember 2017. Langkah awal dalam penelitian ini yaitu menyeleksi data

yang telah diperoleh berdasarkan atribut yang dipilih. Langkah selanjutnya
menghitung nilai, information gain. Berikutnya adalah menetapkan atribut dengan
nilai information gain tertinggi sebagai node akar dan atribut dengan nilai
3

Implementsasi Data Mining Menggunakan …

G. A. Darmawan, Y. Susanti, Siswanto

information gain tertinggi berikutnya sebagai node cabang. Proses akan berhenti
apabila semua kasus pada cabang memiliki kelas yang sama. Selanjutnya
membentuk pohon keputusan dan mengintepretasikan hasil pohon keputusan
menjadi aturan klasifikasi. Langkah terakhir melakukan pengujian nilai akurasi
terhadap data yang telah diklasifikasi menggunakan algoritme C5.0.
6. HASIL DAN PEMBAHASAN
6.1. Deskripsi Atribut Data. Pada penelitian ini, data yang digunakan adalah
data kelulusan mahasiswa UNS pada bulan Desember 2017. Atribut yang
digunakan dalam klasifikasi lama studi mahasiswa pada data kelulusan mahasiswa
UNS ini terdiri dari jumlah SKS yang diambil, fakultas, jenis kelamin, dan IPK.
Atribut lama studi mahasiswa UNS dibagi ke dalam 3 kategori yang ditunjukkan

pada Tabel 2 (Dan dkk. [7]), sedangkan pengkategorian atribut SKS, IPK, dan
jenis kelamin ditunjukkan pada Tabel 3. Atribut fakultas terdiri dari 10 kategori
yaitu FIB, FISIP, FH, FEB, FK, FP, FT, FKIP, FMIPA, dan FSRD.
Tabel 2. Kategori Atribut Lama Studi
Lama studi

Kategori

Kode

Jumlah

> 5 Tahun

Terlambat

0

211


> 4-5 Tahun

Tepat waktu

1

928

3.5- 4 Tahun

Cepat

2

41

Tabel 3. Kategori Atribut SKS, IPK, dan Jenis Kelamin

Atribut
SKS


Kategori
= 144
> 144
IPK
= 3
Jenis Kelamin P
L
6.2. Analisis Algoritme C5.0 Berikut

Keterangan
Sama dengan 144 sks
Lebih dari 144 sks
Rendah
Sedang
Tinggi
Perempuan
Laki-laki
adalah penjelasan dalam pembentukan


pohon keputusan menggunakan algoritme C5.0.
1. Menentukan node akar yaitu dengan menghitung nilai information gain dari
setiap atribut. Hasil perhitungan ditunjukkan pada Tabel 4.
4

Implementsasi Data Mining Menggunakan …

G. A. Darmawan, Y. Susanti, Siswanto

Tabel 4. Penentuan Node Akar
Atribut

Information gain

SKS
IPK
Jenis kelamin
Fakultas

0,000222

0,129054
0,030265
0,175869

Berdasarkan Tabel 4, dapat diketahui bahwa atribut fakultas menjadi node
akar karena memiliki nilai information gain tertinggi sebesar 0,175869.
2. Menentukan node cabang. Penentuan node cabang berdasarkan nilai
information gain tertinggi setelah menghapus atribut yang sudah terpilih
sebagai node akar ditunjukkan pada Tabel 5.
Tabel 5. Nilai Information Gain Node Cabang
Atribut

Nilai Information Gain
FISIP

FH

FEB

FK

FP

FT

FKIP

FMIPA

SKS

0,011

0,094 0,108

0

0,283 0,009 0,067

0,197

IPK

0,039

0,078

0

0,056 0,107 0,077

0,302

Jenis kelamin

0,015

0,069 0,494 0,020 0,024 0,091 0,019

0,528

0

Penjelasan dari Tabel 5 ditunjukkan pada poin a, sedangkan untuk
penjelasan hasil perhitungan node pada cabang berikutnya ditunjukkan pada
poin b sampai i.
a. Dari Tabel 5, diketahui bahwa atribut dengan nilai information gain
tertinggi pada node fakultas kategori FISIP, FH, FEB, FK, FP, FT,
FKIP, dan FMIPA secara urut adalah IPK, SKS, jenis kelamin, jenis
kelamin, SKS, IPK, IPK, dan jenis kelamin.
b. Node IPK sedang, fakultas “FISIP” telah mengklasifikasikan data ke
dalam lama studi terlambat. Node selanjutya setelah node IPK tinggi
adalah jenis kelamin. Node selanjutnya setelah node jenis kelamin
adalah SKS, kategori SKS sama dengan 144 dan lebih dari 144 telah
mengklasifikasikan data ke dalam lama studi tepat waktu.
c. Node SKS sama dengan 144, fakultas “FH” telah mengklasifikasikan
data ke dalam lama studi tepat waktu. Node selanjutnya setelah node
5

Implementsasi Data Mining Menggunakan …

G. A. Darmawan, Y. Susanti, Siswanto

SKS lebih dari 144 adalah IPK. Node IPK sedang telah
mengklasifikasikan data ke dalam lama studi terlambat. Node
selanjutnya setelah node IPK tinggi adalah jenis kelamin, kategori
jenis kelamin perempuan dan laki-laki telah mengklasifikasikan data
ke dalam lama studi tepat waktu
d. Node

jenis

kelamin

perempuan,

fakultas

“FEB”

telah

mengklasifikasikan data ke dalam lama studi tepat waktu. Node
selanjutnya setelah node jenis kelamin laki-laki adalah SKS. Node
SKS sama dengan 144 telah mengklasifikasikan data ke dalam lama
studi cepat, sedangkan SKS lebih dari 144 telah mengklasifikasikan
data ke dalam lama studi tepat waktu.
e. Node jenis kelamin baik perempuan ataupun laki-laki fakultas “FK”
telah mengklasifikasikan data ke dalam lama studi tepat waktu.
f. Node SKS lebih dari 144, fakultas “FP” telah mengklasifikasikan data
ke dalam lama studi tepat waktu. Node selanjutnya setelah node SKS
sama

dengan

144

adalah

IPK.

Node

IPK

sedang

telah

mengklasifikasikan data ke dalam lama studi terlambat. Node
selanjutnya setelah node IPK tinggi adalah jenis kelamin, kategori
jenis kelamin perempuan dan laki-laki telah mengklasifikasikan data
ke dalam lama studi tepat waktu.
g. Node IPK sedang fakultas “FT” telah mengklasifikasikan data ke
dalam lama studi terlambat. Node selanjutnya setelah node IPK tinggi
adalah jenis kelamin. Node selanjutnya setelah node jenis kelamin
adalah SKS, kategori SKS sama dengan 144 dan lebih dari 144 telah
mengklasifikasikan data ke dalam lama studi tepat waktu.
h. Node IPK sedang fakultas “FKIP” telah mengklasifikasikan data ke
dalam lama studi terlambat. Node selanjutnya setelah node IPK tinggi
adalah SKS. Node SKS sama dengan 144 telah mengklasifikasikan
data ke dalam lama studi tepat waktu. Node selanjutnya setelah node
SKS lebih dari 144 adalah jenis kelamin, kategori jenis kelamin

6

Implementsasi Data Mining Menggunakan …

G. A. Darmawan, Y. Susanti, Siswanto

perempuan dan laki-laki telah mengklasifikasikan data ke dalam lama
studi tepat waktu.
i. Node

jenis

kelamin

laki-laki

fakultas

“FMIPA”

telah

mengklasifikasikan data ke dalam lama studi terlambat. Node
selanjutnya setelah node jenis kelamin perempuan adalah SKS . Node
SKS sama dengan 144 telah mengklasifikasikan data ke dalam lama
studi tepat waktu. Node selanjtnya setelah node SKS lebih dari 144
adalah IPK, kategori IPK sedang dan tinggi telah mengklasifikasikan
data ke dalam lama studi tepat waktu.
3. Hasil pohon keputusan ditunjukkan pada Gambar 1.

Gambar 1. Pohon Keputusan Lama Studi Mahasiswa UNS
Pohon keputusan yang terbentuk dapat digunakan untuk menentukan
klasifikasi lama studi mahasiswa UNS yang ditunjukkan pada Tabel 6.
Tabel 6. Klasifikasi Status Mahasiswa
No
1
2
3
4
5
6
7
8

Keterangan Klasifikasi
FIB, lama studi tepat waktu
FISIP, lama studi terlambat
FISIP, lama studi tepat waktu
FH, lama studi terlambat
FH, lama studi tepat waktu
FEB, lama studi terlambat
FEB, lama studi cepat
FK, lama studi tepat waktu

No
9
10
11
12
13
14
15
16

7

Keterangan Klasifikasi
FP, lama studi tepat waktu
FP, lama studi terlambat
FT, lama studi terlambat
FT, lama studi tepat waktu
FKIP, lama studi terlambat
FKIP, lama studi tepat waktu
FMIPA, lama studi tepat waktu
FSRD, lama studi tepat waktu

Implementsasi Data Mining Menggunakan …

G. A. Darmawan, Y. Susanti, Siswanto

Berdasarkan Tabel 6, diperoleh hasil bahwa terdapat 16 klasifikasi status
lama studi mahasiswa UNS.
6.3. Pengujian

Akurasi.

Pengujian

akurasi

pada

pohon

keputusan

menggunakan tabel confusion matrix yang ditunjukkan pada Tabel 7.
Tabel 7. Perhitungan Akurasi dengan Confusion Matrix
Correct Classification
Terlambat
Tepat waktu
Cepat

Classified Matrix
Terlambat Tepat waktu
24
187
4
924
0
40

Persentase
Cepat
0
0
1

11,37%
99,57%
2,44%

Berdasarkan Tabel 6, dari 1180 data training secara keseluruhan diperoleh
persentase akurasi sebesar 80,4%.
7. KESIMPULAN
Berdasarkan hasil pembahasan, diperoleh kesimpulan bahwa pohon
keputusan dengan algoritme C5.0 menghasilkan 16 klasifikasi status lama studi
mahasiswa dengan tingkat akurasi sebesar 80,4% sehingga algoritme C5.0 dapat
diterapkan dalam pengklasifikasian data kelulusan mahasiswa UNS.
DAFTAR PUSTAKA
[1]
[2]
[3]

[4]
[5]

[6]

[7]

Han, J. and M. Kamber, Data Mining Concept and Tehniques, Morgan
Kauffman Publishers, San Fransisco, 2006.
Larose, D.T., Discovering Knowledge in Data, John Wiley and Sons, New
Jersey, 2005.
Patil, N.,R. Lathi, and V. Chittre, Customer Card Classification Based on
C5.0 and CART Algorithm, International Journal of Engineering Research
and Applications 12 (2012), no. 4, 164–167.
Rulequest, Data Mining Tools See5 and C5.0, http//rulequest.com/see5comparison.html/ diakses pada Agustus 2017.
Upadhayay, A., S. Shukla, and S. Kumar, Empirical Comparison by Data
Mining Classification Algorithms (C4.5 and C5.0) for Thyroid Cancer Data
Set, International Journal of Computer Science and Communication
Networks 3 (2013), no. 1, 64–68.
Wisuda UNS, Daftar Peserta Wisuda UNS periode Desember 2017,
http://wisuda.uns.ac.id/ diakses pada November 2017.
Dan, T. T. B, S. W. Sihwi, dan R. Anggrainingsih, Implementasi Iterative
Dichotomiser 3 pada Data Kelulusan Mahasiswa S1 di Universitas Sebelas
Maret, Jurnal ITSMART 4 (2015), no. 2, 2301–7201.
8

Dokumen yang terkait

FREKUENSI KEMUNCULAN TOKOH KARAKTER ANTAGONIS DAN PROTAGONIS PADA SINETRON (Analisis Isi Pada Sinetron Munajah Cinta di RCTI dan Sinetron Cinta Fitri di SCTV)

27 310 2

PENILAIAN MASYARAKAT TENTANG FILM LASKAR PELANGI Studi Pada Penonton Film Laskar Pelangi Di Studio 21 Malang Town Squere

17 165 2

APRESIASI IBU RUMAH TANGGA TERHADAP TAYANGAN CERIWIS DI TRANS TV (Studi Pada Ibu Rumah Tangga RW 6 Kelurahan Lemah Putro Sidoarjo)

8 209 2

MOTIF MAHASISWA BANYUMASAN MENYAKSIKAN TAYANGAN POJOK KAMPUNG DI JAWA POS TELEVISI (JTV)Studi Pada Anggota Paguyuban Mahasiswa Banyumasan di Malang

20 244 2

FENOMENA INDUSTRI JASA (JASA SEKS) TERHADAP PERUBAHAN PERILAKU SOSIAL ( Study Pada Masyarakat Gang Dolly Surabaya)

63 375 2

PEMAKNAAN MAHASISWA TENTANG DAKWAH USTADZ FELIX SIAUW MELALUI TWITTER ( Studi Resepsi Pada Mahasiswa Jurusan Tarbiyah Universitas Muhammadiyah Malang Angkatan 2011)

59 326 21

PENGARUH PENGGUNAAN BLACKBERRY MESSENGER TERHADAP PERUBAHAN PERILAKU MAHASISWA DALAM INTERAKSI SOSIAL (Studi Pada Mahasiswa Jurusan Ilmu Komunikasi Angkatan 2008 Universitas Muhammadiyah Malang)

127 505 26

PENERAPAN MEDIA LITERASI DI KALANGAN JURNALIS KAMPUS (Studi pada Jurnalis Unit Aktivitas Pers Kampus Mahasiswa (UKPM) Kavling 10, Koran Bestari, dan Unit Kegitan Pers Mahasiswa (UKPM) Civitas)

105 442 24

PEMAKNAAN BERITA PERKEMBANGAN KOMODITI BERJANGKA PADA PROGRAM ACARA KABAR PASAR DI TV ONE (Analisis Resepsi Pada Karyawan PT Victory International Futures Malang)

18 209 45

STRATEGI PUBLIC RELATIONS DALAM MENANGANI KELUHAN PELANGGAN SPEEDY ( Studi Pada Public Relations PT Telkom Madiun)

32 284 52