707penerapan metode klasifikasi data mining untuk prediksi

Asep, Penerapan Metode Klasifikasi Data … 41

PENERAPAN METODE KLASIFIKASI DATA MINING UNTUK PREDIKSI
KELULUSAN TEPAT WAKTU
Asep Saefulloh 1, Moedjiono 2
1

2

STMIK Raharja, Jl. Jenderal Sudirman No.40 Cikokol Tangerang
Universitas Budi Luhur, Jl. Ciledug Raya, Petukangan Utara, jakarta Selatan
Email : asaefullah@gmail.com1 , moedjiono@bl.ac.id2

ABSTRACT

Raharja University amazingly had alot of data which is it contained in the two database
are Online Absent information (AO) database and Student Information system (SIS)
database. AO database use to manage total grade value index (IMK) with SIS database is
the data source to manage total grade point average (GPA/IPK). The outcome of IMK
and IPK data not yet given a useful information, for estimating on time graduation from
student only gather forcast from IMK and IPK. From that statement we want to do a

research to forcast on time graduation using datamining classification using C4.5
algorithm, Naïve bayes and Neural Network algorithm. While in this research we are
using CRISP-DM research models. From our research the best algoritm result is the
highest algoritm accuracy on classification datamining are C4.5 and Neural Network
within 100% accuracy rate result, while Naïve Bayes reached 99.8878%. All the three of
algoritm are includes on the best classification became they had AUC (Area Under
Curve) grade between 0.90-1.00 so they can be use on graduation on time prediction
application. The data mining algorithm result this research is using C4.5, we designed
interface using engine java which can show on time graduation prediction application
and it can be determine on each study program.
Keywords: Data Mining, IMK, GPA/IPK,CRISP-DM, Prediction

ABSTRAK

Perguruan Tinggi Raharja memiliki kekayaan data yang luar biasa, terdapat pada dua
database yaitu database Absensi on Line (AO) dan database Student Information System
(SIS). Database AO dijadikan pasokan data untuk mengelola Indeks Mutu Kumulatif
Mahasiswa (IMK) sedangkan database SIS merupakan pemasok data untuk pengelolaan
Indeks Prestasi Kumulatif (IPK). IMK dan IPK hanya berupa data belum memberikan
informasi yang bermanfaat, selama ini untuk memperkirakan kelulusan tepat waktu

mahasiswa dengan melihat pengaruh dari IMK dan IPK hanya berupa forecasting.
Berangkat dari permasalahan di atas maka diteliti untuk memprediksi kelulusan tepat
waktu menggunakan metode klasifikasi data mining dengan pemilihan algoritma C4.5,
Naïve Bayes, dan Neural Network, sedangkan untuk desain penelitian menggunakan
model CRISP-DM. Dari penelitian menunjukan bahwa algoritma terbaik adalah
algoritma yang paling tinggi tingkat accuracy pada model klasifikasi yaitu C4.5 dan
Neural Network dengan tingkat accuracy 100% sedangkan Naïve Bayes 99.8878% .
Ketiga algoritma tersebut termasuk klasifikasi sangat baik karena memiliki nilai AUC
(Area Under Curve) antara 0.90-1.00 sehingga dapat dipergunakan untuk aplikasi
prediksi kelulusan tepat waktu. Hasil data mining dari algoritma terpilih dalam
penelitian ini menggunakan C4.5, interface dirancang menggunakan java engine yang
dapat menampilkan prediksi kelulusan tepat waktu beserta jumlah kelulusan tepat waktu
setiap Program Studi.

42. InfoSys Journal, Vol.2 No.1 Februari 2013, hlm. 41 - 54

Kata kunci : Data Mining, IMK, IPK, CRISP-DM, Prediksi

PENDAHULUAN
Terkait dengan salah satu fungsi dari Perguruan Tinggi dalam pendidikan, pengajaran dan

perihal ini menjadi salah satu butir akreditasi yaitu kelulusan tepat waktu bagi mahasiswa. Adanya
informasi kelulusan tepat waktu tentu akan menjadikan suatu pengambilan keputusan yang tepat
bagi manajemen Perguruan Tinggi dalam mengambil langkah strategis. Selama ini Perguruan
Tinggi belum memiliki pola–pola prediksi kelulusan tepat waktu sebagai acuan untuk memprediksi
jumlah lulus tepat waktu. Prediksi kelulusan tepat waktu yang dilakukan saat ini hanya berdasarkan
forecaster dari data IPK (Indeks Prestasi Kumulatif) dan IMK (Indeks Mutu Kumulatif) semester
sebelumnya. Prediksi hampir sama dengan klasifikasi dan estimasi, hanya saja prediksi digunakan
untuk menduga nilai-nilai tertentu yang akan terjadi di masa mendatang [8].
Sementara itu Perguruan Tinggi Raharja mempunyai dataset AO (Absensi Online) dan SIS
(Student Information Services) yang selama ini belum dimanfaatkan secara maksimal. Adalah hal
yang sangat disayangkan jika dataset yang begitu besar tidak dimanfaatkan untuk digali informasi
apa yang terdapat didalamnya. Selain itu, selama ini ada anggapan dari para forecaster Perguruan
Tinggi bahwa untuk memprediksi tingkat kelulusan tepat waktu cukup dengan melihat data IPK
dan IMK sebelumnya. Berangkat dari permasalahan tersebut maka dilakukanlah penelitian ini,
yaitu untuk melakukan klasifikasi data mining terhadap dataset AO, SIS yang sudah tersimpan
dalam database DMQ sehingga didapatkan prediksi kelulusan tepat waktu.
Dalam penelitian untuk memprediksi kelulusan tepat waktu, akan dilakukan komparasi
terhadap tiga algoritma klasifikasi data mining yaitu C4.5, Naïve Bayes dan Neural Network. Data
dari DMQ yang sudah dicleansing akan diproses dengan menggunakan tools Weka, untuk menguji
model pada penelitian ini, digunakan metode Cross Validation, Confusion Matrix, dan kurva ROC

(Receiver Operating Characteristic).

PERMASALAHAN
Dalam melakukan prediksi kelulusan tepat waktu mahasiswa terdapat berbagai macam
permasalahan, diantaranya yaitu bahwa metode prediksi masih menggunakan prinsip
kekeluargaan sehingga dirasakan kurangnya tingkat profesionalisme dalam melakukan prediksi
kelulusan tepat waktu.
Agar lebih terarah dalam melakukan penelitian, maka dirumuskan masalah yang ada sebagai
berikut :
a. Apakah algoritma C4.5, Naïve Bayes, dan Neural Network merupakan algoritma-algoritma
yang dapat digunakan dalam menentukan prediksi kelulusan tepat waktu ?
b. Diantara tiga algoritma yang dibahas dalam penelitian ini yaitu algoritma C4.5, Naïve
Bayes, dan Neural Network, algoritma manakah yang terbaik dalam menentukan prediksi
kelulusan tepat waktu ?
c. Dari algoritma terpilih apakah dapat menampilkan data prediksi hasil klasifikasi datamining
dengan menampilkan kelulusan tepat waktu ?
Penelitian ini menggunakan perangkat lunak Weka (Weikato Environment Knowledge and
Analysis) versi 3.6.4 yang merupakan aplikasi data mining berbasis open source (GPL) dan
berengine Java [2], dengan Graphical User Interface (GUI) menggunakan java.


Asep, Penerapan Metode Klasifikasi Data … 43

METODE PENELITIAN
PROBLEMS
Pemilihan algoritma
yang akurat untuk prediksi
kelulusan tepat waktu

APPROACH
Komparasi Algoritma C4.5,Naïve
Bayes, Neural Network

IMPLEMENTATION
Data mahasiswa untuk IPK dan IMK

DEVELOPMENT
Framework Weka

MEASUREMENT
Cross Validation, Confusion

Matrix, Kurva ROC

RESULT
Algoritma klasifikasi paling
akurat prediksi
kelulusan tepat waktu

Gambar 1. Kerangka Pemikiran Penelitian

Agar akurasi prediksi yang mendekati kebenaran, maka dilakukan aproach dengan
melakukan data mining terhadap database DMQ. Sedangkan approach (model) yang digunakan
yaitu algoritma C4.5, Naive Bayes, dan Neural Network untuk memecahkan permasalahan
kemudian dilakukan pengujian terhadap kinerja dari ketiga metode tersebut.
Pengujian menggunakan metode Cross Validation, Confusion Matrix dan kurva ROC.
Untuk mengembangkan aplikasi (development) berdasarkan model yang dibuat, digunakan tools
data mining Weka, sedangkan untuk desain ekperimennya menggunakan CRISP-DM (Cross
Industry Standard Process for Data Mining).
Langkah-Langkah Penelitian
Penelitian ini didesain dengan menggunakan model CRISP-DM (Cross Industy Standard
Process for Data Mining), dalam metode ini terdapat 6 tahapan [7]:


Gambar 2. Tahap CRISP-DM

Business/Research Understanding Phase

Data diperoleh dari data sekunder berupa database DMQ Perguruan Tinggi Raharja,
dalam penelitian ini akan mengkaji dan membuat model hasil komparasi algoritma C4.5, Naïve
Bayes dan Neural Network untuk menentukan algoritma yang paling akurat dan menghasilkan
rule prediksi kelulusan tepat waktu.

44. InfoSys Journal, Vol.2 No.1 Februari 2013, hlm. 41 - 54

Data Understanding Phase (Fase Pemahaman Data)

Data pada database DMQ pada tahun 2013 sebanyak 5842. Data yang digunakan sebanyak 7
atribut yang digunakan dalam prediksi kelulusan tepat waktu adalah: Nim, Nama Mahasiswa,
Jenjang Pendidikan, Jurusan, IPK, IMK dan Prediksi. Dari 7 atribut 2, predictor yaitu IPK dan
IMK dan 1 attribut tujuan yaitu kelulusan tepat waktu.
Data Preparation Phase (Fase Pengolahan Data)
Dari 5842 data mahasiswa diambil data mahasiswa angkatan 2009 dan 2010 dengan

pertimbangan sudah melewati semester II (tingkat stabilitas dalam menghadiri perkuliahan sudah
tinggi) dan masih ada semester yang mereka akan tempuh (untuk memprediksi kelulusan tepat
waktu). Setelah melakukan query terhadap database DMQ maka diperoleh 891 record yang akan
diolah oleh Weka. Untuk selanjutnya dilakukan teknik preprocessing agar kualitas data yang
diperoleh lebih baik [10].
Modeling Phase (Fase Pemodelan)
Pada tahapan ini merupakan tahapan pemrosesan data training yang diklasifikasikan oleh
model dan kemudian menghasilkan sejumlah aturan. Pada penelitian ini menggunakan tiga
algoritma yaitu algoritma C4.5, Naïve Bayes dan Neural Network.
Evaluation Phase (Fase Evaluasi)
Pada fase ini dilakukan pengujian terhadap model-model yang bertujuan untuk mendapatkan
model yang paling akurat. Evaluasi dan validasi dilakukan menggunakan metode Confusion Matrix
dan kurva ROC (Receiver Operating Characteristic).
Deployment Phase (Fase Penyebaran)
Setelah pembentukan model selanjutnya dilakukan analisa dan pengukuran pada tahap
sebelumnya, pada tahap ini diterapkan model atau rule yang paling akurat dalam prediksi
kelulusan tepat waktu dan selanjutnya dapat digunakan untuk mengevaluasi data baru.

PEMBAHASAN
Penelitian ini bertujuan untuk membandingkan tingkat akurasi yang dihasilkan oleh teknik

atau model data mining yaitu algoritma C4.5, Naïve Bayes, dan Neural Network dalam melakukan
prediksi terhadap kelulusan tepat waktu. Selain itu juga menjabarkan algoritma C4.5, Naïve
Bayes, dan Neural Network kedalam rule serta menerapkan algoritma C4.5, Naïve Bayes, dan
Neural Network dalam menentukan prediksi kelulusan tepat waktu.
Kajian Pustaka
Naïve Bayes, yang juga disebut idiots Bayes, simple Bayes, dan independence
Bayes, adalah metode yang baik karena mudah dibuat, tidak membutuhkan skema estimasi
parameter perulangan yang rumit, ini berarti bisa diaplikasikan untuk data set berukuran besar
[11]. Klasifikasi Bayes juga dikenal dengan Naïve Bayes, memiliki kemampuan sebanding
dengan dengan pohon keputusan dan neural network [4]. Mudah diinterpretasikan sehingga
pengguna yang tidak punya keahlian dalam bidang teknologi klasifikasi pun bisa mengerti.
Efektifitas metode Naïve Bayes dan perbandingan empiris lebih jauh, dengan hasil yang sama
terdapat pada Domingos dan Pazzani (1997) [11]. Klasifikasi Bayes adalah pengklasifikasian
statistik yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu kelas [5].
Klasifikasi Bayes didasarkan pada teorema Bayes, diambil dari nama seorang ahli matematika
yang juga menteri Prebysterian Inggris, Thomas Bayes (1702-1761)[1].
Neural network dikenal dengan nama lain yaitu Jaringan Syaraf Tiruan (JST), Artificial
Neural Nerwork (ANN), disebut juga Simulated Neural Network (SNN), atau biasanya hanya
disebut Neural Network (NN). Neural Network (NN) adalah jaringan dari sekelompok unit
pemroses kecil yang dimodelkan berdasarkan susunan syaraf manusia. JST atau neural network

merupakan sistem adaptif yang dapat merubah strukturnya untuk memecahkan masalah
berdasarkan informasi eksternal maupun internal yang mengalir melalui jaringan tersebut. Secara
sederhana, neural network adalah alat pemodelan untuk memodelkan hubungan yang kompleks
antara input dan output untuk menemukan pola-pola pada data. Pengertian lain Neural network
adalah satu set unit input/output yang terhubung dimana tiap relasinya memiliki bobot [4]. Neural

Asep, Penerapan Metode Klasifikasi Data … 45

Network dimaksudkan untuk mensimulasikan perilaku sistem biologi susunan syaraf manusia,
yang terdiri dari sejumlah besar unit pemroses yang disebut neuron, yang beroperasi secara
paralel. Neuron mempunyai relasi dengan synapse yang mengelilingi neuron-neuron lainnya.
Susunan syaraf tersebut dipresentasikan dalam neural network berupa graf yang terdiri dari simpul
(neuron) yang dihubungkan dengan busur, yang berkorespondensi dengan synapse. Sejak tahun
1950-an, neural network telah digunakan untuk tujuan prediksi, bukan hanya klasifikasi tapi
juga untuk regresi dengan atribut target kontinu [10].
C4.5 adalah algoritma decision tree yang dibuat oleh J.R. Quinlan. J48 adalah paket C4.5
yang terdapat di WEKA.
Secara umum pendekatan untuk membuat decision tree adalah :
1. Memilih atribut yang paling membedakan dalam menentukan output.
2. Buatlah cabang yang terpisah untuk setiap value atribut tersebut.

3. Membagi instances kedalam sub grup yang merefleksikan nilai atribut dari node yang dipilih.
4. Untuk setiap sub grup, hentikan proses pemilihan atribut jika :
a. Semua anggota dari sub grup mempunyai nilai output yang sama, hentikan proses pemilihan
atribut untuk current path dan berilah label dengan nilai yang spesifik.
b. Sub grup yang berisi single node atau tidak ada atribut sebagai pembeda dapat dihentikan.
Seperti di poin a, label pada cabang tersebut adalah sisa dari atribut yang mempunyai bagian
lebih besar.
Lakukan proses diatas untuk setiap sub grup yang terpilih pada proses nomor 3 yang belum
berhenti.

Algoritma C4.5/J48
Langkah-langkah untuk membuat algoritma C.45 dengan memakai data training yang
berjumlah 891 data , yaitu [5]:
a. Siapkan data training. Data training yang digunakan dalam penelitian ini berjumlah 891
record.
b. Hitung nilai entropy.
Setelah dilakukan perhitungan entropy dengan menggunakan rumus sebagai berikut:

=
`

= 0.289506617

c. Setelah itu, hitung nilai gain untuk setiap atribut, lalu pilih nilai gain yang tertinggi. Nilai gain
tertinggi itulah yang akan dijadikan akar dari pohon. Misalkan, untuk atribut IPK, akan didapat
gain :

=
Dari hasil perhitungan entropy dan gain, terlihat bahwa atribut status mempunyai nilai
gain tertinggi yaitu 0.540872042. Oleh karena itu, nilai status merupakan simpul akar pada pohon
keputusan. Berikut hasil perhitungan entropy dan gain pada Tabel 1. Dalam algoritma ini
diberlakukan pruning, pruning yang digunakan yaitu Pre-pruning untuk menghentikan
pembangunan suatu subtree lebih awal. Saat seketika berhenti, maka node berubah menjadi leaf
(node akhir).

46. InfoSys Journal, Vol.2 No.1 Februari 2013, hlm. 41 - 54

Tabel 1. Hasil Nilai Entropy Dan Gain Untuk Menentukan Simpul Akar
Jumlah
Data
IPK

Lulus tepat
waktu

Lulus tdk tepat
waktu

Entropy

Gain

891

729

162

0.289506617

>=3.7

13

13

0

0

>=2.7

502

502

0

0

>=2.0

214

214

0

0

=3.7

88

88

0

0

>=2.7

723

629

94

0.20093563

>=2.0

79

12

67

2.718818247

= 3.7 THEN Lulus tepat waktu
b.
IPK adalah >= 2.7 THEN Lulus tepat waktu
c.
IPK adalah >= 2.0 THEN Lulus tepat waktu
d.
IPK adalah =3.7

13

13

0

0.01783

0

>=2.7

502

502

0

0.68861

0

>=2.0

214

214

0

0.29355

0

=3.7

88

88

0

0.12071

0

>=2.7

723

629

94

0.86283

0.580247

>=2.0

79

12

67

0.01646

0.41358