Kata kunci: prediksi, masa studi, data mining, algoritmeC4.5 PENDAHULUAN - IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITME C4.5 (STUDI KASUS: JURUSAN TEKNIK INFORMATIKA, INSTITUT SAINS & TEKNOLOGI AKPRIND YOGYAKARTA)

Jurnal SCRIPT Vol. 5 No. 1 Desember 2017

ISSN: 2338-6304

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA
MENGGUNAKAN ALGORITME C4.5 (STUDI KASUS: JURUSAN TEKNIK INFORMATIKA,
INSTITUT SAINS & TEKNOLOGI AKPRIND YOGYAKARTA)
Dwi Asih Sapta Arga1, Uning Lestari2, Edy Sutanta3
1,2,3Teknik

Informatika, Fakultas Teknologi Industri, IST AKPRIND Yogyakarta
[email protected], [email protected], [email protected]

ABSTRACT
Prediction modeling is one model of data mining that can be applied to predict the study
period of students. One of the algorithms that can be applied in prediction modeling is C4.5. Using
the C4.5 algorithm, the Study Program can predict a student's study period based on existing
case data. The data of the case can be the number of credits that have been taken at semester
7, the student's GPA during semester 7, the concentration course taken by the students and the
origin of the study program students can know what factors affect the study period of the students,
and expected to predict the time Study of a student.

Based on the evaluation of the software built, the C4.5 algorithm is able to classify students
into predefined classes with error value of 27.75% and 72,25% accuracy.
Keywords: prediction, study period, data mining, algorithm C4.5
INTISARI
Pemodelan prediksi merupakan salah satu model data mining yang dapat diterapkan untuk
memprediksi masa studi mahasiswa. Salah satu algoritme yang dapat diterapkan dalam
prediction modelling adalah C4.5. Dengan menggunakan algoritmeC4.5, Program Studi dapat
memprediksi masa studi mahasiswa berdasarkan data kasus yang sudah ada.Data kasus
tersebut dapat berupa jumlah SKS yang sudah ditempuh saat semester 7, IPK mahasiswa saat
semester 7, matakuliah konsentrasi yang diambil mahasiswa dan asal sekolah mahasiswa
Program Studi dapat mengetahui faktor-faktor apa saja yang mempengaruhi masa studi
mahasiswa, dan diharapkan dapat memprediksi waktu masa studi seorang mahasiswa.
Berdasarkan hasil evaluasi terhadap perangkat lunak yangdibangun, algoritme C4.5
mampu mengklasifikasikan mahasiswa ke dalam kelas-kelasyang telah ditentukan sebelumnya
dengan nilai error 27.75% dan nilai akurasi 72,25%.
Kata kunci: prediksi, masa studi, data mining, algoritmeC4.5
PENDAHULUAN
Pada saat ini perguruan tinggi dituntut untuk memiliki kualitas dan keunggulan bersaing
yang tinggi. Pada tahun 2015 Kementrian Riset, Teknologi, dan Pendidikan Tinggi
(Kemenristekdikti) menetapkan 5 indikator yang digunakan untuk mengklasifikasi dan

menentukan peringkat perguruan tinggi di Indonesia yaitu kualitas dosen (12%), kecukupan
dosen (18%), kualitas manajemen (30%), kualitas kegiatan kemahasiswaan (10%), dan kualitas
kegiatan penelitian (30%). Rata-rata rasio lama studi aktual terhadap lama studi menurut
kurikulum pada satu periode menjadi salah satu aspek dalam penilaian kualitas manajemen suatu
perguruan tinggi (SK KemenristekdiktiNomor 492.a/M/KP/VIII/2015).
Salah satu tujuan Program Studi Teknik Informatika adalah mahasiswa dapat menguasai
dasar-dasar ilmiah dan ketrampilan di bidang teknik informatika sehingga mampu memahami,
menjelaskan, menganalisis, merumuskan cara penyelesaian masalah dan memiliki ketrampilan
yang diperlukan untuk melaksanakan tugas pekerjaan dan praktek dalam kawasan keahlian
Teknik Informatika.Dalam melaksanakan kewajibannya, Program Studi dapat memanfaatkan
teknik data mining untuk membantu dalam memantau dan mengevaluasi perkembangan
mahasiswa. Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan
pengetahuan di dalam database.
Prediction modelling merupakan salah satu modeldata mining yang dapat diterapkan untuk
memprediksi apakah seorang mahasiswa memiliki kecenderungan untuk lulus tepat waktu atau

17

Jurnal SCRIPT Vol. 5 No. 1 Desember 2017


ISSN: 2338-6304

tidak. Salah satu algoritme yang dapat diterapkan dalam prediction modelling adalah
algoritmeC4.5. Algoritme C4.5 digunakan untuk membentuk pohon keputusan untuk mengubah
fakta yang sangatbesar menjadi pohon keputusan yang mempresentasikan aturan. Pohon
keputusan jugaberguna untuk mengeksplorasi data, menemukan hubungan tersembunyi
antarasejumlah calon variabel input dengan sebuah variabel target (Kusrini & Luthfi, 2009).
Kelebihan algoritme C4.5 dapat menghasilkan pohon keputusan yang mudah diinterprestasikan,
memiliki tingkat akurasi yang dapat diterima, efsien dalam menangani atribut bertipe diskret dan
dapat menangani atribut bertipe diskret dan numerik (Han, Kamber, & Pei, 2012). Dengan
menggunakan algoritmec4.5, Program Studi dapat memprediksi masa studi dari seorang
mahasiswa berdasarkan data kasus yang sudah ada.Dengan memanfaatkan data kasusberupa
data jumlah SKS yang sudah ditempuh saat semester 7, IPK mahasiswa saat semester 7,
matakuliah konsentrasi yang diambil mahasiswa dan asal sekolah mahasiswa. Program Studi
dapat mengetahui faktor-faktor apa saja yang mempengaruhi masa studi mahasiswa, dan
diharapkan dapat memprediksi waktu masa studi seorang mahasiswa.
Berdasarkan latar belakang tersebut, penelitian Skripsi ini akan membangun sebuah
aplikasi data mining dengan judul “Implementasi Data Mining untuk Memprediksi Masa Studi
Mahasiswa Menggunakan ALGORITME C4.5 (Studi Kasus: Program Studi Teknik
Informatika, INSTITUT SAINS & TEKNOLOGI AKPRIND YOGYAKARTA)” untuk membantu

Program Studi dalam memantau dan mengevaluasi perkembangan studi mahasiswa.
Manfaat dari penelitian ini adalah dapat memprediksi waktu masa studi mahasiswa, dan
dapat melakukan tindakan pencegahan terhadap mahasiswa yang memiliki kecendrungan
menyelesaikan studi tidak tepat waktu dan diharapkan memudahkan Program Studi dalam
mengawasi dan mengevaluasi perkembangan studi mahasiswa.
TINJAUAN PUSTAKA
Penelitian ini menggunakan beberapa referensi yang berhubungan dengan pembahasan
aplikasi transliterasi. Referensi diambil dari buku yang berhubungan dengan penelitian dan
literature atau hasil penelitian yang telah dilakukan seperti:
Penelitian sentiment analysis dengan memanfaatkan data saran kuesioner
menggunakan metode Naive Bayes Classifier (NBC) pernah dilakukan oleh (Hamzah, 2014).
Dalam penelitian tersebut, peneliti memanfaatkan teknik data mining untuk menganalisis opini
mahasiswa dalam evaluasi pembelajaran menggunakan metodeNBC. Penelitian tersebut
bertujuan melakukan kajianpenerapan teknik sentiment analysis untuk menganaliasa data
saran/opini mahasiswa, sehinggasaran-saran dan opini tersebut dapat dimanfaatkan untuk
mendukung hasil evaluasi menggunakan skorkuesioner. Aplikasi data mining dalam
penelitiantersebut menggunakan jenis pemrograman dekstop dengan bahasa pemrograman
Java.
Penelitian (Meinanda, Annisa, Muhandri, & Suryadi, 2009)membahas prediksi masa studi
mahasiswa dengan menggunakan algotitme Artifical Neural Ntwork (ANN) dengantujuan untuk

menentukan faktor akademis yang berpengaruh terhadap masa studi dan membangun model
prediksi menggunakan teknik data mining. Kriteria pemilihan model yang digunakan adalah
meminimalkan Sum Square Error (SSE).Dalampenelitian tersebut ditemukan bahwa lama masa
studi dipengaruhi oleh Indeks Prestasi Kumulatif (IPK), jumlah mata kuliah yang diambil, jumlah
mata kuliah mengulang, dan jumlah pengambilan mata kuliah tertentu.
Analisis dan penerapan algoritme c4.5 dalam data mining untukmemprediksi masa studi
mahasiswa berdasarkan data nilai akademik juga pernah dilakukan oleh (Ginting, Zarman, &
Hamidah, 2014). Dalam penelitian tersebut, data yang dimanfaatkan adalah nilai akademik
mahasiswa yang sudah lulus (yang digunakan sebagai data kasusdan data testing) dan data nilai
akademik mahasiswa yang belumlulus atau sedang menempuh studi (yang digunakan untuk
memprediksi masa studimasing-masing mahasiswa). Hasil dari penelitian tersebut adalah
persentase kecocokan hasil pengujian yang didapatkan dari 112 data kasuslebih kecil
dibandingkan dengan pengujian menggunakan 70 data kasus untuk berapapun kombinasi atribut.
Hal ini juga terjadi pada semuakonfigurasi atribut, yaitu persentase kecocokan hasil pengujian
menggunakan 112 data kasus lebih kecil dibandingkan dengan pengujian menggunakan 70 data
kasus.
Penelitian(Ma’ruf, 2013)menerapkan teknik data mining untuk mecari hubungan anatara
proses masuk dengan tingkat kelulusan mahasiswa di STMIK AMIKOM Yogyakarta. Penelitian

18


Jurnal SCRIPT Vol. 5 No. 1 Desember 2017

ISSN: 2338-6304

ini bertujuan menemukan hubungan antara proses masuk dengan tingkat kelulusan yang
sebelumnyatersembunyi di dalam gudang data sehingga menjadi informasi yang berharga dan
bermanfaat bagi kampus STMIK AMIKOM Yogyakarta supaya dapat mengetahuitingkat
kelulusan mahasiswanya dan faktor yang mempengaruhi tingkat kelulusan. Hasil dari proses data
mining ini dapat digunakan sebagai pertimbangandalam mengambil keputusan lebih lanjut
tentang faktor yang mempengaruhitingkat kelulusan,khususnya faktor dalam data induk
mahasiswa. Denganmengggunakanaplikasi tersebut, maka akan didapatkaninformasi tentang
keberhasilan proses masuk mahasiswa berdasarkan faktor asal daerah, asal sekolah, nama
sekolah, dan ProgramStudi mahasiswa. Dari atribut Program Studi dapat diketahuiProgram Studi
yang diunggulkan dan dianggap berhasil dalammencetak lulusan mahasiswa di STMIK AMIKOM
Yogyakarta.
Beberapa landasan teori tersebut meliputi konsep dasar dan definisi-definisi yang
berkaitan dengan perangkat lunak yang digunakan serta faktor-faktor pendukung dalam
pelaksanaan perancangannya, antara lain:
1. Data Mining

Secara sederhana,data mining adalah penambangan atau penemuan informasibaru
dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar. Data
mining juga disebut sebagai serangkaian proses untukmenggali nilai tambah berupa
pengetahuan yang selama ini tidak diketahui secaramanual dari suatu kumpulan
data(Pramudiono, 2017).
2. Pohon Keputusan
Pohon Keputusan juga berguna untuk mengeksplorasi data,menemukan hubungan
tersembunyi antara sejumlah calonatribut input dengan sebuah atribut target. Sebuah
pohon keputusan adalah sebuah struktur yangdapat digunakan untuk membagi
kumpulan data yangbesar menjadi himpunan-himpunan record yang lebih kecildengan
menerapkan serangkaian aturan keputusan.Dengan masing-masing rangkaian
pembagian, anggotahimpunan hasil menjadi mirip satu dengan yang lain(Kusrini & Luthfi,
2009).
3. Algoritme C4.5
AlgoritmeC4.5 merupakan salah satu algoritmeyang digunakan untukmembentuk pohon
keputusan. Secara umum tahapan dalam algoritmeC4.5 untuk membangun
pohonkeputusan ada beberapa tahapan yaitu pilih node sebagai akar, buat cabang untuk
masing-masing nilai, bagi kasus dalam cabang dan ulangi proses untuk masing-masing
cabang sampai semua kasus pada cabang memiliki kelas yang sama(Kusrini & Luthfi,
2009)

METODOLOGI PENELITIAN
Lokasi/objek penelitian Skripsi ini dilakukan diInstitut Sains & Teknologi AKPRIND
Yogyakarta yang terletak di Jl. Kalisahak No.28 Komplek Balapan Yogyakarta.
Bahan-bahan yang digunakan sebagai penunjang dalam penelitian ini adalah
sebagai berikut:
a. Data induk mahasiswa.
b. Data IPK mahasiswa saat semester 7 serta data matakuliah konsentrasi yang diambil
mahasiswa.
c. Data masa studi mahasiswa pada tahun angkatan 2007 s/d 2012 (data kasus).
Pengumpulan data yang dilakukan dalam penelitian inimenggunakan metode sebagai
berikut:
a. Metode observasi
Metode ini digunakan untuk pengumpulandata induk mahsiswa dan data mahasiswa
yang telah menyelesaikan masa studi di Institut Sains & Teknologi Akprind Yogyakarta.
Data yang tekumpul digunakan sebagai data uji pada aplikasi yang dikembangkan.
b. Studi kepustakaan/literatur
Metode ini digunakan dalam pengumpulan data pustaka danbahan-bahan penelitian
yang dibutuhkan.
c. Simulasi


19

Jurnal SCRIPT Vol. 5 No. 1 Desember 2017

ISSN: 2338-6304

Simulasi dilakukan dengan cara menjalankan aplikasi yang dikembangkan
menggunakan data uji dengan tujuan untuk memperoleh data hasil pengujian berupa
tingkat akurasi yang dihasilkan dari proses mining.
Perancangan sistem dibuat menggunakan UML (Unified ModelingLanguage).Gambar 1
merupakan use case diagram dari aplikasi data minig. Diagram memiliki dua actor yang
berhubungandengan fungsi sistem, yaitu Admin dan Ketua Program Studi.
uc Use Case Model
Aplikasi Data Mining C4.5

Mengolah data Kasus

«extend»
Melakukan Proses
Mining


Melakukan Training
Data

«extend»

«extend»
Analisis Data Kasus
Ketua Program Studi

«include»
Admin

Melakukan Login

«include»

«include»

Melakukan Logout


«include»
«include»
Melihat Informasi
Pola Aturan

Melakukan Prediksi
Masa Studi
Melakukan Ev aluasi
Pola Aturan
Melihat Hasil Ev aluasi
Pola Aturan

«extend»

Gambar 1 Use Case Diagram Aplikasi Data Mining C4.5
PEMBAHASAN
Pada preancangan database terdapat 8 tabel yaitu kasus, predikis, kerja, atribut, tree, user,
sub_kerja, testing. Perancangan database aplikasi data mining ini ditunjukkan pada Gambar 2.

Gambar 2 Rancangan Database Aplikasi Data Mining C4.5

20

Jurnal SCRIPT Vol. 5 No. 1 Desember 2017

ISSN: 2338-6304

Hasil implementasi perancangan antarmuka halaman mengolah data kasus ditunjukan
pada Gambar 3. Pada halaman ini admin dapat melihat atau mengunggah data kasus mahasiswa
yang nantinya akan diproses mining oleh aplikasi.

Gambar 3 Halaman Mengolah Data Kasus
Hasil implementasi perancangan antarmuka halaman proses mining ditunjukan pada
Gambar 4. Pada halaman ini admin dapat memulai proses mining terhadap data kasus dengan
mengklik tombol ‘Mulai Proses’.

Gambar 4 Halaman Proses Mining
Hasil implementasi perancangan antarmuka halaman pola aturan ditunjukan pada Gambar
5. Pada halaman ini user dapat melihat pola aturan yang dihasilkan dari proses mining yang telah
dilakukan sebelumnya.

Gambar 5 Halaman Pola Aturan
Hasil implementasi perancangan antarmuka halaman hasil evaluasi pola aturan ditunjukan
pada Gambar 6. Pada halaman ini admin dapat melihat hasil evaluasi pola aturan yaitu berupa
tingkat akurasi dan error rate yang nantinya dapat digunakan untuk mengukur tingkat kualitas
pola aturan yang dihasilkan.

21

Jurnal SCRIPT Vol. 5 No. 1 Desember 2017

ISSN: 2338-6304

Gambar 6 Halaman Hasil Evaluasi Pola Aturan
Hasil implementasi perancangan antarmuka halaman prediksi masa studi mahasiswa
ditunjukan pada Gambar 7.

Gambar 7 Halaman Prediksi Masa Studi
Kemudian dalam tahap selanjutnya akan dilakukan evaluasi terhadap pola aturan. Evaluasi
pola aturan ditujukan untuk mengukur tingkat kesesuaian antara hasil klasifikasi terhadap data
kasus dengan hasil klasifikasi menggunakan pola aturan yang dibentukalgoritmec4.5. Adapun
evaluasiyang dilakukan menggunakan k-fold cross validation dengan nilai k = 6. Cross Validation
adalahteknik validasi dengan membagi data secaraacak kedalam k bagian dan masingmasingbagian akan dilakukan proses klasifikasi (Han, Kamber, & Pei, 2012).Berikut adalah
kombinasi fold yang digunakan dapat dilihat pada Tabel 1.

Evaluasi Ke1
2
3
4
5
6

Tabel 1 Kombinasi Fold Cross Validation
Data Testing
Data Kasus
2007
2008 s/d 2012
2008
2007, 2009, 2010,2011,2012
2009
2007,2008,2010,2011,2012
2010
2007,2008,2009,2011,2012
2011
2007,2008,2009,2010,2012
2012
2007 s/d 2011

Berdasarkan hasil evaluasi yang dilakukan terhadap pola aturan yang dibangun maka
didapat hasil perbandingan tingkat akurasi dan tingkat error yang didapat dilihat pada Tabel 2.

22

Jurnal SCRIPT Vol. 5 No. 1 Desember 2017

ISSN: 2338-6304

Tabel 2 Perbandingan Tingkat Error dan Tingkat Akurasi
Hasil Pengujian
Data Evaluasi
Tingkat Akurasi
Tingkat Error
Evaluasi Ke-1
82.00%
18.00%
Evaluasi Ke-2
77.08%
22.92%
Evaluasi Ke-3
52.94%
47.06%
Evaluasi Ke-4

64.00%

36.00%

Evaluasi Ke-5

69.05%

30.95%

Evaluasi Ke-6

88.46%

11.54%

Rata-Rata

72.25%

27.75%

Berdasarkan hasil evaluasi yang dilakukan terhadap perangkat lunak yangdibangun, dapat
ditarik kesimpulan bahwa pola aturan yang dibangunalgoritme C4.5 mampu mengklasifikasikan
mahasiswa ke dalam kelas-kelasyang telah ditentukan sebelumnya dengan nilai error sebesar
27.75% dan nilai akurasi diatas 50% yaitu 72.25%.
Dalam penelitian ini, pola aturan yang berhasil diekstrak sebanyak 22 pola aturan, dengan
17 pola aturan mengelompokkan data ke klass ‘> 4.6 th’, dan 5 pola aturan mengelompokkan
data ke klas ‘ 4.6 th’, dan 5 pola aturan
mengelompokkan data ke klas ‘