Seminar Teknologi dan Rekayasa SENTRA 20

Seminar Teknologi dan Rekayasa (SENTRA) 2015
ISBN: 978-979-796-238-6

EDUCATIONAL DATA MINING UNTUK
MENGETAHUI POLA MINAT KERJA MAHASISWA
Daniel Swanjaya1, Abidatul Izzah2
1. Universitas Nusantara PGRI Kediri / Kediri
2. Universitas Nusantara PGRI Kediri / Kediri
Kontak Person:
Daniel Swanjaya1, Abidatul Izzah2
1,2
Kampus 2 : Jl Ds. Mojoroto Gang 1
1,2
Kediri, 64112
1
E-mail: swanjayadaniel@yahoo.com, 2aza.syaifa@gmail.com

Abstrak
Educational Data Mining adalah disiplin ilmu yang berkaitan dengan pengembangan metode untuk
mempelajari data yang berasal dari dunia pendidikan sehingga dapat lebih memahami karakter siswa
maupun mahasiswa. Dalam hal ini, EDM digunakan untuk memprediksi minat dan bakat kerja yang

dimiliki oleh mahasiswa. Sejatinya masa perkuliahan sangat mencerminkan minat pekerjaan
mahasiswa. Namun dalam kenyataannya masih banyak mahasiswa yang tidak memahami secara
persis minat dan bakatnya meski sudah sampai pada tingkat akhir perkuliahan. Di sisi lain, secara
tidak langsung minat dan bakat mahasiswa tercermin pada nilai akademik yang diperoleh. Oleh
karena itu, paper ini mencoba menemukan pola minat dan bakat mahasiswa terhadap dunia kerja
dengan menggunakan Decision Tree. Data yang digunakan dalam paper ini adalah data nilai 8 mata
kuliah wajib dari 42 alumni jurusan S1 Matematika. Sedangkan lapangan kerja yang tersedia meliputi
Pengajar, Pegawai, dan Enterpreuner. Hasil percobaan menunjukkan bahwa Decision Tree dapat
membentuk sebuah pola minat dan bakat mahasiswa terhadap dunia kerja. Hasil evaluasi classifier
ini menunjukkan nilai AUC diatas 0.9 untuk masing-masing profesi.
Kata kunci: Decision Tree, Educational Data Mining, Minat Kerja, Prediksi

Pendahuluan
Dalam pengembangannya, konsep dan metode Data Mining dapat diterapkan dalam berbagai
bidang, misalnya pemasaran, pasar saham, manajemen, teknik, kedokteran, pendidikan, dll. Salah satu
cabang Data Mining di bidang pendidikan yang sering disebut dengan Educational Data Mining
(EDM). EDM merupakan teknik yang dapat diterapkan pada semua data yang terkait dengan bidang
pendidikan. EDM merupakan proses transformasi data mentah yang tersimpan di sistem informasi
pendidikan yang dapat digunakan untuk mengambil sebuah keputusan atau informasi[1]. EDM
ditujukan untuk mempelajari data yang tersedia di bidang pendidikan dan menerjemahkan knowledge

tersembunyi dari data tersebut. Metode klasifikasi seperti Decision Tree, Association Rule, atau Naïve
Bayes dapat diterapkan pada saat menggali data pendidikan[2].
Beberapa kasus pendidikan yang dapat diselesaikan menggunakan EDM antara lain
memprediksi nilai yang akan diperoleh siswa[2][3], memprediksi penerima beasiswa[4], memprediksi
kemungkinan drop out[5], atau memprediksi jumlah mahasiswa pengikut mata kuliah[6]. Kemampuan
prediksi ini akan membantu dosen maupun guru untuk mengidentifikasi siswa yang lemah dan pada
akhirnya akan membantu mereka memecahkan masalah yang mungkin dihadapi[2]. Pemodelan
masalah dalam EDM layaknya masalah penggalian data umumnya yang terdiri dari sejumlah record
yang memiliki beberapa fitur. Misalnya pada kasus prediksi penerima beasiswa, fitur yang digunakan
antara lain nilai semester, peringkat kelas, prestasi akademik non akademik, jumlah SKS yang diambil
atau keterlibatan dengan kegiatan kurikulum[4].
Data EDM sering kali dikaitkan dengan nilai di bidang akademik dan non akademik. Namun
masih sedikit yang mengaitkan prestasi akademik tersebut dengan keberhasilannya memasuki dunia
kerja. Di sisi lain, sejatinya nilai akademik di saat perkuliahan sangat mencerminkan minat pekerjaan
mahasiswa. Namun dalam kenyataannya masih banyak mahasiswa yang tidak memahami secara persis
minat dan bakatnya meski sudah sampai pada tingkat akhir perkuliahan. Oleh karena itu, paper ini
mencoba memanfaatkan EDM untuk menemukan pola minat dan bakat mahasiswa terhadap dunia
SENTRA

I-1


Seminar Teknologi dan Rekayasa (SENTRA) 2015
ISBN: 978-979-796-238-6

kerja. Metode yang akan digunakan adalah Decision Tree. Data yang digunakan dalam paper ini
adalah data nilai 8 mata kuliah wajib dari 42 alumni jurusan S1 Matematika Universitas Airlangga.
Sedangkan lapangan kerja yang tersedia meliputi Pengajar, Pegawai, dan Enterpreuner. Dengan
demikian, diharapkan dengan mengetahui kemampuan mahasiswa di bidang akademik, profesi yang
cocok untuk mahasiswa tersebut dapat diprediksi.

Metode Penelitian
Proses penggalian data dimulai dari pengumpulan data. Data diambil dari 42 alumni jurusan S1
Matematika Universitas Airlangga yang telah lulus & bekerja. Lapangan pekerjaan yang umum bagi
sarjana sains di bidang matematika antara lain pegawai bank, pegawai perusahaan swasta, PNS,
pengusaha, pedagang, guru, tentor, dan dosen. Dalam paper ini, lapangan pekerjaan tersebut
dikelompokkan menjadi tiga kategori yakni Enterpreuner, Pegawai, dan Pengajar. Lebih lanjut
pembagian lapangan pekerjaan dapat dilihat pada Tabel 1.
Tabel 1 Profesi Sarjana Matematika

Kategori

Enterpreuner

Jenis Pekerjaan
Pengusaha, Pedagang

Pegawai

Pegawai Bank, Pegawai Perusahaan Swasta, PNS

Pengajar

Guru, Tentor, Dosen

Data alumni tersebut dilengkapi dengan data nilai akademik yang diperoleh saat masih kuliah.
Mata kuliah yang dijadikan pertimbangan antara lain mata kuliah Kalkulus 1, Analisis Real (Anreal) 1,
Aljabar Linear Elementer (ALE), Aljabar Linear (Alin), Statistika 1, Statistika Komputasi (Statkom),
Algoritma Pemrograman (Alpro), dan Ilmu Sosial Budaya Dasar (ISBD). Mata kuliah tersebut
merupakan beberapa mata kuliah dasar di tingkat dasar dan beberapa mata kuliah lanjutan di masingmasing konsentrasi bidang yang ditempuh di tingkat atas. Pembagian konsentrasi bidang tersebut
dapat dilihat di Tabel 2. Delapan fitur mata kuliah ini dipilih karena mata kuliah tersebut merupakan
mata kuliah wajib yang pasti ditempuh oleh seluruh mahasiswa Jurusan S1 Matematika. Dengan

demikian, diharapkan dengan mengetahui kemampuan mahasiswa di bidang akademik, profesi yang
cocok untuk mahasiswa tersebut dapat diprediksi. Bobot fitur yang dipakai berupa data ordinal yakni,
A, AB, B, BC, C, D, dan E yang memiliki bobot nilai indeks prestasi 0 s.d 4 dalam skala IPK 4.
Tabel 2 Bidang Konsentrasi Mata Kuliah

Bidang Konsentrasi
Matematika Murni

Mata Kuliah
Kalkulus 1, Analisis Real (Anreal) 1, Aljabar
Linear Elementer (ALE), Aljabar Linear (Alin)

Matematika Terapan

Statistika 1, Statistika Komputasi (Statkom),
Algoritma Pemrograman (Alpro)

Ilmu Sosial

Ilmu Sosial Budaya Dasar (ISBD)


Pembuatan pola dilakukan menggunakan metode Decision Tree. Dalam Decision tree, model
direpresentasikan sebagai struktur pohon (tree) yang terdiri dari node. Setiap node merepresentasikan
fitur, setiap cabang merepresentasikan nilai dari fitur, dan setiap daun merepresentasikan kelas atau
keputusan (Gorunescu, 2011). Decision Tree merupakan pendekatan divide-and-conquer dengan
konsep klasifikasi. Metode ini bekerja dari atas ke bawah dengan membagi fitur ke dalam bagian
kelas. Pembagian secara bertahap ini diproses secara rekursif submasalah sehingga dihasilkan fitur
terakhir yang dapat menentukan kelas. Strategi ini menghasilkan sebuah tree yang kemudian dapat
diubah menjadi suatu rules (Witten et all, 2011).
Pada decision tree terdapat 3 jenis node, yaitu Root, Node Internal, dan Leaf node. Root
merupakan node paling atas. Node ini tidak terdapat input di atasnya. Pada node ini mungkin bisa
tidak terdapat output atau bisa mempunyai output lebih dari satu. Selanjutnya Internal Node yakni
node percabangan. Pada node ini hanya terdapat satu input dan mempunyai output minimal dua.
I-2

SENTRA

Seminar Teknologi dan Rekayasa (SENTRA) 2015
ISBN: 978-979-796-238-6


Dalam kasus ini Root dan Node Internal berupa mata kuliah. Yang terakhir adalah Leaf node yang
merupakan node akhir. Pada node ini hanya terdapat satu input dan tidak mempunyai output. Dalam
kasus ini leaf node adalah profesi (Gorunescu, 2011).
Model dibangun dengan Decision Tree menggunakan Algoritma C4.5. Tahap ini diawali dengan
menghitung nilai entropy yang akan digunakan untuk menghitung nilai gain masing-masing fitur.
Fitur dengan nilai gain yang tertinggi, selanjutnya akan ditetapkan menjadi root. Rumus menghitung
entropy dan gain ditunjukkan dalam persamaan (1) dan (2).

Entropy( S )    pi 2 log pi
c

n 1

Gain( S, A)  Entropy( S ) 

(1)



| Sv |

Entropy( Sv )
vVa lues( A) S

(2)

Langkah perhitungan entropy dan gain pada tiap fitur ini diulang secara terus menerus hingga
semua mata kuliah terpartisi. Proses dari Decision Tree ini akan berhenti jika semua mata kuliah
dalam simpul N sudah mendapat kategori pekerjaan, tidak ada fitur mata kuliah di dalam record yang
dipartisi lagi, dan tidak ada record di dalam cabang yang kosong (Gorunescu, 2011).

Hasil Penelitian dan Pembahasan
Sebuah Decision Tree dibentuk dari 42 record dengan 8 fitur berupa nilai mata kuliah. Gambar
1 menunjukkan tree yang terbentuk. Pada Decision Tree tersebut, mata kuliah Aljabar Linear terpilih
sebagai root dimana mata kuliah tersebut adalah mata kuliah konsentrasi matematika murni.
Percabangan nilai Aljabar Linear dibatasi oleh nilai AB. Jika mahasiswa memperoleh nilai Aljabar
Linear ≥ AB, maka besar kemungkinan dia memang berminat pada ilmu-ilmu eksak sehingga memilih
berprofesi sebagai pengajar. Selanjutnya, untuk leaf kedua dan ketiga terpilih Analisis Real I dan
Statistika I. Dari percabangan node ini dapat diketahui bahwa jika nilai dua mata kuliah tersebut < BC,
maka mahasiswa yang bersangkutan lebih berminat dengan dunia industri atau kewirausahaan
(enterpreuner). Selebihnya mahasiswa akan memilih sebagai wiraswasta (pegawai).


Gambar 1 Tree yang terbentuk
“0” = Enterpreuner, “1” = Pegawai, dan “2” = Pengajar

SENTRA

I-3

Seminar Teknologi dan Rekayasa (SENTRA) 2015
ISBN: 978-979-796-238-6

Menurut pola yang dihasilkan tersebut, lima mata kuliah yang lain, yakni kuliah Kalkulus 1,
ALE, Statkom, Alpro, dan ISBD tidak begitu mempengaruhi peminatan kerja mahasiswa. Dari
Decision Tree tersebut, terbentuklah beberapa rule sebagai berikut:
Rule (1)
Rule (2)
Rule (3)

: IF Aljabar Linear ≥ AB
THEN Minat Kerja = Pengajar

: IF Aljabar Linear < AB AND Analisis Real < C AND Statistika < BC
THEN Minat Kerja = Enterpreuner
: IF Aljabar Linear < AB AND Analisis Real < C AND Statistika > BC
THEN Minat Kerja = Pegawai

Evaluasi Decision Tree dilakukan dengan menghitung luasan Area Under Curves (AUC) pada
kurva Receiver Operating Characteristics (ROC). Kurva ROC adalah gambaran dua dimensi dari
kinerja suatu classifier . Kurva ROC sering digunakan untuk mengevaluasi sebuah classifier karena
mempunyai kemampuan evaluasi yang cukup baik. Analisis ROC telah diperkenalkan pada bidang
machine learning dan data mining. Kurva ROC merupakan grafik perbandingan antara sensitivitas
(sumbu vertikal) dan spesifisitas (sumbu horizontal). Sensitivitas yaitu proporsi data positif yang
teridentifikasi dengan benar sedangkan spesifisitas adalah proporsi data negatif yang teridentifikasi
salah sebagai positif (Fawcett, 2006). Metode yang digunakan untuk menghitung nilai kinerja
classifier adalah dengan menghitung luas daerah dibawah kurva ROC, yang disebut dengan AUC. Jika
nilai AUC semakin besar, maka classifier semakin baik. Pada paper ini dihitung luasan AUC pada
masing-masing kurva ROC kelompok enterpreuner (Gambar 2), kelompok pegawai (Gambar 3), dan
kelompok pengajar (Gambar 4). Nilai AUC untuk masing-masing kurva ROC kelompok Enterpreuner,
Pegawai, dan Pengajar adalah 0.938, 0.985, dan 0.900. Dari ketiga hasil yang diberikan menunjukkan
bahwa Decision Tree yang terbentuk merupakan classifier yang baik karena nilai AUC yang diperoleh
mendekati 1.


Gambar 2 Kurva ROC untuk Enterpreuner

I-4

SENTRA

Seminar Teknologi dan Rekayasa (SENTRA) 2015
ISBN: 978-979-796-238-6

Gambar 3 Kurva ROC untuk Pegawai

Gambar 4 Kurva ROC untuk Pengajar

Kesimpulan
Paper ini memanfaatkan EDM untuk menemukan pola minat dan bakat mahasiswa terhadap
dunia kerja. Metode yang digunakan adalah Decision Tree. Dari Tree yang terbentuk, mata kuliah
Aljabar Linear terpilih sebagai root. Percabangan nilai Aljabar Linear dibatasi oleh nilai AB. Artinya
besar kemungkinan mahasiswa akan memilih berprofesi sebagai pengajar jika memperoleh nilai
Aljabar Linear ≥ AB. Mata kuliah lain yang terpilih sebagai node adalah Analisis Real I dan Statistika
I. Menurut pola ini lima mata kuliah yang lain, yakni kuliah Kalkulus 1, ALE, Statkom, Alpro, dan
ISBD tidak begitu mempengaruhi peminatan kerja mahasiswa. Evaluasi dilakukan dengan menghitung
luasan AUC dari tiga kurva ROC. Nilai AUC yang diperoleh dari kurva ROC kelompok Enterpreuner,
SENTRA

I-5

Seminar Teknologi dan Rekayasa (SENTRA) 2015
ISBN: 978-979-796-238-6

Pegawai, dan Pengajar masing-masing adalah 0.938, 0.985, dan 0.900. Hal ini menunjukkan bahwa
Decision Tree yang terbentuk merupakan classifier yang baik karena nilai AUC yang diperoleh
mendekati 1.
Penelitian ini masih menggunakan data sampel 8 nilai akademik dari 42 mahasiswa. Lebih
lanjut dapat dikembangkan dengan memperhitungkan mata kuliah ilmu sosial yang lebih banyak
antara lain PPKn, Etika, komunikasi, dll Karena mata kuliah sosial banyak mempengaruhi
kemampuan mahasiswa dalam berkomunikasi dan berinteraksi di dunia kerja. Selain itu, perhitungan
kemampuan non akademik juga belum dilibatkan dalam paper ini. Contohnya kemampuan akademik
dapat dilihat dari keikutsertaannya di Unit kegiatan Mahasiswa (UKM).

Daftar Notasi
S : Himpunan kasus
A : Fitur
p : proporsi kasus i
n : Jumlah partisi atribut A
| Sv | : Proporsi Sv terhadap S
| S | : Jumlah kasus dalam S
Referensi
[1] Cecily H, Ryan B, Kalina Y. Proceedings of the Workshop on Educational Data Mining at the 8th
International Conference on Intelligent Tutoring Systems Jhongli, Taiwan. 2006.
[2] Anupama K, Vijayalakshmi. Efficiency Of Decision Trees In Predicting Student’s Academic
Performance. Computer Science & Information Technology (CS & IT). 2011; 2: 335-343
[3] Brijesh K, Saurabh P. Mining Educational Data to Analyze Students’ Performance. International
Journal of Advanced Computer Science and Applications. 2011; 2(6) : 63-69
[4] Irfan A, Jin T. An Application of Educational Data Mining (EDM) Technique for Scholarship
Prediction. International Journal of Software Engineering and Its Applications. 2014; 8(12): 3142
[5] Mohammad M, Hari G, Diana P. Analisis Kemungkinan Drop Out Berdasarkan Perilaku Sosial
Mahasiswa Dalam Educational Data Mining Menggunakan Jaringan Syaraf Tiruan Sebagai
Classifier. Thesis. Surabaya: Postgraduate ITS; 2014.
[6] Donny M dan Imam M. Aplikasi Association Rule Mining Untuk menemukan Pola Pada Data
Nilai Mahasiswa Matematika ITS. Jurnal Sains dan Seni POMITS. 2013; 1(1):1-6
[7] Gorunescu, F. Data Mining Concept Model and Techniques. Berlin: Springer. 2011
[8] Witten I. Frank E., and Hall M. Data Mining: Practical Machine Learning Tools and Techniques
3rd Edition, Morgan Kaufmann Publishers. 2011.
[9] Tom F. ROC Graphs : Notes and Practical Considerations for Data Mining Researchers, Pattern
Recognition Letters. 2006; 27: 861–874

I-6

SENTRA