Klasifikasi Pendaftar Beasiswa Bidikmisi Universitas Sebelas Maret Menggunakan Algoritma C4.5.

KLASIFIKASI PENDAFTAR BEASISWA BIDIKMISI
UNIVERSITAS SEBELAS MARET MENGGUNAKAN ALGORITMA C4.5

SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu
Program Studi Informatika

Disusun oleh:
MUH. SAFRI JULIARDI
NIM. M0512038

PROGRAM STUDI INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2017

ii

iii


HALAMAN PERSEMBAHAN

Tugas akhir ini ku persembahkan untuk
Ayah, Ibu, dan kedua kakakku tercinta,
keluarga Informatika UNS angkatan 2012,
keluarga besar UPT TIK UNS

iv

MOTTO
“Inna ma’al ‘usri yusroo.”
“Sesungguhnya bersama kesulitan itu ada kemudahan.”
(QS. Al Insyirah: 6)

“Man jadda wajada.”
“Barangsiapa bersungguh-sungguh maka berhasillah dia.”
(Mahfudhot)

“The First Rule of Programming: It’s Always Your Fault”
(Coding Horror)


v

KATA PENGANTAR
Segala puji dan syukur penulis ucapkan kepada Allah SWT, yang hanya
karena berkat rahmat dan karunia-Nya penulis dapat menyelesaikan skripsi
berjudul “Klasifikasi Pendaftar Beasiswa Bidikmisi Universitas Sebelas Maret
dengan Algoritma C4.5” ini untuk memenuhi salah satu syarat memperoleh gelar
Sarjana Komputer pada Program Studi Informatika Universitas Sebelas Maret.
Keberhasilan penelitian dan penyusunan skripsi ini tidak lepas dari bantuan
dan dukungan berbagai pihak. Untuk itu penulis mengucapkan terima kasih
sebesar-besarnya kepada :
1. Ayah dan Ibu serta kedua kakak penulis yang selalu mendidik, mendukung,
dan mendoakan penulis.
2. Bapak Ristu Saptono, S.Si., M.T. dan Ibu Denis Eka Cahyani, S.Kom, M.Kom
selaku dosen pembimbing yang dengan penuh kesabaran telah memberikan
ilmu dan bimbingan terbaik kepada penulis.
3. Biro Administrasi Kemahasiswaan Pusat Universitas Sebelas Maret yang telah
memberikan izin dan data yang diperlukan guna menyelesaikan penelitian ini.
4. Para Dosen Program Studi Informatika Universitas Sebelas Maret yang telah

memberikan ilmu yang bermanfaat kepada penulis.
5. Para Staff dan karyawan serta keluarga SAT UPT TIK Universitas Sebelas
Maret yang telah mendukung dan memberikan pengalaman yang berharga
kepada penulis.
6. Keluarga besar S1 Informatika FMIPA UNS, khususnya angkatan 2012.
Semoga tulisan ini dapat memberikan manfaat kepada para pembaca.
Surakarta, Februari 2017
Penulis

vi

KLASIFIKASI PENDAFTAR BEASISWA BIDIKMISI
UNIVERSITAS SEBELAS MARET MENGGUNAKAN ALGORITMA C4.5
MUH. SAFRI JULIARDI
Program Studi Informatika, Fakultas Matematika dan Ilmu Pengetahuan Alam,
Universitas Sebelas Maret
ABSTRAK
Beasiswa Bidikmisi adalah salah satu beasiswa untuk mahasiswa kurang mampu
namun berprestasi. Dengan banyaknya pendaftar Bidikmisi perlu digunakan
sebuah metode yang akurat untuk membantu proses seleksi penerima beasiswa

Bidikmisi khususnya di lingkungan Universitas Sebelas Maret (UNS). Pada
penelitian ini, algoritma C4.5 diusulkan sebagai metode untuk membantu proses
seleksi penerima beasiswa Bidikmisi. Dataset yang digunakan adalah data
pendaftar Bidikmisi tahun 2014 dan 2015. Data pendaftar tahun 2014 digunakan
sebagai data latih sedangkan data pendaftar tahun 2015 digunakan sebagai data
uji. Selain itu, teknik oversampling dan undersampling juga digunakan untuk
mengatasi masalah ketidakseimbangan kelas pada data training. Pada akhirnya
akurasi dari pohon keputusan dari dataset hasil sampling akan dibandingkan
untuk melihat teknik sampling yang lebih baik. Hasil penelitian ini menunjukkan
bahwa pohon keputusan yang diuji menggunakan data pendaftar tahun 2015
memiliki nilai accuracy 79,80 % dan nilai Area Under Curve 0.5539. Sementara
itu, untuk membandingkan teknik oversampling dan undersampling dipilih pohon
keputusan terbaik dari masing-masing hasil sampling. Teknik oversampling
menghasilkan nilai precision 82,69 %, recall 91,22 %, dan accuracy 77,16 %.
Sedangkan teknik undersampling menghasilkan nilai precision 82,78 %, recall
91,22 %, dan accuracy 77,27 %. Sehingga dapat disimpulkan bahwa teknik
undersampling memiliki akurasi yang lebih baik daripada teknik oversampling.
Kata kunci : Algoritma C4.5, Bidikmisi, Pohon Keputusan, Oversampling,
Undersampling


vii

UNIVERSITAS SEBELAS MARET BIDIKMISI APPLICANT’S
CLASSIFICATION USING C4.5 ALGORITHM
MUH. SAFRI JULIARDI
Department of Informatics, Faculty of Mathematics and Natural Science,
Sebelas Maret University
ABSTRACT
Bidikmisi scholarship is a scholarship for poor but outstanding students. Because
of the amount applicants, there is a need to use an accurate method in the
selection process of Bidikmisi scholarship, especially in Universitas Sebelas
Maret’s (UNS) environment. In this paper, C4.5 algorithm is proposed as a
method to help on Bidikmisi recipients selection process. The dataset which is
used is Bidikmisi applicants data from 2013 to 2015. The applicant’s data from
2013 and 2014 is used as training data and the applicant’s data from 2015 is used
as testing data. Furthermore, oversampling and undersampling technique is used
to address the class imbalance problem in training data. Finally the accuracy for
each decision trees are compared to see which sampling method is better. The
result of this study shows that the accuracy of the C4.5 algorithm decision tree
with the applicant’s data from 2015 as testing data is 79,80% and Area Under

Curve (AUC) value 0.5539. Meanwhile, to compare the sampling method, the best
decision tree based on testing result is chosen. Oversampling technique produce
82,69 % for precision, 91,22 % for recall, and 77,16 % for accuracy. While
undersampling technique produce 82,78 % for precision, 91,22 % for recall, and
77,27 % for accuracy. Therefore it is concluded that undersampling technique
gives a better accuracy than oversampling technique.
Keywords : Bidikmisi, C4.5 algorithm, decision tree, Oversampling,
Undersampling

viii

DAFTAR ISI
HALAMAN PERSETUJUAN.....................................................................................ii
HALAMAN PENGESAHAN..................................Error! Bookmark not defined.
HALAMAN PERSEMBAHAN..................................................................................iv
MOTTO..........................................................................................................................v
KATA PENGANTAR................................................................................................. vi
ABSTRAK...................................................................................................................vii
ABSTRACT............................................................................................................... viii
DAFTAR ISI................................................................................................................ ix

DAFTAR TABEL........................................................................................................ xi
DAFTAR GAMBAR..................................................................................................xii
DAFTAR LAMPIRAN............................................................................................. xiii
BAB I PENDAHULUAN.............................................................................................1
1.1. Latar Belakang............................................................................................... 1
1.2. Rumusan Masalah..........................................................................................3
1.3. Batasan Masalah............................................................................................ 3
1.4. Tujuan Penelitian........................................................................................... 3
1.5. Manfaat Penelitian.........................................................................................4
1.6. Sistematika Penulisan....................................................................................4
BAB II TINJAUAN PUSTAKA..................................................................................5
2.1. Dasar Teori.....................................................................................................5
2.1.1. Algoritma C4.5...................................................................................5
2.1.2. Data Preprocessing........................................................................... 7
2.1.3. Oversampling dan Undersampling................................................... 8
2.1.4. Pengertian Beasiswa Bidikmisi.........................................................9
2.2. Penelitian Terkait.........................................................................................10

ix


2.3. Kerangka Pemikiran.................................................................................... 12
BAB III METODOLOGI PENELITIAN..................................................................14
3.1. Pengumpulan Data.......................................................................................14
3.2. Data Preprocessing.....................................................................................15
3.3. Pelatihan Algoritma C4.5............................................................................17
3.4. Pengujian dan Analisa Hasil.......................................................................17
BAB IV HASIL DAN PEMBAHASAN...................................................................21
4.1. Deskripsi Data..............................................................................................21
4.2. Data Preprocessing.....................................................................................24
4.2.1. Data Cleaning.................................................................................. 24
4.2.2. Data Transformation....................................................................... 24
4.2.3. Sampling........................................................................................... 27
4.3. Pelatihan Algoritma C4.5............................................................................28
4.4. Pengujian dan Analisa Hasil.......................................................................30
BAB V PENUTUP......................................................................................................38
5.1. Kesimpulan.................................................................................................. 38
5.2. Saran............................................................................................................. 38
DAFTAR PUSTAKA................................................................................................. 40
LAMPIRAN.................................................................................................................42


x

DAFTAR TABEL
Tabel 3.1. Tabel Konversi Nilai Atribut Penghasilan.............................................. 16
Tabel 3.1 Confusion Matrix........................................................................................17
Tabel 4.1. Jumlah Data Pendaftar Bidikmisi Tahun 2013, 2014, dan 2015........... 21
Tabel 4.2. Data Nilai Unik Tiap Atribut....................................................................21
Tabel 4.3. Contoh Data Pendaftar Bidikmisi............................................................ 23
Tabel 4.4. Tabel Konversi Nilai Atribut Penghasilan.............................................. 25
Tabel 4.5. Contoh Data Setelah Melewati Tahap Data Cleaning dan Data
Transformation............................................................................................................ 26
Tabel 4.6. Tabel Rasio Kelas......................................................................................28
Tabel 4.7. Contoh Hasil Klasifikasi...........................................................................31
Tabel 4.8. Confusion Matrix untuk Tiap Pohon Keputusan.................................... 32
Tabel 4.9. Nilai Precision, Recall, Accuracy, dan False Positive Rate pohon
keputusan PKA............................................................................................................34
Tabel 4.10. Nilai Precision, Recall, Accuracy, dan False Positive Rate pohon
keputusan PKO............................................................................................................34
Tabel 4.11. Nilai Precision, Recall, Accuracy, dan False Positive Rate pohon
keputusan PKU............................................................................................................34


xi

DAFTAR GAMBAR
Gambar 3.1. Diagram Alir Metodologi Penelitian................................................... 14
Gambar 3.2. Contoh ROC Curve............................................................................... 19
Gambar 4.1. Contoh Pohon Keputusan C4.5............................................................ 29
Gambar 4.2. Contoh Visualisasi Pohon Keputusan C4.5.........................................29
Gambar 4.3. Kurva ROC............................................................................................ 37

xii

DAFTAR LAMPIRAN

LAMPIRAN 1............................................................................................................. 42
LAMPIRAN 2............................................................................................................. 43
LAMPIRAN 3............................................................................................................. 44

xiii