PERBANDINGAN 3 METODE DALAM DATA MINING UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI Perbandingan 3 Metode Dalam Data Mining Untuk Prediksi Penerima Beasiswa Berdasarkan Prestasi Di SMA Negeri 6 Surakarta.

PERBANDINGAN 3 METODE DALAM DATA MINING
UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI
DI SMA NEGERI 6 SURAKARTA

Naskah Publikasi
Program Studi Informatika
Fakultas Komunikasi dan Informatika

Oleh :
Veronica Andriyana
Yusuf Sulistyo Nugroho, S.T., M.Eng

PROGRAM STUDI INFORMATIKA
FEKULTAS KOMUNIKASI DAN INFORMATIKA
UNIVERSITAS MUHAMMADIYAH SURAKARTA
MARET, 2015

PERBANDINGAN 3 METODE DALAM DATA MINING
UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI
DI SMA NEGERI 6 SURAKARTA
Veronica Andriyana, Yusuf Sulistyo Nugroho

Program Studi Informatika, Fakultas Komunikasi dan Informatika
Universitas Muhammadiyah Surakarta
Email : veronica.andriyana8@gmail.com
Abstraksi
Dalam rangka meningkatkan akses dan minat belajar siswa serta mengangkat
mutu sekolah, SMA N 6 Surakarta mengalokasikan dana beasiswa dalam bentuk apresiasi
untuk siswa berprestasi. Namun masih ada hal yang menjadi permasalahan yang sering
muncul, yaitu kurang tepatnya penyaluran beasiswa terhadap siswa. Beasiswa untuk
siswa berprestasi bertujuan memotivasi siswa untuk selalu meningkatkan prestasi
akademik maupun non akademik dan membantu siswa yang kurang mampu tetapi
berprestasi. Untuk mengatasi permasalahan tersebut adalah dengan cara menerapkan
proses data mining.
Dalam memprediksi siswa yang menerima beasiswa berdasarkan prestasi
menggunakan metode Naive Bayes, Decision Tree Algoritma ID3, dan Regresi Linear.
Atribut yang digunakan terdiri dari Nilai rata-rata, Gender, Ekstrakurikuler, Jurusan,
Semester, Jumlah Tanggungan Orang Tua, Gaji Orang Tua, dan Beasiswa. Untuk
melakukan proses data mining tersebut di perlukan tools pembantu yaitu RapidMiner 5.
Pengimplementasian data mining menggunakan perbandingan 3 metode dapat
diketahui bahwa berdasarkan dari jumlah sampel 305 siswa hasil nilai precision metode
Decision Tree Algoritma ID3 lebih baik digunakan untuk penelitian ini dibandingkan

dengan metode yang lain. Sedangkan berdasarkan nilai recall dan accuracy, Regresi
Linear lebih baik digunakan dibandingkan metode lain. Tetapi apabila dilihat dari hasil
secara keseluruhan prediksi penerima beasiswa variabel yang paling berpengaruh adalah
Nilai rata-rata.
Kata kunci : Algoritma ID3, Data mining, Decision Tree, Naive Bayes, Regresi Linear

berlimpah
PENDAHULUAN
Dalam dunia pendidikan, data
yang berlimpah dan berkesinambungan mengenai siswa yang dibina
dan alumni terus dihasilkan. Menurut
Jing (2004) dan Merceron (2005)
dalam Nugroho (2014), data yang

membuka

peluang

diterapkannya data mining untuk
pengelolaan pendidikan yang lebih

baik

dan

pelaksanaan

data

mining

pembelajaran

dalam
ber-

bantuan komputer yang lebih efektif.
Dalam rangka meningkatkan
akses dan minat belajar siswa serta
mengangkat mutu sekolah, SMA


Negeri 6 Surakarta mengalokasikan

ID3,

dana

analisis

beasiswa

dalam

bentuk

Regresi

Linear.

Dengan


perbandingan

tersebut,

apresiasi untuk siswa berprestasi.

diharapkan

dapat

Namun masih ada permasalahan

menemukan

informasi

yang sering muncul, yaitu kurang

siswa yang menerima beasiswa


tepatnya

berdasarkan

penyaluran

beasiswa

membantu

prestasi

tentang

sehingga

terhadap siswa, misalnya siswa yang

membantu pihak sekolah dalam


sebenarnya tidak layak mendapatkan

mencari solusi dapat mengetahui

beasiswa

mendapatkan

tingkat prestasi siswa dan lebih

beasiswa, sebaliknya siswa yang

meningkatkan lagi mutu pendidikan

berhak mendapatkan beasiswa baik

sekolah dengan adanya siswa-siswa

itu


yang berprestasi.

tetapi

beasiswa

beprestasi

maupun

beasiswa kurang mampu tetapi tidak
mendapatkan beasiswa. Tujuan dari
adanya

beasiswa

untuk

siswa


berprestasi tersebut yaitu memotivasi
siswa untuk selalu meningkatkan
prestasi

akademik

maupun

non

akademik, membantu siswa yang
kurang mampu tetapi berprestasi, dan
menumbuhkan rasa percaya

diri

siswa untuk berkompetitif dalam
mengembangkan potensinya.
Berdasarkan
tersebut


dapat

solusi

dengan cara memanfaatkan teknik
data

mining

1. Prediksi / Peramalan
Menurut susanto dalam Mauriza
(2014)

Prediksi

memperkirakan

sesuatu


adalah
yang

akan terjadi pada masa yang
mendatang. Prediksi juga dapat
digunakan dalam pengklasifikasian,

tidak

hanya

untuk

memprediksi time series, karena

permasalahan
diambil

LANDASAN TEORI

dengan

membandingkan 3 metode untuk
prediksi siswa penerima beasiswa
berdasarkan prestasi yaitu Naïve
Bayes, Decision Tree Algoritma

sifatnya yang bisa menghasilkan
class berdasarkan atribut yang
ada.
2. Data Mining
Data

Mining

sering

disebut

KDD (Knowledge discovery in
database). KDD adalah kegiatan
yang

meliputi

pengumpulan,

pemakaian data, historis, untuk

tree yang umumnya digunakan

menemukan keteraturan, pola

untuk menemukan aturan yang

atau hubungan dalam set data

diharapkan bisa berlaku untuk

berukuran besar. (Santoso, 2007)

data-data tidak lengkap atau

3. Naive Bayes
Naive

belum

Bayes

prediksi

adalah

berbasis

teknik

probabilitic

sederhana yang berdasar pada

kita

ketahui.

(Lesmana, 2012)
5. Regresi Linear
Analisis regresi adalah teknik

Bayes

statistik untuk permodelan dan

(aturan Bayes) dengan asumsi

investigasi hubungan dua atau

independensi

lebih variabel. (Santosa, 2007)

penerapan

Teorema

pernah

(ketidakketergantungan)

yang
METODE PENELITIAN

kuat. (Prasetyo, 2012)
4. Decision Tree Algoritma ID3
Decision Tree
untuk

adalah metode

menemukan

fungsi

a. Penentuan Atribut
Tahap yang pertama
menganalisis

dan

adalah

menyeleksi

pendekatan yang bernilai diskrit

data

dan tahan terhadap data-data

mendapatkan

yang memiliki kesalahan (noisy

record yang relevan terhadap

data) serta mampu mempelajari

keluaran yang diinginkan.

ekspresi-ekspresi

disjunctive

keseluruhan
atribut

prediksi

penerima

Dychotomizer version 3 (ID3)

terdapat

dalam

OR.

adalah salah satu jenis decision
Tabel 1 Daftar Atribut
Atribut
Beasiswa
Nilai rata – rata
Gender
Ekstrakurikuler
Jurusan
Semester
Jumlah tanggungan orang tua
Gaji orang tua

dengan

Atribut yang digunakan dalam

Iterative

seperti

untuk

Variabel
Y
X1
X2
X3
X4
X5
X6
X7

beasiswa
tabel

1

dihitung berdasarkan Teoema

b. Implementasi Data Mining

Bayes. (Widiastuti, 2010)

1. Naive Bayes
adalah

Persamaan dari teorema Bayes

klasifikasi statistik yang bisa

dirumuskan seperti Persamaan

memprediksi

1 berikut ini :

Klaifikasi

Bayesian

probabilitas

sebuah class. Klasifikasi ini
.......... (1)
2. Decision Tree Algoritma ID3
Hal

yang

harus

dilakukan

dalam metode decision tree

adalah menghitung entrophy
dan information gain. (Ranny
dkk, 2012)

Persamaan 2 Rumus entrophy :
.........(2)
Persamaan 3 Rumus Information Gain
..................(3)
3. Regresi Linear

investigasi hubungan dua atau

Analisis regresi adalah teknik

lebih variabel. (Santosa, 2007)

statistik untuk permodelan dan

Persamaan 4 Rumus Regresi
Linear :
...............................................(4)
Rumus Slovin dirumuskan seperti
Persamaan 5 berikut ini :

HASIL DAN PEMBAHASAN
1. Penentuan Sampel

.......................... (5)

Untuk mendapatkan sampel yang
dapat

menggambarkan

dan

mewakili jumlah populasi, maka
dalam

penentuan

sampel

penelitian ini digunakan rumus
Slovin (Umar, 2004)

n = 1290 / 1 + 1290 (0,05)2
n = 305,325 siswa
Jadi

dibulatkan menjadi

305

siswa yang digunakan sebagai
data sampel.

Gambar 1 Scatter Plot NaiveBayes menggunakan data testing
2. Hasil

Implementasi

Bayes

Naive

menggunakan

Berdasarkan scatter plot pada
1

hasilnya

mayoritas

menunjukkan

bahwa

penerima beasiswa dengan nilai rata-

siswa yang MENERIMA beasiswa
tersebut.
4. Hasil

Implementasi

rata nilai≥8 dan jurusan BAHASA

Linear

sebagian

RapidMiner 5

ada

TIDAK

MENERIMA tetapi ada beberapa

RapidMiner 5

gambar

Sedangkan nilai≥8 dan Jurusan IPS

yang

menerima

Regresi

menggunakan

beasiswa. Sedangkan nilai≥8 dan
Berdasarkan scatter plot dalam

jurusan IPA hasilnya tidak ada yang

gambar

menerima beasiswa.

Algortima

ID3

menggunakan RapidMiner 5
Berdasarkan scatter plot dalam
gambar

2

menunjukkan

bahwa

6