PERBANDINGAN 3 METODE DALAM DATA MINING UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI Perbandingan 3 Metode Dalam Data Mining Untuk Prediksi Penerima Beasiswa Berdasarkan Prestasi Di SMA Negeri 6 Surakarta.
PERBANDINGAN 3 METODE DALAM DATA MINING
UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI
DI SMA NEGERI 6 SURAKARTA
Naskah Publikasi
Program Studi Informatika
Fakultas Komunikasi dan Informatika
Oleh :
Veronica Andriyana
Yusuf Sulistyo Nugroho, S.T., M.Eng
PROGRAM STUDI INFORMATIKA
FEKULTAS KOMUNIKASI DAN INFORMATIKA
UNIVERSITAS MUHAMMADIYAH SURAKARTA
MARET, 2015
PERBANDINGAN 3 METODE DALAM DATA MINING
UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI
DI SMA NEGERI 6 SURAKARTA
Veronica Andriyana, Yusuf Sulistyo Nugroho
Program Studi Informatika, Fakultas Komunikasi dan Informatika
Universitas Muhammadiyah Surakarta
Email : veronica.andriyana8@gmail.com
Abstraksi
Dalam rangka meningkatkan akses dan minat belajar siswa serta mengangkat
mutu sekolah, SMA N 6 Surakarta mengalokasikan dana beasiswa dalam bentuk apresiasi
untuk siswa berprestasi. Namun masih ada hal yang menjadi permasalahan yang sering
muncul, yaitu kurang tepatnya penyaluran beasiswa terhadap siswa. Beasiswa untuk
siswa berprestasi bertujuan memotivasi siswa untuk selalu meningkatkan prestasi
akademik maupun non akademik dan membantu siswa yang kurang mampu tetapi
berprestasi. Untuk mengatasi permasalahan tersebut adalah dengan cara menerapkan
proses data mining.
Dalam memprediksi siswa yang menerima beasiswa berdasarkan prestasi
menggunakan metode Naive Bayes, Decision Tree Algoritma ID3, dan Regresi Linear.
Atribut yang digunakan terdiri dari Nilai rata-rata, Gender, Ekstrakurikuler, Jurusan,
Semester, Jumlah Tanggungan Orang Tua, Gaji Orang Tua, dan Beasiswa. Untuk
melakukan proses data mining tersebut di perlukan tools pembantu yaitu RapidMiner 5.
Pengimplementasian data mining menggunakan perbandingan 3 metode dapat
diketahui bahwa berdasarkan dari jumlah sampel 305 siswa hasil nilai precision metode
Decision Tree Algoritma ID3 lebih baik digunakan untuk penelitian ini dibandingkan
dengan metode yang lain. Sedangkan berdasarkan nilai recall dan accuracy, Regresi
Linear lebih baik digunakan dibandingkan metode lain. Tetapi apabila dilihat dari hasil
secara keseluruhan prediksi penerima beasiswa variabel yang paling berpengaruh adalah
Nilai rata-rata.
Kata kunci : Algoritma ID3, Data mining, Decision Tree, Naive Bayes, Regresi Linear
berlimpah
PENDAHULUAN
Dalam dunia pendidikan, data
yang berlimpah dan berkesinambungan mengenai siswa yang dibina
dan alumni terus dihasilkan. Menurut
Jing (2004) dan Merceron (2005)
dalam Nugroho (2014), data yang
membuka
peluang
diterapkannya data mining untuk
pengelolaan pendidikan yang lebih
baik
dan
pelaksanaan
data
mining
pembelajaran
dalam
ber-
bantuan komputer yang lebih efektif.
Dalam rangka meningkatkan
akses dan minat belajar siswa serta
mengangkat mutu sekolah, SMA
Negeri 6 Surakarta mengalokasikan
ID3,
dana
analisis
beasiswa
dalam
bentuk
Regresi
Linear.
Dengan
perbandingan
tersebut,
apresiasi untuk siswa berprestasi.
diharapkan
dapat
Namun masih ada permasalahan
menemukan
informasi
yang sering muncul, yaitu kurang
siswa yang menerima beasiswa
tepatnya
berdasarkan
penyaluran
beasiswa
membantu
prestasi
tentang
sehingga
terhadap siswa, misalnya siswa yang
membantu pihak sekolah dalam
sebenarnya tidak layak mendapatkan
mencari solusi dapat mengetahui
beasiswa
mendapatkan
tingkat prestasi siswa dan lebih
beasiswa, sebaliknya siswa yang
meningkatkan lagi mutu pendidikan
berhak mendapatkan beasiswa baik
sekolah dengan adanya siswa-siswa
itu
yang berprestasi.
tetapi
beasiswa
beprestasi
maupun
beasiswa kurang mampu tetapi tidak
mendapatkan beasiswa. Tujuan dari
adanya
beasiswa
untuk
siswa
berprestasi tersebut yaitu memotivasi
siswa untuk selalu meningkatkan
prestasi
akademik
maupun
non
akademik, membantu siswa yang
kurang mampu tetapi berprestasi, dan
menumbuhkan rasa percaya
diri
siswa untuk berkompetitif dalam
mengembangkan potensinya.
Berdasarkan
tersebut
dapat
solusi
dengan cara memanfaatkan teknik
data
mining
1. Prediksi / Peramalan
Menurut susanto dalam Mauriza
(2014)
Prediksi
memperkirakan
sesuatu
adalah
yang
akan terjadi pada masa yang
mendatang. Prediksi juga dapat
digunakan dalam pengklasifikasian,
tidak
hanya
untuk
memprediksi time series, karena
permasalahan
diambil
LANDASAN TEORI
dengan
membandingkan 3 metode untuk
prediksi siswa penerima beasiswa
berdasarkan prestasi yaitu Naïve
Bayes, Decision Tree Algoritma
sifatnya yang bisa menghasilkan
class berdasarkan atribut yang
ada.
2. Data Mining
Data
Mining
sering
disebut
KDD (Knowledge discovery in
database). KDD adalah kegiatan
yang
meliputi
pengumpulan,
pemakaian data, historis, untuk
tree yang umumnya digunakan
menemukan keteraturan, pola
untuk menemukan aturan yang
atau hubungan dalam set data
diharapkan bisa berlaku untuk
berukuran besar. (Santoso, 2007)
data-data tidak lengkap atau
3. Naive Bayes
Naive
belum
Bayes
prediksi
adalah
berbasis
teknik
probabilitic
sederhana yang berdasar pada
kita
ketahui.
(Lesmana, 2012)
5. Regresi Linear
Analisis regresi adalah teknik
Bayes
statistik untuk permodelan dan
(aturan Bayes) dengan asumsi
investigasi hubungan dua atau
independensi
lebih variabel. (Santosa, 2007)
penerapan
Teorema
pernah
(ketidakketergantungan)
yang
METODE PENELITIAN
kuat. (Prasetyo, 2012)
4. Decision Tree Algoritma ID3
Decision Tree
untuk
adalah metode
menemukan
fungsi
a. Penentuan Atribut
Tahap yang pertama
menganalisis
dan
adalah
menyeleksi
pendekatan yang bernilai diskrit
data
dan tahan terhadap data-data
mendapatkan
yang memiliki kesalahan (noisy
record yang relevan terhadap
data) serta mampu mempelajari
keluaran yang diinginkan.
ekspresi-ekspresi
disjunctive
keseluruhan
atribut
prediksi
penerima
Dychotomizer version 3 (ID3)
terdapat
dalam
OR.
adalah salah satu jenis decision
Tabel 1 Daftar Atribut
Atribut
Beasiswa
Nilai rata – rata
Gender
Ekstrakurikuler
Jurusan
Semester
Jumlah tanggungan orang tua
Gaji orang tua
dengan
Atribut yang digunakan dalam
Iterative
seperti
untuk
Variabel
Y
X1
X2
X3
X4
X5
X6
X7
beasiswa
tabel
1
dihitung berdasarkan Teoema
b. Implementasi Data Mining
Bayes. (Widiastuti, 2010)
1. Naive Bayes
adalah
Persamaan dari teorema Bayes
klasifikasi statistik yang bisa
dirumuskan seperti Persamaan
memprediksi
1 berikut ini :
Klaifikasi
Bayesian
probabilitas
sebuah class. Klasifikasi ini
.......... (1)
2. Decision Tree Algoritma ID3
Hal
yang
harus
dilakukan
dalam metode decision tree
adalah menghitung entrophy
dan information gain. (Ranny
dkk, 2012)
Persamaan 2 Rumus entrophy :
.........(2)
Persamaan 3 Rumus Information Gain
..................(3)
3. Regresi Linear
investigasi hubungan dua atau
Analisis regresi adalah teknik
lebih variabel. (Santosa, 2007)
statistik untuk permodelan dan
Persamaan 4 Rumus Regresi
Linear :
...............................................(4)
Rumus Slovin dirumuskan seperti
Persamaan 5 berikut ini :
HASIL DAN PEMBAHASAN
1. Penentuan Sampel
.......................... (5)
Untuk mendapatkan sampel yang
dapat
menggambarkan
dan
mewakili jumlah populasi, maka
dalam
penentuan
sampel
penelitian ini digunakan rumus
Slovin (Umar, 2004)
n = 1290 / 1 + 1290 (0,05)2
n = 305,325 siswa
Jadi
dibulatkan menjadi
305
siswa yang digunakan sebagai
data sampel.
Gambar 1 Scatter Plot NaiveBayes menggunakan data testing
2. Hasil
Implementasi
Bayes
Naive
menggunakan
Berdasarkan scatter plot pada
1
hasilnya
mayoritas
menunjukkan
bahwa
penerima beasiswa dengan nilai rata-
siswa yang MENERIMA beasiswa
tersebut.
4. Hasil
Implementasi
rata nilai≥8 dan jurusan BAHASA
Linear
sebagian
RapidMiner 5
ada
TIDAK
MENERIMA tetapi ada beberapa
RapidMiner 5
gambar
Sedangkan nilai≥8 dan Jurusan IPS
yang
menerima
Regresi
menggunakan
beasiswa. Sedangkan nilai≥8 dan
Berdasarkan scatter plot dalam
jurusan IPA hasilnya tidak ada yang
gambar
menerima beasiswa.
Algortima
ID3
menggunakan RapidMiner 5
Berdasarkan scatter plot dalam
gambar
2
menunjukkan
bahwa
6
UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI
DI SMA NEGERI 6 SURAKARTA
Naskah Publikasi
Program Studi Informatika
Fakultas Komunikasi dan Informatika
Oleh :
Veronica Andriyana
Yusuf Sulistyo Nugroho, S.T., M.Eng
PROGRAM STUDI INFORMATIKA
FEKULTAS KOMUNIKASI DAN INFORMATIKA
UNIVERSITAS MUHAMMADIYAH SURAKARTA
MARET, 2015
PERBANDINGAN 3 METODE DALAM DATA MINING
UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI
DI SMA NEGERI 6 SURAKARTA
Veronica Andriyana, Yusuf Sulistyo Nugroho
Program Studi Informatika, Fakultas Komunikasi dan Informatika
Universitas Muhammadiyah Surakarta
Email : veronica.andriyana8@gmail.com
Abstraksi
Dalam rangka meningkatkan akses dan minat belajar siswa serta mengangkat
mutu sekolah, SMA N 6 Surakarta mengalokasikan dana beasiswa dalam bentuk apresiasi
untuk siswa berprestasi. Namun masih ada hal yang menjadi permasalahan yang sering
muncul, yaitu kurang tepatnya penyaluran beasiswa terhadap siswa. Beasiswa untuk
siswa berprestasi bertujuan memotivasi siswa untuk selalu meningkatkan prestasi
akademik maupun non akademik dan membantu siswa yang kurang mampu tetapi
berprestasi. Untuk mengatasi permasalahan tersebut adalah dengan cara menerapkan
proses data mining.
Dalam memprediksi siswa yang menerima beasiswa berdasarkan prestasi
menggunakan metode Naive Bayes, Decision Tree Algoritma ID3, dan Regresi Linear.
Atribut yang digunakan terdiri dari Nilai rata-rata, Gender, Ekstrakurikuler, Jurusan,
Semester, Jumlah Tanggungan Orang Tua, Gaji Orang Tua, dan Beasiswa. Untuk
melakukan proses data mining tersebut di perlukan tools pembantu yaitu RapidMiner 5.
Pengimplementasian data mining menggunakan perbandingan 3 metode dapat
diketahui bahwa berdasarkan dari jumlah sampel 305 siswa hasil nilai precision metode
Decision Tree Algoritma ID3 lebih baik digunakan untuk penelitian ini dibandingkan
dengan metode yang lain. Sedangkan berdasarkan nilai recall dan accuracy, Regresi
Linear lebih baik digunakan dibandingkan metode lain. Tetapi apabila dilihat dari hasil
secara keseluruhan prediksi penerima beasiswa variabel yang paling berpengaruh adalah
Nilai rata-rata.
Kata kunci : Algoritma ID3, Data mining, Decision Tree, Naive Bayes, Regresi Linear
berlimpah
PENDAHULUAN
Dalam dunia pendidikan, data
yang berlimpah dan berkesinambungan mengenai siswa yang dibina
dan alumni terus dihasilkan. Menurut
Jing (2004) dan Merceron (2005)
dalam Nugroho (2014), data yang
membuka
peluang
diterapkannya data mining untuk
pengelolaan pendidikan yang lebih
baik
dan
pelaksanaan
data
mining
pembelajaran
dalam
ber-
bantuan komputer yang lebih efektif.
Dalam rangka meningkatkan
akses dan minat belajar siswa serta
mengangkat mutu sekolah, SMA
Negeri 6 Surakarta mengalokasikan
ID3,
dana
analisis
beasiswa
dalam
bentuk
Regresi
Linear.
Dengan
perbandingan
tersebut,
apresiasi untuk siswa berprestasi.
diharapkan
dapat
Namun masih ada permasalahan
menemukan
informasi
yang sering muncul, yaitu kurang
siswa yang menerima beasiswa
tepatnya
berdasarkan
penyaluran
beasiswa
membantu
prestasi
tentang
sehingga
terhadap siswa, misalnya siswa yang
membantu pihak sekolah dalam
sebenarnya tidak layak mendapatkan
mencari solusi dapat mengetahui
beasiswa
mendapatkan
tingkat prestasi siswa dan lebih
beasiswa, sebaliknya siswa yang
meningkatkan lagi mutu pendidikan
berhak mendapatkan beasiswa baik
sekolah dengan adanya siswa-siswa
itu
yang berprestasi.
tetapi
beasiswa
beprestasi
maupun
beasiswa kurang mampu tetapi tidak
mendapatkan beasiswa. Tujuan dari
adanya
beasiswa
untuk
siswa
berprestasi tersebut yaitu memotivasi
siswa untuk selalu meningkatkan
prestasi
akademik
maupun
non
akademik, membantu siswa yang
kurang mampu tetapi berprestasi, dan
menumbuhkan rasa percaya
diri
siswa untuk berkompetitif dalam
mengembangkan potensinya.
Berdasarkan
tersebut
dapat
solusi
dengan cara memanfaatkan teknik
data
mining
1. Prediksi / Peramalan
Menurut susanto dalam Mauriza
(2014)
Prediksi
memperkirakan
sesuatu
adalah
yang
akan terjadi pada masa yang
mendatang. Prediksi juga dapat
digunakan dalam pengklasifikasian,
tidak
hanya
untuk
memprediksi time series, karena
permasalahan
diambil
LANDASAN TEORI
dengan
membandingkan 3 metode untuk
prediksi siswa penerima beasiswa
berdasarkan prestasi yaitu Naïve
Bayes, Decision Tree Algoritma
sifatnya yang bisa menghasilkan
class berdasarkan atribut yang
ada.
2. Data Mining
Data
Mining
sering
disebut
KDD (Knowledge discovery in
database). KDD adalah kegiatan
yang
meliputi
pengumpulan,
pemakaian data, historis, untuk
tree yang umumnya digunakan
menemukan keteraturan, pola
untuk menemukan aturan yang
atau hubungan dalam set data
diharapkan bisa berlaku untuk
berukuran besar. (Santoso, 2007)
data-data tidak lengkap atau
3. Naive Bayes
Naive
belum
Bayes
prediksi
adalah
berbasis
teknik
probabilitic
sederhana yang berdasar pada
kita
ketahui.
(Lesmana, 2012)
5. Regresi Linear
Analisis regresi adalah teknik
Bayes
statistik untuk permodelan dan
(aturan Bayes) dengan asumsi
investigasi hubungan dua atau
independensi
lebih variabel. (Santosa, 2007)
penerapan
Teorema
pernah
(ketidakketergantungan)
yang
METODE PENELITIAN
kuat. (Prasetyo, 2012)
4. Decision Tree Algoritma ID3
Decision Tree
untuk
adalah metode
menemukan
fungsi
a. Penentuan Atribut
Tahap yang pertama
menganalisis
dan
adalah
menyeleksi
pendekatan yang bernilai diskrit
data
dan tahan terhadap data-data
mendapatkan
yang memiliki kesalahan (noisy
record yang relevan terhadap
data) serta mampu mempelajari
keluaran yang diinginkan.
ekspresi-ekspresi
disjunctive
keseluruhan
atribut
prediksi
penerima
Dychotomizer version 3 (ID3)
terdapat
dalam
OR.
adalah salah satu jenis decision
Tabel 1 Daftar Atribut
Atribut
Beasiswa
Nilai rata – rata
Gender
Ekstrakurikuler
Jurusan
Semester
Jumlah tanggungan orang tua
Gaji orang tua
dengan
Atribut yang digunakan dalam
Iterative
seperti
untuk
Variabel
Y
X1
X2
X3
X4
X5
X6
X7
beasiswa
tabel
1
dihitung berdasarkan Teoema
b. Implementasi Data Mining
Bayes. (Widiastuti, 2010)
1. Naive Bayes
adalah
Persamaan dari teorema Bayes
klasifikasi statistik yang bisa
dirumuskan seperti Persamaan
memprediksi
1 berikut ini :
Klaifikasi
Bayesian
probabilitas
sebuah class. Klasifikasi ini
.......... (1)
2. Decision Tree Algoritma ID3
Hal
yang
harus
dilakukan
dalam metode decision tree
adalah menghitung entrophy
dan information gain. (Ranny
dkk, 2012)
Persamaan 2 Rumus entrophy :
.........(2)
Persamaan 3 Rumus Information Gain
..................(3)
3. Regresi Linear
investigasi hubungan dua atau
Analisis regresi adalah teknik
lebih variabel. (Santosa, 2007)
statistik untuk permodelan dan
Persamaan 4 Rumus Regresi
Linear :
...............................................(4)
Rumus Slovin dirumuskan seperti
Persamaan 5 berikut ini :
HASIL DAN PEMBAHASAN
1. Penentuan Sampel
.......................... (5)
Untuk mendapatkan sampel yang
dapat
menggambarkan
dan
mewakili jumlah populasi, maka
dalam
penentuan
sampel
penelitian ini digunakan rumus
Slovin (Umar, 2004)
n = 1290 / 1 + 1290 (0,05)2
n = 305,325 siswa
Jadi
dibulatkan menjadi
305
siswa yang digunakan sebagai
data sampel.
Gambar 1 Scatter Plot NaiveBayes menggunakan data testing
2. Hasil
Implementasi
Bayes
Naive
menggunakan
Berdasarkan scatter plot pada
1
hasilnya
mayoritas
menunjukkan
bahwa
penerima beasiswa dengan nilai rata-
siswa yang MENERIMA beasiswa
tersebut.
4. Hasil
Implementasi
rata nilai≥8 dan jurusan BAHASA
Linear
sebagian
RapidMiner 5
ada
TIDAK
MENERIMA tetapi ada beberapa
RapidMiner 5
gambar
Sedangkan nilai≥8 dan Jurusan IPS
yang
menerima
Regresi
menggunakan
beasiswa. Sedangkan nilai≥8 dan
Berdasarkan scatter plot dalam
jurusan IPA hasilnya tidak ada yang
gambar
menerima beasiswa.
Algortima
ID3
menggunakan RapidMiner 5
Berdasarkan scatter plot dalam
gambar
2
menunjukkan
bahwa
6