IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELULUSAN MAHASISWA FAKULTAS KOMUNIKASI DAN INFORMATIKA UMS Implementasi Data Mining Untuk Memprediksi Kelulusan Mahasiswa Fakultas Komunikasi Dan Informatika UMS Menggunakan Metode Naive Bayes.
IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELULUSAN
MAHASISWA FAKULTAS KOMUNIKASI DAN INFORMATIKA UMS
MENGGUNAKAN METODE NAIVE BAYES
Makalah
Program Studi Teknik Informatika
Fakultas Komunikasi Dan Informatika
Diajukan Oleh :
Ahmad Fikri Mauriza
Yusuf Sulistyo Nugroho, S.T., M.Eng.
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS KOMUNIKASI DAN INFORMATIKA
UNIVERSITAS MUHAMMADIYAH SURAKARTA
JANUARI 2014
IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELULUSAN
MAHASISWA FAKULTAS KOMUNIKASI DAN INFORMATIKA UMS
MENGGUNAKAN METODE NAIVE BAYES
Ahmad Fikri Mauriza, Yusuf Sulistyo Nugroho
Teknik Informatika, Fakultas Komunikasi dan Informatika,
Universitas Muhammadiyah Surakarta
Email : Ahmadfikrimauriza@gmail.com
ABSTRACT
Faculty of Communication and Informatics in UMS has 2358 students
and 388 graduated students. By the great numbers of new student each year,
therefore, automatically it will create a huge number of data and the data stored
in the database. Will increase significantly In order to make the big data to be a
very useful information, the writer used data mining technique to predict the
students length of study. It is to measure whether they can graduate less than or
equal to 4 years or more based on the atributte used. Naive bayes method is used
to analyze in the knowing of pattern and to predict the students graduation. The
data needed is data from the graduated students as data training while the data
from the active students is for testing data. Based on the result of prediction from
342 tested data sample, there are only 86 students who will graduate on time or
only 25,15 % and the students who will be postponed in graduation is 256
students or it reaches 74,85 % from the whole data sample.
Keywords : Data Mining, Naive Bayes, Prediction
ABSTRAK
Fakultas komunikasi dan
informatika universitas muhammadiyah
surakarta memiliki jumlah 2358 mahasiswa dan memiliki lulusan 388 mahasiswa.
Dengan bertambah pesatnya jumlah mahasiswa baru setiap tahunnya maka
secara otomatis akan terciptanya data-data yang sangat banyak dan akan
bertambah melimpahnya data yang tersimpan dalam database. Agar data yang
awalnya sangat minim inoformasi tersebut dapat diubah menjadi suatu informasi
yang sangat bermanfaat dengan menggunakan teknik data mining. Salah satunya
dapat untuk memprediksi lama studi mahasiswa apakah dapat lulus kurang dari
sama dengan 4 tahun atau lebih dari 4 tahun berdasarkan atribut-atribut yang
digunakan. Metode naive bayes digunakan untuk menganalisis data dalam
pengenalan pola dan memprediksi kelulusan mahasiswa. Data yang dibutuhkan
adalah data-data mahasiswa yang sudah lulus sebagai data training sedangkan
data-data mahasiswa yang masih menempuh studi kuliah sebagai data uji.
Berdasarkan hasil prediksi dari jumlah 342 data sampel yang diuji hanya 86
mahasiswa yang akan lulus tepat waktu atau hanya sekitar 25,15 %, sedangkan
mahasiswa yang akan lulus terlambat berjumlah 256 mahasiswa mencapai
74,85% dari jumlah data sampel.
Kata Kunci : Data Mining, Naive Bayes, Prediksi
informasi-informasi berharga tersebut
PENDAHULUAN
Universitas Muhammadiyah
Surakarta
merupakan
salah
satu
diperlukan
adanya
teknik
data
mining. Data mining adalah teknik
universitas yang ada di Indonesia
untuk
yang
fakultas.
mendeskripsikan pola-pola yang ada
dan
dalam data sebagai sebuah alat untuk
Informatika merupakan salah satunya
membantu menjelaskan data tersebut
yang
dan membuat prakiraan dari data itu
terdiri
Fakulkas
beberapa
Komunikasi
berada
di
Universitas
Muhammadiyah Surakarta. Sampai
menemukan
(Witten & Eibe Frank, 2005).
bulan Oktober 2013 kini fakultas ini
sudah
memiliki
dengan
2358 mahasiswa
jumlah
lulusan
388
dan
Dalam
buku
panduan
akademik Fakultas Komunikasi dan
Informatika
Universitas
mahasiswa. Jumlah tersebut sudah
Muhammadiyah Surakarta tahun 2012
tidak kecil lagi bagi fakultas yang
pada BAB 2 disebutkan bahwa
sudah berusia 7 tahun ini, Fakultas
“beban
tentu
pendidikan strata satu (S-1) beban
memiliki
mengenai
segudang
mahasiswanya
data
meliputi:
studi
mahasiswa
program
harus ditempuh minimal 144
data induk mahasiswa dan data
satuan kredit semester (SKS) dan
kelulusan mahasiswa.
maksimal 148 satuan kredit semester
Bertumpuknya data-data ini
(SKS), dengan batas waktu kurang
tentu belum digunakan secara optimal
dari 8 semester dan waktu paling
padahal
lama 14 semester”.
tersebut
informasi
tumpukan-tumpukan
dapat
yang
suatu
Tujuan dari penelitian ini yaitu
berharga.
memprediksi masa studi mahasiswa
dijadikan
sangat
data
Untuk membantu dalam menemukan
di
Fakultas
Komunikasi
dan
Informatika
Universitas
Muhammadiyah
Surakarta
menggunakan metode Naive Bayes.
dari 8 semester dan waktu paling
lama
14
semester.
Mahasiswa
dinyatakan lulus apabila ketentuan
diatas dilaksanakan dan tidak ada
LANDASAN TEORI
tanggungan
administrasi
1. Prediksi
adminitrasi
akademik
Prediksi adalah memperkirakan
(Anonim, 2012).
sesuatu yang akan terjadi pada masa
3. Naive Bayes
Naive
yang mendatang. Prediksi didapatkan
Bayes
di
biro
(BAA)
merupakan
melalui metode ilmiah maupun hanya
teknik prediksi berbasis probabilistik
subjektif belaka. Prediksi juga dapat
sederhana
yang
digunakan dalam pengklasifikasian,
penerapan
Teorema
tidak hanya untuk memprediksi time
aturan
series, karena sifatnya yang bisa
independensi
menghasilkan
class
berdasarkan
Bayes)
berdasar
Bayes
dengan
pada
(atau
asumsi
(ketidaktergantungan)
yang kuat. (Prasetyo, 2012)
berbagai atribut yang kita sediakan
(Susanto, 2012).
METODOLOGI PENELITIAN
2. Kelulusan Mahasiswa
a. Penentuan Atribut
Kelulusan
tanda
Dalam memprediksi kelulusan
dalam
mahasiswa maka diperlukan data-data
menyelesai pendidikan pada jenjang
seluruh mahasiswa baik yang sudah
sarjana. Kelulusan juga merupakan
lulus maupun yang belum lulus.
hasil
yang
Semua data-data diperoleh dari Biro
menempuh
Administrasi Akademik (BAA) dan
berakhirnya
akhir
membanggakan
suatu
mahasiswa
mahasiswa
pencapaian
dalam
pendidikan
pada
jenjang
Laboratorium Fakultas Komunikasi
tertentu. Beban mahasiswa program
dan
Informatika.
pendidikan strata satu (S-1) beban
digunakan sebagai data training yaitu
studi
harus ditempuh minimal 144
mahasiswa yang sudah lulus dari
satuan kredit semester (SKS) dan
angkatan 2007 sampai angkatan 2009,
maksimal 148 satuan kredit semester
sedangkan
(SKS), dengan batas waktu kurang
sebagai data uji yaitu mahasiswa yang
data
Data
yang
yang
digunakan
masih aktif mengikuti perkuliahan
diambil sampel secara acak. Atributatribut yang akan digunakan yaitu:
(1)
Tabel 1 Daftar Atribut
Atribut
Isi dalam Atribut-
Bahwa :
n = jumlah sampel
Atribut
Jurusan asal IPA, IPS dan Lain
N = jumlah populasi
sekolah
e = nilai toleransi
Gender
c. Diubah dalam format Arff
Pria dan Wanita
Daerah
Surakarta
Asal sekolah
Surakarta dan Luar
diubah
ke
excel
dalam
kemudian
format
Arff
(Attribute Relation File Format )
Surakarta
SKS SKS ≤ 18 dan SKS
supaya dapat diolah dalam aplikasi
weka.
(satuan kredit > 18
d. Penggunaan Metode
semester)
Rata
microsoft
dalam
mahasiswa
Rata
Data-data yang telah diolah
asal Surakarta dan Luar
MK MK ≤ 7 dan MK >
penelitian ini yaitu naive bayes untuk
(Mata kuliah)
7
Asisten Lab
Ya dan Tidak
Lama studi
Tepat (lulus ≤ 4
tahun)
memprediksi masa studi mahasiswa
dan
Terlambat (lulus >
jumlah
sampel yang akan digunakan dalam
menggambar dari jumlah
populasi
menggunakan bantuan metode slovin
dengan nilai maksimal e = 5 %
(Umar, 2004).
Komunikasi
dan
Informatika. Pemilihan metode ini
dikarenakan relatif mudah digunakan
optimasi
b. Penentuan sampel
menentukan
Fakultas
karena tidak ada perkalian matrik atau
4 tahun)
Untuk
Metode yang digunakan dalam
numerik,
lebih
efisien
apabila digunakan untuk memprediksi
dalam jumlah yang sangat besar, dan
memiliki tingkat keakurasian yang
relatif tinggi dalam hasil prediksi.
Metode naive bayes juga sering
disebut dengan algoritma HMAP
(Hypothesis
Maximum
Apriori
Probability)
yang
merupakan
penyederhanaan dari metode bayes.
Metode ini menyatakan hipotesa dari
menggunakan
n = 2358 / 1 + 2358 x (0,05)2
probabilitas berdasarkan kondisi prior
n = 2358 / 1 + 2358 x 0,0025
(Prasetyo, 2012).
n = 2358 / 1 + 5,895
penghitungan
n = 2358 / 6,895
n = 341,9869 mahasiswa
Jadi dibulatkan menjadi 342
(2)
mahasiswa yang digunakan bahan
sampling untuk data uji.
HASIL DAN PEMBAHASAN
b.
a. Pengambilan sampel
Pengubahan format
Pengubahan format dari format
Apabila diketahui mahasiswa
.xls dibuah menjadi .arff diperlukan
Fakultas Komunikasi dan Informatika
aplikasi pembantu yaitu Excel2Arff
Universitas
Conventer. Agar dapat dibuka dan
Surakarta
Muhammadiyah
memiliki
jumlah
2358
diolah dalam aplikasi weka. Gambar
mahasiswa dan memiliki toleransi
pemrosesan konverter dapat dilihat
ketidaktelitian 5%. Maka jumlah
pada Gambar.1.
sampel yang diambil yaitu:
Gambar 1. Proses konverter
X5 = Rata-rata SKS
c. Perhitungan Naive Bayes
Sebagai contoh di ambilkan
X6 = Rata-rata mata kuliah
satu data uji yang memiliki ciri
X7 = Asisten
sebagai berikut: IPS, Pria, memiliki
Fakta menunjukkan :
alamat luar surakarta, asal sekolah
P( Y =TEPAT)= 73/341= 0,214076
luar surakarta, SKS
MAHASISWA FAKULTAS KOMUNIKASI DAN INFORMATIKA UMS
MENGGUNAKAN METODE NAIVE BAYES
Makalah
Program Studi Teknik Informatika
Fakultas Komunikasi Dan Informatika
Diajukan Oleh :
Ahmad Fikri Mauriza
Yusuf Sulistyo Nugroho, S.T., M.Eng.
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS KOMUNIKASI DAN INFORMATIKA
UNIVERSITAS MUHAMMADIYAH SURAKARTA
JANUARI 2014
IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELULUSAN
MAHASISWA FAKULTAS KOMUNIKASI DAN INFORMATIKA UMS
MENGGUNAKAN METODE NAIVE BAYES
Ahmad Fikri Mauriza, Yusuf Sulistyo Nugroho
Teknik Informatika, Fakultas Komunikasi dan Informatika,
Universitas Muhammadiyah Surakarta
Email : Ahmadfikrimauriza@gmail.com
ABSTRACT
Faculty of Communication and Informatics in UMS has 2358 students
and 388 graduated students. By the great numbers of new student each year,
therefore, automatically it will create a huge number of data and the data stored
in the database. Will increase significantly In order to make the big data to be a
very useful information, the writer used data mining technique to predict the
students length of study. It is to measure whether they can graduate less than or
equal to 4 years or more based on the atributte used. Naive bayes method is used
to analyze in the knowing of pattern and to predict the students graduation. The
data needed is data from the graduated students as data training while the data
from the active students is for testing data. Based on the result of prediction from
342 tested data sample, there are only 86 students who will graduate on time or
only 25,15 % and the students who will be postponed in graduation is 256
students or it reaches 74,85 % from the whole data sample.
Keywords : Data Mining, Naive Bayes, Prediction
ABSTRAK
Fakultas komunikasi dan
informatika universitas muhammadiyah
surakarta memiliki jumlah 2358 mahasiswa dan memiliki lulusan 388 mahasiswa.
Dengan bertambah pesatnya jumlah mahasiswa baru setiap tahunnya maka
secara otomatis akan terciptanya data-data yang sangat banyak dan akan
bertambah melimpahnya data yang tersimpan dalam database. Agar data yang
awalnya sangat minim inoformasi tersebut dapat diubah menjadi suatu informasi
yang sangat bermanfaat dengan menggunakan teknik data mining. Salah satunya
dapat untuk memprediksi lama studi mahasiswa apakah dapat lulus kurang dari
sama dengan 4 tahun atau lebih dari 4 tahun berdasarkan atribut-atribut yang
digunakan. Metode naive bayes digunakan untuk menganalisis data dalam
pengenalan pola dan memprediksi kelulusan mahasiswa. Data yang dibutuhkan
adalah data-data mahasiswa yang sudah lulus sebagai data training sedangkan
data-data mahasiswa yang masih menempuh studi kuliah sebagai data uji.
Berdasarkan hasil prediksi dari jumlah 342 data sampel yang diuji hanya 86
mahasiswa yang akan lulus tepat waktu atau hanya sekitar 25,15 %, sedangkan
mahasiswa yang akan lulus terlambat berjumlah 256 mahasiswa mencapai
74,85% dari jumlah data sampel.
Kata Kunci : Data Mining, Naive Bayes, Prediksi
informasi-informasi berharga tersebut
PENDAHULUAN
Universitas Muhammadiyah
Surakarta
merupakan
salah
satu
diperlukan
adanya
teknik
data
mining. Data mining adalah teknik
universitas yang ada di Indonesia
untuk
yang
fakultas.
mendeskripsikan pola-pola yang ada
dan
dalam data sebagai sebuah alat untuk
Informatika merupakan salah satunya
membantu menjelaskan data tersebut
yang
dan membuat prakiraan dari data itu
terdiri
Fakulkas
beberapa
Komunikasi
berada
di
Universitas
Muhammadiyah Surakarta. Sampai
menemukan
(Witten & Eibe Frank, 2005).
bulan Oktober 2013 kini fakultas ini
sudah
memiliki
dengan
2358 mahasiswa
jumlah
lulusan
388
dan
Dalam
buku
panduan
akademik Fakultas Komunikasi dan
Informatika
Universitas
mahasiswa. Jumlah tersebut sudah
Muhammadiyah Surakarta tahun 2012
tidak kecil lagi bagi fakultas yang
pada BAB 2 disebutkan bahwa
sudah berusia 7 tahun ini, Fakultas
“beban
tentu
pendidikan strata satu (S-1) beban
memiliki
mengenai
segudang
mahasiswanya
data
meliputi:
studi
mahasiswa
program
harus ditempuh minimal 144
data induk mahasiswa dan data
satuan kredit semester (SKS) dan
kelulusan mahasiswa.
maksimal 148 satuan kredit semester
Bertumpuknya data-data ini
(SKS), dengan batas waktu kurang
tentu belum digunakan secara optimal
dari 8 semester dan waktu paling
padahal
lama 14 semester”.
tersebut
informasi
tumpukan-tumpukan
dapat
yang
suatu
Tujuan dari penelitian ini yaitu
berharga.
memprediksi masa studi mahasiswa
dijadikan
sangat
data
Untuk membantu dalam menemukan
di
Fakultas
Komunikasi
dan
Informatika
Universitas
Muhammadiyah
Surakarta
menggunakan metode Naive Bayes.
dari 8 semester dan waktu paling
lama
14
semester.
Mahasiswa
dinyatakan lulus apabila ketentuan
diatas dilaksanakan dan tidak ada
LANDASAN TEORI
tanggungan
administrasi
1. Prediksi
adminitrasi
akademik
Prediksi adalah memperkirakan
(Anonim, 2012).
sesuatu yang akan terjadi pada masa
3. Naive Bayes
Naive
yang mendatang. Prediksi didapatkan
Bayes
di
biro
(BAA)
merupakan
melalui metode ilmiah maupun hanya
teknik prediksi berbasis probabilistik
subjektif belaka. Prediksi juga dapat
sederhana
yang
digunakan dalam pengklasifikasian,
penerapan
Teorema
tidak hanya untuk memprediksi time
aturan
series, karena sifatnya yang bisa
independensi
menghasilkan
class
berdasarkan
Bayes)
berdasar
Bayes
dengan
pada
(atau
asumsi
(ketidaktergantungan)
yang kuat. (Prasetyo, 2012)
berbagai atribut yang kita sediakan
(Susanto, 2012).
METODOLOGI PENELITIAN
2. Kelulusan Mahasiswa
a. Penentuan Atribut
Kelulusan
tanda
Dalam memprediksi kelulusan
dalam
mahasiswa maka diperlukan data-data
menyelesai pendidikan pada jenjang
seluruh mahasiswa baik yang sudah
sarjana. Kelulusan juga merupakan
lulus maupun yang belum lulus.
hasil
yang
Semua data-data diperoleh dari Biro
menempuh
Administrasi Akademik (BAA) dan
berakhirnya
akhir
membanggakan
suatu
mahasiswa
mahasiswa
pencapaian
dalam
pendidikan
pada
jenjang
Laboratorium Fakultas Komunikasi
tertentu. Beban mahasiswa program
dan
Informatika.
pendidikan strata satu (S-1) beban
digunakan sebagai data training yaitu
studi
harus ditempuh minimal 144
mahasiswa yang sudah lulus dari
satuan kredit semester (SKS) dan
angkatan 2007 sampai angkatan 2009,
maksimal 148 satuan kredit semester
sedangkan
(SKS), dengan batas waktu kurang
sebagai data uji yaitu mahasiswa yang
data
Data
yang
yang
digunakan
masih aktif mengikuti perkuliahan
diambil sampel secara acak. Atributatribut yang akan digunakan yaitu:
(1)
Tabel 1 Daftar Atribut
Atribut
Isi dalam Atribut-
Bahwa :
n = jumlah sampel
Atribut
Jurusan asal IPA, IPS dan Lain
N = jumlah populasi
sekolah
e = nilai toleransi
Gender
c. Diubah dalam format Arff
Pria dan Wanita
Daerah
Surakarta
Asal sekolah
Surakarta dan Luar
diubah
ke
excel
dalam
kemudian
format
Arff
(Attribute Relation File Format )
Surakarta
SKS SKS ≤ 18 dan SKS
supaya dapat diolah dalam aplikasi
weka.
(satuan kredit > 18
d. Penggunaan Metode
semester)
Rata
microsoft
dalam
mahasiswa
Rata
Data-data yang telah diolah
asal Surakarta dan Luar
MK MK ≤ 7 dan MK >
penelitian ini yaitu naive bayes untuk
(Mata kuliah)
7
Asisten Lab
Ya dan Tidak
Lama studi
Tepat (lulus ≤ 4
tahun)
memprediksi masa studi mahasiswa
dan
Terlambat (lulus >
jumlah
sampel yang akan digunakan dalam
menggambar dari jumlah
populasi
menggunakan bantuan metode slovin
dengan nilai maksimal e = 5 %
(Umar, 2004).
Komunikasi
dan
Informatika. Pemilihan metode ini
dikarenakan relatif mudah digunakan
optimasi
b. Penentuan sampel
menentukan
Fakultas
karena tidak ada perkalian matrik atau
4 tahun)
Untuk
Metode yang digunakan dalam
numerik,
lebih
efisien
apabila digunakan untuk memprediksi
dalam jumlah yang sangat besar, dan
memiliki tingkat keakurasian yang
relatif tinggi dalam hasil prediksi.
Metode naive bayes juga sering
disebut dengan algoritma HMAP
(Hypothesis
Maximum
Apriori
Probability)
yang
merupakan
penyederhanaan dari metode bayes.
Metode ini menyatakan hipotesa dari
menggunakan
n = 2358 / 1 + 2358 x (0,05)2
probabilitas berdasarkan kondisi prior
n = 2358 / 1 + 2358 x 0,0025
(Prasetyo, 2012).
n = 2358 / 1 + 5,895
penghitungan
n = 2358 / 6,895
n = 341,9869 mahasiswa
Jadi dibulatkan menjadi 342
(2)
mahasiswa yang digunakan bahan
sampling untuk data uji.
HASIL DAN PEMBAHASAN
b.
a. Pengambilan sampel
Pengubahan format
Pengubahan format dari format
Apabila diketahui mahasiswa
.xls dibuah menjadi .arff diperlukan
Fakultas Komunikasi dan Informatika
aplikasi pembantu yaitu Excel2Arff
Universitas
Conventer. Agar dapat dibuka dan
Surakarta
Muhammadiyah
memiliki
jumlah
2358
diolah dalam aplikasi weka. Gambar
mahasiswa dan memiliki toleransi
pemrosesan konverter dapat dilihat
ketidaktelitian 5%. Maka jumlah
pada Gambar.1.
sampel yang diambil yaitu:
Gambar 1. Proses konverter
X5 = Rata-rata SKS
c. Perhitungan Naive Bayes
Sebagai contoh di ambilkan
X6 = Rata-rata mata kuliah
satu data uji yang memiliki ciri
X7 = Asisten
sebagai berikut: IPS, Pria, memiliki
Fakta menunjukkan :
alamat luar surakarta, asal sekolah
P( Y =TEPAT)= 73/341= 0,214076
luar surakarta, SKS