IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELULUSAN MAHASISWA FAKULTAS KOMUNIKASI DAN INFORMATIKA UMS Implementasi Data Mining Untuk Memprediksi Kelulusan Mahasiswa Fakultas Komunikasi Dan Informatika UMS Menggunakan Metode Naive Bayes.

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELULUSAN
MAHASISWA FAKULTAS KOMUNIKASI DAN INFORMATIKA UMS
MENGGUNAKAN METODE NAIVE BAYES

Makalah
Program Studi Teknik Informatika
Fakultas Komunikasi Dan Informatika

Diajukan Oleh :
Ahmad Fikri Mauriza
Yusuf Sulistyo Nugroho, S.T., M.Eng.

PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS KOMUNIKASI DAN INFORMATIKA
UNIVERSITAS MUHAMMADIYAH SURAKARTA
JANUARI 2014

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELULUSAN
MAHASISWA FAKULTAS KOMUNIKASI DAN INFORMATIKA UMS
MENGGUNAKAN METODE NAIVE BAYES
Ahmad Fikri Mauriza, Yusuf Sulistyo Nugroho

Teknik Informatika, Fakultas Komunikasi dan Informatika,
Universitas Muhammadiyah Surakarta
Email : Ahmadfikrimauriza@gmail.com

ABSTRACT
Faculty of Communication and Informatics in UMS has 2358 students
and 388 graduated students. By the great numbers of new student each year,
therefore, automatically it will create a huge number of data and the data stored
in the database. Will increase significantly In order to make the big data to be a
very useful information, the writer used data mining technique to predict the
students length of study. It is to measure whether they can graduate less than or
equal to 4 years or more based on the atributte used. Naive bayes method is used
to analyze in the knowing of pattern and to predict the students graduation. The
data needed is data from the graduated students as data training while the data
from the active students is for testing data. Based on the result of prediction from
342 tested data sample, there are only 86 students who will graduate on time or
only 25,15 % and the students who will be postponed in graduation is 256
students or it reaches 74,85 % from the whole data sample.
Keywords : Data Mining, Naive Bayes, Prediction
ABSTRAK

Fakultas komunikasi dan
informatika universitas muhammadiyah
surakarta memiliki jumlah 2358 mahasiswa dan memiliki lulusan 388 mahasiswa.
Dengan bertambah pesatnya jumlah mahasiswa baru setiap tahunnya maka
secara otomatis akan terciptanya data-data yang sangat banyak dan akan
bertambah melimpahnya data yang tersimpan dalam database. Agar data yang
awalnya sangat minim inoformasi tersebut dapat diubah menjadi suatu informasi
yang sangat bermanfaat dengan menggunakan teknik data mining. Salah satunya
dapat untuk memprediksi lama studi mahasiswa apakah dapat lulus kurang dari
sama dengan 4 tahun atau lebih dari 4 tahun berdasarkan atribut-atribut yang
digunakan. Metode naive bayes digunakan untuk menganalisis data dalam
pengenalan pola dan memprediksi kelulusan mahasiswa. Data yang dibutuhkan
adalah data-data mahasiswa yang sudah lulus sebagai data training sedangkan

data-data mahasiswa yang masih menempuh studi kuliah sebagai data uji.
Berdasarkan hasil prediksi dari jumlah 342 data sampel yang diuji hanya 86
mahasiswa yang akan lulus tepat waktu atau hanya sekitar 25,15 %, sedangkan
mahasiswa yang akan lulus terlambat berjumlah 256 mahasiswa mencapai
74,85% dari jumlah data sampel.
Kata Kunci : Data Mining, Naive Bayes, Prediksi


informasi-informasi berharga tersebut

PENDAHULUAN
Universitas Muhammadiyah
Surakarta

merupakan

salah

satu

diperlukan

adanya

teknik

data


mining. Data mining adalah teknik

universitas yang ada di Indonesia

untuk

yang

fakultas.

mendeskripsikan pola-pola yang ada

dan

dalam data sebagai sebuah alat untuk

Informatika merupakan salah satunya

membantu menjelaskan data tersebut


yang

dan membuat prakiraan dari data itu

terdiri

Fakulkas

beberapa
Komunikasi

berada

di

Universitas

Muhammadiyah Surakarta. Sampai


menemukan

(Witten & Eibe Frank, 2005).

bulan Oktober 2013 kini fakultas ini
sudah

memiliki

dengan

2358 mahasiswa

jumlah

lulusan

388

dan


Dalam

buku

panduan

akademik Fakultas Komunikasi dan
Informatika

Universitas

mahasiswa. Jumlah tersebut sudah

Muhammadiyah Surakarta tahun 2012

tidak kecil lagi bagi fakultas yang

pada BAB 2 disebutkan bahwa


sudah berusia 7 tahun ini, Fakultas

“beban

tentu

pendidikan strata satu (S-1) beban

memiliki

mengenai

segudang

mahasiswanya

data

meliputi:


studi

mahasiswa

program

harus ditempuh minimal 144

data induk mahasiswa dan data

satuan kredit semester (SKS) dan

kelulusan mahasiswa.

maksimal 148 satuan kredit semester

Bertumpuknya data-data ini

(SKS), dengan batas waktu kurang


tentu belum digunakan secara optimal

dari 8 semester dan waktu paling

padahal

lama 14 semester”.

tersebut
informasi

tumpukan-tumpukan
dapat
yang

suatu

Tujuan dari penelitian ini yaitu

berharga.


memprediksi masa studi mahasiswa

dijadikan
sangat

data

Untuk membantu dalam menemukan

di

Fakultas

Komunikasi

dan

Informatika

Universitas

Muhammadiyah

Surakarta

menggunakan metode Naive Bayes.

dari 8 semester dan waktu paling
lama

14

semester.

Mahasiswa

dinyatakan lulus apabila ketentuan
diatas dilaksanakan dan tidak ada

LANDASAN TEORI

tanggungan

administrasi

1. Prediksi

adminitrasi

akademik

Prediksi adalah memperkirakan

(Anonim, 2012).

sesuatu yang akan terjadi pada masa

3. Naive Bayes
Naive

yang mendatang. Prediksi didapatkan

Bayes

di

biro

(BAA)

merupakan

melalui metode ilmiah maupun hanya

teknik prediksi berbasis probabilistik

subjektif belaka. Prediksi juga dapat

sederhana

yang

digunakan dalam pengklasifikasian,

penerapan

Teorema

tidak hanya untuk memprediksi time

aturan

series, karena sifatnya yang bisa

independensi

menghasilkan

class

berdasarkan

Bayes)

berdasar
Bayes

dengan

pada
(atau
asumsi

(ketidaktergantungan)

yang kuat. (Prasetyo, 2012)

berbagai atribut yang kita sediakan
(Susanto, 2012).

METODOLOGI PENELITIAN

2. Kelulusan Mahasiswa

a. Penentuan Atribut

Kelulusan

tanda

Dalam memprediksi kelulusan

dalam

mahasiswa maka diperlukan data-data

menyelesai pendidikan pada jenjang

seluruh mahasiswa baik yang sudah

sarjana. Kelulusan juga merupakan

lulus maupun yang belum lulus.

hasil

yang

Semua data-data diperoleh dari Biro

menempuh

Administrasi Akademik (BAA) dan

berakhirnya

akhir

membanggakan
suatu

mahasiswa
mahasiswa

pencapaian
dalam

pendidikan

pada

jenjang

Laboratorium Fakultas Komunikasi

tertentu. Beban mahasiswa program

dan

Informatika.

pendidikan strata satu (S-1) beban

digunakan sebagai data training yaitu

studi

harus ditempuh minimal 144

mahasiswa yang sudah lulus dari

satuan kredit semester (SKS) dan

angkatan 2007 sampai angkatan 2009,

maksimal 148 satuan kredit semester

sedangkan

(SKS), dengan batas waktu kurang

sebagai data uji yaitu mahasiswa yang

data

Data

yang

yang

digunakan

masih aktif mengikuti perkuliahan
diambil sampel secara acak. Atributatribut yang akan digunakan yaitu:
(1)
Tabel 1 Daftar Atribut
Atribut
Isi dalam Atribut-

Bahwa :
n = jumlah sampel

Atribut
Jurusan asal IPA, IPS dan Lain

N = jumlah populasi

sekolah

e = nilai toleransi

Gender

c. Diubah dalam format Arff

Pria dan Wanita

Daerah

Surakarta

Asal sekolah

Surakarta dan Luar

diubah

ke

excel

dalam

kemudian

format

Arff

(Attribute Relation File Format )

Surakarta
SKS SKS ≤ 18 dan SKS

supaya dapat diolah dalam aplikasi
weka.

(satuan kredit > 18

d. Penggunaan Metode

semester)
Rata

microsoft

dalam

mahasiswa

Rata

Data-data yang telah diolah

asal Surakarta dan Luar

MK MK ≤ 7 dan MK >

penelitian ini yaitu naive bayes untuk

(Mata kuliah)

7

Asisten Lab

Ya dan Tidak

Lama studi

Tepat (lulus ≤ 4
tahun)

memprediksi masa studi mahasiswa

dan

Terlambat (lulus >

jumlah

sampel yang akan digunakan dalam
menggambar dari jumlah

populasi

menggunakan bantuan metode slovin
dengan nilai maksimal e = 5 %
(Umar, 2004).

Komunikasi

dan

Informatika. Pemilihan metode ini
dikarenakan relatif mudah digunakan

optimasi

b. Penentuan sampel
menentukan

Fakultas

karena tidak ada perkalian matrik atau

4 tahun)

Untuk

Metode yang digunakan dalam

numerik,

lebih

efisien

apabila digunakan untuk memprediksi
dalam jumlah yang sangat besar, dan
memiliki tingkat keakurasian yang
relatif tinggi dalam hasil prediksi.
Metode naive bayes juga sering
disebut dengan algoritma HMAP
(Hypothesis

Maximum

Apriori

Probability)

yang

merupakan

penyederhanaan dari metode bayes.
Metode ini menyatakan hipotesa dari
menggunakan

n = 2358 / 1 + 2358 x (0,05)2

probabilitas berdasarkan kondisi prior

n = 2358 / 1 + 2358 x 0,0025

(Prasetyo, 2012).

n = 2358 / 1 + 5,895

penghitungan

n = 2358 / 6,895
n = 341,9869 mahasiswa
Jadi dibulatkan menjadi 342
(2)

mahasiswa yang digunakan bahan
sampling untuk data uji.

HASIL DAN PEMBAHASAN
b.
a. Pengambilan sampel

Pengubahan format
Pengubahan format dari format

Apabila diketahui mahasiswa

.xls dibuah menjadi .arff diperlukan

Fakultas Komunikasi dan Informatika

aplikasi pembantu yaitu Excel2Arff

Universitas

Conventer. Agar dapat dibuka dan

Surakarta

Muhammadiyah
memiliki

jumlah

2358

diolah dalam aplikasi weka. Gambar

mahasiswa dan memiliki toleransi

pemrosesan konverter dapat dilihat

ketidaktelitian 5%. Maka jumlah

pada Gambar.1.

sampel yang diambil yaitu:

Gambar 1. Proses konverter
X5 = Rata-rata SKS

c. Perhitungan Naive Bayes
Sebagai contoh di ambilkan

X6 = Rata-rata mata kuliah

satu data uji yang memiliki ciri

X7 = Asisten

sebagai berikut: IPS, Pria, memiliki

Fakta menunjukkan :

alamat luar surakarta, asal sekolah

P( Y =TEPAT)= 73/341= 0,214076

luar surakarta, SKS