KOMPARASI ALGORITMA C4.5 DENGAN NAÏVE BAYES UNTUK KLASIFIKASI KELULUSAN MAHASISWA TEPAT WAKTU DI PTS “KZX” Satrio Agung Prakoso

  KOMPUTAKI Vol.3, No.1 Februari 2017 KOMPARASI ALGORITMA C4.5 DENGAN NAÏVE BAYES UNTUK KLASIFIKASI KELULUSAN MAHASISWA TEPAT WAK TU DI PTS “KZX”

  

1

  2 Satrio Agung Prakoso , Eli Tias Tutik Satrioprakoso70@gmail.com Abstrak

  Perguruan tinggi merupakan satuan pendidikan yang menjadi terminal terakhir bagi seseorang yang berpeluang belajar setinggi-tingginya melalui jalur pendidikan sekolah (Nawawi & Martini, 1994). Perguruan tinggi saat ini dituntut untuk memiliki keunggulan bersaing dengan memanfaatkan semua sumber daya yang dimiliki.Sistem informasi adalah salah satu sumber daya yang dapat digunakan untuk meningkatkan keunggulan bersaing.

  Tingginya tingkat keberhasilan mahasiswa dan rendahnya tingkat kegagalan mahasiswa merupakan cermin kualitas dari suatu perguruan tinggi. Tingkat kelulusan dianggap sebagai salah satu efektivitas kelembagaan (Qudri & Kalyankar, 2010). Sehingga memerhatikan jumlah kelulusan suatu perguruan tinggi menjadi hal penting. Saat ini perguruan tinggi berada dalam lingkungan yang sangat kompetitif. Setiap perguruan tinggi berusaha untuk terus memperbaiki manajemennya untuk meningkatkan mutu pendidikan.

  Data mining merupakan analisis dari peninjuauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang berbeda dari sebelumnya, yang dapat dipahami dan bermanfaat bagi pemilik data (Larose, 2005). Salah satu teknik data mining adalah teknik klasifikasi..

  Teknik klasifikasi adalah teknik pembelajaran untuk mengklasifikasikan suatu nilai dari target variabel kategori. Algoritma yang digunakan dalam teknik klasifikasi adalah algoritma C4.5 dan Naïve Bayes. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk decision tree. Sedangkan klasifikasi Bayesian adalah pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu class Kata kunci : Tingkat kelulusan, Datamining,Klasifikasi, C4.5, Bayesian.

  1.

  peningkatan data. Terutama data-data siswa

   Pendahuluan

  Kebutuhan akan informasi pada saat dan mahasiswa yang terus bertambah dari ini semakin meningkat bersamaan dengan tahun ke tahun. Jumlah data yang terus perkembangan teknologi yang semakin pesat. meningkat ini memerlukan beberapa metode Semakin banyak informasi yang dibutuhkan untuk mengolah dan mengambil kesimpulan maka data yang dibutuhkan juga semakin dan informasi dari data tersebut. Banyak banyak dan jumlahnya akan semakin besar. sekali data-data yang dihasilkan oleh Kebutuhan akan jumlah data yang besar dapat teknologi informasi mengenai mahasiswa dan ditemukan dalam dunia pendidikan. Hal ini proses perkuliahan yang dilakukan. dikarenakan, setiap tahun ajaran terjadi Tingginya tingkat keberhasilan Salah satu teknik data mining adalah teknik mahasiswa dan rendahnya tingkat kegagalan klasifikasi. Teknik klasifikasi adalah teknik mahasiswa merupakan cermin kualitas dari pembelajaran untuk prediksi suatu nilai dari suatu perguruan tinggi. Tingkat kelulusan target actor i kategori. Algoritma yang dianggap sebagai salah satu efektivitas digunakan dalam teknik klasifikasi adalah kelembagaan (Qudri & Kalyankar, 2010). algoritma C4.5 dan Naïve Bayes. Algoritma Sehingga memerhatikan jumlah kelulusan C4.5 merupakan algoritma yang digunakan suatu perguruan tinggi menjadi hal penting. untuk membentuk decision tree. C4.5 adalah Saat ini instansi perguruan tinggi berada algoritma yang sudah banyak dikenal dan dalam lingkungan yang sangat kompetitif. digunakan untuk klasifikasi data yang Setiap perguruan tinggi berusaha untuk terus memiliki atribut-atribut actor dan memperbaiki manajemennya untuk kategorial. Sedangkan klasifikasi Bayesian meningkatkan mutu.Selain itu wisuda tepat adalah pengklasifikasian actor ic yang waktu merupakan isu yang penting karena dapat digunakan untuk memprediksi tingkat kelulusan sebagai dasar efektifnya probabilitas keanggotaan suatu class. suatu perguruan tinggi. Namun, kendala yang sering terjadi adalah banyaknya mahasiswa

  2. Kajian Pustaka

  yang tidak lulus sesuai dengan waktu studi Literatur mengenai pembahasan yang telah ditetapkan. Untuk mengetahui klasifikasi kelulusan mahasiswa telah tingkat kelulusan mahasiswa dalam satu tahun banyak dilakukan dengan beberapa ajaran dapat dilakukan suatu klasifikasi berdasarkan data-data mahasiswa pada tingkat metode. Berikut dijabarkan beberapa atau tahun ajaran pertama. metode yang pernah digunakan untuk

  Data mining merupakan analisis dari menyelesaikan masalah kelulusan peninjuauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas mahasiswa al: data dengan cara yang berbeda dari

  Penelitian yang dilakukan oleh Qudri dan sebelumnya, yang dapat dipahami dan Kalanyar pada tahun 2010 dengan judul bermanfaat bagi pemilik data (Larose, 2005).

  Drop Out Feature of Student Data for Academic Performance Using Decision Tree techniques. Masalah dalam penelitian

  ini adalah prestasi akademik siswa sangat penting bagi lembaga pendidikan karena program-program strategis dapat direncanakan untuk meningkatkan atau mempertahankan kinerja siswa selama periode mereka studi. Kinerja akademik dalam penelitian ini diukur oleh indek kumulatif rata-rata setelah lulus. Hal ini penting untuk memahami actor-faktor penentu tingkat penyelesaian yang sukses dan tepat waktu. Metode yang digunakan adalah Decision Tree, yakni algoritma C4.5. Hasil penelitian ini adalah sebuah pohon keputusan yang dapat dijadikan rule bagi prediksi siswa yang putus sekolah (Qudri & Kaylanyar, 2010) Penelitian yang dilakukan oleh Suhartina dan Ernastuti pada tahun 2010 dengan judul Graduation Prediction of

  Gunadarma University Students Using Algorithm and Naïve Bayes C4.5 Algoritmh. Masalah dalam penelitian ini

  adalah banyaknya mahasiswa yang tidak lulus sesuai dengan waktu studi yang telah ditetapkan. Untuk mengetahui tingkat kelulusan mahasiswa dalam satu tahun ajaran dapat dilakukan suatu prediksi berdasarkan data-data mahasiswa pada tingkat atau tahun ajaran pertama. Algoritma yang digunakan adalah C45 dan naïve bayes. Hasil dari penelitian ini adalah akurasi dengan dua metode tersebut yakni akurasi untuk metode naïve bayes adalah 80,85% dengan presentasi kesalahan 19,05% Akurasi ketepatan hasil prediksi C4.5 85.7%, dan presentasi kesalahannya adalah 14,3% (Suhartina & Ernastuti, 2010)

  2.1 Kelulusan Mahasiswa

  Dalam setiap fakultas ataupun jurusan pada suatu universitas jarang sekali bahkan tidak pernah terjadi dimana jumlah mahasiswa yang diterima akan mengakhiri masa perkuliahannya pada waktu bersamaan dengan jumlah yang sama pula pada saat diterima di fakultas tersebut (Siregar, 2006).

  Kelulusan mahasiswa adalah hal yang penting diperhatikan, karena penurunan jumlah kelulusan akan menghilangkan jumlah pendapatan institusi dan mempengaruhi penilaian pemerintah serta memperngaruhi status akreditasi institusi (Karamouiz & Vrettos, 2008). Beberapa faktor dapat mempengaruhi kelulusan mahasiswa antara lain adalah nilai akhir SMA, Indeks Prestasi Semester (IPS), gaji orang tua dan pekerjaan orang tua (Suhartinah & Ernastuti, 2010). Pada penelitian ini parameter yang digunakan adalah usia, jenis kelamin, indeks prestasi

  2.2.Data Mining

  Data mining adalah proses yang menggunakan statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban, dkk, 2005).

  Data mining merupakan proses untuk mendapatkan informasi yang berguna dari gudang basis data yang besar (Tan, 2006). Data mining, sering juga disebut knowledge discovery in database (KDD), adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan pola keteraturan, pola hubungan dalam set data berukuran besar (Santosa, 2007). Proses KDD secara garis besar dapat dijelaskan sebagai berikut (Fayyad, 1996) : 1.

  Data Selection Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari data operasional.

  Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses memperkaya data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.

  3. Transformation Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining.

2. Pre- processing / Cleaning

  4. Data Mining Adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu.

  Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

  5. Interpretation/ Evaluation Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yag ditemukan bertantangan dengan fakta atau hipotesis yang ada sebelumnya

Gambar 2.1 Hubungan Data Mining

  Sejarah Data mining bukanlah suatu

  dengan bidang ilmu lain

  bidang yang sama sekali baru. Gambar

  2.3.Metode Pelatihan

  2.1 menunjukkan bahwa data mining Metode pelatihan adalah cara memiliki akar yang panjang dari bidang berlangsungnya pembelajaran atau ilmu seperti kecerdasan buatan (artificial pelatihan dalam data mining. Secara garis intelligent), machine learning, statistic, besar metode pelatihan dibedakan ke database dan juga information retrieval dalam dua pendekatan : (Pramudiono, 2006).

  a. yang terawasi Pelatihan

  (Supervised learning) Pada pembelajaran terawasi, kumpulan input yang digunakan, output-outputnya telah diketahui. b. tak terawasi 1.

  Pelatihan Kelas: variabel dependen dari

  (Unsupervised Learning) model yang merupakan variabel Dalam pelatihan tak terawasi, metode kategori mewakili yang 'label' diterapkan tanpa adanya latihan (training) dan memakai objek setelah tanpa ada guru (teacher). Guru disini adalah klasifikasinya. Contoh kelas label dari data. adalah: adanya infark miokard,

  2.3.1

  loyalitas pelanggan, kelas bintang

   Metode Klasifikasi Data Mining

  Klasifikasi merupakan salah satu (galaksi), kelas gempa bumi tujuan yang banyak dihasilkan dalam data (badai), dll. mining. Klasifikasi merupakan proses 2.

  Prediktor: variabel bebas dari pengelompokkan sebuah variabel model-diwakili oleh karakteristik kedalam kelas yang sudah ditentukan (atribut) dari data yang harus (Larose, 2005: 95). Data mining mampu diklasifikasikan dan berdasarkan mengolah data dalam jumlah besar, setiap klasifikasi yang dibuat. Contoh data terdiri dari kelas tertentu bersama prediktor tersebut adalah: dengan variable dan faktor faktor penentu merokok, konsumsi alkohol, darah kelas variabel tersebut. Dengan data tekanan, frekuensi pembelian, mining, peneliti dapat menentukan suatu status perkawinan, karakteristik kelas dari variabel data yang dimiliki. (satelit) gambar, catatan geologi Proses klasifikasi didasarkan pada empat tertentu, dan kecepatan angin komponen mendasar: arah, musim, lokasi fenomena kejadian, dll.

  3. Training dataset: training dataset yang merupakan sekumpulan data yang berisi nilai untuk dua sebelumnya komponen, dan digunakan untuk 'pelatihan' model untuk mengenali sesuai kelas, berdasarkan prediksi tersedia. Contoh set tersebut adalah: kelompok pasien diuji pada serangan jantung, kelompok pelanggan dari supermarket (diselidiki oleh internal polling).

  4. Pengujian dataset: pengujian dataset yang berisi data baru yang akan diklasifikasikan oleh (classifier) Model dibangun di atas, dan akurasi klasifikasi (kinerja model) sehingga dapat dievaluasi (Gorunescu, 2011).

  2.4 Algoritma C4.5

  2.5 Decision tree merupakan metode

  klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode decision tree mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami. Decision tree juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target. Karena decision tree memadukan antara eksplorasi data dan pemodelan. Decision tree digunakan untuk kasus-kasus dimana outputnya bernilai diskrit.

  Sebuah decison tree adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing-masing rangkaian pembagian, anggota himpunan hasil menjadi mirip dengan yang lain (Berry & Linoff, 2004).

  Proses pada decision tree adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan menyederhanakan rule (Basuki & Syarif, 2003). Sebuah model decision tree terdiri dari sekumpulan aturan untuk membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogen dengan memperhatikan pada variabel tujuannya. Variabel tujuan biasanya dikelompokkan dengan pasti dan lebih mengarah pada perhitungan probabilitas dari tiap-tiap record terhadap kategori- kategori tersebut atau untuk mengklasifikasi record dengan mengelompokkannya dalam satu kelas.

  Data dalam decision tree biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon. Atribut ini juga memiliki nilainilai yang terkandung didalamnya yang disebut instance. Dalam decision tree setiap atribut akan menempati posisi simpul.

  Selanjutnya setiap simpul akan memiliki jawaban yang dibentuk dalam cabang- cabang, jawaban ini adalah instance dari atribut (simpul) yang ditanyakan. Pada saat penelusuran, pertanyaan pertama akan ditanyakan pada simpul akar.

  Selanjutnya akan dilakukan penelusuran ke cabang-cabang simpul akar dan simpul-simpul berikutnya. Penelusuran setiap simpul ke cabang-cabangnya akan berakhir ketika suatu cabang telah menemukan simpul kelas atau obyek yang dicari. Algoritma C4.5 merupakan algoritma yang cocok digunakan untuk mengklasifikasi data dalam jumlah besar kedalam kelas kelas tertentu berdasarkan

  a. Atribut mana yang akan dipilih untuk pola data yang ada (Wu & Kumar, 2009 : pemisahan obyek.

  7). Di dalam data mining dan machine

  b. Urutan atribut mana yang akan learning C4.5 digunakan untuk dipilih terlebih dahulu. mempelajari data dalam jumlah besar, c. Struktur tree. membuat model pembelajaran berupa d. Kriteria pemberhentian. pohon keputusan yang dapat diterapkan e. Pruning. untuk memprediksi data yang belum Desicion Tree menyerupai struktur muncul. flowchart, yang masing-masing internal node-nya dinyatakan sebagai atribut

  Algoritma C4.5 merupakan algoritma pengujian, setiap cabang mewakili output yang digunakan untuk membentuk dari pengujian, dan setiap node daun decision tree. C4.5 adalah algoritma yang (terminal node) menentukan label class. sudah banyak dikenal dan digunakan

  Node paling atas dari sebuah pohon untuk klasifikasi data yang memiliki adalah node akar (Han & Kamber, 2007). atribut-atribut numerik dan kategorial.

  Salah satu metode klasifikasi yang Hasil dari proses klasifikasi yang berupa menarik melibatkan konstruksi pohon aturan-aturan dapat digunakan untuk keputusan, koleksi node keputusan, memprediksi nilai atribut bertipe diskret terhubung oleh cabang-cabang, dari record yang baru. Ada beberapa hal memperpanjang bawah dari simpul akar yang perlu diperhatikan dalam membuat sampai berakhir di node daun. Dimulai di decision tree, yaitu : node root, yang oleh konvensi ditempatkan di bagian atas dari diagram membangun sebuah pohon keputusan, pohon keputusan, atribut diuji pada node dibutuhkan algoritma C4.5. keputusan, dengan setiap hasil yang

  Ada beberapa tahap dalam membuat mungkin dihasilkan dalam suatu cabang. sebuah pohon keputusan dengan

  Setiap cabang kemudian mengarah baik algoritma C4.5 (Kusrini & Lutfi, 2009), ke node lain keputusan atau ke node daun yaitu: untuk mengakhiri (Larose, 2005).

  1. Menyiapkan data training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumnya dan sudah dikelompokan ke dalam kelaskelas tertentu.

  2. Menentukan akar dari pohon. Akar akan diambil dari atribut yang terpilih, dengan cara menghitung

Gambar 2.3 Contoh Decision

  nilai gain dari masing-masing

  Tree

  atribut, nilai gain yang paling tinggi yang akan menjadi akar pertama.

  Sebelum menghitung gain dari Algoritma C4.5 dan pohon keputusan atribut, hitung dahulu nilai entropy

  (decision tree) merupakan dua mode yang yaitu: tidak terpisahkan, karena untuk

  Entropy(S) = Keterangan:

  S : himpunan kasus A : atribut N : jumlah partisi S Pi : proporsi dari Si terhadap S 3. Kemudian hitung nilai gain dengan metode informasi gain:

  Gain(S,A) = Entropy(S) - 4.

  Ulangi langkah ke-2 hingga semua tupel terpartisi.

  5. Proses partisi pohon keputusan akan berhenti saat: a.

  Semua tupel dalam node N mendapat kelas yang sama.

  b.

  Tidak ada atribut di dalam tupel yang dipartisi lagi.

  c.

  Tidak ada tupel di dalam cabang yang kosong.

  2.5.1 Proses Pengujian Atribut

  Dalam proses pengujian atribut, cabang baru yang terbentuk akan diperhatikan dari tipe atribut (Han & Kamber, 2006 : 307). Berikut 3 jenis cabang yang mungkin muncul dalam pohon keputusan adalah : a.

  Jika atribut bernilai diskrit, maka cabang yang terbentuk akan selalu sama dengan jumlah variasi nilai yang terdapat pada atribut tersebut.

Gambar 2.4 Cabang pohon dibuat berdasarkan variasi nilai b.

  Jika cabang bernilai kontinyu, maka akan dipecahkan menurut titik perpecahan, sedangkan titik perpecahan dikalkulasi dengan masing masing algoritma penyusun

Gambar 2.6 Cabang pohon

  pohon keputusan. Cabang perpecahan

  yang terbentuk dari nilai

  yang terbentuk akan berpola seperti ≤

  biner

  attribute, dan satu cabang lagi > attribute.

  2.5.2 Prunning pada Pohon Keputusan

  Ada dua pendekatan pruning yang digunakan :

Gambar 2.5 Cabang pohon a.

  keputusan yang dibuat Prepruning menghentikan proses pembuatan cabang pada titik tertentu. dari nilai kontinyu

  Semakin besar perulangan pembuatan cabang yang diperbolehkan, semakin c.

  Jika atribut yang diuji bernilai biner, besar pula kompleksitas dari pohon maka cabang yang terbentuk pasti dua keputusan yang didapat jika data dan melibatkan nilai ya atau tidak. beragam, namun jika jumlah perulangan terlalu kecil, diagram Gambar 2.7 Pohon keputusan

  dengan cabang dari atribut A5

  pohon yang dihasilkan menjadi kurang

  tidak konsisten akurat.

  b.

  Postpruning memotong cabang pohon yang kurang mereprensentasikan data setelah sebuah pohon keputusan terbentuk. Biasanya cabang yang dipotong adalah cabang yang mengandung persentase klasifikasi benar yang paling kecil. Kelas yang diberikan akan diukur dari jumlah persebaran label yang ada pada cabang tersebut.

Gambar 2.8 Pohon keputusan setelah di pruning

  Algoritma C4.5 menggunakan pessimistic pruning yang mampu mengkalkulasi tingkat error yang digunakan sebagai acuan dalam pemangkasan cabang pohon keputusan. Baik postpruning dan prepruning dapat dikombinasikan karena tidak ada teknik yang lebih baik antara keduanya (Han & Kamber, 2006 : 310). Karena itu pohon keputusan yang rumit, ataupun cabang yang kurang berpengaruh biasany dipruning agar menghasilkan model yang lebih baik dan lebih mudah dibaca.

  Teorema keputusan bayes adalah pendekatan statistik yang fundamental dalam pengenalan pola (pattern recoginition). Klasifikasi Bayes juga dikenal dengan Naïve Bayes, memiliki kemampuan sebanding dengan dengan pohon keputusan dan neural network (Han & Kamber, 2007). Klasifikasi Bayes adalah pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu kelas (Kusrini, 2009). Menurut Larose (Larose, 2007: 205), pendekatan Bayesian digunakan untuk menentukan kemungkinan terhadap asumsi disekitarnya. Dalam statistik

  Bayesian, parameter dipertimbangkan terhadap variabel yang acak dan data dipertimbangkan terhadap hasil kemungkinan.

  Teknik Naïve Bayes (NB) adalah salah satu bentuk sederhana dari Bayesian yang jaringan untuk klasifikasi. Sebuah jaringan Bayes dapat dilihat sebagai diarahkan sebagai tabel dengan distribusi probabilitas gabungan lebih dari satu set diskrit dan variabelstokastik (Pearl 1988) (Liao, 2007).

2.6 Algoritma Naïve Bayes

  Penggunaan teorema Bayes pada algoritma Naïve Bayes yaitu dengan mengkombinasikan prior probability dan probabilitas bersyarat dalam sebuah rumus yang bisa digunakan untuk menghitung probabilitas tiap klasifikasi yang mungkin (Bramer, 2007). model independence ini menghasilkan pemecahan yang terbaik. Klasifikasi Bayes didasarkan pada teorema Bayes, Naïve bayes adalah penyederhanaan diambil dari nama seorang ahli metode bayes. Teorema bayes matematika yang juga menteri disederhanakan menjadi: Prebysterian Inggris, Thomas Bayes

  P(x|y) = P(y|x) P(x)

  (1702-1761), yaitu (Bramer, 2007): Beberapa keuntungan dari algoritma klasifikasi Naive Bayes adalah (Gorunescu, 2011) :

  P(x|y) =

  1) terhadap pengisolasi Kuat gangguan pada data

  Keterangan :

  2) Jika terjadi kasus missing value y = Data dengan kelas yang ketika proses komputasi sedang belum diketahui berlangsung, maka objek tersebut x = Hipotesis data y merupakan akan diabaikan suatu kelas spesifik.

  3) Dapat digunakan untuk data yang

  P(x|y) =Probabilitas hipotesis x tidak relevan berdasarkan kondisi y (posteriori

  y

  probability) P(x) = Probabilitas hipotesis x (prior probability).

  x

  P(y|x) = Probabilitas y berdasarkan 5

  x 1 x 4 x 2 x 3 kondisi pada hipotesis x.

  P(y) = Probabilitas dari y.

Gambar 2.9 Relasi Variabel Pada Naïve Bayes

  Diberikan sebuah sampel x dengan nilai probabilitas prior terbesar. Dimana sampel x dapat dihitung berdasarkan teorema Bayes sebagai berikut: Dimana P(x) adalah konstan untuk semua kelas, hanya saja P(C

  i |x)=P(x|C i

  )P(C i

  )

  membutuhkan nilai maksimum. Asumsi sederhana yang di ambil dari atribut, dimana k adalah kondisi yang independen.

  Jika banyak atribut memiliki kondisi probabilitas 0, maka klasifikasi Naive

  Bayes menjadi:

  Gunakan sebuah estimator dengan menambahkan 1 pada kasus yang lain: Selanjutnya gunakan probabilitas estimasi

  M:

  Dimana nc adalah total nilai dari contoh sampel pada atribut yang dimiliki kelas

  C, n merupakan total nilai pada

  keseluruhan sampel yang berada pada kelas C dan m adalah sebuah nilai ekivalen yang konstan dari ukuran sampel yang diberikan. Sedangkan p adalah probabilitas prior yang menggunakan set 1/k sebagai informasi tambahan dimana k adalah nilai dari kemungkinan yang muncul pada atribut-atribut pada sampel yang akan diklasifikasikan.

3. Metode

3.1. Metode Pengumpulan Data

  Metode dalam hal ini adalah cara yang digunakan untuk mendapatkan dan mengumpulkan data.

  1. Metode Pengamatan (observasi) Observasi adalah teknik atau pendekatan untuk mendapatkan data primer dengan cara mengamati langsung obyek datanya (Jogiyanto, 2005).

  2. Wawancara (Interwiew) Wawancara adalah komunikasi dua arah untuk mendapatkan data dari responden (Jogiyanto, 2005). Wawancara dilakukan dengan nara sumber .

  3. Studi Pustaka Merupakan adalah metode pengumpulan data yang berbentuk tulisan, yang meliputi surat-surat, catatan harian, laporan-laporan dan foto (Marzuki, 2002: 59).

  Sumber data meliputi sebagai berikut : 1. Data Primer

  Data primer adalah data yang diperoleh secara langsung dari sumber, diamati dan dicatat untuk pertama kalinya. Data tersebut akan menjadi sekunder kalau dipergunakan orang yang tidak berhubungan langsung dengan penelitian yang bersangkutan (Marzuki, 2002: 55).

  2. Data Sekunder Data sekunder adalah data yang diperoleh secara tidak langsung dari sumbernya melainkan dengan pihak lain atau apa yang diperoleh dari sumber lain diluar lokasi penelitian. Data ini diperoleh dari buku maupun literatur lain seperti internet yang berhubungan dengan masalah yang dibahas (Marzuki, 2002: 56).

  4. Hasil dan Pembahasan

  Berdasarkan analisa yang terjadi salah satu faktor yang menentukan kualitas perguruan tinggi adalah kemampuan mahasiswa untuk menyelesaikan studi tepat waktu. Masalah kegagalan studi siswa dan faktor-faktor penyebabnya menjadi topik yang menarik untuk diteliti (Marquez-Vera, Romero, & Ventura, 2011). Salah satunya masalah keterlambatan atau kegagalan studi mahasiswa dan faktor-faktor penyebabnya perlu di deteksi perilaku mahasiswa yang memiliki status “tidak diinginkan” tersebut sehingga dapat diketahui faktor-faktor penyebab kegagalannya. Beberapa penyebab kegagalan

3.2. Sumber Data

  Berikut ini adalah contoh perhitungan mahasiswa diantaranya rendahnya kemampuan akademik, faktor pembiayaan, mencari nilai akurasi dari atribut status yang dimiliki dan faktor faktor lainnya. kelompok dengan menggunakan metode

  Penelitian ini diharapkan membantu admisi perguruan tinggi untuk memberikan Cross-Validation (X-Validation). peringatan dini dan pembimbingan awal bagi

  Training 1:

  mahasiswa yang kemungkinan tidak dapat

Tabel 4.2 : Data Training Cross Validation

  lulus tepat waktu dan membantu perguruan tinggi dalam membuat kebijakan untuk bisa Naïve Bayes meningkatkan kelulusan tepat waktu

   Status Kelulusan Kelompok

  mahasiswa. Database PTS “KZX” menyimpan data akademik, data kelulusan, administrasi

  Tepat Akademik dan biodata mahasiswa, dari data tersebut Tepat Reguler apabila digali dengan tepat maka dapat diketahui pola atau pengetahuan untuk

  Tepat Reguler mengambil keputusan. Penelitian ini menggunakan dataset yang diambil dari

  Tepat Akademik dataset kelulusan mahasiswa yang memiliki data yang besar

  Tepat Reguler

4.1.Evaluasi Naïve Bayes

  Tepat Akademik

4.1.1.Dengan Data Sampel

  Tepat Reguler Pengujian menggunakan data sampel yang diambil dari dataset dengan: 2 label

  Terlambat GBAP class (tepat dan terlambat), 1 record (7 Terlambat GBAP class tepat dan 3 class terlambat) dan 13 attribute. Dari data diatas didapatkan Probabilitas Dari hasil klasifikasi menggunakan data kelas: sample (2 label class. 1 record dan 13

  P(Tepat) = 7/9 = 0.777777777 attribute) dengan metode Naïve Bayes P(Terlambat) = 2/9 = 0.222222222 diperoleh hasil nilai akurasi sebesar Dari data diatas didapatkan Probabilitas 90.00%, berikut ini hasil perhitungannya Kelompok terhadap masing masing kelas: seperti dapat dilihat pada gambar 4.1.

  P(Akademik|Tepat) = 3/7 = 0.428571429 P(Reguler|Tepat) = 4/7 = 0.571428572 P(GBAP|Tepat) = 0/7 = 0 P(Akademik|Terlambat) = 0/2 = 0 P(Reguler|Terlambat) = 0/2 = 0 P(GBAP|Terlambat) = 2/2 = 1

  Gambar 4.1: Validasi Naïve Bayes Data Testing 1:

  Sampel

  Data testing dari status kelulusan dengan Kelompok GBAP: Prediction GBAP : = P(X|Tepat) = 0/7 = 0

  = 0.9 P(X|Terlambat) = 2/2 = 1

  = 90% Perhitungan dilakukan 10 kali sampai

  4.1.2.Dengan Data Lengkap

  training 10 dan testing 10 sesuai metode Hasil klasifikasi menggunakan data Cross-Validation (X-Validation). lengkap (dataset) dengan metode Naïve Bayes diperoleh hasil nilai akurasi sebesar

  83.33%, berikut ini hasil perhitungannya seperti dapat dilihat pada gambar 4.2.

Gambar 4.2. Validasi Naïve Bayes Data Lengkap

  = = 0.8333 = 83.33% Evaluasi dan validasi pada penelitian ini mengikuti aturan AUC, dengan perhitungan nilai AUC:

Gambar 4.3. AUC Naïve Bayes Data Lengkap

  Kappa / AUC =

  Keterangan : Pr(a) adalah proporsi unit yang dua Rater yang sama.

  Pr(e) adalah proporsi yang diharapkan secara kebetulan.

  AUC = AUC = 0.839 AUC = 0.839 termasuk kategori AUC excellent.

4.2.Evaluasi C4.5

  Decision Tree yaitu metode untuk mengubah data menjadi pohon keputusan dengan aturan-aturannya (rules). Algoritma C4.5 untuk model yang pertama dilakukan. Berikut akan dibahas langkah- langkah perhitungan klasifikasi mahasiswa lulus tepat waktu atau tidak dengan menggunakan algoritma C4.5. Adapun langkah-langkah yang akan dilakukan sebagai berikut:

  1. Hitung nilai entropy keseluruhan total kasus TEPAT lulus dan TERLAMBAT lulus. Dari data training yang ada diketahui jumlah kasus yang lulus TEPAT pada waktunya sebanyak 190 record, dan jumlah kasus yang lulus TERLAMBAT adalah sebanyak 20 record total kasus keseluruhan adalah

  210 kasus. Sehingga didapat entropy keseluruhan:

  Entropy(S) =

  = = 0.248 2. Hitung nilai entropi dan nilai gain masing-masing atribut. Nilai gain tertinggi adalah atribut yang menjadi root dari pohon keputusan yang akan dibuat. Misalkan menghitung entropi bagi atribut konsentrasi.

  E

  WebDeveloping

  [75,14] = ( ) + ( )

  = 7.653 E

  MobileDeveloping

  [51,4] = ( ) + ( )

  = 0.275 E

  SistemEnterprise

  [30,1] = ( ) + ( )

  = 0.281 E SistemAudit [34,1] = ( )

  • ( )

  = 3.058 Kemudian hitung gain konsentrasi sebagai berikut :

  Gain(S, A) = Entropy(S) -

  = 0.248

Gambar 4.4. Pohon Keputusan Data Kelulusan mahasiswa

  • – (( = 3.617 Gain atribute konsentrasi = 3.617 Dari perhitungan tersebut diperoleh pohon keputusan seperti gambar 4.4

  Dari pohon keputusan pada gambar 4.4 didapat rule untuk prediksi data kelulusan mahasiswa, berikut rule: R1 = Jika IPK > 2.825 maka hasil Tepat.

  R2 = Jika IPK ≤ 2.825 dan Kelompok = Akademik maka hasil Tepat.

  R3 = Jika IPK ≤ 2.825 dan Kelompok = GBAP dan SKS > 145 dan NIM > 22305 maka hasil Tepat. R4 = Jika IPK ≤ 2.825 dan Kelompok = serta NIM ≤ 223080021.500 maka hasil GBAP dan SKS > Tepat.

  145 dan NIM ≤ 223055071 dan NIM > 2225 maka hasil R10 = Jika IPK ≤ 2.825 dan Kelompok = Terlambat. Reguler dan NIM > 222550072.5 dan

  R5 = Jika IPK ≤ 2.825 dan Kelompok = NIM ≤ 223090012.500 dan NIM ≤ GBAP dan SKS > 145 dan NIM ≤ 223065019 maka hasil Terlambat.

  22305071 serta NIM ≤ 222575087 maka R11 = Jika IPK ≤ 2.825 dan Kelompok = hasil Tepat.

  Reguler dan NIM ≤ 222550072.500 maka hasil Tepat. R6= Jika IPK ≤ 2.825 dan Kelompok = GBAP dan SKS ≤ 145 maka hasil

  Setelah diolah maka dilakukan teknik Terlambat. pengujian dengan metode cross-validation

  R7 pada tools RapidMiner diperoleh hasil

  = Jika IPK ≤ 2.825 dan Kelompok = Reguler dan NIM >222550072.5 serta nilai akurasi sebesar 90.95%, hasil NIM > 22309001 maka hasil Tepat. pengujian untuk metode algoritma C4.5 terlihat seperti gambar 4.5 dibawah ini: R8 = Jika IPK ≤ 2.825 dan Kelompok = Reguler dan NIM > 222550072.5 serta NIM ≤ 223090012.500 dan NIM > 22300 maka hasil Terlambat.

  R9 = Jika IPK ≤ 2.825 dan Kelompok = Reguler dan NIM > 222550072.5 serta NIM ≤ 223090012.500 dan NIM > 223065 akurasi, kecepatan, kehandalan, skabilitas

Gambar 4.5. Cross-Validation Algoritma C4.5 Menggunakan Data Lengkap dan interpretabilitas (Vecellis, 2009).

  Setelah data diolah maka dapat diuji Evaluasi dan validasi pada pengolahan tingkat akurasinya untuk melihat kinerja data diatas mengikuti aturan Kappa/AUC, dari masing-masing metode. berikut ini hasil perhitungannya seperti

  Pada penelitian ini menguji dapat dilihat pada gambar 4.5: keakuratan klasifikasi kelulusan mahasiswa dengan membandingkan hasil algoritma Naïve Bayes dan algoritma C4.5 dari dataset yang diambil dataset

  kelulusan mahasiswa PTS”KZX”. Seperti

  diketahui sebelumnya bahwa algoritma Naïve Bayes dan C4.5 bisa memecahkan masalah data class imbalance. Sehingga tidak semua atribut relevan dengan masalah karena beberapa dari atribut tersebut mengganggu dan dapat

Gambar 4.6 AUC Algoritma C4.5 mengurangi akurasi.

  Menggunakan Data Lengkap

  Tujuan dari penelitian ini adalah untuk melihat akurasi analisis kelulusan

4.3.Hasil Evaluasi

  mahasiswa di PTS”KZX”, menilai apakah Metode klasifikasi bisa dievaluasi dengan kriteria yang dimiliki mahasiswa berdasarkan kriteria seperti tingkat dapat lulus tepat waktu atau tidak serta untuk mendapatkan model atribut parameter yang relevan dengan algoritma Naïve Bayes dan algoritma C4.5. Data di analisa dengan melakukan dua perbandingan yaitu menggunakan algoritma Naïve Bayes dan algoritma C4.5. Pada eksperimen tahap awal, dilakukan untuk mencari nilai akurasi dari masing-masing atribut yang dimiliki oleh dataset berdasar metode X-Validation.

  Hasil pengujian menggunakan metode Naïve Bayes diperoleh accuracy 83.33%, dan dari 210 data sebanyak 12 data diprediksi sesuai yaitu terlambat, dan sebanyak 27 data diprediksi terlambat tetapi ternyata tepat, 8 data diprediksi tepat tetapi terlambat, 163 data diprediksi tepat tepat, seperti terlihat pada Gambar 4.2

Gambar 4.3 adalah grafik AUC dari metode algoritma Naïve Bayes dengan

  nilai AUC 0.839 dan termasuk kategori AUC excellent. Sedangkan hasil pengujian menggunakan algoritma C4.5 diketahui tingkat akurasinya 90.95%, dan dari 210 data sebanyak 10 data diprediksikan sesuai yaitu terlambat dan 9 data diprediksikan terlambat tetapi ternyata tepat, dan sebanyak 10 data diprediksi tepat tetapi ternyata termasuk klasifikasi terlambat, dan sebanyak 181 data diprediksi sesuai yaitu tepat.seperti terlihat pada Gambar 4.5 dan Gambar 4.6 adalah grafik AUC dari metode algoritma C4.5 garis horizontal adalah false positif dan garis vertikal false negative dengan nilai AUC 0.722 dan termasuk kategori AUC good.

  Dari hasil eksperimen tersebut dapat disimpulkan ke dalam tabel berikut :

Tabel 4.3 : Hasil Eksperimen Dataset

  Kelulusan Mahasiswa

  Algoritma Naïve Bayes C4.5 mengukur kineja model digunakan

  Akurasi 83.33% 90.95%

  rapidminner, dan diketahui bahwa

  Kappa/AUC 0.839 0.722

  Metode algoritma C4.5 menghasilkan

  Waktu Sangat Cepat

  nilai akurasi yaitu 90.95% dan nilai

  Komputasi

  Cepat (2 detik)

  AUC 0.722. Sedangkan metode naïve (1 detik) bayes menghasilkan nilai akurasi yaitu

  83.33% dan nilai AUC 0.839.

  Model 13 atribut 13 atribut Atribut (semua (semua

  Dengan demikian pada penelitian ini metode naive bayes adalah metode yang

  terpilih

  atribut atribut terbaik untuk pemecahan masalah klasifikasi terpakai) terpakai) ketepatan kelulusan mahasiswa dengan nilai akurasi 83.33% dan AUC 0.839 yang termasuk kategori AUC excellent

  Berdasarkan Tabel 4.3 diatas juga Sementara beberapa saran yang dapat disampaikan adalah: dapat dilihat bahwa nilai akurasi maka 1.

  Membantu administrasi PTS”KZX” untuk dapat diketahui metode yang terbaik memberikan peringatan dini dan adalah metode algoritma Naïve Bayes pembimbingan awal bagi mahasiswa yang dengan nilai akurasi 83.33% dan AUC kemungkinan tidak lulus tepat waktu dan 0.839. membantu perguruan tinggi dalam

5. Kesimpulan

  membuat kebijakan untuk bisa Dari dataset kelulusan mahasiswa pada meningkatkan kelulusan mahasiswa.

  PTS”KZX” dapat diketahui metode terbaik dalam klasifikasi ketepatan kelulusan mahasiswa. Untuk

  2. Penelitian ini dapat dikembangkan dengan metode klasifikasi data mining lainnya.

  Willey & Sons, Ltd.,2009. Daniel T. Larose.Discovering Knowledge in

  Tree.Online: diakses dari

  Basuki, A dan Syarif, I.2003. Decision

  (n.d.). Retrieved from http://iasol.unaki.ac.id:9090/IasolWeb/.

  (n.d).Retrived from Data Perpustakaan Universitas AKI 2014/2015.

  (n.d).Retrived from Data fakultas ilmu komputer 2011/2014.

  Models.Hoboken, New Jersey:John Wiley & Sons, Inc.2007.

  2005. Daniel T. Larose.Data Mining Methods and

  Data: An Introduction to Data Mining.New Jersey:Wiley Interscience.

  Mining and Optimization for Decision Making.Southern Gate, Chichester:John

  3. sistem sehingga dapat dilakukan penyesuian terhadap sistem.

  Carlo Vercellis.Business Intelligent: Data

6. Daftar Pustaka

  Data untuk Keperluan Bisnis. Surabaya: Graha Ilmu.2007.

  B. Santoso.Data Mining Teknik Pemanfaatan

  Springer.2008. Bramer, M.Principles of Data Mining.London:Springer.2007.

  Students in Computer Science and Information Systems (2nd ed.). London:

  Berndtsson, M., Hansson, J., Olsson, B., & Lundell, B.Thesis Projects A Guide for

  Tree.Online: diakses dari da 3 April 2017.

  Basuki, A dan Syarif, I.2003. Decision da 3 April 2017.

  Berndtsson, M., Hansson, J., Olsson, B., & Lundell, B.Thesis Projects A Guide for

  E. Prasetyo.Data Mining Konsep dan Aplikasi

  Hu Min dan Wu Fangfang.Filter-Wrapper

  Han J, Kamber M.Data Mining: Concepts and Techniques 2nd Edition.Elsevier.2007.

  and Techniques (Second Edition ed.).San Francisco: Elsevier Inc.2006.

  Han J. & Kamber M.Data Mining: Concepts

  Berlin. Jerman: Springer.2011.

  Model and Techniques, Prof. Janusz Kacprzyk and Prof. Lakhmi C. Jain, Eds.

  Florin Gorunescu.Data Mining: Concepts,

  menggunakan MATLAB.pdf. Yogyakarta: Andi.2012.

  Models.Hoboken, New Jersey:John Wiley & Sons, Inc.2007.

  Students in Computer Science and Information Systems (2nd ed.). London:

  Daniel T. Larose.Data Mining Methods and

  2005.

  Data: An Introduction to Data Mining.New Jersey:Wiley Interscience.

  Willey & Sons, Ltd.,2009. Daniel T. Larose.Discovering Knowledge in

  Mining and Optimization for Decision Making.Southern Gate, Chichester:John

  Carlo Vercellis.Business Intelligent: Data

  Data untuk Keperluan Bisnis. Surabaya: Graha Ilmu.2007.

  B. Santoso.Data Mining Teknik Pemanfaatan

  Springer.2008. Bramer, M.Principles of Data Mining.London:Springer.2007.

  Hybrid Method on Feature Selection, Second WRI Global Congress on Intelligent Systems. 2010. Jiawei Han.Data Mining Concept And

  Technique, 2nd ed., Asma Stephan, Ed.Champaign, United States of America:

  Knowledge Discovery Handbook (2nd ed.). Springer. 2010.

  Mada University Press.1994. Oded Maimon, Lior Rokach.Data Mining and

  Pendidikan di Indonesia di tinjau dari Sudut Hukum.Yogyakarta:Gajah

  H, Martini M.Kebijaksanaan

  Nawawi

  Techniques For Marketing, Sales, Customer Relationship Management Second Editon.United States of America: Wiley Publishing Inc.2004.

  M. J. A. Berry and G. S. Linoff. Data Mining

  Marzuki.Metodologi Riset.Yogyakarta:BPEE- UII.2003.

  Mining. Department of Computer Science. 2011.

  Marquez-Vera, C., Romero, C., & Ventura, S.Predicting School Failure Using Data

  Maimon, O., & Rokach, L. Data Mining and

  Multiscience Press.2007. Karamouzis T. S., Vrettos A. An Artificial

  Publishing.2007.

  Enterprise Data: Algorithms and Application.Singapore: World Scientific

  Liao.Recent Advances in Data Mining of

  Journal on Computer Science and Engineering (IJCSE).2011.

  Methods And Algorithms.International

  L. Ladha and T. Deepa.Feature Selection

  Kusrini, Taufiq Emha Luthfi.Algoritma Data Mining.Yogyakarta: Andi.2009.

  World Congress on Engineering and Computer Science , 978-988-98671- 02.2008.

  Neural Network for Predicting Student Graduation Outcomes.Preceeding of

  Knowledge Discovery Handbook 2 nd ed.:Springer.2010. Pramudiono. 2006. Indo Datamining. Online: di akses dari pada 15 April 2017. Qudri M. N., Kalyankar N. V.Drop Out

  Feature of Student Data for Academic Performance Using Decision Tree techniques.Global Journal of Computer Science and Technology , 2-4.2010.

  Siregar A R.Motivasi Belajar Mahasiswa

  ditinjau dari Pola Asuh.Medan:Usu Repository.2006.

  Suhartinah S M., Ernastuti.Graduation

  Prediction of Gunadarma University Students Using Algorithm and Naive Bayes C4.5 Algoritmh.2010.

  Turban, E, dkk.Decicion Support Systems and Intelligent Systems.

  Yogyakarta:Andi.2005. Wu X, Kumar V.The Top Ten Algorithms in

  Data Mining.Boca Raton:CRC Press.2009.