Prediksi calon mahasiswa baru Universitas Sanata Dharma yang tidak mendaftar ulang menggunakan algoritma Naive Bayessian - USD Repository

  PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PREDIKSI CALON MAHASISWA BARU UNIVERSITAS

SANATA DHARMA YANG TIDAK MENDAFTAR ULANG

MENGGUNAKAN ALGORITMA NAIVE BAYESIAN

Skripsi

Diajukan untuk Memenuhi Salah Satu Syarat

  

Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

  Oleh: SRI PURWANTI

  065314098

  

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2011

  PREDICTION OF SANATA DHARMA UNIVERSITY’S NEW STUDENTS ENROLLMENT USING NAIVE BAYESIAN A Thesis Presented as Partial Fulfillment of the Requirements

  To Obtain the Sarjana Computer Degree In Study Program of Informatics Engineering

  by: SRI PURWANTI

  065314098

STUDY PROGRAM OF INFORMATICS ENGINEERING FACULTY OF SCIENCE AND TECNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA 2011

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ABSTRAK

  Dalam penerimaan mahasiswa baru Universitas Sanata Dharma (USD), seringkali jumlah mahasiswa yang mendaftar ulang lebih sedikit dari kapasitas penerimaan mahasiswa baru yang ditetapkan oleh USD.

  Namun sebaliknya dapat juga terjadi mahasiswa baru yang mendaftar ulang melebihi kuota. Untuk mengantisipasi masalah tersebut, USD perlu mengetahui prediksi calon mahasiwa baru yang tidak melakukan daftar ulang.

  Banyak cara yang dapat digunakan untuk melakukan prediksi calon mahasiswa baru yang tidak melakukan daftar ulang. Salah satu cara yang digunakan adalah data mining menggunakan algoritma Naive Bayesian.

  Dalam skripsi ini dibangun sebuah sistem untuk memprediksi apakah seorang mahasiswa baru akan mendaftar ulang atau tidak. Data yang akan digunakan dalam proses prediksi adalah data PMB USD tahun 2009 untuk pendaftaran melalui jalur reguler tes tertulis dari gelombang 1 sampai gelombang 3 meliputi prioritas pilihan pada program studi tempat calon mahasiswa diterima, gelombang masuk pendaftaran, jenis kelamin, jurusan SMA, program studi tempat diterima, status daftar ulang yang dilakukan dan nilai final tes masuk berdasarkan program studi. Data-data ini digunakan sebagai himpunan data pelatihan dan data pengujian. Data pelatihan digunakan untuk melakukan penghitungan nilai probabilitas prior dan likelihood sedangkan himpunan data pengujian digunakan untuk melakukan penghitungan nilai probabilitas posterior. Pengujian dilakukan menggunakan metode fivefold cross-validation dan tenfold cross-

  validation dengan data sebanyak 1304 baris. Prosentase keakuratan

  prediksi yang dihasilkan untuk metode fivefold cross-validation adalah 65,57% dan metode tenfold cross-validation 65,64%. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ABSTRACT

  USD often has less new students than the standar capacity of the admission. Nevertheless, there is also a possibility of over quota. Henceforth, USD needs to anticipate the unpredictable situation.

  Several ways could be done to predict the numbers of new students who do not enroll. One of them is data mining by using Naive Bayessian algorithm. In this thesis, the writer developed a system to predict whether a new student will enroll or not. The data was taken from Sanata Dharma University

  Admission year 2009. The data consists of regular admission test which includes the priority of the choosen study program, the enrollment period, sex, the previous major in SMA, the study program in which the student is accepted, enrollment status and the final test score based on the choosen study program. The data were used as training data set and test data set as well. Training data set was used to calculate prior probability and likelihood while the test data set was used to calculate posterior probability. The system was test using fivefold cross-validation and tenfold cross-validation with 1304 data row. The accuracy of the prediction using fivefold cross-validation method is 65,57%, while the accuracy of the tenfold cross-validation method is 65,64%.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI KATA PENGANTAR

  Puji syukur penulis haturkan kepada Tuhan Yang Maha Esa yang telah melimpahkan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan Tugas Akhir ini yang berjudul “Prediksi Calon Mahasiswa Baru Universitas

  

Sanata Dharma Yang Tidak Mendaftar Ulang Menggunakan Algoritma

Naive Bayesian ”.

  Dalam kesempatan ini penulis mengucapkan terima kasih kepada semua pihak yang telah membantu penulis baik secara langung maupun tidak langsung, yang telah memberikan dukungan serta semangat kepada penulis. Terima kasih penulis ucapkan kepada :

  1. Ibu P.H Prima Rosa, S.Si.,M.Sc. selaku dosen pembimbing yang selalu memberikan waktu, kesabaran serta bimbingan yang telah diberikan kepada penulis.

  2. Ibu Ridowati Gunawan S.Kom, M.T. selaku dosen penguji.

  3. Ibu Sri Hartati Wijono, S.Si.,M.Kom. selaku dosen penguji.

  4. Staf BAPSI USD yang telah memberikan data mahasiswa baru.

  5. Bapak, Ibu, Adik dan seluruh keluarga yang selalu memberikan dukungan moril maupun material sehingga penulis dapat menyelesaikan skripsi ini.

  6. Mas Didik Daryanto yang selalu memberikan dukungan kepada penulis.

  7. Teman-teman penulis : Grace, Irene Leni, Novi Hartati, Rina Hapsari, Novi Sulistyawati, Yosia Dwi Susetyo yang selalu memberikan semangat.

  8. Semua pihak yang telah membantu penulis.

  Penulis menyadari dalam penyusunan tugas akhir ini masih jauh dari sempurna, sehingga dengan kerendahan hati penulis mengharapkan kritik dan saran yang bersifat membangun untuk merperbaiki tugas akhir ini.

  Akhir kata penulis mengucapkan terima kasih dan semoga tugas akhir ini barmanfaat bagi semua pihak.

  Yogyakarta 28 Januari 2011 Penulis

  PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI DAFTAR ISI

  HALAMAN JUDUL …………………………………………………………………. i HALAMAN PERSETUJUAN ……………………………………………………….. iii HALAMAN PENGESAHAN ....................................................................................... iv PERNYATAAN KEASLIAN KARYA ....................................................................... v ABSTRAK .................................................................................................................... vi ABSTRACT .................................................................................................................. vii LEMBAR PERNYATAAN PERSETUJUAN ............................................................. viii KATA PENGANTAR .................................................................................................. ix DAFTAR ISI ................................................................................................................. x DAFTAR GAMBAR .................................................................................................... xiv DAFTAR TABEL ......................................................................................................... xvi

  BAB I PENDAHULUAN ……………………………………………………………

  1 1.1 Latar Belakang Masalah …………………………………………………..

  1 1.2 Rumusan Masalah ………………………………………………………...

  2 1.3 Tujuan …………………………………………………………………….

  2 1.4 Batasan Masalah ………………………………………………………….

  2 1.5 Metodologi Penelitian …………………………………………………….

  3 1.6 Sistematika Penelitian …………………………………………………….

  3 BAB II LANDASAN TEORI ………………………………………………………...

  4 2.1 Pengertian Data Mining …………………………………………………..

  4

  2.2 Teorema Bayes ……………………………………………………………

  5 2.3 Naïve Bayes Clasifier ……………………………………………………..

  7 2.4 Conditional Independence ………………………………………………...

  7 2.5 Contoh Klasifikasi Naïve Bayes ………………………………………….

  8 BAB III ANALISIS DAN PERANCANGAN SISTEM ...…………………………...

  9 3.1 Identifikasi Sistem …….…………………………………………………..

  9 3.2 Pembersihan Data ………………………………………………………...

  10 3.3 Integrasi Data ……………………………………………………………..

  10 3.4 Seleksi Data ……………………………………………………………….

  10 3.5 Transformasi Data ………………………………………………………...

  11

  PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  3.6 Analisis Kebutuhan Pengguna ……………………………………………

  13 3.6.1 Diagram Model Usecase ………………………………….….....

  13 3.6.2 Tabel Ringkasa Usecase ……………………………….………..

  14 3.6.3 Narasi Usecase ………………………………………………….

  15 3.7 Perancangan Umum Sistem ….…………………………………………...

  22 3.7.1 Diagram Konteks ..…….………………………………….….....

  22 3.7.2 Masukan Sistem ……….………………………………….….....

  22 3.7.3 Proses Sistem …………………………………………………...

  24 3.7.4 Keluran Sistem ………………………………………………….

  31 3.7.5 Perancangan Basis Data ………………………………………...

  31 3.7.5.1 Perancangan Konseptual ..............................………….

  32

  3.7.5.2 Perancangan Logikal ….………………………………

  32 3.7.5.3 Perancangan Fisikal …….…………………………….

  34 3.7.6 Diagram Aktifitas ……………………………………………….

  36 3.7.7 Diagram Kelas …………………………………………………..

  40 3.7.7.1 Diagram Kelas Usecase Memasukkan Data ………….

  40

  3.7.7.2 Diagram Kelas Usecase Melihat Detail Atribut Data Pelatihan ………….…………………………………...

  40

  3.7.7.3 Diagram Kelas Usecase Melihat Detail Atribut Data Pengujian ………………………..........................................

  41

  3.7.7.4 Diagram Kelas Use Case Menghitung Nilai Probabilitas Prior ……………………………...............

  41

  3.7.7.5 Diagram Kelas Use Case Menghitung Nilai Likelihood ……………..……………………………...

  42

  3.7.7.6 Diagram Kelas Use Case Melakukan Prediksi Satu Record ………………………………………………...

  43

  3.7.7.7 Diagram Kelas Use Case Melakukan Prediksi Semua Record ………………………………………………...

  43

  3.7.8 Diagram Sequence ……...………………………………………

  44 3.7.9 Perancangan Metode Dalam Diagram Kelas …………………..

  51

  3.7.9.1 Perancangan Metode Diagram Kelas Kontrol Database

  51 3.7.9.2 Perancangan Metode Diagram Kelas Pelatihan ……...

  53

  3.7.9.3 Perancangan Metode Diagram Kelas Pengujian ……

  57

  PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  3.7.9.4 Perancangan Metode Diagram Kelas ControlPelatihan

  58

  3.7.9.5 Perancangan Metode Diagram Kelas ControlPengujian

  60 3.7.10 Perancangan Antar Muka ……………………………………..

  61 3.7.11 Perancangan Pengujian ……………………………………….

  65 BAB IV IMPLEMENTASI DAN PEMBAHASAN …………………………………

  66 4.1 Implementasi Basis Data …...……………………………………………..

  66 4.2 Implementasi Program dan Pembahasannya ……………………………...

  69 4.2.1 Halaman Utama ……...………………………………………….

  69

  4.2.2 Use Case Memasukkan Data ……………………………………

  71 4.2.3 Use Case Lihat Detail Atribut Data Pelatihan ………………….

  72

  4.2.4 Use Case Lihat Detail Atribut Data Pengujian …………………

  73

  4.2.5 Use Case Menghitung Nilai Probabilitas Prior …………………

  74 4.2.6 Use Case Menghitung Nilai Likelihood ………………………...

  75 4.2.7 Use Case Melakukan Prediksi Satu Record …………………….

  77 4.2.8 Use Case Melakukan Prediksi Semua Record ………………….

  78 4.3 Analisa Hasil ……………………………………………………………...

  81 4.3.1 Pengujian Untuk Nilai Fold 5 ……...……..…………………….

  81 4.3.2 Pengujian Untuk Nilai Fold 10 ……...……..……………..…….

  84 BAB V KESIMPULAN DAN SARAN ………………………………………………

  88 5.1 Kesimpulan ………………...……………………………………………..

  88

  5.2 Saran ………………………………………………………………………

  88 DAFTAR PUSTAKA ………………………………………………………………...

  89 LAMPIRAN …………………………………………………………………………..

  90 1. Listing Program Memasukkan Data ...……………….…………………….

  90

  2. Listing Program Lihat Detail Atribut Pelatihan ……………………………

  90 3. Listing Program Lihat Detail Atribut Pengujian .…..…………....................

  90 4. Listing Program Penghitungan Nilai Probabilitas Prior ……..….................

  91 5. Listing Program Penghitungan Nilai Likelihood ..........................................

  92 6. Listing Program Penghitungan Nilai Probabilitas Posterior …….................

  99 7. Listing Program Prediksi Satu Record …..……………………....................

  99

  8. Listing Program Prediksi Semua Record …..………………….................... 100

  9. Listing Program Pembagian Data Berdasarkan Nilai Fold ...….................... 100

  DAFTAR GAMBAR

  43

  36

  37

  37

  38

  38

  39

  40

  40

  41

  41

  42

  43

  44

  22

  45

  46

  47

  48

  49

  50

  61

  61

  62

  62

  63

  63

  64

  36

  13

Gambar 2.1 Langkah-langkah Dalam Penambangan Data ...…………………………Gambar 3.16 Diagram Kelas Use Case Melakukan Prediksi Semua Record ………...Gambar 3.1 Diagram Use Case Sistem ………….…………………………………… Gambar 3.2 Diagram Konteks Sistem ………………………………………………..Gambar 3.3 Diagram Aktifitas Use Case Memasukkan Data ………………………...Gambar 3.4 Diagram Aktifitas Use Case Lihat Detail Atribut Data Pelatihan ……… Gambar 3.5 Diagram Aktifitas Use Case Lihat Detail Atribut Data Pengujian ……...Gambar 3.6 Diagram Aktifitas Use Case Menghitung Probabilitas Prior …………… Gambar 3.7 Diagram Aktifitas Use Case Menghitung Likelihood …………………….Gambar 3.8 Diagram Aktifitas Use Case Melakukan Prediksi Satu Record ................Gambar 3.9 Diagram Aktifitas Use Case Melakukan Prediksi Semua Record……….Gambar 3.10 Diagram Kelas Use Case Memasukkan Data …………………….........Gambar 3.11 Diagram Kelas Use Case Melihat Detail Atribut Data Pelatihan .…......Gambar 3.12 Diagram Kelas Use Case Melihat Detail Atribut Data Pengujian …......Gambar 3.13 Diagram Kelas Use Case Menghitung Nilai Probabilitas Prior …..........Gambar 3.14 Diagram Kelas Use Case Menghitung Nilai Likelihood ........................Gambar 3.15 Diagram Kelas Use Case Melakukan Prediksi Satu Record …………...Gambar 3.17 Diagram Sequence Memasukkan Data ………………………………...

  4

Gambar 3.18 Diagram Sequence Lihat Detail Atribut Data Pelatihan ….……………Gambar 3.19 Diagram Sequence Lihat Detail Atribut Data Pengujian ………………Gambar 3.20 Diagram Sequence Menghitung Nilai Probabilitas Prior ………………Gambar 3.21 Diagram Sequence Menghitung Nilai Likelihood ……..……………… Gambar 3.22 Diagram Sequence Melakukan Prediksi Satu Record .............................Gambar 3.23 Diagram Sequence Melakukan Prediksi Semua Record .........................Gambar 3.24 Desain Antar Muka Halaman Utama.......................................................Gambar 3.25 Desain Antar Muka Tambah Data ...........................................................Gambar 3.26 Desain Antar Muka Detail Tabel Pelatihan .............................................Gambar 3.27 Desain Antar Muka Detail Tabel Pengujian ...........................................Gambar 3.28 Desain Antar Muka Menghitung Probabilitas Prior dan Likelihood ......Gambar 3.29 Desain Antar Muka Pilih Pengujian .......................................................Gambar 3.30 Desain Antar Muka Prediksi Satu Record ..............................................Gambar 3.31 Desain Antar Muka Prediksi Semua Record ...........................................

  64 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 4.1 Halaman Utama .........................................................................................

  70

  79

  79

  78

  78

  77

  76

  75

  74

  74

  74

  73

  72

  71

  70

  69

Gambar 4.2 Halaman Tentang Sistem ..........................................................................Gambar 4.9 Pesan Selesai Penghitungan Nilai Probabilitas Prior dan Likelihood .......Gambar 4.3 Halaman Bantuan Sistem ..........................................................................Gambar 4.4 Halaman Memasukkan Data .....................................................................Gambar 4.5 Halaman Detail Atribut Data ............... ....................................................Gambar 4.6 Hasil Detail Atribut Data Pelatihan ...........................................................Gambar 4.7 Hasil Detail Atribut Data Pengujian .........................................................Gambar 4.8 Pesan Penghitungan Nilai Probabilitas Prior dan Likelihood ...................Gambar 4.10 Halaman Hasil Menghitung Probabilitas Prior dan Likelihood ..............Gambar 4.17 Halaman Hasil Prediksi Benar ................................................................Gambar 4.11 Halaman Pilih Pengujian .........................................................................Gambar 4.12 Halaman Prediksi Satu Record ................................................................Gambar 4.13 Hasil Prediksi Satu Record ......................................................................Gambar 4.14 Pesan Proses Prediksi Semua Record .....................................................Gambar 4.15 Pesan Proses Prediksi Semua Record Selesai .........................................Gambar 4.16 Halaman Hasil Prediksi Semua Record ..................................................

  80 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  DAFTAR TABEL Tabel 2.1 Training Dataset Masalah Berolah Raga Atau Tidak ...................................

  44

  12

  14

  23

  23

  30

  32

  32

  33

  33

  34

  34

  35

  35

  45

  10

  46

  47

  48

  49

  50

  66

  66

  66

  81

  82

  82

  82

  83

  12

  8

Tabel 3.1 Hasil Test Korelasi Bivariat Data PMB ........................................................Tabel 3.15 Struktur Tabel Temp ...................................................................................Tabel 3.2 Data Sebelum Transformasi ..........................................................................Tabel 3.3 Data Setelah Transformasi ............................................................................Tabel 3.4 Tabel Ringkasan Use Case ...........................................................................Tabel 3.5 Deskripsi Atribut Tabel Data Pelatihan …...…………………………….....Tabel 3.6 Deskripsi Atribut Tabel Data Pengujian .......................................................Tabel 3.7 Contoh Tabel Pengujian yang Akan Dilakukan Proses Prediksi ..................Tabel 3.8 Tabel Relasional Database ..........................................................................Tabel 3.9 Contoh Tabel Pelatihan ...............................................................................Tabel 3.10 Contoh Tabel Pengujian ..............................................................................Tabel 3.11 Contoh Tabel Temp ....................................................................................Tabel 3.12 Tabel Relasional Database Setelah Normalisasi .........................................Tabel 3.13 Struktur Tabel Pelatihan .............................................................................Tabel 3.14 Struktur Tabel Pengujian ............................................................................Tabel 3.16 Klasifikasi Use Case Memasukkan Data ....................................................Tabel 4.9 Pengujian Cross Validation Fold 5 ...............................................................Tabel 3.17 Klasifikasi Use Case Lihat Detail Tabel Pelatihan .....................................Tabel 3.18 Klasifikasi Use Case Lihat Detail Tabel Pengujian ....................................Tabel 3.19 Klasifikasi Use Case Menghitung Nilai Probabilitas Prior ........................Tabel 3.20 Klasifikasi Use Case Menghitung Nilai Likelihood ...................................Tabel 3.21 Klasifikasi Use Case Melakukan Prediksi Satu Record .............................Tabel 3.22 Klasifikasi Use Case Melakukan Prediksi Semua Record ..........................Tabel 4.1 Tabel Pelatihan .............................................................................................Tabel 4.2 Tabel Pengujian ............................................................................................Tabel 4.3 Tabel Temp ...................................................................................................Tabel 4.4 Confunsion Matrix Pengujian I Fold 5 ..........................................................Tabel 4.5 Confunsion Matrix Pengujian II Fold 5 ........................................................Tabel 4.6 Confunsion Matrix Pengujian III Fold 5 .......................................................Tabel 4.7 Confunsion Matrix Pengujian IV Fold 5........................................................Tabel 4.8 Confunsion Matrix Pengujian V Fold 5 ........................................................

  83 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Tabel 4.10 Confunsion Matrix Pengujian I Fold 10......................................................

  84

  87

  86

  86

  86

  85

  85

  85

  84

  84

Tabel 4.11 Confunsion Matrix Pengujian II Fold 10 ....................................................Tabel 4.20 Pengujian Cross Validation Fold 10 ...........................................................Tabel 4.19 Confunsion Matrix Pengujian X Fold 10 ....................................................Tabel 4.18 Confunsion Matrix Pengujian IX Fold 10 ...................................................Tabel 4.17 Confunsion Matrix Pengujian VIII Fold 10 ................................................Tabel 4.16 Confunsion Matrix Pengujian VII Fold 10..................................................Tabel 4.15 Confunsion Matrix Pengujian VI Fold 10 ...................................................Tabel 4.14 Confunsion Matrix Pengujian V Fold 10 ....................................................Tabel 4.13 Confunsion Matrix Pengujian IV Fold 10...................................................Tabel 4.12 Confunsion Matrix Pengujian III Fold 10 ...................................................

  87 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB I PENDAHULUAN I.1. Latar Belakang Masalah Universitas Sanata Dharma (USD) adalah salah satu perguruan

  tinggi swasta di Yogyakarta. Setiap tahunnya USD menerima mahasiswa baru lebih dari seribu mahasiswa. Dalam prosedur pendaftaran mahasiswa baru, ketika sudah diumumkan mahasiswa tersebut diterima, langkah selanjutnya adalah mahasiswa baru itu melakukan daftar ulang. Jumlah mahasiswa baru yang diterima selalu lebih dari kuota yang ada. Hal ini dilakukan untuk mengantisipasi mahasiswa yang sudah diterima tetapi mahasiswa tersebut tidak melakukan daftar ulang. Namun demikian kadang kala jumlah mahasiswa yang mendaftar ulang lebih sedikit dari kapasitas penerimaan mahasiswa baru yang ditetapkan oleh USD. Sebaliknya, dapat juga terjadi mahasiswa baru yang mendaftar ulang melebihi kuota.

  Untuk mengantisipasi masalah perlu dilakukan suatu prediksi untuk menentukan mahasiswa baru yang tidak melakukan daftar ulang. Banyak hal yang bisa dilakukan untuk melakukan prediksi ini, salah satunya menggunakan data mining. Data mining adalah percobaan untuk memperoleh informasi yang berguna yang tersimpan di dalam basis data yang sangat besar (Mitra & Acharya, 2003). Salah satu algoritma yang digunakan menggunakan algoritma naive bayesian. Naïve bayes adalah metode klasifikasi yang berdasarkan probabilitas dan teorema bayesian dengan asumsi bahwa setiap variabel bersifat bebas (independent). Dengan kata lain, naïve bayesian classifier mengasumsikan bahwa keberadaan sebuah variabel tidak ada kaitannya dengan keberadaan variabel lain.

  Dengan prediksi mahasiswa yang tidak melakukan daftar ulang di USD ini, maka akan membantu USD untuk menentukan kuota secara lebih tepat. Dengan demikian jumlah mahasiswa baru yang sudah diprediksikan oleh USD tidak jauh berbeda dengan mahasiswa yang benar-benar melakukan daftar ulang.

  1

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  I.2. Rumusan Masalah

  1. Bagaimana mengimplementasikan algoritma Naive Bayesian untuk memprediksi calon mahasiwa baru yang tidak melakukan daftar ulang ?

  2. Berapakah tingkat keakuratan prediksi yang dihasilkan dalam memprediksi calon mahasiswa baru yang tidak melakukan daftar ulang ?

  I.3. Tujuan

  Tujuan dari penelitian ini adalah bagaimana menerapkan algoritma

  Naive Bayesian sebagai salah satu algoritma dalam data mining untuk

  mengetahui calon mahasiswa baru Universitas Sanata Dharma yang tidak melakukan daftar ulang.

  I.4. Batasan Masalah

  Dalam prediksi yang akan dilakukan dalam tugas akhir ini memiliki batasan-batasan masalah :

  1. Dalam mengimplementasikan prediksi ini, algoritma yang digunakan memakai algoritma Naive Bayesian.

  2. Data yang digunakan dalam proses prediksi adalah data penerimaan mahasiswa baru Universitas Sanata Dharma tahun 2009 untuk pendaftaran melalui jalur reguler tes tertulis dari gelombang 1 sampai gelombang 3.

  3. Data PMB USD meliputi prioritas pilihan pada program studi tempat calon mahasiswa diterima, gelombang masuk pendaftaran, jenis kelamin, jurusan SMA, program studi tempat diterima, status daftar ulang yang dilakukan dan nilai final tes masuk berdasarkan program studi.

  4. Berdasarkan input data penerimaan mahasiswa baru Universitas Sanata Dharma tahun 2009, output program ini adalah prediksi apakah mahasiswa baru itu melakukan daftar ulang atau tidak, tingkat keakuratan prediksi yang dihasilkan, serta hasil prediksi untuk satu data mahasiswa tertentu.

  5. Program yang digunakan untuk implementasi adalah Java dan MySQL.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  I.5. Metodologi Penelitian

  1. Melakukan pencarian data penerimaan mahasiswa baru di Universitas Sanata Dharma.

  2. Melakukan proses pembersihan data untuk membuang data yang tidak konsisten dan noise.

  3. Melakukan proses integrasi data yaitu menggabungkan tabel dari beberapa sumber agar seluruh data terangkum dalam satu tabel utuh .

  4. Melakukan proses seleksi dan transformasi yaitu data dipilih untuk selanjutnya diubah menjadi bentuk yang sesuai untuk ditambang.

  5. Melakukan proses pencarian pola pada training data menggunakan algoritma Naive Bayesian.

  6. Uji coba program.

  I.6. Sistematika Penulisan

  Bab I. Pendahuluan Bab ini membahas mengenai latar belakang, rumusan masalah, batasan masalah, tujuan, manfaat, metodologi dan sistematika penulisan. Bab II. Landasan Teori Bab ini membahas mengenai implementasi penambangan data menggunakan algoritma Naive Bayesian. Bab III. Perancangan Sistem Bab ini berisi tentang identifikasi sistem, pembersihan data, integrasi

  data, seleksi data, transformasi data, analisis kebutuhan pengguna, serta perancangan umum sistem.

  Bab IV. Implementasi Program Berisi implementasi algoritma Naive Bayesian dalam menentukan

  prediksi calon mahasiswa baru yang tidak melakukan daftar ulang serta analisa hasil prediksi.

  Bab V. Kesimpulan dan Saran Berisi tentang kesimpulan dan saran dari masalah yang telah dibahas.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB II LANDASAN TEORI

2.1 Pengertian Dat Data Mining

  Data mining adala alah suatu proses untuk menentukan informas asi dari sejumlah data yang besar y r yang disimpan dalam database penyimpana nan. Data mining merupakan bagian ian dari knowledge discovery in databases ( (KDD). Adapun tahap-tahap dalam am proses penambangan data adalah:

  Gam mbar 2.1 Langkah-langkah dalam Penambangan D Data

  Sumber: Jiawei Han and Micheline Kamber http://www.cs.sfu.ca/~han/dmbook Secara garis besa sar, langkah-langkah utama penambangan dat data dalam proses KDD adalah:

  1. Pemahaman ter terhadap domain aplikasi, relevansinya terhad adap pengetahuan yang ada dan tu tujuan dari end-user.

  2. Menciptakan hi himpunan target data: pemilihan himpunan dat data.

  3. Pembersihan d data dan Preprocessing : untuk membuang g data yang tidak konssisten dan an noise.

  4. Proyeksi dan p n pengurangan data: pencarian fitur-fitur yang ng berguna untuk mempresentasik asikan data bergantung kepada tujuan yang ingin gin dicapai.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  5. Pemilihan fungsi penambangan data : pemilihan tujuan dari proses KDD misalnya klasifikasi, regresi, clustering, dll.

  6. Pemilihan algoritma penambangan data.

  7. Penambangan data : pencarian pola-pola yang diinginkan.

  8. Evaluasi pola-pola yang dihasilkan dari penambangan data (langkah 7).

  9. Menggunakan informasi yang didapatkan.

2.2 Teorema Bayes Misalnya pertandingan sepak bola antara persaingan dua regu: tim 0 dan tim 1.

  Diumpamakan tim 0 kemenangannya 65% untuk saat ini dan kemenangan tim 1 untuk pertandingan sisanya. Diantara pertandingan yang dimenangkan oleh regu 0, hanya 30% untuk mereka yang datang dari tim yang bermain di area Team 1. Pada sisi lain, 75% kemenangan untuk tim 1 diperoleh ketika menjadi tuan rumah. Jika tim 1 adalah tuan rumah pertandingan berikutnya antara kedua regu, regu yang akan hampir bisa dipastikan muncul sebagai pemenang dapat dicari dengan menggunakan teorema Bayes. Misalnya, X dan Y menjadi sepasang variabel acak. Menggabungkan kemungkinan, P(X=x, Y=y), mengacu pada kemungkinan bahwa variabel X akan menerima nilai x dan variabel Y akan menerima nilai y. Sebuah kemungkinan bersyarat adalah kemungkinan bahwa suatu variabel acak akan menerima nilai tertentu yang diberikan yang mana hasil untuk variabel acak lain diketahui. Sebagai contoh, conditional probability (kemungkinan bersyarat) P(Y=Y|X=X) mengacu pada kemungkinan bahwa variabel Y akan menerima nilai y, variabel X diamati untuk memiliki nilai x. Conditional probability untuk X dan Y terkait sebagai berikut:

  P ( X | Y ) P ( Y )

  P(Y|X)= ........................(2.1)

  P ( X ) - X adalah sampel dengan klas (label) yang tidak diketahui.

  • Y merupakan hipotesis bahwa X adalah data dengan klas(label).
  • P(Y) adalah peluang (Prior probability) dari hipotesa Y.
  • P(X) adalah bahwa data sampel diamati.
  • P(X|Y) adalah peluang data sampel X, bila diasumsikan bahwa hipotesa benar (valid).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Teorema Bayes dapat digunakan untuk memecahkan masalah prediksi.

  X menjadi variabel acak yang menjadi tim tuan rumah pertandingan dan Y variabel acak yang menjadi pemenang pertandingan. Kedua nilai X dan Y di- set { 0,1}. Kita dapat meringkas informasi dalam masalah sebagai berikut:

  • Kemungkinan tim 0 kemenangannya adalah P(Y=0)= 0.65
  • Kemungkinan tim 1 kemenangannya adalah P(Y=1)=1-

  P(Y=0)=0.35

  • Kemungkinan tim 1 menjadi tuan rumah pertandingan itu dimenangkan adalah P(X=1|Y=1)=0.75
  • Kemungkinan Regu 1 menjadi tuan rumah pertandingan dimenangkan oleh tim 0 adalah P(X=1|Y=0)=0.3

  Objek ini adalah menghitung P(Y=1|X=1), yang mana conditional

  probability kemenangan tim 1 adalah pertandingan berikutnya ketika menjadi

  tuan rumah, dan bandingkan kembali P(Y=0|X=1). Penggunaan teorema

  Bayes , diperoleh: P (

  X

  1 | Y 1 ) xP ( Y 1 )

  = = =

  P(Y=1|X=1) =

  P (

  

X

  1 )

  = P (

  X

  1 | Y 1 ) xP ( Y 1 )

  = = =

  =

  X

  1 , Y 1 ) P (

  X

  1 , Y )

  = = = = P

  • P (

  X Y xP Y

  ( 1 | 1 ) ( 1 )

  = = =

  =

  X Y P Y P

  X Y P Y

  ( = 1 | = 1 ) ( = 1 ) ( = 1 | = ) ( = )

  • P

  x . 75 .

  35

  = 75 x .

  65 = 0.5738 Untuk nilai P(Y=0|X=1) = 1-P(Y=1|X=1) = 0.4262. Sehingga P(Y=1|X=1)>P(Y=0|X=1), tim 1 mempunyai suatu kesempatan lebih baik dibanding tim 0 untuk kemenangan pertandingan berikutnya.

  35 . + . 3 x .

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  2.3 Naïve Bayes Clasifier Naïve Bayes

  adalah metode klasifikasi yang berdasarkan probabilitas dan teorema Bayesian dengan asumsi bahwa setiap variable bersifat bebas (independence). Dengan kata lain, Naïve Bayesian Classifier mengasumsikan bahwa keberadaan sebuah variable tidak ada kaitannya dengan keberadaan variable lain. Karena setiap variabel tidak ada kaitanya dengan variabel lain maka rumus 2.1 berubah sebagai berikut: d

  P(X|Y=y)= P (

  X | Y y ) ………………………(2.2) i =i

  = 1 Dimana masing-masing set atribute X={X1, X2,....,Xd} terdiri dari d atribut.

  2.4 Conditional Independence Contoh conditional independence adalah hubungan antara panjang lengan tangan seseorang dan ketrampilan membacanya. Seseorang mungkin mengamati orang itu dengan lengan tangan yang lebih panjang cenderung mempunyai ketrampilan membaca lebih tinggi. Hubungan ini dapat ditentukan oleh faktor umur. Seorang anak muda cenderung mempunyai lengan yang lebih pendek dan ketrampilan membacanya lebih rendah untuk orang dewasa.

  Jika umur seseorang ditetapkan, maka hubungan yang diamati antara panjang lengan tangan dan ketrampilan membaca tidak ada. Seperti itu, dapat disimpulkan panjang lengan tangan dan ketrampilan membaca adalah kondisi yang berdiri sendiri ketika variabel umur itu ditetapkan.

Dokumen yang terkait

Pengenalan pola klasifikasi status registrasi calon mahasiswa baru Universitas Sanata Dharma dengan algoritma Reduct Based Decision Tree (RDT).

1 5 153

Pencarian karakteristik calon mahasiswa baru Universitas Sanata Dharma yang tidak mendaftar ulang dengan menggunakan algoritma pohon.

0 0 125

Sistem informasi kost/kontrakan berbasis web untuk mahasiswa baru Universitas Sanata Dharma - USD Repository

0 0 167

Implementasi algoritma K-Means untuk memprediksi nilai mahasiswa : studi kasus mahasiswa Teknik Informatika Universitas Sanata Dharma - USD Repository

0 1 76

Pencarian karakteristik calon mahasiswa baru Universitas Sanata Dharma yang tidak mendaftar ulang dengan menggunakan algoritma pohon - USD Repository

0 0 123

Analisis faktor-faktor yang mempengaruhi keputusan peminat untuk memilih Universitas Sanata Dharma Yogyakarta dan bukan universitas Katolik yang lain : studi kasus pada calon mahasiswa baru angkatan 2008 Universitas Sanata Dharma Yogyakarta - USD Reposito

0 0 134

Efikasi diri pada mahasiswa psikologi Universitas Sanata Dharma yang sedang mengerjakan skripsi - USD Repository

0 0 103

Alasan-alasan mahasiswa Kampus 1 Universitas Sanata Dharma menggunakan jasa laundry and dry cleaning - USD Repository

0 3 140

Alasan mahasiswa tidak menggunakan sarana angkutan publik : studi kasus pada mahasiswa Universitas Sanata Dharma Kampus I, Mrican Yogyakarta - USD Repository

0 0 110

Pencarian pola klasifikasi mahasiswa yang tidak memenuhi sisip program berdasarkan nilai tes masuk penerimaan mahasiswa baru dan latar belakang mahasiswa Universitas Sanata Dharma dengan menggunakan algoritma C4.5 - USD Repository

0 0 175