Pencarian pola klasifikasi mahasiswa yang tidak memenuhi sisip program berdasarkan nilai tes masuk penerimaan mahasiswa baru dan latar belakang mahasiswa Universitas Sanata Dharma dengan menggunakan algoritma C4.5 - USD Repository
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Pencarian Pola Klasifikasi Mahasiswa yang Tidak Memenuhi Sisip Program Berdasarkan Nilai Tes Masuk Penerimaan Mahasiswa Baru dan Latar Belakang Mahasiswa Universitas Sanata Dharma dengan Menggunakan Algoritma C4.5 Skripsi Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer
Oleh : Ni Made Kristianingsih Kuatra 07 5314 065
PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2011
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Finding Pattern Classification of Students that Do Not Fill
Sisip Program Based on Student Admission Test and Background of Students
of Sanata Dharma University Using C4.5 Algorithm
A Thesis
Presented As Partial Fullfillment of the Requirements
To Obtain the Sarjana Komputer Degree
By :
Ni Made Kristianingsih Kuatra
Student Number : 07 5314 065
INFORMATICS ENGINEERING STUDY PROGRAM
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2011
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
“Setiap tujuan dan keberhasilan dalam hidup , Berawal dari sebuah mimpi …” serta “ Percaya bahwa Tuhan akan selalu membantu mu,
Dalam meraih setiap tujuanmu…“ .: (,”) Skripsi ini saya persembahkan kepada. . . (“.) :.
Ida Sang Hyang Widhi Wasa, karena dengan bantuan dan persetujuanNya,
- aku dapat menyelesaikan skripsi ini.
Keluargaku , Papa (I Ketut Kuatra) dan Mama (Ni Nyoman Kasilah) serta Kakakku
( I Gede Kasyanto Kuatra, S.IP.) yang tercinta. Terimakasih atas doa, dukungan, dan
cinta yang diberikan yang tidak pernah berakhir untukku. (^_^)
Beibee Ciplugku tercinta, Markus Herjuno dengan dukungan, +
semangat, bantuan, lelucon, dan hiburan yang selalu kamu berikan untukku. Terimakasih karena selalu menemaniku kemanapun aku pergi. Terimakasih karena selalu ada disaat aku butuh kamu. ^^
Sahabat-sahabat seperjuanganku , Florensia Dwinta (terimakasih buntel atas
- bantuannya dalam segala hal), Ana Suryaningsih (terimakasih atas doa, dukungan, dan semangatnya), Mbak Agil Grisadha (terimakasih mbak atas semangat, doa, dan bantuannya), Maria Anindita , Arum Citra , Andrias
Pratiwi , Mas Taufik , Amiko Bintoro , Albertus Dio (terimakasih telah
mendukungku). Untuk Cupliezt dan semua temanku yang sudah ikut
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
mendukungku). Untuk Cupliezt dan semua temanku yang sudah ikut membantu yang tidak bisa aku sebutkan satu per satu. Sukses buat semuanya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ABSTRAK
Penambangan data (data mining) adalah proses pencarian informasi yangbernilai di basis data yang besar, gudang data, atau data mart. Dalam penulisan
tugas akhir ini, algoritma C4.5 diimplementasikan untuk pencarian pola
klasifikasi mahasiswa yang tidak memenuhi sisip program. Sisip program adalah
evaluasi hasil studi mahasiswa selama empat semester pertama untuk menentukan
apakah mahasiswa dapat melanjutkan studi atau harus meninggalkan program
studi yang bersangkutan. Data yang digunakan merupakan data penerimaan
mahasiswa baru jalur tes dan latar belakang mahasiswa program studi Teknik
Informatika Universitas Sanata Dharma dari tahun 2000 sampai dengan 2004.
Data yang digunakan berisi informasi tentang jenis kelamin, nilai penalaran
verbal, nilai kemampuan numerik, nilai penalaran mekanik, nilai hubungan ruang,
nilai bahasa inggris, pilihan, gelombang, kabupaten SMA, jurusan SMA,
keterangan SMA, dan status sisip program.Program diuji dengan menggunakan teknik 5 fold cross validation dengan sampel data sebanyak 355 data. Hasil akurasi program adalah 66,19 %.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ABSTRACT
Data mining is a process of finding valuable information in largedatabases, data warehouses, or data marts. In this thesis, C4.5 algorithm was
implemented to find the classification patterns of students that do not fill “sisip
program”. “Sisip program” is evaluation of students over four semesters of their
studies to determine whether students can continue their studies or having to
leave their study program. The data used is the regular student admissions data
along with student academic data of the students of the Informatics Engineering
Sanata Dharma University from year 2000 to 2004. Data used contain
information about sex, the score of verbal reasoning test, numerical ability test,
mechanical reasoning test, space relations test, English language test, chosen
study program, registration periods, district high school, high school majors,
school information, and status.The program was verified using 5 fold cross validation technique towards 355 records. The accuracy of the program is 66.19 %.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
KATA PENGANTAR
Puji syukur penulis panjatkan kehadirat Tuhan Yang Maha Esa, yang telah melimpahkan berkat dan rahmatNya sehingga penulis dapat menyelesaikan tugas akhir yang berjudul “Pencarian Pola Klasifikasi Mahasiswa yang Tidak Memenuhi Sisip Program Berdasarkan Nilai Tes Masuk Penerimaan Mahasiswa Baru dan Latar Belakang Mahasiswa Universitas Sanata Dharma dengan Menggunakan Algoritma C4.5
”. Tugas akhir ini ditulis sebagai salah satu syarat memperoleh gelar sarjana program studi Teknik Informatika, Fakultas Sains dan Teknologi Universitas Sanata Dharma.
Dalam kesempatan ini, penulis mengucapkan terimakasih yang sebesar-besarnya kepada :
1. Ibu P.H. Prima Rosa, S.Si.,M.Sc., selaku Dosen Pembimbing atas segala waktu, kesabaran, serta member kritik dan saran yang membangun dalam membantu penyelesaian tugas akhir ini.
2. Romo Dr. C. Kuntoro Adi, SJ.,MA.,M.Sc selaku Wakil Rektor III dan Ibu Ridowati Gunawan, S.Kom.,M.T., selaku Ketua Program Studi Teknik Informatika yang bertindak sebagai Dosen Penguji yang telah berkenan memberikan motivasi, kritik, dan saran yang sangat berguna bagi penulis.
3. Seluruh staff pengajar Prodi Teknik Informatika yang telah memberikan ilmu pengetahuan yang sangat berguna bagi penulis.
4. Bapak Emanuel Bele Bau, Spd. selaku staff laboran yang telah membantu dalam pelaksanaan tugas akhir.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6. Pelatih dan teman-teman UKM Grisadha yang selalu menanyakan perkembangan tugas akhir ini. Terimakasih atas dukungan dan semangatnya.
7. Seluruh teman-teman TI angkatan 2007 yang telah mendukung dan tidak dapat disebutkan satu persatu.
Semoga skripsi ini dapat memberi manfaat yang cukup berarti khususnya
bagi penulis dan bagi pembaca pada umumnya. Semoga Tuhan Yang Maha Esa
senantiasa memberikan rahmatNya bagi kita semua. Amin.Yogyakarta, 7 November 2011 Ni Made Kristianingsih Kuatra
DAFTAR ISI
Halaman Judul ............................................................................................................... i
Halaman Judul (Inggris) ............................................................................................... ii
Halaman Persetujuan .................................................................................................. iii
Halaman Pengesahan .................................................................................................. iv
Halaman Persembahan ................................................................................................. v
Halaman Pernyataan Keaslian Karya .......................................................................... vi
Abstrak ....................................................................................................................... vii
Abstract .................................................................................................................... viii
Lembar Pernyataan Persetujuan .................................................................................. ix
Kata Pengantar ............................................................................................................. x
Daftar Isi .................................................................................................................... xii
Daftar Tabel ............................................................................................................... xv
Daftar Gambar ........................................................................................................... xvi
BAB I PENDAHULUAN .......................................................................................... 1
I.1 Latar Belakang ................................................................................................... 1 I.2 Perumusan Masalah ........................................................................................... 3 I.3 Tujuan Penelitian ............................................................................................... 3 I.4 Batasan Masalah ................................................................................................. 4 I.5 Luaran ................................................................................................................ 5 I.6 Kegunaan ............................................................................................................ 5 I.7 Metodologi Penelitian ........................................................................................ 5 I.8 Sistematika Penulisan ......................................................................................... 6BAB II LANDASAN TEORI .................................................................................... 8
II.1 Penambangan Data ........................................................................................... 8 II.2 Proses Penambangan Data ................................................................................ 8 II.3 Teknik Klasifikasi ........................................................................................... 11 II.4 Pohon Keputusan ............................................................................................ 11 II.5 Manfaat Pohon Keputusan .............................................................................. 12 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
II.8 Algoritma C4.5 ............................................................................................... 13
BAB III ANALISIS DAN PERANCANGAN SISTEM ......................................... 16
III.1 Identifikasi Sistem ......................................................................................... 16 III.2 Pemrosesan Data Awal, Input Sistem, Proses Sistem, dan Output Sistem ... 17 III.2.1 Pemrosesan Data Awal ............................................................................ 19 III.3 Perancangan Umum Sistem ........................................................................... 26 III.3.1 Masukan Sistem ....................................................................................... 26 III.3.2 Proses Sistem ........................................................................................... 28 III.3.3 Output Sistem .......................................................................................... 29 III.3.4 Diagram Use Case ................................................................................... 30 III.3.5 Narasi Use Case ....................................................................................... 32 III.3.6 Diagram Konteks ..................................................................................... 35 III.3.7 Diagram Aktifitas .................................................................................... 36 III.3.7.1 Diagram Aktifitas Login ................................................................... 36 III.3.7.2 Diagram Aktifitas Tambah Data Pelatihan ...................................... 37 III.3.7.3 Diagram Aktifitas Transformasi Data Pelatihan .............................. 38 III.3.7.4 Diagram Aktifitas Pola Klasifikasi .................................................. 39 III.3.7.5 Diagram Aktifitas Simpan Aturan .................................................... 40 III.3.7.6 Diagram Aktifitas Prediksi ............................................................... 41 III.3.7.7 Diagram Aktifitas Logout ................................................................. 41 III.3.8 Diagram Kelas Analisis ........................................................................... 42 III.3.9 Diagram Sekuensial ................................................................................. 43 III.3.9.1 Diagram Sekuensial Login ............................................................... 43 III.3.9.2 Diagram Sekuensial Tambah Data Pelatihan ................................... 43 III.3.9.3 Diagram Sekuensial Transformasi Data Pelatihan ........................... 44 III.3.9.4 Diagram Sekuensial Pola Klasifikasi ............................................... 44 III.3.9.5 Diagram Sekuensial Simpan Pola .................................................... 45 III.3.9.6 Diagram Sekuensial Prediksi ........................................................... 45 III.3.10 Diagram Kelas Desain ........................................................................... 46 III.3.10.1 Use Case Login .............................................................................. 46 III.3.10.2 Use Case Tambah Data Pelatihan .................................................. 47PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
III.3.10.5 Use Case Simpan Aturan ............................................................... 50
III.3.10.6 Use Case Prediksi ........................................................................... 51
III.3.11 Algoritma Method-Method Penting dalam Kelas.................................. 52
III.3.12 Perancangan Struktur Data .................................................................... 60
III.3.13 Perancangan Basis Data ......................................................................... 61
III.3.14 Perancangan Antarmuka dengan Pengguna ........................................... 63
III.3.14.1 Halaman Login ............................................................................... 63
III.3.14.2 Halaman Utama .............................................................................. 63
III.3.14.3 Halaman Pencarian Pola ................................................................. 64
III.3.14.4 Halaman Tree Form ....................................................................... 65
III.3.14.5 Halaman Awal Prediksi .................................................................. 65
III.3.14.6 Halaman DataPersonalForm .......................................................... 66
III.3.14.7 Halaman DataKelompokForm ....................................................... 67
BAB IV IMPLEMENTASI SISTEM ........................................................................ 68
IV.1 Spesifikasi Perangkat Lunak dan Perangkat Keras ........................................ 68IV.2 Implementasi Use Case .................................................................................. 68
IV.3 Implementasi Diagram Kelas ......................................................................... 75 IV.3.1 Package Boundary .................................................................................. 75 IV.3.2 Package Controller ................................................................................. 81 IV.3.3 Package Entity ....................................................................................... 105BAB V ANALISIS HASIL ...................................................................................... 117
V.1 Analisis Hasil Program .................................................................................. 117 V.2 Kelebihan dan Kekurangan Program ............................................................. 126BAB VI KESIMPULAN DAN SARAN ............................................................... 127
VI.I Kesimpulan ................................................................................................... 127 VI.2 Saran ............................................................................................................. 128DAFTAR PUSTAKA ............................................................................................ 129
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR TABEL
Tabel 3. 1Tabel atribut data mentah ....................................................................... 17
Tabel 3.2 Aturan transformasi data nilai tes masuk ............................................... 21Tabel 3.3 Variabel input ......................................................................................... 22Tabel 3.4 Contoh pembagian 5 folds cross validation dalam 355 data ................ 24Tabel 3.5 Atribut Input Sistem .............................................................................. 26Tabel 3.6 Deskripsi Use Case ............................................................................... 31Tabel 3.7 Narasi Use Case Login .......................................................................... 32Tabel 3.8 Narasi Use Case Tambah Data Pelatihan ............................................. 32Tabel 3.9 Narasi Use Case Pembersihan Data Pelatihan ...................................... 33Tabel 3.1 Narasi Use Case Pola Klasifikasi ......................................................... 33Tabel 3.11 Narasi Use Case Simpan Aturan ......................................................... 34Tabel 3.12 Narasi Use Case Prediksi .................................................................... 34Tabel 3.13 Narasi Use Case Logout ...................................................................... 35Tabel 3.14 Keterangan tiap atribut dalam Vector ................................................. 60Tabel 5.1 Hasil pengujian 5 fold cross validation .............................................. 120Tabel 5.2 Data sampel yang diambil ................................................................... 121Tabel 5.3 Pembagian data kedalam 2 kelas ........................................................ 121Tabel 5.4 Pembagian data kedalam 5 fold .......................................................... 122Tabel 5.5 Hasil prediksi data fold 1 ..................................................................... 122Tabel 5.6 Hasil prediksi data fold 2 .................................................................... 123Tabel 5.7 Hasil prediksi data fold 3 .................................................................... 123Tabel 5.8 Hasil prediksi data fold 4 .................................................................... 123Tabel 5.9 Hasil prediksi data fold 5 .................................................................... 124Tabel 5.10 Hasil data valid .................................................................................. 124PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR GAMBAR
Gambar 2. 1 Tahapan dalam Data Mining .............................................................. 9
Gambar 2.2 Data Mining dan Teknologi basis data lainnya ................................. 10Gambar 2.3 Algoritma C4.5 ................................................................................... 13Gambar 3.1 Flowchart proses sistem .................................................................... 29Gambar 3.2 Diagram Use Case ............................................................................. 30Gambar 3.3 Diagram Konteks ............................................................................... 35Gambar 3.4 Diagram Aktifitas Login .................................................................... 36Gambar 3.5 Diagram Aktifitas Tambah Data Pelatihan ....................................... 37Gambar 3.6 Diagram Aktifitas Transformasi Data Pelatihan ............................... 38Gambar 3.7 Diagram Aktifitas Pola Klasifikasi ................................................... 39Gambar 3.8 Diagram Aktifitas Simpan Aturan...................................................... 40Gambar 3.9 Diagram Aktifitas Prediksi ................................................................ 41Gambar 3.10 Diagram Aktifitas Logout ............................................................... 41Gambar 3.11 Kelas Analisis Keseluruhan ............................................................ 42Gambar 3.12 Diagram Sekuensial Login .............................................................. 43Gambar 3.13 Diagram Sekuensial Tambah Data Pelatihan .................................. 43Gambar 3.14 Diagram Sekuensial Transformasi Data Pelatihan .......................... 44Gambar 3.15 Diagram Sekuensial Pola Klasifikasi .............................................. 44Gambar 3.16 Diagram Sekuensial Simpan Pola ................................................... 45Gambar 3.17 Diagram Sekuensial Prediksi .......................................................... 45Gambar 3.18 Diagram Kelas Use Case Login ...................................................... 46Gambar 3.19 Diagram Kelas Use Case Tambah Data Pelatihan .......................... 47Gambar 3.20 Diagram Kelas Use Case Transformasi data ................................... 48Gambar 3.21 Diagram Kelas Use Case Pencarian pola ........................................ 49Gambar 3.22 Diagram Kelas Use Case Simpan Aturan ....................................... 50PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Gambar 3.25 Halaman Login ................................................................................ 63Gambar 3.26 Halaman Utama ............................................................................... 63Gambar 3.27 Halaman Pencarian Pola .................................................................. 64Gambar 3.28 Halaman Tree Form ........................................................................ 65Gambar 3.29 Halaman Awal Prediksi ................................................................... 65Gambar 3.30 Halaman DataPersonalForm ........................................................... 66Gambar 3.31 Halaman DataKelompokForm ........................................................ 67Gambar 4.1 Halaman FormLogin ......................................................................... 69Gambar 4.2 Pemberitahuan pengguna berhasil login ........................................... 69Gambar 4.3 Halaman Utama ................................................................................. 69Gambar 4.4 Halaman Tab Menu Pencarian Pola .................................................. 71Gambar 4.5 Halaman File Chooser untuk mengambil data .................................. 71Gambar 4.6 Pemberitahuan file berhasil ditampilkan ........................................... 71Gambar 4.7 Pemberitahuan data berhasil di transformasi .................................... 72Gambar 4.8 Pemberitahuan bahwa pohon sudah terbentuk .................................. 72Gambar 4.9 Halaman TreeForm ........................................................................... 72Gambar 4.10 Pemberitahuan pola berhasil disimpan ............................................ 73Gambar 4.11 Halaman Awal Prediksi ................................................................... 73Gambar 4.12 Halaman DataPersonalForm ........................................................... 74Gambar 4.13 Halaman DataKelompokForm ........................................................ 74Gambar 5.1 Pola program studi TI ...................................................................... 117Gambar 5.2 Hasil akurasi sistem dengan data sampel ........................................ 125
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB I PENDAHULUAN I.1 Latar Belakang Teknologi informasi berkembang seiring dengan perkembangan peradaban
manusia. Perkembangan teknologi informasi meliputi hardware, software,
teknologi penyimpanan data (storage), dan teknologi komunikasi. Sejak
terciptanya komputer, perkembangan media penyimpanan data (data storage)
berubah sangat signifikan. Hal ini disebabkan karena jumlah data yang meningkat
sepanjang waktu dan perlu disimpan dalam waktu yang lama. Data adalah
deskripsi dari sebuah fakta yang tersusun secara terstruktur[1]. Kumpulan data
yang tersimpan bila diolah dengan baik akan menghasilkan sebuah informasi yang
penting bagi penerimanya.Universitas Sanata Dharma (USD) merupakan salah satu instansi yang
bergerak di bidang pendidikan yang memiliki data dalam jumlah besar. Setiap
tahunnya, Universitas Sanata Dharma menerima mahasiswa baru dalam jumlah
yang cukup banyak. Proses Seleksi Penerimaan Mahasiswa Baru (PMB) dapat
ditempuh melalui beberapa jalur antara lain jalur prestasi, jalur kerjasama dan
jalur reguler. Data mahasiswa baru yang terkumpul akan disimpan dan akan terus
bertambah setiap tahunnya. Apabila data tersebut tidak dimanfaatkan, akan
menjadi data sampah karena hanya akan memenuhi ruang penyimpanan data.
Dalam proses seleksi PMB jalur kerjasama dan reguler, USD memiliki kriteria
yang didasarkan pada :1. Nilai tes masuk PMB melalui tes potensi akademik berupa : nilai
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2. Pilihan program studi Calon mahasiswa baru yang berhasil lolos seleksi tentunya adalah
mahasiswa yang terpilih karena memperoleh hasil tes di atas nilai standar yang
telah ditetapkan oleh USD untuk prodi yang dipilihnya. Dari hasil tes tersebut,
calon mahasiswa yang diterima nantinya diharapkan adalah calon mahasiswa yang
unggul yang dapat mengikuti kegiatan perkuliahan dengan lancar dan memperoleh
Indeks Prestasi (IP) yang baik. Namun kenyataannya, tidak demikian. Di USD
masih terdapat mahasiswa yang tidak dapat mengikuti kegiatan perkuliahan
dengan baik dan memperoleh IP yang memadai selama 4 semester pertama. Hal
ini mengakibatkan mahasiswa-mahasiswa tersebut terkena sisip program dan
dinyatakan tidak dapat melanjutkan kuliah (drop out) dari USD. Pertanyaan yang
muncul adalah bagaimana mengetahui pola klasifikasi mahasiswa yang terkena
sisip program USD dilihat dari nilai tes masuk PMB dan latar belakang
mahasiswa?Pada tugas akhir ini akan dicari pola klasifikasi mahasiswa yang terkena
sisip program USD berdasarkan nilai tes masuk PMB jalur reguler yang meliputi
nilai penalaran verbal, nilai kemampuan numerik, nilai penalaran mekanik, nilai
bahasa inggris, nilai hubungan ruang, pilihan, gelombang, jenis kelamin, jurusan
SMA, keterangan SMA, dan kabupaten SMA. Penelitian ini dapat dilakukan
dengan memanfaatkan kumpulan basis data PMB dan mahasiswa pada tahun-
tahun sebelumnya. Untuk memperoleh pola yang diinginkan, tidak mungkin
dilakukan secara manual di kumpulan basis data yang besar. Salah satu caranya
adalah dengan menggunakan penambangan data. Istilah penambangan data (data
mining ) merupakan proses pencarian informasi yang bernilai di basis data yang
besar, gudang data, atau data mart [2]. Pendekatan yang digunakan pada
penelitian ini adalah pohon keputusan dengan algoritma C4.5. Algoritma ini
merupakan salah satu pendekatan klasifikasi.PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Penggunaan penambangan data ini diharapkan mampu menyelesaikan
permasalahan di atas. Pola atau informasi yang diperoleh nantinya diharapkan
dapat digunakan oleh pihak universitas sebagai alat bantu dalam penyeleksian
penerimaan mahasiswa baru agar mahasiswa yang diterima adalah mahasiswa
yang nantinya tidak akan mengalami kegagalan (drop out). Selain itu dapat juga
digunakan oleh Dosen Pembimbing Akademik untuk memantau dan membimbing
mahasiswa dalam meningkatkan nilai prestasi akademiknya.I.2 Perumusan Masalah Dari latar belakang yang diuraikan di atas, maka perumusan masalah dalam penelitian ini adalah :
1. Bagaimana mengimplementasikan penambangan data pada data mahasiswa USD untuk mengenali pola klasifikasi mahasiswa yang tidak memenuhi sisip program USD berdasarkan nilai tes masuk PMB dan latar belakang mahasiswa?
2. Bagaimana memanfaatkan pola tersebut untuk memprediksi status sisip program seorang mahasiswa?
I.3 Tujuan Penelitian Tujuan penelitian dilihat dari permasalahan yang ada adalah :
1. Dapat mengimplementasikan penambangan data terhadap data-data yang diperoleh seperti nilai tes masuk PMB dan latar belakang mahasiswa.
2. Dapat menemukan pola klasifikasi mahasiswa yang seperti apa yang tidak memenuhi sisip program USD berdasarkan nilai tes masuk PMB dan latar belakang mahasiswa.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3. Memprediksi status sisip program calon mahasiswa atau mahasiswa baru agar nantinya mahasiswa tersebut tidak mengalami kegagalan di pertengahan studi.
I.4 Batasan Masalah
Berikut ini adalah batasan masalah dalam penelitian Tugas Akhir :
1. Data mahasiswa yang ditambang diambil dari data PMB Jalur Reguler dan data akademik Program Studi TI Universitas Sanata Dharma tahun 2000- 2004 yang diperoleh dari Biro Administrasi Perencanaan dan Sistem Informasi (BAPSI). Atribut data yang diperoleh sebagai berikut :
1. Tahun angkatan
2. Kode prodi
3. NIM
4. Nomor Induk Mahasiswa (NIM)
5. Jenis Kelamin
6. Nilai tes masuk PMB yang meliputi :
a. Nilai penalaran verbal
b. Nilai kemampuan numerik
c. Nilai penalaran mekanik
d. Nilai bahasa inggris
e. Nilai hubungan ruang
f. Nilai final
7. Rangking
8. Rangking2
9. Pilihan
10. Jurusan SMA
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13. Asal sma
14. SKS 4
15. IPK 40b
16. IPK4b
17. KabSmu3
18. KabSMA
2. Penelitian ini hanya menerapkan metode pohon keputusan dengan menggunakan algoritma C4.5.
I.5 Luaran Sebuah aplikasi yang mampu menemukan pola yang diinginkan secara
otomatis dengan menggunakan latar belakang mahasiswa, nilai tes masuk PMB
dan dapat memprediksi calon mahasiswa yang akan diterima atau mahasiswa baru
agar tidak mengalami kegagalan (drop out) pada pertengahan studi.I.6 Kegunaan Hasil dari luaran ini diharapkan dapat digunakan oleh pihak universitas
khususnya Kaprodi sebagai alat bantu dalam penyeleksian calon mahasiswa yang
akan diterima agar tidak mengalami kegagalan (drop out). Selain itu diharapkan
bagi Dosen Pembimbing Akademik, dapat membantu dalam memantau dan
membimbing mahasiswa yang terancam terkena sisip program untuk dapat
meningkatkan prestasi akademiknya.I.7 Metodologi Penelitian Metodologi yang digunakan untuk menyelesaikan masalah pada tugas akhir ini adalah[3]:
derau yang ada dalam data tersebut, seperti data yang tidak relevan, data yang salah ketik maupun data kosong yang tidak diperlukan.
2. Integrasi data Merupakan penggabungan data dari beberapa sumber agar seluruh data terangkum dalam satu tabel utuh.
3. Seleksi data Pada proses ini menyeleksi data dimana data yang relevan diambil dari database.
4. Transformasi data Mengubah data kedalam bentuk yang sesuai untuk ditambang.
5. Penambangan data Penerapan teknik penambangan data untuk mengekstrak pola . Dalam tugas akhir ini menggunakan algoritma C4.5.
6. Evaluasi pola Untuk mengidentifikasikan pola yang penting dan menarik untuk merepresentasikan sebuah pengetahuan.
7. Presentasi Pengetahuan Pada tahap ini pola yang didapat direpresentasikan kepada pengguna akhir kedalam bentuk yang dapat dipahami.
I.8 Sistematika Penulisan
Sistematika penulisan dalam tugas akhir ini, adalah sebagai berikut :
BAB I. PENDAHULUAN Bab Pendahuluan akan dijelaskan mengenai latar belakang masalah,
perumusan masalah, tujuan penelitian, batasan masalah, luaran, kegunaan,
metodologi penelitian dan sistematika pembahasan.BAB II. LANDASAN TEORI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
penulisan tugas akhir, meliputi : penambangan data, proses penambangan data,
teknik klasifikasi, pohon keputusan, manfaat pohon keputusan, kelebihan pohon
keputusan, kekurangan pohon keputusan, dan algoritma C4.5BAB III. ANALISIS DAN PERANCANGAN SISTEM Bab Analisis dan Perancangan Sistem berisi tentang identifikasi sistem,
pemrosesan data awal, input sistem, proses sistem, output sistem, dan
perancangan sistem.BAB IV. IMPLEMENTASI Bab implementasi berisi tentang implementasi metode pohon keputusan
digunakan dan hasil implementasi dari algoritma yang , yaitu algoritma C4.5.
BAB V. ANALISIS Bab Analisis berisi tentang hasil analisis dari hasil output yang diperoleh. BAB VI. KESIMPULAN DAN SARAN Bab Kesimpulan dan Saran berisi tentang kesimpulan yang dapat diambil dari seluruh hasil dan analisis yang diperoleh.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB II LANDASAN TEORI II.1 Penambangan Data Istilah penambangan data (data mining) merupakan proses pencarian
informasi yang bernilai di basis data yang besar, gudang data, atau data mart. Alat
penambangan data mengidentifikasi pola yang sebelumnya tersembunyi dalam
satu langkah [2].Beberapa pengertian penambangan data menurut sejumlah penulis adalah:
1. Definisi sederhana dari penambangan data menurut Yudho [3] adalah “ekstraksi informasi atau pola yang penting atau menarik dari data yang ada di database yang besar ”.
2. Penambangan data menurut Mitra & Acharya [4] adalah “suatu
data percobaan untuk memperoleh informasi yang berguna yang tersimpan dalam basisdata yang sangat besar ”.
Dari pengertian diatas, dapat diartikan bahwa penambangan data sebagai
proses pengambilan pola atau informasi pada data dalam jumlah besar yang
tersimpan dalam basis data.II.2 Proses Penambangan Data
Proses penambangan data tidak dapat dipisahkan dengan Knowledge
Discovery in Database (KDD), karena penambangan data merupakan salah satu
tahap dari proses KDD yang mempergunakan analisa data dan penggunaan
algoritma, sehingga menghasilkan pola-pola khusus dalam basis data yang besar
[5].PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1. Pembersihan data Proses ini dilakukan untuk membuang data yang tidak konsisten dan derau yang ada dalam data tersebut, seperti data yang tidak relevan, data yang salah ketik maupun data kosong yang tidak diperlukan.
2. Integrasi data Merupakan penggabungan data dari beberapa sumber agar seluruh data terangkum dalam satu tabel utuh.
3. Seleksi data Pada proses ini menyeleksi data dimana data yang relevan diambil dari database.
4. Transformasi data Mengubah data kedalam bentuk yang sesuai untuk ditambang.
5. Penambangan data Penerapan teknik penambangan data untuk mengekstrak pola . Dalam tugas akhir ini menggunakan algoritma C4.5.
6. Evaluasi pola Untuk mengidentifikasikan pola yang penting dan menarik untuk merepresentasikan sebuah pengetahuan.
7. Presentasi Pengetahuan Pada tahap ini pola yang didapat direpresentasikan kepada pengguna akhir kedalam bentuk yang dapat dipahami. Tahapan tersebut dapat diilustrasikan kedalam gambar berikut :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Suatu sistem mungkin saja menghasilkan banyak sekali pola, namun tidak
semua pola tersebut adalah pola yang penting dan menarik. Ukuran suatu pola
yang menarik dan penting adalah jika pola tersebut mudah dimengerti oleh
manusia, bermanfaat, valid atau benar pada data baru atau data tes, membenarkan
hipotesis.Penambangan data berbeda dengan gudang data dan OLAP (On-Line
Analytical Processing ). OLAP adalah basis data yang khusus digunakan untuk
menunjang proses pengambilan keputusan (decision making). Teknologi yang ada
di gudang data dan OLAP dimanfaatkan penuh untuk melakukan penambangan
data[7]. Gambar 2.2 berikut menunjukkan posisi masing-masing teknologi
basisdata:Gambar 2.2 Data Mining dan Teknologi basis data lainnya[6]Dari gambar diatas terlihat bahwa teknologi gudang data digunakan untuk
melakukan OLAP sehingga dimungkinkan pengguna untuk menganalisa data
operasional sehari-hari dengan berbagai sudut pandang dan sangat berguna untuk
mengevaluasi suatu bisnis. Untuk mendapatkan informasi yang tidak diketahui
secara manual, diperlukan satu tahap lagi yaitu aplikasi teknik penambangan data.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
II.3 Teknik Klasifikasi
Beberapa teknik yang sering disebut dalam literatur penambangan data
antara lain yaitu association rule mining, klastering, klasifikasi, neural network,
algoritma genetika, dan lain-lain.Proses teknik klasifikasi terdiri dari dua tahap, yaitu[7]:
1. Membangun model Menggambarkan satu set dari kelas-kelas yang ditentukan sebelumnya.
Masing-masing sampel diasumsikan merupakan kepunyaan suatu kelas yang
sudah diketahui berdasarkan nilai-nilai atributnya. Kelas ditentukan oleh atribut
label kelas. Sampel yang digunakan untuk membangun model disebut himpunan
pelatihan. Model direpresentasikan sebagai pola klasifikasi, pohon keputusan, atau
formula matematis.2. Penggunaan model Bertujuan untuk mengklasifikasikan objek yang baru akan didapatkan atau
tidak dikenal. Penilaian akurasi model menggunakan suatu himpunan tes. Label
yang sudah diketahui dari contoh himpunan tes dibandingkan dengan hasil
klasifikasi model. Tingkat akurasi adalah persentase dari contoh himpunan tes
yang diklasifikasikan secara benar oleh model.II.4 Pohon Keputusan
Pohon Keputusan (decision tree) adalah suatu flowchart yang seperti
struktur pohon yang merupakan representasi suatu grafik kumpulan dari aturan
pada klasifikasi[7]. Struktur pohon dapat dijelaskan sebagai berikut: 1. Setiap titik node bagian dalam merupakan sebuah atribut.2. Setiap cabang (branch) merupakan keluaran dari suatu logikal tes, dan
3. Daun (leaf node) menggambarkan kelas-kelas.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
II.5 Manfaat Pohon Keputusan Pohon keputusan adalah salah satu metode klasifikasi yang paling populer karena mudah untuk diinterpretasi oleh manusia. Konsep dari pohon keputusan adalah mengubah data menjadi pohon keputusan dan aturan-aturan keputusan. Manfaat utama dari penggunaan pohon keputusan adalah sebagai berikut[8] :
1. Kemampuannya untuk membagi proses pengambilan keputusan yang kompleks menjadi lebih simpel sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari permasalahan.
2. Pohon Keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target.
3. Pohon keputusan memadukan antara eksplorasi data dan pemodelan, sehingga sangat bagus sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain.
II.6 Kelebihan Pohon Keputusan Kelebihan dari metode pohon keputusan adalah[8]: 1.
Daerah pengambilan keputusan yang sebelumnya kompleks dan
sangat global, dapat diubah menjadi lebih simpel dan spesifik.
2. Eliminasi perhitungan-perhitungan yang tidak diperlukan, karena
ketika menggunakan metode pohon keputusan maka sampel diuji hanya berdasarkan kriteria atau kelas tertentu.
3. Fleksibel untuk memilih fitur dari internal node yang berbeda, fitur
yang terpilih akan membedakan suatu kriteria dibandingkan kriteria yang lain dalam node yang sama. Secara fleksibel metode pohon keputusan ini meningkatkan kualitas keputusan yang dihasilkan jika
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
yang lebih konvensional.
II.7 Kekurangan Pohon Keputusan
Kekurangan dari metode keputusan adalah [8] : 1.
Terjadi overlap terutama ketika kelas-kelas dan kriteria yang digunakan jumlahnya sangat banyak. Hal tersebut juga dapat menyebabkan meningkatnya waktu pengambilan keputusan dan jumlah memori yang diperlukan.
2. Pengakumulasian jumlah error dari setiap tingkat dalam sebuah pohon keputusan yang besar.
3. Kesulitan dalam mendesain pohon keputusan yang optimal.
4. Hasil kualitas keputusan yang didapatkan dari metode pohon keputusan sangat tergantung pada bagaimana pohon tersebut didesain.