40
BAB III PERANCANGAN SISTEM
A. Identifikasi Sistem
Setiap pergantian tahun akademik baru, Universitas Sanata Dharma selalu melakukan Penerimaan Mahasiswa Baru PMB. Calon mahasiswa baru ini
harus melakukan serangkaian tes tertulis terlebih dahulu. Setiap tahun pula program studi menyediakan kuota untuk mahasiswa baru yang diterima. Calon
mahasiswa yang diterima belum tentu melakukan daftar ulang, untuk itulah Ketua Program Studi Kaprodi harus benar-benar selektif dalam memilih
mahasiswa mana yang pasti melakukan daftar ulang, sehingga kuota yang ditetapkan dapat terisi relatif tepat. Masalah tersebut dapat diatasi dengan
menggunakan metode penambangan data, karena penambangan data ini dapat digunakan untuk mengenali karakteristik mahasiswa yang tidak melakukan
daftar ulang. Data-data mahasiswa diambil dari data calon mahasiswa baru mulai dari
angkatan tahun 2005 sampai dengan 2006. Data ini mencakup seluruh program studi yang ada di Universitas Sanata Dharma yang diperoleh dari
Biro Administrasi dan Perencanaan Sistem Informasi BAPSI Universitas Sanata Dharma Yogyakarta. Seluruh data yang diambil berisi informasi
tentang gelombang masuk, prioritas pilihan program studi di mana calon mahasiswa tersebut diterima, jenis kelamin, jenis sma, program studi tempat
calon mahasiswa diterima dan status daftar ulang yang dilakukan serta nilai PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
finalnya. Data yang didapat akan dibagi dua secara acak, kemudian digunakan sebagai himpunan data pelatihan dan himpunan data tes dengan proporsi yang
bervariasi.
B. Pembersihan Data
Data calon penerimaan mahasiswa baru yang didapat dari BAPSI, dibersihkan terlebih dahulu sebelum data tersebut ditambang. Proses
pembersihan data ini berfungsi untuk menghilangkan data yang tidak konsisten dan derau seperti data tidak relevan, data yang salah ketik maupun
data kosong yang tidak diperlukan. Data yang tidak konsisten ini dapat berupa jenis SMA yang mempunyai arti sama, tapi penulisannya berbeda-beda.
Misalnya IPA ada yang menuliskan SMA IPA ataupun IPA, jadi dalam proses ini dilakukan penyeragaman nama terhadap data yang tidak konsisten.
C. Integrasi Data