mahasiswa Penalaran_Ruang
Hasil test penalaran ruang mahasiswa
1-4 NilaiBahasa_Inggris
Hasil test kemampuan bahasa Inggris mahasiswa
1-4
3.2.2 Pemrosesan Awal
Sebelum data digunakan untuk proses penambangan data, data mentah yang diperoleh harus melewati pemrosesan awal terlebih dahulu. Langkah-
langkah yang digunakan dalam pemrosesan awal sesuai dengan empat tahapan awal dalam Knowledge discovery in databases KDD yaitu pembersihan data,
integrasi data, seleksi data dan transpormasi data.
3.2.2.1 Pembersihan Data Data Cleaning
Pembersihan data Data Cleaning merupakan tahap awal dalam proses KDD. Pada data mentah terdapat beberapa record yang tidak
relevan. Dalam proses pembersihan data ini data-data yang tidak relevan tersebut dibuang.
Atribut-atribut lain yang dilakukan cleaning antara lain Pilihan_1, Pilihan_2 dan Pilihan_3, kabupaten sekolah, kabupaten asal. Untuk atribut
Pilihan_2, jika ada kolom atribut Pilihan_2 kosong, maka akan diisikan dengan nilai
“Kosong”. Demikian juga dengan Pilihan_3, jika ditemukan kolom dari atribut Pilihan_3 yang kosong, maka akan diisikan dengan nilai
Kosong. Untuk kabupaten asal dan kabupaten sekolah juga diisikan dengan nila
i “kosong” apabila ditemukan field yang kosong.
3.2.2.2 Integrasi Data Data Integration
Pada tahap integrasi ini, dilakukan penggabungan data dari berbagai sumber menjadi sebuah tabel yang utuh. Data pendahtaran calon
mahasiswa yang terdiri dari empat file dengan eksistensi xml , yang telah melewati tahap pembersihan data, digabungkan menjadi satu tabel dengan
satu file dengan ekstensi xls dan csv.
α
3.2.2.3 Seleksi Data Data Selection
Pada tahap ini dilakukan tahap pembuangan atribut-atribut yang tidak diperlukan atau tidak dibutuhkan dalam penelitian. Dalam penelitian
ini, semua atribut seperti pada tabel 3.1 digunakan, dan tidak ada yang dibuang.
3.2.2.4 Transformasi
Pada tahap ini dilakukan peringkasan atau perubahan bentuk data mentah agar mudah dikelola untuk proses penambangan data, tanpa
mengurangi esensi dari data tersebut. Dari data yang diperoleh, beberapa diantaranya merupakan data yang berupa angka yang sifatnya beragam,
sehingga diperlukan pengelompokan data dengan rentang jangkauan tertentu. Sedangkan untuk data yang bukan numerik, tidak dilakukan
transformasi data. Dalam penelitian ini, transformasi data dilakukan terhadap atribut-atribut nilai test seperti nilai verbal, nilai numerik, nilai
mekanik, nilai ruang dan nilai bahasa inggris, yang pada awalnya berkisar antara nilai 1-10 ditranformasikan menjadi nilai interval dan menjadi nilai
diskrit discretization 1,2,3 dan 4. Dalam penelitian data nilai terdistribusi normal, sehingga diterapkan aturan transformasi menggunakan teknik
statistic, yaitu dengan rumus perkiraan interval untuk rata – rata Supranto,
Johanes,1992 :sebagai berikut :
X Z
α 2
σ
X Z σ n
2
n
….… 3.1
Keterangan : X
= rata – rata dari nilai tiap atribut
σ = nilai standard deviasi
Z
α
= nilai galat standar koefisien reliabilitas
2
n = jumlah data