31
BAB IV
PEMROSESAN AWAL DAN PERANCANGAN PERANGKAT LUNAK PENAMBANGAN DATA
4.1 PEMROSESAN AWAL
4.1.1 Pembersihan Data
Pada proses pembersihan data ini adalah membersihkan data berupa
noise
gangguan seperti nilai yang kosong pada tabel data. Data yang ada
noise
pada beberapa sekolah berupa nilai IIUN yang tidak teridentifikasi atau sudah melakukan UNBK Ujian Nasional Basis
Komputer, sekolah dengan tipe madrasah aliyah, dan beberapa sekolah yang tidak terakreditasi. Maka dari itu, 54 sekolah dari jurusan IPA dan
78 sekolah dari jurusan IPS dihapus dari tabel data.
4.1.2 Integrasi Data
Proses integrasi data merupakan proses untuk melakukan penggabungan data dari berbagai sumber data yang didapatkan. Data
yang didapatkan berupa 3 file untuk setiap jurusan IPAIPS berupa data nilai Ujian Nasional, nilai Indeks Integritas Ujian Nasional, dan
nilai Akreditasi SMA tahun 20142015. Pada tahap ini dilakukan penggabungan dari 3 file tersebut menjadi 1 file berupa tabel data untuk
setiap jurusan, sehingga didapatkan 2 file yang terdiri dari 1 file jurusan IPA lihat Tabel 4.1 dan 1 file jurusan IPS lihat Tabel 4.2.
32
4.1.3 Seleksi Data
Proses seleksi data merupakan seleksi atribut yang akan digunakan dalam proses penambangan data. Proses ini dilakukan dengan memilih
atribut yang relevan untuk digunakan dalam penelitian, dan menghapus atribut yang tidak relevan. Atribut yang dihapus dari data nilai Ujian
Nasional SMA jurusan IPA tahun 20142015 adalah atribut STS_SEK, JUMLAH_PESERTA, dan RANK, sehingga atribut yang digunakan
Tabel 4. 1 Hasil Integrasi Jurusan IPA
Tabel 4. 2 Hasil Integrasi Jurusan IPS
33
yaitu KODE_SEKOLAH,
NAMA_SEKOLAH, BHS_INDO,
BHS_INGGRIS, MTK, FISIKA, KIMIA, BIOLOGI, dan TOTAL. Atribut yang dihapus dari data nilai Indeks Integritas Ujian Nasional
SMA jurusan IPA tahun 20142015 adalah NPSN, STS_SEK, dan JUMLAH_PESERTA,
sehingga atribut
yang digunakan
KODE_SEKOLAH, NAMA_SEKOLAH,
RERATA_IPA, dan
IIUN_IPA. Pada atribut yang dihapus dari data nilai Ujian Nasional SMA jurusan IPS tahun 20142015 sama dengan atribut yang dihapus
dari data nilai Ujian Nasional SMA jurusan IPA tahun 20142015, sehingga
atribut yang
digunakan yaitu
KODE_SEKOLAH, NAMA_SEKOLAH, BHS_INDO, BHS_INGGRIS, MTK, EKONOMI,
SOSIO, GEO, dan TOTAL. Pada atribut yang dihapus dari data nilai Indeks Integritas Ujian Nasional SMA jurusan IPS tahun 20142015
sama dengan atribut yang dihapus dari data nilai Indeks Integritas Ujian Nasional SMA jurusan IPA tahun 20142015, sehingga atribut yang
digunakan yaitu
KODE_SEKOLAH, NAMA_SEKOLAH,
RERATA_IPS, dan IIUN_IPS. Atribut yang dihapus dari data nilai Akreditasi SMA tahun 20142015 adalah NPSN, TIPE_SEKOLAH,
STS_SEK, PROVINSI, KABUPATEN, dan NILAI sehingga atribut yang digunakan yaitu NAMA_SEKOLAH dan PERINGKAT. Atribut
yang digunakan kemudian digabungkan menjadi 1 file, sehingga atribut yang digunakan untuk SMA jurusan IPA dan IPS dapat dilihat pada
tabel 4.3 dan tabel 4.4.
Tabel 4. 3 Hasil Seleksi Atribut Jurusan IPA
Nama Atribut Keterangan
KODE_SEKOLAH Kode Sekolah
NAMA_SEKOLAH Nama Sekolah
BHS_INDO Nilai rata-rata UN mata pelajaran
34
Bahasa Indonesia BHS_INGGRIS
Nilai rata-rata UN mata pelajaran Bahasa Inggris
MTK Nilai rata-rata UN mata pelajaran
Matematika FISIKA
Nilai rata-rata UN mata pelajaran Fisika KIMIA
Nilai rata-rata UN mata pelajaran Kimia
BIOLOGI Nilai rata-rata UN mata pelajaran
Biologi TOTAL
Jumlah nilai UN jurusan IPA RERATA_IPA
Nilai rata-rata UN jurusan IPA IIUN_IPA
Nilai IIUN jurusan IPA AKREDITASI
Nilai Akreditasi SMA dalam bentuk huruf
Tabel 4. 4 Hasil Seleksi Atribut Jurusan IPS
Nama Atribut Keterangan
KODE_SEKOLAH Kode Sekolah
NAMA_SEKOLAH Nama Sekolah
BHS_INDO Nilai rata-rata UN mata pelajaran
Bahasa Indonesia BHS_INGGRIS
Nilai rata-rata UN mata pelajaran Bahasa Inggris
MTK Nilai rata-rata UN mata pelajaran
Matematika EKONOMI
Nilai rata-rata UN mata pelajaran Ekonomi
SOSIOLOGI Nilai rata-rata UN mata pelajaran
Sosiologi PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
GEOGRAFI Nilai rata-rata UN mata pelajaran
Geografi TOTAL
Jumlah nilai UN jurusan IPS RERATA_IPS
Nilai rata-rata UN jurusan IPS IIUN_IPS
Nilai IIUN jurusan IPS AKREDITASI
Nilai Akreditasi SMA dalam bentuk huruf
4.1.4 Transformasi Data