3.2. PENGOLAHAN DATA
3.2.1. Data Cleaning
Tahap pertama adalah membersihkan data dari noise seperti data yang tidak terisi ataupun data yang tidak konsisten. Data yang
ada tidak memiliki noise sehingga tahap ini tidak dilakukan.
3.2.2. Data Integration
Tahap selanjutnya adalah melakukan penggabungan data dari berbagai macam sumber. Data yang ada juga sudah terdapat
dalam 1 file sehingga tahap ini juga tidak dilakukan.
3.2.3. Data Selection
Tahap selanjutnya adalah seleksi data dari atribut yang tidak terpakai. Proses seleksi ini dilakukan dengan memilih atribut yang
relevan untuk digunakan dalam penelitian, dan menghapus atribut
Mata Ujian
BIN
Nilai Bahasa Indonesia
BING Nilai Bahasa Inggris
MTK Nilai Matematika
FSK EKO
Nilai Fisika Nilai Ekonomi
KMA SOS
Nilai Kimia Nilai Sosiologi
BIO GEO
Nilai Biologi Nilai Geografi
TOTAL Total Nilai
RATA Rata-Rata Nilai
yang tidak relevan. Atribut yang dapat dilanjutkan untuk penelitian adalah :
Table 3.2 Tabel Seleksi Atribut
Nama Atribut Keterangan
RANKING
Ranking se-DIY
KODE_SEKOLAH
Kode Sekolah
BIN
Nilai Bahasa Indonesia
BING
Nilai Bahasa Inggris
MTK
Nilai Matematika
FSK EKO
Nilai Fisika Nilai Ekonomi
KMA SOS
Nilai Kimia Nilai Sosiologi
BIO GEO
Nilai Biologi Nilai Geografi
3.2.4. Data Transformation
Tahap selanjutnya adalah proses transformasi data dengan melakukan normalisasi perbedaan range. Proses normalisasi
dilakukan dengan menggunakan rumus min-max normalization seperti berikut :
′
=
�− �
�
��
�
− �
�
�
��
�
− �
�
�
+ �
�
�
…3.1
Keterangan : v = nilai sebelum ternormalisasi
v’ = nilai setelah ternormalisasi min
A
= nilai minimal dari atribut A max
A
= nilai maksimal dari atribut A
�
�
�
= nilai minimal terbaru dari atribut A �
��
�
= nilai minimal terbaru dari atribut A
Pada penelitian ini, atribut yang digunakan sudah memiliki data yang memiliki range yang sama, yaitu 0
– 10, sehingga tahap ini tidak dilakukan. Berikut adalah data nilai Ujian Nasional
Kabupaten Gunung Kidul tahun 2014 :
Table 3.3 Tabel Data Terseleksi
RK KODE
SEKOLAH BIN BING MTK FSK KMA BIO
3 05-002
8.68 7.16
8.35 7.80
7.18 8.24
19 05-001
8.39 5.94
7.35 6.48
6.51 7.78
52 05-021
8.01 5.55
5.74 5.17
5.14 6.42
59 05-005
7.94 5.80
4.52 4.83
5.09 6.49
61 05-022
7.98 5.75
4.68 4.29
4.96 6.60
64 05-003
7.88 5.38
5.04 4.64
4.71 6.16
73 05-020
8.05 5.39
4.51 4.08
4.67 5.82
74 05-006
7.91 4.77
4.80 3.93
5.08 5.95
78 05-009
7.36 5.53
4.75 3.78
4.61 6.14
86 05-034
7.96 4.38
4.82 3.90
4.08 5.72
88 05-004
7.80 4.49
5.05 3.66
4.26 5.45
89 05-027
7.89 5.19
4.07 3.97
4.47 4.91
97 05-026
7.89 4.80
4.05 4.05
3.65 5.32
103 05-007
7.79 4.73
3.77 3.92
3.83 5.15
104 05-025
7.76 5.16
3.82 3.39
3.86 5.16
125 05-012
7.86 4.56
3.27 3.16
3.05 4.63
130 05-024
7.28 4.14
3.18 3.16
3.61 4.54
139 05-008
6.82 3.80
3.25 2.97
2.39 3.89
3.2.5. Data Mining