25
BAB III METODOLOGI PENELITIAN
Pada bab ini berisi mengenai metode penambangan data yang digunakan yaitu metode Knowledge Discovery in Database KDD yang dikemukakan oleh Jiawei
Han dan Kamber.
3.1 Data yang Dibutuhkan
Pada penelitian ini data yang digunakan adalah data akademik mahasiswa yang meliputi nilai indeks prestasi semester dari semester satu
sampai semester empat dan nilai tes masuk mahasiswa program studi Teknik Informatika fakultas Sains dan Teknologi Universitas Sanata Dharma
Yogyakarta tahun angkatan 2007 dan 2008. Data tersebut diperoleh dari Gudang Data akademik mahasiwa Universitas Sanata Dharma hasil penelitian
Rosa, dkk 2011. Data ini berupa script query yang berisi gudang data dengan format .sql kemudian data tersebut diolah.
Data yang digunakan dalam penelitian ini adalah data nilai hasil tes masuk mahasiswa melalui jalur tes tertulis dan jalur prestasi. Dan juga data
nilai indeks prestasi mahasiswa dari semester satu sampai dengan semester empat.
3.2 Pengolahan Data
Berikut adalah tahapan yang dilakukan dalam pengolahan data:
3.2.1 Penggabungan Data Data Integration
Pada tahap ini mengekstrak skrip .sql tersebut di dalam SQLyog. Setelah skrip tersebut di eksrak akan menghasilkan sebuah
database bernama “gudangdata” yang terdiri dari dim_angkatan, dim, dim_daftarsmu,
dim_fakultas, dim_jeniskel,
dim_kabupaten, dim_prodi, dim_prodifaks, dim_statuses, dan fact_lengkap2. Gambar
3.2 merupakan isi database “gudangdata”.
Gambar 3.1 Database “gudangdata”
3.2.2 Seleksi Data Data Selection
Pada tahap ini merupakan proses menyeleksi data yang relevan. Data yang tidak sesuai akan dihilangkan. Data dipilih dan diseleksi
yang sesuai untuk dilakukan perhitungan, dimana data yang tidak relevan akan dibuang dari penelitian. Data yang digunakan terdapat
pada tabel ‘fact_lengkap2’ karena dalam tabel tersebut terdapat nilai hasil seleksi tes masuk mahasiswa dan terdapat nilai indeks prestasi
mahasiswa dari semester satu sampai dengan semester 4. Data yang dipakai adalah kolom ips1, ips2, ips3, ips3, ips4, nil11, nil12, nil13,
nil14, nil15, dan final. Kemudian menyeleksi kembali baris tersebut untuk mengambil
data baris dengan sk_prodi = 27. Baris dengan sk_prodi = 27 merupakan data mahasiswa Teknik Informatika. Gambar 3.2
merupakan isi dari tabel “fact_lengkap”.
Gambar 3.2 Isi tabel “fact_lengkap”.
3.2.3 Transformasi Data Data Transformation
Tahap ini merupakan tahap untuk mentransformasikan data ke dalam bentuk yang sesuai untuk ditambang. Pada tahap ini, data yang
akan di transformasi adalah atribut ips1, ips2, ips3, dan ips4 yang memiliki range nilai antara 0 sampai dengan 4.00. Untuk atribut nil11,
nil12, nil13, nil14, dan nil15 memiliki range nilai antara 0 sampai dengan 10. Sedangkan nilai final memiliki range nilai antara 0 sampai
dengan 100. Data mentah perlu dilakukan proses transfiormasi untuk
meningkatkan performanya. Salah satu cara transformasi yang digunakan adalah dengan cara melakukan normalisasi.
Untuk melakukan transformasi menggunakan rumus min-max normalization:
′
= − �
�
�
�
− �
�
new_ �
�
− _ �
�
+ _ �
�
Dimana
′
adalah nilai yang sudah dinormalisasi, v adalah nilai lama yang belom di normalisasi, min
A
adalah nilai minimum dari atribut a, max
A
adalah nilai maksimum dari atribut a, newmin
A
nilai minimum baru dari atribut a, dan newmax
A
adalah nilai maksimum baru dari atribut a.
1. Normalisasi atribut nil11, nil12, nil13, nil14, dan nil15
Pada tahap ini dilakukan normalisasi untuk menyamakan jangkauan nilai terhadap atribut ips1, ips2, ips3, dan ips4.
Misalnya nil11 akan dinormalisasi, nil11 adalah 8.00, kemudian dilakukan proses normalisasi. Tabel 3.1 merupakan
tabel yang berisi data atribut nill11, nil12, nil13, nil14, dan nil15 yang belum di normalisasi.
Dimana:
min
A
= 0
max
A
= 10
new_min
A
= 0
new_max
A
= 4
v = 8.00
′
= −
− − + = , ∗ + = ,
Tabel 3.1 Contoh atribut nil11, nil12, nil13, nil14, dan nil15 sebelum di normalisasi
No Ips1
Nil11 Nil12
Nil13 Nil14 Nil15
1 3.72
8.00 6.00
6.00 7.00
5.00 2
2.89 6.00
5.00 5.00
7.00 5.00
3 2.56
6.00 4.00
5.00 7.00
5.00 4
3.28 7.00
6.00 7.00
6.00 6.00
5 1.89
6.00 5.00
6.00 6.00
7.00 6
1.44 10.00
5.00 9.00
6.00 7.00
7 4.00
6.00 6.00
4.00 4.00
7.00 8
1.72 3.00
2.00 8.00
3.00 1.00
9 2.89
5.00 5.00
8.00 5.00
7.00 10
2.94 7.00
5.00 5.00
5.00 4.00
11 2.94
6.00 4.00
6.00 3.00
7.00 12
2.44 5.00
5.00 6.00
5.00 5.00
13 1.72
7.00 6.00
8.00 8.00
2.00
Nilai lama yang belum dinormalisasi yaitu 8.00 dikurangi nilai minimum dari atribut a, dimana nil11 mempunyai jarak
antara 0-10. Nilai maksimum dari atribut a yaitu 10 dikurangi nilai minimum dari atribut a yaitu 0. Kemudian hasil dari
pengurangan nilai yang belum dinormalisasi dengan nilai minimum dari atribut a akan dibagi dengan hasil pengurangan
nilai maksimum dari atribut a dan nilai minimum dari atribut a. Langkah selanjutnya adalah nilai maksimum baru dari atribut a
dikurangi dengan nilai minimum baru dari atribut a. Kemudian hasil pembagian nilai yang belum dinormalisasi
dengan nilai minimum dari atribut a akan dibagi dengan hasil nilai maksimum dari atribut a dan nilai minimum dari atribut a akan
dikalikan dengan hasil pengurangan nilai maksimum baru dari atribut a dengan nilai minimum baru dari atribut a. Dari hasil
perkalian tersebut kan dikurangi dengan nilai minimum baru dari atribut a. Maka hasil penjumlahan tersebut akan menghasilkan
nilai yang sudah dinormalisasi. Tabel 3.2 merupakan tabel yang berisi data atribut nill11, nil12, nil13, nil14, dan nil15 setelah di
normalisasi. Tabel 3.2 Contoh atribut nil11, nil12, nil13, nil14, dan nil15
setelah di normalisasi
No Ips1
Nil11 Nil12
Nil13 Nil14
Nil15
1 3.72
3.20 2.40
2.40 2.80
2.00 2
2.89 2.40
2.00 2.00
2.80 2.00
3 2.56
2.40 1.60
2.00 2.80
2.00 4
3.28 2.80
2.40 2.80
2.40 2.40
5 1.89
2.40 2.00
2.40 2.40
2.80 6
1.44 4.00
2.00 3.60
2.40 2.80
7 4.00
2.40 2.40
1.60 1.60
2.80 8
1.72 1.20
0.80 3.20
1.20 0.40
9 2.89
2.00 2.00
3.20 2.00
2.80 10
2.94 2.80
2.00 2.00
2.00 1.60
11 2.94
2.40 1.60
2.40 1.20
2.80 12
2.44 2.00
2.00 2.40
2.00 2.00
13 1.72
2.80 2.40
3.20 3.20
0.80
2. Normalisasi nilai atribut final
Pada tahap ini dilakukan normalisasi untuk atribut final. Misalnya nilai final akan dinormalisasi, nilai final adalah 67.80,
kemudian dilakukan proses normalisasi. Tabel 3.3 merupakan tabel yang berisi data atribut nill11, nil12, nil13, nil14, dan nil15
yang belum di normalisasi.
Dimana:
min
A
= 0
max
A
= 100
new_min
A
= 0
new_max
A
= 4
v = 67.80
′
=
. − −
− + = ,
∗ + = , 2
Tabel 3.3 Contoh atribut nil11, nil12, nil13, nil14, dan nil15 sebelum di normalisasi
No Ips1
Ips2 Ips3
Ips4 Final
1 2.06
2.32 2.91
3.00 67.80
2 2.72
2.50 2.96
2.38 67.75
3 3.33
3.48 3.78
3.48 69.41
4 2.39
3.00 2.43
2.82 71.60
5 2.11
2.71 2.43
2.45 73.75
6 3.00
2.96 2.61
3.29 67.57
7 3.72
3.56 3.43
3.67 78.67
8 3.44
3.04 2.88
3.48 71.33
9 2.17
2.70 3.09
3.63 72.00
10 3.89
3.75 3.00
3.62 77.00
11 2.89
3.68 2.88
3.76 72.99
12 3.11
3.08 2.78
3.48 68.17
13 2.00
2.00 2.29
3.00 77.10
Nilai lama yang belum dinormalisasi yaitu 67,80 dikurangi nilai minimum dari atribut a, dimana nilai final mempunyai jarak
antara 0-100. Nilai maksimum dari atribut a yaitu 100 dikurangi dengan nilai minimum dari atribut a yaitu 0. Kemudian hasil dari
pengurangan nilai yang belum dinormalisasi dengan nilai minimum dari atribut a akan dibagi dengan hasil pengurangan
nilai maksimum dari atribut a dan nilai minimum dari atribut a. Langkah selanjutnya adalah nilai maksimum baru dari atribut a di
kurangi dengan nilai minimum baru dari atribut a. Kemudian hasil pembagian nilai yang belum dinormalisasi
dengan nilai minimum dari atribut a akan dibagi dengan hasil nilai maksimum dari atribut a dan nilai minimum dari atribut a akan
dikalikan dengan hasil pengurangan nilai maksimum baru dari atribut a dengan nilai minimum baru dari atribut a. Dari hasil
perkalian tersebut akan dikurangi dengan nilai minimum baru dari atribut a. Maka hasil penjumlahan tersebut akan
menghasilkan nilai yang sudah dinormalisasi. Tabel 3.4 merupakan tabel yang berisi data atribut nill11, nil12, nil13,
nil14, dan nil15 yang belum di normalisasi.
Tabel 3.4 Contoh atribut nil11, nil12, nil13, nil14, dan nil15 setelah di normalisasi
No Ips1
Ips2 Ips3 Ips4
Final Normalisasi
1 2.06
2.32 2.91
3.00 2.712
2 2.72
2.50 2.96
2.38 2.710
3 3.33
3.48 3.78
3.48 2.776
4 2.39
3.00 2.43
2.82 2.864
5 2.11
2.71 2.43
2.45 2.950
6 3.00
2.96 2.61
3.29 2.703
7 3.72
3.56 3.43
3.67 3.147
8 3.44
3.04 2.88
3.48 2.853
9 2.17
2.70 3.09
3.63 2.880
10 3.89
3.75 3.00
3.62 3.080
11 2.89
3.68 2.88
3.76 2.920
12 3.11
3.08 2.78
3.48 2.727
13 2.00
2.00 2.29
3.00 3.084
3.2.4 Penambangan Data Data Mining