26
BAB III METODOLOGI PENELITIAN
Pada bab ini akan dipaparkan mengenai perancangan penelitian yang digunakan untuk mencapai tujuan dalam penelitian tugas akhir ini. Tujuan dari
penelitian ini adalah menerapkan algoritma Naïve Nested Loop untuk mendeteksi outlier
pada kumpulan data numerik hasil seleksi masuk mahasiswa dan nilai indeks prestasi semester satu sampai empat. Kemudian dilanjutkan dengan
penjelasan mengenai pengolahan data, penyelesaian data yang ada dengan algoritma Naïve Nested Loop, analisis dan evaluasi hasil outlier yang diperoleh.
3.1 Data
Hal yang terpenting dalam suatu penelitian adalah data. Dalam penelitian tugas akhir ini memakai data numerik nilai hasil seleksi masuk dan nilai indeks
prestasi semester satu sampai empat mahasiswa program studi Teknik Informatika Universitas Sanata Dharma, Yogyakarta tahun angkatan 2007 dan 2008. Data
tersebut diperoleh dari gudang data akademik mahasiswa Universitas Sanata Dharma, Yogyakarta hasil penelitian Rosa, dkk 2013 dalam bentuk skrip kueri
.sql. Skrip kueri sql ini berisi data akademik lengkap mahasiswa Universitas Sanata Dharma, namun hanya data yang disebutkan di atas yang akan digunakan
dalam kebutuhan penelitian tugas akhir ini. Data akademik ini dipilih karena upaya penelitian deteksi outlier pada mahasiswa dapat memberikan pengetahuan
baru mengenai penambangan data yang bergerak dalam bidang pendidikan.
Data akademik mahasiswa program studi Teknik Informatika angkatan 2007-2008 terdiri dari 126 buah. Mahasiswa tersebut telah diterima di Universitas
Sanata Dharma melalui dua macam jalur seleksi masuk yaitu, jalur prestasi dan jalur tes tertulis.
3.2 Pengolahan Data
Berikut merupakan tahapan yang dilakukan dalam pengolahandata: 1.
Penggabungan Data Data Integration Data yang telah terkumpul akan diolah ke dalam database, data
mentah tersebut berbentuk skrip .sql sehingga diolah terlebih dahulu menggunakan perangkat lunak SQLyog agar diketahui data dan tabel
apa saja yang ada dalam database tersebut. Setelah skrip dijalankan melalui SQLyog , diketahui bahwa gudang data yang digunakan
bernama “data_mahasiswa” dan terdiri dari tabel dim_angkatan, dim_daftarsmu,
dim_fakultas, dim_jeniskel,
dim_kabupaten, dim_prodi, dim_prodifaks, dim_statustes, dan fact_lengkap2.
Gambar 3.1 Dekripsi Tabel pada Gudang Data ‘data_mahasiswa’
2. Seleksi Data Data Selection
Setelah dilakukan proses penggabungan data tabel dalam gudang data „data_mahasiswa‟. Selanjutnya dilakukan seleksi data untuk
mengambil data dalam tabel „fact_lengkap2‟ karena dalam tabel inilah
memuat atribut nilai hasil seleksi tes masuk dan nilai indeks prestasi semester satu hingga empat disimpan. Sedangkan tabel-tabel selain
„fact_lengkap2‟ tidak digunakan.
Gambar 3.2 Dekripsi Tabel ‘fact_lengkap2’
Pada tabel „fact_lengkap2‟ terdiri atas data akademik mahasiswa diseluruh program studi , sedangkan dalam penelitian ini hanya
akan memakai data mahasiswa prodi Teknik Informatika angkatan 2007 dan 2008. Atribut yang tidak dipakai adalah nomor, jumsttb,
jummsttb, jumnem, jummtnem, sttb, sk_jeniskelamin, sk_status, sk_kabupaten, sk_daftarsmu, sk_prodi.
Gambar 3.3 Data pada Tabel ‘fact_lengkap2’
3. Transformasi Data Data Transformation
Pada proses ini, data yang sudah diseleksi untuk selanjutnya ditransformasikan ke dalam bentuk yang sesuai untuk ditambang. Data
ditransformasikan dengan metode normalisasi. Dalam tahap ini, diketahui bahwa atribut yang akan digunakan dalam perhitungan
deteksi outlier adalah ips1, ips2, ips3, ips4, nil11, nil12, nil13, nil14, nil15, dan final. Jangkauan nilai atribut ips1, ips2, ips3,dan ips4 adalah
0.00 sampai dengan 4.00. Sedangkan untuk jangkauan nilai atribut nil11, nil12, nil13, nil14, dan nil15 adalah 0 sampai 10. Sementara itu,
jangkauan nilai final adalah 0 sampai 100. Sehingga perlu dilakukan normalisasi data untuk menyamaratakan persebaran nilai keseluruhan
atribut dengan menggunakan rumus min-max normalization :
Tahapan normalisasi data untuk atribut nil11, nil12, nil13, nil14, nil15, dan final dilakukan untuk menyamakan jangkauan nilai terhadap
A A
A A
A A
min new
min new
max new
min max
min v
v _
_ _
atribut ips1, ips2, ips3, ips4. Sehingga pada saat perhitungan deteksi outlier
persebaran nilai atribut hanya berkisar antara 0.00 sampai 4.00. Proses normalisasi data berikut ini berlaku untuk atribut nil11,
nil12, nil13, nil14, dan nil15 menggunakan min-max normalization, semisal nil11 adalah 7.00 maka proses normalisasinya adalah :
max
A
= 10, min
A
= 0, new_max
A
= 4, new_min
A
= 0, dan v = nil11 dalam hal ini bernilai 7.00 , sehingga proses perhitungannya v
1
= 7- 010-04-0+0 = 7104 = 2.80. Sehingga hasil normalisasi nil11
yang awalnya bernilai 7.00 sekarang menjadi 2.80. Berikutnya adalah proses normalisasi data berikut berlaku untuk
atribut final menggunakan min-max normalization, semisal nilai final adalah 61.00 maka proses normalisasinya adalah :
max
A
= 100, min
A
= 0, new_max
A
= 4, new_min
A
= 0, dan v = final dalam hal ini bernilai 61.00 , sehingga proses perhitungannya v
1
= 61- 0100-04-0+0 = 611004 = 2.44. Sehingga hasil normalisasi
nilai final yang awalnya bernilai 61.00 sekarang menjadi 2.44. Setelah nilai atribut nil11, nil12, nil13, nil14, nil15, dan final di
normalisasikan dalam kisaran nilai 0.00 - 4.00 maka nilai yang sudah dinormalisasikan inilah yang nantinya akan digunakan sebagai input
dalam proses deteksi outlier. 4.
Penambangan Data Data Mining Data yang telah diolah akan dianalisa menggunakan algoritma
Naïve Nested Loop . Data yang diteliti dibatasi pada data mahasiswa
Teknik Informatika, Universitas Sanata Dharma tahun angkatan 2007 dan 2008 selama empat semester. Pada tahap ini, akan ditentukan pula
input dan output yang akan digunakan untuk menambang data, antara
lain sebagai berikut : 1.
Input terdiri dari : a.
Nilai hasil seleksi masuk mahasiswa, baik mahasiswa yang menempuh jalur prestasi maupun jalur tes tertulis. Masukan
tersebut diperoleh dari atribut yang ada pada tabel „fact_lengkap2‟ yaitu nil11, nil12, nil13, nil14, nil15, dan final.
Atribut nil11, nil12, nil13, nil14, dan nil15 hanya dimiliki oleh mahasiswa yang masuk melalui jalur tes tertulis. Sedangkan
atribut final dimiliki oleh mahasiswa yang masuk melalui jalur tes tertulis maupun jalur prestasi.
b. Indeks prestasi mahasiswa dari semester satu hingga empat.
Masukan tersebut diperoleh dari atribut yang ada pada tabel „fact_lengkap2‟ yaitu ips1, ips2, ips3, dan ips4.
2. Output, yaitu data mahasiswa yang menjadi outlier dari
perhitungan yang diambil dari data numerik nilai hasil seleksi masuk dan nilai indeks prestasi selama empat semester.
5. Evaluasi Pola Pattern Evaluation
Tahap ini merupakan bagian dari proses pencarian pengetahuan yang mencakup pemeriksaan apakah pola atau informasi yang
ditemukan bertentangan dengan fakta atau hipotesa yang ada
sebelumnya. Melalui sistem pendeteksi outlier akan diperoleh luaran berupa data-data outlier menggunakan algoritma Naïve Nested Loop
dan dianalisa kembali oleh pemilik data itu apakah hipotesa outlier yang mereka miliki sama atau tidak dengan hasil yang diperoleh
sistem, sehingga dapat diketahui seperti apa tingkat keberhasilan pencarian outlier tersebut.
6. Presentasi Pengetahuan Knowledge Presentation
Pada tahap ini pola yang telah didapat selanjutnya direpresentasikan kepada pengguna ke dalam bentuk sistem pendeteksi
dengan antarmuka yang lebih mudah untuk dipahami. Melalui sistem pendeteksi outlier ini diharapkan pengguna dalam hal ini pihak
internal Universitas Sanata Dharma dapat mencari tahu data-data yang bersifat langka dan berbeda dari kebanyakan data lainnya untuk
selanjutnya dianalisa mengapa data-data tersebut bisa muncul. Tidak bisa dipungkiri bahwa outlier sendiri akan didefinisikan dan dianalisa
oleh orang yang ahli dan mengerti tentang data itu.
3.3 Contoh Implementasi Deteksi Outlier dengan Algoritma Index Based