Data Pengolahan Data METODOLOGI PENELITIAN

26

BAB III METODOLOGI PENELITIAN

Pada bab ini akan dipaparkan mengenai perancangan penelitian yang digunakan untuk mencapai tujuan dalam penelitian tugas akhir ini. Tujuan dari penelitian ini adalah menerapkan algoritma Naïve Nested Loop untuk mendeteksi outlier pada kumpulan data numerik hasil seleksi masuk mahasiswa dan nilai indeks prestasi semester satu sampai empat. Kemudian dilanjutkan dengan penjelasan mengenai pengolahan data, penyelesaian data yang ada dengan algoritma Naïve Nested Loop, analisis dan evaluasi hasil outlier yang diperoleh.

3.1 Data

Hal yang terpenting dalam suatu penelitian adalah data. Dalam penelitian tugas akhir ini memakai data numerik nilai hasil seleksi masuk dan nilai indeks prestasi semester satu sampai empat mahasiswa program studi Teknik Informatika Universitas Sanata Dharma, Yogyakarta tahun angkatan 2007 dan 2008. Data tersebut diperoleh dari gudang data akademik mahasiswa Universitas Sanata Dharma, Yogyakarta hasil penelitian Rosa, dkk 2013 dalam bentuk skrip kueri .sql. Skrip kueri sql ini berisi data akademik lengkap mahasiswa Universitas Sanata Dharma, namun hanya data yang disebutkan di atas yang akan digunakan dalam kebutuhan penelitian tugas akhir ini. Data akademik ini dipilih karena upaya penelitian deteksi outlier pada mahasiswa dapat memberikan pengetahuan baru mengenai penambangan data yang bergerak dalam bidang pendidikan. Data akademik mahasiswa program studi Teknik Informatika angkatan 2007-2008 terdiri dari 126 buah. Mahasiswa tersebut telah diterima di Universitas Sanata Dharma melalui dua macam jalur seleksi masuk yaitu, jalur prestasi dan jalur tes tertulis.

3.2 Pengolahan Data

Berikut merupakan tahapan yang dilakukan dalam pengolahandata: 1. Penggabungan Data Data Integration Data yang telah terkumpul akan diolah ke dalam database, data mentah tersebut berbentuk skrip .sql sehingga diolah terlebih dahulu menggunakan perangkat lunak SQLyog agar diketahui data dan tabel apa saja yang ada dalam database tersebut. Setelah skrip dijalankan melalui SQLyog , diketahui bahwa gudang data yang digunakan bernama “data_mahasiswa” dan terdiri dari tabel dim_angkatan, dim_daftarsmu, dim_fakultas, dim_jeniskel, dim_kabupaten, dim_prodi, dim_prodifaks, dim_statustes, dan fact_lengkap2. Gambar 3.1 Dekripsi Tabel pada Gudang Data ‘data_mahasiswa’ 2. Seleksi Data Data Selection Setelah dilakukan proses penggabungan data tabel dalam gudang data „data_mahasiswa‟. Selanjutnya dilakukan seleksi data untuk mengambil data dalam tabel „fact_lengkap2‟ karena dalam tabel inilah memuat atribut nilai hasil seleksi tes masuk dan nilai indeks prestasi semester satu hingga empat disimpan. Sedangkan tabel-tabel selain „fact_lengkap2‟ tidak digunakan. Gambar 3.2 Dekripsi Tabel ‘fact_lengkap2’ Pada tabel „fact_lengkap2‟ terdiri atas data akademik mahasiswa diseluruh program studi , sedangkan dalam penelitian ini hanya akan memakai data mahasiswa prodi Teknik Informatika angkatan 2007 dan 2008. Atribut yang tidak dipakai adalah nomor, jumsttb, jummsttb, jumnem, jummtnem, sttb, sk_jeniskelamin, sk_status, sk_kabupaten, sk_daftarsmu, sk_prodi. Gambar 3.3 Data pada Tabel ‘fact_lengkap2’ 3. Transformasi Data Data Transformation Pada proses ini, data yang sudah diseleksi untuk selanjutnya ditransformasikan ke dalam bentuk yang sesuai untuk ditambang. Data ditransformasikan dengan metode normalisasi. Dalam tahap ini, diketahui bahwa atribut yang akan digunakan dalam perhitungan deteksi outlier adalah ips1, ips2, ips3, ips4, nil11, nil12, nil13, nil14, nil15, dan final. Jangkauan nilai atribut ips1, ips2, ips3,dan ips4 adalah 0.00 sampai dengan 4.00. Sedangkan untuk jangkauan nilai atribut nil11, nil12, nil13, nil14, dan nil15 adalah 0 sampai 10. Sementara itu, jangkauan nilai final adalah 0 sampai 100. Sehingga perlu dilakukan normalisasi data untuk menyamaratakan persebaran nilai keseluruhan atribut dengan menggunakan rumus min-max normalization : Tahapan normalisasi data untuk atribut nil11, nil12, nil13, nil14, nil15, dan final dilakukan untuk menyamakan jangkauan nilai terhadap A A A A A A min new min new max new min max min v v _ _ _      atribut ips1, ips2, ips3, ips4. Sehingga pada saat perhitungan deteksi outlier persebaran nilai atribut hanya berkisar antara 0.00 sampai 4.00. Proses normalisasi data berikut ini berlaku untuk atribut nil11, nil12, nil13, nil14, dan nil15 menggunakan min-max normalization, semisal nil11 adalah 7.00 maka proses normalisasinya adalah : max A = 10, min A = 0, new_max A = 4, new_min A = 0, dan v = nil11 dalam hal ini bernilai 7.00 , sehingga proses perhitungannya v 1 = 7- 010-04-0+0 = 7104 = 2.80. Sehingga hasil normalisasi nil11 yang awalnya bernilai 7.00 sekarang menjadi 2.80. Berikutnya adalah proses normalisasi data berikut berlaku untuk atribut final menggunakan min-max normalization, semisal nilai final adalah 61.00 maka proses normalisasinya adalah : max A = 100, min A = 0, new_max A = 4, new_min A = 0, dan v = final dalam hal ini bernilai 61.00 , sehingga proses perhitungannya v 1 = 61- 0100-04-0+0 = 611004 = 2.44. Sehingga hasil normalisasi nilai final yang awalnya bernilai 61.00 sekarang menjadi 2.44. Setelah nilai atribut nil11, nil12, nil13, nil14, nil15, dan final di normalisasikan dalam kisaran nilai 0.00 - 4.00 maka nilai yang sudah dinormalisasikan inilah yang nantinya akan digunakan sebagai input dalam proses deteksi outlier. 4. Penambangan Data Data Mining Data yang telah diolah akan dianalisa menggunakan algoritma Naïve Nested Loop . Data yang diteliti dibatasi pada data mahasiswa Teknik Informatika, Universitas Sanata Dharma tahun angkatan 2007 dan 2008 selama empat semester. Pada tahap ini, akan ditentukan pula input dan output yang akan digunakan untuk menambang data, antara lain sebagai berikut : 1. Input terdiri dari : a. Nilai hasil seleksi masuk mahasiswa, baik mahasiswa yang menempuh jalur prestasi maupun jalur tes tertulis. Masukan tersebut diperoleh dari atribut yang ada pada tabel „fact_lengkap2‟ yaitu nil11, nil12, nil13, nil14, nil15, dan final. Atribut nil11, nil12, nil13, nil14, dan nil15 hanya dimiliki oleh mahasiswa yang masuk melalui jalur tes tertulis. Sedangkan atribut final dimiliki oleh mahasiswa yang masuk melalui jalur tes tertulis maupun jalur prestasi. b. Indeks prestasi mahasiswa dari semester satu hingga empat. Masukan tersebut diperoleh dari atribut yang ada pada tabel „fact_lengkap2‟ yaitu ips1, ips2, ips3, dan ips4. 2. Output, yaitu data mahasiswa yang menjadi outlier dari perhitungan yang diambil dari data numerik nilai hasil seleksi masuk dan nilai indeks prestasi selama empat semester. 5. Evaluasi Pola Pattern Evaluation Tahap ini merupakan bagian dari proses pencarian pengetahuan yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya. Melalui sistem pendeteksi outlier akan diperoleh luaran berupa data-data outlier menggunakan algoritma Naïve Nested Loop dan dianalisa kembali oleh pemilik data itu apakah hipotesa outlier yang mereka miliki sama atau tidak dengan hasil yang diperoleh sistem, sehingga dapat diketahui seperti apa tingkat keberhasilan pencarian outlier tersebut. 6. Presentasi Pengetahuan Knowledge Presentation Pada tahap ini pola yang telah didapat selanjutnya direpresentasikan kepada pengguna ke dalam bentuk sistem pendeteksi dengan antarmuka yang lebih mudah untuk dipahami. Melalui sistem pendeteksi outlier ini diharapkan pengguna dalam hal ini pihak internal Universitas Sanata Dharma dapat mencari tahu data-data yang bersifat langka dan berbeda dari kebanyakan data lainnya untuk selanjutnya dianalisa mengapa data-data tersebut bisa muncul. Tidak bisa dipungkiri bahwa outlier sendiri akan didefinisikan dan dianalisa oleh orang yang ahli dan mengerti tentang data itu.

3.3 Contoh Implementasi Deteksi Outlier dengan Algoritma Index Based

Dokumen yang terkait

Deteksi outlier menggunakan Algoritma Local Correlation Integral (LOCI) : studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma.

0 0 258

Deteksi outlier menggunakan Algoritma Local Outlier Probability : studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma.

0 5 265

Deteksi outlier menggunakan Algoritma Connectivity Based Outlier Factor : studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma.

0 4 252

Deteksi Outlier menggunakan algoritma Block-Based Nested-Loop : studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma.

0 2 202

Deteksi outlier menggunakan algoritma Naive Nested Loop (studi kasus : data akademik mahasiswa program studi PS Universitas XYZ).

0 0 4

Deteksi outlier menggunakan Algoritma Connectivity Based Outlier Factor studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma

1 8 250

Deteksi outlier menggunakan Algoritma Local Outlier Probability studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma

1 9 263

Deteksi Outlier menggunakan algoritma Block Based Nested Loop studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma

0 1 200

Deteksi outlier menggunakan Algoritma Local Correlation Integral (LOCI) studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma

0 4 256

Deteksi Outlier menggunakan algoritma Naive Nested Loop : studi kasus data akademik mahasiswa Program Studi Teknik Informatika, Universitas Sanata Dharma, Yogyakarta - USD Repository

0 0 234