dibalik pengujian discordancy kejanggalan untuk berbagai macam standar distribusi. Deteksi outlier berbasis jarak menghindari perhitungan yang berlebihan
yang dapat dikaitkan dengan ketepatan distribusi yang diamati ke dalam beberapa distribusi standar dan dalam memilih pengujian discordancy kejanggalan Han
Kamber, 2006. Deteksi outlier berbasis jarak mengharuskan pengguna untuk mengatur kedua
parameter pct dan dmin. Menemukan pengaturan yang cocok untuk parameter tersebut dapat melibatkan banyak percobaan dan kesalahan. Dalam penentuan
parameter pct dan dmin keterlibatan pengguna diperlukan untuk mengubahnya secara berkelanjutan dalam menentukan outlier diberbagai variasi pengujian.
Terdapat tiga algoritma pendeteksi outlier dalam pendekatan Distance Based, yaitu algoritma index based, naïve nested loop, block-based nested loop dan cell
based . Pada penelitian tugas akhir ini akan menggunakan algoritma naïve nested
loop .
2.4.1 Algoritma Naïve Nested Loop
Prinsip kerja algoritma Naïve Nested Loop adalah mendeteksi outlier pada sekumpulan data lalu mencari tetangga untuk masing-masing objek dalam
radius dmin disekitaran objek tersebut. M adalah jumlah maksimum objek dalam ketetanggaan dmin dari sebuah outlier dan dmin adalah radius atau jarak
maksimum ketetanggaan antar objek o. Oleh karena itu, saat sejumlah M+1 tetangga dari objek o ditemukan, jelas bahwa o bukan outlier. Pencarian
dilakukan pada semua objek o dalam sekumpulan data tersebut, lalu dihitung jumlah tetangganya dalam radius jarak dmin. Pencarian jumlah tetangga akan
dihentikan saat jumlah tetangga objek o dalam radius dmin sudah mencapai M+1, selanjutnya beralih ke objek selanjutnya.
Dalam penelitian yang dilakukan oleh Knoor 2002 nilai M juga dinyatakan sebagai n1-p, dimana n merupakan jumlah data, p atau disebut
juga pct merupakan jumlah minimum objek yang terletak lebih jauh dari jarak o ke dmin.
Berikut merupakan cara kerja algoritma Naïve Nested Loop Jian Pei, 2009 :
for j = 1 to n do -
set count
j
= 0 ; -
for k=1 to n do if distj,kD then count
j
++ ; -
if count
j
= |n1-p| then output j as an outlier dimana dist merupakan jarak antara objek j dengan k, dan D yang bernilai sama
dengan dmin adalah radius atau jarak maksimum ketetanggaan antar objek o. Sedangkan nilai n1-p sama dengan M.
26
BAB III METODOLOGI PENELITIAN
Pada bab ini akan dipaparkan mengenai perancangan penelitian yang digunakan untuk mencapai tujuan dalam penelitian tugas akhir ini. Tujuan dari
penelitian ini adalah menerapkan algoritma Naïve Nested Loop untuk mendeteksi outlier
pada kumpulan data numerik hasil seleksi masuk mahasiswa dan nilai indeks prestasi semester satu sampai empat. Kemudian dilanjutkan dengan
penjelasan mengenai pengolahan data, penyelesaian data yang ada dengan algoritma Naïve Nested Loop, analisis dan evaluasi hasil outlier yang diperoleh.
3.1 Data
Hal yang terpenting dalam suatu penelitian adalah data. Dalam penelitian tugas akhir ini memakai data numerik nilai hasil seleksi masuk dan nilai indeks
prestasi semester satu sampai empat mahasiswa program studi Teknik Informatika Universitas Sanata Dharma, Yogyakarta tahun angkatan 2007 dan 2008. Data
tersebut diperoleh dari gudang data akademik mahasiswa Universitas Sanata Dharma, Yogyakarta hasil penelitian Rosa, dkk 2013 dalam bentuk skrip kueri
.sql. Skrip kueri sql ini berisi data akademik lengkap mahasiswa Universitas Sanata Dharma, namun hanya data yang disebutkan di atas yang akan digunakan
dalam kebutuhan penelitian tugas akhir ini. Data akademik ini dipilih karena upaya penelitian deteksi outlier pada mahasiswa dapat memberikan pengetahuan
baru mengenai penambangan data yang bergerak dalam bidang pendidikan.