data lainnya untuk selanjutnya dianalisa mengapa data-data tersebut bisa muncul. Tidak bisa dipungkiri bahwa outlier sendiri
akan didefinisikan dan dianalisa oleh orang yang ahli dan mengerti tentang data itu.
4.2.2 Input Sistem
Data akademik mahasiswa Teknik Informatika angkatan 2007- 2008 terdiri dari 126 buah. Mahasiswa tersebut telah diterima di
Universitas Sanata Dharma melalui dua macam jalur seleksi masuk yaitu, jalur prestasi dan jalur tes. Untuk masing-masing jalur seleksi
masuk tersebut akan dicari outlier-nya karena memiliki struktur data yang berbeda.
Berikut ini merupakan rincian data yang akan dalam penelitian antara lain sebagai berikut:
a. Data Hasil Seleksi Masuk Jalur Prestasi
No Nama Atribut Penjelasan
Nilai 1
nomor urut Atribut
ini merupakan
nomor alias
untuk menunjukkan
objek mahasiswa
1 – 126
2 Final
Atribut ini merupakan rata- rata dari nilai kognitif rapor
siswa SMAsederajat 0-4.00
b. Data Hasil Seleksi Masuk Jalur Tes Tertulis
No Nama Atribut
Penjelasan Nilai
1 nomor urut
Atribut ini merupakan nomor
alias untuk
menunjukkan objek
mahasiswa 1
– 126
2 nil11
Atribut ini merupakan nilai komponen tes 1
0-4.00
3 nil12
Atribut ini merupakan nilai komponen tes 2
0-4.00
4 nil13
Atribut ini merupakan nilai komponen tes 3
0-4.00
5 nil14
Atribut ini merupakan nilai komponen tes 4
0-4.00
6 nil15
Atribut ini merupakan nilai komponen tes 5
0-4.00
7 Final
Atribut ini merupakan nilai akhir hasil kalkulasi
semua nilai tes 0-4.00
c. Data Indeks Prestasi Semester
No Nama Atribut
Penjelasan Nilai
1 Nomor urut
Atribut ini merupakan nomor alias untuk
menunjukkan objek
mahasiswa 1 - 126
2 ips1
Atribut ini menunjukkan IP mahasiswa semester 1
0.00 –
4.00 3
ips2 Atribut ini menunjukkan IP
mahasiswa semester 2 0.00
– 4.00
4 ips3
Atribut ini menunjukkan IP mahasiswa semester 3
0.00 –
4.00
5 ips4
Atribut ini menunjukkan IP mahasiswa semester 4
0.00 –
4.00
4.2.3 Proses Sistem
Setelah data dimasukkan dan dilakukan pemrosesan data. Proses yang terjadi pada sistem adalah :
1. Pengambilan data
Mengambil data pada direktori tertentu yang disimpan dalam bentuk file excel .xls , .csv atau mengambil data pada tabel dalam
database dan selanjutnya ditampilkan pada tabel view. Data yang
telah tertampil pada tabel data dapat diseleksi atributnya sehingga hanya atribut yang dipilih pengguna tersebut yang akan
dimasukkan dalam perhitungan deteksi outlier. Selain itu, menyediakan fungsi pilihan untuk melihat distribusi nilai data
untuk masung-masing atribut. 2.
Perhitungan jarak objek data Data yang telah dimasukkan merupakan data yang telah diseleksi
atributnya. Selanjutnya akan dilakukan perhitungan jarak antar objek data dengan rumus euclidean distance. Sehingga akan
diperoleh jarak satu objek dengan objek yang lainnya dan perhitungan jarak memakai iterasi sebanyak jumlah data yang
dimasukkan. Atribut yang dimasukkan ke dalam perhitungan data disesuaikan dengan pilihan pengguna.
3. Pencarian outlier berdasarkan parameter masukkan M dan dmin
Sistem menerima masukan nilai parameter dmin dan M dari pengguna. Dimana dmin adalah radius atau jarak maksimum
ketetanggaan antar objek o. Sedangkan M merupakan jumlah maksimum tetangga objek dalam radius dmin. Satu per satu dari
objek data akan dicari jumlah tetangganya dalam radius dmin jika jarak antara dua objek
≤ dmin dan jumlah tetangganya sudah ditemukan sebanyak M+1, maka objek tersebut adalah bukan
outlier dan pencarian tetangga dihentikan. Sebaliknya, jika tidak
lebih dari M objek dalam kumpulan data ditemukan dalam ketetanggaan dmin , maka objek tersebut adalah outlier. Lalu,
pencarian dilakukan ke objek mahasiswa selanjutnya.
Gambar 4.5 Proses Umum Sitem Pendeteksi Outlier Menggunakan Algoritma Naïve Nested Loop
Start
Data bertipe .xls Data bertipe .csv
Data basisdata Pilih
Seleksi atribut
Proses seleksi atribut
Ya
Tidak
Pilih Distribu
si Ya
Tidak Proses distribusi
atribut
Proses deteksi outlier Input parameter
M, dmin
end Hasil deteksi
outlier
4.2.4 Output Sistem