Penambahan konsep statistik untuk metode kepadatan lokal membuat skor LoOP independen dari setiap distribusi. Hal ini membuat mampu
menangani kelompok non-seragam seperti kelompok yang dihasilkan oleh model Gaussian yang ditangani buruk oleh LOF misalnya.
2.3.1 Contoh Perhitungan LoOP
Diketahui sebuah data D memiliki 4 buah obyek dan dilambangkan sebagai obyek P1, P2, P3, P4. Masing-masing obyek tersebut
memiliki jarak sebagai berikut : k = 2
Berikut ini merupakan langkah penyelesaian persoalan di atas : 1.
Mencari
kdistance
Langkah mencari
kdistance
adalah sebagai berikut : a.
Menghitung jarak P1 terhadap semua obyek menggunakan rumus jarak
ecluidean distance
tabel di atas merupakan data yang sudah dihitung jaraknya
b. Memilih jarak terkecil sebanyak nilai k, yaitu 2.
c. Kemudian dari 2 jarak terkecil tersebut, pilih yang paling besar
jaraknya. Jarak terbesar tersebut adalah
kdistance.
Obyek yang dekat dengan P1 urut dari kecil adalah P3 – P2.
Jarak P1 ke P3 adalah 2 sedangkan jarak P1 ke P2 adalah 4. Maka
kdistanceP1
= 4. 2.
Menemukan
kdistance neighborhood
Maksudnya adalah mencari tetangga terdekat dimana besar jaraknya tidak lebih dari sama dengan
kdistanceo
3. Menghitung
standard distance
=
Standard distance P1
= = 2,236068
4. Menghitung
probabilistic set distance
pdist
disini adalah 2. Maka
pdist P1
= 2 x 2,236068 = 4,472136
5. Menghitung
probabilistic PLOF
PLOF
,Nk
o
o = -1
Untuk menghitung PLOF perlu menghitung terlebih dahulu nilai jumlah pdist dari setiap tetangga terkait.
Sebagai contoh menghitung ∑pdist P1. Perlu diingat bahwa tetangga P1 adalah P2 dan P3. Maka ∑pdist P1 = pdist P2 + pdist
P3. PLOF P1 =
= -0,24126
6. Menghitung agregat PLOF nPLOF
nPLOF
=
.
nPLOF =
2 .
= 0,794688
7. Menghitung derajat LoOP
LoOP
Nko
o = max 0,
LoOP P1 =
max 0,
= max 0, -33232 = 0 Jika derajat LoOP 0, maka obyek tersebut bukan
outlier
. Sebaliknya, jika derajat LoOP lebih dari 0, maka obyek tersebut
dinyatakan sebagai
outlier
. Dari tabel di atas, yang termasuk
outlier
adalah obyek P2 dan P4.
28
BAB III METODOLOGI PENELITIAN
Pada bab ini akan dijelaskan mengenai perancangan penelitian yang digunakan untuk mencapai tujuan dalam penelitian tugas akhir ini. Metodologi
penelitian ini menggunakan metodologi penambangan data yaitu KDD
Knowledge Discovery in Database
yang dikemukakan oleh Jiawei Han dan Kamber.
3.1 Data yang dibutuhkan
Dalam Kamus Besar Bahasa Indonesia, data diartikan sebagai kenyataan yang ada yang berfungsi sebagai bahan sumber untuk menyusun
suatu pendapat, keterangan yang benar, dan keterangan atau bahan yang dipakai untuk penalaran dan penyelidikan.
Data adalah catatan atas kumpulan fakta Vardiansyah, 2008. Data merupakan bentuk jamak dari datum, berasal dari bahasa Latin yang berarti
“sesuatu yang diberikan”. Dalam penggunaan sehari-hari data berarti suatu pernyataan yang diterima secara apa adanya. Pernyataan ini adalah hasil
pengukuran atau pengamatan suatu variabel yang bentuknya dapat berupa angka, kata-kata, atau citra.
Dalam tujuan pencarian fakta tersebut, pada penelitian ini penulis menggunakan data akademik mahasiswa teknik informatika Universitas
Sanata Dharma Yogyakarta angkatan 2007-2008. Data ini bersifat numerik yang meliputi data nilai hasil seleksi masuk dan indeks prestasi semester
satu sampai empat. Data tersebut diperoleh dari gudang data akademik mahasiswa Universitas Sanata Dharma Yogyakarta khususnya mahasiswa
teknik informatika. Data penelitian ini diperoleh dari gudang data akademik mahasiswa
program studi Teknik Informatika Universitas Sanata Dharma dalam bentuk skrip kueri
sql
. Dari skrip tersebut, data yang digunakan dalam penelitian adalah data nilai hasil seleksi masuk melalui jalur tes maupun prestasi, dan