trail
Connectivity-based Outlier Factor Menunjukkan seberapa jauh titik
bergeser dari pola. Perbandingan
titik ke
titik di
sekelilingnya yang mempengaruhi outlier factor
2.4 Contoh Jalannya Algoritma
Di asumsikan terdapat titik yaitu 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 2, dan 1. Titik 2 dan titik 1 terletak jauh dari titik lainnya yang berdekatan. Di
tentukan bahwa jarak dari titik 1 ke 2 adalah 5 dist1,2 = 5, jarak dari titik 2 ke titik 7 adalah 3 dist2,7 = 3, sedangkan jarak dari titik satu ke titik
lainnya adalah 1. Di tentukan pula k = 10, r = 11. 1. Mencari Nkp
Dari contoh di atas akan di cari Nk1 terhadap p=1. Jarak terdekat dari titik 1 adalah 2, 9, 10, 8, 11, 7, 12, 6, 13, 5.
Jadi Nk1 = {2, 9, 10, 8, 11, 7, 12, 6, 13, 5}. 2.
Mencari SBN-path Langkah selanjutnya adalah mencari SBN-path dari titik 1 pada Nk1
∪ {1}.
Pada langkah ini, di lakukan penggabungan antara p=1 dengan Nk1. Perhitungan di lakukan secara berantai dengan ukuran jarak terdekat dari
titik tertentu p1, p2, ..., pr. Dari contoh di atas, jalur atau path dari titik 1, jarak terdekat adalah ke
titik 2. Dari titik 2, jarak terdekat adalah titik 7. Dari titik 7, jarak terdekat adalah titik 6. Dari titik 6, jarak terdekat adalah titik 5. Kemudian kembali
ke titik 7, titik terdekat dari titik 7 selain titik 6 adalah titik 8. Dari titik 8, jarak terdekat adalah titik 9. Dari titik 9, jarak terdekat adalah titik 10. Dari
titik 10, jarak terdekat adalah titik 11. Dari titik 11, jarak terdekat adalah
titik 12. Dan yang terakhir dari titik 12, jarak terdekat adalah titik 13. Jadi SBN-path atau s1 = 1, 2, 7, 6, 5, 8, 9, 10, 11, 12, 13.
3. Mencari SBN-trail
Langkah yang berikutnya adalah mencari SBN-trail untuk s1 atau SBN- path
terhadap titik 1. SBN-trail
adalah urutan edge terhadap s1 diste1, ..., dister-1. Dari jarak titik 1 ke titik 2, titik 2 ke titik 7, titik 7 ke titik 6, titik 6 ke titik 5,
titik 7 ke titik 8, titik 8 ke titik 9, titik 9 ke titik 10, titik 10 ke titik 11, titik 11 ke titik 12, dan titik 12 ke titik 13. Jarak dari masing-masing titik
tersebut adalah e. Jadi SBN-trail atau tr1 = 1,2, 2,7, 7,6, 6,5, 7,8, 8,9, 9,10,
10,11, 11,12, 12,13 4.
Menghitung Cost Description Langkah selanjutnya adalah menghitung Cost Description. Cost
Description adalah jarak dari masing-masing edge pada SBN- trail.
Pada contoh data di atas sudah di tentukan bahwa jarak dari titik 1 ke 2 adalah 5 dist1,2 = 5, jarak dari titik 2 ke titik 7 adalah 3 dist2,7 =
3, sedangkan jarak dari titik satu ke titik lainnya adalah 1. Maka dapat di hitung untuk tr1, dist1,2 = 5, dist2,7 = 3, dist7,6 = 1, dist6,5 = 1,
dist 7,8 = 1, dist8,9 = 1, dist9,10 = 1, dist10,11 = 1, dist11,12 = 1,
dan dist12,13 = 1. Maka Cost Desciption atau c1 terhadap tr1 :
c 1 = 5, 3, 1, 1, 1, 1, 1, 1, 1, 1
5. Menghitung ac-dist atau Average Chaining Distance
Langkah berikutnya yaitu menghitung ac-dist. ac-dist adalah rata-rata dari bobot CDSCost Description Sequence pada SBN-trail.
ac-dist Nk 1
∪ {1} 1 = 211-151111-1 + 211-231111-1 + 211-311111-1 + 211-411111-1 + 211-511111-
1 + 211-611111-1 + 211-711111-1 + 211- 811111-1 + 211-911111-1 + 211-1011111-1 =
2,054545455 6.
Menghitung COF Connectivity-based Outlier Factor Langkah selanjutnya adalah menghitung Connectivity-based Outlier
Factor COF.
Jadi COFk1 = 2,1 Setelah di temukan nilai COF, maka dapat di tentukan bahwa obyek
tersebut tergolong outlier atau tidak. Pada contoh di atas, dapat di tentukan bahwa obyek tersebut termasuk outlier dikarenakan nilai COF lebih dari 1.
17
BAB III METODOLOGI PENELITIAN
Pada bab ini akan di jelaskan mengenai metodologi penambangan data yang di gunakan dalam penelitian sistem deteksi outlier menggunakan
algoritma Connectivity-based Outlier Factor. Metodologi yang di gunakan adalah KDD Knowledge Discovery in Database menurut Jiawei Han dan
Kamber. Akan di jelaskan pula penerapan dari algoritma Connectivity- based Outlier Factor
pada kumpulan data atau data set akademik mahasiswa Teknik Informatika Universitas Sanata Dharma.
3.1 Data yang dibutuhkan
Data yang di gunakan dalam penelitian ini adalah Data Akademik Mahasiswa Teknik Informatika Universitas Sanata Dharma angkatan
2007-2008. Data akademik yang di gunakan adalah dari semester satu sampai semester empat. Data ini berasal dari penelitian yang dilakukan
oleh Rosa, dkk 2011. Data ini berupa script query yang berisi tabel gudang data dan file ini berformat .sql.
3.2 Pengolahan Data
Tahapan pengolahan data untuk data akademik Teknik Informatika Universitas Sanata Dharma adalah sebagai berikut:
1. Data Integration atau Penggabungan Data
Di dalam tahapan ini di lakukan penggabungan data dari berbagai sumber data yang ada agar mudah di pilih dan di proses nantinya. Sumber
data yang berupa file .sql script query dari penelitian Rosa, dkk 2011 ini kemudian di olah dengan di import ke dalam database dan akan terbuat
satu database baru bernama gudangdata. Database gudangdata memiliki sembilan tabel, yaitu tabel dim_angkatan, tabel dim_daftarsmu, tabel
dim_fakultas, tabel dim_jeniskel, tabel dim_kabupaten, tabel dim_prodi,