2.3 Algoritma Connectivity-based Outlier Factor
Ide utama dari algoritma Connectivity-based Outlier Factor COF adalah untuk menentukan masing-masing record data yang sederajat atau setingkat
untuk menjadi outlier. Algoritma Connectivity-based Outlier Factor adalah algoritma pendeteksian outlier dengan pendekatan density based untuk
menangani penyimpangan dari low density pattern. Algoritma COF ini merupakan varian dari algoritma LOF Local Outlier Factor yang juga
menggunakan k-neighborhood. Gagasan dari algoritma Connectivity-based Outlier Factor
adalah low density dari isolativity. Low density berarti jumlah obyek pada close neighborhood dari suatu obyek relatif kecil. Sedangkan
isolativity berarti derajat atau tingkatan dimana sebuah obyek terkoneksi
dengan obyek yang lain. Record
data dengan nilai COF yang tinggi biasanya di sebut strong outlier. Tidak seperti record data dari cluster yang normal yang biasanya cenderung
memiliki nilai COF yang lebih rendah. Algoritma untuk menghitung nilai COF untuk semua record data memiliki
langkah-langkah sebagai berikut:
1. Mencari Nkp untuk setiap record data p pada k nearest neighbours k-NN;
2. Mencari set based nearest path SBN-path atau s. Di sini, set based
nearest path SBN-path dari record data p1 pada set Nk p adalah
urutan record dengan jarak terdekat masing-masing p, s={ p1,p2,…,pr}
sehingga untuk semua 1 ≤ i ≤ r −1, pi+1 adalah tetangga
terdekat dari { p1,…,pi} pada {pi+1,…,pr}.
3. Mencari set based nearest trail SBN-trail atau tr. SBN-trail adalah
urutan edge terhadap s atau SBN-path di mana setiap tepi menghubungkan dua tetangga terdekat berturut-turut dari jalur SBN-
path . Dapat dinotasikan SBN-trail = {e1, ....., er-1}.
4. Menghitung Cost Description. Cost Description adalah jarak dari masing-masing edge pada SBN-trail.
5. Menghitung average chaining distanceac-dist dari p1 ke Nk - {p1}, dinotasikan dengan ac-distNkp
∪pp1 dan didefinisikan sebagai:
dimana distei dinotasikan jarak antara node yang terdiri dari tepi.
Average chaining distance
dari p1 ke Nk-{p1} adalah jumlah bobot
dari cost description sequence dari SBN trail untuk beberapa SBN
path dari p1, dan juga dapat dilihat sebagai rata-rata jarak bobot dalam
cost description sequence SBN-trail.
6. Hitung connectivity-based outlier factor COF pada record data p sehubungan dengan k- neigbourhood nya menggunakan rumus
berikut:
COF dihitung sebagai rasio average chaining distance dari data
record p untuk Nkp dan average chaining distance pada k-distance
neighbors mereka sendiri.
Tabel 2.1 Simbol dan definisi P
Masing-masing record dari suatu set data
Nkp Jumlah tetangga terdekat dari p
SBN-path atau s Jalur dari p ke pr
SBN-trail atau tr Urutan dari edge sesuai dengan SBN-
path
Cost Desciption Sequence Jarak dari masing-masing edge pada
SBN- trail
Average Chaining Distance Rata-rata
dari bobot
CDSCost Description Sequence
pada SBN- .................... 1
.................... 2
trail
Connectivity-based Outlier Factor Menunjukkan seberapa jauh titik
bergeser dari pola. Perbandingan
titik ke
titik di
sekelilingnya yang mempengaruhi outlier factor
2.4 Contoh Jalannya Algoritma