Algoritma Connectivity-based Outlier Factor

2.3 Algoritma Connectivity-based Outlier Factor

Ide utama dari algoritma Connectivity-based Outlier Factor COF adalah untuk menentukan masing-masing record data yang sederajat atau setingkat untuk menjadi outlier. Algoritma Connectivity-based Outlier Factor adalah algoritma pendeteksian outlier dengan pendekatan density based untuk menangani penyimpangan dari low density pattern. Algoritma COF ini merupakan varian dari algoritma LOF Local Outlier Factor yang juga menggunakan k-neighborhood. Gagasan dari algoritma Connectivity-based Outlier Factor adalah low density dari isolativity. Low density berarti jumlah obyek pada close neighborhood dari suatu obyek relatif kecil. Sedangkan isolativity berarti derajat atau tingkatan dimana sebuah obyek terkoneksi dengan obyek yang lain. Record data dengan nilai COF yang tinggi biasanya di sebut strong outlier. Tidak seperti record data dari cluster yang normal yang biasanya cenderung memiliki nilai COF yang lebih rendah. Algoritma untuk menghitung nilai COF untuk semua record data memiliki langkah-langkah sebagai berikut:

1. Mencari Nkp untuk setiap record data p pada k nearest neighbours k-NN;

2. Mencari set based nearest path SBN-path atau s. Di sini, set based

nearest path SBN-path dari record data p1 pada set Nk p adalah urutan record dengan jarak terdekat masing-masing p, s={ p1,p2,…,pr} sehingga untuk semua 1 ≤ i ≤ r −1, pi+1 adalah tetangga terdekat dari { p1,…,pi} pada {pi+1,…,pr}.

3. Mencari set based nearest trail SBN-trail atau tr. SBN-trail adalah

urutan edge terhadap s atau SBN-path di mana setiap tepi menghubungkan dua tetangga terdekat berturut-turut dari jalur SBN- path . Dapat dinotasikan SBN-trail = {e1, ....., er-1}. 4. Menghitung Cost Description. Cost Description adalah jarak dari masing-masing edge pada SBN-trail. 5. Menghitung average chaining distanceac-dist dari p1 ke Nk - {p1}, dinotasikan dengan ac-distNkp ∪pp1 dan didefinisikan sebagai: dimana distei dinotasikan jarak antara node yang terdiri dari tepi. Average chaining distance dari p1 ke Nk-{p1} adalah jumlah bobot dari cost description sequence dari SBN trail untuk beberapa SBN path dari p1, dan juga dapat dilihat sebagai rata-rata jarak bobot dalam cost description sequence SBN-trail. 6. Hitung connectivity-based outlier factor COF pada record data p sehubungan dengan k- neigbourhood nya menggunakan rumus berikut: COF dihitung sebagai rasio average chaining distance dari data record p untuk Nkp dan average chaining distance pada k-distance neighbors mereka sendiri. Tabel 2.1 Simbol dan definisi P Masing-masing record dari suatu set data Nkp Jumlah tetangga terdekat dari p SBN-path atau s Jalur dari p ke pr SBN-trail atau tr Urutan dari edge sesuai dengan SBN- path Cost Desciption Sequence Jarak dari masing-masing edge pada SBN- trail Average Chaining Distance Rata-rata dari bobot CDSCost Description Sequence pada SBN- .................... 1 .................... 2 trail Connectivity-based Outlier Factor Menunjukkan seberapa jauh titik bergeser dari pola. Perbandingan titik ke titik di sekelilingnya yang mempengaruhi outlier factor

2.4 Contoh Jalannya Algoritma

Dokumen yang terkait

Deteksi outlier menggunakan Algoritma Local Correlation Integral (LOCI) : studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma.

0 0 258

Deteksi outlier menggunakan Algoritma Local Outlier Probability : studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma.

0 5 265

Deteksi Outlier menggunakan algoritma Block-Based Nested-Loop : studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma.

0 2 202

Deteksi Outlier menggunakan algoritma Naive Nested Loop : studi kasus data akademik mahasiswa Program Studi Teknik Informatika, Universitas Sanata Dharma, Yogyakarta.

2 3 236

Deteksi outlier menggunakan Algoritma Connectivity Based Outlier Factor studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma

1 8 250

Deteksi outlier menggunakan Algoritma Local Outlier Probability studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma

1 9 263

Deteksi Outlier menggunakan algoritma Block Based Nested Loop studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma

0 1 200

Deteksi outlier menggunakan Algoritma Local Correlation Integral (LOCI) studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma

0 4 256

Deteksi outlier menggunakan algoritma local outlier factor : studi kasus data akademik mahasiswa TI Universitas Sanata Dharma - USD Repository

0 0 241

Deteksi Outlier menggunakan algoritma Naive Nested Loop : studi kasus data akademik mahasiswa Program Studi Teknik Informatika, Universitas Sanata Dharma, Yogyakarta - USD Repository

0 0 234