14
Pendekatan
classification-based
mengasumsikan bahwa
pendeteksian
outlier
menggunakan pendekatan ini dapat digunakan jika set data training dan label kelas tersedia. Ide umum dari metode
deteksi
outlier
berbasis
classification
adalah menentukan model klasifikasi yang dapat membedakan data normal dan
outlier
. Metode
outlier
basis
classification
ini sering menggunakan satu kelas sebagai label untuk menggambarkan data berupa normal atau
outlier
. Pendekatan
high-dimensional data
, memiliki beberapa contoh algoritma yaitu
Angle-Based Outlier Degree
ABOD Kriegel et.al. 2008,
Grid-Based Subspace Outlier Detection
Aggarwal Yu, 2000, dan Subspace
Outlier
Degree SOD Kriegel et.al., 2009.
2.3 MixCBLOF Mix Cluster Based Local
Outlier
Factor
Deteksi
outlier
memiliki ketertarikan tersendiri daripada deteksi pada umumnya, karena pendeteksian
outlier
ini memiliki informasi yang mendasari sebuah perilaku tidak biasanya atau berbeda daripada yang
lainnya. Pada penelitian ini mendeteksi
outlier
menggunakan algoritma
Mix Cluster Based Local Outlier
Factor
MixCBLOF yang dikemukakan oleh Maryono Djunaidy pada tahun 2010. Algoritma ini tergolong pada
pendekatan
clustering-based
karena algoritma ini perlu menggunakan proses
cluster
untuk penentuan
outlier
. Algoritma ini merupakan perpaduan dari dua algoritma yaitu
Cluster Based Local Outlier Factor
CBLOF dengan
Numerical Cluster Based Local Outlier Factor
NCBLOF. Algoritma ini mengusulkan deteksi
outlier
menggunakan data campuran berupa data kategorikal dan data numerik. Data kategorikal diolah menggunakan algoritma CBLOF, sedangkan untuk data
numerik diolah menggunakan algoritma NCBLOF.
2.3.1 CBLOF
Cluster Based Local Outlier Factor
Menurut He et.al 2003, untuk mengidentifikasi signifikansi data dari definisi
outlier
perlu mendefinisikan setiap obyek dengan sebuah PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
derajat yang disebut dengan CBLOF
Cluster Based Local Outlier Factor
yang diukur dengan ukuran klaster di mana ia berada dan jaraknya terhadap klaster terdekat.
Definisi 1 : Misalkan A
1
, A
2
, ..., A
m
adalah himpunan atribut dengan domain D
1
, D
2
, ..., D
m
. Set data D terdiri dari record obyeknya, sedangkan transaksi t : t
ϵ D. Hasil klasterisasi pada D dinotasikan sebagai C= {C
1
, C
2
, ..., C
k
} dimana C
i
∩ C
j
= Ø dan C
1
∪ C
2
∪... ∪ C
k
= D, dengan k adalah jumlah klaster.
Definisi 2 : Misalkan C= {C
1
, C
2
, ..., C
k
} adalah himpunan klaster pada set data dengan urutan ukuran klaster adalah |C
1
| ≥ |C
2
| ≥ ... ≥ |C
k
|. Di
tetapkan tiga parameter numerik α, β, dan b. Didefinisikan
b
sebagai batas antara klaster besar dan kecil jika memenuhi salah satu formula
berikut: |
| | | |
| | | |
| |
|
Didefinisikan himpunan klaster besar
large cluster
sebagai LC = {C
i
, i ≤ b} dan klaster kecil small cluster didefinisikan dengan SC = {C
i
, i b}.
Definisi 2 memberikan ukuran kuantitatif untuk membedakan klaster besar dan klaster kecil. Rumus 2.1 menunjukkan bahwa sebagian
besar data bukan
outlier
. Oleh karena itu klaster besar mempunyai porsi yang jauh sanga
t besar. Contohnya jika α diberikan 90 maka artinya klaster besar memuat kurang lebih 90 dari total obyek data
pada set data. Rumus 2.2 menunjukkan fakta bahwa klaster besar dan klaster kecil harus memiliki perbedaan yang signifikan. Jika diberikan
........................... 2.2 ........................... 2.1
16
β sebesar 5, maka artinya setiap klaster besar minimal 5 kali lebih besar dari klaster kecil.
Definisi 3 : Misalkan C= {C
1
, C
2
, ..., C
k
} adalah himpunan klaster dengan ukuran |C
1
| ≥ |C
2
| ≥ ...≥ |C
k
|. Didefinisikan LC dan SC sebagimana pada Definisi 2. Untuk sebarang record t, didefinisikan
sebagaimana persamaan 2.3.
{ |
| |
|
2.3.2 NCBLOF