12 unsupervised. Mendeteksi outlier dengan menggunakan metode
unsupervised mengasumsikan objek yang normal akan membentuk kelompok. Dengan kata lain metode unsupervised
mengharapkan objek-objek yang normal akan mengikuti pola yang jauh lebih sering daripada outlier. Objek yang normal tidak
harus selalu memiliki kesamaan yang tinggi dalam satu kelompok, namun dapat membentuk beberapa kelompok dimana
setiap kelompok memiliki fitur yang berbeda. Outlier diharapkan berada jauh dari setiap kelompok objek yang normal. Dalam
banyak aplikasi, jumlah objek yang memiliki label biasanya kecil. Ada beberapa kasus dimana hanya satu set kecil dari objek
normal danatau outlier yang berlabel, sedangkan sebagian besar data tidak berlabel. Deteksi outlier menggunakan metode
semisupervised dikembangkan untuk mengatasi kasus tersebut. Model objek yang normal dapat digunakan untuk mendeteksi
benda-benda yang tidak sesuai dengan model objek normal diklasifikasikan sebagai outlier.
2. Metode Statistical, Proximity-Based dan Clustering-Based
Metode statistik atau juga dikenal sebagai metode berbasis model membuat asumsi dari normalitas data. Metode statistik
menganggap bahwa objek data normal dihasilkan oleh model statistik dan tidak mengikuti model yang outlier. Efektivitas
metode statistik sangat bergantung pada asumsi yang dibuat untuk model statistik berlaku untuk data yang diberikan. Metode
proximity-based berasumsi bahwa sebuah objek dianggap outlier jika tetangga terdekat jauh dari ruang fitur, yaitu kedekatan objek
kepada tetangganya signifikan menyimpang dari kedekatan sebagian besar objek lain dengan tetangga mereka dalam
kumpulan data yang sama. Efektivitas metode proximity-based sangat bergantung pada ukuran kedekatan atau jarak yang
digunakan. Metode proximity-based sering mengalami kesulitan
13 dalam mendeteksi outlier jika outlier dekat satu sama lain.
Metode clustering-based mengasumsikan data yang normal termasuk dalam kelompok yang besar dan padat, sedangkan
outlier termasuk dalam kelompok yang kecil dan jarang atau bahkan tidak termasuk dalam setiap kelompok.
2.3 Algoritma
Enhanced Class Outlier Distance Based
Class label
adalah atribut yang dipilih dalam satu data set berdasarkan permintaan pengguna dan jenis aplikasi. Sebuah
class label
dapat berisi diagnosa medis, keputusan persetujuan kredit atau pinjaman, golongan pelanggan, dll. Metode konvensional
Outlier Mining
mencari
outliers
dalam kumpulan data terlepas dari
class label
, dianggap sebagai
outliers
dalam seluruh
dataset
.
Class Outlier Mining
mencari
outliers
dengan memperhitungkan
class label
.
Outlier Mining
tidak dapat mendeteksi
outliers
yang berbeda dari
class label
, sedangkan
Class Outlier Mining
dapat melakukannya Hewahi Saad, 2009. Hewahi dan Saad mengusulkan definisi baru untuk
class outlier
dan metode baru untuk
Class Outlier Mining
yang berdasarkan pendekatan jarak dan tetangga terdekat. Metode ini disebut algoritma
Class Outlier Distance Based
CODB. Algoritma CODB didasarkan pada COF
Class Outlier Faktor
yaitu derajat
outlier class
dalam objek data. Algoritma
Enhanced Class Outlier Distance Based
merupakan peningkatan algoritma dari algortima
Class Outlier Distance Based.
Algortima
Enhanced Class Outlier Distance Based
dikembangkan oleh Hewahi dan Saad 2009. Berdasarkan algoritma ECODB untuk
instance T
menghilangkan parameter α dan β untuk menghilangkan trial dan eror, sehingga melakukan proses
normalisasi pada
DeviationT
dan
KDistT
. Langkah-langkah algoritma
ECODB adalah sebagai berikut :
1. Untuk semua dataset hitung PCL T, K. dimana PCL
Probability of Class Label
adalah probabilitas label kelas dari
instance T
dengan
14 kelas label K tetangga terdekat. PCL T, K dapat dihitung dengan
rumus berikut ini :
�, =
ℎ � � �
� � � � �
� � �
… 2.1 Misalkan ada 7 tetangga terdekat dari
instance T
termasuk dirinya di dalam sebuah
dataset
dengan dua
class label
yaitu x dan y, dimana ada 5 dari tetangga terdekat memiliki
class label
x dan 2 memiliki
class label
y.
Instance
T memiliki
class label
y, oleh karena itu PCL dari
instance T
yaitu 27. 2.
Merangking daftar
top
N dari
instance
dengan nilai PCL T, K dari yang terkecil.
3. Untuk setiap
instance
pada daftar
top
N hitung
DeviationT
dan
KdistT. DeviationT
adalah seberapa besar nilai
instance T
menyimpang dari
instances
dengan kelas label yang sama. DeviationT dihitung dengan menjumlahkan jarak antara
instance T
dan setiap
instance
yang memiliki kelas yang sama dengan
instance T
.
DeviationT
dapat dihitung dengan rumus sebagai berikut : �� �
� = ∑ �,
� �=
… 2.2
Keterangan :
n
= jumlah
instances
yang memiliki kelas yang sama terhadap
instance T
dT,t
i
= jarak antara
instances
yang memiliki kelas yang sama terhadap
instance T KDistT
adalah jumlah jarak antara
instance T
dan K tetangga terdekat.
KDistT
dapat dihitung dengan menggunakan rumus sebagai berikut : � � = ∑
�,
� �=
… 2.3
15 Keterangan :
K
= jumlah tetangga terdekat
dT,t
i
= jarak antara tetangga terdekat terhadap
instance T
Kemudian lakukan normalisasi pada
Deviation
dan
KDist
agar
Deviation
dan
KDist
berada dalam range 0-1. Normalisasi
Deviation
dan
KDist
dapat dihitung dengan rumus berikut ini :
�� � � =
�� � � − �
� − �
… 2.4
� � = � � − �
� � � − �
� …2.5
Keterangan :
normDeviationT
= nilai
DeviationT
yang telah dinormalisasi
normKDistT
= nilai
KDistT
yang telah dinormalisasi
MaxDev
= nilai
deviation
tertinggi dari
top N class outliers MinDev
= nilai
deviation
terendah dari
top N class outliers MaxKDist
= nilai
KDist
tertinggi dari
top N class outliers MinKDist
= nilai
KDist
terendah dari top N class outliers 4.
Hitung nilai COF
Class Outlier Factor
untuk seluruh
instances
di dalam
top N
dengan rumus sebagai berikut :
� � = × �,
− �� �
� + � �
…
2.6 Keterangan :
COFT
= nilai
Class Outlier Faktor instance T
K = jumlah tetangga terdekat
instance T
PCLT,K = nilai probabilitas label kelas dari
instance T
dengan kelas label K tetangga terdekat
normDeviationT
= nilai
DeviationT
yang telah di normalisasi
normKDistT
= nilai
KDistT
yang telah di normalisasi