16
β sebesar 5, maka artinya setiap klaster besar minimal 5 kali lebih besar dari klaster kecil.
Definisi 3 : Misalkan C= {C
1
, C
2
, ..., C
k
} adalah himpunan klaster dengan ukuran |C
1
| ≥ |C
2
| ≥ ...≥ |C
k
|. Didefinisikan LC dan SC sebagimana pada Definisi 2. Untuk sebarang record t, didefinisikan
sebagaimana persamaan 2.3.
{ |
| |
|
2.3.2 NCBLOF
Numerical Cluster Based Local Outlier Factor
Menurut Maryono dan Djunaidy 2010, ada beberapa cara untuk mengukur jarak sebuah obyek ke sebuah klaster. Caranya adalah
mengukur jarak sebuah obyek terhadap centroid terdekat atau dapat juga dengan mengukur jarak relatif obyek dengan centroid terdekat.
Jarak relatif
relative distance
adalah rasio jarak obyek terhadap centroid dibagi dengan jarak rata-rata semua titik terhadap centroid
klaster di mana ia berada. Komponen pada CBLOF mengenai kemiripan terhadap klaster terdekat juga untuk mendefinisikan
NCBLOF sebagai berikut:
{ |
| |
|
Rumus NCBLOF pada persamaan 2.4, didefinisikan dengan menyesuaikan interpretasi derajat
outlier
pada CBLOF pada persamaan 2.3.
........ 2.3
......... 2.4 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
2.3.3 Algoritma MixCBLOF
Langkah untuk mencari
outlier
menggunakan algoritma MixCBLOF adalah sebagai berikut :
1. Bagi set data campuran menjadi dua bagian, set data numerik, D
1
, dan set data kategorikal, D
2
.
2. Klasterisasi pada subset data numerik D
1
sehingga diperoleh sejumlah klaster C
11
, C
12
, ..., C
1p
dengan ukuran berturut-turut |C
11
| ≥ |C
12
| ≥ ... ≥ |C
1p
| Tentukan klaster besar LC dan klaster kecil SC menggunakan
Definisi 2 pada halaman 15. 3.
Terapkan deteksi
outlier
berbasis klaster menggunakan atribut numerik terhadap obyek-obyek dalam klaster pada langkah 2
menggunakan teknik deteksi
outlier
berbasis klaster seperti persamaan 2.4.
{ |
| |
|
4. Terapkan deteksi
outlier
berbasis klaster menggunakan atribut kategorikal terhadap obyek-obyek dalam klaster pada langkah 2
menggunakan CBLOF sebagaimana persamaan 2.3.
{ |
| |
|
5. Susun derajat
outlier
pada langkah 3 dan 4 dalam matrik keputusan A=[a
nm
]. [
] Didefinisikan
n
sebagai jumlah data dan
m
sebagai jumlah atribut. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
Kemudian, matriks keputusan tersebut dinormalisasi menjadi sebagai berikut :
[ ]
Didefinisikan
n
sebagai jumlah data dan
m
sebagai jumlah atribut. 6.
Lakukan pembobotan secara default bobot sama atau dengan metode Entropy.
a. Hitung nilai Entropy e
j
dan derajat divergensi f
j
.
b. Hitung bobot tiap kolom atribut
7. Gabungkan bobot
outlier
tiap obyek t
1
, t
2
, .., tn pada langkah 6 dengan fungsi agregat untuk mendapatkan derajat
outlier
akhir OF dari sebuah obyek ti OFti = . x
1i
, x
2i
, x
3i
, x
4i
.
2.4 Struktur Data