Studi kepustakaan melalui berbagai sumber yang mampu dipertanggungjawabkan seperti buku, jurnal, makalah dan paper
seminar untuk mendapatkan teori mengenai penambangan data,
outlier
, dan algoritma ECODB
Enhanced Class Outlier Distance Based
. 2. Pengumpulan Data
Pengumpulan data sekunder berupa data debitur BPR XYZ bulan Agustus 2013 sebanyak 97
record
. 3. Penerapan algoritma ECODB
Mendeteksi
outlier
pada data debitur BPR XYZ bulan Agustus 2013 berdasarkan teori algoritma ECODB menggunakan
Microsoft Excel. Perhitungan akan dilakukan dengan masukan k dan
top N
yang berbeda. 5. Analisa hasil perhitungan
Membandingkan hasil perhitungan dengan masukan k dan
top N
yang berbeda – beda untuk mendapatkan kesimpulan dan
melakukan review hasil deteksi
outlier
oleh petugas bank. Review hasil deteksi
outlier
perlu dilakukan untuk mengetahui kebenaran data yang dianggap mempunyai derajat tinggi sebagai
outlier
. 6. Pengambilan kesimpulan
Pengambilan kesimpulan berdasarkan hasil yang diperoleh dari langkah
– langkah sebelumnya.
F. Contoh Perhitungan Algoritma ECODB
Berikut contoh perhitungan berdasarkan algoritma ECODB secara manual. Misalkan ada dataset debitur berjumlah 13
record
dengan atribut KODE_PEKER, UMUR, NOM_PINJ, SB, JW, JAMINAN, NJOP_NT,
PINJ_KE, TUNG_POK, TUNG_BNG, TUNG_POKOK, TUNG_BUNGA, POKOK_BLN,
BUNGA_BLN, GAJIPENDAPATAN,
JML_TANGGUNGAN, UANG
_DIBAWA, STATUS_PINJAMAN,
JML_SETORANBULAN, dan STATUS sebagai berikut :
Gambar 3.1 Contoh dataset debitur
Pertama, tiap atribut bertipe numerik dinormalisasikan dengan
range
- 1. Hasil normalisasi dapat dilihat pada gambar 3.2. Atribut bertipe kategorikal adalah KODE_PEKER, JAMINAN, dan STATUS_ PINJAMAN.
Gambar 3.2 Data debitur yang telah dinormalisasi
Kemudian dicari jarak dari setiap
instance
dengan menggunakan fungsi jarak
Mixed Euclidian Distance
. Pada fungsi ini setiap
instance
bertipe kategorikal akan diberi nilai 0 jika mempunyai kategori yang sama dan diberi
nilai 1 jika mempunyai kategori yang berbeda, sedangkan atribut numerik akan dihitung menggunakan rumus :
3.5
Gambar 3.3 Perhitungan jarak setiap
instance
dari data debitur
Setelah menghitung jarak dari setiap
instance
, tahap selanjutnya adalah mencari k tetangga terdekat, dengan asumsi k = 7. K melambangkan
jangkauan suatu
instance
terhadap tetangganya. Maka, dicari 7 tetangga terdekat dari setiap
instance
.
Gambar 3.4 Tujuh tetangga terdekat dari tiap
instance
Selanjutnya mencari nilai
PCL
dari tiap
instance
.
PCL
adalah nilai probabilitas
class label
dari
instance
T dengan
class label
dari k tetangga terdekat. PCL dihitung dengan cara membagi jumlah tetangga terdekat
instance
T yang mempunyai
class label
yang sama termasuk
instance
T sendiri dengan nilai k. Misalkan ada 7 tetangga terdekat dari
instance
T termasuk dirinya dari sebuah dataset dengan
class label
x dan y, dimana 5 dari tetangga terdekat mempunyai
class label
x dan sisanya mempunyai
class label
y.
Instance
T dengan
class label
y mempunyai nilai
PCL
27.
Class label
yang digunakan adalah nilaiisi dari atribut STATUS.
Tabel 3.2 Hasil perhitungan PCL tiap
instance
PCL
PCL7 Dev vDev
Kdist
vKdist
COF 1
7 1.00