Studi kepustakaan melalui berbagai sumber yang mampu dipertanggungjawabkan seperti buku, jurnal, makalah dan paper
seminar untuk mendapatkan teori mengenai penambangan data, outlier
, dan algoritma ECODB Enhanced Class Outlier Distance Based
. 2. Pengumpulan Data
Pengumpulan data sekunder berupa data debitur BPR XYZ bulan Agustus 2013 sebanyak 97 record.
3. Penerapan algoritma ECODB Mendeteksi outlier pada data debitur BPR XYZ bulan Agustus
2013 berdasarkan teori algoritma ECODB menggunakan Microsoft Excel. Perhitungan akan dilakukan dengan masukan k
dan top N yang berbeda. 5. Analisa hasil perhitungan
Membandingkan hasil perhitungan dengan masukan k dan top N yang berbeda
– beda untuk mendapatkan kesimpulan dan melakukan review hasil deteksi outlier oleh petugas bank. Review
hasil deteksi outlier perlu dilakukan untuk mengetahui kebenaran data yang dianggap mempunyai derajat tinggi sebagai outlier.
6. Pengambilan kesimpulan Pengambilan kesimpulan berdasarkan hasil yang diperoleh dari
langkah – langkah sebelumnya.
F. Contoh Perhitungan Algoritma ECODB
Berikut contoh perhitungan berdasarkan algoritma ECODB secara manual. Misalkan ada dataset debitur berjumlah 13 record dengan atribut
KODE_PEKER, UMUR, NOM_PINJ, SB, JW, JAMINAN, NJOP_NT, PINJ_KE, TUNG_POK, TUNG_BNG, TUNG_POKOK, TUNG_BUNGA,
POKOK_BLN, BUNGA_BLN,
GAJIPENDAPATAN, JML_TANGGUNGAN,
UANG _DIBAWA,
STATUS_PINJAMAN, JML_SETORANBULAN, dan STATUS sebagai berikut :
Gambar 3.1 Contoh dataset debitur
Pertama, tiap atribut bertipe numerik dinormalisasikan dengan range 0 - 1. Hasil normalisasi dapat dilihat pada gambar 3.2. Atribut bertipe kategorikal
adalah KODE_PEKER, JAMINAN, dan STATUS_ PINJAMAN.
Gambar 3.2 Data debitur yang telah dinormalisasi
Kemudian dicari jarak dari setiap instance dengan menggunakan fungsi jarak Mixed Euclidian Distance. Pada fungsi ini setiap instance bertipe
kategorikal akan diberi nilai 0 jika mempunyai kategori yang sama dan diberi nilai 1 jika mempunyai kategori yang berbeda, sedangkan atribut numerik akan
dihitung menggunakan rumus :
3.5
Gambar 3.3 Perhitungan jarak setiap instance dari data debitur
Setelah menghitung jarak dari setiap instance, tahap selanjutnya adalah mencari k tetangga terdekat, dengan asumsi k = 7. K melambangkan
jangkauan suatu instance terhadap tetangganya. Maka, dicari 7 tetangga terdekat dari setiap instance.
Gambar 3.4
Tujuh tetangga terdekat dari tiap instance Selanjutnya mencari nilai PCL dari tiap instance. PCL adalah nilai
probabilitas class label dari instance T dengan class label dari k tetangga terdekat. PCL dihitung dengan cara membagi jumlah tetangga terdekat instance
T yang mempunyai class label yang sama termasuk instance T sendiri dengan nilai k. Misalkan ada 7 tetangga terdekat dari instance T termasuk
dirinya dari sebuah dataset dengan class label x dan y, dimana 5 dari tetangga terdekat mempunyai class label x dan sisanya mempunyai class label y.
Instance T dengan class label y mempunyai nilai PCL 27. Class label yang
digunakan adalah nilaiisi dari atribut STATUS.
Tabel 3.2 Hasil perhitungan PCL tiap instance
PCL
PCL7 Dev vDev
Kdist
vKdist
COF 1
7 1.00