Instrumen Penelitian Teknik Pengumpulan Data

Studi kepustakaan melalui berbagai sumber yang mampu dipertanggungjawabkan seperti buku, jurnal, makalah dan paper seminar untuk mendapatkan teori mengenai penambangan data, outlier , dan algoritma ECODB Enhanced Class Outlier Distance Based . 2. Pengumpulan Data Pengumpulan data sekunder berupa data debitur BPR XYZ bulan Agustus 2013 sebanyak 97 record. 3. Penerapan algoritma ECODB Mendeteksi outlier pada data debitur BPR XYZ bulan Agustus 2013 berdasarkan teori algoritma ECODB menggunakan Microsoft Excel. Perhitungan akan dilakukan dengan masukan k dan top N yang berbeda. 5. Analisa hasil perhitungan Membandingkan hasil perhitungan dengan masukan k dan top N yang berbeda – beda untuk mendapatkan kesimpulan dan melakukan review hasil deteksi outlier oleh petugas bank. Review hasil deteksi outlier perlu dilakukan untuk mengetahui kebenaran data yang dianggap mempunyai derajat tinggi sebagai outlier. 6. Pengambilan kesimpulan Pengambilan kesimpulan berdasarkan hasil yang diperoleh dari langkah – langkah sebelumnya.

F. Contoh Perhitungan Algoritma ECODB

Berikut contoh perhitungan berdasarkan algoritma ECODB secara manual. Misalkan ada dataset debitur berjumlah 13 record dengan atribut KODE_PEKER, UMUR, NOM_PINJ, SB, JW, JAMINAN, NJOP_NT, PINJ_KE, TUNG_POK, TUNG_BNG, TUNG_POKOK, TUNG_BUNGA, POKOK_BLN, BUNGA_BLN, GAJIPENDAPATAN, JML_TANGGUNGAN, UANG _DIBAWA, STATUS_PINJAMAN, JML_SETORANBULAN, dan STATUS sebagai berikut : Gambar 3.1 Contoh dataset debitur Pertama, tiap atribut bertipe numerik dinormalisasikan dengan range 0 - 1. Hasil normalisasi dapat dilihat pada gambar 3.2. Atribut bertipe kategorikal adalah KODE_PEKER, JAMINAN, dan STATUS_ PINJAMAN. Gambar 3.2 Data debitur yang telah dinormalisasi Kemudian dicari jarak dari setiap instance dengan menggunakan fungsi jarak Mixed Euclidian Distance. Pada fungsi ini setiap instance bertipe kategorikal akan diberi nilai 0 jika mempunyai kategori yang sama dan diberi nilai 1 jika mempunyai kategori yang berbeda, sedangkan atribut numerik akan dihitung menggunakan rumus : 3.5 Gambar 3.3 Perhitungan jarak setiap instance dari data debitur Setelah menghitung jarak dari setiap instance, tahap selanjutnya adalah mencari k tetangga terdekat, dengan asumsi k = 7. K melambangkan jangkauan suatu instance terhadap tetangganya. Maka, dicari 7 tetangga terdekat dari setiap instance. Gambar 3.4 Tujuh tetangga terdekat dari tiap instance Selanjutnya mencari nilai PCL dari tiap instance. PCL adalah nilai probabilitas class label dari instance T dengan class label dari k tetangga terdekat. PCL dihitung dengan cara membagi jumlah tetangga terdekat instance T yang mempunyai class label yang sama termasuk instance T sendiri dengan nilai k. Misalkan ada 7 tetangga terdekat dari instance T termasuk dirinya dari sebuah dataset dengan class label x dan y, dimana 5 dari tetangga terdekat mempunyai class label x dan sisanya mempunyai class label y. Instance T dengan class label y mempunyai nilai PCL 27. Class label yang digunakan adalah nilaiisi dari atribut STATUS. Tabel 3.2 Hasil perhitungan PCL tiap instance PCL PCL7 Dev vDev Kdist vKdist COF 1 7 1.00