Seleksi Data Pemrosesan Awal Data

Atribut ini berisi keterangan berapa kali debitur menunggak mengangsur bunga. Atribut ini bertipe numerik. k. TUNG_POKOK Atribut ini berisi jumlah total kredit yang ditunggak oleh debitur. Atribut ini bertipe numerik. l. TUNG_BUNGA Atribut ini berisi jumlah total bunga yang ditunggak oleh debitur. Atribut ini bertipe numerik. m. GAJIPENDAPATAN Atribut ini berisi jumlah gaji atau pendapatan debitur tiap bulan. Atribut ini bertipe numerik. n. JML_TANGGUNGAN Atribut ini berisi jumlah anggota keluarga yang ditanggung oleh debitur. Atribut ini bertipe numerik. o. UANG_DIBAWA Atribut ini berisi jumlah nominal uang yang dibawa pulangdiperoleh debitur setiap bulannya. Atribut ini bertipe numerik. p. STATUS_PINJAMAN Atribut ini berisi keterangan apakah debitur saat mengajukan kredit telah melakukan peminjaman kredit di bank lain atau tidak. Atribut ini bertipe kategorikal. q. JML_SETORANBULAN Atribut ini berisi besar jumlah setoran yang harus diangsur debitur di bank lain setiap bulannya jika debitur saat mengajukan kredit telah melakukan peminjaman kredit di bank lain. Atribut ini bertipe numerik. r. POKOK_BLN Atribut ini berisi jumlah kredit yang harus diangsur debitur setiap bulan. Atribut ini bertipe numerik. s. BUNGA_BLN Atribut ini berisi jumlah bunga yang harus diangsur debitur setiap bulan. Atribut ini bertipe numerik. t. KOLBI1 Atribut ini adalah atribut yang digunakan untuk menyatakan status kredit debitur. Dimana nilai 1 berarti debitur mengangsur dengan baik lancar, 2 berarti debitur sedikit tersendat dalam mengangsur kurang lancar, 3 berarti debitur cukup tersendat dalam mengangsur kredit diragukan, dan 4 berarti debitur berhenti mengangsur macet. Atribut ini merupakan class label pada data debitur tersebut. Gambar 4.1 Atribut pada data debitur setelah tahap seleksi data

2. Pengisian Missing Value

Di dalam dataset debitur yang telah mengalami seleksi atribut terdapat missing value pada kolom GAJIPENDAPATAN, JML_TANGGUNGAN, UANG _DIBAWA, STATUS_PINJAMAN, JML_SETORANBULAN, baris 1, 18, 37, 38, 42, 50, dan 96. Untuk mengatasi hal ini, kolom yang kosong akan diisi dengan means untuk data dengan atribut numerik dan diisi dengan mode untuk data dengan atribut kategorikal Hewahi dan M. K. Saad, 2007. Hasil pengisian missing value dapat dilihat di lampiran 3. Gambar 4.2 Isi data debitur setelah tahap pengisian missing value

3. Normalisasi Data

Setelah mengisi missing value secara manual dengan teknik means dan mode, dilakukan proses normalisasi atribut. Proses ini dilakukan karena adanya perbedaan range nilai dari tiap – tiap atribut sehingga perlu dilakukan normalisasi agar data memiliki nilai yang tepat dan sama untuk ditambang. Atribut – atribut tersebut akan dinormalisasi agar mempunyai range nilai 0 - 1. Hasil normalisasi dapat dilihat di lampiran 4. Proses normalisasi menggunakan metode min-max normalization sebagai berikut : 4.6 Dimana, v’ : nilai yang sudah ternormalisasi v : nilai lama yang belum ternormalisasi min : nilai minimum dari suatu instance max : nilai maksimum dari suatu instance NewMax : nilai minimum baru dari suatu instance NewMin : nilai maksimum baru dari suatu instance Berikut contoh proses normalisasi data : Tabel 4.1 Contoh atribut pada dataset debitur sebelum normalisasi UMUR NOM_PINJ SB JW NJOP_NT POKOK_BLN BUNGA_BLN 39 30,000,000 11.4 50 3,344,778 600,000 285,000 50 15,000,000 7.2 60 3,229,280 250,000 90,000 52 27,000,000 9.6 40 4,110,556 675,000 216,000 49 21,000,000 9.6 60 3,827,169 350,000 168,000 49 30,000,000 9.6 60 3,803,224 500,000 240,000 47 30,000,000 9.6 60 3,984,900 500,000 240,000 51 21,000,000 9.6 50 3,819,900 420,000 168,000 Tabel 4.2 Contoh atribut pada dataset debitur setelah normalisasi vumur vnom_pinj vsb vjw vnjop_nt vpokok_bln vbunga_bln 0.00 1.00 1.00 0.50 0.13 0.77 1.00 0.85 0.00 0.00 1.00 0.00 -0.31 0.00 1.00 0.80 0.57 0.00 1.00 1.00 0.65 0.77 0.40 0.57 1.00 0.68 0.00 0.40 0.77 1.00 0.57 1.00 0.65 0.46 0.77 0.62 1.00 0.57 1.00 0.86 0.46 0.77 0.92 0.40 0.57 0.50 0.67 0.22 0.40

C. Penambangan Data Dengan Microsoft Excel

Data yang telah mengalami pemrosesan akan ditambang berdasarkan algoritma ECODB. Penambangan data menggunakan Microsoft Excel. Rumus algoritma ECODB akan diterapkan dalam bentuk formula Microsoft Excel.

1. Menormalisasi Data

Sebelum ditambang, data yang telah mengalami pemrosesan awal akan dinormalisasi terlebih dahulu. Proses normalisasi ini dilakukan dengan tujuan membuat data memiliki nilai yang tepat dan sama untuk ditambang. Atribut – atribut tersebut akan dinormalisasi agar mempunyai range nilai 0 – 1. Proses normalisasi menggunakan metode min-max normalization seperti pada rumus 4.6. Formula normalisasi dalam Microsoft Excel adalah sebagai berikut : =cell1-mincellmaxcell-mincell1-0+0 Gambar 4.3 Contoh formula normalisasi data

2. Mencari Jarak Dari Tiap Data Dengan Menggunakan Fungsi Jarak Mixed Euclidian Distance

Setelah menormalisasi data, dicari jarak dari tiap data dengan menggunakan fungsi jarak mixed euclidian distance. Pada fungsi ini setiap instance bertipe kategorikal akan diberi nilai 0 jika mempunyai kategori yang sama dan diberi nilai 1 jika mempunyai kategori yang berbeda, sedangkan atribut numerik akan dihitung berdasarkan rumus 5. Formula mencari jarak dalam Microsoft Excel adalah sebagai berikut : =SQRTIFcell1=cell2,0,12+cell3-cell42+cell5- cell62+cell7-cell82+cell9- cell102+IFcell11=cell12,0,12+cell13-cell142+ cell15-cell162+cell17-cell182+cell19-cell202+ cell21-cell222+cell23-cell242+cell25-cell262+ cell27-cell282+cell29-cell302+cell31-cell322+ cell33-cell342+IFcell35=cell36,0,12+cell37-cell382 Gambar 4.4 Contoh formula mencari jarak 3. Menghitung PCL PCLProbability of Class Label adalah nilai probabilitasbanyaknya kemunculan class label yang sama dengan instance T dibandingkan k tetangga terdekatnya. PCL dihitung dengan cara membagi jumlah tetangga terdekat instance T yang mempunyai class label yang sama termasuk instance T sendiri dengan nilai k. Formula menghitung PCL dalam Microsoft Excel adalah sebagai berikut : =cell1k Gambar 4.5 Contoh formula menghitung PCL

4. Meranking List Top N Outlier Dari Instance Dengan Nilai PCLT,K

Terkecil Setelah menghitung nilai PCL, data diranking secara kecil ke besar berdasarkan nilai PCLT,K terkecil sesuai dengan masukan top N. Top N adalah jumlah instances yang dideteksi sebagai outlier yang diurutkan secara kecil ke besar. Misalkan masukan top N = 10, maka akan