Atribut ini berisi keterangan berapa kali debitur menunggak mengangsur bunga. Atribut ini bertipe numerik.
k. TUNG_POKOK Atribut ini berisi jumlah total kredit yang ditunggak oleh
debitur. Atribut ini bertipe numerik. l. TUNG_BUNGA
Atribut ini berisi jumlah total bunga yang ditunggak oleh debitur. Atribut ini bertipe numerik.
m. GAJIPENDAPATAN Atribut ini berisi jumlah gaji atau pendapatan debitur tiap
bulan. Atribut ini bertipe numerik. n. JML_TANGGUNGAN
Atribut ini berisi jumlah anggota keluarga yang ditanggung oleh debitur. Atribut ini bertipe numerik.
o. UANG_DIBAWA Atribut ini berisi jumlah nominal uang yang dibawa
pulangdiperoleh debitur setiap bulannya. Atribut ini bertipe numerik.
p. STATUS_PINJAMAN Atribut ini berisi keterangan apakah debitur saat mengajukan
kredit telah melakukan peminjaman kredit di bank lain atau tidak. Atribut ini bertipe kategorikal.
q. JML_SETORANBULAN
Atribut ini berisi besar jumlah setoran yang harus diangsur debitur di bank lain setiap bulannya jika debitur saat
mengajukan kredit telah melakukan peminjaman kredit di bank lain. Atribut ini bertipe numerik.
r. POKOK_BLN Atribut ini berisi jumlah kredit yang harus diangsur debitur
setiap bulan. Atribut ini bertipe numerik. s. BUNGA_BLN
Atribut ini berisi jumlah bunga yang harus diangsur debitur setiap bulan. Atribut ini bertipe numerik.
t. KOLBI1 Atribut ini adalah atribut yang digunakan untuk menyatakan
status kredit debitur. Dimana nilai 1 berarti debitur mengangsur dengan baik lancar, 2 berarti debitur sedikit
tersendat dalam mengangsur kurang lancar, 3 berarti debitur cukup tersendat dalam mengangsur kredit diragukan, dan 4
berarti debitur berhenti mengangsur macet. Atribut ini merupakan class label pada data debitur tersebut.
Gambar 4.1 Atribut pada data debitur setelah tahap seleksi data
2. Pengisian Missing Value
Di dalam dataset debitur yang telah mengalami seleksi atribut terdapat
missing value
pada kolom
GAJIPENDAPATAN, JML_TANGGUNGAN, UANG _DIBAWA, STATUS_PINJAMAN,
JML_SETORANBULAN, baris 1, 18, 37, 38, 42, 50, dan 96. Untuk mengatasi hal ini, kolom yang kosong akan diisi dengan means untuk data
dengan atribut numerik dan diisi dengan mode untuk data dengan atribut kategorikal Hewahi dan M. K. Saad, 2007. Hasil pengisian missing value
dapat dilihat di lampiran 3.
Gambar 4.2 Isi data debitur setelah tahap pengisian missing value
3. Normalisasi Data
Setelah mengisi missing value secara manual dengan teknik means
dan mode, dilakukan proses normalisasi atribut. Proses ini dilakukan karena adanya perbedaan range nilai dari tiap
– tiap atribut sehingga perlu dilakukan normalisasi agar data memiliki nilai yang
tepat dan sama untuk ditambang. Atribut – atribut tersebut akan
dinormalisasi agar mempunyai range nilai 0 - 1. Hasil normalisasi dapat dilihat di lampiran 4. Proses normalisasi menggunakan metode min-max
normalization sebagai berikut :
4.6 Dimana,
v’ : nilai yang sudah ternormalisasi v
: nilai lama yang belum ternormalisasi min
: nilai minimum dari suatu instance max
: nilai maksimum dari suatu instance NewMax
: nilai minimum baru dari suatu instance NewMin
: nilai maksimum baru dari suatu instance
Berikut contoh proses normalisasi data :
Tabel 4.1 Contoh atribut pada dataset debitur sebelum normalisasi
UMUR NOM_PINJ
SB JW
NJOP_NT POKOK_BLN
BUNGA_BLN 39
30,000,000 11.4
50 3,344,778
600,000 285,000
50 15,000,000
7.2 60
3,229,280 250,000
90,000 52
27,000,000 9.6
40 4,110,556
675,000 216,000
49 21,000,000
9.6 60
3,827,169 350,000
168,000
49 30,000,000
9.6 60
3,803,224 500,000
240,000 47
30,000,000 9.6
60 3,984,900
500,000 240,000
51 21,000,000
9.6 50
3,819,900 420,000
168,000
Tabel 4.2 Contoh atribut pada dataset debitur setelah normalisasi
vumur vnom_pinj
vsb vjw
vnjop_nt vpokok_bln
vbunga_bln
0.00 1.00 1.00 0.50
0.13 0.77
1.00 0.85
0.00 0.00 1.00 0.00
-0.31 0.00
1.00 0.80 0.57 0.00
1.00 1.00
0.65 0.77
0.40 0.57 1.00 0.68
0.00 0.40
0.77 1.00 0.57 1.00
0.65 0.46
0.77 0.62
1.00 0.57 1.00 0.86
0.46 0.77
0.92 0.40 0.57 0.50
0.67 0.22
0.40
C. Penambangan Data Dengan Microsoft Excel
Data yang telah mengalami pemrosesan akan ditambang berdasarkan algoritma ECODB. Penambangan data menggunakan Microsoft Excel. Rumus
algoritma ECODB akan diterapkan dalam bentuk formula Microsoft Excel.
1. Menormalisasi Data
Sebelum ditambang, data yang telah mengalami pemrosesan awal akan dinormalisasi terlebih dahulu. Proses normalisasi ini dilakukan
dengan tujuan membuat data memiliki nilai yang tepat dan sama untuk ditambang. Atribut
– atribut tersebut akan dinormalisasi agar mempunyai range
nilai 0 – 1. Proses normalisasi menggunakan metode min-max
normalization seperti pada rumus 4.6. Formula normalisasi dalam
Microsoft Excel adalah sebagai berikut : =cell1-mincellmaxcell-mincell1-0+0
Gambar 4.3 Contoh formula normalisasi data
2. Mencari Jarak Dari Tiap Data Dengan Menggunakan Fungsi Jarak Mixed Euclidian Distance
Setelah menormalisasi data, dicari jarak dari tiap data dengan menggunakan fungsi jarak mixed euclidian distance. Pada fungsi ini setiap
instance bertipe kategorikal akan diberi nilai 0 jika mempunyai kategori
yang sama dan diberi nilai 1 jika mempunyai kategori yang berbeda, sedangkan atribut numerik akan dihitung berdasarkan rumus 5. Formula
mencari jarak dalam Microsoft Excel adalah sebagai berikut : =SQRTIFcell1=cell2,0,12+cell3-cell42+cell5-
cell62+cell7-cell82+cell9- cell102+IFcell11=cell12,0,12+cell13-cell142+
cell15-cell162+cell17-cell182+cell19-cell202+ cell21-cell222+cell23-cell242+cell25-cell262+
cell27-cell282+cell29-cell302+cell31-cell322+ cell33-cell342+IFcell35=cell36,0,12+cell37-cell382
Gambar 4.4 Contoh formula mencari jarak 3. Menghitung PCL
PCLProbability of
Class Label
adalah nilai
probabilitasbanyaknya kemunculan class label yang sama dengan instance
T dibandingkan k tetangga terdekatnya. PCL dihitung dengan cara membagi jumlah tetangga terdekat instance T yang mempunyai class
label yang sama termasuk instance T sendiri dengan nilai k. Formula
menghitung PCL dalam Microsoft Excel adalah sebagai berikut : =cell1k
Gambar 4.5 Contoh formula menghitung PCL
4. Meranking List Top N Outlier Dari Instance Dengan Nilai PCLT,K
Terkecil
Setelah menghitung nilai PCL, data diranking secara kecil ke
besar berdasarkan nilai PCLT,K terkecil sesuai dengan masukan top N.
Top N adalah jumlah instances yang dideteksi sebagai outlier yang
diurutkan secara kecil ke besar. Misalkan masukan top N = 10, maka akan