Atribut ini berisi keterangan berapa kali debitur menunggak mengangsur bunga. Atribut ini bertipe numerik.
k. TUNG_POKOK
Atribut ini berisi jumlah total kredit yang ditunggak oleh debitur. Atribut ini bertipe numerik.
l. TUNG_BUNGA
Atribut ini berisi jumlah total bunga yang ditunggak oleh debitur. Atribut ini bertipe numerik.
m. GAJIPENDAPATAN
Atribut ini berisi jumlah gaji atau pendapatan debitur tiap bulan. Atribut ini bertipe numerik.
n. JML_TANGGUNGAN
Atribut ini berisi jumlah anggota keluarga yang ditanggung oleh debitur. Atribut ini bertipe numerik.
o. UANG_DIBAWA
Atribut ini berisi jumlah nominal uang yang dibawa pulangdiperoleh debitur setiap bulannya. Atribut ini bertipe
numerik. p.
STATUS_PINJAMAN Atribut ini berisi keterangan apakah debitur saat mengajukan
kredit telah melakukan peminjaman kredit di bank lain atau tidak. Atribut ini bertipe kategorikal.
q. JML_SETORANBULAN
Atribut ini berisi besar jumlah setoran yang harus diangsur debitur di bank lain setiap bulannya jika debitur saat
mengajukan kredit telah melakukan peminjaman kredit di bank lain. Atribut ini bertipe numerik.
r. POKOK_BLN
Atribut ini berisi jumlah kredit yang harus diangsur debitur setiap bulan. Atribut ini bertipe numerik.
s. BUNGA_BLN
Atribut ini berisi jumlah bunga yang harus diangsur debitur setiap bulan. Atribut ini bertipe numerik.
t. KOLBI1
Atribut ini adalah atribut yang digunakan untuk menyatakan status kredit debitur. Dimana nilai 1 berarti debitur
mengangsur dengan baik lancar, 2 berarti debitur sedikit tersendat dalam mengangsur kurang lancar, 3 berarti debitur
cukup tersendat dalam mengangsur kredit diragukan, dan 4 berarti debitur berhenti mengangsur macet. Atribut ini
merupakan
class label
pada data debitur tersebut.
Gambar 4.1 Atribut pada data debitur setelah tahap seleksi data 2. Pengisian
Missing Value
Di dalam
data set
debitur yang telah mengalami seleksi atribut terdapat
missing value
pada kolom
GAJIPENDAPATAN, JML_TANGGUNGAN, UANG _DIBAWA, STATUS_PINJAMAN,
JML_SETORANBULAN, baris 1, 18, 37, 38, 42, 50, dan 96. Untuk mengatasi hal ini, kolom yang kosong akan diisi dengan
means
untuk data dengan atribut numerik dan diisi dengan
mode
untuk data dengan atribut kategorikal Hewahi dan M. K. Saad, 2007. Hasil pengisian
missing value
dapat dilihat di lampiran 3.
Gambar 4.2 Isi data debitur setelah tahap pengisian
missing value
3. Normalisasi Data
Setelah mengisi
missing value
secara manual dengan teknik
means
dan
mode
, dilakukan proses normalisasi atribut. Proses ini dilakukan karena adanya perbedaan
range
nilai dari tiap – tiap atribut
sehingga perlu dilakukan normalisasi agar data memiliki nilai yang tepat dan sama untuk ditambang. Atribut
– atribut tersebut akan dinormalisasi agar mempunyai
range
nilai 0 - 1. Hasil normalisasi dapat dilihat di lampiran 4. Proses normalisasi menggunakan metode
min-max normalization
sebagai berikut :
4.6 Dimana,
v’ : nilai yang sudah ternormalisasi
v
: nilai lama yang belum ternormalisasi
min
: nilai minimum dari suatu
instance max
: nilai maksimum dari suatu
instance NewMax
: nilai minimum baru dari suatu
instance NewMin
: nilai maksimum baru dari suatu
instance
Berikut contoh proses normalisasi data :
Tabel 4.1 Contoh atribut pada dataset debitur sebelum normalisasi
UMUR NOM_PINJ
SB JW
NJOP_NT POKOK_BLN
BUNGA_BLN 39
30,000,000 11.4
50 3,344,778
600,000 285,000
50 15,000,000
7.2 60
3,229,280 250,000
90,000 52
27,000,000 9.6
40 4,110,556
675,000 216,000
49 21,000,000
9.6 60
3,827,169 350,000
168,000
49 30,000,000
9.6 60
3,803,224 500,000
240,000 47
30,000,000 9.6
60 3,984,900
500,000 240,000
51 21,000,000
9.6 50
3,819,900 420,000
168,000
Tabel 4.2 Contoh atribut pada dataset debitur setelah normalisasi
vumur vnom_pinj
vsb vjw
vnjop_nt vpokok_bln
vbunga_bln
0.00 1.00 1.00 0.50
0.13 0.77
1.00 0.85
0.00 0.00 1.00 0.00
-0.31 0.00
1.00 0.80 0.57 0.00
1.00 1.00
0.65 0.77
0.40 0.57 1.00 0.68
0.00 0.40
0.77 1.00 0.57 1.00
0.65 0.46
0.77 0.62
1.00 0.57 1.00 0.86
0.46 0.77
0.92 0.40 0.57 0.50
0.67 0.22
0.40
C. Penambangan Data Dengan Microsoft Excel
Data yang telah mengalami pemrosesan akan ditambang berdasarkan algoritma ECODB
.
Penambangan data menggunakan Microsoft Excel. Rumus algoritma ECODB akan diterapkan dalam bentuk formula Microsoft Excel.
1. Menormalisasi Data
Sebelum ditambang, data yang telah mengalami pemrosesan awal akan dinormalisasi terlebih dahulu. Proses normalisasi ini dilakukan
dengan tujuan membuat data memiliki nilai yang tepat dan sama untuk ditambang. Atribut
– atribut tersebut akan dinormalisasi agar mempunyai
range
nilai 0 – 1. Proses normalisasi menggunakan metode
min-max normalization
seperti pada rumus 4.6. Formula normalisasi dalam Microsoft Excel adalah sebagai berikut :
=cell1-mincellmaxcell-mincell1-0+0
Gambar 4.3 Contoh formula normalisasi data 2. Mencari Jarak Dari Tiap Data Dengan Menggunakan Fungsi Jarak
Mixed Euclidian Distance
Setelah menormalisasi data, dicari jarak dari tiap data dengan menggunakan fungsi jarak
mixed euclidian distance
. Pada fungsi ini setiap
instance
bertipe kategorikal akan diberi nilai 0 jika mempunyai kategori yang sama dan diberi nilai 1 jika mempunyai kategori yang berbeda,
sedangkan atribut numerik akan dihitung berdasarkan rumus 5. Formula
mencari jarak dalam Microsoft Excel adalah sebagai berikut : =SQRTIFcell1=cell2,0,12+cell3-cell42+cell5-
cell62+cell7-cell82+cell9- cell102+IFcell11=cell12,0,12+cell13-cell142+
cell15-cell162+cell17-cell182+cell19-cell202+ cell21-cell222+cell23-cell242+cell25-cell262+
cell27-cell282+cell29-cell302+cell31-cell322+ cell33-cell342+IFcell35=cell36,0,12+cell37-cell382
Gambar 4.4 Contoh formula mencari jarak 3. Menghitung PCL
PCL
Probability of
Class Label
adalah nilai
probabilitasbanyaknya kemunculan
cla ss label
yang sama dengan
instance
T dibandingkan k tetangga terdekatnya. PCL dihitung dengan cara membagi jumlah tetangga terdekat
instance
T yang mempunyai
class label
yang sama termasuk
instance
T sendiri dengan nilai k. Formula menghitung PCL dalam Microsoft Excel adalah sebagai berikut :
=cell1k
Gambar 4.5 Contoh formula menghitung PCL 4. Meranking List
Top N Outlier
Dari
Instance
Dengan Nilai
PCLT,K
Terkecil
Setelah menghitung nilai PCL, data diranking secara kecil ke
besar berdasarkan nilai
PCLT,K
terkecil sesuai dengan masukan
top N
.
Top N
adalah jumlah
instances
yang dideteksi sebagai
outlier
yang diurutkan secara kecil ke besar. Misalkan masukan
top N
= 10, maka akan
diranking 10
instance
dengan nilai
PCLT,K
terkecil. Untuk meranking
instance
, digunakan fitur Sort Filter dalam Microsoft Excel.
Gambar 4.6 Contoh meranking kecil ke besar berdasarkan nilai
PCLT,K
terkecil
5. Menghitung Nilai
DeviationT
¸
NormDeviationT
,
KdistT
, Dan
NormKdistT
Kemudian instance yang berada di
top N
dihitung nilai
DeviationT
¸
NormDeviationT
,
KdistT
, dan
NormKdistT
berdasarkan rumus 2.1, 2.2, dan 2.3.
DeviationT
adalah seberapa besar nilai
instance
T yang menyimpang dari subset DCL.
KDist
adalah jarak antara
instance
T pada dataset D dengan K tetangga terdekat, seberapa dekat nilai K
instance
tetangga terdekat dengan
instance
T. Sedangkan
NormDeviationT
adalah nilai
deviation
yang sudah ternormalisasi dan
NormKDistT
adalah nilai
KDist
yang sudah