Penerapan Algoritme Smotebagging Dalam Penyusunan Pohon Keputusan Dan Regresi Logistik Untuk Kajian Kredit Macet.

PENERAPAN ALGORITME SMOTEBAGGING DALAM
PENYUSUNAN POHON KEPUTUSAN DAN REGRESI
LOGISTIK UNTUK KAJIAN KREDIT MACET

FITHRIA SITI HANIFAH

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI
Dengan ini saya menyatakan bahwa tesis berjudul Penerapan Algoritme
SMOTEBagging dalam Penyusunan Pohon Keputusan dan Regresi Logistik untuk
Kajian Kredit Macet adalah benar karya saya dengan arahan dari komisi
pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi
mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan
maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan
dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, Desember 2015
Fithria Siti Hanifah
NIM G152130201

RINGKASAN
FITHRIA SITI HANIFAH. Penerapan Algoritme SMOTEBagging dalam
Penyusunan Pohon Keputusan dan Regresi Logistik untuk Kajian Kredit Macet.
Dibimbing oleh HARI WIJAYANTO dan ANANG KURNIA.
Permasalahan yang sering ditemui dalam kasus klasifikasi adalah masalah
data tidak seimbang yang merupakan kondisi dimana salah satu atau lebih kelas
mendominasi kelas yang lain. Data tidak seimbang akan menghasilkan bias
terhadap kelas dengan jumlah contoh yang lebih besar (mayor) karena
pengklasifikasi akan cenderung memprediksi data kelas mayor, sedangkan kelas
minor akan cenderung diabaikan (dianggap sebagai noise), sehingga data amatan
pada kelas minor tidak dapat diklasifikasikan dengan benar. Untuk banyak kasus,
kesalahan memprediksi objek dari kelas minor dapat memberikan resiko lebih
besar dibanding dengan kesalahan memprediksi objek dari kelas mayor.
Penelitian ini mendiskusikan salah satu teknik penanganan masalah data
tidak seimbang, yaitu SMOTEBagging. SMOTEBagging merupakan kombinasi

dari metode SMOTE (Synthetic Minority Oversampling Technique) dan Bagging
(Bootstrap Aggregating), dimana metode SMOTE akan dilibatkan dalam proses
bagging, yaitu membangkitkan data buatan pada gugus data hasil proses bootsrap.
Pohon Keputusan dengan algoritme CART (Classification and Regression Tree)
dan regresi logistik merupakan pengklasifikasi yang akan digunakan pada setiap
gugus data yang diperoleh.
Data yang digunakan pada penelitian ini merupakan data sekunder yang
diambil dari salah satu Bank di Indonesia, Bank X, yaitu data nasabah kredit tanpa
agunan. Peubah yang digunakan dalam penelitian ini merupakan karakteristik
nasabah yang dinilai dalam credit scoring, yaitu sebanyak 17 peubah penjelas.
Berdasarkan hasil analisis, SMOTEBagging terbukti dapat meningkatkan
kinerja klasifikasi pada data tidak seimbang pada pengklasifikasian data credit
scoring pada kasus ini. Hal ini ditunjukkan dengan nilai AUC dan kepekaan yang
lebih baik dibandingkan dengan model tanpa SMOTEBagging. Berdasarkan nilai
AUC, pengklasifikasian credit scoring dengan menggunakan model regresi
logistik lebih baik dibandingkan dengan model CART, baik dengan penerapan
algoritme SMOTEBagging maupun tidak. Sedangkan berdasarkan nilai kepekaan,
model CART lebih baik dibanding dengan regresi logistik untuk model tanpa
SMOTEBagging, dan model regresi logistik lebih baik dibanding dengan CART
untuk model dengan SMOTEBagging. Sementara itu, model dengan penerapan

algoritme SMOTEBagging memiliki nilai AUC dan kepekaan yang lebih tinggi
dibanding dengan model tanpa SMOTEBagging meskipun nilai kehususannya
menurun. Oleh karena pada penelitian ini berfokus pada kelas minor (kredit
macet), maka berdasarkan pada kepentingan dalam penelitian ini diambil
kesimpulan bahwa SMOTEBagging dapat menaikkan tingkat akurasi model kelas
minor.
Kata kunci: akurasi, data tidak seimbang, CART, regresi logistik, SMOTEBagging

SUMMARY
FITHRIA SITI HANIFAH. Application of SMOTEBagging Algorithm in
Establishing Decision Tree and Logistic Regression Classifier in Study of NonPerforming Loan. Supervised by HARI WIJAYANTO and ANANG KURNIA.
The common problem in many cases of the classification is imbalanced data
when there are one or more classes that dominate the overall dataset as majority
classes and the other class which has rare occurrence as a minority class. The
standard methods will produce a bias toward the classes with a greater number of
instances (majority class) because the classifier will tend to predict to the majority
class data. The minority class will be ignored (treated as noise), so the observation
from the minority class cannot be classified correctly. In many cases,
misclassifying the minority class objects could have a bigger risk than
misclassifying the majority class.

This study will discuss one of handling methods for imbalanced dataset,
SMOTEBagging. SMOTEBagging is a combination of SMOTE (Synthetic
Minority Oversampling Technique) and Bagging (Bootstrap Aggregating), where
the SMOTE will be involved in the process of Bagging, generating synthetic
samples on data subset from bootstrap. Decision tree with CART (Classification
and Regression Tree) algorithm and logistic regression are classifier used in each
data subset.
The data used in this study is secondary data from one of banks in
Indonesia, namely customer’s personal loan data of Bank X. This study used
credit scoring customer characteristics data which is imbalanced data consisting of
17 explanatory variables.
Based on the result, SMOTEBagging algorithm increased performance of
classification for imbalanced credit scoring dataset in this case. It was shown by
area under curve (AUC) value and the accuracy of minority class (sensitivity) in
model with SMOTEBagging is higher than model without SMOTEBagging.
Based on AUC value, the classification of credit scoring by using logistic
regression model was better than using CART model, either with the application
of SMOTEBagging algorithm or without SMOTEBagging algorithm. In other
hand, based on the sensitivity, the CART model better than logistic regression
model without SMOTEBagging, and the logistic regression model is better than

the CART model with SMOTEBagging. Meanwhile, the model with the
application of SMOTEBagging algorithm, AUC value and sensitivity higher than
model without SMOTEBagging, although the specificity value decreases.
Therefore, because this study was focused on minority classes, based on the
interest of this study we could conclude that SMOTEBagging could increase the
level of accuracy of minority class prediction.
Keywords: Accuracy, decision tree, CART, imbalanced dataset, logistic
regression, SMOTEBagging

© Hak Cipta Milik IPB, Tahun 2015
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB

PENERAPAN ALGORITME SMOTEBAGGING DALAM

PENYUSUNAN POHON KEPUTUSAN DAN REGRESI
LOGISTIK UNTUK KAJIAN KREDIT MACET

FITHRIA SITI HANIFAH

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Sains
pada
Program Studi Statistika Terapan

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015

Penguji Luar Komisi pada Ujian Tesis: Prof. Dr. Ir. Khairil Anwar Notodiputro, MS

Judul Tesis : Penerapan Algoritme SMOTEBagging dalam Penyusunan Pohon
Keputusan dan Regresi Logistik untuk Kajian Kredit Macet

Nama
: Fithria Siti Hanifah
NIM
: G152130201

Disetujui oleh
Komisi Pembimbing

Dr Ir Hari Wijayanto, MSi
Ketua

Dr Anang Kurnia, SSi, MSi
Anggota

Diketahui oleh

Ketua Program Studi
Statistika Terapan

Dekan Sekolah Pascasarjana


Dr Ir Indahwati, MSi

Dr Ir Dahrul Syah, MScAgr

Tanggal Ujian: 10 November 2015

Tanggal Lulus:

PRAKATA
Puji dan syukur Penulis panjatkan kepada Allah Subhanahu wa ta’ala atas
segala karunia-Nya sehingga penulis dapat menyelesaikan tesis dengan judul
“Penerapan Algoritme SMOTEBagging dalam Penyusunan Pohon Keputusan dan
Regresi Logistik untuk Kajian Kredit Macet”. Tesis ini juga dapat diselesaikan
dengan bantuan dari berbagai pihak.
Terima kasih penulis ucapkan kepada Bapak Dr Ir Hari Wijayanto, MSi dan
Bapak Dr Anang Kurnia, MSi selaku pembimbing yang telah memberikan
bimbingan, arahan, dan saran kepada penulis, serta Bapak Prof. Dr. Ir. Khairil
Anwar Notodiputro, MS selaku dosen panguji luar komisi yang memberikan
arahan dan saran kepada penulis. Penulis juga mengucapkan terimakasih kepada

Dirjen Dikti atas pemberian beasiswa BPPDN, Ayah dan Ibu atas dukungan,
semangat dan do’anya, serta kakak dan adik-adikku yang selalu mendoakan dan
memberi semangat. Terima kasih juga kepada seluruh staf program studi
Statistiska, teman-teman S2 Statistika Terapan 2013, teman-teman S2 Statistika
2013, teman-teman S2 Statistika Terapan BPS yang telah membantu dan
kebersamaannya. Dan terima kasih kepada semua pihak yang tidak dapat penulis
sebutkan satu per satu yang telah membantu dalam penyelesaian tesis ini.
Semoga tesis ini dapat bermanfaat bagi semua pihak yang membutuhkan.

Bogor, Desember 2015
Fithria Siti Hanifah

DAFTAR ISI
DAFTAR TABEL

ii

DAFTAR GAMBAR

ii


DAFTAR LAMPIRAN

ii

1 PENDAHULUAN
Latar Belakang
Tujuan Penelitian

1
1
2

2 TINJAUAN PUSTAKA
Data Tidak seimbang
SMOTE
Bagging
SMOTEBagging
Pohon Klasifikasi dan Regresi
Regresi Logistik

Kinerja Klasifikasi

4
4
4
5
6
7
9
11

3 METODE
Data
Metode Analisis

12
12
13

4 HASIL DAN PEMBAHASAN
Deskripsi Data
Model tanpa SMOTEBagging
Model dengan SMOTEBagging
Perbandingan Model
Karakteristik Peubah yang Mempengaruhi Kredit Macet

16
16
19
22
23
24

5 SIMPULAN

27

DAFTAR PUSTAKA

28

LAMPIRAN

29

RIWAYAT HIDUP

44

DAFTAR TABEL
1
2
3
4
5
6
7
8
9
10
11
12

Confusion Matrix
Peubah Penyusun Model
Gambaran umum tentang data nasabah KTA Bank X
Kinerja klasifikasi model CART
Ketepatan klasifikasi model CART
Kinerja klasifikasi model regresi logistik
Ketepatan klasifikasi model regresi logistik
Kinerja klasifikasi model SMOTEBagging
Ketepatan klasifikasi model SMOTEBagging
Perbandingan kinerja klasifikasi
Peubah signifikan dalam Model
Peubah signifikan dalam Model

11
12
16
19
20
21
21
22
22
24
25
26

DAFTAR GAMBAR
1
2
3
4
5
6

Ilustrasi data tidak seimbang
Ilustrasi proses Bagging
Diagram Pohon
Kurva ROC perbandingan model CART dan regresi logistik
Kurva ROC model SMOTEBagging CART dan regresi logistik
Kurva ROC perbandingan model

4
6
8
21
23
24

DAFTAR LAMPIRAN
7
8
9
10
11

Deskripsi Peubah Penelitian
Bar Chart untuk persentase kredit macet
Pohon klasifikasi CART
Pendugaan parameter model regresi logistik dan backward stepwise
Grafik kinerja klasifikasi model SMOTEBagging CART berdasarkan
banyaknya Bootstrap
12 Grafik kinerja klasifikasi model SMOTEBagging regresi logistik
berdasarkan banyaknya Bootstrap
13 Variable importance model SMOTEBagging CART
14 Pendugaan parameter model SMOTEBagging regresi logistik

29
30
32
33
34
35
36
39

1

1 PENDAHULUAN
Latar Belakang
Dewasa ini, permintaan kredit melalui suatu bank mengalami perkembangan
yang cukup pesat. Kredit bukan hanya digunakan bagi masyarakat golongan
menengah ke bawah saja, tetapi juga oleh semua lapisan masyarakat untuk
menunjang kegiatan perekonomiannya. Pemberian kredit kepada masyarakat ini
tidak terlepas dari risiko. Dalam perbankan, risiko ini dikenal dengan risiko kredit
yaitu risiko akibat kegagalan debitur dan/atau pihak lain dalam memenuhi
kewajiban kepada bank. Risiko semacam ini (kredit macet) merupakan hal yang
sangat dikhawatirkan oleh setiap bank, karena akan mengganggu kondisi
keuangan bank, bahkan dapat mengakibatkan berhentinya kegiatan usaha bank.
Oleh karena itu, diperlukan proses manajemen yang disebut dengan manajemen
risiko agar dapat mengontrol risiko kredit dari suatu bank. Dalam Kodifikasi
Peraturan Bank Indonesia tentang “Manajemen Risiko”, menyatakan bahwa
manajemen risiko itu sendiri adalah serangkaian metodologi dan prosedur yang
digunakan untuk mengidentifikasi, mengukur, memantau, dan mengendalikan
risiko yang timbul dari seluruh kegiatan usaha bank.
Kebutuhan akan praktik tata kelola bank yang sehat dan penerapan
manajemen risiko (dalam hal meminimalisasi risiko kemacetan pembayaran
kredit) sangat perlu ditingkatkan agar semua kegiatan bank terkendali dan dapat
memberikan keuntungan pada bank. Oleh karena itulah perlu adanya suatu
pemodelan credit scoring yang dapat mengklasifikasikan calon debitur kedalam
dua kategori yaitu kategori macet dan lancar dengan risiko salah pengklasifikasian
seminimal mungkin. Sehingga bank dapat memutuskan apakah calon debitur
dapat dikabulkan permohonan kreditnya atau tidak. Pada kasus ini, terdapat
ketidakseimbangan antara data kelas macet dan data kelas lancar. Ada sebanyak
87,6% data yang berada di kelas kredit lancar, sedangkan kelas kredit macet
hanya 12,4%. Dalam banyak kasus klasifikasi, permasalahan semacam ini
memang sering terjadi. Data dikatakan tidak seimbang ketika ada satu atau lebih
kelas yang mendominasi keseluruhan data sebagai kelas mayor dan kelas lain
yang merupakan kejadian langka sebagai kelas minor. Masalah data tidak juga
seimbang terjadi dalam berbagai kasus klasifikasi, seperti klasifikasi kemiskinan
(Muttaqin et al. 2013), klasifikasi teks (Chawla et al. 2002), klasifikasi
keberhasilan studi mahasiswa (Rahmah 2013), diagnosa medis (Yap et al. 2014),
credit scoring (Brown dan Mues 2012), dan sebagainya.
Beberapa metode klasifikasi yang populer dan sering digunakan diantaranya
decision tree (pohon keputusan) dan regresi logistik. Metode ini sudah baik dalam
melakukan klasifikasi ketika jumlah kelas dari peubah respon dalam data
seimbang. Akan tetapi, jika data yang digunakan tidak seimbang, akan berdampak
pada sulitnya mendapatkan model prediksi yang baik dan bermakna karena
adanya ketidakcukupan informasi dari kelas minor (Yap et al. 2014). Metode
klasifikasi standar ini akan menghasilkan bias terhadap kelas dengan jumlah
contoh yang lebih besar (mayor) karena metode klasifikasi akan cenderung
memprediksi data kelas mayor, sedangkan kelas minor akan cenderung diabaikan

2
(dianggap sebagai noise), sehingga data amatan pada kelas minor tidak dapat
diklasifikasikan dengan benar (Galar et al. 2011).
Beberapa penelitian telah dilakukan dalam pengembangan teknik untuk
kasus data tidak seimbang. He dan Garcia (2009) serta Galar et al. (2011)
menjelaskan beberapa metode yang dapat digunakan untuk mengatasi masalah
data tidak seimbang. Menurut Galar et al. (2011) pendekatan dapat dilakukan
pada level algoritme, level data, dan cost-sensitive yang merupakan gabungan dari
level algoritme dan level data.
Pendekatan paling sederhana adalah pendekatan pada level data yaitu
menambahkan pre-processing step dengan menerapkan konsep sampling, yaitu
undersampling dan oversampling. Pendekatan ini memodifikasi jumlah kelas data
sehingga kedua kelas data dapat direpresentasikan dengan baik. Metode
oversampling bekerja dengan menambah jumlah data, sedangkan undersampling
dengan mengurangi jumlah data. Chawla et al. (2002) memperkenalkan SMOTE
yang merupakan metode yang dikembangkan berdasarkan konsep oversampling.
SMOTE bekerja dengan membangkitkan data buatan berdasarkan k-tetangga
terdekat. Hal ini diharapkan dapat mengatasi kelemahan metode berbasis
undersampling yang menghilangkan informasi penting dalam data yang
dihilangkan.
Metode ensemble juga dapat digunakan untuk masalah data tidak seimbang
dengan meningkatkan akurasi klasifikasi dari sebuah pengklasifikasi tunggal.
Metode ini mengkombinasikan banyak pengklasifikasi tunggal yang kemudian
hasil prediksi masing-masing pengklasifikasi digabungkan dengan proses voting.
Salah satu metode ensemble adalah Bagging. Bagging merupakan metode yang
menggunakan bootstrap dalam menghasilkan gugus data baru untuk membuat
pengklasifikasi dalam banyak versi. Jika dibandingkan dengan pengklasifikasi
tunggal, hasil prediksi bagging hampir selalu lebih akurat (Zhou 2012). Beberapa
penelitian yang menggunakan Bagging untuk memperbaiki akurasi klasifikasi dari
metode klasifikasi tunggal diantaranya Intansari et al. (2012) mengklasifikasikan
pasien hasil pap test kanker serviks, dan Muttaqin et al. (2013) pada klasifikasi
kemiskinan di Kabupaten Jombang.
Pada penelitian ini akan diterapkan metode SMOTEBagging pada metode
pohon keputusan (decision tree) dengan algoritme CART, dan pada model regresi
logistik. SMOTEBagging merupakan kombinasi dari metode SMOTE dan
bagging, dimana metode SMOTE akan dilibatkan dalam proses bagging, yaitu
membangkitkan data pada gugus data hasil proses bootstrap sehingga data
menjadi seimbang sebelum dilakukan analisis. Dengan demikian diperoleh hasil
kinerja klasifikasi yang lebih baik dalam memprediksi kredit macet.

Tujuan Penelitian
Berdasarkan latar belakang pada bagian sebelumnya, maka tujuan penelitian
ini adalah:
1. Menerapkan metode klasifikasi dengan CART dan regresi logistik serta
membandingkan hasil kinerja klasifikasinya.
2. Menerapkan algoritme SMOTEBagging pada metode klasifikasi CART dan
regresi logistik sebagai penanganan masalah data tidak seimbang (imbalanced

3
data) pada data Kredit Tanpa Agunan (KTA) serta membandingkan hasil
kinerja klasifikasinya.
3. Mengetahui karakertistik peubah yang mempengaruhi kredit macet.

4

2 TINJAUAN PUSTAKA
Data Tidak seimbang
Data tidak seimbang terjadi ketika ada satu atau lebih kelas yang
mendominasi keseluruhan data sebagai kelas mayor dan kelas lainnya merupakan
kejadian langka sebagai kelas minor. Data tidak seimbang akan menghasilkan
suatu akurasi prediksi klasifikasi yang baik terhadap kelas mayor, sedangkan pada
kelas minor akurasi yang dihasilkan jelek. Sulitnya mendapatkan model prediksi
yang baik dan bermakna pada kelas minor karena adanya ketidakcukupan
informasi (Yap et al. 2014).

Gambar 1 Ilustrasi data tidak seimbang
Terdapat beberapa pendekatan yang dapat dilakukan untuk mengatasi
masalah data tidak seimbang. Pendekatan pertama yaitu pada level algoritme
(internal), dengan membuat atau memodifikasi algoritme yang ada untuk
memperhitungkan pentingnya contoh positif. Pendekatan kedua yaitu level data
(eksternal), yang menambahkan preprocessing step. Serta pendekatan ketiga
adalah cost-sensitive yang mengkombinasikan kedua pendekatan tersebut. Selain
itu, metode ensemble juga dapat digunakan untuk mengatasi masalah data tidak
seimbang dengan meningkatkan akurasi klasifikasi dari sebuah pengklasifikasi
tunggal (Galar et al. 2011).

SMOTE
Synthetic Minority Oversampling Technique (SMOTE) adalah salah satu
metode oversampling yang pertama kali diperkenalkan oleh Chawla et al. (2002).
Metode oversampling adalah metode resampling yang mereplikasi/duplikasi data
secara acak. Tujuan penambahan data ini agar jumlah data minor setara dengan
data mayor. SMOTE merupakan metode oversampling yang bekerja dengan
membuat “synthetic” data, yaitu membangkitkan data buatan.
Data buatan atau data synthetic tersebut dibuat berdasarkan karakteristik
objek dan k-tetangga terdekat (k-nearest neighbor). Jumlah k-tetangga terdekat
ditentukan dengan mempertimbangkan kemudahan dalam pelaksanaanya.
Terdapat perbedaan prosedur dalam membangkitkan data buatan untuk peubah
numerik dan kategorik, yaitu untuk peubah numerik digunakan jarak euclidian,
sedangkan untuk peubah kategorik digunakan modus yang perhitungannya dengan

5
menggunakan Value Distance Metric (VDM). Rumus jarak Euclidean
didefinisikan sebagai berikut:
(x, y)  (x  y )'(x  y )

(2.1)

Rumus Value Distance Metric (Cost dan Salzberg 1993) didefinisikan sebagai
berikut:
N

(x, y)  Wx Wy   v1i v2i 

r

(2.2)

i 1

Keterangan :
(x, y)
Wx Wy

N
r
  v1i v2i 

: Jarak antara amatan X dan Y
: Bobot amatan (dapat di abaikan)
: Banyaknya peubah penjelas
: Bernilai 1 (jarak Manhattan) atau 2 (jarak Euclidean)
: Jarak antar kategori pada setiap peubah, dengan rumus :
S

  v1v2   
i 1

Keterangan :
  v1v2 
c1i
c2i
c1
c2
S
k

c1i c2i

c1 c2

k

: Jarak antara kategori ke-1 dan ke-2 yang termasuk pada kelas ke-i
: Banyaknya kategori ke-1 yang termasuk kelas ke-i
: Banyaknya kategori ke-2 yang termasuk kelas ke-i
: Banyaknya kategori ke-1 terjadi
: Banyaknya kategori ke-2 terjadi
: Banyaknya kategori pada peubah
: Konstanta (biasanya 1).

Berikut ini merupakan prosedur pembangkitan data buatan :
1. Data numerik
a. Hitung selisih antar vektor prediktor dengan k-tetangga terdekatnya.
b. Kalikan selisih ini dengan angka acak antara 0 dan 1.
c. Tambahkan selisih dengan nilai asli prediktor tersebut kemudian buat
data buatan.
2. Data kategorik
a. Pilih majority vote antara vektor utama yang dipertimbangkan dengan ktetangga terdekatnya untuk nilai nominal. Jika terjadi nilai sama maka
pilih secara acak.
b. Tetapkan nilai tersebut sebagai data buatan sampel baru.

Bagging
Bagging merupakan singkatan dari Bootstrap Aggregating yang dikenalkan
oleh Breiman pada tahun 1996 dengan tujuan mereduksi ragam prediktor. Zhou
(2012) menyebutkan bahwa ide dasar metode ensemble ini adalah menggunakan
bootstrap yaitu dengan resampling acak dengan pengembalian pada data latih

6
(training) sehingga diperoleh gugus data/data latih baru untuk membangkitkan
pengklasifikasi dengan banyak versi, kemudian aggregating yaitu
menggabungkan banyak nilai dugaan menjadi satu nilai dugaan.
Konsep aggregating pada bagging adalah voting untuk kasus klasifikasi dan
rata-rata untuk kasus regresi. Penggunaan bagging ini berguna dalam mengatasi
sifat ketidakstabilan dari metode klasifikasi tunggal. Tingkat ketepatan klasifikasi
dari bagging tergantung pada jumlah replikasi bootstrap yang digunakan sehingga
dapat dikatakan penentuan banyaknya replikasi bootstrap merupakan faktor yang
mempengaruhi kebaikan bagging.
Menurut Sartono dan Syafitri (2010) dengan pengulangan bootstrap
sebanyak 50 kali untuk kasus klasifikasi dan 25 kali untuk kasus regresi dapat
memberikan hasil yang memuaskan.

Gambar 2 Ilustrasi proses Bagging

SMOTEBagging
SMOTEBagging adalah kombinasi dari SMOTE dan algoritme bagging yang
melibatkan proses pembangkitan data buatan selama mengkonstruksi gugus data
(Wang dan Yao 2009). Tujuan dari pengkombinasian ini adalah untuk
menciptakan model yang kuat dalam mengklasifikasi data yang tidak seimbang
tanpa mengorbankan akurasi keseluruhan.
Berdasarkan SMOTEBagging, masing-masing gugus data yang di peroleh
dari proses bootstrap dilakukan penyeimbangan kelas data dengan menggunakan
SMOTE sebelum pemodelan. Dua parameter yang harus ditentukan dalam
SMOTE adalah k-tetangga terdekat dan jumlah oversampling dari kelas minor

7
sebanyak N. Jumlah oversampling dapat ditentukan hingga jumlah sampel kelas
mayor dan minor berimbang.
Algoritme SMOTEBagging (Wang dan Yao 2009) :
Data Latih
1. Menginisiasi data latih sebagai S.
2. Membangun gugus data Sk yang berisi contoh dari semua kelas dengan
jumlah yang sama.
a. Lakukan resampling pada kelas C dengan pengembalian dengan
persentase 100%.
b. Untuk setiap kelas i ( 1, …, C-1)
Lakukan resampling dari contoh asli dengan pengembalian pada tingkat
(

Nc
)b%.
Ni

Nc
)(1  b%) 100
Ni
Bangkitkan sampel baru dengan menggunakan SMOTE (k, N)
Dimana i merupakan kelas ke-i, Ni adalah jumlah contoh data latih kelas
ke-i, Nc adalah jumlah contoh data latih kelas mayor, N adalah jumlah
oversampling, b% merupakan nilai untuk mengontrol jumlah bangkitan
data baru (range dari 10 sampai 100).
3. Menyusun pengklasifikasi dari data Sk
4. Mengubah persentase b%
5. Mengulang langkah 2 dan 3 sebanyak k kali. (k= 1, 2, …, M)
Data Uji
1. Membangkitkan output dari masing-masing pengklasifikasi
2. Memperoleh prediksi kelas berdasarkan voting
Untuk gugus data yang terdiri dari dua kelas, yaitu satu kelas mayor dan
satu kelas minor, jumlah oversampling yang dapat digunakan adalah 100, 200,
300, 400, dan 500 (Chawla et al. 2002).

Anggap N  (

Pohon Klasifikasi dan Regresi
CART (Classification and Regression Trees) merupakan salah satu metode
atau algoritme dari salah satu teknik eksplorasi data decision tree yang
dikembangkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan
Charles J. Stone sekitar tahun 1980-an. CART adalah metode statistik nonparametrik yang digunakan untuk analisis klasifikasi, baik untuk peubah respon
kategorik maupun kontinu dan peubah penjelas yang dapat terdiri dari peubah
nominal, ordinal, maupun kontinu. Model pohon yang dihasilkan bergantung pada
skala peubah respon, CART menghasilkan pohon klasifikasi jika peubah
responnya kategorik dan menghasilkan pohon regresi jika peubah responnya
kontinu (Breman et al. 1984).
Struktur pohon pada metode ini di peroleh melalui suatu algoritme
penyekatan rekursif biner terhadap peubah penjelasnya. Penyekatan tersebut
dilakukan pada sekumpulan data menjadi dua anak gugus yang disebut dengan
simpul (node), selanjutnya anak gugus ini dilakukan penyekatan lagi menjadi dua

8
anak gugus baru hingga tidak dapat disekat lagi. Sekatan akhir yang dihasilkan
disebut dengan simpul akhir (terminal node), sedangkan sekatan yang masih
mungkin dilakukan penyekatan disebut simpul dalam (nonterminal node). Simpul
akan disekat berdasarkan aturan penyekatan dan kriteria goodness of split hingga
simpul menjadi lebih homogen dibanding simpul awal. Metode penyekatan
impurity measure i(t) merupakan pengukuran tingkat keheterogenan suatu kelas
dari suatu simpul tertentu dalam pohon klasifikasi.

Gambar 3 Diagram pohon
Proses penyusunan pohon klasifikasi dilakukan dengan tahapan sebagai
berikut :
Pemilihan penyekat
Setiap penyekatan tergantung pada nilai yang hanya berasal dari satu peubah
penjelas, dengan aturan sebagai berikut :
1. Untuk peubah kontinu Xj, penyekatan yang diperbolehkan adalah Xj ≤ c,
dimana c adalah nilai tengah antara dua nilai amatan peubah Xj berurutan
yang berbeda sebanyak n nilai tengah, sehingga akan terdapat n-1
penyekatan.
2. Untuk peubah kategorik, penyekatan yang terjadi berasal dari semua
kemungkinan penyekatan berdasarkan terbentuknya dua anak gugus yang
saling lepas (disjoint). Jika peubah Xj merupakan peubah kategorik nominal
dengan L kategori, maka akan ada 2L-1-1 penyekatan, sedangakan jika
berupa peubah kategorik ordinal, maka akan ada L-1 penyekatan yang
mungkin.
Metode penyekatan yang biasa digunakan adalah Indeks Gini yang
diformulasikan sebagai berikut:
i(t )   p( j | t ) p(i | t )
i j

dimana p(j|t) adalah proporsi kelas-j pada simpul t dan p(i|t) adalah proporsi
kelas-i pada simpul t.
Evaluasi penyekatan menggunakan goodness of split φ(s,t) dari penyekat s
pada simpul t. Fungsi penyekatan yang didefinisikan sebagai penurunan
heterogenitas adalah:

9

  s, t   i(t )  pLi(tL )  pRi(tR )
dan penyekat terbaik adalah:

  s*, t   max s   s, t 

(2.3)

dimana
i(t)
= fungsi heterogenitas pada simpul t
pL
= proporsi pengamatan simpul kiri
pR
= proporsi pengamatan menuju simpul kanan
i(tL) = fungsi heterogenitas pada simpul anak kiri
i(tR) = fungsi heterogenitas pada simpul anak kanan.
Penyekat yang menghasilkan φ(s,t) lebih tinggi merupakan penyekatan
terbaik karena memungkinkan mereduksi keheterogenan lebih tinggi.
Penentuan simpul akhir
Simpul t dapat dijadikan simpul akhir jika tidak terdapat penurunan
keheterogenan yang berarti pada penyekatan, artinya amatan dalam simpul sudah
homogen. Salah satu penghenti dari proses penyekatan adalah kecilnya jumlah
amatan dalam suatu simpul.
Penentuan dugaan respon pada setiap simpul akhir
Dugaan respon pada masing-masing simpul akhir yang dihasilkan
berdasarkan jumlah terbanyak, yaitu :
p( j0 | t )  max j p( j | t )  max j

N j (t )
N (t )

(2.4)

dengan p(j|t) adalah proporsi kelas j pada simpul t, Nj(t) adalah jumlah
pengamatan kelas j pada simpul t, dan N(t) adalah jumlah pengamatan pada
simpul t. Dugaan respon tersebut memberikan nilai dugaan kesalahan klasifikasi
paling kecil sebesar 1- p(j0|t).

Regresi Logistik
Regresi logistik adalah prosedur pemodelan yang diterapkan untuk
memodelkan peubah respon Y yang bersifat kategori berdasarkan satu atau lebih
peubah prediktor X, baik itu bersifat kategori maupun kontinu (Agresti 2002).
Secara umum model peluang regresi logistik biner diformulasikan sebagai berikut:

E ( y | x) =

exp(0  1 x1  2 x2  ...   p x p )
1  exp(0  1 x1  2 x2  ...   p x p )

atau

 ( x) =

exp(0  1 x1  2 x2  ...   p x p )
1  exp(0  1 x1  2 x2  ...   p x p )

secara ekuivalen, log odds disebut juga sebagai logit, memiliki persamaan linear
sebagai berikut:

10

  ( x) 
logit[ i ]  log 
 =0  1 x1   2 x2  ...   p x p
 1   ( x) 

(2.5)

yang merupakan fungsi penghubung (link function) terhadap prediktor (Agresti
2002).
Hosmer dan Lemeshow (1989) menyatakan bahwa metode umum
pendugaan parameter regresi logistik adalah metode kemungkinan maksimum.
Fungsi kemungkinan dari sebaran Bernoulli ditunjukkan dengan persamaan
sebagai berikut:
n

l (  )   (xi ) yi (1   (xi ))1 yi .
i 1

Prinsip dari metode ini adalah dengan memaksimumkan fungsi
kemungkinan yang secara matematis lebih mudah dengan memaksimumkan
logaritma fungsi kemungkinan berikut:






L( )     yi xij  j   ni log 1  exp    j xij 
j  i
i

 j


untuk mendapatkan nilai dugaan koefisien regresi logistik dilakukan dengan
penurunan L(  ) terhadap  dan disamakan dengan nol. Persamaan hasil turunan
masih nonlinier, maka dibutuhkan metode iterasi sebagai solusi (Agresti 2002).
Pengujian parameter secara simultan dilakukan dengan uji rasio
kemungkinan. Hipotesis yang akan diuji adalah sebagai berikut:

H o : 1  2 

 p  0

H 1 : paling tidak ada satu βi≠ 0.
Statistik uji yang digunakan dalam uji rasio kemungkinan (Agresti 2002),
yaitu:
l 
G  2log  0   2 log(l0 )  log(l1 )
 l1 

(2.6)

dengan:
l0 : Nilai maksimum dari fungsi kemungkinan untuk model di bawah hipotesis
nol.
l1 : Nilai maksimum dari fungsi kemungkinan untuk model di bawah hipotesis
alternatif.
Nilai 2( L0  L1 ) tersebut mengikuti sebaran khi-kuadrat dengan df  p . Jika
menggunakan taraf nyata sebesar  , maka kriteria ujinya adalah tolak H0 jika
2( L0  L1 )  (2p ) atau nilai-p ≤  (Agresti 2002).
Pengujian parameter secara parsial dilakukan dengan menggunakan Uji
Wald, dengan rumusan hipotesis sebagai berikut :
H0
H1

: βi= 0
: βi ≠ 0

11
Statistik uji yang digunakan adalah Uji Wald (Agresti 2002), yaitu:
W

i
SE ( i )

(2.7)

statistik W mengikuti sebaran normal baku.

Kinerja Klasifikasi
Kinerja suatu algoritme klasifikasi dapat dievaluasi dengan confusion
matrix. Confusion matrix memuat informasi tentang hasil klasifikasi data aktual
(keadaan sesungguhnya) dan hasil klasifikasi data hasil prediksi yang disajikan
dalam Tabel 1 sebagai berikut:

Keadaan
sesungguhnya

Tabel 1. Confusion matrix
Hasil Prediksi
Positif
Negatif
Positif
True Positive (TP)
False Negative (FN)
Negatif
False Positive (FP)
True Negative (TN)

Keterangan:
TP adalah frekuensi contoh yang sesungguhnya positif dan di prediksi positif.
FN adalah frekuensi contoh yang sesungguhnya positif dan di prediksi negatif.
FP adalah frekuensi contoh yang sesungguhnya negatif dan di prediksi positif.
TN adalah frekuensi contoh yang sesungguhnya negatif dan di prediksi negatif.
Cara untuk mengevaluasi hasil klasifikasi berdasarkan nilai pada confusion
matrix adalah dengan menghitung nilai keakuratan (accuracy), kepekaan
(sensitivity), dan kekhususan (specificity). Keakuratan menggambarkan tingkat
ketepatan klasifikasi secara keseluruhan. Kepekaan menggambarkan keakuratan
contoh pada kelas ke-i, sedangkan kekhususan menggambarkan keakuratan pada
kelas ke-j. Formula evaluasi kinerja klasifikasi adalah:
TP  TN
(TP  TN  FP  FN )
TP
Kepekaan 
TP  FN
TN
Kekhususan 
.
TN  FP
Keakuratan 

(2.8)
(2.9)
(2.10)

Akurasi klasifikasi juga dapat diukur dengan menghitung luas di bawah kurva
Receiver Operating Characteristic (ROC), yaitu AUC (Area under Curve). Menurut
Fawcett (2006) kurva ROC menggambarkan kinerja klasifikasi secara dua dimensi,
yaitu plot peluang salah negatif (1- kekhususan) dengan prediksi benar positif
(kepekaan). Nilai AUC berkisar antara 0 hingga 1. Nilai AUC semakin mendekati
satu maka akurasi model atau klasifikasi semakin tinggi

12

3 METODOLOGI
Data
Data yang digunakan pada penelitian ini adalah data sekunder, yaitu data
nasabah Kredit Tanpa Agunan (KTA) pada salah satu Bank di Indonesia, Bank X.
Kredit Tanpa Agunan adalah kredit dengan agunan hanya berupa objek yang
dibiayai kredit. Fungsi agunan berupa objek yang dibiayai tersebut tidak hanya
sebagai bukti penggunaan kredit, keseriusan atau kesungguhan calon debitur,
tetapi juga sebagai faktor pengurang risiko kredit di kemudian hari jika fasilitas
kredit yang diberikan tersebut mengalami macet/unpaid. Kredit ini diberikan
kepada pegawai maupun pensiunan yang berpenghasilan tetap atau memiliki
profesi tetap untuk membiayai berbagai macam kebutuhannya, dengan agunan
hanya berupa objek yang dibiayai kredit. Limit kredit ini adalah sebesar 50 juta
rupiah. Kriteria penerimaan kredit ini adalah sebagai berikut:
1. Warga Negara Indonesia yang berdomisili di Indonesia.
2. Telah diangkat menjadi pegawai tetap minimal 1 (satu) tahun dan
berpenghasilan tetap.
3. Usia minimal 21 tahun atau sudah menikah dan pada saat kredit lunas sesuai
usia pensiun (persyaratan ditentukan sesuai ketentuan yang berlaku).
4. Berdasarkan IDI – Bank Indonesia, calon debitur/debitur tidak memiliki
kredit atau mempunyai kredit dengan kolektibilitas seluruhnya lancar dan
tidak masuk Daftar Hitam Nasional Penarik Cek / Bilyet Giro Kosong.
5. Debt Service Ratio (DSR) maksimum 35%.
6. Penghasilan per bulan diatas Upah Minimum Provinsi (UMP) yang berlaku
di daerah tersebut, minimal Rp. 1,5 juta.
Adapun peubah yang akan di gunakan pada penelitian ini adalah :
Tabel 2. Peubah penyusun model
Peubah
Y
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
X16
X17

Nama Peubah
Status Kredit
Jenis Kelamin
Status Pernikahan
Kepemilikan Rumah
Wilayah
Pekerjaan
Kepemilikan Kartu Kredit
Kepemilikan Akun Bank-X
Kepemilikan Akun Bank Lain
Pendidikan
Jabatan
Usia
Banyak Tanggungan
Pendapatan Bersih
Rasio Utang Terhadap Pendapatan
Masa Kerja
Lama Hubungan dengan Bank
Tenor (Lama Pinjaman)

Skala
Nominal
Nominal
Nominal
Nominal
Nominal
Nominal
Nominal
Nominal
Nominal
Ordinal
Ordinal
Rasio
Rasio
Rasio
Rasio
Rasio
Rasio
Rasio

13
Metode Analisis
Tahapan analisis yang dilakukan adalah :
Tahap Persiapan Data
1. Melakukan seleksi peubah, cleaning data dan pengkategorian data. Seleksi
peubah dan cleaning data dilakukan dengan tujuan untuk mendapatkan data
yang bersih dan siap digunakan dalam penelitian. Peubah-peubah yang
digunakan merupakan peubah hasil penyeleksian berdasarkan literatur yang
relevan, yang terdiri dari data numerik dan kategorik dimana untuk data
kategorik yang memiliki kategori terlalu banyak dilakukan pengkategorian
ulang berdasarkan kategori umum.
2. Melakukan eksplorasi data untuk mengetahui gambaran umum data yang di
peroleh.
3. Membagi gugus data kedalam data latih dan data uji. Pada penelitian ini
pembagian data dengan menggunakan simple random sampling, 80% untuk
data latih dan 20% untuk data uji.
Tahap Pemodelan
4. Membangun model dengan data latih.
a. Menggunakan metode CART.
1. Menentukan penyekat yang mungkin untuk setiap peubah penjelas
berdasarkan aturan penyekatan.
2. Memilih penyekat yang terbaik dari masing-masing peubah penjelas
sesuai dengan Persamaan (2.3).
3. Memilih penyekat terbaik dari kumpulan penyekat terbaik.
4. Lakukan iterasi pada langkah (4.a.1) - (4.a.3) sampai ditemukan satu
dari beberapa hal berikut: (i) semua simpul sudah homogen, (ii) tidak
terdapat lagi peubah penjelas yang digunakan, (iii) kecilnya jumlah
amatan dalam simpul.
5. Menentuan simpul terminal.
6. Menentukan dugaan akhir setiap simpul terminal berdasarkan pada
Persamaan (2.4).
b. Menggunakan metode regresi logistik.
1. Membuat model klasifikasi dengan regresi logistik pada data latih.
Model umum regresi logistik ditunjukkan pada Persamaan (2.5)
2. Melakukan pengujian parameter baik secara simultan maupun parsial
berdasarkan pada Persamaan (2.6) dan Persamaan (2.7).
3. Mengeluarkan peubah yang tidak berbeda nyata dari dalam model
(backward stepwise).
c. Menggunakan metode SMOTEBagging pada CART dan regresi logistik.
1. Membangun sebanyak k gugus data baru dari data latih dengan
metode bootstrap (pada penelitian ini menggunakan replikasi
bootstrap sebanyak 10 hingga 1000 kali). Pada setiap data latih baru
yang dibangun berisi contoh kelas mayor dan minor yang sama
dengan data latih.
2. Membangkitkan data buatan (synthetic) pada setiap data latih baru
hasil bootstrap sehingga data menjadi seimbang dengan metode
SMOTE, sebagai berikut :

14
i. Menentukan k-tetangga terdekat (pada penelitian ini digunakan
k=5) dan menghitung jarak antara contoh dan tetangga
terdekatnya. Untuk peubah numerik digunakan jarak Euclidean
pada Persamaan (2.1), sedangkan untuk peubah kategorik
digunakan modus yang perhitungannya menggunakan Value
Distance Metric (VDM) pada Persamaan (2.2).
ii. Membangkitkan data buatan (synthetic) dengan tahapan sebagai
berikut :
Data numerik
- Berdasarkan 5 tetangga terdekat yang dihasilkan dari langkah
sebelumnya, pilih satu secara acak.
- Hitung selisih antara data amatan dengan tetangga terdekat
yang terpilih.
- Kalikan selisih yang diperoleh dari langkah sebelumnya
dengan angka acak antara 0 dan 1.
- Nilai yang diperoleh di tambahkan dengan nilai data amatan
asli. Hasil tersebut merupakan data buatan yang
dibangkitkan.
- Lakukan sebanyak n kali sesuai dengan jumlah oversampling
yang digunakan. Pada penelitian ini digunakan oversampling
(%) sebanyak 100, 200, .., 500.
Data kategorik
- Berdasarkan 5 tetangga terdekat yang dihasilkan dari langkah
sebelumnya, data buatan yang dihasilkan merupakan nilai
modus dari kelima tetangga terdekatnya. Jika terdapat nilai
modus yang sama maka pilih secara acak.
- Lakukan sebanyak n kali sesuai dengan jumlah oversampling
yang digunakan. Pada penelitian ini digunakan oversampling
(%) sebanyak 100, 200, .., 500.
3. Membangun model CART dan regresi logistik dari data yang
dibangun dari langkah sebelumnya dengan tahapan yang sama
dengan langkah 4.a dan 4.b, sehingga menghasilkan sebanyak k submodel.
Tahap Evaluasi Model
5. Melakukan prediksi dengan data uji dengan model klasifikasi yang diperoleh
dari langkah 4.a (CART) dan 4.b (regresi logistik).
6. Melakukan prediksi dengan data uji dengan model klasifikasi yang diperoleh
dari langkah 4.c (SMOTEBagging), sebagai berikut:
a. Melakukan prediksi dari masing-masing sub-model pada model CART
dan regresi logistik.
b. Menggabungkan k prediksi yang diperoleh dari hasil sebelumnya untuk
memperoleh prediksi akhir berdasarkan majority voting, sebagai
berikut:
T
1 l T
H ( x)  c j , if  hi j ( x)   hik ( x)
2 k 1 i 1
i 1
dimana :

15
c j merupakan label kelas, hi j ( x) merupakan prediksi kelas dari hi untuk

label kelas c j , hik ( x) merupakan prediksi kelas untuk semua label kelas.
Prediksi akhir adalah c j jika vote lebih besar dari setengahnya.
7. Mengevaluasi model yang dibangun dengan model CART , regresi logistik,
dan SMOTEBagging dengan menghitung nilai keakuratan, kepekaan, dan
kekhususan pada Persamaan (2.8), Persamaan (2.9), dan Persamaan (2.10).
8. Membandingkan kebaikan hasil klasifikasi model CART, regresi logistik,
dan SMOTEBagging dengan melihat nilai Area Under Curve (AUC).
9. Mengetahui peubah penting (variable importance) pada model
SMOTEBagging CART dan peubah yang berpengaruh pada model
SMOTEBagging regresi logistik secara subjektif.

16

4 HASIL DAN PEMBAHASAN
Deskripsi Data
Kredit Tanpa Agunan (KTA) Bank X merupakan kredit perorangan tanpa
agunan untuk berbagai kebutuhan seperti pendidikan, pernikahan, kesehatan,
renovasi rumah dan kebutuhan keluarga lainnya. Gambaran umum tentang
nasabah kredit KTA Bank X dapat dilihat dari Tabel 3 berikut :
Tabel 3

Gambaran umum tentang data nasabah
KTA Bank X
Status Kredit
Frekuensi
Persentasi
Lancar
876
87,6%
Macet
124
12,4%
Jumlah
1000
100,0%

Berdasarkan Tabel 3, dari 1000 nasabah kredit KTA Bank X, sebanyak 124
(12,4%) nasabahnya mengalami gagal bayar. Artinya sebesar 12,4% nasabah yang
awalnya memenuhi kualifikasi kredit atau diterima permohonan kreditnya pada
akhirnya mengalami kredit macet.
Untuk mengetahui gambaran data nasabah yang mengalami kredit macet
berdasarkan karakteristiknya, dapat dilihat pada Lampiran 2. Berdasarkan
Lampiran 2, diketahui beberapa hal berikut:
1)

2)

3)

4)

Peubah Jenis Kelamin. Persentase kredit macet nasabah berjenis kelamin
perempuan lebih kecil dibandingkan dengan nasabah berjenis kelamin lakilaki. Rasio odd dari kredit macet antara perempuan dan laki-laki adalah
sebesar 0.838, artinya resiko terjadinya kredit macet pada perempuan 0.838
kali resiko terjadinya kredit macet pada laki-laki.
Peubah Status Pernikahan. Persentase kredit macet nasabah dengan status
pernikahan menikah/pernah menikah lebih kecil dibandingkan dengan
nasabah dengan status pernikahan tidak menikah. Rasio odd dari kredit
macet antara nasabah dengan status pernikahan menikah/pernah menikah
dan tidak menikah adalah sebesar 0.955, artinya resiko terjadinya kredit
macet pada nasabah dengan status pernikahan menikah/pernah menikah
0.955 kali resiko terjadinya kredit macet pada nasabah yang tidak menikah.
Peubah Status Kepemilikan Rumah. Persentase kredit macet nasabah
dengan status kepemilikan rumah milik sendiri lebih besar dibandingkan
dengan yang bukan milik sendiri. Rasio odd dari kredit macet antara
nasabah dengan status kepemilikan rumah milik sendiri dan bukan milik
sendiri adalah sebesar 1.137, artinya resiko terjadinya kredit macet pada
nasabah dengan status kepemilikan rumah milik sendiri 1.137 kali resiko
terjadinya kredit macet pada nasabah dengan status kepemilikan rumah
bukan milik sendiri.
Peubah Wilayah. Nasabah yang berada di wilayah 3 (Jakarta) memiliki
persentase kredit macet paling besar dibandingkan dengan wilayah yang
lainnya. Rasio odd dari kredit macet antara nasabah Jakarta dan Medan
adalah sebesar 2.299, Jakarta dan Palembang adalah sebesar 7.192, Jakarta

17

5)

6)

7)

8)

9)

10)

dan Bandung adalah sebesar 2.263, Jakarta dan Semarang adalah sebesar
3.467, Jakarta dan Surabaya adalah sebesar 1.478, Jakarta dan Banjarmasin
adalah sebesar 3.097, Jakarta dan Makassar adalah sebesar 4.825, Jakarta
dan Denpasar adalah sebesar 2.694, Jakarta dan Jayapura adalah sebesar
2.452. Artinya resiko terjadinya kredit macet pada nasabah yang berada di
Jakarta 2.299 kali resiko terjadinya kredit macet pada nasabah yang berada
di Medan, dan seterusnya.
Peubah Pekerjaan. Persentase kredit macet nasabah yang bekerja di
lembaga pemerintah lebih besar dibandingkan dengan nasabah yang bekerja
di lembaga non-pemerintah. Rasio odd dari kredit macet antara nasabah
yang bekerja di lembaga pemerintah dan lembaga non-pemerintah adalah
sebesar 1.075, artinya resiko terjadinya kredit macet pada nasabah yang
bekerja di lembaga pemerintah 1.137 kali resiko terjadinya kredit macet
pada nasabah yang bekerja di lembaga non-pemerintah.
Peubah Kepemilikan Kartu Kredit. Persentase kredit macet nasabah yang
memiliki kartu kredit lebih hampir sama dibandingkan dengan nasabah yang
tidak memiliki kartu kredit. Rasio odd dari kredit macet antara nasabah yang
memiliki kartu kredit dan tidak memiliki kartu kredit adalah sebesar 0.990,
artinya resiko terjadinya kredit macet pada nasabah yang memiliki kartu
kredit 0.990 kali resiko terjadinya kredit macet pada nasabah yang tidak
memiliki kartu kredit.
Peubah Kepemilikan Akun Bank X. Persentase kredit macet nasabah
yang tidak memiliki akun Bank X lebih besar dibandingkan dengan nasabah
dengan memiliki akun Bank X. Rasio odd dari kredit macet antara nasabah
yang tidak memiliki akun Bank X dan memiliki akun Bank X adalah
sebesar 3.210, artinya resiko terjadinya kredit macet pada nasabah yang
tidak memiliki akun Bank X 3.210 kali resiko terjadinya kredit macet pada
nasabah yang memiliki akun Bank X.
Peubah Kepemilikan Akun Bank Lain. Persentase kredit macet nasabah
yang tidak memiliki akun Bank lain lebih besar dibandingkan dengan
nasabah yang memiliki akun Bank lain. Rasio odd dari kredit macet antara
nasabah yang tidak memiliki akun Bank lain dan memiliki akun Bank lain
adalah sebesar 1.693, artinya resiko terjadinya kredit macet pada nasabah
yang tidak memiliki akun Bank lain 1.693 kali resiko terjadinya kredit
macet pada nasabah yang memiliki akun Bank lain.
Peubah Pendidikan. Persentase kredit macet nasabah dengan pendidikan
tingkat sekolah lebih besar dibandingkan nasabah dengan pendidikan
tingkat perguruan tinggi. Rasio odd dari kredit macet antara nasabah dengan
pendidikan tingkat sekolah dan tingkat perguruan tinggi adalah sebesar
1.127, artinya resiko terjadinya kredit macet pada nasabah dengan
pendidikan tingkat sekolah 1.127 kali resiko terjadinya kredit macet pada
nasabah dengan pendidikan tingkat perguruan tinggi.
Peubah Jabatan. Persentase kredit macet nasabah dengan jabatan puncak
merupakan persentase paling besar dibandingkan dengan nasabah dengan
jabatan di bawahnya. Rasio odd dari kredit macet antara nasabah dengan
jabatan puncak dan jabatan lini pertama (bawah) adalah sebesar 2.963 dan
rasio odd dari kredit macet antara nasabah dengan jabatan puncak dan
jabatan menengah adalah sebesar 1.815, artinya resiko terjadinya kredit

18

11)

12)

13)

14)

15)

macet pada nasabah dengan jabatan puncak 2.963 kali resiko terjadinya
kredit macet pada nasabah dengan jabatan lini pertama (bawah) dan 1.815
kali resiko terjadinya kredit macet pada nasabah dengan jabatan menengah.
Peubah Usia. Persentase kredit macet nasabah dengan usia pada selang