Diskretisasi Peubah Credit Scoring Model Menggunakan Metode Entropi dan Khi Kuadrat

ABSTRAK
BAYU ALFIANSYAH. Diskretisasi Peubah Credit Scoring Model Menggunakan Metode
Entropi dan Khi Kuadrat. Di bawah bimbingan BAGUS SARTONO dan AJI HAMIM WIGENA.
Credit scoring model telah banyak digunakan oleh berbagai organisasi finansial berdasarkan
pada informasi data historis yang dimiliki perusahaan tersebut. Masalah yang sering muncul ialah
model yang biasa digunakan hanya bisa menerima data dengan skala diskret. Selain itu pada datadata yang sangat besar (database perusahaan) terkadang sangat rentan terhadap pencilan, dan tidak
konsisten. Salah satu cara untuk mengatasi hal ini adalah melakukan data pre-processing dengan
melakukan diskretisasi atau biasa disebut binning. Dari sekian banyak metode diskretisasi,
peneliti membandingkan metode entropi dan khi kuadrat terhadap data kredit konsumtif sebuah
bank. Secara umum, untuk data kredit konsumtif pada penelitian ini, kategori yang didapatkan
dari metode entropi lebih banyak daripada metode khi kuadrat.
Berdasarkan nilai indeks asosiasi uncertainty coefficient (UC) dan information value (InV)
peubah pendapatan per tahun (gross annual income), rasio antara cicilan dengan pendapatan(DSR),
dan kode pekerjaan (job code) digambarkan sebagai peubah yang sangat erat hubungannya dan
tinggi tingkat prediksinya terhadap peubah target status kreditur, disusul peubah status
kepemilikan rumah (residence status) dan banyaknya tanggungan (number of dependants).
Metode entropi mampu mendiskretisasi peubah numerik dengan baik pada data ini dibandingkan
metode khi kuadrat berdasarkan nilai indeks asosiasinya dan InV. Tidak ada metode diskretisasi
terbaik. Sehingga diperlukan pemahaman mendalam terhadap data yang dihadapi sehingga bisa
didapatkan metode diskretisasi yang sesuai.


DISKRETISASI PEUBAH CREDIT SCORING MODEL MENGGUNAKAN
METODE ENTROPI DAN KHI KUADRAT

BAYU ALFIANSYAH

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2008

DISKRETISASI PEUBAH CREDIT SCORING MODEL MENGGUNAKAN
METODE ENTROPI DAN KHI KUADRAT

BAYU ALFIANSYAH

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2008


ABSTRAK
BAYU ALFIANSYAH. Diskretisasi Peubah Credit Scoring Model Menggunakan Metode
Entropi dan Khi Kuadrat. Di bawah bimbingan BAGUS SARTONO dan AJI HAMIM WIGENA.
Credit scoring model telah banyak digunakan oleh berbagai organisasi finansial berdasarkan
pada informasi data historis yang dimiliki perusahaan tersebut. Masalah yang sering muncul ialah
model yang biasa digunakan hanya bisa menerima data dengan skala diskret. Selain itu pada datadata yang sangat besar (database perusahaan) terkadang sangat rentan terhadap pencilan, dan tidak
konsisten. Salah satu cara untuk mengatasi hal ini adalah melakukan data pre-processing dengan
melakukan diskretisasi atau biasa disebut binning. Dari sekian banyak metode diskretisasi,
peneliti membandingkan metode entropi dan khi kuadrat terhadap data kredit konsumtif sebuah
bank. Secara umum, untuk data kredit konsumtif pada penelitian ini, kategori yang didapatkan
dari metode entropi lebih banyak daripada metode khi kuadrat.
Berdasarkan nilai indeks asosiasi uncertainty coefficient (UC) dan information value (InV)
peubah pendapatan per tahun (gross annual income), rasio antara cicilan dengan pendapatan(DSR),
dan kode pekerjaan (job code) digambarkan sebagai peubah yang sangat erat hubungannya dan
tinggi tingkat prediksinya terhadap peubah target status kreditur, disusul peubah status
kepemilikan rumah (residence status) dan banyaknya tanggungan (number of dependants).
Metode entropi mampu mendiskretisasi peubah numerik dengan baik pada data ini dibandingkan
metode khi kuadrat berdasarkan nilai indeks asosiasinya dan InV. Tidak ada metode diskretisasi
terbaik. Sehingga diperlukan pemahaman mendalam terhadap data yang dihadapi sehingga bisa
didapatkan metode diskretisasi yang sesuai.


DISKRETISASI PEUBAH CREDIT SCORING MODEL
MENGGUNAKAN METODE ENTROPI DAN KHI KUADRAT

BAYU ALFIANSYAH
G14103012

Skripsi
Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Sains pada
Departemen Statistika

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2008

Judul
Nama
NRP


: Diskretisasi Peubah Credit Scoring Model Menggunakan Metode
Entropi dan Khi Kuadrat
: Bayu Alfiansyah
: G14103012

Menyetujui :
Pembimbing I,

Pembimbing II,

Bagus Sartono, M.Si
NIP. 132 311 923

Dr. Ir. Aji Hamim Wigena, M.Sc
NIP. 130 605 236

Mengetahui :
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor


Dr. Drh. Hasim, DEA
NIP. 131 578 806

Tanggal Lulus :

PRAKATA
Alhamdulillahirabbil’alamin, segala puji dan syukur penulis haturkan kehadirat Allah SWT
atas segala karunia-Nya sehingga penulis dapat menyelesaikan karya ilmiah ini. Shalawat serta
salam semoga selalu tercurahkan kepada Rasulullah SAW, keluarga, sahabat, dan umatnya hingga
akhir zaman.
Karya ilmiah ini berjudul “Diskretisasi Peubah Credit Scoring Model Menggunakan Metode
Entropi dan Khi Kuadrat “. Penelitian ini membahas dan membandingkan hasil dari dua metode
transformasi data kuantitatif menjadi kualitatif (proses diskretisasi) terhadap peubah pembentuk
credit scoring model.
Terima kasih penulis ucapkan kepada semua pihak yang telah membantu dalam penyelesaian
karya ilmiah ini, terutama kepada :











Bapak Bagus Sartono, M.Si dan bapak Dr. Ir. Aji Hamim Wigena, M.Sc, atas semua
kesabaran beliau dalam membimbing. Mohon dimaaafkan jika selama ini banyak
mengecewakan Pak Bagus dan Pak Aji.
Seluruh dosen pengajar Departemen Statistika IPB atas ilmu bermanfaat yang telah
diberikan selama penulis mengikuti perkuliahan di Departemen Statistika IPB.
Ibu dan Ayah yang selalu memberikan dorongan semangat, dukungan, perhatian kepada
penulis. Mas Agung semoga lancar hidup dirantau dan adikku Rahayu semoga lancar
sekolahya. Nenek, atas segala perhatian dan do’anya.
Nur Malahayati, terima kasih atas kehadiranmu yang selalu mencerahkan hari-hariku.
Arief my roommate, Yudi, Rio, Ipunk, Edo my nakama, Daus, Anggoro i won’t forget
both of you, Wahyu, Dani A, Dani S, Deni, Rosit, W’ndo thanks for the joy. Rina, Esi,
Lintang, Arta, Mey And All of my friends in 40’s thanks for all the moments in the past
four years. Gommenasai untuk semua kesalahan yang tak disengaja.

Seluruh anggota keluarga besar Statistika IPB atas semua kebersamaan yang diberikan
semasa kuliah. I’m glad to be a part of the great family of statistics at IPB.
Bu Dedeh, Bu Mar, Bu Sulis, Mang Soed, Bu Aat, Mang Dur, Mang Herman, Pak Heri,
dan Pak Yan yang telah memberikan banyak sekali bantuan selama masa perkuliahan.
Semua pihak yang telah memberikan dukungan kepada penulis yang tidak dapat disebut
satu persatu sehingga karya ilmiah ini dapat diselesaikan.

Penulis menyadari bahwa penulisan karya ilmiah ini masih jauh dari sempurna. Oleh karena itu
kritik dan saran yang membangun sangat penulis harapkan sebagai pemicu untuk dapat berkarya
lebih baik lagi. Semoga karya ilmiah ini bermanfaat bagi pihak yang membutuhkan.

Bogor, Januari 2008

Bayu Alfiansyah

RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 26 Juli 1985 dari pasangan Kurmanto dan Sudarti
sebagai anak ketiga dari 4 bersaudara. Penulis menempuh pendidikan dasar di SD Negeri Baru 01
Pagi Jakarta hingga tahun 1997. Kemudian melanjutkan pendidikan menengah pertama di SLTP
Negeri 103 Jakarta hingga tahun 2000. Pada tahun 2003 penulis menyelesaikan pendidikan

menengah atas di SMU Negeri 39 Jakarta dan pada tahun yang sama diterima di Departemen
Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor melalui jalur
Undangan Seleksi Masuk IPB (USMI).
Selama mengikuti perkuliahan, penulis ikut serta dalam kegiatan himpunan profesi Gamma
Sigma Beta sebagai anggota Departemen Keilmuan periode 2004/2005 dan Ketua Departemen
Keilmuan periode 2005/2006. Penulis mengikuti kegiatan praktek lapang di Universitas
Muhammadiyyah Malang di Malang, Jawa Timur pada bulan Februari-April 2007 di bawah
bimbingan Bapak Wahono.

DAFTAR ISI
Halaman
DAFTAR ISI........................................................................................................................

iv

DAFTAR TABEL ...............................................................................................................

v

DAFTAR LAMPIRAN .......................................................................................................


v

PENDAHULUAN
Latar Belakang .............................................................................................................
Tujuan ..........................................................................................................................

1
1

TINJAUAN PUSTAKA
Credit Scoring Model...................................................................................................
Diskretisasi (Binning) ..................................................................................................
Supervised Methods versus Unsupervised Methods......................................................
Metode Diskretisasi Entropi .........................................................................................
Metode Diskretisasi Khi Kuadrat .................................................................................
Weight of Evidence (WoE) ............................................................................................
Information Value (InV) ...............................................................................................
Indeks Asosiasi Symmetric Uncertainty Coefficient .....................................................


2
2
2
2
3
3
4
4

BAHAN DAN METODE
Bahan ...........................................................................................................................
Metode .........................................................................................................................

4
5

HASIL DAN PEMBAHASAN
Deskripsi WoE Peubah Numerik ..................................................................................
Deskripsi WoE Peubah Kategorik ................................................................................
Indeks Asosiasi dan Information value ........................................................................


5
6
7

SIMPULAN DAN SARAN
Simpulan ......................................................................................................................
Saran ............................................................................................................................

8
8

DAFTAR PUSTAKA .........................................................................................................

8

LAMPIRAN

iv

DAFTAR TABEL
Halaman
1.

Diskretisasi entropi peubah rasio antara cicilan dan pendapatan ..................................

5

2.

Diskretisasi khi kuadrat peubah rasio antara cicilan dan pendapatan............................

5

3.

Diskretisasi entropi peubah pendapatan per tahun .......................................................

5

4.

Diskretisasi khi kuadrat peubah pendapatan per tahun .................................................

5

5.

Diskretisasi entropi peubah banyaknya tanggungan .....................................................

6

6.

Diskretisasi khi kuadrat peubah banyaknya tanggungan..............................................

6

7.

Diskretisasi entropi peubah status kepemilikan rumah .................................................

6

8.

Diskretisasi khi kuadrat peubah status kepemilikan rumah ..........................................

6

9.

Diskretisasi entropi peubah kode pekerjaan..................................................................

7

10. Diskretisasi khi kuadrat peubah kode pekerjaan ...........................................................

7

11. Urutan peubah terpilih beserta metode diskretisasinya berdasarkan nilai InV ..............

7

12. Urutan peubah terpilih beserta metode diskretisasinya berdasarkan nilai UC ..............

7

DAFTAR LAMPIRAN
1.
2.

Perhitungan WoE tiap kategori pada masing-masing peubah kategorik sebelum diskretisasi
atau kategorisasi ulang .....................................................................................................

9

Indeks asosiasi UC dan InV peubah input ....................................................................

9

v

PENDAHULUAN
Latar Belakang
Credit scoring model telah banyak
digunakan oleh berbagai organisasi keuangan
seperti bank dan penyedia jasa kredit sebagai
alat yang efisien dan menguntungkan. Credit
scoring model adalah suatu metode untuk
mengevaluasi kelayakan kredit seseorang
berdasarkan rumus tertentu atau suatu aturan
tertentu. Hasil dari credit scoring model
berupa model matematik yang mampu
mengklasifikasi atau menduga kualitas kredit
seseorang ke dalam suatu gugus keputusan.
Model ini dibangun berdasarkan informasi data
historis
berupa
karakteristik-karakteristik
kreditur yang dimiliki oleh organisasi keuangan
(debitur) yang memberikan kreditnya. Data
yang dibutuhkan untuk membangun model
umumnya harus cukup besar. Dengan semakin
besarnya data yang ditelaah maka data tersebut
akan semakin rentan terhadap munculnya data
hilang, pencilan, dan ketidakkonsistenan
(Kantardzic 2003). Oleh karena itu perlu
dilakukan suatu proses awalan terhadap data
(data preprocessing) untuk mempersiapkan
data sebelum dilakukan analisis lebih lanjut.
Salah satu cara dalam data preprocessing
adalah melakukan diskretisasi data atau biasa
disebut binning.
Diskretisasi data juga
memegang peranan penting dalam membangun
credit scoring model. Metode diskretisasi
mampu memilah-milah suatu selang data
kontinu atau numerik ke dalam sub-sub selang
berdasarkan algoritma tertentu. Metode ini
juga bermanfaat untuk mengkategori ulang
kategori-kategori pada peubah diskret atau
kategorik.
Metode ini sangat bermanfaat
karena beberapa algoritma klasifikasi yang
biasa digunakan dalam membangun credit
scoring model hanya menerima data berskala
diskret.
Penelitian ini bertujuan membandingkan
metode diskretisasi entropi (entropy based
discretization) dengan diskretisasi khi kuadrat
(chi squared discretization) dari berbagai
metode diskretisasi yang sudah ada. Kedua
metode ini diterapkan pada data kredit
konsumtif sebuah bank.
Tujuan
Tujuan yang ingin dicapai dalam
penelitian ini antara lain :
1. Membandingkan hasil kategori yang
didapatkan dari metode diskretisasi entropi
(entropy based discretization) dengan

2.

diskretisasi khi kuadrat (chi squared
discretization).
Melihat keeratan hubungan antara peubah
yang telah didiskretkan dengan peubah
target.

TINJAUAN PUSTAKA
Pada umumnya sistem penilaian kredit
menggunakan kartu skor (scorecard) sebagai
model atau aturan pengklasifikasi kreditur atau
penduga bagi kualitas kreditnya. Kartu skor
bisa dituliskan sebagai model matematik
sebagai berikut :
p

skor = ∑ H j (C j )
j =1

q

H (.)= ∑ S i X i (c)
i =1

Cj = Karakteristik (peubah X ke-j)
kartu skor.

Xi(c) = Kategori ke-i dari peubah X.
Si = Skor atau nilai pembobot kategori
ke-i.
Nilai skor ditentukan oleh kumulatif dari
setiap peubah atau karekteristik kreditur.
Kreditur yang terpetakan ke dalam kategori
dari peubah ke-j mendapat nilai pembobot yang
sesuai dengan kategori yang ia dapatkan.
Artinya kreditur hanya mendapat satu nilai
pembobot kategori untuk setiap peubahnya.
Berdasarkan hal tersebut, metode diskretisasi
memegang peranan penting dalam membangun
sebuah credit scoring model karena peubah
atau karakteristik yang diamati bisa berupa
peubah numerik. Diskretisasi entropi dan khi
kuadrat dipilih karena metode tersebut
menggunakan proporsi kejadian sukses dan
gagal untuk kejadian biner. Kedua metode
tersebut cocok digunakan karena pada
umumnya masalah credit scoring model adalah
bagaimana mendeteksi perbedaan dari dua
distribusi dari dua kejadian kualitas kredit
(good dan bad atau terima dan tolak kredit
sebagai peubah target atau respon dari model)
sehingga debitur bisa mendapatkan gambaran
yang jelas mengenai karakteristik krediturnya.
Nilai pembobot kategori tiap peubah
biasanya memiliki pola yang mirip dengan
weight of evidence (WoE). WoE sering dipakai
dalam credit scoring model untuk mengukur
tingkat resiko kreditur per kategori peubah.
Peubah atau karakteristik yang dipakai juga
harus memiliki tingkat prediksi dan asosiasi
yang tinggi terhadap target setelah dilakukan
diskretisasi. Untuk mendukung hal tersebut,
indeks asosiasi dan information value (InV)

1

digunakan untuk mengevaluasi tingkat prediksi
dan asosiasi antara peubah hasil metode
diskretisasi entropi dan khi kuadrat dengan
peubah target.
Credit Scoring Model
Credit scoring model adalah suatu metode
untuk mengevaluasi kelayakan kredit seseorang
berdasarkan rumus tertentu atau suatu aturan
tertentu (Hollowel 2004). Model ini dibangun
berdasarkan informasi data historis di masa
lalu. Informasi mengenai data diri, pengalaman
kredit seperti riwayat pembayaran tagihan
seseorang, telat membayar, cicilan-cicilan, dan
umur rekening (account), dikumpulkan dari
aplikasi kredit dan laporan kredit.
Diskretisasi (Binning)
Proses diskretisasi merupakan proses
transformasi data kuantitatif ke dalam data
kualitatif.
Teknik ini digunakan untuk
mereduksi jumlah nilai suatu peubah yang
berskala numerik atau kontinu dengan cara
memilah-milah selang nilai data peubah ke
Secara umum,
dalam sub-sub selang nilai.
proses diskretisasi terdiri dari 4 tahapan, yaitu:
1. Mengurutkan nilai kontinu yang akan
didiskretisasi.
2. Mengevaluasi titik potong sebagai
pemisah selang atau penggabung
selang yang berdekatan.
3. Berdasarkan
kriteria
tertentu,
dilakukan pemisahan atau penyatuan
selang nilai.
4. Menghentikan proses pada titik
tertentu.
Binning memetakan nilai-nilai sebuah
peubah ke dalam satu gugus bin. Sebuah bin
bisa terdiri dari satu nilai saja, suatu gugus nilai
yang terbatas, selang kontinu, data hilang, atau
bahkan nilai yang tidak ada sebelumnya
(Hollowel 2004).
Label selang nantinya
digunakan untuk menggantikan nilai data
aktual.
Supervised Methods versus Unsupervised
Methods
Metode diskretisasi dikelompokkan ke
dalam dua grup yaitu metode diskretisasi
tersupervisi
(supervised
discretization
methods) dan tidak tersupervisi (unsupervised
discretization methods). Metode diskretisasi
tersupervisi adalah metode diskretisasi yang
membagi selang nilai ke dalam sub-sub selang
berdasarkan kriteria tertentu berupa suatu

gugus kelas atau peubah kategorik yang
berpadanan dengan peubah yang akan
didiskretisasi. Algoritma dari metode ini hanya
bisa dijalankan jika terdapat sebuah peubah
kategorik sebagai peubah target yang berisikan
pengkelasan dari objek atau pengamatan
(Jiawei dan Micheline 2001). Metode ini
menggunakan informasi kelas tersebut ketika
memilih titik-titik potong sebagai alat pemisah
antar bin.
Contoh metode diskretisasi
tersupervisi antara lain : 1RD, ChiMerge,
entropy based discretization, Zeta, ID3.
Metode diskretisasi tidak tersupervisi atau
unsupervised methods tidak menggunakan
informasi kelas.
Metode ini tidak
membutuhkan sebuah peubah kategorik
sebagai peubah target yang dijadikan sebagai
dasar diskretisasinya. Metode ini membagi
selang nilai kontinu ke dalam beberapa sub
selang berdasarkan pertimbangan pengguna.
Pertimbangan yang diambil bersifat subyektif
dimana pengguna menentukan mekanisme
diskretisasinya.
Contoh metode tidak
tersupervisi antara lain : equal width interval
dan equal freq interval. Kedua metode tersebut
bersifat subyektif karena jumlah kategori atau
bin yang diinginkan ditentukan oleh pengguna
dengan pertimbangan-pertimbangan tertentu.
Metode ini mungkin memberikan hasil yang
kurang baik pada kasus dimana distribusi nilai
kontinu tidak seragam karena metode
diskretisasi tidak tersupervisi sangat rentan
terhadap data pencilan (Liu et.al 1990).
Metode Diskretisasi Entropi
Metode diskretisasi entropi (Entropy based
discretization) merupakan salah satu metode
diskretisasi tersupervisi.
Metode ini
menggunakan entropi sebagai bagian dari
proses pemisahan selang data kontinu. Entropi
merupakan ukuran keseragaman bagi selang
data tertentu yang dibagi. Entropi mengukur
variasi selang data awal yang berpadanan
dengan peubah kategorik target dengan cara
menghitung besaran proporsi munculnya suatu
kelas dari peubah target. Besaran nilai entropi
berkisar antara 0 sampai 1. Nilai entropi nol
mengindikasikan bahwa selang data tersebut
memiliki kelas yang sama untuk setiap
pengamatannya. Semakin tinggi nilai entropi
(mendekati 1) maka selang data tersebut
cenderung memiliki proporsi kelas yang
semakin seimbang atau sama banyak.
Mekanisme metode entropi yaitu selang
nilai data, misalkan S, dibagi oleh sebuah nilai
titik potong T yang memilah S ke dalam dua
sub selang S1 dan S2. Kemudian proses

2

pemilahan selang oleh sebuah nilai T dilakukan
secara rekursif terhadap sub selang yang baru
hingga kondisi tertentu terpenuhi (Jiawei dan
Micheline 2001).
Algoritma metode diskretisasi entropi
adalah sebagai berikut :
1. Setiap nilai tengah antara dua nilai data
dalam atribut dipertimbangkan sebagai
batas selang potensial atau T. Yang
nantinya nilai T akan membagi selang S
menjadi dua yaitu S1 dan S2.
2. Nilai batas selang (T) dipilih yang
memiliki nilai informasi kelas entropi
saat T
memotong S minimum
berdasarkan rumus :

E (S , T ) =

sebelum dievaluasi dengan statistik uji khi
kuadrat. Jika selang yang terbentuk dinyatakan
saling bebas berdasarkan uji khi kuadrat, maka
nilai T tidak dijadikan titik potong sehingga S1
dan S2 sehingga tetap dijadikan satu selang.
Proses evaluasi selang dilakukan secara
rekursif ke setiap sub selang yang baru
terbentuk (Kantardzic 2003).
Proses pemilihan nilai T dari sekian
banyak kandidat T dalam S, yang akan
memilah selang S didasarkan statistik uji khi
kuadrat yang memiliki nilai χ2 terbesar atau
nilai uji paling nyata dari semua selang yang
dievaluasi. Rumus χ2 dihitung berdasarkan
rumus berikut :

| S1 |
|S |
Ent ( S1 ) + 2 Ent ( S 2 ),
|S|
|S|

|S1| = banyaknya observasi dalam S1
|S2| = banyaknya observasi dalam S2
|S| = banyaknya observasi sebelum
dipisah.
Semua nilai T yang mungkin dievaluasi
hingga didapatkan satu nilai T yang
meminimumkan rumus di atas.
Entropi Si didefinisikan sebagai berikut :
m

Ent ( S i ) = −∑ pij log 2 ( p ij ),
i =1

2

k

χ = ∑∑
2

i =1 j =1

k
Aij
Eij
Aij
Ri
Cj
N

( Aij − Eij ) 2
Eij

= Jumlah kelas
= Jumlah data aktual selang ke-i, kelas
ke-j
= Frekuensi harapan
= (Ri.Cj)/N
= Jumlah data aktual selang ke-i
= Jumlah data aktual kelas ke-j
= Total data aktual
Weight of Evidence (WoE)

pij = peluang suatu individu masuk ke
dalam kelas ke-j pada selang Si.
Nilai batas T juga bisa dipilih
berdasarkan nilai perolehan informasi
pemisah (information gain of the split)
maksimum atau yang terbesar dengan
rumus sebagai berikut:

Gain ( S , T ) = Ent ( S ) − E ( S , T )
3.

Proses penentuan nilai batas selang
dilakukan secara rekursif terhadap sub
selang yang baru hingga kondisi tertentu
terpenuhi.
Metode Diskretisasi Khi Kuadrat

Khi kuadrat (chi squared) merupakan
salah satu algoritma diskretisasi yang
menganalisa
kualitas
beberapa
selang
berdasarkan nilai statistik χ2. Uji khi kuadrat
atau tabel kontingensi biasa digunakan untuk
menguji kebebasan antara dua selang atau
kategori. Dari karakteristik tersebut, statistik
uji ini digunakan dalam metode diskretisasi
untuk memilah selang nilai numerik sehingga
untuk mendapatkan hasil diskret dari metode
ini, selang data S dipilah oleh satu titik potong
T terlebih dahulu menjadi dua sub selang

Weight of Evidence (WoE) merupakan
perbandingan proporsi kategori tertentu suatu
peubah untuk kelompok status kolektibilitas.
Status kolektibilitas adalah sebuah atribut atau
peubah yang menunjukkan status kelas kredit
seseorang atau nasabah.
Peubah status
kolektibilitas merupakan peubah target dalam
membangun credit scoring model. Data status
tersebut biasanya berbentuk biner yaitu good
dan bad atau respon dan no respon. Status
good bisa didefinisikan sebagai nasabah yang
tidak pernah lalai membayar sedangkan bad
bisa didefinisikan sebagai nasabah yang lalai
atau pailit (Hollowel 2004).
WoE merupakan selisih atau besarnya
perbedaan antara log odds tiap bin (kategori)
dengan log odds total.
Dalam proses
membangun credit scoring model, WoE
berfungsi
menunjukkan
tingkat
resiko
seseorang.
WoE tiap bin didefinisikan sebagai berikut:

⎛ f (i ) ⎞
WOE(i ) = log⎜⎜ G ⎟⎟ ,
⎝ f B (i) ⎠

3

dimana

⎛n ⎞
f G (i ) = 100⎜⎜ Gi ⎟⎟. = P er sen tas e ind iv idu
⎝ nG ⎠ good dalam bin ke-i
⎛n ⎞
f B (i ) = 100⎜⎜ Bi ⎟⎟ = Persentase individu bad
⎝ nB ⎠ dalam bin ke-i
Information Value (InV)
Information value menghitung jarak antara
dua distribusi, yang dalam hal ini distribusi
antara good dan bad dalam satu peubah
(Hollowel 2004). Dengan kata lain suatu
besaran yang menyatakan seberapa jauh
kolektibilitas good dengan bad dalam satu
peubah.
InV juga sering digunakan dalam proses
membangun credit scoring model sebagai
indikator yang menunjukkan tingkat prediksi
peubah input terhadap peubah target berupa
status kolektibilitas kreditur. Tingkat prediksi
InV dibagi ke dalam beberapa kategori yaitu
kurang dari 0.02 peubah dikatakan tidak
prediktif, 0.02 hingga 0.1 tingkat prediksinya
lemah, 0.1 hingga 0.3 memiliki tingkat prediksi
pertengahan (medium), dan lebih dari 0.3
memiliki tingkat prediksi yang kuat (Hababou
et.al 2006).
InV biasa digunakan untuk
memilih peubah dari suatu gugus peubah yang
berpotensi untuk dimasukkan ke dalam model,
dimana peubah dengan InV yangg besar
berpeluang tinggi untuk masuk ke dalam credit
scoring model.
InV dari peubah kategorik dipengaruhi
oleh WoE tiap kategori dalam peubah. InV
didefinisikan sebagai berikut :

⎡ f (i ) ⎤
f G (i ) − f B (i )
log ⎢ G ⎥
100
⎣ f B (i ) ⎦

q

InV = ∑
i =1

, atau
q

InV = ∑
i =1

f G (i ) − f B (i )
WoE (i )
100

WoE (i ) = WoE tiap bin ke-i dari peubah
input
Indeks Asosiasi Symmetric Uncertainty
Coefficient
Indeks asosiasi merupakan indeks yang
mengukur keeratan hubungan antara dua buah
peubah kategorik. Indeks asosiasi symmetric
uncertainty coefficient merupakan salah satu
dari sekian banyak metode pengukuran
asosiasi.
Indeks uncertainty coefficient
mengukur asosiasi antara dua buah peubah

dengan skala pengukuran nominal sehingga
sesuai untuk mengukur tingkat asosiasi antara
peubah hasil diskretisasi dengan peubah target
kolektibilitas.
Indeks ini dihitung hanya
berdasarkan banyaknya nilai pasangan yang
konkordan dan diskordan dari pengamatan.
Nilai uncertainty coefficient berkisar antara 0
sampai 1. Jika dua peubah saling bebas, maka
nilai uncertainty coefficient (UC) akan
mendekati nilai nol. Nilai indeks uncertainty
coefficient (UC) dihitung berdasarkan rumus
berikut :

UC =
X
Y
N

2[ H ( X ) + H (Y ) − H ( XY )]
H ( X ) + H (Y )

= Peubah baris
= Peubah kolom
= Jumlah pengamatan

H(X) = −

⎛ n i . ⎞ ⎛ ni . ⎞

∑ ⎜⎝ n ⎟⎠ ln⎜⎝ n ⎟⎠
i

⎛ n. j ⎞ ⎛ n. j ⎞
− ∑ ⎜⎜ ⎟⎟ ln⎜⎜ ⎟⎟
j ⎝ n ⎠
⎝ n ⎠
⎛ nij ⎞ ⎛ nij
⎟⎟ ln⎜⎜
H(XY)= − ∑∑ ⎜⎜
i
j ⎝ n ⎠
⎝ n
H(Y) =


⎟⎟


ni .
n. j

= Total kolom ke-j

nij

= Pengamatan pada baris ke-i dan kolom

= Total baris ke-i

ke-j.
(SAS Institute Inc. 2003).

BAHAN DAN METODE
Bahan
Bahan
penelitian
yang
digunakan
merupakan data sekunder sebuah bank terdiri
atas 1000 observasi.
Peubah input yang digunakan yaitu :
1. DSR (Debt Salary Ratio atau rasio antara
cicilan dan pendapatan)
2. Gross annual income (pendapatan per
tahun dalam rupiah)
3. Number of dependants (banyaknya
tanggungan)
4. Residence status (status kepemilikan
rumah)
5. Job code (kode pekerjaan)
Sedangkan peubah targetnya adalah status
kolektibilitas nasabah berupa status good dan
bad.

4

Metode
Langkah–langkah metode penelitian :
a. Diskretisasi data numerik
1. Melakukan transformasi atau binning
dengan kriteria penghentian algoritma
yang
digunakan
adalah
minimum
observasi dalam bin sebanyak 25.
2. Dari hasil transformasi tadi dilakukan
perhitungan WoE dan InV.
b. Diskretisasi data kategorik
1. Menghitung WoE data diskret.
2. Mentransformasi data dengan nilai WoE.
3. Menghitung kembali nilai WoE dan InV.
hasil
binning
atau
c. Membandingkan
diskretisasi berdasarkan indeks asosiasi dan
InV.
Nilai α yang digunakan pada metode khi
kuadrat adalah 0.2. Data penelitian ini diolah
menggunakan software Microsoft Excel, SAS
Enterprise Miner 3.4, dan Minitab 14.

HASIL DAN PEMBAHASAN
Deskripsi WoE Peubah Numerik
Data numerik didiskretisasi menggunakan
Proses
metode entropi dan khi kuadrat.
diskretisasi menggunakan kedua metode
tersebut menghasilkan struktur yang membagi
selang nilai data numerik ke dalam sub-sub
selang berdasarkan algoritmanya masingmasing.
Dengan menggunakan kriteria
penghentian algoritma diskretisasi berupa
minimum observasi dalam bin sebanyak 25
didapatkan bentuk optimal untuk kedua peubah
numerik.
Berdasarkan hasil diskretisasi, peubah
rasio antara cicilan dan pendapatan hasil
metode entropi menghasilkan 7 titik potong
sehingga peubah rasio antara cicilan dan
pendapatan terbagi ke dalam 8 bin. Sedangkan
hasil metode khi kuadrat untuk peubah yang
sama, dihasilkan 6 titik potong atau didapatkan
7 bin. Diskretisasi metode entropi pada peubah
pendapatan per tahun didapatkan 6 titik potong
atau 7 bin sedangkan hasil dari metode khi
kuadrat untuk peubah ini didapatkan 5 titik
potong atau 6 bin.
Hasil diskretisasi dan nilai WoE peubah
rasio antara cicilan dan pendapatan dan
pendapatan per tahun yang didapatkan dari
metode entropi dan khi kuadrat disajikan pada
Tabel 1 sampai 4.

Tabel 1 Diskretisasi entropi peubah
antara cicilan dan pendapatan.
Bin
(inf, 16.269)
[16.269, 17.003)
[17.003, 17.997)
[17.997, 19.697)
[19.697, 20.41)
[20.41, 38.006)
[38.006, 38.911)
[38.911, inf)

rasio

WoE
-0.174
0.894
-1.040
-0.050
1.924
0.320
-0.864
-0.036

Tabel 2 Diskretisasi khi kuadrat peubah rasio
antara cicilan dan pendapatan.
Bin
(inf , 9.886)
[9.886, 17.003)
[17.003, 19.697)
[19.697, 20.41)
[20.41, 38.006)
[38.006, 38.911)
[38.911, inf)

WoE
-0.613
-0.003
-0.388
1.924
0.320
-0.864
-0.036

Tabel 3 Diskretisasi entropi peubah pendapatan
per tahun.
Bin
(inf , 53.4 juta)
[53.4 juta , 57.6 juta)
[57.6 juta , 63.0 juta)
[63.0 juta , 72.4 juta)
[72.4 juta , 99.0 juta)
[99.0 juta , 139.7 juta)
[139.7 juta , inf)

WoE
-0.068
-1.101
1.043
-0.150
2.032
0.027
6.440

Tabel 4 Diskretisasi khi kuadrat peubah
pendapatan per tahun.
Bin
(inf, 37.3 juta)
[37.3 juta, 51.0 juta)
[51.0 juta, 60.0 juta)
[60.0 juta , 99.0 juta)
[99.0 juta , 139.7 juta)
[139.7 juta , inf)

WoE
-0.141
0.380
-0.676
0.921
0.027
6.440

Nilai WoE yang kecil atau negatif pada
sebuah kategori mengindikasikan bahwa
kategori tersebut memiliki resiko yang tinggi
untuk menjadi bad atau lebih beresiko untuk
menjadi bad dibandingkan dengan kategori
lainnya. Sebaliknya nilai WoE yang besar atau

5

positif menunjukkan resiko yang rendah atau
cenderung menjadi good pada kategori yang
dimaksud.
Pada Tabel 1, kategori peubah rasio antara
cicilan dan pendapatan yang memiliki resiko
paling tinggi didapatkan oleh bin ketiga.
Artinya pengamatan atau kreditur yang rasio
antara cicilan dan pendapatannya antar [17.003,
17.997) memiliki peluang paling tinggi untuk
mendapatkan status bad dibandingkan kategori
lainnya. Hasil diskretisasi yang didapatkan
oleh kedua metode, entropi dan khi kuadrat,
bisa berbeda hasilnya baik dari titik potong
yang didapat maupun jumlah kategori yang
terbentuk. Hal ini mengakibatkan nilai WoE
yang didapatkan pada tiap peubah bisa berbeda
beda.
Secara intuitif pada peubah rasio antara
cicilan dan pendapatan, semakin tinggi rasio
cicilan dengan pendapatan, maka diharapkan
semakin tinggi peluang pengamatan yang
masuk dalam kategori itu untuk mendapat
predikat bad. Namun hasil yang ditunjukkan
oleh kedua metode diskretisasi terhadap peubah
rasio
antara
cicilan
dan
pendapatan
memperlihatkan bahwa semakin tinggi rasio
cicilan dan pendapatan, maka semakin rendah
resikonya hingga pada titik tertentu, resikonya
akan kembali naik.
Dari Tabel 3, yang merupakan hasil
diskretisasi entropi peubah pendapatan per
tahun, bin 2 atau selang [53.4 juta, 57.6 juta)
memiliki resiko yang tinggi dibandingkan bin
yang lain. Namun dapat dikatakan bahwa
pendapatan yang rendah memiliki resiko tinggi
untuk menjadi bad dibandingkan pendapatan
yang tinggi karena bin pertama hasil
diskretisasi
entropi
juga
menunjukkan
kecenderungan untuk menjadi bad. Hasil
diskretisasi entropi dan khi kuadrat peubah
pendapatan per tahun memiliki pola yang mirip
dimana semakin tinggi selang pendapatan maka
cenderung akan beresiko kecil atau cenderung
untuk menjadi good.
Deskripsi WoE Peubah Kategorik
Proses diskretisasi atau kategorisasi data
peubah kategorik (banyaknya tanggungan,
status kepemilikan rumah, dan kode pekerjaan)
dilakukan setelah data digantikan dengan nilai
WoE untuk tiap kategorinya. Hasil dari tahap
ini mengubah skala peubah tersebut dari
nominal
menjadi
ord in a l
s eh ingg a
me mu ngk ink an
diterapkannya
metode
diskretisasi pada peubah tersebut. Nilai WoE
yang didapatkan tiap kategori peubah sebelum
dilakukan diskretisasi terdapat pada Lampiran 1.

Hasil kategorisasi dan nilai WoE peubah
banyaknya tanggungan, status kepemilikan
rumah, dan kode pekerjaan yang didapatkan,
disajikan pada Tabel 5 sampai 10 di bawah ini
beserta pembahasannya.
Tabel 5 Diskretisasi entropi peubah banyaknya
tanggungan
No
1
2
3
4
5

Kategori
1
2
4
0 ,3
5, 6, 7, 8

WoE
-0.187
-0.042
0.057
0.136
0.411

Tabel 6 Diskretisasi khi kuadrat peubah
banyaknya tanggungan.
No
1
2

Kategori
1,2
0 ,3 ,4 ,5 , 6, 7, 8

WoE
-0.114
0.136

Dari Tabel 5 dan 6, proses pengkategorian
kedua
metode
diskretisasi
di
atas
memperlihatkan hasil dari metode entropi dan
khi kuadrat memiliki pola yang sama meski
jumlah kategori yang didapatkan berbeda,
dimana tanggungan sebanyak 1 dan 2 memiliki
resiko lebih tinggi dibandingkan kategori yang
lain. Dan tanggungan sebanyak lebih dari 2
atau tidak punya tanggungan sama sekali,
memiliki resiko rendah untuk menjadi bad.
Atau dengan kata lain, semakin banyak jumlah
tanggungan atau tidak punya sama sekali maka
resiko seseorang cenderung semakin kecil.
Tabel 7 Diskretisasi entropi peubah status
kepemilikan rumah.
No
1
2
3
4
5
6

Kategori
Rented
Parents
Own
Others
Institution
Credit

WoE
-0.358
-0.138
0.145
0.266
0.448
0.509

Tabel 8 Diskretisasi khi kuadrat peubah status
kepemilikan rumah.
No
1
2

Kategori
Rented, Parents
Own, Others,
Institution, Credit.

WoE
-0.153
0.172

Berdasarkan pada Tabel 7 dan 8, hasil
kategorisasi metode entropi peubah status
kepemilikan rumah tidak mengalami perubahan

6

dari sebelum diterapkannya metode entropi.
Tidak ada proses penggabungan ulang antar
kategori untuk peubah tersebut. Sedangkan
metode khi kuadrat menghasilkan dua kategori.
Hasil dari proses kategorisasi oleh kedua
metode cenderung sama. Perbedaannya hanya
jumlah kategori yang terbentuk.
Hasil
keduanya menunjukkan bahwa kreditur yang
memiliki rumah dengan status kepemilikan
pribadi, memiliki resiko yang kecil untuk
menjadi bad dibandingkan jika rumah tersebut
bukan miliknya.
Tabel 9 Diskretisasi entropi peubah kode
pekerjaan.
No
1
2
3
4
5

Kategori
Notaris, Peg. Yayasan
Pegawai Swasta
Guru/ Dosen, Peg. BUMN/
Peg. BUMD
Pegawai Negeri Sipil (PNS)
Akuntan, Paramedis, Dokter,
Profesional, Employee,
Pejabat Negara, Wiraswasta

WoE
-1.339
-0.114
0.460
0.938
2.097

Tabel 10 Diskretisasi khi kuadrat peubah
kode pekerjaan.
No
1
2
3
4

Kategori
Notaris, Peg. Yayasan
Pegawai Swasta
Guru/ Dosen, Peg. BUMN/
Peg. BUMD, PNS
Akuntan, Paramedis, Dokter,
Profesional, Employee,
Pejabat Negara, Wiraswasta

WoE
-1.339
-0.114
0.526
2.097

Dari Tabel 9 dan 10, peubah kode
pekerjaan setelah dikategorisasi dengan
menggunakan metode entropi dan khi kuadrat
menghasilkan jumlah kategori yang tidak jauh
berbeda.
Dengan menggunakan metode
entropi, didapatkan 5 kategori sedangkan
metode khi kuadrat menghasilkan 4 kategori.
Perbedaan hasil kategorisasi kedua metode
tersebut ialah berdasarkan metode entropi,
kategori Guru/ Dosen, pegawai BUMN/
pegawai BUMD dan PNS dipisahkan. Guru/
dosen dan pegawai BUMN/ pegawai BUMD
digabung menjadi satu kategori sedangkan
PNS terpisah menjadi kategori tersendiri.
Sedangkan metode khi kuadrat menggabungan
kategori guru/ dosen, pegawai BUMN/
pegawai BUMD dan PNS dijadikan satu
kategori.
Selain perbedaan yang disebutkan tadi,
hasil yang ditunjukkan oleh kedua metode
tersebut terhadap peubah kode pekerjaan tidak

jauh berbeda. Kategori pekerjaan notaris dan
pegawai yayasan serta pegawai swasta
memiliki resiko yang relatif tinggi. Sedangkan
untuk kategori pekerjaan yang lain resikonya
relatif rendah.
Indeks Asosiasi dan Information Value
Nilai
indeks
asosiasi
uncertainty
coefficient (UC) dan information value (InV)
digunakan untuk membandingkan hasil
diskretisasi menggunakan metode entropi
dengan metode khi kuadrat pada setiap peubah.
semakin tinggi nilai InV yang didapatkan, maka
semakin erat hubungannya dengan peubah
target. Tingkat prediksi InV dibagi ke dalam
beberapa kategori yaitu kurang dari 0.02
peubah dikatakan tidak prediktif, 0.02 hingga
0.1 tingkat prediksinya lemah, 0.1 hingga 0.3
memiliki
tingkat
prediksi
pertengahan
(medium), dan lebih dari 0.3 memiliki tingkat
prediksi yang kuat. Sedangkan indeks asosiasi
UC memiliki selang nilai antara 0 hingga 1.
Semakin besar nilai UC, maka tingkat asosiasi
peubah prediktor terhadap target semakin
tinggi. InV dan UC masing-masing peubah ada
pada Lampiran 2 .
Tabel 11 dan 12 di bawah ini merupakan
peubah input yang terurut dari yang paling
besar hingga paling kecil berdasarkan nilai
indeks asosiasi InV dan UC.
Tabel 11 Urutan peubah terpilih beserta
metode diskretisasinya berdasarkan
nilai InV.
Peubah
Pendapatan per tahun
Rasio antara cicilan
dan pendapatan
Kode pekerjaan
Status kepemilikan
rumah
Banyaknya
tanggungan

Metode
Entropi

InV
0.4028

Entropi

0.2359

Entropi

0.1368

Entropi

0.0314

Entropi

0.0193

Tabel 12 Urutan peubah terpilih beserta
metode diskretisasinya berdasarkan
nilai UC.
Peubah
Pendapatan per tahun
Kode pekerjaan
rasio antara cicilan
dan pendapatan
Status kepemilikan
rumah
Banyaknya
tanggungan

Metode
Entropi
Khi kuadrat

UC
0.2390
0.0184

Entropi

0.0142

Khi kuadrat

0.0031

Khi kuadrat

0.0019

7

Berdasarkan Tabel 11, peubah terpilih
berdasarkan information value (InV), peubah
pendapatan per tahun, rasio antara cicilan dan
pendapatan, serta kode pekerjaan digambarkan
sebagai peubah yang sangat erat hubungannya
dan cukup tinggi tingkat prediksinya terhadap
peubah target atau peubah status kolektibilitas
good dan bad. Peubah pendapatan per tahun
mendapatkan InV lebih besar dari 0.3 sehingga
dikatakan tingkat prediksi peubah pendapatan
per tahun tinggi. InV peubah rasio antara
cicilan dan pendapatan dan kode pekerjaan
berkisar antara 0.1 dan 0.3 sehingga termasuk
dalam
tingkat
prediksi
pertengahan.
Sedangkan peubah status kepemilikan rumah
dan banyaknya tanggungan mendapat peringkat
lebih rendah dibandingkan tiga peubah yang
disebutkan di awal karena nilai InV kedua
peubah tersebut kurang dari 0.1 dan
mempunyai tingkat prediksi yang lemah
terhadap peubah target.
Hasil yang tidak jauh berbeda juga
ditunjukkan oleh Tabel 12. Nilai indeks
asosiasi uncertainty coefficient (UC) memilih
peubah pendapatan per tahun, rasio antara
cicilan dan pendapatan, serta kode pekerjaan
sebagai peubah dengan tingkat asosiasi yang
tinggi dibandingkan peubah status kepemilikan
rumah dan banyaknya tanggungan.
Perbedaan dari kedua Tabel 11 dan 12,
ialah metode diskretisasi yang terbaik yang
terpilih
pada
masing-masing
peubah.
Berdasarkan InV, metode entropi paling baik
digunakan pada semua peubah prediktor.
Berdasarkan UC, metode entropi hanya sesuai
digunakan oleh peubah numerik sedangkan
metode khi kuadrat lebih sesuai digunakan
pada peubah kategorik. Secara umum, metode
entropi
bekerja
lebih
baik
dalam
mendiskretisasi peubah numerik dibandingkan
khi kuadrat. Hal ini dilihat dari peubah
numerik pendapatan per tahun dan rasio antara
cicilan dan pendapatan hasil diskretisasi
metode entropi yang terpilih dan mendapat
peringkat yang tinggi berdasarkan kedua
kriteria UC dan InV di atas.

SIMPULAN DAN SARAN

metode khi kuadrat. Selain itu juga metode
entropi mampu mendiskretisasi peubah
numerik lebih baik pada data yang diterapkan
dibandingkan metode khi kuadrat berdasarkan
kriteria UC dan InV. Tetapi masih belum
cukup bukti untuk mengambil kesimpulan yang
serupa untuk diskretisasi atau pengkategorian
peubah kategorik menggunakan metode entropi
dan khi kuadrat
Berdasarkan nilai indeks asosiasi UC dan
InV peubah pendapatan per tahun, rasio antara
cicilan dan pendapatan serta kode pekerjaan
digambarkan sebagai peubah yang sangat erat
hubungannya dan tinggi tingkat prediksinya
dengan target, disusul peubah status
kepemilikan
rumah
dan
banyaknya
tanggungan.
Saran
Hasil diskretisasi yang didapatkan sangat
bergantung terhadap koleksi data yang ada dan
diperlukan data yang cukup besar. Semakin
banyak data yang digunakan maka hasil
diskretisasi yang didapatkan akan mendekati
keadaan yang sesungguhnya. Karena selang
nilai peubah atau atribut yang terbentuk
berdasarkan proporsi status good dan bad
mungkin tidak terjadi secara kebetulan saja.
Isu yang muncul dari proses diskretisasi
ialah ukuran selang atau selang hasil
diskretisasi. Jika selang terlalu kecil, mungkin
hasil yang didapatkan tidak mendukung
kejadian yang sesungguhnya. Sedangkan jika
terlalu lebar, mungkin akan mengurangi tingkat
kepercayaan. Sehingga diperlukan pemahaman
terhadap data yang dihadapi sehingga
didapatkan metode diskretiasi yang sesuai.

DAFTAR PUSTAKA
Han, Jiawei dan Kember, Micheline. 2001.
Data Mining : Concepts And Techniques.
Academic Press. San Diego
Kantardzic, Mehmed. 2003. Data Mining :
Concepts,
Models,
Methods,
And
Algorithms. IEEE and Wiley Inter-Science.
New York.

Simpulan
Hasil diskretisasi peubah prediktor
menggunakan entropi dan khi kuadrat bisa
sangat berbeda. Secara umum, untuk data
kredit konsumtif yang digunakan pada
penelitian ini, jumlah kategori yang didapatkan
dari metode entropi, lebih banyak daripada

Hollowel. 2004. A fair Isaac white paper :
Technology Guide To The Scorecard
Module. (http://www.fairisaac.com/).
[22 Juni 2007]
Liu, Huan, Hussain F., Tan C.L., dan Dash M.
1999. Discretization : An enabling

8

technique.
DMKD
6:393-423.
(http://dl.comp.nus.edu.sg/dspace/bitstrea
m/1900.100/1386/1/report.pdf).
[22 Juni 2007]
SAS Institute Inc. 2003. Enterprise miner
version 4.3 SAS User’s guide. Cary. NC :
SAS Institute Inc.
Hababou, Moez, Cheng A.Y., dan Falk R.
2006. Variable Selection In Credit Card
Industry. Royal Bank of Scotland.
Bridgeport.
(http://www.nesug.org/proceedings/
nesug06/an/da23.pdf).
[16 januari 2008]

9

LAMPIRAN

Lampiran 1. Perhitungan WoE tiap kategori pada masing-masing peubah kategorik sebelum diskretisasi atau
kategorisasi ulang.
Peubah job code
Group

Peubah residence status
Group
WoE
Rented
-0.3583
Parents
-0.1374
Own
0.1445
Others
0.2658
Institution
0.4482
Credit
0.5088

WoE

Notaris

-1.6270

Pegawai Yayasan

-1.2215

Pegawai swasta

-0.1136

Guru /Dosen

0.3189

Pegawai BUMN/BUMD

0.4690

Pegawai Negri Sipil

0.9380

Akuntan

1.3687

Paramedis

1.3687

Profesional

1.3687

Employee

1.7742

Dokter

2.4673

Pejabat Negara

2.6215

Wiraswasta

2.6215

Peubah number of dependants
Group
WoE
0
1
2
3
4
5
7
8
6

0.1398
-0.1874
-0.0420
0.1246
0.0570
0.1623
0.6731
0.6731
1.3663

Lampiran 2. Indeks asosiasi UC dan InV peubah input.

Peubah
Rasio antara cicilan dan pendapatan
Pendapatan per tahun
Banyaknya tanggungan
Status kepemilikan rumah
Kode pekerjaan

Metode
Entropi
Khi kuadrat
Entropi
Khi kuadrat
Entropi
Khi kuadrat
Entropi
Khi kuadrat
Entropi
Khi kuadrat

InV
0.23585
0.19223
0.40279
0.22769
0.01925
0.01543
0.03139
0.02624
0.13683
0.13277

UC
0.0142
0.0117
0.2390
0.1690
0.0017
0.0019
0.0028
0.0031
0.0176
0.0184

10

DISKRETISASI PEUBAH CREDIT SCORING MODEL MENGGUNAKAN
METODE ENTROPI DAN KHI KUADRAT

BAYU ALFIANSYAH

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2008

PENDAHULUAN
Latar Belakang
Credit scoring model telah banyak
digunakan oleh berbagai organisasi keuangan
seperti bank dan penyedia jasa kredit sebagai
alat yang efisien dan menguntungkan. Credit
scoring model adalah suatu metode untuk
mengevaluasi kelayakan kredit seseorang
berdasarkan rumus tertentu atau suatu aturan
tertentu. Hasil dari credit scoring model
berupa model matematik yang mampu
mengklasifikasi atau menduga kualitas kredit
seseorang ke dalam suatu gugus keputusan.
Model ini dibangun berdasarkan informasi data
historis
berupa
karakteristik-karakteristik
kreditur yang dimiliki oleh organisasi keuangan
(debitur) yang memberikan kreditnya. Data
yang dibutuhkan untuk membangun model
umumnya harus cukup besar. Dengan semakin
besarnya data yang ditelaah maka data tersebut
akan semakin rentan terhadap munculnya data
hilang, pencilan, dan ketidakkonsistenan
(Kantardzic 2003). Oleh karena itu perlu
dilakukan suatu proses awalan terhadap data
(data preprocessing) untuk mempersiapkan
data sebelum dilakukan analisis lebih lanjut.
Salah satu cara dalam data preprocessing
adalah melakukan diskretisasi data atau biasa
disebut binning.
Diskretisasi data juga
memegang peranan penting dalam membangun
credit scoring model. Metode diskretisasi
mampu memilah-milah suatu selang data
kontinu atau numerik ke dalam sub-sub selang
berdasarkan algoritma tertentu. Metode ini
juga bermanfaat untuk mengkategori ulang
kategori-kategori pada peubah diskret atau
kategorik.
Metode ini sangat bermanfaat
karena beberapa algoritma klasifikasi yang
biasa digunakan dalam membangun credit
scoring model hanya menerima data berskala
diskret.
Penelitian ini bertujuan membandingkan
metode diskretisasi entropi (entropy based
discretization) dengan diskretisasi khi kuadrat
(chi squared discretization) dari berbagai
metode diskretisasi yang sudah ada. Kedua
metode ini diterapkan pada data kredit
konsumtif sebuah bank.
Tujuan
Tujuan yang ingin dicapai dalam
penelitian ini antara lain :
1. Membandingkan hasil kategori yang
didapatkan dari metode diskretisasi entropi
(entropy based discretization) dengan

2.

diskretisasi khi kuadrat (chi squared
discretization).
Melihat keeratan hubungan antara peubah
yang telah didiskretkan dengan peubah
target.

TINJAUAN PUSTAKA
Pada umumnya sistem penilaian kredit
menggunakan kartu skor (scorecard) sebagai
model atau aturan pengklasifikasi kreditur atau
penduga bagi kualitas kreditnya. Kartu skor
bisa dituliskan sebagai model matematik
sebagai berikut :
p

skor = ∑ H j (C j )
j =1

q

H (.)= ∑ S i X i (c)
i =1

Cj = Karakteristik (peubah X ke-j)
kartu skor.

Xi(c) = Kategori ke-i dari peubah X.
Si = Skor atau nilai pembobot kategori
ke-i.
Nilai skor ditentukan oleh kumulatif dari
setiap peubah atau karekteristik kreditur.
Kreditur yang terpetakan ke dalam kategori
dari peubah ke-j mendapat nilai pembobot yang
sesuai dengan kategori yang ia dapatkan.
Artinya kreditur hanya mendapat satu nilai
pembobot kategori untuk setiap peubahnya.
Berdasarkan hal tersebut, metode diskretisasi
memegang peranan penting dalam membangun
sebuah credit scoring model karena peubah
atau karakteristik yang diamati bisa berupa
peubah numerik. Diskretisasi entropi dan khi
kuadrat dipilih karena metode tersebut
menggunakan proporsi kejadian sukses dan
gagal untuk kejadian biner. Kedua metode
tersebut cocok digunakan karena pada
umumnya masalah credit scoring model adalah
bagaimana mendeteksi perbedaan dari dua
distribusi dari dua kejadian kualitas kredit
(good dan bad atau terima dan tolak kredit
sebagai peubah target atau respon dari model)
sehingga debitur bisa mendapatkan gambaran
yang jelas mengenai karakteristik krediturnya.
Nilai pembobot kategori tiap peubah
biasanya memiliki pola yang mirip dengan
weight of evidence (WoE). WoE sering dipakai
dalam credit scoring model untuk mengukur
tingkat resiko kreditur per kategori peubah.
Peubah atau karakteristik yang dipakai juga
harus memiliki tingkat prediksi dan asosiasi
yang tinggi terhadap target setelah dilakukan
diskretisasi. Untuk mendukung hal tersebut,
indeks asosiasi dan information value (InV)

1

PENDAHULUAN
Latar Belakang
Credit scoring model telah banyak
digunakan oleh berbagai organisasi keuangan
seperti bank dan penyedia jasa kredit sebagai
alat yang efisien dan menguntungkan. Credit
scoring model adalah suatu metode untuk
mengevaluasi kelayakan kredit seseorang
berdasarkan rumus tertentu atau suatu aturan
tertentu. Hasil dari credit scoring model
berupa model matematik yang mampu
mengklasifikasi atau menduga kualitas kredit
seseorang ke dalam suatu gugus keputusan.
Model ini dibangun berdasarkan informasi data
historis
berupa
karakteristik-karakteristik
kreditur yang dimiliki oleh organisasi keuangan
(debitur) yang memberikan kreditnya. Data
yang dibutuhkan untuk membangun model
umumnya harus cukup besar. Dengan semakin
besarnya data yang ditelaah maka data tersebut
akan semakin rentan terhadap munculnya data
hilang, pencilan, dan ketidakkonsistenan
(Kantardzic 2003). Oleh karena itu perlu
dilakukan suatu proses awalan terhadap data
(data preprocessing) untuk mempersiapkan
data sebelum dilakukan analisis lebih lanjut.
Salah satu cara dalam data preprocessing
adalah melakukan diskretisasi data atau biasa
disebut binning.
Diskretisasi data juga
memegang peranan penting dalam membangun
credit scoring model. Metode diskretisasi
mampu memilah-milah suatu selang data
kontinu atau numerik ke dalam sub-sub selang
berdasarkan algoritma tertentu. Metode ini
juga bermanfaat untuk mengkategori ulang
kategori-kategori pada peubah diskret atau
kategorik.
Metode ini sangat bermanfaat
karena beberapa algoritma klasifikasi yang
biasa digunakan dalam membangun credit
scoring model hanya menerima data berskala
diskret.
Penelitian ini bert