Klasifikasi Debitur Kartu Kredit Menggunakan Algoritme Support Vector Machine Linear Kernel untuk Kasus Imbalanced Data

KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN
ALGORITME SUPPORT VECTOR MACHINE LINEAR KERNEL
UNTUK KASUS IMBALANCED DATA

AVITA UNAIYA

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Debitur
Kartu Kredit Menggunakan Algoritme Support Vector Machine Linear Kernel
untuk Kasus Imbalanced Data adalah benar karya saya dengan arahan dari komisi
pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi
mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan
maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan
dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada
Institut Pertanian Bogor.
Bogor, April 2014
Avita Unaiya
NIM G64100029

ABSTRAK
AVITA UNAIYA. Klasifikasi Debitur Kartu Kredit Menggunakan Algoritme
Support Vector Machine Linear Kernel untuk Kasus Imbalanced Data. Dibimbing
oleh AZIZ KUSTIYO.
Pada penelitian ini dilakukan analisis klasifikasi debitur kartu kredit
menggunakan algoritme support vector machine linear kernel yang mampu
mengklasifikasikan calon debitur ke dalam kategori baik dan buruk. Data yang
digunakan merupakan imbalanced data karena data dari satu kelas mendominasi
data yang lain. Algoritme klasifikasi umumnya memberikan kinerja buruk pada
imbalanced data karena kelas minoritas lebih sulit diprediksi dibanding kelas
mayoritas. Salah satu cara yang dapat digunakan untuk menangani permasalahan
ini adalah dengan strategi sampling menggunakan teknik oversampling dan
undersampling. Penelitian ini membandingkan nilai akurasi, recall, precision,
serta F-measure Hasil penelitian menunjukkan nilai akurasi yang cukup tinggi

pada data asli sebesar 83.59% namun, nilai recall, precision, dan F-measure yang
dihasilkan sebesar 0%. Teknik oversampling acak menunjukkan kinerja terbaik
dengan akurasi sebesar 54.14%, recall sebesar 53.47%, precision sebesar 61.30%,
dan F-measure sebesar 54.51%.
Kata kunci:

imbalanced data,
undersampling

oversampling,

support

vector

machine,

ABSTRACT
AVITA UNAIYA. Credit Card Debtor Classification using Support Vector
Machine Linear Kernel Algotihm for Imbalanced Data. Supervised by AZIZ

KUSTIYO.
In this research, classification analysis of credit card debtors is conducted by
using support vector machine linear kernel that can classify debtors into two
categories good or bad. The data used in this research is imbalanced because most
data are from one class. Classification algorithms generally result in poor
performance on imbalanced data because the minority class is more difficult to
predict than the majority class. One way that can be used to solve this problem is
by using a sampling method with oversampling and undersampling technique.
This research compares the value of accuracy, recall, precision, and F-measure.
The evaluation result shows a fairly high accuracy values in the original data is
83.59% but, the value of recall, precision, and F-measure are 0%. Random
oversampling technique gives the best performance with 54.14% accuracy,
53.47% recall, 61.30% precision, and 54.51% F-measure.
Keywords:

imbalanced data,
undersampling

oversampling,


support

vector

machine,

KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN
ALGORITME SUPPORT VECTOR MACHINE LINEAR KERNEL
UNTUK KASUS IMBALANCED DATA

AVITA UNAIYA

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR
BOGOR
2014

Penguji:
1 Karlina Khiyarin Nisa, SKom MT
2 Dr Eng Wisnu Ananta Kusuma, ST MT

Judul Skripsi : Klasifikasi Debitur Kartu Kredit Menggunakan Algoritme Support
Vector Machine Linear Kernel untuk Kasus Imbalanced Data
Nama
: Avita Unaiya
NIM
: G64100029

Disetujui oleh

Aziz Kustiyo, SSi MKom
Pembimbing


Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Ungkapan
terima kasih penulis sampaikan kepada ayah, ibu, serta seluruh keluarga, atas
segala doa dan kasih sayangnya.
Terima kasih penulis ucapkan kepada Bapak Aziz Kustiyo, MKom selaku
pembimbing, kepada Ibu Karlina Khiyarin Nisa, MT dan Bapak Wisnu Ananta
Kusuma, MT selaku penguji. Terima kasih atas semua bimbingan dan saran yang
diberikan dalam menyelesaikan karya ilmiah ini. Terima kasih juga penulis
sampaikan kepada Dewi Sri Rahayu, Aisyah Syahidah, Pristi Sukmasetya, Annisa
Amalia, Riska Effirokh, dan Ilkomerz 47 atas kerja samanya. Semoga karya
ilmiah ini bermanfaat.


Bogor, April 2014
Avita Unaiya

DAFTAR ISI
DAFTAR TABEL

viii

DAFTAR GAMBAR

viii

DAFTAR LAMPIRAN

viii

PENDAHULUAN

1


Latar Belakang

1

Perumusan Masalah

1

Tujuan Penelitian

2

Manfaat Penelitian

2

Ruang Lingkup Penelitian

2


METODE

2

Pengadaan Data

2

Praproses Data

4

Normalisasi Data

4

Strategi Sampling

4


10-Fold Cross Validation

5

Klasifikasi Support Vector Machine

5

Analisis Hasil Klasifikasi

7

HASIL DAN PEMBAHASAN

8

Praproses Data

8


Strategi Sampling

9

Hasil Klasifikasi

9

Analisis Hasil Klasifikasi

12

Perbandingan dengan Penelitian Sebelumnya

14

SIMPULAN DAN SARAN

15

Simpulan

15

Saran

16

DAFTAR PUSTAKA

16

RIWAYAT HIDUP

26

LAMPIRAN

18

DAFTAR TABEL
1
2
3
4
5
6
7
8

Atribut data
Confussion matrix dua kelas
Confussion matrix data asli
Confussion matrix oversampling acak
Confussion matrix oversampling duplikasi
Confussion matrix undersampling cluster
Confussion matrix undersampling acak
Perbandingan dengan penelitian sebelumnya

4
7
12
13
13
14
14
15

DAFTAR GAMBAR
1
2
3
4
5
6
7

Tahapan penelitian
Konsep dasar SVM
Hasil percobaan data asli
Hasil percobaan oversampling duplikasi
Hasil percobaan oversampling acak
Hasil percobaan undersampling acak
Hasil percobaan undersampling cluster

3
6
9
10
10
11
11

DAFTAR LAMPIRAN
1
2
3
4
5
6
7
8
9
10

Keterangan atribut
Nilai akurasi dalam % pada setiap teknik sampling
Nilai recall dalam % pada setiap teknik sampling
Nilai precision dalam % pada setiap teknik sampling
Nilai f-measure dalam % pada setiap teknik sampling
Confussion matrix data asli
Confussion matrix oversampling acak
Confussion matrix oversampling duplikasi
Confussion matrix undersampling acak
Confussion matrix undersampling cluster

18
19
19
20
20
21
22
23
24
25

PENDAHULUAN
Latar Belakang
Banyak layanan yang diberikan oleh usaha perbankan salah satunya yaitu
layanan kredit. Layanan kredit yang diberikan bank kepada debitur di antaranya
kredit pemilikan rumah (KPR), kredit kendaraan, kredit usaha mikro, dan kartu
kredit. Berdasarkan data penerbit kartu kredit yang dirilis Bank Indonesia (2013),
jumlah penerbit kartu kredit mencapai 22 penerbit. Pemberian kredit kepada
debitur bisa menimbulkan risiko ketidakmampuan debitur atas kewajiban
pembayaran utangnya, baik utang pokok maupun bunganya atau keduanya. Oleh
sebab itu, setiap bank melakukan proses analisis dalam menentukan penerimaan
pengajuan kredit. Hal ini dilakukan dengan tujuan untuk mengurangi peluang
kerugian bank akibat menerima pengajuan kredit yang berpotensi bermasalah.
Berbagai penelitian terkait proses analisis terhadap kredit yang diajukan
telah dilakukan. Penelitian-penelitian tersebut dilakukan oleh Anggraini (2013),
Wijayanti (2013), dan Ulya (2013) dengan membuat model klasifikasi
menggunakan data debitur kartu kredit. Data debitur kartu kredit merupakan data
skala besar dengan distribusi kelas tidak merata antara debitur kategori good dan
bad. Anggraini (2013) melakukan klasifikasi dengan pohon keputusan
menggunakan algoritme C4.5 dan CART. Algoritme C4.5 memberikan nilai
akurasi sebesar 88.65% dan algoritme CART memberikan nilai akurasi sebesar
88.52%. Wijayanti (2013) melakukan klasifikasi menggunakan algoritme FKNN
dan menghasilkan akurasi sebesar 91.93%, sedangkan Ulya (2013) melakukan
klasifikasi menggunakan algoritme KNN dan didapat nilai akurasi sebesar
96.24%. Kasus klasifikasi data tidak seimbang juga diteliti oleh Japkowicz dan
Stephen (2002) menggunakan data kerang abalone dan algoritme SVM dengan
metode undersampling yang menghasilkan akurasi sebesar 64.36%.
Data umumnya memiliki dua kondisi yaitu data seimbang dan data tidak
seimbang. Data seimbang merupakan kondisi distribusi data pada dua kelas
mendekati sama dan data tidak seimbang merupakan kondisi sebuah himpunan
data terdapat satu kelas yang memiliki jumlah instance yang lebih kecil
dibandingkan kelas lainnya (Chawla 2003). Untuk mengatasi ketidakseimbangan
data dilakukan strategi sampling yaitu oversampling dan undersampling. Pada
oversampling dilakukan duplikasi pada data minoritas, dan pada undersampling
dilakukan pemilihan instance pada data mayoritas sehingga jumlahnya sama
dengan data minoritas.
Penelitian ini akan membuat suatu model untuk mengklasifikasikan debitur
ke dalam kategori good atau bad menggunakan algoritme support vector machine
(SVM) linear kernel. Karena data yang digunakan pada penelitian ini merupakan
data tidak seimbang maka dilakukan strategi sampling yaitu oversampling dan
undersampling untuk mengatasinya.
Perumusan Masalah
Berdasarkan latar belakang yang telah dijelaskan, bank memiliki
kemungkinan menerima debitur dengan risiko kredit tinggi. Oleh sebab itu proses
analisis debitur kartu kredit perlu dilakukan. Salah satu cara dalam melakukan

2
proses analisis yaitu mengklasifikasikan debitur kartu kredit ke dalam kategori
good atau kategori bad. Penelitian ini akan menganalisis bagaimana algoritme
SVM dapat mengklasifikasikan debitur kartu kredit ke dalam kategori debitur
good atau debitur bad.
Tujuan Penelitian
Tujuan dari penelitian ini adalah menerapkan oversampling
dan
undersampling untuk mengklasifikasikan debitur kartu kredit ke dalam kategori
debitur good atau debitur bad pada data tidak seimbang menggunakan algoritme
SVM.
Manfaat Penelitian
Hasil dari penelitian ini diharapkan dapat menjadi salah satu alternatif
model bagi pihak penerbit kartu kredit dalam menganalisis proses penerimaan
kredit, sehingga dapat mengurangi jumlah potensi kerugian bank akibat menerima
pengajuan kredit yang berpotensi bermasalah. Selain itu, hasil dari penelitian ini
juga diharapkan dapat memberi gambaran mengenai kinerja support vector
machine classifier pada data tidak seimbang.
Ruang Lingkup Penelitian
Ruang lingkup dalam penelitian ini adalah set data yang digunakan
merupakan data pada penelitian Anggraini (2013) yaitu data debitur kartu kredit
Bank X tahun 2008 dan 2009. Strategi sampling yang digunakan dalam penelitian
ini adalah oversampling dan undersampling. Algoritme yang digunakan dalam
penelitian ini adalah SVM.

METODE
Penelitian ini dilakukan dalam beberapa tahapan. Alur tahapan penelitian
yang dilakukan dapat dilihat pada Gambar 1.
Pengadaan Data
Data yang digunakan pada penelitian ini adalah data sekunder yang
digunakan juga pada penelitian Anggraini (2013). Data penelitian ini merupakan
data dari Bank X yaitu data debitur kartu kredit tahun 2008 dan 2009. Data asli
yang belum mengalami praproses data berjumlah 4413 data dan memiliki 2 kelas,
yaitu, kelas debitur good sebanyak 3574 data dan kelas debitur bad sebanyak 839
data. Pada data ini terdapat ketidakseimbangan dimana 81% dari keseluruhan data
merupakan data debitur good.

3

Mulai

Pengadaan Data

Praproses Data

Normalisasi Data

Strategi Sampling

Oversampling

Undersampling

10-Fold Cross
Validation

Data Latih

Data Uji

Klasifikasi SVM

Hasil Klasifikasi

Analisis Hasil
Klasifikasi

Selesai
.
Gambar 1 Tahapan penelitian

4
Praproses Data
Praproses data dilakukan untuk membantu dalam pengenalan atribut dan
data segmen yang relevan. Data asli memiliki 14 atribut yang terdiri dari 3
kategori, yaitu rasio, nominal, dan ordinal. Atribut disajikan pada Tabel 1:
Tabel 1 Atribut data
Ordinal

Nominal

Rasio

Pendidikan

Jenis kelamin
Status pekerjaan
Jenis pekerjaan
Tipe perusahaan
Status rumah
Status pernikahan

Pendapatan
Jumlah tanggungan
Umur
Masa kerja
Lama tinggal
Banyaknya kartu kredit lain
Presentase utang kartu kredit lain

Keterangan lengkap atribut tersebut dapat dilihat pada Lampiran 1. Ada 5
atribut yang memiliki missing value, yaitu tipe perusahaan, status pekerjaan, jenis
pekerjaan, presentase utang kartu kredit lain, dan banyaknya kartu kredit lain.
Untuk mengatasi missing value dilakukan penghapusan data terhadap record yang
memiliki missing value.
Normalisasi Data
Atribut dengan nilai rentang yang cukup panjang dibandingkan dengan nilai
atribut lainnya memiliki pengaruh besar terhadap atribut berskala pendek
(Nurjayanti 2011). Untuk menghindari perbedaan rentang tersebut dilakukan
normalisasi data pada atribut pendapatan, jumlah tanggungan, masa kerja, lama
tinggal, dan umur, sehingga didapatkan range antara 0 sampai 1 mengunakan
teknik min-max normalization, dengan rumus sebagai berikut (Larose 2005):
X* =

X - min(X)
max X - min(X)

Keterangan:
X* = nilai setelah normalisasi
X = nilai sebelum normalisasi
min(X) = nilai minimum atribut
max(X) = nilai maksimum dari suatu atribut
Strategi Sampling
Data yang digunakan merupakan data tidak seimbang dengan kondisi
sebuah himpunan data terdapat satu kelas yang memiliki jumlah instance yang
lebih kecil dibandingkan kelas lainnya. Kelas dengan jumlah instance kecil
disebut minoritas dan kelas dengan jumlah instance besar disebut mayoritas
(Chawla 2003). Untuk mengatasi masalah tersebut digunakan metode sampling

5
yang dapat memberi distribusi data seimbang untuk setiap kelas (He dan Edwardo
2009). Strategi sampling yang digunakan yaitu oversampling dan undersampling.
Oversampling dilakukan dengan 2 cara yaitu dengan menduplikasi data minoritas
sebanyak data mayoritas dan pembangkitan data minoritas secara acak sebanyak
data mayoritas. Strategi undersampling juga dilakukan dengan 2 cara yaitu,
undersampling acak dan undersampling clustering. Undersampling acak
dilakukan dengan cara mengambil secara acak data mayoritas sehingga jumlahnya
sama dengan dengan data minoritas. Undersampling clustering dilakukan dengan
proses clustering pada data majority menggunakan metode k-means sebanyak 10
cluster dan menggunakan WEKA. Agar data yang diambil tidak mengelompok
pada suatu cluster, jumlah data yang diambil pada masing-masing cluster
menggunakan rumus berikut (Yen dan Lee 2009):
Ci =

jumlah data cluster i
× jumlah data kelas minoritas
jumlah data kelas mayoritas
10-Fold Cross Validation

Teknik yang digunakan untuk membagi data uji dan data latih adalah k-fold
cross validation. Teknik ini membagi data menjadi k subset dengan ukuran yang
sama. Setelah subset terbentuk, dilakukan pengulangan sebanyak k-kali untuk
pelatihan dan pengujian. Pada iterasi pertama, subset 1 akan menjadi data uji,
sedangakan subset 2 sampai subset k akan menjadi data latih. Iterasi selanjutnya,
subset 2 akan menjadi data uji, maka subset 1, subset 3 sampai subset k menjadi
data latih, dan seterusnya sebanyak k iterasi (Han dan Kamber 2006). Pada
penelitian ini k yang digunakan adalah 10. Data dibagi menjadi 10 bagian terpisah
dengan ukuran yang sama. Masing-masing bagian data secara bergantian
digunakan sebagai data uji sebanyak 10 kali dan sebagai data latih sebanyak 10
kali. Data uji menggunakan 1 subset dan data latih menggunakan 9 subset. Hal ini
dilakukan berulang kali sampai semua subsample pernah menjadi data uji.
Klasifikasi Support Vector Machine
Support vector machine (SVM) merupakan metode klasifikasi jenis
supervised, karena ketika proses pelatihan diperlukan target pembelajaran tertentu
(Widodo dan Handayanto 2013). Prinsip dasar support vector machine adalah
linear classifier yang berusaha menemukan fungsi pemisah (hyperplane) optimal
yang bisa memisahkan dua set data dari dua kelas yang berbeda.
Hyperplane terbaik adalah hyperplane yang terletak di tengah-tengah dua set
obyek dari dua kelas (Kawabiki 2009). Hyperplane terbaik antara kedua kelas
dapat ditemukan dengan mengukur margin hyperplane tersebut dan mencari titik
maksimalnya, sedangkan margin adalah jarak antara hyperlplane tersebut dengan
pola yang terdekat dari masing-masing kelas. SVM hanya menggunakan beberapa
titik data terpilih yang berkontribusi (support vector) untuk membentuk model
yang akan digunakan dalam proses klasifikasi. Gambar 2 menggambarkan pola
yang merupakan anggota dari dua buah kelas yaitu kelas +1 dan kelas -1.

6

+1

-1

vektor kelas +1
vektor kelas -1

Support
Vectors
Hyperplane
Gambar 2 Konsep dasar SVM
Kelas -1 dan kelas +1 diasumsikan dapat terpisah secara sempurna oleh
hyperplane yang didefinisikan sebagai berikut:
(w .
dengan:
= nilai data

= vektor bobot

= bias

�)

+b=0

Margin terbesar dapat ditemukan dengan memaksimalkan jarak antara
hyperplane dan titik terdekatnya, yaitu 1/‖w‖. Hal ini dapat dirumuskan sebagai
masalah quadratic programming (QP), yaitu mencaari titik minimal pada
persamaan:
1
min τ w = ‖w‖2
2

dengan memperhatikan constraint pada persamaan:
yi xi . w + b ≥ 1
Masalah ini dapat dipecahkan dengan Lagrange Multiplier.
l

1
� w,b,a = ‖w‖2 - ∑ ∝i (yi ((xi . w+b)-1))
2
i=1

∝i adalah pengganda lagrange yang bernilai nol atau positif. Nilai optimal

hyperplane dapat dihitung denga memaksimalkan nilai L terhadap w dan b, dan
memaksimalkan L terhadap ∝i .
Algoritme SVM memiliki beberapa macam fungsi kernel. Menurut Santosa
(2010), fungsi kernel yang umum digunakan adalah:

7
1 linear kernel
K(xi ,x) = xT xi
2 polynomial kernel
d

K(xi ,x) = (xT xi +1)
3 radial basis function (RBF) kernel

K xi ,x = exp - ‖xi -x‖2 , dengan =

1
2σ2

4 tangent hyperbolic (sigmoid)

K xi ,x = tanh( xT xi + 1 ) , dengan , 1 ∈ R

Dari keempat fungi kernel tersebut xi merepresentasikan vektor dari setiap
data, d merepresentasikan jumlah derajat dari fungsi polinomial, dan γ
merepresentasikan ukuran rentangan pada kurva gaussian. SVM menerapkan
kernel yang digunakan untuk merepresentasikan data ke dimensi lebih tinggi.
Kernel yang digunakan pada penelitian ini adalah linear kernel. Dari hasil
percobaan akan didapatkan model SVM dengan linear kernel yang memiliki
akurasi pelatihan 10-cross fold validation.
Analisis Hasil Klasifikasi
Untuk mengetahui keefektifan suatu algoritme dalam mengklasifikasikan
data, dilakukan perhitungan akurasi, precision, recall, dan f-measure yang
didapatkan dari confusion matrix pada Tabel 2 (Weng dan Poon 2008).
Tabel 2 Confusion matrix dua kelas
Kelas aktual
Kelas positif
Kelas negatif

Kelas hasil prediksi
Kelas positif

Kelas negatif

TP
FP

FN
TN

Keterangan:
- True Positive (TP) adalah jumlah instance kelas positif yang diprediksi benar sebagai
kelas positif
- False Negative (FN) adalah jumlah instance kelas positif yang diprediksi salah sebagai
kelas negatif
- False Positive (FP) adalah jumlah instance kelas negatif yang diprediksi salah sebagai
kelas positif
- True Negative (TN) adalah jumlah instance kelas negatif yang diprediksi benar sebagai
kelas negatif

8
Semakin tinggi akurasi, precision, recall, dan f-measure, maka algoritme
semakin baik dalam melakukan klasifikasi. Akurasi, precision, recall, dan fmeasure dapat dihitung menggunakan rumus berikut (Weng dan Poon 2008) :
1 Akurasi
Akurasi adalah jumlah perbandingan data yang benar dengan jumlah
keseluruhan data. Akurasi dapat dihitung menggunakan rumus berikut:
Akurasi =

TP + TN
×
TP + TN + FP + FN

%

2 Precision
Precision digunakan untuk mengukur seberapa besar proporsi dari kelas
data positif yang berhasil diprediksi dengan benar dari keseluruhan hasil prediksi
kelas positif. Precision dapat dihitung menggunakan rumus berikut:
Precision =

TP
×
TP + FP

%

3 Recall
Recall digunakan untuk menunjukkan persentase kelas data positif yang
berhasil diprediksi benar dari keseluruhan data kelas positif. Recall dapat dihitung
menggunakan rumus berikut:
Recall =

TP
×
TP + FN

%

4 F-measure
F-measure merupakan gabungan dari precision dan recall yang digunakan
untuk mengukur kemampuan algoritme dalam mengklasifikasikan kelas minoritas.
F-measure dapat dihitung menggunakan rumus berikut:
F=

2 × Recall × Precision
Recall + Precision

Berdasarkan hasil analisis akan didapatkan model data terbaik. Model data
tersebut digunakan sebagai dasar pada proses prediksi data baru.

HASIL DAN PEMBAHASAN
Praproses Data
Jumlah data mengalami pengurangan setelah dilakukan praproses data. Hal
ini disebabkan karena ada 518 instance yang memiliki missing value sehingga
tidak dapat digunakan untuk tahap selanjutnya. Data yang yang dapat digunakan
untuk tahap selanjutnya berjumlah 3895 dengan 3259 termasuk ke dalam kategori
debitur good dan 636 debitur kategori bad.

9
Strategi Sampling
Saat teknik oversampling diterapkan, jumlah data bertambah menjadi 6518
data. Saat teknik undersampling diterapkan, jumlah data berkurang menjadi 1272
data.
Hasil Klasifikasi
Penelitian ini menggunakan teknik k-fold cross validation untuk membagi
data uji dan data latih dengan k yang digunakan adalah 10, sehingga dilakukan 10
kali proses klasifikasi untuk masing-masing teknik sampling. Hasil yang
ditampilkan merupakan rata-rata dari 10 kali proses klasifikasi. Untuk linear
kernel perlu dicari nilai C optimal. Pencarian nilai C yang optimal dilakukan
dengan percobaan menggunakan 10-cross fold validation terhadap data dengan
rentang nilai C dari 1 sampai 10. Dari hasil pencarian didapatkan nilai C dengan
akurasi tertinggi yaitu sebesar 1.
Percobaan Data Asli
Data asli dalam percobaan ini adalah data yang belum mengalami proses
sampling tetapi sudah mengalami tahap praproses data. Data ini terdiri dari 636
record data minoritas yang merupakan kategori debitur buruk atau kelas positif
dan 3259 record data mayoritas yang merupakan debitur kategori baik atau kelas
negatif, sehingga total untuk percobaan data asli berjumlah 3895 record data.
Kemudian dilakukan 10-fold cross validation pada masing-masing data bad dan
data good untuk memperoleh data uji dan data latih. Setelah itu, data diproses agar
dapat diolah pada software WEKA. Akurasi, recall, precision, dan F-measure
data asli dapat dilihat pada Gambar 3.
100%
83.59%
80%
60%
40%
20%
0%

0%

0%

Recall

Precision

F-measure

0%
Akurasi

Gambar 3 Hasil percobaan data asli
Percobaan Oversampling Duplikasi
Pada percobaan ini, data minoritas yaitu 636 record data bad akan
dibangkitkan dengan cara duplikasi sehingga jumlahnya menjadi 2623 record data,
lalu digabungkan dengan 636 record data asli kelas minoritas sehingga jumlah
kelas minoritas sama dengan kelas mayoritas yaitu sebanyak 3259 record data.
Data tersebut akan digabungkan dengan 3259 record data asli kelas mayoritas atau
kelas good sehingga jumlah total data yang digunakan pada percobaan ini adalah
6518 record data. Kemudian dilakukan 10-fold cross validation pada masing-

10
masing data bad dan data good untuk memperoleh data uji dan data latih. Setelah
itu, data diproses agar dapat diolah pada software WEKA. Akurasi, recall,
precision, dan F-measure pada percobaan oversampling duplikasi dapat dilihat
pada Gambar 4.
100%
80%
60%

55.31%

49.17%

47.64%

Akurasi

Recall

43.56%

40%
20%
0%
Precision

F-measure

Gambar 4 Hasil percobaan oversampling duplikasi
Percobaan Oversampling Acak
Pada percobaan ini, data minoritas yaitu 636 record data bad akan
dibangkitkan dengan cara acak menggunakan software Minitab sehingga
jumlahnya menjadi 2623 record data, lalu digabungkan dengan 636 record data
asli kelas minoritas sehingga jumlah kelas minoritas sama dengan kelas mayoritas
yaitu sebanyak 3259 record data. Data tersebut akan digabungkan dengan 3259
record data asli kelas mayoritas atau kelas good sehingga jumlah total data yang
digunakan pada percobaan ini adalah 6518 record data. Kemudian dilakukan 10fold cross validation pada masing-masing data bad dan data good untuk
memperoleh data uji dan data latih. Setelah itu, data diproses agar dapat diolah
pada software WEKA. Akurasi, recall, precision, dan F-measure pada percobaan
oversampling acak dapat dilihat pada Gambar 5.
100%
80%
61.30%
60%

54.14%

53.47%

Akurasi

Recall

54.51%

40%
20%
0%
Precision

F-measure

Gambar 5 Hasil percobaan oversampling acak
Percobaan Undersampling Acak
Pada percobaan ini, data mayoritas yaitu 3259 record akan dikurangi
jumlahnya dengan cara acak sehingga jumlahnya menjadi 636 record data. 636

11
record data tersebut diambil secara acak menggunakan software Minitab. Data
tersebut akan digabungkan dengan 636 record data asli kelas minoritas atau kelas
bad sehingga jumlah total data yang digunakan pada percobaan ini adalah 1272
record data. Kemudian dilakukan 10-fold cross validation pada masing-masing
data bad dan data good untuk memperoleh data uji dan data latih. Akurasi, recall,
precision, dan F-measure pada percobaan undersampling acak dapat dilihat pada
Gambar 6.
100%
80%
60%

49.35%
38.92%

40%

30.72%

33.88%

Precision

F-measure

20%
0%
Akurasi

Recall

Gambar 6 Hasil percobaan undersampling acak
Percobaan Undersampling Cluster
Pada percobaan ini, akan dilakukan proses clustering dengan metode kmeans yang dibagi sebanyak 10 cluster untuk data mayoritas yaitu 3259 record
data good menggunakan software WEKA. Masing-masing cluster akan diambil
sejumlah data menggunakan rumus Yen dan Lee (2009) sehingga jumlahnya
menjadi 636 record data. Data tersebut akan digabungkan dengan 636 record data
asli kelas minoritas atau kelas bad sehingga jumlah total data yang digunakan
pada percobaan ini adalah 1272 record data. Kemudian dilakukan 10-fold cross
validation pada masing-masing data bad dan data good untuk memperoleh data
uji dan data latih. Akurasi, recall, precision, dan F-measure pada percobaan
undersampling cluster dapat dilihat pada Gambar 7.
100%
80%
60%
44.03%

45.55%

40%

35.62%

38.89%

Precision

F-measure

20%
0%
Akurasi

Recall

Gambar 7 Hasil percobaan undersampling cluster

12
Analisis Hasil Klasifikasi
Berdasarkan hasil klasifikasi pada percobaan data asli, oversampling
duplikasi, oversampling acak, undersampling acak, dan undersampling cluster
dapat diketahui bahwa hasil klasifikasi pada data yang sudah mengalami sampling
lebih baik dibanding hasil klasifikasi pada data asli. Percobaan data asli
menghasilkan rata-rata nilai akurasi yang cukup tinggi jika dibandingkan dengan
percobaan lain yaitu sebesar 83.59% namun, pada data asli semua data kelas
positif diprediksi ke dalam kelas negatif. Pada percobaan ini nilai recall, precision,
dan F-measure yang dihasilkan sebesar 0%, nilai ini tidak sebaik dengan nilai
akurasinya. Hal ini disebabkan karena jumlah instance kelas positif atau debitur
kategori bad yang diprediksi benar sebagai kelas positif yang diperlihatkan pada
Tabel 3 bernilai 0, dengan kata lain semua debitur kategori bad diprediksi ke
dalam debitur kategori good.
Tabel 3 Confusion matrix data asli
Kelas aktual
Kelas bad
Kelas good

Kelas hasil prediksi
Kelas bad

Kelas good

0
0

636
3259

Klasifikasi dengan teknik oversampling memiliki hasil yang lebih baik
dibanding klasifikasi dengan teknik undersampling. Hal ini disebabkan karena
jumlah data yang digunakan pada teknik oversampling lebih banyak dibanding
teknik undersampling. Pada teknik oversampling semua data kelas negatif atau
data debitur kategori good digunakan, sedangkan pada teknik undersampling
hanya menggunakan data kelas negatif sebanyak 636 record data.
Akurasi tertinggi yang diperoleh melalui percobaan menggunakan teknik
oversampling acak sebesar 77.30% dengan nilai recall sebesar 59.51%, precision
sebesar 92.38%, dan F-measure sebesar 72.39%, sedangkan nilai akurasi terendah
yang diperoleh sebesar 0.61% dengan nilai recall, precision¸ dan F-measure
sebesar 0%. Akurasi tertinggi yang diperoleh melalui percobaan dengan teknik
oversampling duplikasi sebesar 84.82% dengan nilai recall sebesar 69.63%,
precision sebesar 100%, dan F-measure sebesar 82.09%, sedangkan nlai akurasi
terendah yang diperoleh sebesar 0.77% dengan nilai recall, precision, dan Fmeasure sebesar 0%. Berdasarkan hasil tersebut terlihat bahwa hasil percobaan
oversampling duplikasi lebih baik dibanding hasil percobaan oversampling acak.
Namun, jika dilihat dari hasil rata-rata 10 kali percobaan, teknik oversampling
acak memiliki hasil yang lebih baik dibanding teknik oversampling duplikasi. Hal
ini disebabkan karena jumlah instance kelas positif atau debitur kategori bad yang
diprediksi benar sebagai kelas positif pada teknik oversampling acak lebih besar
dibanding jumlah instance kelas positif yang diprediksi benar sebagai kelas positif
pada teknik oversampling duplikasi yang ditunjukan pada Tabel 4 dan Tabel 5.

13
Tabel 4 Confusion matrix oversampling acak
Kelas aktual
Kelas bad
Kelas good

Kelas hasil prediksi
Kelas bad

Kelas good

1743
1468

1516
1791

Tabel 5 Confusion matrix oversampling duplikasi
Kelas aktual
Kelas bad
Kelas good

Kelas hasil prediksi
Kelas bad

Kelas good

1540
1593

1719
1666

Dari 10 kali percobaan menggunakan teknik oversampling acak diperoleh ratarata nilai akurasi sebesar 54.14%. Nilai ini lebih baik jika dibandingkan dengan
rata-rata nilai akurasi yang diperoleh dari 10 kali percobaan pada teknik
oversampling duplikasi yaitu sebesar 49.17%. Hal ini juga terjadi pada nilai recall,
precision, dan F-measure. Rata-rata nilai recall, precision, dan F-measure yang
diperoleh dari 10 kali percobaan teknik oversampling acak masing-masing sebesar
53.47%, 61.30%, dan 54.51%, sementara rata-rata nilai recall, precision, dan Fmeasure yang diperoleh dari 10 kali percobaan teknik oversampling duplikasi
masing-masing sebesar 47.64%, 55.31%, dan 43.56%.
Nilai akurasi tertinggi yang diperoleh pada percobaan teknik undersampling
acak sebesar 73.44% dengan nilai recall sebesar 90.62%, precision sebesar
67.44%, dan F-measure sebesar 77.33%, sedangkan nilai akurasi terendah yang
diperoleh sebesar 34.17% dengan nilai recall 1.67%, precision sebesar 4.76%, dan
F-measure sebesar 2.47%. Nilai akurasi tertinggi yang diperoleh pada percobaan
teknik undersampling cluster sebesar 64.06% dengan nilai recall sebesar 81.25%,
precision sebesar 60.46%, dan F-measure sebesar 69.33%, sedangkan nilai
akurasi terendah yang dihasilkan sebesar 31.25% dengan nilai recall, precision,
dan F-measure sebesar 0%. Berdasarkan hasil tersebut terlihat bahwa hasil
percobaan undersampling acak lebih baik dibanding hasil percobaan
undersampling cluster. Namun, jika dilihat dari hasil rata-rata 10 kali percobaan,
teknik undersampling cluster memiliki hasil yang lebih baik dibanding teknik
undersampling acak. Hal ini disebabkan karena jumlah instance kelas positif atau
debitur kategori bad yang diprediksi benar sebagai kelas positif pada teknik
undersampling cluster lebih besar dibanding jumlah instance kelas positif yang
diprediksi benar sebagai kelas positif pada teknik undersampling acak yang
ditunjukan pada Tabel 6 dan Tabel 7.

14
Tabel 6 Confusion matrix undersampling cluster
Kelas aktual
Kelas bad
Kelas good

Kelas hasil prediksi
Kelas bad

Kelas good

292
367

344
269

Tabel 7 Confusion matrix undersampling acak
Kelas aktual
Kelas bad
Kelas good

Kelas hasil prediksi
Kelas bad

Kelas good

249
256

387
380

Nilai akurasi dari 10 kali percobaan dengan teknik undersampling acak sebesar
49.35%. Nilai ini lebih besar jika dibanding dengan rata-rata nilai akurasi yang
diperoleh dari 10 kali percobaan pada teknik undersampling cluster yaitu sebesar
44.03%, namun hal ini tidak berlaku untuk nilai recall, precision, dan F-measure.
Rata-rata nilai recall, precision, dan F-measure yang diperoleh dari 10 kali
percobaan teknik undersampling acak masing-masing sebesar 38.92%, 30.72%,
dan 33.88%, hasil ini lebih kecil dibanding hasil yang diperoleh dari 10 kali
percobaan dengan teknik undersampling cluster yaitu masing-masing sebesar
45.55%, 35.62%, dan 38.89%.
Secara keseluruhan, dapat diketahui bahwa hasil tertinggi diperoleh pada
teknik oversampling acak. Hal ini disebabkan karena instance kelas positif yang
diprediksi benar sebagai kelas positif pada teknik oversampling acak memiliki
jumlah tertinggi dibanding instance kelas positif yang diprediksi benar sebagai
kelas positif pada teknik yang lain.
Perbandingan dengan Penelitian Sebelumnya
Jika dibandingkan dengan penelitian sebelumnya yang dilakukan oleh
Anggraini (2013), Wijayanti (2013), dan Ulya (2013), terjadi perbedaan yang
cukup tinggi untuk tingkat akurasi, recall, precision, dan F-measure yang
diperlihatkan dalam Tabel 8. Penelitian-penelitian tersebut dilakukan pada data
dan jumlah atribut yang sama namun dengan pendekatan berbeda, yaitu Anggraini
(2013) menggunakan algoritme C4.5 dan CART, Wijayanti (2013) menggunakan
algoritme FKNN, dan Ulya (2013) menggunakan algoritme KNN dalam
mengatasai kasus imbalanced data.

15
Tabel 8 Perbandingan dengan penelitian sebelumnya
Akurasi

Pendekatan

Recall

Precision

F-measure

(%)

Algoritme

C4.5
CART
FKNN
KNN

86.97
88.52
91.93
96.24

97.50
81.90
100.00
99.23

80.30
94.40
86.12
95.21

88.10
87.70
92.54
96.30

83.59

0.00

0.00

0.00

49.17

47.64

55.31

43.56

Algoritme
SVM

Data asli
Oversampling
duplikasi
Oversampling
acak
Undersampling
acak
Undersampling
cluster

54.14

53.47

61.30

54.51

49.35

38.92

30.72

33.88

44.03

45.55

35.62

38.89

Hasil pada penelitian ini menunjukkan nilai F-measure yang rendah jika
dibanding hasil penelitian yang lain. Hal ini membuktikan bahwa algoritme SVM
kurang optimal dalam mengklasifikasikan debitur ke dalam kategori bad dan
kategori good.

SIMPULAN DAN SARAN
Simpulan
Berdasarkan penelitian yang telah dilakukan dapat disimpulkan bahwa:
1 Percobaan data dengan teknik sampling menghasilkan nilai F-measure yang
lebih baik dibanding percobaan data asli.
2 Percobaan data dengan teknik oversampling memiliki hasil yang lebih baik dari
percobaan dengan teknik undersampling.
3 Percobaan data asli dengan 10-fold cross validation menghasilkan rata-rata
akurasi sebesar 83.59% serta nilai rata-rata untuk recall, precision, dan Fmeasure sebesar 0% karena algoritme SVM memiliki tingkat kecenderungan
untuk mengklasifikasikan data ke dalam kelas negatif, sehingga semua data
debitur kategori bad diprediksi ke dalam kategori good.
4 F-measure paling tinggi diperoleh saat percobaan data dengan teknik
oversampling acak sebesar 54.51%.
5 Pada percobaan dengan teknik oversampling acak menghasilkan nilai Fmeasure sebesar 54.51%. Nilai ini lebih tinggi jika dibandingkan dengan
percobaan menggunakan teknik oversampling duplikasi yang menghasilkan
nilai F-measure sebesar 43.56%.
6 Pada percobaan dengan teknik undersampling cluster menghasilkan nilai Fmeasure sebesar 38.89%. Nilai ini lebih tinggi jika dibandingkan dengan

16
percobaan menggunakan teknik undersampling acak yang menghasilkan nilai
F-measure sebesar 33.88%.
7 Hasil percobaan terbaik diperoleh dari percobaan dengan teknik oversampling
acak.
Saran
Pada penelitian selanjutnya diharapkan dapat membandingkan hasil
klasifikasi SVM yang didapatkan pada penelitian ini dengan teknik sampling yang
lain, seperti synthetic minority oversampling technique dan diharapkan untuk
mencoba dengan fungsi kernel yang lain, seperti kernel RBF. Selain itu,
diharapkan juga untuk mencoba algoritme klasifikasi yang lain, seperti weighted
SVM.

DAFTAR PUSTAKA
Anggraini D. 2013. Perbandingan algoritme C4.5 dan CART pada data tidak
seimbang untuk kasus prediksi risiko kredit debitur kartu kredit [skripsi].
Bogor (ID): Institut Pertanian Bogor.
Bank Indonesia. 2013. Daftar penerbit kartu kredit. [diunduh 2013 Des 2].
Tersedia pada: http://bi.go.id/ Statistik/Statistik+Sistem+Pembayaran/APMK/
Chawla VN. 2003. C4.5 and imbalance datasets: investigating the effect of
sampling method, probabilistic estimate, and decision tree structure. Di
dalam: Workshop on Learning from Imbalanced Datasets II [Internet]; 2003
Aug 21; Washington DC, Amerika Serikat. [diunduh 2013 Sep 9]. Tersedia
pada: http://arxiv.org/pdf/1106.1813.pdf.
Han J, Kamber M. 2001. Data Mining Concepts & Techniques. San Fransisco
(US): Morgan Kaufmann.
He H, Edwardo AG. 2009. Learning from imbalanced data. Knowledge and Data
Engineering IEEE Transactions. 21(9):1263-1284.
Japkowicz N, Stephen K. 2004. Applying support vector machine to imbalanced
datasets. Di dalam: Boulicaut JF, Esposito F, Giannotti F, Pedreschi D
(editor). Proc. 15th European Conference on Machine Learning. Berlin (DE):
Springer Berlin Heidelberg. pp 39-50.
Kawakibi T. 2009. Steganalisis pada media audio menggunakan metode support
vector machine radial basis function classifier [skripsi]. Bogor (ID): Institut
Pertanian Bogor.
Larose DT. 2005. Discovering Knowledge in Data: An Introduction to Data
Mining. New Jersey (US). J Wiley.
Nurjayanti B. 2011. Identifikasi shorea menggunakan k-nearest neighbor
berdasarkan karakteristik morfologi daun [skripsi]. Bogor (ID): Institut
Pertanian Bogor.
Santosa B. 2010. Tutorial support vector machine. Surabaya (ID): Institut
Teknologi Sepuluh Nopember.
Ulya F. 2013. Klasifikasi debitur kartu kredit menggunakan algoritme k-nearest
neighbor untuk kasus imbalanced data [skripsi]. Bogor (ID): Institut
Pertanian Bogor.

17
Weng GC, Poon J. 2008. A new evaluation measure for imbalanced datasets. Di
dalam: Roddick FJ, Li J, Christen P, Kennedy P, editor. Data Mining and
Analytics 2008. Volume 87. Conference Seventh Australian Data Mining
Conference (AusDM 2008) [Internet]; 2008 Nov 27; Glenelg Australia.
[diunduh
2013
Des
16].
Tersedia
pada:
http://crpit.com/confpapers/CRPITV87Weng.pdf.
Widodo PP, Handayanto RT. 2013. Penerapan data mining. Bandung (ID):
Rekayasa Sains.
Wijayanti R. 2013. Klasifikasi nasabah kartu kredit menggunakan algoritme fuzzy
k-nearest neighbor pada data tidak seimbang [skripsi]. Bogor (ID): Institut
Pertanian Bogor.
Yen SJ, Lee YS. 2009. Cluster-based under-sampling approaches for imbalanced
data distributions. Expert System with Applications. 36(3):5718-5727.
doi:10.1016/j.eswa.2008.06.108.

18
Lampiran 1 Keterangan atribut
Tipe atribut

Atribut

Keterangan

Ordinal

Pendidikan

1 = SMP/SMA
2 = Akademi
3 = S1/S2

Nominal

Gender

1 = Pria
2 = Wanita
1 = Lajang
2 = Menikah
3 = Bercerai
1 = Kontraktor
2 = Conversion
3 = Industri berat
4 = Pertambangan
5 = Jasa
6 = Transportasi
1 = Permanen
2 = Kontrak
1 = Conversion
2 = PNS
3 = Profesional
4 = Wiraswasta
5 = Perusahaan swasta
0 = Bukan milik sendiri
1 = Milik sendiri

Status pernikahan

Tipe perusahaan

Status pekerjaan
Pekerjaan

Status rumah

Rasio

Kelas

Tanggungan
Pendapatan
Banyaknya kartu kredit lain
Persentase utang kartu kredit
lain
Usia
Masa kerja
Lama tinggal

Orang
Rupiah per tahun

Dalam bulan
Dalam bulan
Dalam bulan
1 = buruk
2 = baik

19
Lampiran 2 Nilai akurasi dalam % pada data asli dan setiap teknik sampling
Fold
ke1
2
3
4
5
6
7
8
9
10
Ratarata
Standar
deviasi

Data Oversampling Oversampling Undersampling Undersampling
asli
duplikasi
acak
acak
cluster
83.59
83.59
83.59
83.59
83.59
83.59
83.59
83.59
83.59
83.59

61.96
53.83
51.69
32.21
41.87
30.21
84.82
58.74
75.61
0.77

77.30
69.02
59.66
40.18
30.82
45.09
71.93
71.62
75.77
0.61

60.16
64.06
65.62
73.44
51.56
38.28
36.72
35.16
34.37
34.17

64.06
54.69
46.09
50.00
57.03
31.25
37.50
32.03
35.16
32.50

83.59

49.17

54.14

49.35

44.03

0.00

24.26

24.86

15.35

11.95

Lampiran 3 Nilai recall dalam % pada data asli dan setiap teknik sampling
Fold
ke-

Data Oversampling Oversampling Undersampling Undersampling
asli
duplikasi
acak
acak
cluster

1
2
3
4
5
6
7
8
9
10
Ratarata
Standar
deviasi

0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00

86.19
7.97
87.42
11.96
83.74
14.72
73.67
19.32
91.41
0.00

59.51
65.64
58.89
64.42
61.66
44.48
43.86
46.32
89.88
0.00

73.44
89.06
85.94
90.62
46.87
0.00
0.00
1.56
0.00
1.67

81.25
85.94
81.25
85.94
45.31
0.00
0.00
14.06
41.79
20.00

0.00

47.64

53.47

38.92

45.55

0.00

39.39

23.12

42.14

35.93

20
Lampiran 4 Nilai precision dalam % pada data asli dan setiap teknik sampling
Fold
ke-

Data Oversampling Oversampling Undersampling Undersampling
asli
duplikasi
acak
acak
cluster

1
2
3
4
5
6
7
8
9
10
Ratarata
Standar
deviasi

0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00

58.06
96.29
50.98
20.10
45.58
21.33
100.00
91.30
69.46
0.00

92.38
70.39
59.81
43.39
38.14
45.03
100.00
93.79
70.09
0.00

58.02
59.37
61.11
67.44
51.72
0.00
0.00
4.76
0.00
4.76

60.46
52.88
47.71
50.00
59.18
0.00
0.00
21.95
37.33
26.67

0.00

55.31

61.30

30.72

35.62

0.00

34.56

30.84

30.66

22.68

Lampiran 5 Nilai f-measure dalam % pada data asli dan setiap teknik sampling
Fold
ke-

Data Oversampling Oversampling Undersampling Undersampling
asli
duplikasi
acak
acak
cluster

1
2
3
4
5
6
7
8
9
10
Ratarata
Standar
deviasi

0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00

69.38
14.72
64.40
14.99
59.03
17.42
84.84
31.89
78.94
0.00

72.39
67.93
59.35
51.85
47.13
44.75
60.98
62.01
78.76
0.00

64.83
71.24
71.43
77.33
49.18
0.00
0.00
2.35
0.00
2.47

69.33
65.47
60.12
63.22
51.32
0.00
0.00
17.14
39.43
22.86

0.00

43.5

54.51

33.88

38.89

0.00

31.02

21.95

35.45

27.05

21
Lampiran 6 Confussion matrix data asli
Fold
ke-

1

Kelas
aktual
Bad
Good

2

Kelas
aktual
Bad
Good

3

Kelas
aktual
Bad
Good

4

Kelas
aktual
Bad
Good

5

Fold
ke-

Confusion matrix

Kelas
aktual
Bad
Good

Kelas hasil prediksi

Confusion matrix

Kelas
aktual

Bad

Good

0
0

64
326

Bad
Good

Kelas hasil prediksi

Kelas
aktual

6

Bad

Good

0
0

64
326

Bad
Good

Kelas hasil prediksi

Kelas
aktual

7

Bad

Good

0
0

64
326

Bad
Good

Kelas hasil prediksi

Kelas
aktual

8

Bad

Good

0
0

64
326

Bad
Good

Kelas hasil prediksi

Kelas
aktual

Bad

Good

0
0

64
326

9

10

Bad
Good

Kelas hasil prediksi
Bad

Good

0
0

64
326

Kelas hasil prediksi
Bad

Good

0
0

64
326

Kelas hasil prediksi
Bad

Good

0
0

64
326

Kelas hasil prediksi
Bad

Good

0
0

64
326

Kelas hasil prediksi
Bad

Good

0
0

64
326

22
Lampiran 7 Confusion matrix oversampling acak
Fold
ke-

1

Kelas
aktual
Bad
Good

2

Kelas
aktual
Bad
Good

3

Kelas
aktual
Bad
Good

4

Kelas
aktual
Bad
Good

5

Fold
ke-

Confusion matrix

Kelas
aktual
Bad
Good

Kelas hasil prediksi

Confusion matrix

Kelas
aktual

Bad

Good

194
16

132
310

Bad
Good

Kelas hasil prediksi

Kelas
aktual

6

Bad

Good

214
90

112
236

Bad
Good

Kelas hasil prediksi

Kelas
aktual

7

Bad

Good

192
129

134
197

Bad
Good

Kelas hasil prediksi

Kelas
aktual

8

Bad

Good

210
274

116
52

Bad
Good

Kelas hasil prediksi

Kelas
aktual

Bad

Good

201
326

125
0

9

10

Bad
Good

Kelas hasil prediksi
Bad

Good

145
177

181
149

Kelas hasil prediksi
Bad

Good

143
0

183
326

Kelas hasil prediksi
Bad

Good

151
10

175
316

Kelas hasil prediksi
Bad

Good

293
125

33
201

Kelas hasil prediksi
Bad

Good

0
321

325
4

23
Lampiran 8 Confusion matrix oversampling duplikasi
Fold
ke-

1

Kelas
aktual
Bad
Good

2

Kelas
aktual
Bad
Good

3

Kelas
aktual
Bad
Good

4

Kelas
aktual
Bad
Good

5

Fold
ke-

Confusion matrix

Kelas
aktual
Bad
Good

Kelas hasil prediksi

Confusion matrix

Kelas
aktual

Bad

Good

281
203

45
123

Bad
Good

Kelas hasil prediksi

Kelas
aktual

6

Bad

Good

26
1

300
325

Bad
Good

Kelas hasil prediksi

Kelas
aktual

7

Bad

Good

285
274

41
52

Bad
Good

Kelas hasil prediksi

Kelas
aktual

8

Bad

Good

39
155

287
171

Bad
Good

Kelas hasil prediksi

Kelas
aktual

Bad

Good

273
326

53
0

9

10

Bad
Good

Kelas hasil prediksi
Bad

Good

28
177

278
149

Kelas hasil prediksi
Bad

Good

227
0

99
326

Kelas hasil prediksi
Bad

Good

63
6

263
320

Kelas hasil prediksi
Bad

Good

298
131

28
195

Kelas hasil prediksi
Bad

Good

0
320

325
5

24
Lampiran 9 Confusion matrix undersampling acak
Fold
ke-

1

Kelas
aktual
Bad
Good

2

Kelas
aktual
Bad
Good

3

Kelas
aktual
Bad
Good

4

Kelas
aktual
Bad
Good

5

Fold
ke-

Confusion matrix

Kelas
aktual
Bad
Good

Kelas hasil prediksi

Confusion matrix

Kelas
aktual

Bad

Good

47
34

17
30

Bad
Good

Kelas hasil prediksi

Kelas
aktual

6

Bad

Good

57
39

7
25

Bad
Good

Kelas hasil prediksi

Kelas
aktual

7

Bad

Good

55
35

9
29

Bad
Good

Kelas hasil prediksi

Kelas
aktual

8

Bad

Good

58
28

6
36

Bad
Good

Kelas hasil prediksi

Kelas
aktual

Bad

Good

30
28

34
36

9

10

Bad
Good

Kelas hasil prediksi
Bad

Good

0
15

64
49

Kelas hasil prediksi
Bad

Good

0
17

64
37

Kelas hasil prediksi
Bad

Good

1
20

63
44

Kelas hasil prediksi
Bad

Good

0
20

64
44

Kelas hasil prediksi
Bad

Good

1
20

59
40

25
Lampiran 10 Confusion matrix undersampling cluster
Fold
ke-

1

Kelas
aktual
Bad
Good

2

Kelas
aktual
Bad
Good

3

Kelas
aktual
Bad
Good

4

Kelas
aktual
Bad
Good

5

Fold
ke-

Confusion matrix

Kelas
aktual
Bad
Good

Kelas hasil prediksi

Confusion matrix

Kelas
aktual

Bad

Good

52
34

12
30

Bad
Good

Kelas hasil prediksi

Kelas
aktual

6

Bad

Good

55
49

9
15

Bad
Good

Kelas hasil prediksi

Kelas
aktual

7

Bad

Good

52
57

12
7

Bad
Good

Kelas hasil prediksi

Kelas
aktual

8

Bad

Good

55
55

9
9

Bad
Good

Kelas hasil prediksi

Kelas
aktual

Bad

Good

29
20

35
44

9

10

Bad
Good

Kelas hasil prediksi
Bad

Good

0
24

64
40

Kelas hasil prediksi
Bad

Good

0
16

64
48

Kelas hasil prediksi
Bad

Good

9
32

55
32

Kelas hasil prediksi
Bad

Good

28
47

36
17

Kelas hasil prediksi
Bad

Good

12
33

48
27

26

RIWAYAT HIDUP

Penulis dilahirkan di Tangerang, Banten, Jawa Barat, pada tanggal 25 Mei
1992 sebagai anak pertama dari pasangan Ropingi Suwito dan Dwi Ilmiah.
Penulis merupakan lulusan SMA Negeri 34 Jakarta (2007-2010), SMP Negeri 85
Jakarta (2004-2007), dan SD Negeri 01 Jakarta (2004).
Pada tahun 2010, penulis diterima sebagai mahasiswa Ilmu Komputer
Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI).
Selama menjadi mahasiswa penulis pernah menjadi panitia dalam acara IT
TODAY 2012 dan Pesta Sains 2012.