Klasifikasi Debitur Kartu Kredit Menggunakan Algoritme K-Nearest Neighbor untuk Kasus Imbalanced Data

KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN
ALGORITME K-NEAREST NEIGHBOR UNTUK
KASUS IMBALANCED DATA

FIQROTUL ULYA

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Debitur
Kartu Kredit Menggunakan Algoritme K-Nearest Neighbor untuk Kasus
Imbalanced Data adalah benar karya saya dengan arahan dari komisi pembimbing
dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun.
Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun
tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan
dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Agustus 2013
Fiqrotul Ulya
NIM G64090019

ABSTRAK
FIQROTUL ULYA. Klasifikasi Debitur Kartu Kredit Menggunakan Algoritme KNearest Neighbor untuk Kasus Imbalanced Data. Dibimbing oleh AZIZ
KUSTIYO.
Data dikatakan tidak seimbang apabila terdapat distribusi jumlah data yang
tidak merata, dengan suatu kelas memiliki jumlah data yang jauh lebih besar dari
kelas lainnya. Dalam kasus ini, kelas minoritas lebih sulit diprediksi daripada
kelas mayoritas. Padahal kelas minoritas inilah yang terkadang memiliki
informasi penting. Pada penelitian ini dilakukan analisis klasifikasi debitur kartu
kredit menggunakan k-nearest neighbor untuk kasus imbalanced data yang
mampu mengklasifikasikan calon debitur ke dalam kategori baik atau buruk.
Analisis kelayakan calon debitur sangat penting untuk meminimalisir terjadinya
risiko kredit. Salah satu pendekatan yang dilakukan untuk menangani
permasalahan pada kasus imbalanced data adalah dengan memodifikasi distribusi
data menggunakan metode oversampling dan undersampling. Dalam penelitian ini

dilakukan perbandingan nilai parameter k, akurasi, precision, recall serta Fmeasure dan diketahui bahwa teknik oversampling menunjukkan nilai terbaik
dengan akurasi sebesar 96.24% ketika k = 3, recall 99.23% ketika k = 2, precision
95.21% ketika k = 1, dan F-measure sebesar 96.30% ketika k = 3.
Kata Kunci: imbalanced data, k-nearest neighbor, oversampling, undersampling

ABSTRACT
FIQROTUL ULYA. Credit Card Debtor Classification Based On K-Nearest
Neighbor Algorithm for Imbalanced Data. Supervised by AZIZ KUSTIYO.
Data is said to suffer the class imbalanced problem when the class
distribution are highly imbalance. In this case, minority class is more difficult to
predict then the majority class. Though the minority class sometime has important
information. In this paper, classification analysis of credit card debtors is
conducted by using k-nearest neighbor that can classify debtors into two
categories, good or bad. Analysis of a prospective debtor is essential to minimize
credit risk. One approach taken to overcome imbalanced data problems is to
modify instance distribution using oversampling and undersampling method. The
evaluation is conducted by comparing the value of parameter k, accuracy,
precision, recall, and F-measure. The evaluation results show that oversampling
technique gives the best result of 96.24% with k = 3, 99.23% recall with k = 2,
95.21% precision with k = 1, and 96.30% F-measure with k = 3.

Keywords: imbalanced data, k-nearest neighbor, oversampling, undersampling

KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN
ALGORITME K-NEAREST NEIGHBOR UNTUK
KASUS IMBALANCED DATA

FIQROTUL ULYA

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013


Penguji: 1. Toto Haryanto, MKom
2. M Asyhar Aglamaro, MKom

Judul Skripsi : Klasifikasi Debitur Kartu Kredit Menggunakan Algoritme
K-Nearest Neighbor untuk Kasus Imbalanced Data
Nama
: Fiqrotul Ulya
NIM
: G64090019

Disetujui oleh

Aziz Kustiyo, SSi MKom
Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen


Tanggal Lulus:

PRAKATA
Puji syukur kehadirat Allah Subhanahu Wa Taala yang telah melimpahkan
rahmat dan hidayah-Nya, sehingga penulis dapat menyelesaikan skripsi yang
berjudul “Klasifikasi Debitur Kartu Kredit Menggunakan Algoritme K-Nearest
Neighbor untuk Kasus Imbalanced Data”. Skripsi ini merupakan salah satu syarat
untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer,
Institut Pertanian Bogor.
Terima kasih penulis ucapkan kepada kepada ayah, ibu, serta seluruh
keluarga, atas segala doa dan dukungannya. Ungkapan terima kasih juga
disampaikan kepada Bapak Aziz Kustiyo, SSi MKom selaku pembimbing yang
telah memberikan arahan, bimbingan, saran dan motivasi dengan sabar dan
membantu penulis dalam menyelesaikan skripsi ini. Penulis juga mengucapkan
terima kasih kepada dosen penguji, Bapak Toto Haryanto, MKom dan Bapak M
Asyhar Aglamaro, MKom atas saran dan bimbinganya, serta teman-teman satu
bimbingan, Retno Wijayanti, Dhieta Anggraini serta Ilkomerz 46 atas bantuan,
saran, kritik, dan dukungannya kepada penulis.
Semoga karya ilmiah ini bermanfaat.


Bogor, Agustus 2013
Fiqrotul Ulya

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi

PENDAHULUAN

1


Latar Belakang

1

Perumusan Masalah

2

Tujuan Penelitian

2

Manfaat Penelitian

2

Ruang Lingkup Penelitian

2


TINJAUAN PUSTAKA

2

Risiko Kredit

2

Imbalanced Data

3

Sampling

3

K-Fold Cross Validation

3


K-Nearest Neighbor

3

Normalisasi

4

Confusion Matrix

5

METODE

6

Kerangka Penelitian

6


Pengadaan Data

7

Praproses Data

7

10-Fold Cross Validation

8

Proses Klasifikasi Metode KNN

8

Analisis Hasil Klasifikasi

8


HASIL DAN PEMBAHASAN

8

Praproses Data

8

Hasil Klasifikasi

9

Analisis Hasil Klasifikasi

12

Perbandingan dengan Penelitian Sebelumnya

14

SIMPULAN DAN SARAN

15

Simpulan

15

Saran

16

DAFTAR PUSTAKA

16

LAMPIRAN

17

RIWAYAT HIDUP

21

DAFTAR TABEL
1
2
3
4
5

Confusion matrix dua kelas
Karakteristik atribut
Hasil akurasi rata-rata
Hasil precision, recall dan F-measure
Perbandingan dengan penelitian lain

5
9
12
12
14

DAFTAR GAMBAR
1
2
3
4
5
6
7

Alur penelitian
Imbalanced data
Hasil percobaan data asli
Hasil percobaan oversampling replikasi
Hasil percobaan oversampling acak
Hasil percobaan undersampling acak
Hasil percobaan undersampling cluster

6
7
9
10
10
11
11

DAFTAR LAMPIRAN
1
2
3
4
5
6
7
8
9

Daftar atribut
Nilai akurasi undersampling acak
Nilai precision undersampling acak
Nilai recall undersampling acak
Nilai F-measure undersampling acak
Akurasi undersampling cluster 2 sampai cluster 10
Precision undersampling cluster 2 sampai cluster 10
Recall undersampling cluster 2 sampai cluster 10
F-measure undersampling cluster 2 sampai cluster 10

17
18
18
18
18
19
19
19
20

1

PENDAHULUAN
Latar Belakang
Data Bank Indonesia (2013) menyebutkan bahwa daftar penerbit kartu
kredit meningkat menjadi 20 penerbit. Banyaknya bank yang mengembangkan
bisnis kartu kredit menandakan bahwa bisnis ini masih memiliki peluang yang
baik bagi bank penerbit sebagai sumber keuntungan. Kartu kredit menawarkan
kemudahan bagi nasabahnya untuk melakukan berbagai macam transaksi.
Pemegang kartu kredit diwajibkan untuk melakukan pelunasan kewajiban pada
waktu yang telah disepakati baik secara sekaligus ataupun angsuran (Sayono et al.
2009). Aturan dan sistem yang diterapkan terhadap analisis kelayakan calon
debitur sangat penting untuk meminimalisir terjadinya risiko kredit. Debitur yang
lancar dalam memenuhi kewajibannya mampu memberikan keuntungan kepada
bank. Sementara itu, permasalahan dapat terjadi apabila debitur tidak mampu
memenuhi kewajibannya dalam batas waktu yang telah disepakati sehingga dapat
merugikan bank.
Data debitur kartu kredit merupakan salah satu data skala besar dengan
distribusi kelas yang tidak merata antara debitur kategori baik dan buruk.
Kumpulan data yang memiliki kelas tidak terdistribusi secara merata atau data
yang jumlahnya didominasi oleh salah satu kelas disebut imbalanced data.
Penggunaan metode sampling dalam imbalanced data dapat memberikan
distribusi data yang seimbang untuk setiap kelas (He dan Edwardo 2009).
Salah satu metode yang digunakan untuk membangun model klasifikasi
dalam mengidentifikasi debitur ke dalam kategori baik atau buruk adalah k nearest neighbor (KNN). KNN merupakan teknik yang lebih fleksibel karena
mampu mengklasifikasikan data uji ke dalam kelas label dengan cara mencari data
latih yang relatif sama dengan data uji (Tan et al. 2006).
Penelitian terkait tentang klasifikasi debitur kartu kredit dilakukan oleh
Natasia (2013) menggunakan metode voting feature intervals 5 (VFI5) untuk
melakukan pemilihan fitur serta mengukur tingkat akurasinya yang menghasilkan
model terbaik dengan pengukuran akurasi, recall, precision, dan F-measure
sebesar 70.40%, 38.58%, 24.38%, dan 29.88%. Namun, penelitian tersebut tidak
melakukan pendekatan dari sisi teknik sampling sebagai solusi mengatasi kasus
imbalanced data yang terjadi pada dua kelas debitur baik dan buruk. Penelitian
terkait lainnya mengenai ekstraksi informasi untuk kasus imbalanced data
menyatakan bahwa KNN sensitif terhadap persentase jumlah data minoritas, dan
bekerja secara baik pada distribusi data undersampling (Zhang dan Mani 2003).
Tingkat akurasi dari pemodelan tersebut bergantung pada nilai k jumlah
ketetanggaan. Pengembangan model KNN pada penelitian ini dapat menjadi
pertimbangan bank dalam mengklasifikasikan calon debitur sehingga dapat
mengurangi tingkat risiko terjadinya kredit bermasalah. Penelitian ini diharapkan
dapat membantu pihak bank sebagai pertimbangan dalam mengidentifikasi debitur
yang berpotensi tidak memenuhi kewajibannya tepat waktu sehingga dapat
mengurangi tingkat risiko terjadinya kredit bermasalah.

2

Perumusan Masalah
Masalah yang dianalisis dalam penelitian ini adalah :
1 Bagaimana metode KNN dapat mengklasifikasikan nasabah kartu kredit ke
dalam kategori debitur baik atau debitur buruk?
2 Bagaimana akurasi, precision, recall, dan F-measure metode KNN dalam
mengklasifikasikan debitur Bank X pada kasus imbalanced data?
Tujuan Penelitian
Penelitian ini bertujuan untuk menerapkan algoritme KNN untuk
mengklasifikasikan debitur kartu kredit ke dalam kategori debitur baik atau
debitur buruk pada kasus imbalanced data.
Manfaat Penelitian
Penelitian ini diharapkan dapat membantu pihak penerbit kartu kredit
sebagai pertimbangan dalam mengidentifikasi debitur yang berpotensi tidak
memenuhi kewajibannya tepat waktu sehingga dapat mengurangi tingkat risiko
terjadinya kredit bermasalah.
Ruang Lingkup Penelitian
Data dalam penelitian ini merupakan data penelitian Setiawati (2011), yaitu
data debitur Bank X mengenai status kelancaran pembayaran utang kartu kredit
antara tahun 2008 dan 2009. Data yang diamati berjumlah 3895 dengan 14 atribut,
3259 termasuk ke dalam kategori debitur baik, yaitu debitur yang tepat membayar
hutangnya dalam kurun waktu 90 hari serta 636 debitur buruk yang menunggak
utang lebih dari 90 hari. Terdapat ketidakseimbangan data dengan jumlah data
debitur yang termasuk ke dalam kategori baik mendominasi keseluruhan data.

TINJAUAN PUSTAKA
Risiko Kredit
Menurut Undang-Undang No. 14 Tahun 1967 tentang Pokok-pokok
Perbankan, yang dimaksud dengan kredit adalah penyediaan uang atau tagihantagihan berdasarkan persetujuan pinjam-meminjam antara bank dengan pihak lain
dalam hal mana pihak peminjam berkewajiban melunasi utangnya setelah jangka
waktu tertentu dengan jumlah bunga yang telah ditetapkan. Pada perjalanannya
tidak sedikit pihak yang berhutang terlambat dalam memenuhi kewajibannya
sehingga bank menderita kerugian. Berdasarkan Peraturan Bank Indonesia
No.11/25/BI/2009, risiko kredit adalah risiko akibat kegagalan debitur dalam
memenuhi kewajiban kepada bank. Oleh karena itu, manajemen risiko kredit

3

diperlukan dalam melakukan pemantauan terhadap nasabah untuk menekan
kerugian.
Imbalanced Data
Imbalanced data merupakan keadaan data dengan salah satu kelas memiliki
porsi yang tidak sebanding dengan kelas yang lainnya. Bentuk ketidakseimbangan
tersebut pada beberapa data menunjukkan perbandingan yang sangat signifikan
jumlah antar kelasnya, yaitu 100:1, 1000:1, bahkan ada yang mencapai 10 000:1.
Hal tersebut berpengaruh pada algoritme klasifikasi yang menghasilkan akurasi
prediksi yang baik pada kelas data yang memiliki jumlah instance besar atau kelas
mayoritas tetapi menghasilkan akurasi prediksi yang kurang baik terhadap kelas
dengan jumlah instance lebih kecil atau kelas minoritas, sehingga dapat pula
terjadi penyimpangan prediksi, yaitu kelas minoritas di prediksikan ke dalam
kelas mayoritas. Salah satu solusi dari masalah imbalanced data adalah
penggunaan metode sampling yang dapat memberikan distribusi data seimbang
untuk setiap kelas (He dan Edwardo 2009).
Sampling
Metode sampling untuk menangani masalah pada imbalanced data
diantaranya adalah undersampling dan oversampling (He dan Edwardo 2009).
Undersampling adalah proses membuang sebagian data dari kelas minoritas agar
diperoleh data yang seimbang, sedangkan oversampling adalah proses
menduplikasi data dari kelas minoritas untuk mendapatkan data dengan kelas
yang seimbang. Dalam kasus Undersampling, dapat menyebabkan classifier
melewatkan informasi penting karena sebagian data pada kelas mayoritas
dihilangkan (He dan Edwardo 2009).
K-Fold Cross Validation
Data dalam metode k-fold cross validation akan dibagi menjadi k subset
dengan ukuran yang sama. Pelatihan dan pengujian dilakukan sebanyak k kali.
Pada iterasi pertama, subset 1 akan menjadi data uji, sedangkan subset 2, subset
3, ..., subset k akan menjadi data latih. Proses selanjutnya, subset 2 akan menjadi
data uji, subset 1, subset 3, ..., subset k menjadi data latih, dan seterusnya
sebanyak k iterasi (Han dan Kamber 2006).
Metode evaluasi standar yang banyak digunakan adalah 10-fold cross
validation. Menurut penelitian Kohavi (1995) dari berbagai percobaan
menunjukkan bahwa 10-fold cross validation adalah pilihan terbaik untuk
mendapatkan hasil validasi yang akurat.
K-Nearest Neighbor
Nilai k atau jumlah tetangga terdekat pada metode ini bergantung pada data
yang digunakan. Nilai k yang tinggi akan mengurangi noise pada klasifikasi,
namun akan membuat batasan antara setiap klasifikasi menjadi semakin kabur.
Fungsi jarak yang umumnya digunakan adalah jarak Euclidean dengan
menggunakan rumus sebagai berikut :

4

n

d(x,y) =
i=1

(xi -yi )2

keterangan :
x = x1, x2, ..., xm adalah instance data uji
y = y1, y2, ..., ym adalah instance data latih
xi-yi = kuadrat selisih data uji dan data latih

Penggunaan rumus jarak Euclidean tidak tepat digunakan untuk atribut
bertipe nominal. Berbeda dengan atribut pendidikan, yang termasuk atribut
ordinal tetap dihitung dengan rumus perhitungan jarak Euclidean karena nilai
tingkatan tinggi rendahnya pendidikan masih relevan dengan konsep perhitungan
jarak Euclidean. Atribut yang bertipe nominal terlebih dahulu dilambangkan
dengan nilai numerik untuk mempermudah perbandingan pengukuran jarak,
kemudian digunakan fungsi sebagai berikut :
di =

0
1

jika xi = yi
selainnya

jika data latih sama dengan data uji jaraknya 0, selainnya berjarak 1 (Larose
2005).
Setelah itu dilakukan penggabungan atau agregate ketidaksamaan berat
rata-rata dari jarak masing-masing atribut hasil perhitungan jarak Euclidean dan
atribut nominal dengan rumus sebagai berikut :

∑nk=1 wijk × sijk
Sij =
∑nk=1 wijk

dengan k merupakan variabel fitur, ij merupakan selisih data latih dan data uji, Sij
merupakan kesamaan dan ketidaksamaan antara objek dengan Wijk bernilai 1
untuk nilai numerik dan 0.5 untuk nilai nominal (Teknomo 2006). Nilai
pembobotan tersebut diberikan agar jarak atribut nominal tidak terlalu
mendominasi hasil perhitungan.
Normalisasi
Atribut dengan nilai rentang yang cukup panjang dibandingkan dengan nilai
atribut lainnya memiliki pengaruh besar terhadap atribut berskala pendek
(Nurjayanti 2011). Oleh karena itu, untuk menghindari perbedaan rentang tersebut
dilakukan tahap normalisasi data untuk atribut pendapatan, jumlah tanggungan,
masa kerja, lama tinggal, dan umur, sehingga didapatkan range antara 0 sampai 1
menggunakan teknik min-max normalization, dengan rumus sebagai berikut
(Larose 2005) :
X* =

X - min(X)
max(X) - min(X)

5

Keterangan :
X* = nilai setelah normalisasi
X = nilai sebelum normalisasi
min(X) = nilai minimum atribut
max(X) = nilai maksimum dari suatu atribut
Confusion Matrix
Evaluasi hasil klasifikasi didapatkan dari confusion matrix pada Tabel 1
(Weng dan Poon 2008).
Tabel 1 Confusion matrix dua kelas
Kelas hasil prediksi
Kelas positif
Kelas negatif
True Positive
False Negative
False Positive
True Negative

Kelas aktual
Kelas positif
Kelas negatif

Keterangan :
- True Positive (TP) adalah jumlah dari kelas positif, yaitu kelas yang
mempunyai jumlah instance lebih sedikit yang benar diklasifikasikan.
- False Negative (FN) adalah jumlah kelas positif yang salah
diklasifikasikan dalam kelas negatif.
- False Positive (FP) adalah jumlah kelas negatif yang diklasifikasikan
ke dalam kelas positif.
- True Negative (TN) adalah jumlah kelas negatif yang benar
diklasifikasikan.
Kinerja metode klasifikasi yang dijelaskan lebih lanjut berdasarkan nilai
akurasi, precision, recall, dan F-measure dengan rumus berikut (Weng dan Poon
2008) :
 Akurasi (Ac)
TP+TN
Ac =
× 100%
TP+TN+FP+FN
 Precision (P)

P=
 Recall (R)
R=
 F-Measure (F)
F=

TP
× 100%
TP+FP
TP
× 100%
TP+FN

2 × Recall × Precision
× 100%
Recall + Precision

6

METODE
Kerangka Penelitian
Metode pada penelitian ini memiliki beberapa tahapan yang disajikan dalam
Gambar 1.
Mulai

Identifikasi
Masalah

Pengadaan Data

Praproses Data
10-Fold Cross
Validation

Data Latih

Data Uji

KNN

Hasil Prediksi

Analisis Hasil

Selesai
Gambar 1 Alur penelitian

7

Pengadaan Data
Penelitian ini menggunakan data sekunder debitur Bank X mengenai status
kelancaran pembayaran utang kartu kredit tahun 2008 sampai dengan tahun 2009.
Keseluruhan data asli yang belum mengalami praproses data berjumlah 4413
dengan 2 kelas, yaitu, 3574 data kelas debitur baik dan 839 data kelas debitur
buruk. Terdapat ketidakseimbangan data dengan jumlah data debitur yang
termasuk ke dalam kategori baik mendominasi sebesar 81% dari keseluruhan data,
yang disajikan pada Gambar 2.

19%

81%

Debitur baik
Debitur buruk

Gambar 2 Imbalanced data
Praproses Data
Eksplorasi data dilakukan untuk mengetahui karakteristik data serta
permasalahan keberadaan missing value. Data awal berjumlah 4413 dengan 14
atribut, 7 atribut diantaranya termasuk ke dalam kategori atribut rasio, yaitu
pendapatan, jumlah tanggungan, umur, masa kerja, lama tinggal, banyaknya kartu
kredit lain, dan persentase utang kartu kredit lain, serta 6 atribut lainnya termasuk
ke dalam kategori atribut bertipe nominal, yaitu jenis kelamin, status pekerjaan,
jenis pekerjaan, tipe perusahaan, status rumah, dan status pernikahan, sedangkan
pendidikan tergolong ke dalam atribut ordinal. Penghapusan data dilakukan
terhadap record yang memiliki missing value dan nilai yang tidak relevan, seperti
pada atribut pendapatan yang memiliki nilai minus, sehingga data yang diproses
dalam penelitian ini berjumlah 3895 dengan 14 atribut, dengan 3259 termasuk ke
dalam kategori debitur baik dan 636 debitur buruk.
Ketidakseimbangan yang terjadi pada masing-masing kelas dengan data
pada kelas kategori debitur baik memiliki jumlah yang jauh lebih besar
dibandingkan dengan kategori debitur buruk, sehingga harus dilakukan modifikasi
distribusi data dengan teknik oversampling dan undersampling (He dan Edwardo
2009). Dalam penelitian ini, teknik oversampling dilakukan dengan 2 cara, yaitu
dengan cara membangkitkan data kelas minoritas secara acak sehingga jumlahnya
sama dengan kelas mayoritas dan teknik oversampling kedua dengan mereplikasi
kelas minoritas sebanyak data pada kelas mayoritas. Modifikasi distribusi data
teknik undersampling dilakukan dengan mengurangi jumlah kelas mayoritas
sehingga jumlahnya sama dengan kelas minoritas. Dalam penelitian ini, dilakukan
2 cara teknik undersampling. Cara pertama, data mayoritas diambil secara acak
sebanyak data minoritas yang dilakukan sebanyak 3 kali percobaan. Cara kedua,

8

dilakukan proses clustering untuk data mayoritas sebanyak 9 kali percobaan,
mulai dari 2 cluster sampai 10 cluster. Percobaan dilakukan pada setiap cluster
dengan mengambil beberapa sampel dari setiap cluster yang banyaknya diperoleh
dari rumus berikut :
=

jumlah data cluster i
× jumlah data kelas minoritas
jumlah data kelas mayoritas

Jumlah total data yang digunakan untuk teknik oversampling adalah 6518,
sedangkan untuk teknik undersampling adalah 1272 data.
10-Fold Cross Validation
Data dibagi menjadi data uji dan data latih secara acak dengan pemilihan 10
fold. Metode ini membagi data menjadi 10 bagian. Masing-masing bagian tersebut
secara bergantian digunakan sebagai data latih dan data uji sampai dengan total 10
iterasi. Pemilihan jumlah 10 fold ini atas dasar pertimbangan jumlah data yang
digunakan cukup besar, sehingga dibagi menjadi 10 bagian.
Proses Klasifikasi Metode KNN
Tahapan selanjutnya adalah proses klasifikasi menggunakan KNN dengan
mencari jarak terdekat antara data uji dengan K tetangga terdekatnya dalam data
latih. Langkah-langkah pada metode KNN adalah :
1. Menghitung jarak Euclidean untuk data numerik yang sebelumnya telah
dilakukan normalisasi data.
2. Atribut nominal yang sudah dilambangkan dengan nilai numerik, dihitung
jaraknya dengan membandingkan data latih dan data uji.
3. Penggabungan jarak dari hasil perhitungan jarak Euclidean dan perhitungan
data atribut nominal.
4. Penentuan nilai k sebagai jumlah tetangga terdekat dalam metode KNN.
Analisis Hasil Klasifikasi
Kinerja metode klasifikasi dievaluasi dari hasil perhitungan akurasi,
precision, recall, dan F-measure. Dalam penelitian ini, nilai akurasi, precision,
recall, dan F-measure dinyatakan dalam persen, semakin tinggi persentase
akurasi, precision, recall, dan F-measure, maka semakin baik kinerja metode
klasifikasi.

HASIL DAN PEMBAHASAN
Praproses Data
Berdasarkan eksplorasi data yang dilakukan, diketahui bahwa tidak semua
atribut memiliki nilai yang relevan dan lengkap. Oleh karena itu, dilakukan
penghapusan data terhadap instance yang memiliki missing value dan nilai yang

9

tidak relevan. Banyaknya instance yang tidak digunakan dalam proses klasifikasi
adalah 518, sehingga sehingga data yang diproses dalam penelitian ini berjumlah
3895 dengan 14 atribut, dengan 3259 termasuk ke dalam kategori debitur baik dan
636 debitur buruk. Dari praproses data ini diketahui bahwa jumlah instance
debitur baik berkurang dari 3574 menjadi 3259, sedangkan kelas debitur buruk
berkurang dari 839 menjadi 636. Pada tahap praproses data diketahui pula
karakteristik dari atribut, selengkapnya dapat dilihat pada Tabel 2.
Tabel 2 Karakteristik atribut
Rasio
Nominal
1. Pendapatan
1. Jenis kelamin
2. Jumlah tanggungan
2. Status pekerjaan
3. Umur
3. Jenis pekerjaan
4. Masa kerja
4. Tipe perusahaan
5. Lama tinggal
5. Status rumah
6. Banyaknya kartu kredit lain 6. Status pernikahan
7. Persentase utang kartu
kredit lain

Ordinal
1. Pendidikan

Hasil Klasifikasi
Percobaan Data Asli
Data asli yang dimaksud dalam percobaan ini adalah data yang sudah
melalui tahap praproses data dan belum mengalami proses sampling, dengan 636
data minoritas merupakan kategori debitur buruk atau yang digolongkan kedalam
kelas minoritas atau kelas positif dan 3259 data mayoritas merupakan debitur baik
atau kelas negatif, sehingga total untuk percobaan data asli berjumlah 3895 data.
Akurasi, recall, precision dan F-measure terbaik percobaan data asli dapat dilihat
pada Gambar 3.
100%
80%

80.87%

60%

42.19%

40%

28.86%

29.81%

20%
0%

Akurasi

Recall

Precision F-measure

Gambar 3 Hasil percobaan data asli
Percobaan Oversampling Replikasi
Pada percobaan ini, distribusi data minoritas akan dibangkitkan dengan cara
mereplikasi kelas minoritas sehingga jumlahnya menjadi 2623 data. Data tersebut

10

akan digabungkan dengan 636 data asli kelas minoritas dan 3259 data asli pada
kelas mayoritas sehingga jumlah total sebanyak 3259 data. Perbedaan dengan
teknik oversampling acak adalah susunan data akan sama dengan data kelas
minoritas karena hanya melakukan replikasi saja. Akurasi, recall, precision dan Fmeasure terbaik percobaan oversampling replikasi dapat dilihat pada Gambar 4.
96.24%
99.23%
95.21%
96.30%
100%
80%
60%
40%
20%
0%

Akurasi

Recall

Precision

F-measure

Gambar 4 Hasil percobaan oversampling replikasi
Percobaan Oversampling Acak
Teknik oversampling acak dilakukan dengan cara membangkitkan data
kelas minoritas sehingga jumlahnya sama dengan kelas mayoritas. Pada
percobaan ini, distribusi data minoritas akan dibangkitkan secara acak sebanyak
2623 data. Data pada atribut rasio dibangkitkan dengan sampel acak, sedangkan
data pada atribut nominal dibangkitkan dengan sampel acak diskret yang
mempertimbangkan nilai peluang pada setiap kemunculan nilainya, 2623 data
tersebut akan digabungkan dengan 636 data asli kelas minoritas dan 3259 data asli
pada kelas mayoritas sehingga jumlah kelas minoritas sama dengan kelas
mayoritas, yaitu sebanyak 3259 data. Akurasi, recall, precision dan F-measure
terbaik percobaan oversampling acak dapat dilihat pada Gambar 5.
100%

84.27%

90.40%

86.23%

83.91%

Recall

Precision

F-measure

80%
60%
40%
20%
0%

Akurasi

Gambar 5 Hasil percobaan oversampling acak
Percobaan Undersampling Acak
Proses undersampling acak dilakukan dengan mengurangi jumlah data kelas
mayoritas secara acak menjadi 636 data sesuai jumlah pada kelas minoritas.

11

Pengurangan data dilakukan sebanyak 2623 data pada kelas mayoritas sehingga
jumlahnya menjadi 636 data. Kemudian, 636 data pada kelas mayoritas tersebut
digabung dengan 636 data kelas minoritas sehingga total data yang diproses
adalah 1272. Akurasi, recall, precision dan F-measure terbaik percobaan
undersampling acak dapat dilihat pada Gambar 6.
100%
80%

77.28%

83.60%

82.86%

Recall

Precision

75.99%

60%
40%
20%
0%

Akurasi

F-measure

Gambar 6 Hasil percobaan undersampling acak
Percobaan Undersampling Cluster
Proses clustering pada percobaan ini dilakukan untuk 3259 data kelas
mayoritas dengan 9 kali percobaan clustering, yaitu data tersebut dibagi menjadi 2
cluster, 3 cluster, 4 cluster dan seterusnya sampai 10 cluster. Untuk setiap cluster
tersebut akan diambil sejumlah data dari masing-masing cluster sehingga
jumlahnya menjadi 636 data yang kemudian akan digabungkan dengan 636 data
kelas minoritas sehingga total data adalah 1272. Akurasi, recall, precision dan Fmeasure terbaik percobaan undersampling cluster dapat dilihat pada Gambar 7.
100%
80%

81.45%
66.66%

67.52%

68.87%

Precision

F-measure

60%
40%
20%
0%

Akurasi

Recall

Gambar 7 Hasil percobaan undersampling cluster

12

Analisis Hasil Klasifikasi
Evaluasi digunakan untuk mengukur kinerja metode klasifikasi, dalam
penelitian ini digunakan untuk mengukur keakuratan metode klasifikasi yang
diukur dengan akurasi, precision, recall, dan F-measure. Recall didefinisikan
sebagai persentase antara data kelas debitur buruk yang dikelaskan dengan benar
dan data kelas debitur buruk yang salah diprediksi ke kelas debitur baik. Precision
adalah persentase dari kelas debitur buruk yang dikelaskan dengan benar dan
kelas yang seharusnya termasuk kelas debitur baik tetapi dikelaskan sebagai kelas
debitur buruk, sedangkan untuk F-Measure yang memiliki nilai tinggi
menyatakan bahwa nilai recall dan precision juga tinggi.
Berdasarkan hasil klasifikasi, diperoleh nilai akurasi percobaan pada data
asli, oversampling replikasi, oversampling acak, undersampling acak dan
undersampling cluster yang diperlihatkan pada Tabel 3, untuk precision, recall,
dan F-measure diperlihatkan pada Tabel 4. Nilai akurasi, precision, recall, dan Fmeasure dinyatakan dalam persen, semakin tinggi persentase nilainya, maka
semakin baik kinerja metode klasifikasi.
Tabel 3 Hasil akurasi rata-rata
Teknik sampling
k=1
k=2
k=3
k=4
k=5
74.89% 67.76% 79.92% 76.46% 80.87%
Data asli
Oversampling replikasi
96.13% 95.73% 96.24% 95.77% 95.93%
Oversampling acak
84.12% 81.28% 84.27% 82.13% 82.05%
Undersampling acak
74.21% 73.42% 76.02% 74.92% 77.28%
Undersampling cluster
65.18% 63.12% 65.62% 64.44% 66.66%
Tabel 4 Hasil precision, recall dan F-measure
Teknik sampling
k=1
k=2
k=3
k=4
Precision
Data asli
23.64% 23.05% 28.86% 27.03%
Oversampling replikasi
95.21% 92.78% 94.32% 92.87%
Oversampling acak
85.07% 76.47% 86.23% 79.56%
Undersampling acak
74.21% 69.65% 79.73% 73.89%
Undersampling cluster
65.18% 59.70% 66.09% 61.91%
Recall
Data asli
23.83% 42.19% 15.91% 26.61%
Oversampling replikasi
97.13% 99.23% 98.36% 99.14%
Oversampling acak
82.78% 90.40% 81.53% 86.54%
Undersampling acak
72.23% 83.60% 70.57% 76.88%
Undersampling cluster
64.88% 81.45% 64.44% 76.37%
F-Measure
Data asli
23.73% 29.81% 20.52% 26.82%
Oversampling replikasi
96.16% 95.90% 96.30% 95.90%
Oversampling acak
83.91% 82.85% 83.82% 82.91%
Undersampling acak
73.65% 75.99% 74.87% 75.36%
Undersampling cluster
65.12% 68.87% 65.24% 68.32%

k=5
27.65%
93.80%
83.75%
82.86%
67.52%
10.64%
98.38%
79.58%
68.42%
65.20%
15.36%
96.04%
81.61%
74.95%
66.29%

13

Berdasarkan Tabel 3 dan Tabel 4, dapat diketahui bahwa hasil klasifikasi
pada data asli tidak lebih baik dari hasil klasifikasi pada data yang sudah
mengalami modifikasi distribusi data. Akurasi pada percobaan data asli diperoleh
sebesar 80.87% untuk k = 5. Namun, nilai precision, recall, dan F-measure yang
dihasilkan dari percobaan data asli tidak sebaik hasil akurasinya. Precision
tertinggi diperoleh ketika nilai k =3 yaitu sebesar 28.86%, sementara itu recall dan
F-measure tertinggi diperoleh ketika nilai k = 2, yaitu sebesar 42.19% dan
29.81%. Hal tersebut terjadi karena distribusi data pada kelas mayoritas yang
jumlahnya lima kali lebih besar dibandingkan kelas minoritas terlalu
mendominasi keseluruhan data, padahal yang menjadi fokus penelitian ini adalah
data minoritas, yaitu data debitur kategori buruk.
Ketika percobaan metode distribusi data undersampling dengan clustering
diterapkan pada data kelas debitur baik, jarak antara satu instance dengan instance
yang lain diukur kedekatannya pada saat proses clustering sehingga diperoleh
akurasi yang cukup stabil untuk percobaan dengan nilai k = 1 sampai dengan k =
5. Hasil undersampling cluster pada Tabel 4 merupakan hasil rata-rata dari
percobaan yang dilakukan pada data yang sudah melalui proses clustering 2
cluster sampai dengan 10 cluster. Akurasi tertinggi diperoleh ketika nilai k = 5
yaitu sebesr 66.66%, sedangkan untuk nilai precision tertinggi sebesar 67.52%
ketika nilai k = 5, recall tertinggi sebesar 81.45% untuk nilai k = 2 serta Fmeasure tertinggi sebesar 68.87% untuk nilai k = 2.
Hasil undersampling acak yang diperoleh dari rata-rata 3 kali percobaan
memiliki nilai akurasi, precision, recall, dan F-measure lebih baik jika
dibandingkan dengan hasil pada undersampling cluster. Akurasi tertinggi
diperoleh ketika nilai k = 5 yaitu sebesar 77.28%, sedangkan untuk nilai precision
tertinggi sebesar 82.86% ketika nilai k = 5, recall tertinggi sebesar 83.60% untuk
nilai k = 2 serta F-measure tertinggi sebesar 75.99% untuk nilai k = 2.
Berdasarkan Tabel 3 dan Tabel 4, dapat diketahui untuk evaluasi nilai
akurasi yang tertinggi diperoleh dari percobaan data oversampling replikasi
dengan nilai k =1 yaitu sebesar 96,13%. Begitu juga dengan hasil akurasi
oversampling acak yang masih lebih unggul dibandingkan dengan modifikasi
distribusi data undersampling yaitu sebesar 84.27% untuk nilai k = 3. Namun,
akurasi dapat mengalami penurunan seiring bertambahnya nilai k. Keunggulan
distribusi data dengan teknik oversampling dibuktikan pula dengan hasil
precision, recall, dan F-measure, yaitu sebesar 95.21% ketika nilai k = 1, 99.23%
ketika nilai k = 2, 96.30% ketika nilai k =3 untuk oversampling replikasi dan
86.23% ketika nilai k = 3, 90.40% ketika nilai k = 2, 83.91% ketika nilai k = 1
untuk oversampling acak.
Dari beberapa teknik distribusi data yang diujikan, diketahui bahwa data
yang didistribusikan melalui teknik oversampling memiliki nilai akurasi,
precision, recall, dan F-measure lebih baik. Jika dikaitkan dengan konsep
algoritme KNN yang merepresentasikan data dalam k ruang dimensi serta
mengklasifikasikan data berdasarkan ukuran kedekatan jarak, pada percobaan data
oversampling, data minoritas yang jumlahnya jauh lebih sedikit dibangkitkan dan
ketika sebuah data uji dihitung kedekatannya dengan titik lain pada data latih,
kemungkinan data tersebut membandingkan jarak dengan dirinya sendiri,
sehingga berdampak juga pada hasil confusion matrix.

14

Perbandingan dengan Penelitian Sebelumnya
Jika dibandingkan dengan penelitian sebelumnya yang dilakukan oleh
Natasia (2013), terjadi perbedaan yang cukup tinggi untuk tingkat akurasi,
precision, recall, dan F-measure yang perlihatkan dalam Tabel 5. Penelitian
tersebut dilakukan pada data dan jumlah atribut yang sama, namun dengan
pendekatan berbeda, yaitu dari sisi algoritme VFI5 tanpa melakukan modifikasi
distribusi data kelas minoritas maupun kelas mayoritas dalam mengatasi kasus
imbalanced data.
Tabel 5 Perbandingan dengan penelitian lain
Akurasi

Recall

Model 1

65.30%

40.63%

21.14%

27.81%

Model 2

67.74%

46.88%

24.69%

32.81%

Model 3

70.40%

38.58%

24.38%

29.88%

Data asli

80.87%

42.19%

28.86%

29.81%

96.24%

99.23%

95.21%

96.30%

84.27%

90.40%

86.23%

83.91%

77.28%

83.60%

82.86%

75.99%

66.66%

81.45%

67.52%

68.87%

Pendekatan

Algoritme

Sampling

Oversampling
replikasi
Oversampling
acak
Undersampling
acak
Undersampling
cluster

Precision F-Measure

Keterangan :
Model 1 : model VFI5 menggunakan semua fitur
Model 2 : model VFI5 menggunakan semua fitur berakurasi > 50%
(best subset regression)
Model 3 : model VFI5 hasil pemilihan fitur bertahap (forward selection)
Sampling : metode KNN
Dalam penelitian tersebut, dibuat 3 model VFI5, yaitu model 1
menggunakan semua fitur meghasilkan nilai akurasi, precision, recall, dan Fmeasure sebesar 65.30% , 40.63%, 21.14%, dan 27.81%. Sementara itu, untuk
model 2 menggunakan fitur dengan akurasi kurang dari 50% menggunakan
metode best subset regression, menghasilkan nilai masing-masing sebesar
67.74%, 46.88%, 24.69%, dan 32.35%, sedangkan model 3 merupakan hasil
pemilihan fitur bertahap dengan hasil akurasi 70.40%, precision 38.58%, recall
24.38%, dan F-measure 29.88%. Hasil akurasi, precision, recall, dan F-measure
dari ketiga model tersebut tidak jauh berbeda dengan percobaan data asli pada
pendekatan sampling untuk klasifikasi dengan metode KNN. Pada percobaan
menggunakan data asli akurasi tertinggi didapat ketika nilai k = 5 yaitu sebesar
80.87%, untuk recall tertinggi yaitu sebesar 42.19% saat k = 2, precision tertinggi
sebesar 28.86% ketika k = 3 dan nilai F-measure tertinggi didapat ketika nilai k =

15

2 yaitu sebesar 29.81%. Dari hasil tersebut dapat diketahui bahwa percobaan pada
data asli menggunakan metode KNN memiliki nilai akurasi, precision, recall, dan
F-measure yang lebih baik dari ketiga model menggunakan metode VFI5.
Jika hasil percobaan dengan metode VFI5 tersebut dibandingkan dengan
hasil percobaan pada data yang sudah mengalami modifikasi dengan teknik
oversampling dan undersampling, hasil evaluasi memiliki perbedaan yang cukup
besar. Perbedaan yang sangat sigifikan terlihat pada hasil percobaan oversampling
replikasi dengan nilai akurasi 96.24% ketika k = 3, nilai recall 99.23% ketika k =
2, nilai precision 95.21% ketika k = 1, dan nilai F-measure sebesar 96.30% ketika
k = 3. Teknik modifikasi distribusi data oversampling dan undersampling
menghasilkan nilai akurasi, precision, recall, dan F-measure yang lebih baik,
tetapi jika dilihat dari sisi algoritme, VFI5 memiliki keunggulan untuk waktu
pelatihan dan klasifikasi yang lebih singkat jika dibandingkan dengan metode
KNN.

SIMPULAN DAN SARAN
Simpulan
Berdasarkan penelitian yang telah dilakukan dengan metode KNN dapat
diperoleh kesimpulan sebagai berikut :
1. Percobaan menggunakan data asli menghasilkan akurasi tertinggi ketika k = 5
yaitu sebesar 80.87% serta recall tertinggi sebesar 42.19% ketika k = 2,
precision tertinggi sebesar 28.86% ketika k = 3 dan F-measure tertinggi
sebesar 29.81% ketika k = 2.
2. Percobaan menggunakan data oversampling replikasi menghasilkan nilai
akurasi yang baik, yaitu sebesar 96.24% ketika k =3. Hasil yang baik
ditunjukan pula pada recall, precision, dan F-measure dengan nilai masingmasing sebesar 99.23% ketika k = 2, 95.21% ketika k = 1, dan 96.30% ketika k
= 3.
3. Percobaan menggunakan data oversampling acak menghasilkan akurasi
tertinggi ketika k = 3, yaitu sebesar 84.27%, untuk nilai recall, precision, dan
F-measure data minoritas diperoleh hasil sebesar 90.40% ketika k = 2, 86.23%
ketika k = 3, dan 83.91% ketika k = 1.
4. Percobaan menggunakan data undersampling acak menghasilkan akurasi
tertinggi sebesar 77.28% ketika k = 5, untuk recall, precision, dan F-measure
dengan nilai masing masing sebesar 83.60% ketika k = 2, 82.86% ketika k = 5,
dan 75.99% ketika k = 1.
5. Percobaan menggunakan data undersampling cluster menghasilkan akurasi
tertinggi sebesar 66.66% ketika k = 5, untuk recall, precision, dan F-measure
dengan nilai masing-masing sebesar 81.45% ketika k = 2, 68.87% ketika k = 5,
dan 68.87% ketika k = 2.
Berdasarkan percobaan klasifikasi dengan KNN diketahui bahwa sampel
yang sudah mengalami modifikasi distribusi data melalui teknik oversampling dan
undersampling memiliki nilai akurasi, precision, recall, dan F-measure lebih baik
dibandingkan dengan data asli yang belum mengalami modifikasi. Hasil
percobaan terbaik diperoleh dari percobaan teknik oversampling replikasi,

16

sehingga dapat disimpulkan bahwa modifikasi distribusi data pada kasus
imbalance data dapat meningkatkan kinerja klasifikasi dengan metode KNN.
Saran
Pada penelitian selanjutnya diharapkan dapat dilakukan percobaan dengan
teknik sampling lain seperti SMOTE (synthetic minority oversampling technique)
dalam mengatasi imbalanced data, serta algoritme modifikasi KNN, seperti
weighted KNN.

DAFTAR PUSTAKA
Bank Indonesia. 2013. Daftar penerbit kartu kredit. [diunduh 2013 Maret 18].
Tersedia pada: http://bi.go.id/Statistik/Statistik+Sistem+Pembayaran/APMK/
Han J, Kamber M. 2006. Data Mining Concept and Tehniques. San Fransisco
(US): Morgan Kauffman.
He H, Edwardo AG. 2009. Learning from imbalanced data. IEEE Transactions on
Knowledge and Data Engineering. 21(9):1263-1284.
Kohavi R. 1995. A study of cross validation and bootstrap for accuracy estimation
and model selection. Di dalam: Proceedings of the International Joint
Conference on Articial Intelligence (IJCAI). 2:1137-1143.
Larose DT. 2005. Discovering Knowledge in Data : An Introduction to Data
Mining. Canada (US) : John Wiley & Sons, Inc.
Natasia SR. 2013. Klasifikasi debitur kartu kredit dengan pemilihan fitur
menggunakan Voting Feature Intervals 5 [skripsi]. Bogor (ID): Institut
Pertanian Bogor.
Nurjayanti B. 2011. Identifikasi shorea menggunakan K-Nearest Neighbour
berdasarkan karakteristik morfologi daun [skripsi]. Bogor (ID): Institut
Pertanian Bogor.
Sayono JA, Sumarwan U, Achsani NA, Hartoyo. 2009. Analisis faktor-faktor
yang mempengaruhi kepemilikan, penggunaan, pembayaran, dan peluang
terjadinya gagal bayar dalam bisnis kartu kredit. Jurnal Ekonomi dan Bisnis. 3
(1):61-80.
Setiawati PA. 2011. Penelusuran banyaknya unit dan lapisan tersembunyi jaringan
saraf tiruan pada data tidak seimbang [skripsi]. Bogor (ID): Institut Pertanian
Bogor.
Tan PN, Steinbach M, Kumar V. 2006. Introduction to Data Mining. Boston
(US): Pearson Education.
Teknomo K. 2006. Similarity measurement. [diunduh 2012 Des 9]. Tersedia
pada : http://people.revoledu.com/kardi/tutorial/Similarity/
Weng CG, Poon J. 2008. A new evaluation measure for imbalanced datasets. Di
dalam: Proceedings of the 7th Australasian Data Mining Conference. 87:2732.
Zhang J, Mani I. 2003. kNN Approach do Unbalanced Data distributif : A Case
Study involving Information Extraction*. Workshop on Learning krom
Imbalanced datasets II ICML. Washington DC (US).

17

Lampiran 1 Daftar atribut
Jenis Atribut

Rasio

Nama Atribut

Keterangan

Pendapatan

Dalam rupiah per tahun

Masa Kerja

Dalam bulan

Lama Tinggal

Dalam bulan

Jumlah Tanggungan

Jumlah orang

Umur

Dalam tahun

Banyaknya Kartu Kredit Lain
Persentase Utang Kartu
Kredit Lain

Dalam persen

Jenis Kelamin

1 = Pria
2 = Wanita

Status Pekerjaan

1 = Permanen
2 = Kontrak

Jenis Pekerjaan

1 = Conversion
2 = Pegawai Negeri Sipil
3 = Profesional
4 = Wiraswasta
5 = Perusahaan swasta

Tipe Perusahaan

1 = Kontraktor
2 = Conversion
3 = Industri Berat
4 = Pertambangan
5 = Jasa
6 = Transportasi

Status Rumah

0 = Bukan rumah sendiri
1 = Milik sendiri

Status Pernikahan

1 = Lajang
2 = Menikah
3 = Bercerai

Pendidikan

1 = SMP/SMA
2 = Akademi
3 = S1/S2

Status

1 = Debitur Buruk
2 = Debitur Baik

Nominal

Ordinal

18

Lampiran 2 Nilai akurasi undersampling acak
Undersampling acak 1
Undersampling acak 2
Undersampling acak 3

k=1
74.21
73.99
69.89

k=2
73.42
70.84
67.53

k=3
76.02
75.55
72.01

k=4
74.92
73.04
71.31

k=5
77.28
73.12
70.20

k=3
79.73
77.27
73.78

k=4
73.89
70.74
68.37

k=5
82.86
75.68
72.75

k=3
70.57
72.49
68.53

k=4
74.92
73.04
71.31

k=5
77.28
73.12
70.20

k=3
74.87
74.80
71.06

k=4
75.36
74.46
73.63

k=5
74.95
71.40
68.45

Lampiran 3 Nilai precision undersampling acak
Undersampling acak 1
Undersampling acak 2
Undersampling acak 3

k=1
69.65
66.93
63.45

k=2
69.65
66.93
63.45

Lampiran 4 Nilai recall undersampling acak
Undersampling acak 1
Undersampling acak 2
Undersampling acak 3

k=1
72.23
73.14
67.96

k=2
83.60
83.13
82.31

Lampiran 5 Nilai F-measure undersampling acak
Undersampling acak 1
Undersampling acak 2
Undersampling acak 3

k=1
73.65
73.81
69.05

k=2
75.99
74.15
71.66

19

Lampiran 6 Akurasi undersampling cluster 2 sampai cluster 10
Undersampling cluster 2
Undersampling cluster 3
Undersampling cluster 4
Undersampling cluster 5
Undersampling cluster 6
Undersampling cluster 7
Undersampling cluster 8
Undersampling cluster 9
Undersampling cluster 10
Rata-rata

k=1
75.55
63.33
68.71
63.45
61.20
60.89
62.03
61.99
69.50
65.18

k=2
70.64
61.00
65.73
62.10
61.25
60.06
61.99
59.99
65.33
63.12

k=3
76.10
65.01
64.54
64.16
62.38
62.58
63.29
61.83
70.68
65.62

k=4
74.52
64.59
64.11
62.82
61.91
62.58
60.77
60.77
67.92
64.44

k=5
76.92
66.28
67.65
63.60
63.60
63.52
63.32
62.93
72.13
66.66

Lampiran 7 Precision undersampling cluster 2 sampai cluster 10
Undersampling cluster 2
Undersampling cluster 3
Undersampling cluster 4
Undersampling cluster 5
Undersampling cluster 6
Undersampling cluster 7
Undersampling cluster 8
Undersampling cluster 9
Undersampling cluster 10
Rata-rata

k=1
75.64
63.52
68.77
64.19
61.03
60.79
61.96
62.20
70.23
65.37

k=2
66.63
57.86
61.47
58.78
58.07
57.19
58.55
56.99
61.73
59.70

k=3
78.11
65.77
65.08
64.41
62.06
62.46
63.20
61.94
71.80
66.09

k=4
72.73
61.63
61.32
60.08
59.18
59.79
58.47
58.33
65.72
61.91

k=5
80.13
67.05
68.37
64.33
63.26
63.40
62.96
63.24
74.92
67.52

Lampiran 8 Recall undersampling cluster 2 sampai cluster 10
Undersampling cluster 2
Undersampling cluster 3
Undersampling cluster 4
Undersampling cluster 5
Undersampling cluster 6
Undersampling cluster 7
Undersampling cluster 8
Undersampling cluster 9
Undersampling cluster 10
Rata-rata

k=1
75.29
63.28
63.28
61.16
62.60
61.35
62.63
60.91
68.14
64.29

k=2
83.13
81.03
81.03
80.08
82.59
79.22
81.39
80.53
81.15
81.13

k=3
72.24
63.27
63.27
63.36
63.19
62.39
63.64
61.40
67.72
64.50

k=4
78.80
77.48
77.48
75.67
75.92
77.10
74.95
75.71
74.55
76.41

k=5
71.84
64.77
64.77
61.45
65.06
64.47
64.83
61.67
66.86
65.08

20

Lampiran 9 F-measure undersampling cluster 2 sampai cluster 10
Undersampling cluster 2
Undersampling cluster 3
Undersampling cluster 4
Undersampling cluster 5
Undersampling cluster 6
Undersampling cluster 7
Undersampling cluster 8
Undersampling cluster 9
Undersampling cluster 10
Rata-rata

k=1
75.46
63.40
68.68
62.64
61.81
61.07
62.30
61.55
69.17
65.12

k=2
73.97
67.51
70.96
67.80
68.19
66.43
68.11
66.75
70.12
68.87

k=3
75.06
64.49
63.89
63.88
62.62
62.42
63.42
61.67
69.70
65.24

k=4
75.64
68.64
68.34
66.98
66.51
67.35
65.69
65.89
69.85
68.32

Keterangan : nilai akurasi, recall, precision dan F-measure dinyatakan
dalam persen.

k=5
75.76
65.89
67.07
62.85
64.15
63.93
63.87
62.44
70.66
66.29

21

RIWAYAT HIDUP
Penulis dilahir di Indramayu pada tanggal 27 Juli 1991 sebagai anak kedua
dari pasangan Bapak Moh. Hariri dan Ibu Suparti.
Pada tahun 2009 penulis lulus dari SMA Negeri 1 Sindang Indramayu
kemudian melanjutkan pendidikan jenjang S1 sebagai mahasiswa Departemen
Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut
Pertanian Bogor pada tahun yang sama melalui jalur USMI.
Selama menjalani perkuliahan, penulis aktif dalam berbagai kepanitiaan,
diantaranya kegiatan masa perkenalan mahasiswa baru angkatan 47 untuk divisi
sponsorship, serta kepanitiaan IT TODAY divisi dekorasi dan dokumentasi yang
diselenggarakan oleh Himalkom pada tahun 2011 dan 2012. Selain itu, penulis
menjalani praktek kerja lapangan di Divisi Teknologi Perangkat Lunak PT
Dirgantara Indonesia, Bandung pada bulan Juni sampai Agustus 2012. Dalam
kompetisi Pekan Kreativitas Mahasiswa bidang Karsa Cipta, penulis bersama tim
I-Blood Bank berhasil terpilih sebagai salah satu tim yang didanai DIKTI untuk
merealisasikan sistem informasi persediaan darah di PMI pada tahun 2013.