Seleksi Data Pemrosesan Awal Data

Atribut ini berisi keterangan berapa kali debitur menunggak mengangsur bunga. Atribut ini bertipe numerik. k. TUNG_POKOK Atribut ini berisi jumlah total kredit yang ditunggak oleh debitur. Atribut ini bertipe numerik. l. TUNG_BUNGA Atribut ini berisi jumlah total bunga yang ditunggak oleh debitur. Atribut ini bertipe numerik. m. GAJIPENDAPATAN Atribut ini berisi jumlah gaji atau pendapatan debitur tiap bulan. Atribut ini bertipe numerik. n. JML_TANGGUNGAN Atribut ini berisi jumlah anggota keluarga yang ditanggung oleh debitur. Atribut ini bertipe numerik. o. UANG_DIBAWA Atribut ini berisi jumlah nominal uang yang dibawa pulangdiperoleh debitur setiap bulannya. Atribut ini bertipe numerik. p. STATUS_PINJAMAN Atribut ini berisi keterangan apakah debitur saat mengajukan kredit telah melakukan peminjaman kredit di bank lain atau tidak. Atribut ini bertipe kategorikal. q. JML_SETORANBULAN Atribut ini berisi besar jumlah setoran yang harus diangsur debitur di bank lain setiap bulannya jika debitur saat mengajukan kredit telah melakukan peminjaman kredit di bank lain. Atribut ini bertipe numerik. r. POKOK_BLN Atribut ini berisi jumlah kredit yang harus diangsur debitur setiap bulan. Atribut ini bertipe numerik. s. BUNGA_BLN Atribut ini berisi jumlah bunga yang harus diangsur debitur setiap bulan. Atribut ini bertipe numerik. t. KOLBI1 Atribut ini adalah atribut yang digunakan untuk menyatakan status kredit debitur. Dimana nilai 1 berarti debitur mengangsur dengan baik lancar, 2 berarti debitur sedikit tersendat dalam mengangsur kurang lancar, 3 berarti debitur cukup tersendat dalam mengangsur kredit diragukan, dan 4 berarti debitur berhenti mengangsur macet. Atribut ini merupakan class label pada data debitur tersebut. Gambar 4.1 Atribut pada data debitur setelah tahap seleksi data 2. Pengisian Missing Value Di dalam data set debitur yang telah mengalami seleksi atribut terdapat missing value pada kolom GAJIPENDAPATAN, JML_TANGGUNGAN, UANG _DIBAWA, STATUS_PINJAMAN, JML_SETORANBULAN, baris 1, 18, 37, 38, 42, 50, dan 96. Untuk mengatasi hal ini, kolom yang kosong akan diisi dengan means untuk data dengan atribut numerik dan diisi dengan mode untuk data dengan atribut kategorikal Hewahi dan M. K. Saad, 2007. Hasil pengisian missing value dapat dilihat di lampiran 3. Gambar 4.2 Isi data debitur setelah tahap pengisian missing value

3. Normalisasi Data

Setelah mengisi missing value secara manual dengan teknik means dan mode , dilakukan proses normalisasi atribut. Proses ini dilakukan karena adanya perbedaan range nilai dari tiap – tiap atribut sehingga perlu dilakukan normalisasi agar data memiliki nilai yang tepat dan sama untuk ditambang. Atribut – atribut tersebut akan dinormalisasi agar mempunyai range nilai 0 - 1. Hasil normalisasi dapat dilihat di lampiran 4. Proses normalisasi menggunakan metode min-max normalization sebagai berikut : 4.6 Dimana, v’ : nilai yang sudah ternormalisasi v : nilai lama yang belum ternormalisasi min : nilai minimum dari suatu instance max : nilai maksimum dari suatu instance NewMax : nilai minimum baru dari suatu instance NewMin : nilai maksimum baru dari suatu instance Berikut contoh proses normalisasi data : Tabel 4.1 Contoh atribut pada dataset debitur sebelum normalisasi UMUR NOM_PINJ SB JW NJOP_NT POKOK_BLN BUNGA_BLN 39 30,000,000 11.4 50 3,344,778 600,000 285,000 50 15,000,000 7.2 60 3,229,280 250,000 90,000 52 27,000,000 9.6 40 4,110,556 675,000 216,000 49 21,000,000 9.6 60 3,827,169 350,000 168,000 49 30,000,000 9.6 60 3,803,224 500,000 240,000 47 30,000,000 9.6 60 3,984,900 500,000 240,000 51 21,000,000 9.6 50 3,819,900 420,000 168,000 Tabel 4.2 Contoh atribut pada dataset debitur setelah normalisasi vumur vnom_pinj vsb vjw vnjop_nt vpokok_bln vbunga_bln 0.00 1.00 1.00 0.50 0.13 0.77 1.00 0.85 0.00 0.00 1.00 0.00 -0.31 0.00 1.00 0.80 0.57 0.00 1.00 1.00 0.65 0.77 0.40 0.57 1.00 0.68 0.00 0.40 0.77 1.00 0.57 1.00 0.65 0.46 0.77 0.62 1.00 0.57 1.00 0.86 0.46 0.77 0.92 0.40 0.57 0.50 0.67 0.22 0.40

C. Penambangan Data Dengan Microsoft Excel

Data yang telah mengalami pemrosesan akan ditambang berdasarkan algoritma ECODB . Penambangan data menggunakan Microsoft Excel. Rumus algoritma ECODB akan diterapkan dalam bentuk formula Microsoft Excel.

1. Menormalisasi Data

Sebelum ditambang, data yang telah mengalami pemrosesan awal akan dinormalisasi terlebih dahulu. Proses normalisasi ini dilakukan dengan tujuan membuat data memiliki nilai yang tepat dan sama untuk ditambang. Atribut – atribut tersebut akan dinormalisasi agar mempunyai range nilai 0 – 1. Proses normalisasi menggunakan metode min-max normalization seperti pada rumus 4.6. Formula normalisasi dalam Microsoft Excel adalah sebagai berikut : =cell1-mincellmaxcell-mincell1-0+0 Gambar 4.3 Contoh formula normalisasi data 2. Mencari Jarak Dari Tiap Data Dengan Menggunakan Fungsi Jarak Mixed Euclidian Distance Setelah menormalisasi data, dicari jarak dari tiap data dengan menggunakan fungsi jarak mixed euclidian distance . Pada fungsi ini setiap instance bertipe kategorikal akan diberi nilai 0 jika mempunyai kategori yang sama dan diberi nilai 1 jika mempunyai kategori yang berbeda, sedangkan atribut numerik akan dihitung berdasarkan rumus 5. Formula mencari jarak dalam Microsoft Excel adalah sebagai berikut : =SQRTIFcell1=cell2,0,12+cell3-cell42+cell5- cell62+cell7-cell82+cell9- cell102+IFcell11=cell12,0,12+cell13-cell142+ cell15-cell162+cell17-cell182+cell19-cell202+ cell21-cell222+cell23-cell242+cell25-cell262+ cell27-cell282+cell29-cell302+cell31-cell322+ cell33-cell342+IFcell35=cell36,0,12+cell37-cell382 Gambar 4.4 Contoh formula mencari jarak 3. Menghitung PCL PCL Probability of Class Label adalah nilai probabilitasbanyaknya kemunculan cla ss label yang sama dengan instance T dibandingkan k tetangga terdekatnya. PCL dihitung dengan cara membagi jumlah tetangga terdekat instance T yang mempunyai class label yang sama termasuk instance T sendiri dengan nilai k. Formula menghitung PCL dalam Microsoft Excel adalah sebagai berikut : =cell1k Gambar 4.5 Contoh formula menghitung PCL 4. Meranking List Top N Outlier Dari Instance Dengan Nilai PCLT,K Terkecil Setelah menghitung nilai PCL, data diranking secara kecil ke besar berdasarkan nilai PCLT,K terkecil sesuai dengan masukan top N . Top N adalah jumlah instances yang dideteksi sebagai outlier yang diurutkan secara kecil ke besar. Misalkan masukan top N = 10, maka akan diranking 10 instance dengan nilai PCLT,K terkecil. Untuk meranking instance , digunakan fitur Sort Filter dalam Microsoft Excel. Gambar 4.6 Contoh meranking kecil ke besar berdasarkan nilai PCLT,K terkecil

5. Menghitung Nilai

DeviationT ¸ NormDeviationT , KdistT , Dan NormKdistT Kemudian instance yang berada di top N dihitung nilai DeviationT ¸ NormDeviationT , KdistT , dan NormKdistT berdasarkan rumus 2.1, 2.2, dan 2.3. DeviationT adalah seberapa besar nilai instance T yang menyimpang dari subset DCL. KDist adalah jarak antara instance T pada dataset D dengan K tetangga terdekat, seberapa dekat nilai K instance tetangga terdekat dengan instance T. Sedangkan NormDeviationT adalah nilai deviation yang sudah ternormalisasi dan NormKDistT adalah nilai KDist yang sudah

Dokumen yang terkait

Deteksi outlier menggunakan Algoritma Local Outlier Probability : studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma.

0 5 265

Deteksi outlier menggunakan Algoritma Connectivity Based Outlier Factor : studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma.

0 4 252

Deteksi outlier pada data campuran numerik dan kategorikal menggunakan algoritma Enhanced Class Outlier Distance Based (ECODB) : studi kasus data kredit BPR XYZ.

0 4 106

Deteksi Outlier menggunakan algoritma Block-Based Nested-Loop : studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma.

0 2 202

Deteksi outlier menggunakan algoritma Block-based Nested Loop (studi kasus: data akademik mahasiswa prodi PS Universitas XYZ).

1 5 6

Deteksi outlier menggunakan algoritma Naive Nested Loop (studi kasus : data akademik mahasiswa program studi PS Universitas XYZ).

0 0 4

Deteksi outlier menggunakan Algoritma Connectivity Based Outlier Factor studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma

1 8 250

Deteksi outlier menggunakan Algoritma Local Outlier Probability studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma

1 9 263

Penerapan metode enhanced class outlier distance based untuk identifikasi outlier pada data hasil ujian nasional, indeks integritas dan akreditasi sekolah menengah atas

1 6 143

Deteksi outlier menggunakan algoritma local outlier factor : studi kasus data akademik mahasiswa TI Universitas Sanata Dharma - USD Repository

0 0 241