Pembersihan Data Data Cleaning dan Integrasi Data Data Integration

48 a. No.Anggota digunakan sebagai primary key, b. kolektibilitas adalah status kelancaran peminjam dalam mengangsur pinjaman. Atribut-atribut lain yang tidak digunakan adalah atribut yang telah terwakili oleh atribut yang digunakan, atribut yang tidak ada kaitannya dengan pengklasifikasian, atribut yang nilainya terlalu beragam, dan atribut yang sering tidak mempunyai isian, sehingga atribut tersebut tidak diperlukan pada penelitian ini. Contoh data yang telah dikumpulkan dapat dilihat pada lampiran 2. Setelah data lengkap maka tahap selanjutnya mempersiapkan data tersebut untuk proses data mining yaitu preprocessing yang terdiri dari Data Cleaning, Data Integration, Data Selection, Data Transformation.

B. Pembersihan Data Data Cleaning dan Integrasi Data Data Integration

Preprocessing data yang dilakukan setelah data lengkap adalah pembersihan data. Masih adanya data yang tidak memiliki kelengkapan atribut dapat mengakibatkan hasil dari proses mining tidak baik atau memungkinkan adanya noise. Oleh karena itu perlunya preprocessing pembersihan data. Pembersihan data dilakukan terhadap data yang tidak memiliki kelengkapan atribut dengan cara menghapus data tersebut. Dari 1.076 dataset dilakukan penghapusan pada 97 dataset dengan rincian sebagai berikut: 1. Data yang tidak mempunyai kelengkapan atribut pekerjaan sebanyak 1. 2. Data yang tidak mempunyai kelengkapan atribut No KTP sebanyak 7. 49 3. Data yang tidak mempunyai kelengkapan atribut pekerjaan suamiistri sebanyak 54. 4. Data yang tidak mempunyai kelengkapan atribut pengeluaran keluarga sebanayak 1. 5. Data yang tidak mempunyai kelengkapan atribut kemampuan angsuran sebanyak 10. 6. Data yang tidak mempunyai kelengkapan atribut status agunan sebanyak 2. 7. Data yang tidak mempunyai kelengkapan atribut Nilai jaminan sebanyak 19. 8. Data yang tidak mempunyai kelengkapan atribut tujuan sebanyak 2. 9. Data yang tidak mempunyai kelengkapan atribut kolektibilitas sebanyak 1. Setelah proses pembersihan data, jumlah data menjadi 979 dataset yang kemudian dilanjutkan dengan proses integrasi data. Integrasi data pada penelitian ini dilakukan pada awal ketika pemilihan data- data yang diperlukan dan penghubungan data laporan nominatif pinjaman perbulan dengan data peminjam menggunakan primary key yaitu No.Anggota yang kemudian disimpan dalam satu file. Selain itu, integrasi data juga dilakukan dengan penggantian atribut No.KTP dan tanggal peminjaman menjadi atribut umur. Atribut umur tersebut dapat diidentifikasi melalui tahun peminjaman dikurangi dengan tahun lahir peminjam. Tahun lahir peminjam dapat diidentifikasi melalui karakter ke 6 dan 7 dari belakang pada No. KTP. 50

C. Seleksi Data Data Selection dan Transformasi Data Data