Data Cleaning Data Preprocessing

2.1.10 Data Preprocessing

Database sekarang ini sangat rentan terhadap noisy, missing dan data yang inkonsisten karena banyaknya dan beragamnya sumber data. Kualitas data yang buruk akan mengakibatkan hasil mining yang buruk. Untuk itu diperlukan suatu persiapan agar data dalam database dapat digunakan untuk proses data mining Han dan Kamber,2006,pp47-97.

2.1.10.1 Data Cleaning

Data dalam kehidupan nyata sering kali tidak lengkap, noisy, dan inkonsisten. Data Cleaning berusaha untuk mengatasi masalah dalam data seperti missing values, memperhalus noise serta mengidentifikasi outliers, dan membenarkan data yang tidak konsisten. Ada beberapa cara untuk mengatasi masalah missing value dalam data: 1. M engabaikan record: cara ini biasa dilakukan ketika class label missing jika mining melibatkan classfication. M etode ini tidak efektif, kecuali record hanya mengandung beberapa atribut dengan missing value. Dengan cara ini reocord yang tidak memiliki missing values tidak disertakan dalam proses data mining 2. M engisi missing value secara manual: Secara umum pendekatan ini memakan waktu dan sulit untuk dilakukan bila data set besar dan banyak missing values. 3. M enggunakan global konstan untuk mengisi missing value: M engubah semua missing attribute value dengan konstan yang sama, seperti contohya label “Unknown”. M etode ini tidak bagus karena program mining dapat salah mengartikan nilai dan dianggap membentuk konsep yang menarik, karena mereka semua memiliki nilai yang sama. M etode ini sederhana tetapi tidak aman. 4. M enggunakan atribut mean untuk mengisi missing value: contoh jika rata- rata pendapatan konsumen adalah 56000. M aka nilai ini digunakan untuk menggantikan missing value untuk pendapatan. 5. M enggunakan atribut mean untuk semua sampel yang berada dalam kelas yang sama dengan record: Contoh jika mengklasifikasikan konsumen berdasarkan credit_risk dan atribut pendapatan mengandung missing value, ganti missing value dengan rata-rata pendapatan untuk konsumen yang berada dalam kategori credit_ risk yang sama. 6. M engunakan teknik data mining untuk memprediksikan nilai yang paling mungkin untuk mengisi missing value: Hal ini dapat dilakukan dengan regresi, atau induksi Decision treeataupun metode data mining predictive lainnya . Contoh: M enggunakan atribut-atribut konsumen yang ada dalam data set, dikonstruksi sebuah model Decision treeuntuk memprediksikan missing value untuk atribut pendapatan. M etode 3 sampai 6 membuat prediksi terhadap data. Nilai yang diisikan belum tentu benar. M etode 6 merupakan cara yang lebih populer bila dibandingkan dengan metode lain, cara ini menggunakan banyak informasi yang merepresentasikan data untuk memprediksikan nilai yang hilang. Untuk beberapa kasus, missing value mungkin bukan menunjukkan kesalahan pada data. Contoh, ketika hendak membuat credit card, kandidat dapat ditanyakan mengenai nomor izin mengemudi.Kandidat yang tidak memiliki nomor izin mengemudi dapat secara natural membuat field tidak terisi. Selain missing value, data dapat mengandung noise. Noise adalah random error atau variance dalam variabel yang diukur. M etode yang dapat digunakan untuk mengatasi masalah ini adalah: 1. Binning M etode binning biasa digunakan untuk data numerik dengan mengurutkan nilai data dan melihat data yang berdekatan nilainya. Nilai yang diurutkan di distribusikan ke dalam beberapa “buckets” atau bin tergantung dari metode binning yang digunakan. 2. Regressi Nilai suatu data dapat diperhalus dengan memasukkan data ke dalam suatu fungsi seperti regresi. Linear regression melibatkan penemuan garis terbaik untuk mencocokkan dua atribut atau variabel, sehingga sebuah atribut dapat digunakan untuk memprediksikan atribut lainnya. Multiple linear regression merupakan ekstensi dari linear regression dimana dua atau lebih atribut terlibat. 3. Clustering Clustering dapat digunakan untuk mendeteksi outlier. Dengan clustering nilai atribut yang sama atau mirip diorganisasikan ke dalam grup atau cluster . Nilai yang berada di luar dari cluster dapat dianggap outliers. Banyak metode untuk data smoothing juga digunakan untuk data reduction yang melibatkan discretization.Contohnya teknik binning juga dapat digunakan untuk mengurangi distinct value untuk setiap atribut.

2.1.10.2 Integrasi dan Transformasi Data.