2.1.10 Data Preprocessing
Database sekarang ini sangat rentan terhadap noisy, missing dan data yang
inkonsisten karena banyaknya dan beragamnya sumber data. Kualitas data yang buruk akan mengakibatkan hasil mining yang buruk. Untuk itu diperlukan suatu
persiapan agar data dalam database dapat digunakan untuk proses data mining Han dan Kamber,2006,pp47-97.
2.1.10.1 Data Cleaning
Data dalam kehidupan nyata sering kali tidak lengkap, noisy, dan inkonsisten. Data Cleaning berusaha untuk mengatasi masalah dalam data
seperti missing values, memperhalus noise serta mengidentifikasi outliers, dan membenarkan data yang tidak konsisten.
Ada beberapa cara untuk mengatasi masalah missing value dalam data: 1. M engabaikan record: cara ini biasa dilakukan ketika class label missing
jika mining melibatkan classfication. M etode ini tidak efektif, kecuali record hanya mengandung beberapa atribut dengan missing value. Dengan
cara ini reocord yang tidak memiliki missing values tidak disertakan dalam proses data mining
2. M engisi missing value secara manual: Secara umum pendekatan ini memakan waktu dan sulit untuk dilakukan bila data set besar dan banyak
missing values. 3. M enggunakan global konstan untuk mengisi missing value: M engubah
semua missing attribute value dengan konstan yang sama, seperti contohya label “Unknown”. M etode ini tidak bagus karena program mining dapat
salah mengartikan nilai dan dianggap membentuk konsep yang menarik, karena mereka semua memiliki nilai yang sama. M etode ini sederhana
tetapi tidak aman. 4. M enggunakan atribut mean untuk mengisi missing value: contoh jika rata-
rata pendapatan konsumen adalah 56000. M aka nilai ini digunakan untuk menggantikan missing value untuk pendapatan.
5. M enggunakan atribut mean untuk semua sampel yang berada dalam kelas yang sama dengan record: Contoh jika mengklasifikasikan konsumen
berdasarkan credit_risk dan atribut pendapatan mengandung missing value, ganti missing value dengan rata-rata pendapatan untuk konsumen yang
berada dalam kategori credit_ risk yang sama. 6. M engunakan teknik data mining untuk memprediksikan nilai yang paling
mungkin untuk mengisi missing value: Hal ini dapat dilakukan dengan regresi, atau induksi Decision treeataupun metode data mining predictive
lainnya . Contoh: M enggunakan atribut-atribut konsumen yang ada dalam
data set, dikonstruksi sebuah model Decision treeuntuk memprediksikan missing value
untuk atribut pendapatan. M etode 3 sampai 6 membuat prediksi terhadap data. Nilai yang diisikan belum
tentu benar. M etode 6 merupakan cara yang lebih populer bila dibandingkan dengan metode lain, cara ini menggunakan banyak informasi yang
merepresentasikan data untuk memprediksikan nilai yang hilang. Untuk beberapa kasus, missing value mungkin bukan menunjukkan
kesalahan pada data. Contoh, ketika hendak membuat credit card, kandidat
dapat ditanyakan mengenai nomor izin mengemudi.Kandidat yang tidak memiliki nomor izin mengemudi dapat secara natural membuat field tidak
terisi. Selain missing value, data dapat mengandung noise. Noise adalah
random error atau variance dalam variabel yang diukur. M etode yang dapat digunakan untuk mengatasi masalah ini adalah:
1. Binning M etode binning biasa digunakan untuk data numerik dengan mengurutkan
nilai data dan melihat data yang berdekatan nilainya. Nilai yang diurutkan di distribusikan ke dalam beberapa “buckets” atau bin tergantung dari
metode binning yang digunakan. 2. Regressi
Nilai suatu data dapat diperhalus dengan memasukkan data ke dalam suatu fungsi seperti regresi. Linear regression melibatkan penemuan garis terbaik
untuk mencocokkan dua atribut atau variabel, sehingga sebuah atribut dapat digunakan untuk memprediksikan atribut lainnya. Multiple linear
regression merupakan ekstensi dari linear regression dimana dua atau lebih
atribut terlibat. 3. Clustering
Clustering dapat digunakan untuk mendeteksi outlier. Dengan clustering
nilai atribut yang sama atau mirip diorganisasikan ke dalam grup atau cluster
. Nilai yang berada di luar dari cluster dapat dianggap outliers.
Banyak metode untuk data smoothing juga digunakan untuk data reduction
yang melibatkan discretization.Contohnya teknik binning juga dapat digunakan untuk mengurangi distinct value untuk setiap atribut.
2.1.10.2 Integrasi dan Transformasi Data.