2.1.9 Knowle dge Discovery from Data KDD dan Data mining
Gambar 2.5
Proses Knowledge Discovery from Data Banyak orang menganggap data mining merupakan sinonim untuk istilah
Knowledge Discover from Data atau KDD. Beberapa ada yang menganggap data
mining hanya merupakan salah satu langkah penting dari proses knowledge
discovery . Proses dari KDD ditunjukkan seperti pada gambar 2.5 dan terdiri dari
proses iterative langkah-langkah berikut: 1. Data cleaning untuk menghilangkan noise dan ketidak konsistenan dalam data
2. Data integration dimana beberapa sumber data dikombinasikan 3. Data selection ketika data yang relevan terhadap tugas diambil dari tempat
penyimpanan data 4. Data tranformation data ditranformasikan dan dikonsolidasikan dalam bentuk
yang sesuai untuk mining 5. Data mining merupakan proses utama dimana metode intelligent diaplikasikan
untuk mengekstraksi pola data 6. Pattern evaluation untuk mengidentifikasi pola yang benar-benar menarik
yang merepresentasikan pengetahuan berdasarkan interestingness measures 7. Knowledge presentation dimana visualisasi dan pengetahuan di
representasikan kepada pengguna Langkah 1-4 merupakan bentuk lain dari data preprocessing, dimana data
dipersiapkan untuk mining. Langkah data mining dapat berinteraksi dengan pengguna atau knowledge base. Pola yang menarik kemudian ditampilkan pada
pengguna dan dapat disimpan sebagai pengetahuan baru dalam knowledge base. M enurut sudut pandang ini, data mining hanyalah salah satu proses dari
keseluruhan proses yang ada. M eskipun demikian saat ini istilah data mining lebih populer dibanding dengan KDD dan sering kali disamakan artinya dengan KDD.
Han dan Kamber,2006,p7.
2.1.10 Data Preprocessing
Database sekarang ini sangat rentan terhadap noisy, missing dan data yang
inkonsisten karena banyaknya dan beragamnya sumber data. Kualitas data yang buruk akan mengakibatkan hasil mining yang buruk. Untuk itu diperlukan suatu
persiapan agar data dalam database dapat digunakan untuk proses data mining Han dan Kamber,2006,pp47-97.
2.1.10.1 Data Cleaning
Data dalam kehidupan nyata sering kali tidak lengkap, noisy, dan inkonsisten. Data Cleaning berusaha untuk mengatasi masalah dalam data
seperti missing values, memperhalus noise serta mengidentifikasi outliers, dan membenarkan data yang tidak konsisten.
Ada beberapa cara untuk mengatasi masalah missing value dalam data: 1. M engabaikan record: cara ini biasa dilakukan ketika class label missing
jika mining melibatkan classfication. M etode ini tidak efektif, kecuali record hanya mengandung beberapa atribut dengan missing value. Dengan
cara ini reocord yang tidak memiliki missing values tidak disertakan dalam proses data mining
2. M engisi missing value secara manual: Secara umum pendekatan ini memakan waktu dan sulit untuk dilakukan bila data set besar dan banyak
missing values. 3. M enggunakan global konstan untuk mengisi missing value: M engubah
semua missing attribute value dengan konstan yang sama, seperti contohya label “Unknown”. M etode ini tidak bagus karena program mining dapat
salah mengartikan nilai dan dianggap membentuk konsep yang menarik, karena mereka semua memiliki nilai yang sama. M etode ini sederhana
tetapi tidak aman. 4. M enggunakan atribut mean untuk mengisi missing value: contoh jika rata-
rata pendapatan konsumen adalah 56000. M aka nilai ini digunakan untuk menggantikan missing value untuk pendapatan.
5. M enggunakan atribut mean untuk semua sampel yang berada dalam kelas yang sama dengan record: Contoh jika mengklasifikasikan konsumen
berdasarkan credit_risk dan atribut pendapatan mengandung missing value, ganti missing value dengan rata-rata pendapatan untuk konsumen yang
berada dalam kategori credit_ risk yang sama. 6. M engunakan teknik data mining untuk memprediksikan nilai yang paling
mungkin untuk mengisi missing value: Hal ini dapat dilakukan dengan regresi, atau induksi Decision treeataupun metode data mining predictive
lainnya . Contoh: M enggunakan atribut-atribut konsumen yang ada dalam
data set, dikonstruksi sebuah model Decision treeuntuk memprediksikan missing value
untuk atribut pendapatan. M etode 3 sampai 6 membuat prediksi terhadap data. Nilai yang diisikan belum
tentu benar. M etode 6 merupakan cara yang lebih populer bila dibandingkan dengan metode lain, cara ini menggunakan banyak informasi yang
merepresentasikan data untuk memprediksikan nilai yang hilang. Untuk beberapa kasus, missing value mungkin bukan menunjukkan
kesalahan pada data. Contoh, ketika hendak membuat credit card, kandidat
dapat ditanyakan mengenai nomor izin mengemudi.Kandidat yang tidak memiliki nomor izin mengemudi dapat secara natural membuat field tidak
terisi. Selain missing value, data dapat mengandung noise. Noise adalah
random error atau variance dalam variabel yang diukur. M etode yang dapat digunakan untuk mengatasi masalah ini adalah:
1. Binning M etode binning biasa digunakan untuk data numerik dengan mengurutkan
nilai data dan melihat data yang berdekatan nilainya. Nilai yang diurutkan di distribusikan ke dalam beberapa “buckets” atau bin tergantung dari
metode binning yang digunakan. 2. Regressi
Nilai suatu data dapat diperhalus dengan memasukkan data ke dalam suatu fungsi seperti regresi. Linear regression melibatkan penemuan garis terbaik
untuk mencocokkan dua atribut atau variabel, sehingga sebuah atribut dapat digunakan untuk memprediksikan atribut lainnya. Multiple linear
regression merupakan ekstensi dari linear regression dimana dua atau lebih
atribut terlibat. 3. Clustering
Clustering dapat digunakan untuk mendeteksi outlier. Dengan clustering
nilai atribut yang sama atau mirip diorganisasikan ke dalam grup atau cluster
. Nilai yang berada di luar dari cluster dapat dianggap outliers.
Banyak metode untuk data smoothing juga digunakan untuk data reduction
yang melibatkan discretization.Contohnya teknik binning juga dapat digunakan untuk mengurangi distinct value untuk setiap atribut.
2.1.10.2 Integrasi dan Transformasi Data.
Data mining sering kali membutuhkan integrasi data, menyatukan data
dari berbagai data stores. Data mungkin juga perlu untuk di transformasikan ke dalam bentuk tertentu yang cocok untuk mining. M asalah dalam integrasi
dapat meliputi entity indetification problem ataupun data redudansi. Dalam transformasi data. Data di ubah dan disatukan ke dalam bentuk
yang sesuai untuk mining. Data transformation dapat meliputi: 1. Smoothing, berguna untuk menghilangkan noise dari data. Hal ini dapat
dilakukan dengan binning, regression, ataupun clustering. 2. Aggregation, dimana ringkasan atau operasi agregasi dilakukan pada data.
3. Generalisasi data, dimana data primitif digantikan dengan konsep yang lebih tinggi dengan menggunakan konsep hirarki. Contoh: atribut
categorical seperti jalan dapat di generalisasi ke dalam konsep yang lebih
tinggi seperti kota atau negara. Hal ini juga dapat dilakukan pada atribut numerik, seperti umur, dapat di generalisasi menjadi youth, middle-age,
senior .
4. Normaliasi, atribut data di skalakan sehingga masukan ke dalam range tertentu seperti -1.0 sampai 10.0 , atau 0.0 sampai 1.0
5. Attribute Construction, dimana atribut baru dikonstruksi dan ditambahkan untuk membantu proses mining.
2.1.10.3 Reduksi Data
Analisis data dan mining pada data yang sangat besar dapat membutuhkan waktu yang sangat lama, membuat proses mining sulit
dilakukan. Teknik data reduksi dapat diaplikasikan untuk mendapatkan representasi data set yang diperkecil dalam volume, tetapi tetap menjaga
integritas dari data original. Mining pada data yang telah di reduksi lebih efisien tetapi tetap memproduksi hasil analisis yang sama atau mendekati.
Strategi data reduksi dapat meliputi: 1. Agregasi data cube, dimana operasi agregasi diaplikasikan pada data dalam
pengkonstruksian data cube 2. Seleksi subset atribut, dimana atribut atau dimensi yang tidak relevan,
lemah, atau redundan dideteksi dan dibuang. 3. Numerosity reduction, dimana data di gantikan atau diestimasi dengan data
representasi alternatif yang lebih kecil seperti parametrics model yang hanya perlu menyimpan model parameter, bukan data aktual atau metode
nonparametric seperti clustering, sampling, dan menggunakan histogram 4. Discretization dan pembuatan konsep hirarki. M erupakan metode dimana
nilai mentah dari atribut data digantikan oleh range atau level konsep yang lebih besar. Contoh teknik untuk discretization adalah binning.
Dataset yang digunakan untuk analisis mungkin mengandung ratusan atribut, yang mana banyak diantaranya tidak relevan untuk tugas mining
ataupun redundan. Contoh: Jika dalam kasus toko elektronik, persoalannya adalah mengklasifikasikan apakah konsumen akan membeli cd yang baru
dirilis, atribut seperti nomor telepon konsumen merupakan hal yang tidak relevan, tidak seperti atribut umur ataupun selera.
Atribut subset selection mengurangi jumlah data set dengan membuang
atribut yang tidak relevan atau redundan. Tujuan dari atribut susbet selection adalah menemukan jumlah atribut yang minimum dimana kemungkinan
distribusi hasil dari kelas data sedekat mungkin dengan original distribution yang didapat dengan menggunakan seluruh atribut. Mining pada atribut yang
telah direduksi dapat mempercepat proses mining dan mengurangi jumlah atribut yang muncul pada pola yang ditemukan sehingga lebih mudah
dimengerti. Sampling
data dapat digunakan sebagai teknik reduksi data karena sampling mengijinkan dataset yang besar untuk direpresentasikan dengan
jumlah yang lebih kecil melalui subset dari keseluruhan data. Sebagai contoh misalnya ada sebuah dataset yang besar,D, memiliki N record. Cara yang
dapat dilakukan untuk mereduksi D dengan sampling meliputi Han, jiawei dan Kamber, 2006, pp84-86:
1. Simple Random Sample Without Replacement SRSWOR dengan ukuran s: Sampel ini dibuat dengan mengambil beberapa record s dari D s N,
dimana kemungkinan mengambil record sembarang dalam D adalah 1N, semua record memiliki peluang untuk di sampel yang sama. Data yang
sudah disampel tidak dapat disampel kembali dalam proses yang sama. 2. Simple Random Sample With Replacement SRSWR dengan ukuran s:
Sama dengan SRSWOR, tetapi setiap kali record diambil dari D, record
dicatat dan kemudian dikembalikan. Berarti setelah record diambil, record diletakkan kembali di pada dataset D sehingga dapat memiliki peluang
diambil lagi.
Gambar 2.6 Simple Random Sample WithWithout Replacment
3. Cluster sample: jika record dalam D di grupkan ke dalam M cluster. M aka SRS untuk s cluster dapat diambil dimana s M . Contoh: record pada
database biasanyadi ambil per halaman setiap waktu, apabila setiap page
dianggap sebagai cluster maka representasi data yang direduksi dapat didapat dengan misalnya menggunakan SRSWOR pada masing-masing
page untuk menghasilkan sampel cluster sejumlah s.
Gambar 2.7 Cluster Sample
4. Stratified sample: jika D dibagi menjadi beberapa bagian yang disebut dengan strata atau stratum, stratified sampledari D didapat dengan
menggunakan SRS untuk setiap stratum yang ada. Hal ini memastikan adanya sampel representatif untuk setiap stratum. Contoh: stratified sample
dapat didapat dari data konsumen, dimana stratum dibuat untuk setiap umur konsumen. Dengan cara ini stratum umur yang paling kecil sekalipun
jumlah anggotanya dapat dipastikan memiliki representasi dalam sampel.
Gambar 2.8 Stratified Sample
Binning merupakan top-down splitting technique yang didasarkan pada jumlah bin. Binning mengelompokkan nilai yang saling berelasi dalam sebuah
bin, yang mana memperkecil jumlah nilai yang berbeda dari atributBeberapa metode yang dapat digunakan untuk mendapatkan batasan tiap bin
Oracle,2005,p2-5; Witten dan Frank,2005,p298. :
1. Equal-interval binning: Biasa digunakan untuk melakukan bin pada nilai numerik. Untuk atribut numerik dapat ditemukan nilai minimal dan
maximum. Kemudian dari range minimal dan maximum tersebut dapat dibagi ke dalam N bin berukuran d, dimana d=max-minN. Sehingga bin 1
adalah [min,min+d], bin 2 adalah [min+d,min+2d], dan bin ke N adalah [min+N-1d,max], metode ini menggunakan interval yang sama untuk
setiap bin. Equal-interval binning dapat mendistribusikan data secara tidak merata, beberapa bin dapat mengandung banyak data sedangkan bin lainnya
kosong atau sedikit. equal-interval binningdapat menghasilkan bin yang kosong bila ada outlier.
2. Equal-frequencybinning: teknik binning ini dapat membuat bin dengan interval yang berbeda pada setiap bin sehingga mengijinkan jumlah record
training yang sama pada masing-masing bin yang dihasilkan. 3
. Top-N most frequent binning: Dapat digunakan pada data numerik ataupun categorical
. Definisi bin dihitung dari frekuensi nilai yang mucul dalam data. Bila didefinisikan N bin, maka bin 1 adalah nilai yang paling sering
muncul, bin 2 adalah nilai yang kedua paling sering muncul, dan Bin N adalah semua nilai sisanya.
Contoh penggunaan Binning adalah Nilai atribut dapat di discretized dengan mengaplikasikan equal-interval ataupun metode binning lainnya, dan
kemudian menggantikan nilai setiap bin dengan mean atau median. Binning tidak menggunakan informasi kelas dan karena itu termasuk dalam teknik
unsupervised dicretization . Bin juga sensitif terhadap jumlah bin yang
dispesifikasikan oleh user serta keberadaan outliers.
2.1.11 Classification
Classification merupakan bentuk dari analisis data yang digunakan untuk
menghasilkan suatu model yang mendeskripsikan kelas data untuk memprediksi kelas untuk data baru. Classification memprediksi suatu nilai categorical yaitu
nilai yang tidak memiliki urutan, dan discrete berdasarkan vector attribute. Algoritma yang dapat digunakan untuk classification antara lain adalah naïve
bayes , decision tree, dan support vector machine.
Gambar 2.9
Contoh Classification Classification
terdiri dari 2 proses Han dan Kamber,2006,pp285-288 yaitu tahap pembelajaran gambar 2.9a dan classification gambar 2.9b. Pada tahap
pertama, classifier model prediktif yang memprediksi nilai kelas categorical dibuat untuk mendeskripsikan kelas data yang sebelumnya telah didefinisikan.
Tahap pembelajaran ini adalah tahap dimana algoritma classification membuat
model prediktif dengan mempelajari training set yang terdiri dari record databas e dan label kelas. Sebuah record X, direpresentasikan dengan n-dimensi vector
attribute , X=
, ,…,
dimana ,
… merupakan nilai dari atribut
, ,...,
.Setiap record, X, diasumsikan tergabung ke dalam sebuah kelas yang telah didefinisikan sebelumnya melalui atribut database lainnya yang disebut
sebagai class label attribute. Class label attribute merupakan suatu nilai discrete dan tidak memiliki urutan. Nilai class label attribute adalah categorical dimana
setiap nilai yang mungkin berfungsi sebagai kategori atau kelas. Karena setiap class label pada setiap record training telah diketahui, tahap
ini disebut juga supervised learning. M aksudnya supervised adalah proses pemebalajaran dari classifier diawasi, dikontrol supervised dimana classifier
diberitahu pada kelas mana sebuah record training tergabung. Hal ini berlawanan dengan unsupervised learning dimana class label tidak diketahui, dan jumlah class
yang dipelajari tidak diketahui sebelumnya. Tahap pertama dari proses classification dapat disebut sebagai
pembelajaran fungsi, y=fX, yang dapat memprediksikan class label y jika diberikan record X. Classification berusaha mempelajari fungsi atau mapping
yang memisahkan kelas data. Tahap kedua dari proses classification adalah mengetes model dimana
model digunakan untuk classification. Tahap kedua ini bertujuan untuk mengukur keakuratan dari classifier.Input data untuk tes ini sebaiknya tidak menggunakan
data yang sama dengan training set. Hasil tes classifier dengan menggunakan data yang sama dengan data training bukan merupakan indikator yang baik terhadap
performa classifier. Hal ini dikarenakan classifier dibuat dengan data yang sama pada saat tes sehingga estimasi performa yang dihasilkan adalah optimistis. Hasil
evaluasi error rate dari data training disebut juga resubstitution error. classifier cenderung untuk overfit data tersebut karena dalam tahap learning classifier
mungkin memasukkan beberapa anomali dalam data training yang tidak ada pada data umum secara keseluruhan. Oleh karena itu, test set yang digunakan dibentuk
dari record-record yang berbeda dari training set yang mana record tidak digunakan untuk memebentuk classifier. Witten dan Frank, 2005, p145
Beberapa langkah preprocessing berikut mungkin perlu diaplikasikan pada data untuk membantu meningkatkan akurasi, efisiensi, dan skalabilitas dari proses
classification Han dan Kamber, 2006, pp289-290 :
1. Data Cleaning: M erujuk pada preprocessing data untuk membuang atau mengurangi noise dan missing values. M eskipun kebanyakan algoritma
classification memiliki mekanisme untuk menangani data noise atau missing
value , langkah ini dapat membantu mengurangi kebingungan selama learning.
2. Relevance Analysis: Banyak atribut pada data yang redundan. Correlation analysis
dapat digunakan untuk mengidentifikasikan apakah atribut satu dengan lainnya berelasi. Contoh, korelasi yang sangat kuat antara dan
dapat menunjukkan satu dari antara kedua atribut tersebut untuk di keluarkan. Database
juga sering kali mengandung atribut yang tidak relevan terhadap kelas yang hendak diprediksi. Attribute subset selection dapat digunakan untuk
menemukan set atribut yang telah direduksi tetapi hasil probabilitas distribusi kelas tetap sedekat mungkin dengan distribusi data asli yang menggunakan
seluruh atribut. Relevance analysis dalam bentuk correlation analysis dan attribute subset selection
dapat digunakan untuk mendeteksi atribut yang tidak atau kurang berkontribusi pada proses classification.
3. Data transformation dan reduction: normalisasi bertujuan untuk menskalakan semua nilai untuk atribut tertentu sehingga jatuh ke dalam rentang yang kecil
seperti -1.0 sampai 1.0 atau 0.0 sampai 1.0. Data juga dapat ditransformasikan dengan mengeneralisasikan ke dalam level konsep yang lebih tinggi. Hirarki
konsep dapat digunakan untuk tujuan ini. Hal ini juga dapat berguna untuk atribut dengan nilai continue. Contoh, atribut numerik untuk pendapatan dapat
digeneralisasikan kedalam nilai discrete seperti rendah, sendang, dan tinggi. Hal yang untuk atribut categorical seperti jalan dapat diganti dengan kota.
Karena generalisasi mereduksi data training asli, operasi inputoutput selama proses learning semakin sedikit. Data juga dapat direduksi dengan berbagai
metode lain seperti binning, atau clustering.
2.1.12 Classification dengan Decision treeinduction