Knowle dge Discovery from Data KDD dan Data mining Classification

2.1.9 Knowle dge Discovery from Data KDD dan Data mining

Gambar 2.5 Proses Knowledge Discovery from Data Banyak orang menganggap data mining merupakan sinonim untuk istilah Knowledge Discover from Data atau KDD. Beberapa ada yang menganggap data mining hanya merupakan salah satu langkah penting dari proses knowledge discovery . Proses dari KDD ditunjukkan seperti pada gambar 2.5 dan terdiri dari proses iterative langkah-langkah berikut: 1. Data cleaning untuk menghilangkan noise dan ketidak konsistenan dalam data 2. Data integration dimana beberapa sumber data dikombinasikan 3. Data selection ketika data yang relevan terhadap tugas diambil dari tempat penyimpanan data 4. Data tranformation data ditranformasikan dan dikonsolidasikan dalam bentuk yang sesuai untuk mining 5. Data mining merupakan proses utama dimana metode intelligent diaplikasikan untuk mengekstraksi pola data 6. Pattern evaluation untuk mengidentifikasi pola yang benar-benar menarik yang merepresentasikan pengetahuan berdasarkan interestingness measures 7. Knowledge presentation dimana visualisasi dan pengetahuan di representasikan kepada pengguna Langkah 1-4 merupakan bentuk lain dari data preprocessing, dimana data dipersiapkan untuk mining. Langkah data mining dapat berinteraksi dengan pengguna atau knowledge base. Pola yang menarik kemudian ditampilkan pada pengguna dan dapat disimpan sebagai pengetahuan baru dalam knowledge base. M enurut sudut pandang ini, data mining hanyalah salah satu proses dari keseluruhan proses yang ada. M eskipun demikian saat ini istilah data mining lebih populer dibanding dengan KDD dan sering kali disamakan artinya dengan KDD. Han dan Kamber,2006,p7.

2.1.10 Data Preprocessing

Database sekarang ini sangat rentan terhadap noisy, missing dan data yang inkonsisten karena banyaknya dan beragamnya sumber data. Kualitas data yang buruk akan mengakibatkan hasil mining yang buruk. Untuk itu diperlukan suatu persiapan agar data dalam database dapat digunakan untuk proses data mining Han dan Kamber,2006,pp47-97.

2.1.10.1 Data Cleaning

Data dalam kehidupan nyata sering kali tidak lengkap, noisy, dan inkonsisten. Data Cleaning berusaha untuk mengatasi masalah dalam data seperti missing values, memperhalus noise serta mengidentifikasi outliers, dan membenarkan data yang tidak konsisten. Ada beberapa cara untuk mengatasi masalah missing value dalam data: 1. M engabaikan record: cara ini biasa dilakukan ketika class label missing jika mining melibatkan classfication. M etode ini tidak efektif, kecuali record hanya mengandung beberapa atribut dengan missing value. Dengan cara ini reocord yang tidak memiliki missing values tidak disertakan dalam proses data mining 2. M engisi missing value secara manual: Secara umum pendekatan ini memakan waktu dan sulit untuk dilakukan bila data set besar dan banyak missing values. 3. M enggunakan global konstan untuk mengisi missing value: M engubah semua missing attribute value dengan konstan yang sama, seperti contohya label “Unknown”. M etode ini tidak bagus karena program mining dapat salah mengartikan nilai dan dianggap membentuk konsep yang menarik, karena mereka semua memiliki nilai yang sama. M etode ini sederhana tetapi tidak aman. 4. M enggunakan atribut mean untuk mengisi missing value: contoh jika rata- rata pendapatan konsumen adalah 56000. M aka nilai ini digunakan untuk menggantikan missing value untuk pendapatan. 5. M enggunakan atribut mean untuk semua sampel yang berada dalam kelas yang sama dengan record: Contoh jika mengklasifikasikan konsumen berdasarkan credit_risk dan atribut pendapatan mengandung missing value, ganti missing value dengan rata-rata pendapatan untuk konsumen yang berada dalam kategori credit_ risk yang sama. 6. M engunakan teknik data mining untuk memprediksikan nilai yang paling mungkin untuk mengisi missing value: Hal ini dapat dilakukan dengan regresi, atau induksi Decision treeataupun metode data mining predictive lainnya . Contoh: M enggunakan atribut-atribut konsumen yang ada dalam data set, dikonstruksi sebuah model Decision treeuntuk memprediksikan missing value untuk atribut pendapatan. M etode 3 sampai 6 membuat prediksi terhadap data. Nilai yang diisikan belum tentu benar. M etode 6 merupakan cara yang lebih populer bila dibandingkan dengan metode lain, cara ini menggunakan banyak informasi yang merepresentasikan data untuk memprediksikan nilai yang hilang. Untuk beberapa kasus, missing value mungkin bukan menunjukkan kesalahan pada data. Contoh, ketika hendak membuat credit card, kandidat dapat ditanyakan mengenai nomor izin mengemudi.Kandidat yang tidak memiliki nomor izin mengemudi dapat secara natural membuat field tidak terisi. Selain missing value, data dapat mengandung noise. Noise adalah random error atau variance dalam variabel yang diukur. M etode yang dapat digunakan untuk mengatasi masalah ini adalah: 1. Binning M etode binning biasa digunakan untuk data numerik dengan mengurutkan nilai data dan melihat data yang berdekatan nilainya. Nilai yang diurutkan di distribusikan ke dalam beberapa “buckets” atau bin tergantung dari metode binning yang digunakan. 2. Regressi Nilai suatu data dapat diperhalus dengan memasukkan data ke dalam suatu fungsi seperti regresi. Linear regression melibatkan penemuan garis terbaik untuk mencocokkan dua atribut atau variabel, sehingga sebuah atribut dapat digunakan untuk memprediksikan atribut lainnya. Multiple linear regression merupakan ekstensi dari linear regression dimana dua atau lebih atribut terlibat. 3. Clustering Clustering dapat digunakan untuk mendeteksi outlier. Dengan clustering nilai atribut yang sama atau mirip diorganisasikan ke dalam grup atau cluster . Nilai yang berada di luar dari cluster dapat dianggap outliers. Banyak metode untuk data smoothing juga digunakan untuk data reduction yang melibatkan discretization.Contohnya teknik binning juga dapat digunakan untuk mengurangi distinct value untuk setiap atribut.

2.1.10.2 Integrasi dan Transformasi Data.

Data mining sering kali membutuhkan integrasi data, menyatukan data dari berbagai data stores. Data mungkin juga perlu untuk di transformasikan ke dalam bentuk tertentu yang cocok untuk mining. M asalah dalam integrasi dapat meliputi entity indetification problem ataupun data redudansi. Dalam transformasi data. Data di ubah dan disatukan ke dalam bentuk yang sesuai untuk mining. Data transformation dapat meliputi: 1. Smoothing, berguna untuk menghilangkan noise dari data. Hal ini dapat dilakukan dengan binning, regression, ataupun clustering. 2. Aggregation, dimana ringkasan atau operasi agregasi dilakukan pada data. 3. Generalisasi data, dimana data primitif digantikan dengan konsep yang lebih tinggi dengan menggunakan konsep hirarki. Contoh: atribut categorical seperti jalan dapat di generalisasi ke dalam konsep yang lebih tinggi seperti kota atau negara. Hal ini juga dapat dilakukan pada atribut numerik, seperti umur, dapat di generalisasi menjadi youth, middle-age, senior . 4. Normaliasi, atribut data di skalakan sehingga masukan ke dalam range tertentu seperti -1.0 sampai 10.0 , atau 0.0 sampai 1.0 5. Attribute Construction, dimana atribut baru dikonstruksi dan ditambahkan untuk membantu proses mining.

2.1.10.3 Reduksi Data

Analisis data dan mining pada data yang sangat besar dapat membutuhkan waktu yang sangat lama, membuat proses mining sulit dilakukan. Teknik data reduksi dapat diaplikasikan untuk mendapatkan representasi data set yang diperkecil dalam volume, tetapi tetap menjaga integritas dari data original. Mining pada data yang telah di reduksi lebih efisien tetapi tetap memproduksi hasil analisis yang sama atau mendekati. Strategi data reduksi dapat meliputi: 1. Agregasi data cube, dimana operasi agregasi diaplikasikan pada data dalam pengkonstruksian data cube 2. Seleksi subset atribut, dimana atribut atau dimensi yang tidak relevan, lemah, atau redundan dideteksi dan dibuang. 3. Numerosity reduction, dimana data di gantikan atau diestimasi dengan data representasi alternatif yang lebih kecil seperti parametrics model yang hanya perlu menyimpan model parameter, bukan data aktual atau metode nonparametric seperti clustering, sampling, dan menggunakan histogram 4. Discretization dan pembuatan konsep hirarki. M erupakan metode dimana nilai mentah dari atribut data digantikan oleh range atau level konsep yang lebih besar. Contoh teknik untuk discretization adalah binning. Dataset yang digunakan untuk analisis mungkin mengandung ratusan atribut, yang mana banyak diantaranya tidak relevan untuk tugas mining ataupun redundan. Contoh: Jika dalam kasus toko elektronik, persoalannya adalah mengklasifikasikan apakah konsumen akan membeli cd yang baru dirilis, atribut seperti nomor telepon konsumen merupakan hal yang tidak relevan, tidak seperti atribut umur ataupun selera. Atribut subset selection mengurangi jumlah data set dengan membuang atribut yang tidak relevan atau redundan. Tujuan dari atribut susbet selection adalah menemukan jumlah atribut yang minimum dimana kemungkinan distribusi hasil dari kelas data sedekat mungkin dengan original distribution yang didapat dengan menggunakan seluruh atribut. Mining pada atribut yang telah direduksi dapat mempercepat proses mining dan mengurangi jumlah atribut yang muncul pada pola yang ditemukan sehingga lebih mudah dimengerti. Sampling data dapat digunakan sebagai teknik reduksi data karena sampling mengijinkan dataset yang besar untuk direpresentasikan dengan jumlah yang lebih kecil melalui subset dari keseluruhan data. Sebagai contoh misalnya ada sebuah dataset yang besar,D, memiliki N record. Cara yang dapat dilakukan untuk mereduksi D dengan sampling meliputi Han, jiawei dan Kamber, 2006, pp84-86: 1. Simple Random Sample Without Replacement SRSWOR dengan ukuran s: Sampel ini dibuat dengan mengambil beberapa record s dari D s N, dimana kemungkinan mengambil record sembarang dalam D adalah 1N, semua record memiliki peluang untuk di sampel yang sama. Data yang sudah disampel tidak dapat disampel kembali dalam proses yang sama. 2. Simple Random Sample With Replacement SRSWR dengan ukuran s: Sama dengan SRSWOR, tetapi setiap kali record diambil dari D, record dicatat dan kemudian dikembalikan. Berarti setelah record diambil, record diletakkan kembali di pada dataset D sehingga dapat memiliki peluang diambil lagi. Gambar 2.6 Simple Random Sample WithWithout Replacment 3. Cluster sample: jika record dalam D di grupkan ke dalam M cluster. M aka SRS untuk s cluster dapat diambil dimana s M . Contoh: record pada database biasanyadi ambil per halaman setiap waktu, apabila setiap page dianggap sebagai cluster maka representasi data yang direduksi dapat didapat dengan misalnya menggunakan SRSWOR pada masing-masing page untuk menghasilkan sampel cluster sejumlah s. Gambar 2.7 Cluster Sample 4. Stratified sample: jika D dibagi menjadi beberapa bagian yang disebut dengan strata atau stratum, stratified sampledari D didapat dengan menggunakan SRS untuk setiap stratum yang ada. Hal ini memastikan adanya sampel representatif untuk setiap stratum. Contoh: stratified sample dapat didapat dari data konsumen, dimana stratum dibuat untuk setiap umur konsumen. Dengan cara ini stratum umur yang paling kecil sekalipun jumlah anggotanya dapat dipastikan memiliki representasi dalam sampel. Gambar 2.8 Stratified Sample Binning merupakan top-down splitting technique yang didasarkan pada jumlah bin. Binning mengelompokkan nilai yang saling berelasi dalam sebuah bin, yang mana memperkecil jumlah nilai yang berbeda dari atributBeberapa metode yang dapat digunakan untuk mendapatkan batasan tiap bin Oracle,2005,p2-5; Witten dan Frank,2005,p298. : 1. Equal-interval binning: Biasa digunakan untuk melakukan bin pada nilai numerik. Untuk atribut numerik dapat ditemukan nilai minimal dan maximum. Kemudian dari range minimal dan maximum tersebut dapat dibagi ke dalam N bin berukuran d, dimana d=max-minN. Sehingga bin 1 adalah [min,min+d], bin 2 adalah [min+d,min+2d], dan bin ke N adalah [min+N-1d,max], metode ini menggunakan interval yang sama untuk setiap bin. Equal-interval binning dapat mendistribusikan data secara tidak merata, beberapa bin dapat mengandung banyak data sedangkan bin lainnya kosong atau sedikit. equal-interval binningdapat menghasilkan bin yang kosong bila ada outlier. 2. Equal-frequencybinning: teknik binning ini dapat membuat bin dengan interval yang berbeda pada setiap bin sehingga mengijinkan jumlah record training yang sama pada masing-masing bin yang dihasilkan. 3 . Top-N most frequent binning: Dapat digunakan pada data numerik ataupun categorical . Definisi bin dihitung dari frekuensi nilai yang mucul dalam data. Bila didefinisikan N bin, maka bin 1 adalah nilai yang paling sering muncul, bin 2 adalah nilai yang kedua paling sering muncul, dan Bin N adalah semua nilai sisanya. Contoh penggunaan Binning adalah Nilai atribut dapat di discretized dengan mengaplikasikan equal-interval ataupun metode binning lainnya, dan kemudian menggantikan nilai setiap bin dengan mean atau median. Binning tidak menggunakan informasi kelas dan karena itu termasuk dalam teknik unsupervised dicretization . Bin juga sensitif terhadap jumlah bin yang dispesifikasikan oleh user serta keberadaan outliers.

2.1.11 Classification

Classification merupakan bentuk dari analisis data yang digunakan untuk menghasilkan suatu model yang mendeskripsikan kelas data untuk memprediksi kelas untuk data baru. Classification memprediksi suatu nilai categorical yaitu nilai yang tidak memiliki urutan, dan discrete berdasarkan vector attribute. Algoritma yang dapat digunakan untuk classification antara lain adalah naïve bayes , decision tree, dan support vector machine. Gambar 2.9 Contoh Classification Classification terdiri dari 2 proses Han dan Kamber,2006,pp285-288 yaitu tahap pembelajaran gambar 2.9a dan classification gambar 2.9b. Pada tahap pertama, classifier model prediktif yang memprediksi nilai kelas categorical dibuat untuk mendeskripsikan kelas data yang sebelumnya telah didefinisikan. Tahap pembelajaran ini adalah tahap dimana algoritma classification membuat model prediktif dengan mempelajari training set yang terdiri dari record databas e dan label kelas. Sebuah record X, direpresentasikan dengan n-dimensi vector attribute , X= , ,…, dimana , … merupakan nilai dari atribut , ,..., .Setiap record, X, diasumsikan tergabung ke dalam sebuah kelas yang telah didefinisikan sebelumnya melalui atribut database lainnya yang disebut sebagai class label attribute. Class label attribute merupakan suatu nilai discrete dan tidak memiliki urutan. Nilai class label attribute adalah categorical dimana setiap nilai yang mungkin berfungsi sebagai kategori atau kelas. Karena setiap class label pada setiap record training telah diketahui, tahap ini disebut juga supervised learning. M aksudnya supervised adalah proses pemebalajaran dari classifier diawasi, dikontrol supervised dimana classifier diberitahu pada kelas mana sebuah record training tergabung. Hal ini berlawanan dengan unsupervised learning dimana class label tidak diketahui, dan jumlah class yang dipelajari tidak diketahui sebelumnya. Tahap pertama dari proses classification dapat disebut sebagai pembelajaran fungsi, y=fX, yang dapat memprediksikan class label y jika diberikan record X. Classification berusaha mempelajari fungsi atau mapping yang memisahkan kelas data. Tahap kedua dari proses classification adalah mengetes model dimana model digunakan untuk classification. Tahap kedua ini bertujuan untuk mengukur keakuratan dari classifier.Input data untuk tes ini sebaiknya tidak menggunakan data yang sama dengan training set. Hasil tes classifier dengan menggunakan data yang sama dengan data training bukan merupakan indikator yang baik terhadap performa classifier. Hal ini dikarenakan classifier dibuat dengan data yang sama pada saat tes sehingga estimasi performa yang dihasilkan adalah optimistis. Hasil evaluasi error rate dari data training disebut juga resubstitution error. classifier cenderung untuk overfit data tersebut karena dalam tahap learning classifier mungkin memasukkan beberapa anomali dalam data training yang tidak ada pada data umum secara keseluruhan. Oleh karena itu, test set yang digunakan dibentuk dari record-record yang berbeda dari training set yang mana record tidak digunakan untuk memebentuk classifier. Witten dan Frank, 2005, p145 Beberapa langkah preprocessing berikut mungkin perlu diaplikasikan pada data untuk membantu meningkatkan akurasi, efisiensi, dan skalabilitas dari proses classification Han dan Kamber, 2006, pp289-290 : 1. Data Cleaning: M erujuk pada preprocessing data untuk membuang atau mengurangi noise dan missing values. M eskipun kebanyakan algoritma classification memiliki mekanisme untuk menangani data noise atau missing value , langkah ini dapat membantu mengurangi kebingungan selama learning. 2. Relevance Analysis: Banyak atribut pada data yang redundan. Correlation analysis dapat digunakan untuk mengidentifikasikan apakah atribut satu dengan lainnya berelasi. Contoh, korelasi yang sangat kuat antara dan dapat menunjukkan satu dari antara kedua atribut tersebut untuk di keluarkan. Database juga sering kali mengandung atribut yang tidak relevan terhadap kelas yang hendak diprediksi. Attribute subset selection dapat digunakan untuk menemukan set atribut yang telah direduksi tetapi hasil probabilitas distribusi kelas tetap sedekat mungkin dengan distribusi data asli yang menggunakan seluruh atribut. Relevance analysis dalam bentuk correlation analysis dan attribute subset selection dapat digunakan untuk mendeteksi atribut yang tidak atau kurang berkontribusi pada proses classification. 3. Data transformation dan reduction: normalisasi bertujuan untuk menskalakan semua nilai untuk atribut tertentu sehingga jatuh ke dalam rentang yang kecil seperti -1.0 sampai 1.0 atau 0.0 sampai 1.0. Data juga dapat ditransformasikan dengan mengeneralisasikan ke dalam level konsep yang lebih tinggi. Hirarki konsep dapat digunakan untuk tujuan ini. Hal ini juga dapat berguna untuk atribut dengan nilai continue. Contoh, atribut numerik untuk pendapatan dapat digeneralisasikan kedalam nilai discrete seperti rendah, sendang, dan tinggi. Hal yang untuk atribut categorical seperti jalan dapat diganti dengan kota. Karena generalisasi mereduksi data training asli, operasi inputoutput selama proses learning semakin sedikit. Data juga dapat direduksi dengan berbagai metode lain seperti binning, atau clustering.

2.1.12 Classification dengan Decision treeinduction