Integrasi dan Transformasi Data. Reduksi Data

Banyak metode untuk data smoothing juga digunakan untuk data reduction yang melibatkan discretization.Contohnya teknik binning juga dapat digunakan untuk mengurangi distinct value untuk setiap atribut.

2.1.10.2 Integrasi dan Transformasi Data.

Data mining sering kali membutuhkan integrasi data, menyatukan data dari berbagai data stores. Data mungkin juga perlu untuk di transformasikan ke dalam bentuk tertentu yang cocok untuk mining. M asalah dalam integrasi dapat meliputi entity indetification problem ataupun data redudansi. Dalam transformasi data. Data di ubah dan disatukan ke dalam bentuk yang sesuai untuk mining. Data transformation dapat meliputi: 1. Smoothing, berguna untuk menghilangkan noise dari data. Hal ini dapat dilakukan dengan binning, regression, ataupun clustering. 2. Aggregation, dimana ringkasan atau operasi agregasi dilakukan pada data. 3. Generalisasi data, dimana data primitif digantikan dengan konsep yang lebih tinggi dengan menggunakan konsep hirarki. Contoh: atribut categorical seperti jalan dapat di generalisasi ke dalam konsep yang lebih tinggi seperti kota atau negara. Hal ini juga dapat dilakukan pada atribut numerik, seperti umur, dapat di generalisasi menjadi youth, middle-age, senior . 4. Normaliasi, atribut data di skalakan sehingga masukan ke dalam range tertentu seperti -1.0 sampai 10.0 , atau 0.0 sampai 1.0 5. Attribute Construction, dimana atribut baru dikonstruksi dan ditambahkan untuk membantu proses mining.

2.1.10.3 Reduksi Data

Analisis data dan mining pada data yang sangat besar dapat membutuhkan waktu yang sangat lama, membuat proses mining sulit dilakukan. Teknik data reduksi dapat diaplikasikan untuk mendapatkan representasi data set yang diperkecil dalam volume, tetapi tetap menjaga integritas dari data original. Mining pada data yang telah di reduksi lebih efisien tetapi tetap memproduksi hasil analisis yang sama atau mendekati. Strategi data reduksi dapat meliputi: 1. Agregasi data cube, dimana operasi agregasi diaplikasikan pada data dalam pengkonstruksian data cube 2. Seleksi subset atribut, dimana atribut atau dimensi yang tidak relevan, lemah, atau redundan dideteksi dan dibuang. 3. Numerosity reduction, dimana data di gantikan atau diestimasi dengan data representasi alternatif yang lebih kecil seperti parametrics model yang hanya perlu menyimpan model parameter, bukan data aktual atau metode nonparametric seperti clustering, sampling, dan menggunakan histogram 4. Discretization dan pembuatan konsep hirarki. M erupakan metode dimana nilai mentah dari atribut data digantikan oleh range atau level konsep yang lebih besar. Contoh teknik untuk discretization adalah binning. Dataset yang digunakan untuk analisis mungkin mengandung ratusan atribut, yang mana banyak diantaranya tidak relevan untuk tugas mining ataupun redundan. Contoh: Jika dalam kasus toko elektronik, persoalannya adalah mengklasifikasikan apakah konsumen akan membeli cd yang baru dirilis, atribut seperti nomor telepon konsumen merupakan hal yang tidak relevan, tidak seperti atribut umur ataupun selera. Atribut subset selection mengurangi jumlah data set dengan membuang atribut yang tidak relevan atau redundan. Tujuan dari atribut susbet selection adalah menemukan jumlah atribut yang minimum dimana kemungkinan distribusi hasil dari kelas data sedekat mungkin dengan original distribution yang didapat dengan menggunakan seluruh atribut. Mining pada atribut yang telah direduksi dapat mempercepat proses mining dan mengurangi jumlah atribut yang muncul pada pola yang ditemukan sehingga lebih mudah dimengerti. Sampling data dapat digunakan sebagai teknik reduksi data karena sampling mengijinkan dataset yang besar untuk direpresentasikan dengan jumlah yang lebih kecil melalui subset dari keseluruhan data. Sebagai contoh misalnya ada sebuah dataset yang besar,D, memiliki N record. Cara yang dapat dilakukan untuk mereduksi D dengan sampling meliputi Han, jiawei dan Kamber, 2006, pp84-86: 1. Simple Random Sample Without Replacement SRSWOR dengan ukuran s: Sampel ini dibuat dengan mengambil beberapa record s dari D s N, dimana kemungkinan mengambil record sembarang dalam D adalah 1N, semua record memiliki peluang untuk di sampel yang sama. Data yang sudah disampel tidak dapat disampel kembali dalam proses yang sama. 2. Simple Random Sample With Replacement SRSWR dengan ukuran s: Sama dengan SRSWOR, tetapi setiap kali record diambil dari D, record dicatat dan kemudian dikembalikan. Berarti setelah record diambil, record diletakkan kembali di pada dataset D sehingga dapat memiliki peluang diambil lagi. Gambar 2.6 Simple Random Sample WithWithout Replacment 3. Cluster sample: jika record dalam D di grupkan ke dalam M cluster. M aka SRS untuk s cluster dapat diambil dimana s M . Contoh: record pada database biasanyadi ambil per halaman setiap waktu, apabila setiap page dianggap sebagai cluster maka representasi data yang direduksi dapat didapat dengan misalnya menggunakan SRSWOR pada masing-masing page untuk menghasilkan sampel cluster sejumlah s. Gambar 2.7 Cluster Sample 4. Stratified sample: jika D dibagi menjadi beberapa bagian yang disebut dengan strata atau stratum, stratified sampledari D didapat dengan menggunakan SRS untuk setiap stratum yang ada. Hal ini memastikan adanya sampel representatif untuk setiap stratum. Contoh: stratified sample dapat didapat dari data konsumen, dimana stratum dibuat untuk setiap umur konsumen. Dengan cara ini stratum umur yang paling kecil sekalipun jumlah anggotanya dapat dipastikan memiliki representasi dalam sampel. Gambar 2.8 Stratified Sample Binning merupakan top-down splitting technique yang didasarkan pada jumlah bin. Binning mengelompokkan nilai yang saling berelasi dalam sebuah bin, yang mana memperkecil jumlah nilai yang berbeda dari atributBeberapa metode yang dapat digunakan untuk mendapatkan batasan tiap bin Oracle,2005,p2-5; Witten dan Frank,2005,p298. : 1. Equal-interval binning: Biasa digunakan untuk melakukan bin pada nilai numerik. Untuk atribut numerik dapat ditemukan nilai minimal dan maximum. Kemudian dari range minimal dan maximum tersebut dapat dibagi ke dalam N bin berukuran d, dimana d=max-minN. Sehingga bin 1 adalah [min,min+d], bin 2 adalah [min+d,min+2d], dan bin ke N adalah [min+N-1d,max], metode ini menggunakan interval yang sama untuk setiap bin. Equal-interval binning dapat mendistribusikan data secara tidak merata, beberapa bin dapat mengandung banyak data sedangkan bin lainnya kosong atau sedikit. equal-interval binningdapat menghasilkan bin yang kosong bila ada outlier. 2. Equal-frequencybinning: teknik binning ini dapat membuat bin dengan interval yang berbeda pada setiap bin sehingga mengijinkan jumlah record training yang sama pada masing-masing bin yang dihasilkan. 3 . Top-N most frequent binning: Dapat digunakan pada data numerik ataupun categorical . Definisi bin dihitung dari frekuensi nilai yang mucul dalam data. Bila didefinisikan N bin, maka bin 1 adalah nilai yang paling sering muncul, bin 2 adalah nilai yang kedua paling sering muncul, dan Bin N adalah semua nilai sisanya. Contoh penggunaan Binning adalah Nilai atribut dapat di discretized dengan mengaplikasikan equal-interval ataupun metode binning lainnya, dan kemudian menggantikan nilai setiap bin dengan mean atau median. Binning tidak menggunakan informasi kelas dan karena itu termasuk dalam teknik unsupervised dicretization . Bin juga sensitif terhadap jumlah bin yang dispesifikasikan oleh user serta keberadaan outliers.

2.1.11 Classification