Banyak metode untuk data smoothing juga digunakan untuk data reduction
yang melibatkan discretization.Contohnya teknik binning juga dapat digunakan untuk mengurangi distinct value untuk setiap atribut.
2.1.10.2 Integrasi dan Transformasi Data.
Data mining sering kali membutuhkan integrasi data, menyatukan data
dari berbagai data stores. Data mungkin juga perlu untuk di transformasikan ke dalam bentuk tertentu yang cocok untuk mining. M asalah dalam integrasi
dapat meliputi entity indetification problem ataupun data redudansi. Dalam transformasi data. Data di ubah dan disatukan ke dalam bentuk
yang sesuai untuk mining. Data transformation dapat meliputi: 1. Smoothing, berguna untuk menghilangkan noise dari data. Hal ini dapat
dilakukan dengan binning, regression, ataupun clustering. 2. Aggregation, dimana ringkasan atau operasi agregasi dilakukan pada data.
3. Generalisasi data, dimana data primitif digantikan dengan konsep yang lebih tinggi dengan menggunakan konsep hirarki. Contoh: atribut
categorical seperti jalan dapat di generalisasi ke dalam konsep yang lebih
tinggi seperti kota atau negara. Hal ini juga dapat dilakukan pada atribut numerik, seperti umur, dapat di generalisasi menjadi youth, middle-age,
senior .
4. Normaliasi, atribut data di skalakan sehingga masukan ke dalam range tertentu seperti -1.0 sampai 10.0 , atau 0.0 sampai 1.0
5. Attribute Construction, dimana atribut baru dikonstruksi dan ditambahkan untuk membantu proses mining.
2.1.10.3 Reduksi Data
Analisis data dan mining pada data yang sangat besar dapat membutuhkan waktu yang sangat lama, membuat proses mining sulit
dilakukan. Teknik data reduksi dapat diaplikasikan untuk mendapatkan representasi data set yang diperkecil dalam volume, tetapi tetap menjaga
integritas dari data original. Mining pada data yang telah di reduksi lebih efisien tetapi tetap memproduksi hasil analisis yang sama atau mendekati.
Strategi data reduksi dapat meliputi: 1. Agregasi data cube, dimana operasi agregasi diaplikasikan pada data dalam
pengkonstruksian data cube 2. Seleksi subset atribut, dimana atribut atau dimensi yang tidak relevan,
lemah, atau redundan dideteksi dan dibuang. 3. Numerosity reduction, dimana data di gantikan atau diestimasi dengan data
representasi alternatif yang lebih kecil seperti parametrics model yang hanya perlu menyimpan model parameter, bukan data aktual atau metode
nonparametric seperti clustering, sampling, dan menggunakan histogram 4. Discretization dan pembuatan konsep hirarki. M erupakan metode dimana
nilai mentah dari atribut data digantikan oleh range atau level konsep yang lebih besar. Contoh teknik untuk discretization adalah binning.
Dataset yang digunakan untuk analisis mungkin mengandung ratusan atribut, yang mana banyak diantaranya tidak relevan untuk tugas mining
ataupun redundan. Contoh: Jika dalam kasus toko elektronik, persoalannya adalah mengklasifikasikan apakah konsumen akan membeli cd yang baru
dirilis, atribut seperti nomor telepon konsumen merupakan hal yang tidak relevan, tidak seperti atribut umur ataupun selera.
Atribut subset selection mengurangi jumlah data set dengan membuang
atribut yang tidak relevan atau redundan. Tujuan dari atribut susbet selection adalah menemukan jumlah atribut yang minimum dimana kemungkinan
distribusi hasil dari kelas data sedekat mungkin dengan original distribution yang didapat dengan menggunakan seluruh atribut. Mining pada atribut yang
telah direduksi dapat mempercepat proses mining dan mengurangi jumlah atribut yang muncul pada pola yang ditemukan sehingga lebih mudah
dimengerti. Sampling
data dapat digunakan sebagai teknik reduksi data karena sampling mengijinkan dataset yang besar untuk direpresentasikan dengan
jumlah yang lebih kecil melalui subset dari keseluruhan data. Sebagai contoh misalnya ada sebuah dataset yang besar,D, memiliki N record. Cara yang
dapat dilakukan untuk mereduksi D dengan sampling meliputi Han, jiawei dan Kamber, 2006, pp84-86:
1. Simple Random Sample Without Replacement SRSWOR dengan ukuran s: Sampel ini dibuat dengan mengambil beberapa record s dari D s N,
dimana kemungkinan mengambil record sembarang dalam D adalah 1N, semua record memiliki peluang untuk di sampel yang sama. Data yang
sudah disampel tidak dapat disampel kembali dalam proses yang sama. 2. Simple Random Sample With Replacement SRSWR dengan ukuran s:
Sama dengan SRSWOR, tetapi setiap kali record diambil dari D, record
dicatat dan kemudian dikembalikan. Berarti setelah record diambil, record diletakkan kembali di pada dataset D sehingga dapat memiliki peluang
diambil lagi.
Gambar 2.6 Simple Random Sample WithWithout Replacment
3. Cluster sample: jika record dalam D di grupkan ke dalam M cluster. M aka SRS untuk s cluster dapat diambil dimana s M . Contoh: record pada
database biasanyadi ambil per halaman setiap waktu, apabila setiap page
dianggap sebagai cluster maka representasi data yang direduksi dapat didapat dengan misalnya menggunakan SRSWOR pada masing-masing
page untuk menghasilkan sampel cluster sejumlah s.
Gambar 2.7 Cluster Sample
4. Stratified sample: jika D dibagi menjadi beberapa bagian yang disebut dengan strata atau stratum, stratified sampledari D didapat dengan
menggunakan SRS untuk setiap stratum yang ada. Hal ini memastikan adanya sampel representatif untuk setiap stratum. Contoh: stratified sample
dapat didapat dari data konsumen, dimana stratum dibuat untuk setiap umur konsumen. Dengan cara ini stratum umur yang paling kecil sekalipun
jumlah anggotanya dapat dipastikan memiliki representasi dalam sampel.
Gambar 2.8 Stratified Sample
Binning merupakan top-down splitting technique yang didasarkan pada jumlah bin. Binning mengelompokkan nilai yang saling berelasi dalam sebuah
bin, yang mana memperkecil jumlah nilai yang berbeda dari atributBeberapa metode yang dapat digunakan untuk mendapatkan batasan tiap bin
Oracle,2005,p2-5; Witten dan Frank,2005,p298. :
1. Equal-interval binning: Biasa digunakan untuk melakukan bin pada nilai numerik. Untuk atribut numerik dapat ditemukan nilai minimal dan
maximum. Kemudian dari range minimal dan maximum tersebut dapat dibagi ke dalam N bin berukuran d, dimana d=max-minN. Sehingga bin 1
adalah [min,min+d], bin 2 adalah [min+d,min+2d], dan bin ke N adalah [min+N-1d,max], metode ini menggunakan interval yang sama untuk
setiap bin. Equal-interval binning dapat mendistribusikan data secara tidak merata, beberapa bin dapat mengandung banyak data sedangkan bin lainnya
kosong atau sedikit. equal-interval binningdapat menghasilkan bin yang kosong bila ada outlier.
2. Equal-frequencybinning: teknik binning ini dapat membuat bin dengan interval yang berbeda pada setiap bin sehingga mengijinkan jumlah record
training yang sama pada masing-masing bin yang dihasilkan. 3
. Top-N most frequent binning: Dapat digunakan pada data numerik ataupun categorical
. Definisi bin dihitung dari frekuensi nilai yang mucul dalam data. Bila didefinisikan N bin, maka bin 1 adalah nilai yang paling sering
muncul, bin 2 adalah nilai yang kedua paling sering muncul, dan Bin N adalah semua nilai sisanya.
Contoh penggunaan Binning adalah Nilai atribut dapat di discretized dengan mengaplikasikan equal-interval ataupun metode binning lainnya, dan
kemudian menggantikan nilai setiap bin dengan mean atau median. Binning tidak menggunakan informasi kelas dan karena itu termasuk dalam teknik
unsupervised dicretization . Bin juga sensitif terhadap jumlah bin yang
dispesifikasikan oleh user serta keberadaan outliers.
2.1.11 Classification