DM 02 Persiapan Data Id

  Preparing Data What is Data? 

  Kumpulan obyek data dan atributnya 

  Atribut adalah property atau karakteristik suatu obyek

  

  Contoh: warna mata, temperature, dll

  

  Atribut dikenal sebagai variable, feld, ataupun karakteristik

  Attributes Objects Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes

  9 No Married 75K No 10 No Single 90K Yes 10

   Nilai atribut adalah angka-angka atau simbol-simbol yang diassign ke suatu atribut

   Perbedaan antara atribut dan nilai atribut

   Atribut yg sama dapat dipetakkan ke nilai atribut yang beda

  

  Misal: ketinggian dapat diukur dalam feet atau meter

   Atribut yg beda dapat dipetakan ke himpunan nilai yang sama

  

  Ada jenis-jenis atribut yang berbeda:

   Nominal

   Contoh: nomor ID, warna mata, kode pos

   Ordinal

   Rangking/ tingkatan (contoh rasa dari kripik kentang dalam skala 1-10), grade, tinggi dalam {tinggi, sedang, rendah}

   Interval

   Contoh: tanggal kalender, temperature dalam Celsius atau Fahrenheit

   Ratio

   Contoh: temperature dalam Kelvin, panjang, waktu, jumlah Properties of Attribute Values /1 

  Jenis atribut tergantung pada properti berikut yang mana dia miliki

   Distinctness: = 

   Order: < >

   Addition: + -

   Multiplication: * /

  

  Nominal attribute: distinctness

  

  Ordinal attribute: distinctness & order

  

  Interval attribute: distinctness, order & addition

  

  Ratio attribute: all 4 properties Properties of Attribute Values /2 Attribute Type

  Description Examples Operations Nominal The values of a nominal attribute are just diferent names, i.e., nominal attributes provide only enough information to distinguish one object from another. (=, ) zip codes, employee ID numbers, eye color, sex: {male, female} mode, entropy, contingency correlation,  2 test

  Ordinal The values of an ordinal attribute provide enough information to order objects. (<, >) hardness of minerals, {good, better, best}, grades, street numbers median, percentiles, rank correlation, run tests, sign tests

  Interval For interval attributes, the diferences between values are meaningful, i.e., a unit of measurement exists. (+, - ) calendar dates, temperature in Celsius or Fahrenheit mean, standard deviation, Pearson's correlation, t and F tests

  Ratio For ratio variables, both diferences and ratios are temperature in Kelvin, monetary geometric mean, Properties of Attribute Values /

  Comments Transformation Level Nominal Any permutation of values If all employee ID numbers were reassigned, would it make any diference?

  Ordinal An order preserving change of An attribute values, i.e., encompassing the new_value = f(old_value) notion of good, better where f is a monotonic best can be represented function. equally well by the values {1, 2, 3} or by

  Interval new_value =a * old_value + b Thus, the Fahrenheit { 0.5, 1, 10}. where a and b are constants and Celsius temperature scales difer in terms of where their zero value is and the size of a unit

  

Discrete and Continuous Attributes

  Discrete Attribute 

  Mempunyai himpunan nilai terbatas atau tak terbatas

  

  Contoh: zip codes, himpunan kata dalam kumpulan dokumen

  

  Sering direpresentasikan sbg variable integer

  

  Note: binary attributes  special case

   Continuos Attribute

  

  Memiliki angka-angka real sebagai nilai atribut Asymmetric Attributes 

  Hanya keberadaannya (non zero attribute value) diperhatikan 

  Contoh: 

  Kata-kata muncul di dokumen

  

  Item-item muncul di transaksi customer

  Document 1 Document 2 3 5 2 6 2 2 7

2

1 3

Record

  ▫ Data MatrixDocument DataTransaction Data

Graph

  ▫ World Wide WebMolecular Structures Ordered

  ▫ Spatial DataTemporal Data

  

Important characteristics of structured

data 

  Dimensionality 

  Sparsity 

  Hanya menghitung kemunculan 

  Resolution 

  Pola-pola bergantung skala Record Data 

  Data yang berisi kumpulan record, yang mana masing- masing berisi suatu himpunan atribut yang ditentukan. Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No

  2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No

  5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No

  8 No Single 85K Yes 9 No Married 75K No

  

  Jika objek data mempunyai kumpulan atribut numerik yg ditentukan , kemudian data objek dapat dipandang sebagai titik dalam ruang multidimensional, di mana setiap dimensi merepresentasian suatu atribut yang berbeda.

  

  Seperti data set dapat direpresentasikan dengan suatu matrik m dengan n di mana ada m baris, satu dari setiap objek dan n kolom, satu untuk setiap atribut.

  Projection Projection Projection Projection Distance Distance Load Load Thickness Thickness of x Load of x Load of y load of y load

  10.23

  10.23

  5.27

  5.27

  15.22

  15.22

  2.7

  2.7

  1.2

  1.2 Document Data 

  Setiap document menjadi suatu ‘term’ vector,

   Setiap term adalah komponen (atribut) dari vector

   Nilai setiap komponen adalah banyaknya waktu yg berhubungan terms terdapat dalam document

  Document 1 Document 2 3 5 2 6 2 2 7 2 1 3 Transaction Data 

  Jenis spesial dari data rekord , dimana s etiap

record (transaksi) mencangkup kumpulan item-

item

   Contoh: Toko penjualan bahan makanan. Sejumlah produk dibeli customer selama perjalanan

pembelian merupakan suatu transaksi, namun

produk yg dibeli merupakan item

  TID Items

  1 Bread, Coke, Milk

  2 Beer, Bread

  3 Beer, Coke, Diaper, Milk

  4 Beer, Bread, Diaper, Milk

  

Contoh: Generic graph and HTML Links <li> Data Mining </a> <a href="papers/papers.html#bbbb">

  2 &lt;li&gt; Graph Partitioning &lt;/a&gt; &lt;a href="papers/papers.html#aaaa"&gt;

  1

  5 Parallel Solution of Sparse Linear System of Equations &lt;/a&gt; &lt;a href="papers/papers.html#aaaa"&gt;

  2 &lt;a href="papers/papers.html#ffff"&gt; &lt;li&gt;

  

Benzene Molecule: C H

  6

  6

   Sequence of transaction

  Items/Events

   Genomic sequence data

  

Spatio-Temporal data

  Average Monthly

Temperature of land

and ocean

   Jenis masalah apakah kualitas data?

   Bagaimana kita dapat mendeteksi masalah dengan data?

   Apa yg dapat kita lakukan tentang masalah ini?

   Contoh masalah kualitas data:

  

  Noise &amp; outliers

  

  Missing Values

  

  Duplicate data Noise 

  

Mengacu pada modifkasi nilai original

  Contoh: distorsi suara seseorang ketika berbicara

   Outliers adalah

obyek data dengan

karakteristik berbeda

dengan kebanyakan

data obyek lain dalam data set.

  

  Contoh: suatu data set merepresentasikan gambaran umur dengan 20 nilai yg berbeda,

   Age = {3, 56, 23, 39, 156, 52, 41, 22, 9, 28, 139, 31, 55, 20, - 67, 37, 11, 55, 45, 37}

  

  Maka parameter statistika yg berhubungan:

  

  Mean = 39.9

  

  Standard deviation = 45.65 Jika kita memilih nilai threshold untuk distribusi normal data :

  Theshold = Mean ± 2 x Standard Deviation maka seluruh data yg diluar range [-54.1, 131.2] adalah potential outliers. Dan oleh karena age &gt;0, mungkin mengurangi range

   Beberapa alasan missing values:

  

  Informasi tidak terkumpul (misal: orang2 menolak memberikan info umur dan berat mereka)

  

  Atribut mungkin tidak dapat diaplikasikan ke semua kasus (misal: pendapatan tidak dapat diaplikasikan ke anak2)

   Mengatasi missing values:

  

  Eliminasi obyek data

   Data set mungkin terdapat obyek data yang duplikat, atau hampir duplikasi dari yg lain

   Isu utama dengan menggabungkan sumber yg berbeda-beda

   Contoh: orang yg sama dengan berbagai email address

   Data cleaning

  

Proses perlakuan dengan isu data duplikasi Data Preprocessing: Why is 

  Data di dunia riil cenderung kotor 

  Incomplete: kekurangan nilai atribut, kurang atribut ttt yg menarik, atau hanya berupa kumpulan data

  

  Noise: berisi errors atau outliers

  

  Inconsistent: berisi berbeda format dalam code dan nama

   Data yg tidak berkualitas, tidak ada hasil-hasil mining yg berkualitas

  

Major task in Data

  Data Cleaning 

  Data Integration 

  Data Transformation 

  Data Reduction 

  Data Discretization Forms of Data

Preprocessin

g

   Normalization

   Data smoothing

   Diferences and ratios

   Nilai yg terukur dapat diskala ke range khusus, seperti [-1, 1], atau [0,1] dengan alasan ukuran-ukuran jarak akan overweight yang dimiliki, atas rata-rata, nilai-nilai itu lebih besar.

   Ada 3 tehnik normalisasi: 1.

  Decimal scalling 2. Min-max normalization 3. Standard deviation normalization Decimal scalling 

  Menggerakkan titik desimal tetapi masih

memelihara kebanyakan nilai digit asal. Skala

khusus memelihara nilai dalam range -1 sampai 1. Persamaan berikut menggambarkan penskalaan desimal, dimana v(i) adalah nilai dari feature v untuk kasus i dan v’(i) adalah nilai yg diskala. k v’(i)=v(i)/10 untuk k terkecil sehingga max (v’(i))&lt; 1

  

  Andaikan data v dalam suatu range antara 150 dan 250. Maka, metode normalisasi sebelumnya akan memberikan data yg dinormalisasi antara .15 dan .25; tetapi dia akan mengakumuladi nilai dalam subinterval kecil dalam range keseluruhan. Untuk mencapai distribusi yg lebih baik dari nilai seluruhnya, intervalnya dinormalisasikan, seperti [0, 1]

  v’(i) =(v(i)-min(v(i))) / (max(vi))- min(v(i)))

  dimana, nilai minimum dan maksimum v Standard deviation 

  Normalisasi dengan standard deviasi sering bekerja baik dengan ukuran jarak, tetapi transformasi data tidak dapat dikenali data asalnya. v’(i)=(v(i)-mean(v))/sd(v)

  Contoh: Jika himpunan nilai atribut awal v={1, 2, 3}, maka mean(v)=2, sd(v)=1, dan

himpunan nilai yg dinormalisasikan adalah

v* ={-1,0,1}

  

  Suatu feature numerik, y, mungkin berkisar atas banyak nilai yg berbeda, terkadang sebanyak jumlah kasus pelatihan. Banyak teknik data-mining, perbedaan minor antar nilai-nilai ini tidak signifkan dan mungkin menurunkan performance metode dan hasil akhir. Oleh karena itu, dia terkadang menjadi keuntungan untuk menghaluskan nilai variable.

  

  Sebagai contoh, bilangan real dengan beberapa letak desimal, pembulatan nilai ke presisi yg diberikan dapat menjadi algoritma smoothing yg sederhana untuk sejumlah sampel yg besar, dimana setiap sampel mempunya nilai realnya sendiri.

  

  Meskipun perubahan kecil feature dapat menghasilkan perbaikan yang signifkan dalam performance data- mining. Dampak transformasi dari i/o yg relative minor adalah hal yg penting dalam menspesifkasi tujuan data-mining.

  

  Transformasi kadangkala menghasilkan hasil yg lebih bagus dari tujual prediksi suatu angka semula.

  

  Contoh: tujuan menggerakkan control untuk proses manufaktur pada suatu setting optimal. Daripada mengoptimisasi spesifkasi besaran yg nyata untuk output s(t-1), dia akan lebih efektive men-set tujuan gerakan relatif dari nilai saat ini ke optimal akhir

  

Transformasi perbedaan dan rasio tidak hanya berguna

untuk ftur output, tetapi juga untuk input. Mereka dapat digunakan sebagai perubahan dalam waktu untuk satu feature atau sebagai komposisi dari perbedaan feature input.

  

Contoh: data set medical, ada 2 feature dari pasien, tinggi

dan berat, yg diambil sebagai parameter input untuk analisis diagnosa yg berbeda. Beberapa aplikasi menunjukkan hasil diagnosa dicapai lebih bagus ketika

transformasi awal ditunjukkan menggunakan feature baru

yg disebut body-mass index (BMI), yg mana rasio

pembobotan antara berat dan tinggi. Fitur komposisi lebih

baik dari parameter awal untuk menggambarkan beberapa

  Transforming Data 

  Centering

   Mengurangi setiap data dengan rata2 dari setiap atribut

  

  Normalization

   Hasil dari centering dibagi dengan standard deviasi

  

  Scaling

   Merubah data sehingga berasa dalam skala