Data Mining : Teknik Pra-Pemrosesan Data
Data Mining : Teknik Pra-Pemrosesan Data
Elsen Ronando, S.Si.,M.Si.,M.Sc.
Teknik Informatika
Fakultas Teknik
Universitas 17 Agustus 1945 Surabaya
2017
1
2
3
Apa itu data ? Data → kumpulan obyek dan atributnya.
Atribut → propertis/karakteristik sebuah obyek.
Dikenal juga sebagai variabel, field, atau fitur. Contoh : warna mata seseorang, dan lain-lain.
Obyek → sekumpulan atribut.
Dikenal juga sebagai record, kasus, sampel, entitas, atau contoh. Bagaimana perkembangan data saat ini ?
Data mentah → banyak varibel (berukuran besar) dan bersifat heterogen. Data mentah saat ini sangat : banyak noise → data outlier dan error.
banyak missing →
tidak komplit, hilang.
banyak tidak konsisten. → Akibatnya : kualitas data rendah & tidak dapat langsung digunakan hasil penggalian berkualitas rendah.Bagaimana tahap awal data dapat diolah untuk meningkatkan kualitas data sehingga mempengaruhi hasil, efisiensi, dan kemudahan dalam proses penggalian data ?
Bagaimana perkembangan data saat ini ?
Data mentah → banyak varibel (berukuran besar) dan bersifat heterogen. Data mentah saat ini sangat : banyak noise → data outlier dan error.
banyak missing →
tidak komplit, hilang.
banyak tidak konsisten. → Akibatnya : kualitas data rendah & tidak dapat langsung digunakan hasil penggalian berkualitas rendah.Bagaimana tahap awal data dapat diolah untuk meningkatkan kualitas data sehingga mempengaruhi hasil, efisiensi, dan kemudahan dalam proses penggalian data ? Teknik Preprocessing
Teknik Preprocessing Data
Ekstraksi fitur dan portabilitas → menyederhanakan kemampuan analis dan mengubah atribut ke jenis yang lebih homogen. Data Cleaning (Pembersihan Data) → menghilangkan noise, missing, dan data yang tidak konsisten. Data Integration (Integrasi Data) → menggabungkan data dari sumber yang berbeda dan menyimpan data yang koheren, seperi data warehouse . Data Transformation (Transformasi Data) → meningkatkan akurasi dan efisiensi penggalian data (normalisasi). Data Reduction (Reduksi Data) → mereduksi ukuran data dan mengeliminasi redudansi.
Teknik ini tidak saling eksklusif (kemungkinan terjadi secara bersamaan) Ekstraksi Fitur dan Portabilitas
Ekstraksi Fitur :
Transformasi data (low-level) ke representasi seragam (high-level) untuk diproses.
Tergantung kemampuan analisa dalam pemilihan fitur dan
kesesuaiannya. Contoh : Bill Clinton tinggal di ChappaquaPortabilitas :
Data sangat heterogen dan berisi tipe yang banyak, seperti data
demografi yang berisi numerik dan bermacam-macam atribut. Beberapa cara transformasi data : Diskritisasi (Numerik → kategori), Binerisasi (Kategori → numerik), dan lain-lain. Contoh : Umur 0-20 (ditranformasi ke ”1”), Umur 20-50 (ditransformasi ke ”2”), dan Umur >50 (ditransfromasi ke ”3”). Data Cleaning Menyelesaikan masalah missing data, noise, dan inkonsisten data.
Beberapa cara mengatasi missing data :
Mengabaikan tuple : dilakukan ketika label kelas hilang (tidak efektif jika beberapa atribut hilang) Mengisi nilai yang hilang secara manual : memerlukan waktu + memungkinkan ? Mengisi secara otomatis dengan nilai konstan global, nilai tengah atribut, nilai tengah atribut untuk sampel yang memiliki kelas yang sama, dan nilai yang memungkinkan berdasar inferensi (bayes atau pohon keputusan) Data Cleaning (Lanjutan)
Angkatan
IPK Pekerjaan Kelamin 2004
3.45 Programmer L 2005 ? Pak RT L 2003 2.91 ? P
Menurut Saudara, Bagaimana menyelesaikan permasalahan missing data tabel diatas ? Data Cleaning (Lanjutan)
Noise data → kesalahan acak atau variasi dalam variabel terukur. Cara mengatasi :
Metode Binning : mengurutkan data secara ascending, kemudian melakukan partisi ke dalam bins (dengan jarak atau frekuensi sama).
Selanjutnya, dismoothing dengan smooth by means, median, boundaries , dan sebagainya. Regresi : menghaluskan dengan mencocokan data ke dalam fungsi regresi. Kluster : mendeteksi dan menghilangkan outlier. Data Cleaning (Lanjutan)
Contoh Penyelesaian Binning: Data : 0, 4, 12, 16, 16, 18, 24, 26, 28 Equal width : w
= (max − min)/k
BIN1 = 0, 4 [−, 10] BIN2 = 12, 16, 16, 18 [10, 20] BIN3 = 24, 26, 28 [20, +]
Equal Depth : dibagi dalam kelompok k dengan jumlah sama
BIN1 = 0, 4, 12 BIN2 = 16, 16, 18 BIN3 = 24, 26, 28
Menurut Saudara, Bagaimana untuk penyelesaian kluster dan regresi ?
Data Integration
Penggabungan data dari berbagai sumber yang berbeda ke dalam satu penyimpanan yang koheren. Permasalahan : identifikasi entitas dari berbagai sumber. Contoh : Bill Clinton = William Clinton . Data Integration (Lanjutan)
Redudansi data mungkin terjadi dalam integrasi data
Atribut atau obyek sama mungkin memiliki nama berbeda pada penyimpanan yang berbeda. Sebuah atribut merupakan turunan dari atribut lainnya.
Beberapa teknik untuk menangani redudansi data :
Analisa korelasi → mengamati keterkaitan hubungan dari dua variabel dan mengetahui hubungan yang terjadi.
Perlu kecermatan dalam proses integrasi data → meningkatkan kecepatan dan kualitas penggalian
Data Integration (Lanjutan)
Contoh Analisa Korelasi : Seorang mahasiswa bernama Andi ingin mengetahui apakah ada hubungan antara
kecerdasan dengan prestasi belajar pada mahasiswa UNTAG, dengan ini Andi membuat
2 variabel yaitu kecerdasan dan prestasi belajar. Tiap-tiap variabel dibuat beberapa butir
pertanyaan dengan menggunakan skala Likert, yaitu angka 1 = Sangat tidak setuju, 2 =
Tidak setuju, 3 = Setuju dan 4 = Sangat Setuju. Skor total dari 5 responden sebagai
berikut :Subjek Kecerdasan Prestasi Belajar
1
33
58
2
32
52
3
21
48
4
34
49
5
34
52 Data Transformation
Diharapkan lebih efisien dalam proses penggalian dan pola hasil lebih mudah dipahami. Beberapa strategi transformasi data :
Smoothing : menghilangkan noise dari data. Agregasi : merangkum , menutup, atau mengelompokkan data. Contoh : hasil penjualan harian dapat mempengaruhi total penjualan bulanan dan tahunan.
Generalisasi : konsep menyusuri hirarki. Contoh : jalan dapat digeneralisasi dengan kota atau negara. Data Transformation (Lanjutan)
Beberapa strategi transformasi data (Lanjutan) : Normalisasi : menormalkan bobot atribut satu dengan yang lain.
Contoh : nilai atribut gaji dan umur seseorang dinormalisasi pada range nilai [−1, 1] atau [0, 1]. Diskritisasi : melakukan pergantian atribut numerik ke kategori label
atau konseptual label. Contoh : bawah, tengah, atas atau 0 − 10, 11 − 20, dst. Data Reduction
Perlu direduksi untuk mempercepat waktu dalam proses penggalian data. Pengurangan representasi kumpulan data menjadi lebih kecil tetapi hasil analisanya sama (atau hampir sama). Teknik reduksi :
Reduksi dimensi (menghilangkan atribut yang tidak penting) : transformasi wavelet, PCA(Principal Component Analysis), dan Seleksi Atribut. Reduksi numerosity : metode sampling. Kompresi data : kompres graf berukuran besar. Seluruh materi presentasi dapat didownload pada SIAKAD masing-masing atau link berikut : .
Apabila ada pertanyaan mengenai data mining dapat mengirim ke alamat email berikut :
Terimakasih Atas Perhatiannya