Data Mining : Teknik Pra-Pemrosesan Data

Elsen Ronando, S.Si.,M.Si.,M.Sc.

Teknik Informatika

Fakultas Teknik

Universitas 17 Agustus 1945 Surabaya

2017

Apa itu data ? Data → kumpulan obyek dan atributnya.

Atribut → propertis/karakteristik sebuah obyek.

Dikenal juga sebagai variabel, field, atau fitur. Contoh : warna mata seseorang, dan lain-lain.

Obyek → sekumpulan atribut.

Dikenal juga sebagai record, kasus, sampel, entitas, atau contoh. Bagaimana perkembangan data saat ini ?

Data mentah → banyak varibel (berukuran besar) dan bersifat heterogen. Data mentah saat ini sangat : banyak noise → data outlier dan error.

banyak missing →

tidak komplit, hilang.

banyak tidak konsisten. _→ Akibatnya : kualitas data rendah & tidak dapat langsung digunakan hasil penggalian berkualitas rendah.

Bagaimana tahap awal data dapat diolah untuk meningkatkan kualitas data sehingga mempengaruhi hasil, efisiensi, dan kemudahan dalam proses penggalian data ?

Bagaimana perkembangan data saat ini ?

Data mentah → banyak varibel (berukuran besar) dan bersifat heterogen. Data mentah saat ini sangat : banyak noise → data outlier dan error.

banyak missing →

tidak komplit, hilang.

banyak tidak konsisten. _→ Akibatnya : kualitas data rendah & tidak dapat langsung digunakan hasil penggalian berkualitas rendah.

Bagaimana tahap awal data dapat diolah untuk meningkatkan kualitas data sehingga mempengaruhi hasil, efisiensi, dan kemudahan dalam proses penggalian data ? Teknik Preprocessing

Teknik Preprocessing Data

Ekstraksi fitur dan portabilitas → menyederhanakan kemampuan analis dan mengubah atribut ke jenis yang lebih homogen. Data Cleaning (Pembersihan Data) → menghilangkan noise, missing, dan data yang tidak konsisten. Data Integration (Integrasi Data) → menggabungkan data dari sumber yang berbeda dan menyimpan data yang koheren, seperi data warehouse . Data Transformation (Transformasi Data) → meningkatkan akurasi dan efisiensi penggalian data (normalisasi). Data Reduction (Reduksi Data) → mereduksi ukuran data dan mengeliminasi redudansi.

Teknik ini tidak saling eksklusif (kemungkinan terjadi secara bersamaan) Ekstraksi Fitur dan Portabilitas

Ekstraksi Fitur :

Transformasi data (low-level) ke representasi seragam (high-level) untuk diproses.

Tergantung kemampuan analisa dalam pemilihan fitur dan

kesesuaiannya. Contoh : Bill Clinton tinggal di Chappaqua

Portabilitas :

Data sangat heterogen dan berisi tipe yang banyak, seperti data

demografi yang berisi numerik dan bermacam-macam atribut. Beberapa cara transformasi data : Diskritisasi (Numerik → kategori), Binerisasi (Kategori → numerik), dan lain-lain. Contoh : Umur 0-20 (ditranformasi ke ”1”), Umur 20-50 (ditransformasi ke ”2”), dan Umur >50 (ditransfromasi ke ”3”). Data Cleaning Menyelesaikan masalah missing data, noise, dan inkonsisten data.

Beberapa cara mengatasi missing data :

Mengabaikan tuple : dilakukan ketika label kelas hilang (tidak efektif jika beberapa atribut hilang) Mengisi nilai yang hilang secara manual : memerlukan waktu + memungkinkan ? Mengisi secara otomatis dengan nilai konstan global, nilai tengah atribut, nilai tengah atribut untuk sampel yang memiliki kelas yang sama, dan nilai yang memungkinkan berdasar inferensi (bayes atau pohon keputusan) Data Cleaning (Lanjutan)

Angkatan

IPK Pekerjaan Kelamin 2004

3.45 Programmer L 2005 ? Pak RT L 2003 2.91 ? P

Menurut Saudara, Bagaimana menyelesaikan permasalahan missing data tabel diatas ? Data Cleaning (Lanjutan)

Noise data → kesalahan acak atau variasi dalam variabel terukur. Cara mengatasi :

Metode Binning : mengurutkan data secara ascending, kemudian melakukan partisi ke dalam bins (dengan jarak atau frekuensi sama).

Selanjutnya, dismoothing dengan smooth by means, median, boundaries , dan sebagainya. Regresi : menghaluskan dengan mencocokan data ke dalam fungsi regresi. Kluster : mendeteksi dan menghilangkan outlier. Data Cleaning (Lanjutan)

Contoh Penyelesaian Binning: Data : 0, 4, 12, 16, 16, 18, 24, 26, 28 Equal width : w

= (max − min)/k

BIN1 = 0, 4 [−, 10] BIN2 = 12, 16, 16, 18 [10, 20] BIN3 = 24, 26, 28 [20, +]

Equal Depth : dibagi dalam kelompok k dengan jumlah sama

BIN1 = 0, 4, 12 BIN2 = 16, 16, 18 BIN3 = 24, 26, 28

Menurut Saudara, Bagaimana untuk penyelesaian kluster dan regresi ?

Data Integration

Penggabungan data dari berbagai sumber yang berbeda ke dalam satu penyimpanan yang koheren. Permasalahan : identifikasi entitas dari berbagai sumber. Contoh : Bill Clinton = William Clinton . Data Integration (Lanjutan)

Redudansi data mungkin terjadi dalam integrasi data

Atribut atau obyek sama mungkin memiliki nama berbeda pada penyimpanan yang berbeda. Sebuah atribut merupakan turunan dari atribut lainnya.

Beberapa teknik untuk menangani redudansi data :

Analisa korelasi → mengamati keterkaitan hubungan dari dua variabel dan mengetahui hubungan yang terjadi.

Perlu kecermatan dalam proses integrasi data → meningkatkan kecepatan dan kualitas penggalian

Data Integration (Lanjutan)

Contoh Analisa Korelasi : Seorang mahasiswa bernama Andi ingin mengetahui apakah ada hubungan antara

kecerdasan dengan prestasi belajar pada mahasiswa UNTAG, dengan ini Andi membuat

2 variabel yaitu kecerdasan dan prestasi belajar. Tiap-tiap variabel dibuat beberapa butir

pertanyaan dengan menggunakan skala Likert, yaitu angka 1 = Sangat tidak setuju, 2 =

Tidak setuju, 3 = Setuju dan 4 = Sangat Setuju. Skor total dari 5 responden sebagai

berikut :

Subjek Kecerdasan Prestasi Belajar

52 Data Transformation

Diharapkan lebih efisien dalam proses penggalian dan pola hasil lebih mudah dipahami. Beberapa strategi transformasi data :

Smoothing : menghilangkan noise dari data. Agregasi : merangkum , menutup, atau mengelompokkan data. Contoh : hasil penjualan harian dapat mempengaruhi total penjualan bulanan dan tahunan.

Generalisasi : konsep menyusuri hirarki. Contoh : jalan dapat digeneralisasi dengan kota atau negara. Data Transformation (Lanjutan)

Beberapa strategi transformasi data (Lanjutan) : Normalisasi : menormalkan bobot atribut satu dengan yang lain.

Contoh : nilai atribut gaji dan umur seseorang dinormalisasi pada range nilai [−1, 1] atau [0, 1]. Diskritisasi : melakukan pergantian atribut numerik ke kategori label

atau konseptual label. Contoh : bawah, tengah, atas atau 0 − 10, 11 − 20, dst. Data Reduction

Perlu direduksi untuk mempercepat waktu dalam proses penggalian data. Pengurangan representasi kumpulan data menjadi lebih kecil tetapi hasil analisanya sama (atau hampir sama). Teknik reduksi :

Reduksi dimensi (menghilangkan atribut yang tidak penting) : transformasi wavelet, PCA(Principal Component Analysis), dan Seleksi Atribut. Reduksi numerosity : metode sampling. Kompresi data : kompres graf berukuran besar. Seluruh materi presentasi dapat didownload pada SIAKAD masing-masing atau link berikut : _.

Apabila ada pertanyaan mengenai data mining dapat mengirim ke alamat email berikut :

Terimakasih Atas Perhatiannya

Data Mining : Teknik Pra-Pemrosesan Data

Teknik Preprocessing Data

Data Integration

Data Integration (Lanjutan)

Dokumen yang terkait

View of Fotografi Di Era Media Sosial : Studi “Toko Memorabilia” Karya Agan Harahap

View of PERANCANGAN DESAIN SISTEM TANDA JALAN & TEMPAT WISATA (STUDI KASUS : YOGYAKARTA DAN SEKITARNYA)

AMIR(Ayo Minum aIR) : Ubah perilaku hidrasi sehat sejak anak-anak

MEMBANGUN CITRA (DESTINASI) PARIWISATA SEBERAPA PENTINGKAH? Oleh : I Nyoman Sudiarta Fakultas Pariwisata Universitas Udayana ABSTRACT - MEMBANGUN CITRA (DESTINASI) PARIWISATA SEBERAPA PENTINGKAH?

THE FUTURE OF HOSPITALITY MARKETING By : GN Joko Adinegara ABSTRACT - THE FUTURE OF HOSPITALITY MARKETING

PEDAGANG KAKI LIMA DALAM BAYANGAN SATPOL PP PECALANG (STUDI KASUS DI KOTAMADYA DENPASAR) Oleh : Christimulia Purnama Trimurti ABSTRACT - PEDAGANG KAKI LIMA DALAM BAYANGAN SATPOL PP & PECALANG (STUDI KASUS DI KOTAMADYA DENPASAR)

HUBUNGAN PRODUKTIVITAS KERJA DENGAN AKTUALISASI DIRI KARYAWAN WANITA DI ARIMBI TOUR AND TRAVEL Oleh : Yeyen Komalasari, SE,MM ABSTRACT - HUBUNGAN PRODUKTIVITAS KERJA DENGAN AKTUALISASI DIRI KARYAWAN WANITA DI ARIMBI TOUR AND TRAVEL

Analisis Saham Dengan Metode Guppy Multiple Moving Average Study Kasus : Pergerakan Saham Unilever Periode Januari – Desember 201

Simulasi Aplikasi Supervisory and Data Acquisition (SCADA) pada Pengaturan Level Air dengan WINLOG

Aplikasi Data Mining untuk Mengukur Tingkat Kelulusan Mahasiswa dengan Metode Apriori dan k-Mean Clustering (Studi Kasus: Jurusan Teknik Informatika Universitas Trunojoyo Madura)

Dukungan

Links

Data Mining : Teknik Pra-Pemrosesan Data

Teknik Preprocessing Data

Data Integration

Data Integration (Lanjutan)

Dokumen yang terkait

View of Fotografi Di Era Media Sosial : Studi “Toko Memorabilia” Karya Agan Harahap

View of PERANCANGAN DESAIN SISTEM TANDA JALAN & TEMPAT WISATA (STUDI KASUS : YOGYAKARTA DAN SEKITARNYA)

AMIR(Ayo Minum aIR) : Ubah perilaku hidrasi sehat sejak anak-anak

MEMBANGUN CITRA (DESTINASI) PARIWISATA SEBERAPA PENTINGKAH? Oleh : I Nyoman Sudiarta Fakultas Pariwisata Universitas Udayana ABSTRACT - MEMBANGUN CITRA (DESTINASI) PARIWISATA SEBERAPA PENTINGKAH?

THE FUTURE OF HOSPITALITY MARKETING By : GN Joko Adinegara ABSTRACT - THE FUTURE OF HOSPITALITY MARKETING

PEDAGANG KAKI LIMA DALAM BAYANGAN SATPOL PP PECALANG (STUDI KASUS DI KOTAMADYA DENPASAR) Oleh : Christimulia Purnama Trimurti ABSTRACT - PEDAGANG KAKI LIMA DALAM BAYANGAN SATPOL PP & PECALANG (STUDI KASUS DI KOTAMADYA DENPASAR)

HUBUNGAN PRODUKTIVITAS KERJA DENGAN AKTUALISASI DIRI KARYAWAN WANITA DI ARIMBI TOUR AND TRAVEL Oleh : Yeyen Komalasari, SE,MM ABSTRACT - HUBUNGAN PRODUKTIVITAS KERJA DENGAN AKTUALISASI DIRI KARYAWAN WANITA DI ARIMBI TOUR AND TRAVEL

Analisis Saham Dengan Metode Guppy Multiple Moving Average Study Kasus : Pergerakan Saham Unilever Periode Januari – Desember 201

Simulasi Aplikasi Supervisory and Data Acquisition (SCADA) pada Pengaturan Level Air dengan WINLOG

Aplikasi Data Mining untuk Mengukur Tingkat Kelulusan Mahasiswa dengan Metode Apriori dan k-Mean Clustering (Studi Kasus: Jurusan Teknik Informatika Universitas Trunojoyo Madura)

Dokumen yang Anda mencari sudah siap untuk unduhkan