IF MATERI DATA MINING PERTEMUAN 02
Knowledge Discovery in Databases (KDD)
Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika
(2)
Knowledge Discovery in Databases (KDD)
Definisi Knowledge Discovery in Database (KDD)
Tahapan Proses KDD
Data Pre-Pocessing
Data Reduction
Pengantar On-Line Analytical Processing
Data Warehouse
(3)
Definisi Knowledge Discovery in
Database (KDD)
Knowledge discovery in databases (KDD) adalah
keseluruhan proses untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan dapat bermanfaat dan dapat dimengerti.
KDD berhubungan dengan teknik
integrasi, interpretasi dan visualisasi dari pola-pola sejumlah kumpulan data.
(4)
(5)
Tahapan Proses KDD
1. Data Selection
❖Menciptakan himpunan data target, pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan (discovery) akan dilakukan.
❖Hasil seleksi disimpan dalam suatu berkas, terpisah dari basis data operasional.
(6)
Tahapan Proses KDD
2. Pre-processing / Cleaning
❖ Pre-processing dan cleaning data merupakan
operasi dasar yang dilakukan seperti penghapusan noise.
❖ Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data
(7)
Tahapan Proses KDD
3. Transformation
❖ Merupakan proses integrasi pada data yang telah dipilih, sehingga data sesuai untuk proses data mining.
❖Merupakan proses yang sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data
❖ Data bisa diperkaya dengan data atau informasi ekternal yang relevan
(8)
Tahapan Proses KDD
4. Data mining
❖ Pemilihan tugas data mining merupakan pemilihan goal dari proses KDD misalnya karakterisasi,
klasifikasi, regresi, clustering, asosiasi, dll.
❖Pemilihan teknik, metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
(9)
Tahapan Proses KDD
5. Interpretation/ Evaluation
❖ Yaitu penerjemahan pola-pola yang dihasilkan dari data mining.
❖ Pola informasi yang dihasilkan perlu ditampilkan dalam bentuk yang mudah dimengerti
❖ Tahap ini melakukan pemeriksaan apakah pola atau informasi yang
ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.
(10)
Data Pre-processing
✓ Sampling : menyeleksi subset representatif dari populasi data yang besar.
✓ Transformation : memanipulasi data mentah untuk menghasilkan input tunggal.
✓ Denoising : menghilangkan noise dari data
✓ Normalization : mengorganisasi data untuk pengaksesan yang lebih spesifik
✓ F eature Extraction : membuka spesifikasi data yang signifikan dalam konteks tertentu.
Beberapa alat dan metode yang digunakan seperti :
(11)
Data Reduction
❖ Data reduction merupakan teknik yang
digunakan untuk mentransformasi dari data mentah ke bentuk format data yang lebih
berguna. Sebagai contoh groupping,
counting, summing dan averaging data.
❖ Data reduction dilakukan untuk mengatasi
ukuran data yang terlalu besar yang dapat menimbulkan ketidakefisienan proses dan peningkatan biaya
(12)
OLAP (On-Line Analytical Processing)
❖ OLAP adalah suatu sistem atau teknologi yang dirancang untuk mendukung proses analisis
kompleks dalam rangka mengungkapkan
kecenderungan pasar dan faktor-faktor penting dalam bisnis
❖ Kemampuan OLAP yaitu bisa menaikkan atau menurunkan dimensi data sehingga kita dapat menggali data sampai detail dan memperoleh pandangan yang luas mengenai objek yang sedang dianalisis.
(13)
OLAP (On-Line Analytical Processing)
❖ OLAP dapat digunakan membuat rangkuman baru dari multidimensi data yang berbeda, dan dapat merespon secara online, dan
memberikan view dua dimensi pada data cube multidimensi secara interaktif.
(14)
Data Warehouse
Definisi Data Warehouse
Data Warehouse adalah pusat informasi yang mampu memberikan database berorientasi subyek untuk
informasi yang bersifat historis yang mendukung DSS (Decision Support System) dan EIS (Executive
(15)
Data Warehouse
Tujuan Data Warehouse
❖ Meningkatkan kualitas dan akurasi informasi bisnis dan mengirimkan informasi ke pemakai dalam bentuk yang dimengerti dan dapat diakses dengan mudah.
(16)
Data Warehouse
Kegunaan Data Warehouse
❖ Pembuatan Laporan
Dapat menghasilkan laporan per periode
❖ Menganalisis data (OLAP)
Melakukan analisis bisnis untuk menyelidiki kecenderungan pasar dan faktor penyebabnya
❖ Data Mining
Mencari pola dan hubungan data untuk mengambil keputusan
❖ Proses Informasi Eksekutif
(17)
Data Warehouse
Ciri-ciri Data Warehouse
1. Subject Oriented
✓ Data disusun dan dikelompokkan berdasarkan
subyek yang berisi hanya informasi yang penting bagi pemrosesan decision support.
✓ Subyek dirangkum ke dalam dimensi, misalnya :
(18)
Data Warehouse
Ciri-ciri Data Warehouse (Lanjutan) 2. Integrated
Jika data terletak pada berbagai aplikasi yang terpisah,encoding data sering tidak seragam
sehingga bila data dipindahkan ke data warehouse maka data akan diasumsikan sama
(19)
Data Warehouse
Ciri-ciri Data Warehouse (Lanjutan) 3. Time-variant
Data warehouse adalah tempat untuk storing data selama 5 sampai 10 tahun atau lebih
4. Non volatile
Data tidak dapat diperbaharui atau dirubah tetapi hanya dapat dilihat.
(20)
Data Warehouse
Arsitektur Data Warehouse
Operational data source 2
Operational data source (ODS) Operational data source n
Meta data
Detailed data
Lightly summarized data
Highly summarized data Warehouse Manager Warehouse Manager L o a d M a n a g e r Q u e r y M a n a g e r Archive/backup data Reporting, query, application development
and EIS tools
OLAP Tools
Data Mining Tools End-user access tools DBMS
(21)
Data Mart
Definisi Data Mart
❖ Data Mart adalah subset dari data warehouse yang
mendukung kebutuhan informasi dari departemen atau fungsi bisnis tertentu.
❖ Data Mart adalah struktur data yang cakupannya lebih kecil dari data warehouse dimana data dibagi berdasarkan kebutuhan informasi setiap departemen.
(22)
Arsitektur Data Mart
Operational data source 2
Operational data source (ODS) Operational data source n
Meta data
Detailed data
Lightly summarized data
Highly summarized data Warehouse Manager Warehouse Manager L o a d M a n a g e r Q u e r y M a n a g e r Archive/backup data Reporting, query, application development
and EIS tools
OLAP Tools
Data Mining Tools End-user access tools DBMS
Operational data source 1
Data Mart Summarized Data (Relational Database)
Summarized Data (Multi Dimansional Database)
Reporting, query, application development
and EIS tools
OLAP Tools
(23)
Data Warehouse / Data Mart VS OLAP
❖ OLAP adalah teknologi yang memproses data di
dalam Data Warehouse / Data Mart dalam struktur multidimensi, menyediakan jawaban yang cepat untuk query analisis yang kompleks
(24)
Data Warehouse / Data Mart VS OLTP
Data Warehouse / Data Mart OLTP
Menyimpan data historis Menyimpan data saat ini Menyimpan detailed, lightly, highly,
summary data
Menyimpan detailed data
Data bersifat statis Data bersifat dinamis Mengarah pada analisis Mengarah pada transaksi Berorientasi pada subjek Berorientasi pada aplikasi
Mendukung keputusan strategi Mendukung keputusan sehari-hari Pemakai manajerial dalam tingkat yang
relatif rendah
Pemakai operasional dalam jumlah yang besar
(25)
OLTP VS OLAP
OLTP OLAP
Tujuan Mengotomatisasi bisnis Mengoptimalkan bisnis
Penggunaan Proses transaksi Pelaporan, Analisis, Modeling, Perencanaan
Skema Dua dimensi, Normalisasi Multi Dimensi, Hirarki Navigasi Didasarkan pada langkah kerja
transaksi
Didasarkan pada cara user menganalisis
Penghitungan Agregasi, Matriks Sederhana Agregasi, Matriks, Dimensi saling silang, Perumusan, Prosedural Implementasi Lambat dalam penyebaran, dan
mudah untuk diubah datanya
Cepat dalam penyebaran, adan susah untuk diubah datanya
(26)
Terima Kasih
Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika
(1)
Data Mart
Definisi Data Mart
❖
Data Mart
adalah subset dari data warehouse yang
mendukung kebutuhan informasi dari departemen atau
fungsi bisnis tertentu.
❖
Data Mart
adalah struktur data yang cakupannya
lebih kecil dari data warehouse dimana data dibagi
berdasarkan kebutuhan informasi setiap departemen.
(2)
Arsitektur Data Mart
Operational data source 2
Operational data source (ODS) Operational data source n
Meta data
Detailed data
Lightly summarized data
Highly summarized data Warehouse Manager Warehouse Manager L o a d M a n a g e r Q u e r y M a n a g e r Archive/backup data Reporting, query, application development
and EIS tools
OLAP Tools
Data Mining Tools
End-user access tools DBMS
Operational data source 1
Data Mart
Summarized Data (Relational Database)
Summarized Data (Multi Dimansional Database)
Reporting, query, application development
and EIS tools
OLAP Tools
(3)
Data Warehouse / Data Mart VS OLAP
❖
OLAP
adalah teknologi yang memproses data di
dalam
Data Warehouse / Data Mart
dalam struktur
multidimensi, menyediakan jawaban yang cepat untuk
query analisis yang kompleks
(4)
Data Warehouse / Data Mart VS OLTP
Data Warehouse / Data Mart
OLTP
Menyimpan data historis Menyimpan data saat ini Menyimpan detailed, lightly, highly,
summary data
Menyimpan detailed data Data bersifat statis Data bersifat dinamis Mengarah pada analisis Mengarah pada transaksi Berorientasi pada subjek Berorientasi pada aplikasi
Mendukung keputusan strategi Mendukung keputusan sehari-hari Pemakai manajerial dalam tingkat yang
relatif rendah
Pemakai operasional dalam jumlah yang besar
(5)
OLTP VS OLAP
OLTP
OLAP
Tujuan Mengotomatisasi bisnis Mengoptimalkan bisnis
Penggunaan Proses transaksi Pelaporan, Analisis, Modeling, Perencanaan
Skema Dua dimensi, Normalisasi Multi Dimensi, Hirarki Navigasi Didasarkan pada langkah kerja
transaksi
Didasarkan pada cara user menganalisis
Penghitungan Agregasi, Matriks Sederhana Agregasi, Matriks, Dimensi saling silang, Perumusan, Prosedural Implementasi Lambat dalam penyebaran, dan
mudah untuk diubah datanya
Cepat dalam penyebaran, adan susah untuk diubah datanya
(6)
Terima Kasih
Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika