IF MATERI DATA MINING PERTEMUAN 02

(1)

Knowledge Discovery in Databases (KDD)

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika


(2)

Knowledge Discovery in Databases (KDD)

Definisi Knowledge Discovery in Database (KDD)

Tahapan Proses KDD

Data Pre-Pocessing

Data Reduction

Pengantar On-Line Analytical Processing

Data Warehouse


(3)

Definisi Knowledge Discovery in

Database (KDD)

Knowledge discovery in databases (KDD) adalah

keseluruhan proses untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan dapat bermanfaat dan dapat dimengerti.

KDD berhubungan dengan teknik

integrasi, interpretasi dan visualisasi dari pola-pola sejumlah kumpulan data.


(4)

(5)

Tahapan Proses KDD

1. Data Selection

❖Menciptakan himpunan data target, pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan (discovery) akan dilakukan.

❖Hasil seleksi disimpan dalam suatu berkas, terpisah dari basis data operasional.


(6)

Tahapan Proses KDD

2. Pre-processing / Cleaning

Pre-processing dan cleaning data merupakan

operasi dasar yang dilakukan seperti penghapusan noise.

❖ Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data


(7)

Tahapan Proses KDD

3. Transformation

❖ Merupakan proses integrasi pada data yang telah dipilih, sehingga data sesuai untuk proses data mining.

❖Merupakan proses yang sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data

❖ Data bisa diperkaya dengan data atau informasi ekternal yang relevan


(8)

Tahapan Proses KDD

4. Data mining

❖ Pemilihan tugas data mining merupakan pemilihan goal dari proses KDD misalnya karakterisasi,

klasifikasi, regresi, clustering, asosiasi, dll.

❖Pemilihan teknik, metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.


(9)

Tahapan Proses KDD

5. Interpretation/ Evaluation

❖ Yaitu penerjemahan pola-pola yang dihasilkan dari data mining.

❖ Pola informasi yang dihasilkan perlu ditampilkan dalam bentuk yang mudah dimengerti

❖ Tahap ini melakukan pemeriksaan apakah pola atau informasi yang

ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.


(10)

Data Pre-processing

Sampling : menyeleksi subset representatif dari populasi data yang besar.

Transformation : memanipulasi data mentah untuk menghasilkan input tunggal.

Denoising : menghilangkan noise dari data

Normalization : mengorganisasi data untuk pengaksesan yang lebih spesifik

F eature Extraction : membuka spesifikasi data yang signifikan dalam konteks tertentu.

Beberapa alat dan metode yang digunakan seperti :


(11)

Data Reduction

Data reduction merupakan teknik yang

digunakan untuk mentransformasi dari data mentah ke bentuk format data yang lebih

berguna. Sebagai contoh groupping,

counting, summing dan averaging data.

Data reduction dilakukan untuk mengatasi

ukuran data yang terlalu besar yang dapat menimbulkan ketidakefisienan proses dan peningkatan biaya


(12)

OLAP (On-Line Analytical Processing)

OLAP adalah suatu sistem atau teknologi yang dirancang untuk mendukung proses analisis

kompleks dalam rangka mengungkapkan

kecenderungan pasar dan faktor-faktor penting dalam bisnis

❖ Kemampuan OLAP yaitu bisa menaikkan atau menurunkan dimensi data sehingga kita dapat menggali data sampai detail dan memperoleh pandangan yang luas mengenai objek yang sedang dianalisis.


(13)

OLAP (On-Line Analytical Processing)

OLAP dapat digunakan membuat rangkuman baru dari multidimensi data yang berbeda, dan dapat merespon secara online, dan

memberikan view dua dimensi pada data cube multidimensi secara interaktif.


(14)

Data Warehouse

Definisi Data Warehouse

Data Warehouse adalah pusat informasi yang mampu memberikan database berorientasi subyek untuk

informasi yang bersifat historis yang mendukung DSS (Decision Support System) dan EIS (Executive


(15)

Data Warehouse

Tujuan Data Warehouse

❖ Meningkatkan kualitas dan akurasi informasi bisnis dan mengirimkan informasi ke pemakai dalam bentuk yang dimengerti dan dapat diakses dengan mudah.


(16)

Data Warehouse

Kegunaan Data Warehouse

❖ Pembuatan Laporan

Dapat menghasilkan laporan per periode

❖ Menganalisis data (OLAP)

Melakukan analisis bisnis untuk menyelidiki kecenderungan pasar dan faktor penyebabnya

❖ Data Mining

Mencari pola dan hubungan data untuk mengambil keputusan

❖ Proses Informasi Eksekutif


(17)

Data Warehouse

Ciri-ciri Data Warehouse

1. Subject Oriented

✓ Data disusun dan dikelompokkan berdasarkan

subyek yang berisi hanya informasi yang penting bagi pemrosesan decision support.

Subyek dirangkum ke dalam dimensi, misalnya :


(18)

Data Warehouse

Ciri-ciri Data Warehouse (Lanjutan) 2. Integrated

Jika data terletak pada berbagai aplikasi yang terpisah,encoding data sering tidak seragam

sehingga bila data dipindahkan ke data warehouse maka data akan diasumsikan sama


(19)

Data Warehouse

Ciri-ciri Data Warehouse (Lanjutan) 3. Time-variant

Data warehouse adalah tempat untuk storing data selama 5 sampai 10 tahun atau lebih

4. Non volatile

Data tidak dapat diperbaharui atau dirubah tetapi hanya dapat dilihat.


(20)

Data Warehouse

Arsitektur Data Warehouse

Operational data source 2

Operational data source (ODS) Operational data source n

Meta data

Detailed data

Lightly summarized data

Highly summarized data Warehouse Manager Warehouse Manager L o a d M a n a g e r Q u e r y M a n a g e r Archive/backup data Reporting, query, application development

and EIS tools

OLAP Tools

Data Mining Tools End-user access tools DBMS


(21)

Data Mart

Definisi Data Mart

Data Mart adalah subset dari data warehouse yang

mendukung kebutuhan informasi dari departemen atau fungsi bisnis tertentu.

Data Mart adalah struktur data yang cakupannya lebih kecil dari data warehouse dimana data dibagi berdasarkan kebutuhan informasi setiap departemen.


(22)

Arsitektur Data Mart

Operational data source 2

Operational data source (ODS) Operational data source n

Meta data

Detailed data

Lightly summarized data

Highly summarized data Warehouse Manager Warehouse Manager L o a d M a n a g e r Q u e r y M a n a g e r Archive/backup data Reporting, query, application development

and EIS tools

OLAP Tools

Data Mining Tools End-user access tools DBMS

Operational data source 1

Data Mart Summarized Data (Relational Database)

Summarized Data (Multi Dimansional Database)

Reporting, query, application development

and EIS tools

OLAP Tools


(23)

Data Warehouse / Data Mart VS OLAP

OLAP adalah teknologi yang memproses data di

dalam Data Warehouse / Data Mart dalam struktur multidimensi, menyediakan jawaban yang cepat untuk query analisis yang kompleks


(24)

Data Warehouse / Data Mart VS OLTP

Data Warehouse / Data Mart OLTP

Menyimpan data historis Menyimpan data saat ini Menyimpan detailed, lightly, highly,

summary data

Menyimpan detailed data

Data bersifat statis Data bersifat dinamis Mengarah pada analisis Mengarah pada transaksi Berorientasi pada subjek Berorientasi pada aplikasi

Mendukung keputusan strategi Mendukung keputusan sehari-hari Pemakai manajerial dalam tingkat yang

relatif rendah

Pemakai operasional dalam jumlah yang besar


(25)

OLTP VS OLAP

OLTP OLAP

Tujuan Mengotomatisasi bisnis Mengoptimalkan bisnis

Penggunaan Proses transaksi Pelaporan, Analisis, Modeling, Perencanaan

Skema Dua dimensi, Normalisasi Multi Dimensi, Hirarki Navigasi Didasarkan pada langkah kerja

transaksi

Didasarkan pada cara user menganalisis

Penghitungan Agregasi, Matriks Sederhana Agregasi, Matriks, Dimensi saling silang, Perumusan, Prosedural Implementasi Lambat dalam penyebaran, dan

mudah untuk diubah datanya

Cepat dalam penyebaran, adan susah untuk diubah datanya


(26)

Terima Kasih

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika


(1)

Data Mart

Definisi Data Mart

Data Mart

adalah subset dari data warehouse yang

mendukung kebutuhan informasi dari departemen atau

fungsi bisnis tertentu.

Data Mart

adalah struktur data yang cakupannya

lebih kecil dari data warehouse dimana data dibagi

berdasarkan kebutuhan informasi setiap departemen.


(2)

Arsitektur Data Mart

Operational data source 2

Operational data source (ODS) Operational data source n

Meta data

Detailed data

Lightly summarized data

Highly summarized data Warehouse Manager Warehouse Manager L o a d M a n a g e r Q u e r y M a n a g e r Archive/backup data Reporting, query, application development

and EIS tools

OLAP Tools

Data Mining Tools

End-user access tools DBMS

Operational data source 1

Data Mart

Summarized Data (Relational Database)

Summarized Data (Multi Dimansional Database)

Reporting, query, application development

and EIS tools

OLAP Tools


(3)

Data Warehouse / Data Mart VS OLAP

OLAP

adalah teknologi yang memproses data di

dalam

Data Warehouse / Data Mart

dalam struktur

multidimensi, menyediakan jawaban yang cepat untuk

query analisis yang kompleks


(4)

Data Warehouse / Data Mart VS OLTP

Data Warehouse / Data Mart

OLTP

Menyimpan data historis Menyimpan data saat ini Menyimpan detailed, lightly, highly,

summary data

Menyimpan detailed data Data bersifat statis Data bersifat dinamis Mengarah pada analisis Mengarah pada transaksi Berorientasi pada subjek Berorientasi pada aplikasi

Mendukung keputusan strategi Mendukung keputusan sehari-hari Pemakai manajerial dalam tingkat yang

relatif rendah

Pemakai operasional dalam jumlah yang besar


(5)

OLTP VS OLAP

OLTP

OLAP

Tujuan Mengotomatisasi bisnis Mengoptimalkan bisnis

Penggunaan Proses transaksi Pelaporan, Analisis, Modeling, Perencanaan

Skema Dua dimensi, Normalisasi Multi Dimensi, Hirarki Navigasi Didasarkan pada langkah kerja

transaksi

Didasarkan pada cara user menganalisis

Penghitungan Agregasi, Matriks Sederhana Agregasi, Matriks, Dimensi saling silang, Perumusan, Prosedural Implementasi Lambat dalam penyebaran, dan

mudah untuk diubah datanya

Cepat dalam penyebaran, adan susah untuk diubah datanya


(6)

Terima Kasih

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika