KNOWLEGDE DISCOVERY in DATABASE (KDD)

  KNOWLEGDE DISCOVERY in DATABASE (KDD) Tujuan : Mahasiswa Dapat memahami konsep KDD yang merupakan tujuan akhir dari Data Warehouse dan Data Mining Data Warehouse dan Data Mining

  Data Warehouse Defnisi : Data Warehouse adalah Pusat repositori informasi yang mampu memberikan database berorientasi subyek untuk informasi yang bersifat historis yang mendukung DSS (Decision Suport System) danEIS (Executive Information System). Salinan dari transaksi data yang terstruktur secara spesifk pada query dan analisa. Salinan dari transaksi data yang terstruktur spesifk untuk query dan laporan

  Tujuan : Meningkatkan kualitas dan akurasi informasi bisnis dan mengirimkan informasi ke pemakai dalam bentuk yang dimengerti dan dapat diakses dengan mudah.

Empat karakteristik data warehouse

  Subject oriented

  • Integrated
  • Time variant
  • >Non-vola

  

Empat karakteristik data

warehouse

  • Subject oriented
    • – Data yang disusun menurut subyek berisi hanya informasi yang penting bagi pemprosesan decision support.
    • – Database yang semua informasi yang tersimpan di kelompokkan berdasarkan subyek tertentu misalnya: pelanggan, gudang, pasar, dsb.
    • – Semua Informasi tersebut disimpan dalam suatu sistem data warehouse.
    • – Data-data di setiap subyek dirangkum ke dalam dimensi, misalnya : periode waktu, produk, wilayah, dsb, sehingga dapat memberikan nilai sejarah untuk bahan analisa.

Empat karakteristik data warehouse

  • – Jika data terletak pada berbagai aplikasi yang terpisah dalam suatu lingkungan operasional, encoding data sering tidak seragam sehinggga bila data dipindahkan ke data warehouse maka coding akan diasumsikan sama seperti lazimnya.

  Integrated

Empat karakteristik data warehouse

  Time variant

  • Data warehouse adalah tempat untuk storing data selama 5 sampai 10 tahun atau lebih, data digunakan untuk perbandingan atau perkiraan dan data ini tidak dapat diperbaharui.

Empat karakteristik data warehouse

  • Data tidak dapat diperbaharui atau dirubah .

  Non-volatile

  

tetapi hanya dapat ditambah dan dilihat

  

Perbedaan Data Warehouse

dan Database

  • Data Warehouse

  Tidak terikat suatu aplikasi

  • Data terpusat

  Historical Denormalisasi kecil Multiple subject Sumber dari dari semua internal maupun

  • eksternal source

  Fleksibel Data oriented Umurnya panjang Ukuran besar Single complex structure

  Database Aplikasi DSS secara spesifk

  • Tidak terpusat oleh user area Sebagian historical Denormalisasi besar One central subject of concern of user Sumber dari sebagian

  internal maupun eksternal source

  • Tidak feksibel, terbatas Project oriented Umurnya pendek Ukuran dari kecil menjadi besar
  • Konsep data warehouse

      Langkah penerapan data warehouse

      Proses Data warehouse

    ARSITEKTUR DATA WAREHOUSE

      Pilihan berikut harus dibuat didalam perancangan data warehouse

    • process model Tipe apa yang akan dimodelkan?
    • grain Apa dasar data dan level atom data yang akan disajikan?
    • dimensi Dimensi apa yang dipakai untuk masing- masing record tabel fakta?
    • ukuran

      Ukuran apa yang akan mengumpulkan

      masing- masing record tabel fakta?

      WAREHOUSE

      ARSITEKTUR DATA WAREHOUSE

      OLAP (On-line analytical processing)

       OLAP adalah suatu sistem atau teknologi yang dirancang untuk mendukung proses analisis kompleks dalam rangka mengungkapkan  OLAP ditandai dengan kemampuannya menaikkan atau kecenderungan pasar dan faktor-faktor penting dalam bisnis menurunkan dimensi data sehingga kita dapat menggali data sampai pada level yang sangat detail dan memperoleh pandangan yang lebih luas mengenai objek yang sedang kita analisis.

      OLAP secara khusus memfokuskan pada pembuatan data agar dapat diakses pada saat pendefnisian kembali dimensi. Perbedaan data warehouse dan data mining sedangkan data mining digunakan untuk melakukan information discovery

    teknologi data warehouse digunakan untuk melakukan OLAP (On-line Analytical Processing) ,

    Arsitektur Data Mining

      

    Tahap pemprosesan dalam Data Mining

    Knowledge Discovery In Database (KDD)

      Penerapan Data Mining di Perusahaan Data Mining dapat membantu untuk melakukan analisis dan prediksi cash fow serta Perencanaan Keuangan dan Evaluasi Aset Analisa Perusahaan dan Manajemen Resiko menggunakannya untuk analisis trend. melakukan contingent claim analysis untuk mengevaluasi aset. Selain itu juga dapat  pemasukan dari masing-masing resource, dapat memanfaatkannya untuk melakukan

    Dengan melihat informasi ringkas (summary) serta pola pembelanjaan dan

    Perencanaan Sumber Daya (Resource Planning) Persaingan (Competition) resource planning. Sekarang ini banyak perusahaan yang berupaya untuk dapat melakukan

    dapat melakukan pengelompokan customer dan memberikan variasi

    pesaing dan melihat market direction mereka. competitive intelligence. Data Mining dapat membantu untuk memonitor pesaing- diterapkan oleh perusahaan minyak REPSOL di Spanyol dalam menetapkan harga Menyusun strategi penetapan harga di pasar yang sangat kompetitif. Hal ini harga/layanan/bonus untuk masing-masing grup. jual gas di pasaran.

      DATA MINING & DATA MINING & KDD KDD

       Data Mining adalah kegiatan untuk

      menemukan informasi atau pengetahuan yang berguna secara otomatis dari data yang jumlahnya besar.

       Data Mining merupakan salah satu proses

      dari keseluruhan proses yang ada pada Knowledge Discovery in Databases (KDD).

       KDD Knowledge Discovery in Databases (KDD) merupakan sekumpulan proses untuk menemukan pengetahuan yang bermanfaat dari data. Kumpulan proses dalam KDD meliputi : pembersihan data (data cleaning), integrasi data (data integration), pemilihan data (data selection), transformasi data (data transformation),

    penambangan data (data mining), evaluasi pola (pattern

    evaluation), dan presentasi pengetahuan (knowledge presentation).

      Berdasarkan defnisi ini terlihat bahwa data mining hanya merupakan salah satu proses dari keseluruhan proses yang ada pada KDD, tetapi merupakan proses yang sangat penting dalam menemukan pola-pola yang berguna dari sejumlah data yang besar (data tersebut bisa disimpan dalam basisdata, Data Warehouse, atau media penyimpanan informasi lainnya).

      DATA MINING & DATA MINING & KDD KDD DATA DATA WAREHOUSE WAREHOUSE

    KDD vs. DM

       Menurut Cabena, Data Mining = Knowledge Discovery in Database (KDD).

       Menurut Jiawei Han, Data Mining

      merupakan Subset atau salah satu

      tahap dari KDD saja. Sehingga, batasan ini yang selanjutkan digunakan.

       Data Mining bertujuan mengekplorasi

      basis data untuk menemukan pola-pola pengetahuan yang tersembunyi di dalam data tersebut.

    TAHAPAN KNOWLEDGE DISCOVERY IN DATABASE Menurut Peter Cabena, Tahapan – tahapan

      dalam KDD adalah sebagai berikut : 

      Penentuan Sasaran Bisnis (Business Objective Determination)

       Persiapan Data (Preparation Data)

       Data Selection

       Data Preprocessing

       Data Transformation

       Data Mining

       Anaysis of Result

       Assimilation of Knowledge

      Business Objective Determination - 1

    Merupakan sebuah tahapan yang mendefnisikan

    permasalahan atau tantangan bisnis dengan jelas. Hal ini merupakan aspek yang sangat esensial dalam setiap proyek data mining.

      Contoh Sasaran Bisnis :

    Mengembangkan suatu strategi marketing untuk

    mempertahankan loyalitas customer di Jawa Tengah dan Jawa Timur untuk produk soft drink dengan brand dan ukuran tertentu (200ml dalam kotak alumunium) selama bulan April, Mei , Juni yang akan datang. Perusahaan akan menggunakan kombinasi dari berbagai strategi

    marketing (mixed marketing), yang salah satunya

    adalah direct mail campaign kepada customer yang tampaknya "mudah rusak" loyalitasnya.

    Business Objective Determination - 2

       Sehingga dampak keseluruhan KDD adalah :

      

    • Data Selection: dipilih customers yang membeli produk soft drink 200 ml dalam kotak alumunium di Jawa Tengah dan Jawa Timur.

      

    • Data Transformation: customers yang membeli produk soft drink 200 ml dalam kotak alumunium disorting dalam 10 kategori, yang masing-masing membedakan tingkat loyalitasnya: membeli produk tersebut 0-10%, 11-20%, ..... , 81-90%, 91-100% sepanjang waktu pembeliannya. Selanjutnya data inilah yang akan dibawa ke tahap data mining.

      

    Persiapan Data (Preparation

    Data) -1

      Merupakan tahapan untuk mempersiapkan data yang diperlukan untuk proses data mining. Tujuannya adalah agar data yang digunakan benar-benar sesuai dengan permasalahan yang akan dipecahkan, dapat dijamin kebenarannya, dan dalam format yang sesuai/tepat.

      

      Tahap yang paling banyak mengkonsumsi resources (manusia, biaya, waktu) yang tersedia. Biasanya mencapai 60% keseluruhan proyek KDD.

      

    Persiapan Data (Preparation

    Data) -2

      Data Selection Mengidentifkasi semua sumber informasi internal dan eksternal dan memilih sebagian saja dari data yang diperlukan untuk aplikasi data mining.

       Data Preprocessing

      Meyakinkan kualitas data yang telah dipilih pada tahapan sebelumnya. 2 issue yang sering dihadapkan pada tahapan ini adalah Noisy Data dan Missing Value.

       Data Transformation

      

    Mengubah data ke dalam model analitis serta

    memodelkan data agar sesuai dengan analisa yang diharapkan dan format data yang diperlukan oleh algoritma data mining.

    Data Mining -1

       Melakukan proses pencarian pengetahuan terhadap data yang ditransformasikan pada tahap sebelumnya.

       Contoh Pengetahuan berbentuk Association Rule untuk kasus "Soft Drink“:

      IF soft drink sejenis dengan ukuran yang lebih besar (bukan botol kecil) dibeli lebih dari 58% dalam sejarah pembelian soft drink seorang consumer THEN consumer tersebut diprediksi Loyal.

       Pemilihan tugas data mining : pemilihan goal dari proses KDD misalnya klasifkasi, regresi, clustering, dll.

    Data Mining -2

       Proses Data mining yaitu proses mencari

      pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

    Anaysis of Result

      

      Menginterpretasikan dan mengevaluasi output dari tahap mining: patterns.

      

      Pendekatan analisa yang digunakan akan bervariasi menurut operasi data mining yang digunakan, tetapi biasanya akan melibatkan teknik visualisasi.

      

    Assimilation of Knowledge

      Menggunakan hasil mining yang telah dievaluasi ke dalam perilaku organisasi dan sistem informasi perusahaan. DATA MINING dan PROSES KDD - 1

      

    DATA MINING dan PROSES KDD - 2

    Pembersihan data (Data Cleaning) Intergrasi Data (Data Integration) Data yang diperlukan untuk data mining tidak hanya berasal dari satu database Digunakan untuk membuang data yang tidak konsisten dan noise. tetapi juga berasal dari beberapa database atau fle teks. Hasil integrasi data warehouse, data dikonsolidasikan dengan struktur khusus yang efsien. Selain sering diwujudkan dalam sebuah data warehouse karena dengan data Transformasi data Transformasi dan pemilihan data ini untuk menentukan kualitas dari hasil data itu data warehouse juga memungkinkan tipe analisa seperti OLAP. Aplikasi Teknik Data Mining Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari

    mining, sehingga data diubah menjadi bentuk sesuai untuk di-Mining.

    Evaluasi pola yang ditemukan dipakai. proses data mining. Ada beberapa teknik data mining yang sudah umum

       memang tercapai. maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khasPresentasi Pengetahuan Presentasi pola yang ditemukan untuk menghasilkan aksi tahap terakhir dari Daftar Pustaka 

      Djoni Darmawikarta, Mengenal Data Warehouse, 2003

      

      Yudho Giri Sucahyo, Data Mining,2003

      

      Yudho Giri Sucahyo, Penerapan Data Mining, 2003

       Jefrey A. Hofer, Mary B. Prescott, Fred

      Modern Database

    R. McFadden ;

      Management th

      Selesai

Dokumen yang terkait

Analisis Komparasi Internet Financial Local Government Reporting Pada Website Resmi Kabupaten dan Kota di Jawa Timur The Comparison Analysis of Internet Financial Local Government Reporting on Official Website of Regency and City in East Java

19 819 7

Improving the Eighth Year Students' Tense Achievement and Active Participation by Giving Positive Reinforcement at SMPN 1 Silo in the 2013/2014 Academic Year

7 202 3

An Analysis of illocutionary acts in Sherlock Holmes movie

27 148 96

The Effectiveness of Computer-Assisted Language Learning in Teaching Past Tense to the Tenth Grade Students of SMAN 5 Tangerang Selatan

4 116 138

The correlation between listening skill and pronunciation accuracy : a case study in the firt year of smk vocation higt school pupita bangsa ciputat school year 2005-2006

9 128 37

Existentialism of Jack in David Fincher’s Fight Club Film

5 71 55

Phase response analysis during in vivo l 001

2 30 2

PENINGKATAN AKTIVITAS DAN HASIL BELAJAR MATEMATIKA PADA MATERI LUAS BANGUN DATAR MENGGUNAKAN METODE DISCOVERY DI KELAS VB SD NEGERI 5 SUMBEREJO KECAMATAN KEMILING BANDAR LAMPUNG TAHUN PELAJARAN 2012/2013

7 63 30

The Risk and Trust Factors in Relation to the Consumer Buying Decision Process Model

0 0 15

PENERAPAN ADING (AUTOMATIC FEEDING) PINTAR DALAM BUDIDAYA IKAN PADA KELOMPOK PETANI IKAN SEKITAR SUNGAI IRIGASI DI KELURAHAN KOMET RAYA, BANJARBARU Implementation of Ading (Automatic Feeding) Pintar in Fish Farming on Group of Farmer Close to River Irriga

0 0 5