Data Mining LANDASAN TEORI

BAB 2 LANDASAN TEORI

Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

2.1. Data Mining

Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan didalam database. Data mining merupakan suatu proses kegiatan yang meliputi pengumpulan dan pemakaian data historis untuk menemukan keteraturan pola maupun hubungan dalam suatu set data berukuran besar Santosa, 2007. Data mining adalah tentang memecahkan suatu masalah dengan menganalisis data yang sudah ada. Data mining juga didefinisikan sebagai proses menemukan pola dalam data, dimana pola yang didapat harus memiliki beberapa keuntungan Witten Frank 2005. Data mining sering disebut knowledge discovery in database KDD, yaitu kegiatan yang meliputi kumpulan pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan. Sehingga istilah pattern recognition sekarang jarang digunakan karena ia termasuk bagian dari data mining Santosa, 2007. 2.1.1. Knowledge discovery in database KDD Menurut Han Kamber 2006 proses KDD secara garis besar terdiri dari urutan yang berulang dari langkah-langkah berikut. 1. Data Cleaning untuk menghilangkan noise dan data yang tidak konsisten 2. Data Integration mengkombinasikan beberapa dari sumber data 3. Data Selection pengambilan data yang relevan dari database untuk dianalisis 4. Data Transformation pengubahan data atau mengkonsolidasikan data kedalam bentuk yang sesuai untuk dilakukannya proses mining, seperti ringkasan atau agregasi operasi 5. Data Mining proses penting dimana metode cerdas diterapkan untuk mengekstrak pola 6. Pattern Evaluation mengidentifikasi pola-pola menarik yang mewakili pengetahuan berdasarkan proses data mining sebelumnya 7. Knowledge presentation menggunakan pengetahuan teknik representasi dan visualisasi untuk menyajikan pengetahuan kepada pengguna Gambar 2.1 Proses KDD Han Kamber 2006 Langkah 1 sampai 4 merupakan berbagai bentuk precrocessing data, dimana data disusun untuk proses mining. Langkah data mining dapat berinteraksi dengan pengguna atau basis pengetahuan.Berdasarkan pandangan ini, berikut komponen utama dari arsitektur sistem data mining pada gambar 2.2 Han Kamber 2006. Gambar 2.2 Arsitektur sistem data mining Han Kamber 2006 Database, Data Warehouse, World Wide Web, dan Other Info Repositories merupakan satu atau kumpulan dari database, gudang data, spreadsheet atau jenis lain dari informasi repository. Cleaning data, integrasi data dan pemilihan data dapat dilakukan pada data. Database atau Data Warehouse Server: bertanggung jawab untuk mengambil data yang relevan berdasarkan permintaan data mining pengguna. Knowledge Base : merupakan domain pengetahuan yang digunakan untuk memandu pencarian atau mengevaluasi pola yang dihasilkan. Pengetahuan tersebut dapat mecakup hierarki konsep yang digunakan untuk mengatur atribut atau nilai atribut kedalam berbagai tingkat abstraksi. Data Mining Engine : penting untuk sistem data mining seperti untuk tugas-tugas karakteristik, asosiasi dan analisis korelasi, klasifikasi, prediksi, analisis cluster, analisis outlier, dan analisis evolusi. Pattern Evaluation : melakukan pemfokusan pencarian terhadap pola yang menarik dengan berinteraksi dengan modul data mining, atau dapat diintegrasikan dengan modul pertambangan, tergantung pada pelaksanaan metode data mining yang digunakan. User Interface : diperlukan sebagai perantara pengguna dengan sistem untuk berkomunikasi yang memungkinkan pengguna untuk berinteraksi dengan sistem dengan menentukan pemberian tugas, memberi informasi untuk membantu memfokuskan pencarian. Selain itu juga memungkinkan pengguna untuk menelursuri database dan skema data warehouse atau struktur data, mengevaluasi pola, dan memvisualisasikan pola dalam bentuk yang berbeda. 2.1.2. Teknik data mining Terdapat beberapa teknik dan sifat data mining sebagai berikut Hermawati, 2009 : 1. Klasifikasi clasification Klasifikasi adalah menentukan sebuah record data baru ke salah satu dari beberapa kategori atau klas yang telah didefinisikan sebelumnya. Contoh aplikasinya adalah pada penjualan langsung, yaitu untuk mengurangi cost surat menyurat dengan menentukan satu set konsumen yang mempunyai kesamaandalam membeli produk telepon selular baru. 2. Regresi regression Memprediksi nilai dari suatu variable kontinyu yang diberikan berdasarkan nilai dari variable yang lain, dengan mengasumsikan sebuah model ketergantungan linier atau nonlinier. Contoh aplikasinya adalah : memprediksi kecepatan angin sebagai suatu fungsi suhu, kelembaban, tekanan udara, dan lainnya. 3. Klasterisasi clustering Mempartisi data-set menjadi beberapa sub-set atau kelompok sedemikian rupa sehingga elemen-elemen dari suatu kelompok tertentu memiliki set property yang dishare bersama dengan tingkat similaritas yang tinggi dalam satu kelompok dan tingkat similaritas kelompok yang rendah. Contoh aplikasinya adalah : document clustering, dengan tujuan untuk mendapatkan kelompok dokumen yang mempunyai kesamaan berdasarkan kata-kata penting yang muncul dalam dokumen. 4. Kaidah Asosiasi association rules Mendeteksi kumpulan atribut-atribut yang muncul bersamaan co-occur dalam frekuensi yang sering, dan membentuk sejumlah kaidah dari kumpulan-kumpulan tersebut. Contoh aplikasinya adalah pada supermarket shelf management, dengan tujuan untuk mengenali item-item yang dibeli bersama-sama oleh cukup banyak pelanggan. 5. Pencarian Pola sekuensial sequence mining Mencari sejumlah event yang secara umum terjadi bersama-sama. Sebagai contoh dalam suatu set urutan DNA, ACGTC diikuti oleh GTCA setelah suatu celah selebar 9 dengan probabilitas sebesar 30 .

2.2 Association Rule Mining