1. Pengertian Penambangan Data 2. Proses Penambangan Data

11

BAB II TINJAUAN PUSTAKA

II. 1. Pengertian Penambangan Data

Istilah Penambangan data data mining sudah berkembang jauh dalam mengadaptasi setiap bentuk analisa data. Pada dasarnya data mining berhubungan dengan analisa data dan penggunaan teknik-teknik perangkat lunak untuk mencari pola dan keteraturan dalam himpunan data yang sifatnya tersembunyi. Namun saat ini penambangan data jauh berkembang dengan adanya algoritma penambangan data yang membantu dalam melakukan ekstraksi informasi penting dari jumlah data yang besar. Penambangan data dapat diartikan sebagai “suatu proses ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara implisit dalam suatu basis data ” Han Kamber, 2006. Penambangan data merupakan bagian dari knowledge discovery in databases KDD, dimana penambangan data berfungsi sebagai proses untuk mengekstrak data menjadi informasi yang berguna.

II. 2. Proses Penambangan Data

Menurut Jiawei Han dan Kamber dalam bukunya “Data Mining: Concepts And Techniques” proses penambangan data terdiri dari beberapa tahap, yaitu: 1. Pembersihan Data Data Cleaning Pada tahap ini dilakukan proses membuang data yang tidak konsisten dan noise. Contohnya: data yang kadaluarsa, salah pengetikan maupun data yang kosong. 2. Penggabungan Data Data Integration Penggabungan data dari beberapa sumber agar seluruh data terangkum dalam satu tabel yang utuh. 3. Seleksi Data Data Selection Menyeleksi data dimana data yang relevan diambil dari database. 4. Transformasi Data Data Transformation Mentranformasikan atau merubah data kedalam bentuk yang sesuai untuk ditambang. 5. Penambangan Data Data Mining Penerapan teknik penambangan data untuk mengekstrak pola. 6. Evaluasi Pola Pattern Evaluation Pola yang didapat dari proses penambangan data akan dievaluasi dengan hipotesa yang telah dibentuk sebelumnya. Akhir dari tahap ini adalah diperolehnya persentase akurasi data. 7. Presentasi Pengetahuan Knowledge Presentation Pada tahap ini pola yang didapat direpresentasikan kepada pengguna akhir kedalam bentuk yang dapat dipahami, misalnya melalui tahap visualisasi. Tahap – tahap tersebut diilustrasikan pada gambar 2.1 di bawah ini : Gambar 2.1 . Tahap – Tahap Data Mining Sumber : Han kamber 2006 Suatu sistem atau query penambangan data mungkin saja menghasilkan ribuan pola, namun tidak semua pola tersebut adalah pola yang menarik atau penting. Ukuran suatu pola yang menarik atau penting adalah jika pola tersebut mudah dimengerti oleh manusia, bermanfaat, valid benar pada data baru atau data tes dan membenarkan beberapa hipotesis. Penambangan data berkaitan erat dengan gudang data data warehouse dan OLAP On-Line Analytical Processing. Gudang data merupakan data mentah yang akan digunakan untuk analisa data menggunakan teknik penambangan data sedangkan OLAP adalah basisdata yang khusus digunakan untuk menunjang proses pengambilan keputusan decision making. Teknologi yang ada di gudang data dan OLAP dimanfaatkan penuh untuk melakukan penambangan data. Gambar di bawah ini menunjukkan posisi masing – masing teknologi basisdata tersebut : Gambar 2.2. Data mining dan teknologi basisdata lainnya Sumber : Jiawei Han and Micheline Kamber www.cs.uiuc.edu~hanj

II. 3. Algoritma Penambangan Data