11
BAB II TINJAUAN PUSTAKA
II. 1. Pengertian Penambangan Data
Istilah Penambangan data data mining sudah berkembang jauh dalam mengadaptasi setiap bentuk analisa data. Pada dasarnya data mining berhubungan
dengan analisa data dan penggunaan teknik-teknik perangkat lunak untuk mencari pola dan keteraturan dalam himpunan data yang sifatnya tersembunyi. Namun saat
ini penambangan data jauh berkembang dengan adanya algoritma penambangan data yang membantu dalam melakukan ekstraksi informasi penting dari jumlah
data yang besar. Penambangan data dapat diartikan sebagai
“suatu proses ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara
implisit dalam suatu basis data ” Han Kamber, 2006. Penambangan data
merupakan bagian dari knowledge discovery in databases KDD, dimana penambangan data berfungsi sebagai proses untuk mengekstrak data menjadi
informasi yang berguna.
II. 2. Proses Penambangan Data
Menurut Jiawei Han dan Kamber dalam bukunya “Data Mining: Concepts And Techniques” proses penambangan data terdiri dari beberapa tahap, yaitu:
1. Pembersihan Data Data Cleaning Pada tahap ini dilakukan proses membuang data yang tidak konsisten dan
noise . Contohnya: data yang kadaluarsa, salah pengetikan maupun data
yang kosong. 2. Penggabungan Data Data Integration
Penggabungan data dari beberapa sumber agar seluruh data terangkum dalam satu tabel yang utuh.
3. Seleksi Data Data Selection Menyeleksi data dimana data yang relevan diambil dari database.
4. Transformasi Data Data Transformation Mentranformasikan atau merubah data kedalam bentuk yang sesuai untuk
ditambang. 5. Penambangan Data Data Mining
Penerapan teknik penambangan data untuk mengekstrak pola. 6. Evaluasi Pola Pattern Evaluation
Pola yang didapat dari proses penambangan data akan dievaluasi dengan hipotesa yang telah dibentuk sebelumnya. Akhir dari tahap ini adalah
diperolehnya persentase akurasi data. 7. Presentasi Pengetahuan Knowledge Presentation
Pada tahap ini pola yang didapat direpresentasikan kepada pengguna akhir kedalam bentuk yang dapat dipahami, misalnya melalui tahap
visualisasi.
Tahap – tahap tersebut diilustrasikan pada gambar 2.1 di bawah ini :
Gambar 2.1 . Tahap
– Tahap Data Mining Sumber : Han kamber 2006
Suatu sistem atau query penambangan data mungkin saja menghasilkan ribuan pola, namun tidak semua pola tersebut adalah pola yang menarik atau
penting. Ukuran suatu pola yang menarik atau penting adalah jika pola tersebut mudah dimengerti oleh manusia, bermanfaat, valid benar pada data baru atau
data tes dan membenarkan beberapa hipotesis. Penambangan data berkaitan erat dengan gudang data data warehouse
dan OLAP On-Line Analytical Processing. Gudang data merupakan data mentah
yang akan digunakan untuk analisa data menggunakan teknik penambangan data sedangkan OLAP adalah basisdata yang khusus digunakan untuk menunjang
proses pengambilan keputusan decision making. Teknologi yang ada di gudang data dan OLAP dimanfaatkan penuh untuk melakukan penambangan data.
Gambar di bawah ini menunjukkan posisi masing – masing teknologi basisdata
tersebut :
Gambar 2.2. Data mining dan teknologi basisdata lainnya Sumber : Jiawei Han and Micheline Kamber
www.cs.uiuc.edu~hanj
II. 3. Algoritma Penambangan Data