6
BAB II LANDASAN TEORI
A. Penambangan Data
Beberapa pengertian penambangan data menurut sejumlah penulis adalah sebagai berikut :
1. Definisi sederhana dari penambangan data adalah ekstraksi
informasi atau pola yang penting atau menarik dari data yang berada di basis data yang besar Yudho, 2003:1.
2. Penambangan data adalah suatu percobaan untuk memperoleh
informasi yang berguna yang tersimpan di dalam basis data yang sangat besar Mitra Acharya, 2003:1.
3. Suatu proses yang mengidentifikasi hubungan dan pola-pola
tersembunyi dalam suatu data Groth, 1998:4. Dari pengertian-pengertian diatas, penambangan data dapat diartikan
sebagai suatu proses untuk mencari pola-pola yang tersembunyi dari basis data yang besar sehingga didapatkan informasi yang menarik.
B. Proses Penambangan Data
Proses penambangan data tidak dapat dipisahkan dengan Knowledge Discovery in Databases
KDD, karena penambangan data merupakan salah satu tahap dari proses KDD yang mempergunakan
analisa data dan penggunaan algoritma, sehingga menghasilkan pola-pola PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
khusus dalam basis data yang besar Fayyad, Piatetsky-shapiro Smyth, 1996: 40.
Berikut ini merupakan langkah-langkah dalam membangun penambangan data :
1. Pembersihan Data. Proses ini dilakukan untuk membuang data
yang tidak konsisten dan derau yang ada dalam data tersebut, seperti data yang tidak relevan, data yang salah ketik maupun data
kosong yang tidak diperlukan. 2.
Integrasi data merupakan penggabungan tabel dari beberapa sumber agar seluruh data terangkum dalam satu tabel utuh
denormalisasi. 3.
Seleksi dan transformasi data. Pada proses ini data yang ada dipilih untuk selanjutnya diubah menjadi bentuk yang sesuai untuk
ditambang. 4.
Penerapan teknik penambangan data adalah menerapkan algoritma untuk mencari pola yang menarik
5. Evaluasi pola. Pola yang sudah didapat direpresentasikan kepada
pengguna akhir ke dalam bentuk yang menarik ataupun bentuk yang mudah dipahami.
Tahap-tahap tersebut diilustrasikan ke dalam gambar berikut ini :
Gambar 2.1 Langkah-langkah dalam Penambangan Data
Sumber: Jiawei Han and Micheline Kamber http:www.cs.sfu.ca~handmbook
Tidak dapat dipungkiri bahwa penambangan data berkaitan erat dengan data warehouse dan OLAP Online Analytical Processing. Hal ini
dikarenakan teknologi yang ada pada data warehouse dan OLAP digunakan sepenuhnya untuk melakukan penambangan data
Yudho,2003:2. Data warehouse merupakan sistem gudang data sedangkan OLAP merupakan basis data khusus yang digunakan untuk
menunjang proses pengambilan keputusan. Berikut ini merupakan gambar yang menunjukkan posisi masing-masing teknologi :
Pembersihan Data
Integrasi Data Databases
Data Warehouse Tugas Data yang Relevan
Seleksi dan Transformasi
Data Mining Evaluasi Pola
Pengetahuan
Pembersihan Data
Integrasi Data Databases
Data Warehouse Tugas Data yang Relevan
Seleksi dan Transformasi
Data Mining Evaluasi Pola
Pengetahuan
Gambar 2.2 Penambangan data dan teknologi database lainnya
Sumber: Jiawei Han and Micheline Kamber http:www.cs.sfu.ca~handmbook
Dari gambar di atas terlihat bahwa teknologi data warehouse digunakan untuk melakukan OLAP sedangkan penambangan data
digunakan untuk melakukan information discovery yang informasinya lebih ditujukan untuk seorang Data Analysist dan Business Analysist.
Menurut Iko2003;3 data warehouse merupakan data mentah untuk penambangan data. Data warehouse sendiri secara periodik diisi data dari
OLTPOnline Transaction Processing setelah menjalani pembersihan dan integrasi data. OLTP merupakan basis data yang dipakai perusahaan-
perusahaan dalam melakukan operasi sehari-harinya seperti pencatatan
Increasing potential to support
business decisions
End User
Business Analyst
Data Analyst
DBA
Making Decisions
Data Presentation Visualization Techniques
Data Mining Information Discovery
Data Exploration
OLAP, MDA Statistical Analysis, Querying and Reporting
Data Warehouses Data Marts Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
Increasing potential to support
business decisions
End User
Business Analyst
Data Analyst
DBA
Making Decisions
Data Presentation Visualization Techniques
Data Mining Information Discovery
Data Exploration
OLAP, MDA Statistical Analysis, Querying and Reporting
Data Warehouses Data Marts Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
transaksi jual-beli, administrasi pengiriman barang, inventori, penggajian, dan lain sebagainya.
C. Teknik Klasifikasi