6
BAB II LANDASAN TEORI
Untuk mendukung penelitian ini diperlukan beberapa landasan teori dan konsep-konsep yang relevan. Landasan teori dalam penelitian ini meliputi
pengertian Penambangan Data Data Mining, Himpunan Kasar Rough Sets, Pohon KeputusanDecision Tree, Algoritma C.45, Algoritma Reduct Based
Decision Tree RDT, dan k-fold Cross Validation.
II.1. Penambangan DataData Mining
Definisi tentang penambangan data menurut beberapa penulis adalah sebagai berikut:
1. Definisi penambangan data menurut Yudho 2003:1 adalah
“ekstraksi informasi atau pola yang penting atau menarik dari data yang ada di
database yang besar ”.
2. Penambangan data menurut Mitra dan Acharya 2003:1 adalah
“suatu data percobaan untuk memperoleh informasi yang berguna yang
tersimpan dalam basisdata yang sangat besar ”.
3. Penambangan data menurut Lee dan Santana 2010:17 adalah
“metoda yang digunakan untuk mengekstraksi informasi prediktif tersembunyi pada
database ”.
Dari definisi diatas maka penambangan data dapat diartikan sebagai proses mencari atau mengekstrasi pengetahuan yang berasal dari sejumlah data yang
besar. Pengetahuan yang diperoleh dari proses ekstrasi sejumlah data besar tersebut berupa pola tersembunyi yang penting atau menarik yang biasanya tidak
dapat kita ketahui secara manual. Penambangan data Data Mining muncul ketika pemilik data baik perorangan maupun organisasi memiliki data yang cukup
besar dalam kurun waktu tertentu sehingga mengakibatkan penumpukan. Contohnya: data akademik, data pembelian, data penjualan, data nasabah, data
transaksi dan sebagainya. Kemudian muncul pertanyaan dari pemilik tersebut,apa
yang harus dilakukan terhadap tumpukan data tersebut? Salah satu solusinya adalah dilakukannya teknik Penambangan Data Data Mining agar data yang
sedemikian banyak tersebut tidak menjadi sampah atau kuburan data. Penambangan data merupakan proses yang tidak dapat dipisahkan dengan
dengan Knowledge Discovery in Database KDD, karena penambangan data adalah salah satu tahap dari proses KDD yang menggunakan analisa data serta
penggunaan algoritma, sehingga menghasilkan pola-pola khusus dalam data yang besar. Berikut ini merupakan urutan langkah-langkah dalam membangun
penambangan data menurut Han dan Kamber 2006: 1.
Pembersihan Data Data Cleaning Pembersihan data merupakan proses untuk menghilangkan noise dan
data yang tidak konsisten atau data yang tidak relevan. 2.
Integrasi Data Data Integration Integrasi data merupakan proses penggabungan data dari berbagai
sumber. 3.
Seleksi Data Data Selection Seleksi data merupakan proses menyeleksi data dimana data yang
relevan diambil dari database. 4.
Transformasi Data Data Transformation Data diubah atau digabung ke dalam format yang sesuai untuk diproses
dalam penambangan data. 5.
Penambangan Data Data Mining Penambangan data merupakan suatu proses utama saat metode
diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data.
6. Evaluasi Pola Pattern Evaluation
Proses ini dilakukan untuk mengidentifikasi pola-pola menarik yang dalam arti tertentu menyatakan basis pengetahuan.
7. Presentasi Pengetahuan Knowledge Presentation
Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh
pengguna.