Tujuan Batasan Masalah PENDAHULUAN

6

BAB II LANDASAN TEORI

Untuk mendukung penelitian ini diperlukan beberapa landasan teori dan konsep-konsep yang relevan. Landasan teori dalam penelitian ini meliputi pengertian Penambangan Data Data Mining, Himpunan Kasar Rough Sets, Pohon KeputusanDecision Tree, Algoritma C.45, Algoritma Reduct Based Decision Tree RDT, dan k-fold Cross Validation.

II.1. Penambangan DataData Mining

Definisi tentang penambangan data menurut beberapa penulis adalah sebagai berikut: 1. Definisi penambangan data menurut Yudho 2003:1 adalah “ekstraksi informasi atau pola yang penting atau menarik dari data yang ada di database yang besar ”. 2. Penambangan data menurut Mitra dan Acharya 2003:1 adalah “suatu data percobaan untuk memperoleh informasi yang berguna yang tersimpan dalam basisdata yang sangat besar ”. 3. Penambangan data menurut Lee dan Santana 2010:17 adalah “metoda yang digunakan untuk mengekstraksi informasi prediktif tersembunyi pada database ”. Dari definisi diatas maka penambangan data dapat diartikan sebagai proses mencari atau mengekstrasi pengetahuan yang berasal dari sejumlah data yang besar. Pengetahuan yang diperoleh dari proses ekstrasi sejumlah data besar tersebut berupa pola tersembunyi yang penting atau menarik yang biasanya tidak dapat kita ketahui secara manual. Penambangan data Data Mining muncul ketika pemilik data baik perorangan maupun organisasi memiliki data yang cukup besar dalam kurun waktu tertentu sehingga mengakibatkan penumpukan. Contohnya: data akademik, data pembelian, data penjualan, data nasabah, data transaksi dan sebagainya. Kemudian muncul pertanyaan dari pemilik tersebut,apa yang harus dilakukan terhadap tumpukan data tersebut? Salah satu solusinya adalah dilakukannya teknik Penambangan Data Data Mining agar data yang sedemikian banyak tersebut tidak menjadi sampah atau kuburan data. Penambangan data merupakan proses yang tidak dapat dipisahkan dengan dengan Knowledge Discovery in Database KDD, karena penambangan data adalah salah satu tahap dari proses KDD yang menggunakan analisa data serta penggunaan algoritma, sehingga menghasilkan pola-pola khusus dalam data yang besar. Berikut ini merupakan urutan langkah-langkah dalam membangun penambangan data menurut Han dan Kamber 2006: 1. Pembersihan Data Data Cleaning Pembersihan data merupakan proses untuk menghilangkan noise dan data yang tidak konsisten atau data yang tidak relevan. 2. Integrasi Data Data Integration Integrasi data merupakan proses penggabungan data dari berbagai sumber. 3. Seleksi Data Data Selection Seleksi data merupakan proses menyeleksi data dimana data yang relevan diambil dari database. 4. Transformasi Data Data Transformation Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam penambangan data. 5. Penambangan Data Data Mining Penambangan data merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data. 6. Evaluasi Pola Pattern Evaluation Proses ini dilakukan untuk mengidentifikasi pola-pola menarik yang dalam arti tertentu menyatakan basis pengetahuan. 7. Presentasi Pengetahuan Knowledge Presentation Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna.