Pengertian Data Mining Data Mining

6

BAB II LANDASAN TEORI

2.1 Data Mining

2.1.1 Pengertian Data Mining

Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang bermanfaat yang tersimpan didalam database besar. Turban et al, 2005. Teknik data mining digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk menemukan pola yang baru dan berguna. Tidak semua pekerjaan pencarian informasi dinyatakan sebagai data mining. Beberapa pengertian data mining dari beberapa referensi: 1. Data mining adalah mencocokkan data dalam suatu model untuk menemukan informasi yang tersembunyi dalam basis data Dunham, 2002 2. Data mining merupakan proses menemukan pola-pola didalam data, dimana proses penemuan tersebut dilakukan secaa otomatis atau semi otomatis dan pola-pola yang ditemukan harus bermanfaat Fayyad, Piatetsky-Shapiro, Smyth, 1996 3. Data mining atau Knowledge Discovery in Database KDD adalah pengambilan informasi yang tersembunyi, dimana informasi tersebut sebelumnya tidak dikenal dan berpotensi bermafaat. Proses ini meliputi sejumlah pendekatan teknik yang berbeda, seperti clustering, data summarization, learning clasification rules Dunham, 2002 Data mining adalah sebuah bagian yang sangat penting dalam proses KDD Knowledge Discovery in Database. Knowledge Discovery in Databases KDD merupakan sekumpulan proses untuk menentukan pengetahuan yang bermanfaat dari data. Gambar 2.1 adalah proses KDD menurut Jiawei Han dan Micheline Kamber: Gambar 2.1 Proses KDD Proses KDD terdiri dari langkah-langkah dibawah ini: 1. Pembersihan Data Data Cleaning. Proses membersihkan data yang tidak konsisten atau yang mengganggu. Proses Data Cleanning mencakup antara lain membuang duplikasi data, memeriksa data yang tidak konsisten, dan memperbaiki kesalahan pada data. 2. Penggabungan Data Data Integration Proses menggabungkan data dari berbagai sumber. 3. Seleksi Data Data Selection. Proses menyeleksi data yang relevan. Data yang tidak sesuai akan dihilangkan. 4. Transformasi Data Data Transformation Data yang sudah di seleksi selanjutnya di transformasikan ke dalam bentuk yang sesuai untuk ditambang. 5. Penambangan Data Data Mining Proses mengekstrak informasi atau pengetahuan dari data dalam jumlah yang besar. Dalam penelitian ini, metode yang digunakan adalah metode analisis outlier dengan menggunakan pendekatan density based. Algoritma yang digunakan adalah Local Correlation Integral LOCI. 6. Evaluasi Pola Pattern Evaluation Proses mengidentifikasi apakah pola atau informasi yang ditemukan sesuai fakta atau hipotesa yang ada sebelumnya. 7. Presentasi Pengetahuan Knowledge Presentation Proses merepresentasikan pola kepada pengguna ke dalam bentuk yang mudah dimengerti.

2.1.2 Fungsi Data Mining