6
BAB II LANDASAN TEORI
2.1 Data Mining
2.1.1 Pengertian Data Mining
Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalam database. Data
mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk
mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang bermanfaat yang tersimpan didalam database besar.
Turban et al, 2005. Teknik data mining digunakan untuk memeriksa basis data
berukuran besar sebagai cara untuk menemukan pola yang baru dan berguna. Tidak semua pekerjaan pencarian informasi dinyatakan
sebagai data mining.
Beberapa pengertian data mining dari beberapa referensi: 1.
Data mining adalah mencocokkan data dalam suatu model untuk menemukan informasi yang tersembunyi dalam basis data
Dunham, 2002 2.
Data mining merupakan proses menemukan pola-pola didalam data, dimana proses penemuan tersebut dilakukan secaa otomatis
atau semi otomatis dan pola-pola yang ditemukan harus bermanfaat Fayyad, Piatetsky-Shapiro, Smyth, 1996
3. Data mining atau Knowledge Discovery in Database KDD
adalah pengambilan informasi yang tersembunyi, dimana informasi tersebut sebelumnya tidak dikenal dan berpotensi
bermafaat. Proses ini meliputi sejumlah pendekatan teknik yang
berbeda, seperti clustering, data summarization, learning clasification rules Dunham, 2002
Data mining adalah sebuah bagian yang sangat penting dalam proses KDD Knowledge Discovery in Database. Knowledge
Discovery in Databases KDD merupakan sekumpulan proses untuk menentukan pengetahuan yang bermanfaat dari data.
Gambar 2.1 adalah proses KDD menurut Jiawei Han dan Micheline Kamber:
Gambar 2.1 Proses KDD
Proses KDD terdiri dari langkah-langkah dibawah ini: 1.
Pembersihan Data Data Cleaning. Proses membersihkan data yang tidak konsisten atau yang
mengganggu. Proses Data Cleanning mencakup antara lain membuang duplikasi data, memeriksa data yang tidak konsisten,
dan memperbaiki kesalahan pada data. 2.
Penggabungan Data Data Integration Proses menggabungkan data dari berbagai sumber.
3. Seleksi Data Data Selection.
Proses menyeleksi data yang relevan. Data yang tidak sesuai akan dihilangkan.
4. Transformasi Data Data Transformation
Data yang sudah di seleksi selanjutnya di transformasikan ke dalam bentuk yang sesuai untuk ditambang.
5. Penambangan Data Data Mining
Proses mengekstrak informasi atau pengetahuan dari data dalam jumlah yang besar. Dalam penelitian ini, metode yang digunakan
adalah metode analisis outlier dengan menggunakan pendekatan density based. Algoritma yang digunakan adalah Local
Correlation Integral LOCI. 6.
Evaluasi Pola Pattern Evaluation Proses mengidentifikasi apakah pola atau informasi yang
ditemukan sesuai fakta atau hipotesa yang ada sebelumnya. 7.
Presentasi Pengetahuan Knowledge Presentation Proses merepresentasikan pola kepada pengguna ke dalam bentuk
yang mudah dimengerti.
2.1.2 Fungsi Data Mining