yang sering dialami oleh suatu organisasi. Secara garis besar data mining dapat
dikelompokkan menjadi 2 dua kategori utama, yaitu Tan et al. 2005:
1. Descriptive Mining, yaitu proses untuk
menemukan karakteristik penting dari data dalam suatu basis data. Teknik
data mining yang termasuk dalam descriptive mining adalah clustering,
association, dan sequential mining.
2. Predictive,
yaitu proses untuk menemukan pola dari data dengan
menggunakan beberapa variabel untuk membuat prediksi variabel lain di masa
depan. Teknik yang termasuk dalam predictive mining antara lain klasifikasi,
regresi, dan deviasi
Tujuan dari adanya data mining adalah Thomas 2004 :
1. Explanatory, yaitu untuk menjelaskan
beberapa kegiatan observasi atau suatu kondisi.
2. Confirmatory, yaitu untuk meng-
konfirmasi suatu hipotesis yang telah ada.
3. Exploratory, yaitu untuk menganalisis
data baru atau suatu relasi yang janggal.
2.2 Karakteristik Data pada Data Mining
Pada data mining, kualitas data akan mempengaruhi kinerja dari sistem dan
mempengaruhi hubungan implisit dari model yang telah dibentuk. Beberapa
indikator data yang berkualit as adalah
Kantardzic 2003 : 1.
Data akurat. Analisis harus memastikan bahwa nama ditulis dengan baik, setiap
kode yang digunakan memiliki batasan atau jarak yang jelas, nilai yang ada
lengkap, dan lain sebagainya.
2. Data disimpan sesuai tipe datanya.
Penganalisis dapat memastikan bahwa nilai numerik tidak diletakkan pada data
karakter dan sebagainya.
3. Data memiliki integritas. Data yang
telah ada tidak berubah saat pengguna lain menggunakan data tersebut,
menyiapkan prosedur recovery dan data back up.
4. Data konsisten. Tampilan dan isi harus
tetap sama setelah dilakukan integrasi dengan sumber data yang lain.
5. Data tidak redundant. Data yang
redundant harus diperkecil jumlahnya dan r ecord duplikat harus dibuang.
6. Data memiliki waktu yang jelas.
Komponen waktu pada data harus dapat dikenali dengan jelas.
7. Data mudah dipahami. Penamaan yang
standar bukan saja perlu, tetapi akan membuat data menjadi lebih mudah
dipahami.
8. Data lengkap. Data yang hilang akan
mempengaruhi keadaan tabel, sehingga harus dikurangi jumlahnya. Data yang
hilang akan mempengaruhi model secara keseluruhan.
2.3 Teknik dalam Data Mining
Teknik-teknik yang dapat digunakan dalam data mining adalah H an Kamber
2001: 1.
Klasifikasi dan prediksi. Teknik ini dapat digunakan untuk mendeskripsikan
data yang penting serta dapat meramalkan kecenderungan data pada
masa depan. Klasifikasi adalah suatu proses untuk menemukan model atau
fungsi untuk menggambarkan kelas atau konsep dari suatu data. Dilain pihak,
prediksi biasanya digunakan untuk data numerik. Teknik yang termasuk dalam
klasifikasi dan prediksi antara lain:
a. Statistika; metode yang banyak
digunakan di antaranya Bayesian , Hidden Marcov Model,
serta regresi linier dan nonlinier.
b. Kecerdasaran buatan ; Metode dalam kecerdasan buatan yang
banyak digunakan dalam data mining
di antaranya neural
network, decision tree, roughs set, algoritme genetika, K-nearest
neighbour, case base reasoning dan logika fuzzy.
c. Machine learning; salah satu teknik
yang digunakan dalam machine learning adalah SOMs Self
Organizing feature maps .
2. Association Rule. Teknik ini dapat
digunakan untuk menemukan suatu
hubungan yang terdapat pada nilai atribut dari sekumpulan data. Algoritme
yang banyak digunakan dalam teknik ini adalah apriori.
3. Clustering. Teknik ini berbeda dengan
klasifikasi dan prediksi. Pada teknik ini nama dari masing-masing kelas tidak
ditentukan dari awal proses. Clustering dapat digunakan untuk membentuk
suatu kelas. Beberapa teknik dalam clustering yaitu: 1. Partitioning method
merupakan teknik yang membagi data menjadi beberapa bagian. 2.
Hierarchical method membentuk suatu komposisi hirarki dari data objek yang
diberikan. 3. Density based method yang dibentuk dari dugaan kepadatan
data. 4. Grid based method mengukur ruang objek menjadi beberapa bagian
yang
membentuk struktur grid. 5. Model based clustering method yang
berdasar kepada hipotesis untuk mendapatkan kelas terbaik untuk model
yang diberikan.
2.4 Algoritme K-Means