Karakteristik Data pada Data Mining Teknik dalam Data Mining

yang sering dialami oleh suatu organisasi. Secara garis besar data mining dapat dikelompokkan menjadi 2 dua kategori utama, yaitu Tan et al. 2005: 1. Descriptive Mining, yaitu proses untuk menemukan karakteristik penting dari data dalam suatu basis data. Teknik data mining yang termasuk dalam descriptive mining adalah clustering, association, dan sequential mining. 2. Predictive, yaitu proses untuk menemukan pola dari data dengan menggunakan beberapa variabel untuk membuat prediksi variabel lain di masa depan. Teknik yang termasuk dalam predictive mining antara lain klasifikasi, regresi, dan deviasi Tujuan dari adanya data mining adalah Thomas 2004 : 1. Explanatory, yaitu untuk menjelaskan beberapa kegiatan observasi atau suatu kondisi. 2. Confirmatory, yaitu untuk meng- konfirmasi suatu hipotesis yang telah ada. 3. Exploratory, yaitu untuk menganalisis data baru atau suatu relasi yang janggal.

2.2 Karakteristik Data pada Data Mining

Pada data mining, kualitas data akan mempengaruhi kinerja dari sistem dan mempengaruhi hubungan implisit dari model yang telah dibentuk. Beberapa indikator data yang berkualit as adalah Kantardzic 2003 : 1. Data akurat. Analisis harus memastikan bahwa nama ditulis dengan baik, setiap kode yang digunakan memiliki batasan atau jarak yang jelas, nilai yang ada lengkap, dan lain sebagainya. 2. Data disimpan sesuai tipe datanya. Penganalisis dapat memastikan bahwa nilai numerik tidak diletakkan pada data karakter dan sebagainya. 3. Data memiliki integritas. Data yang telah ada tidak berubah saat pengguna lain menggunakan data tersebut, menyiapkan prosedur recovery dan data back up. 4. Data konsisten. Tampilan dan isi harus tetap sama setelah dilakukan integrasi dengan sumber data yang lain. 5. Data tidak redundant. Data yang redundant harus diperkecil jumlahnya dan r ecord duplikat harus dibuang. 6. Data memiliki waktu yang jelas. Komponen waktu pada data harus dapat dikenali dengan jelas. 7. Data mudah dipahami. Penamaan yang standar bukan saja perlu, tetapi akan membuat data menjadi lebih mudah dipahami. 8. Data lengkap. Data yang hilang akan mempengaruhi keadaan tabel, sehingga harus dikurangi jumlahnya. Data yang hilang akan mempengaruhi model secara keseluruhan.

2.3 Teknik dalam Data Mining

Teknik-teknik yang dapat digunakan dalam data mining adalah H an Kamber 2001: 1. Klasifikasi dan prediksi. Teknik ini dapat digunakan untuk mendeskripsikan data yang penting serta dapat meramalkan kecenderungan data pada masa depan. Klasifikasi adalah suatu proses untuk menemukan model atau fungsi untuk menggambarkan kelas atau konsep dari suatu data. Dilain pihak, prediksi biasanya digunakan untuk data numerik. Teknik yang termasuk dalam klasifikasi dan prediksi antara lain: a. Statistika; metode yang banyak digunakan di antaranya Bayesian , Hidden Marcov Model, serta regresi linier dan nonlinier. b. Kecerdasaran buatan ; Metode dalam kecerdasan buatan yang banyak digunakan dalam data mining di antaranya neural network, decision tree, roughs set, algoritme genetika, K-nearest neighbour, case base reasoning dan logika fuzzy. c. Machine learning; salah satu teknik yang digunakan dalam machine learning adalah SOMs Self Organizing feature maps . 2. Association Rule. Teknik ini dapat digunakan untuk menemukan suatu hubungan yang terdapat pada nilai atribut dari sekumpulan data. Algoritme yang banyak digunakan dalam teknik ini adalah apriori. 3. Clustering. Teknik ini berbeda dengan klasifikasi dan prediksi. Pada teknik ini nama dari masing-masing kelas tidak ditentukan dari awal proses. Clustering dapat digunakan untuk membentuk suatu kelas. Beberapa teknik dalam clustering yaitu: 1. Partitioning method merupakan teknik yang membagi data menjadi beberapa bagian. 2. Hierarchical method membentuk suatu komposisi hirarki dari data objek yang diberikan. 3. Density based method yang dibentuk dari dugaan kepadatan data. 4. Grid based method mengukur ruang objek menjadi beberapa bagian yang membentuk struktur grid. 5. Model based clustering method yang berdasar kepada hipotesis untuk mendapatkan kelas terbaik untuk model yang diberikan.

2.4 Algoritme K-Means