Pengertian Penambangan Data Penambangan Data

2.2 Penambangan Data

2.1.1 Pengertian Penambangan Data

Data mining, sering juga disebut knowledge discovery in database KDD, adalah kegiatan yang meliputi kegiatan pengumpulan, pemakaian data histori untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar Santosa, 2007. Data mining mengacu pada mining knowledge dari data dalam jumlah besar Han Kamber, 2006. Secara umum data mining di kenal dengan proses Knowledge Discovery from Data KDD. Proses KDD tersebut ditunjukkan pada gambar 2.1 sebagai berikut : GAMBAR 2.1 LANGKAH-LANGKAH PENAMBANGAN DATA Han Kamber, 2006 1. Pembersihan data data cleaning Pada langkah ini noise dan data yang tidak konsisten akan dihapus. Di dalam langkah pembersihan data terdapat proses deteksi ketidakcocokan data. 2. Integrasi data data integration Pada langkah ini dilakukan penggabungan dari beberapa data yang berbeda. Data dari bermacam-macam sumber tempat penyimpanan data akan digabungkan ke dalam satu tempat penyimpanan data yang sesuai. Hal yang perlu diperhatikan saat melakukan integrasi data adalah masalah struktur data. 3. Seleksi data data selection Data yang relevan akan diambil dari basis data untuk dianalisis. Pada langkah ini akan dilakukan analisis korelasi untuk analisis gejala. Atribut - atribut data akan dicek apakah relevan untuk dilakukan penambangan data. Atribut yang tidak relevan tersebut tidak akan digunakan. Atribut yang diharapkan adalah atribut yang bersifat independen. Artinya, antara atribut satu dengan atribut yang lain tidak saling mempengaruhi. 4. Transformasi data data transformation Data ditransformasikan ke dalam bentuk yang tepat untuk ditambang. Data ditransformasikan ke dalam bentuk yang tepat untuk ditambang. Yang termasuk dalam langkah transformasi data adalah penghalusan smoothing yaitu menghilangkan noise yang ada pada data, pengumpulan aggregation yaitu mengaplikasikan kesimpulan pada data, generalisasi generalization yaitu mengganti data level rendah menjadi data level tinggi, normalization yaitu mengemas data atribut ke dalam skala kecil. Dan konstruksi atribut attribute constructionfeature construction yaitu mengkonstruksi dan menambahkan atribut baru untuk membantu proses penambangan. Selanjutnya dilakukan binerisasi yaitu mengkonversi dari sebuah file yang berbentuk teks menjadi PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI nilai 0 -1. Hasil binerisasi adalah berupa vektor baris yang bernilai 0 -1 untuk tiap elemennya. 5. Penambangan data data mining Langkah ini adalah langkah yang paling penting yaitu melakukan pengaplikasian metode yang tepat untuk mengk pola data. 6. Evaluasi pola pattern evaluation Pada langkah ini akan dilakukan identifikasi pola yang benar dan menarik. Pola tersebut akan dipresentasikan dalam bentuk pengetahuan berdasarkan beberapa pengukuran yang penting. 7. Presentasi pengetahuan knowledge presentation Pada langkah ini informasi yang sudah ditambang akan divisualisasikan dan dipresentasikan kepada pengguna.

2.1.2 Pengelompokan Penambangan Data