2.2 Penambangan Data
2.1.1 Pengertian Penambangan Data
Data mining, sering juga disebut knowledge discovery in database KDD, adalah kegiatan yang meliputi kegiatan pengumpulan, pemakaian
data histori untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar Santosa, 2007.
Data mining mengacu pada mining knowledge dari data dalam jumlah besar Han Kamber, 2006. Secara umum data mining di kenal
dengan proses Knowledge Discovery from Data KDD. Proses KDD tersebut ditunjukkan pada gambar 2.1 sebagai berikut :
GAMBAR 2.1 LANGKAH-LANGKAH PENAMBANGAN DATA Han Kamber, 2006
1. Pembersihan data data cleaning
Pada langkah ini noise dan data yang tidak konsisten akan dihapus. Di dalam langkah pembersihan data terdapat proses deteksi
ketidakcocokan data. 2.
Integrasi data data integration Pada langkah ini dilakukan penggabungan dari beberapa data yang
berbeda. Data dari bermacam-macam sumber tempat penyimpanan data akan digabungkan ke dalam satu tempat penyimpanan data
yang sesuai. Hal yang perlu diperhatikan saat melakukan integrasi data adalah masalah struktur data.
3. Seleksi data data selection
Data yang relevan akan diambil dari basis data untuk dianalisis. Pada langkah ini akan dilakukan analisis korelasi untuk analisis
gejala. Atribut - atribut data akan dicek apakah relevan untuk dilakukan penambangan data. Atribut yang tidak relevan tersebut
tidak akan digunakan. Atribut yang diharapkan adalah atribut yang bersifat independen. Artinya, antara atribut satu dengan atribut
yang lain tidak saling mempengaruhi. 4.
Transformasi data data transformation Data ditransformasikan ke dalam bentuk yang tepat untuk
ditambang. Data ditransformasikan ke dalam bentuk yang tepat untuk ditambang. Yang termasuk dalam langkah transformasi data
adalah penghalusan smoothing yaitu menghilangkan noise yang ada pada data, pengumpulan aggregation yaitu mengaplikasikan
kesimpulan pada data, generalisasi generalization yaitu mengganti data level rendah menjadi data level tinggi,
normalization yaitu mengemas data atribut ke dalam skala kecil. Dan konstruksi atribut attribute constructionfeature construction
yaitu mengkonstruksi dan menambahkan atribut baru untuk membantu proses penambangan. Selanjutnya dilakukan binerisasi
yaitu mengkonversi dari sebuah file yang berbentuk teks menjadi PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
nilai 0 -1. Hasil binerisasi adalah berupa vektor baris yang bernilai 0 -1 untuk tiap elemennya.
5. Penambangan data data mining
Langkah ini adalah langkah yang paling penting yaitu melakukan pengaplikasian metode yang tepat untuk mengk pola data.
6. Evaluasi pola pattern evaluation
Pada langkah ini akan dilakukan identifikasi pola yang benar dan menarik. Pola tersebut akan dipresentasikan dalam bentuk
pengetahuan berdasarkan beberapa pengukuran yang penting. 7.
Presentasi pengetahuan knowledge presentation Pada langkah ini informasi yang sudah ditambang akan
divisualisasikan dan dipresentasikan kepada pengguna.
2.1.2 Pengelompokan Penambangan Data