Penambangan Data Data Mining

13 2. Data Warehouse Data warehouse adalah tempat penyimpanan informasi dari berbagai sumber data dan disimpan pada satu tempat. Data warehouse dibangun melalui sebuah proses dari pembersihan data dari data-data yang tidak lengkap, menganalisis data, perubahan bentuk data, pemuatan ulang data- data yang baru, dan pembaharuan data secara periodik. 3. Transactional Data Transactional data pada setiap record dikumpulkan berdasarkan sebuah transaksi dalam dunia bisnis. Sebuah transaksi memiliki nomor identitas transaksi yang unik trans_ID. Transactional data yang mempunyai tabel tambahan yang berisi informasi lain direlasikan pada hubungan yang mungkin terjadi, seperti deskripsi barang, informasi dari pelayan toko, dan lain-lain.

C. Penambangan Data Data Mining

Data mining adalah proses menentukan pola dan informasi dari data yang berjumlah besar. Sumber data dapat berupa database, data warehouse, Web, tempat penyimpanan informasi lainnya atau data yang mengalir ke dalam sistem yang dinamis Han, et al, 2012: 8. Menurut Grup Gartner dalam Larose, 2005: 2 data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti statistik dan matematika. 14 Menurut Turban, dkk dalam Kusrini Emha, 2009: 3 Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengindentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar. Data mining merupakan salah satu langkah penting dalam menemukan sebuah pengetahuan pada proses Knowledge Discovery in Data KDD. KDD adalah proses menentukan informasi yang berguna serta pola-pola yang ada dalam data. Tahapan proses KDD ditunjukkan pada Gambar 2.1. Gambar 2.1 Tahap-tahap Knowledge Discovery in Data Han, et al, 2006: 6 15 Menurut Han, et al 2006: 7 tahapan dalam KDD dapat dijelaskan sebagai berikut: 1. Pembersihan Data Data Cleaning Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten. Pada tahap ini data-data yang memiliki isian tidak sempurna seperti data yang tidak memiliki kelengkapan atribut yang dibutuhkan dan data yang tidak valid dihapus dari database. 2. Integrasi Data Data Integration Integrasi data merupakan proses kombinasi beberapa sumber data ke dalam database. Pada tahap ini dilakukan penggabungan data dari berbagai sumber untuk dibentuk penyimpanan data yang koheren. 3. Seleksi Data Data Selection Seleksi data merupakan pemilihan data yang digunakan untuk proses data mining. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan suatu berkas dan terpisah dari basis data operasional. 4. Transformasi Data Data Transformation Transformasi data merupakan proses mentransformasikan dan mengkonsolidasikan data yang digunakan untuk proses mining. Pada tahap ini dilakukan pengubahan format data menjadi format yang sesuai dengan teknik data mining yang digunakan. 5. Penambangan Data Data Mining Penambangan data merupakan proses utama mencari pengetahuan dari informasi tersembunyi. Penambangan data adalah proses mencari pola 16 atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik dalam data mining sangat bervariasi, pemilihan teknik yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. 6. Evaluasi Pola Pattern Evaluation Evaluasi pola ialah proses mengidentifikasi kebenaran pola yang telah didapat. Pada tahap ini pola yang telah didapat dari proses data mining dievaluasi apakah pola yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya. 7. Representasi Pengetahuan Knowledge Presentation Representasi pengetahuan merupakan visualisasi dan presentasi pengetahuan yang telah didapat kepada pengguna. Pada tahap terakhir ini disajikan pengetahuan dan metode yang digunakan untuk memperoleh pengetahuan yang dapat dipahami oleh pengguna atau semua orang. Data mining mempunyai beberapa metode yang dilakukan pengguna untuk meningkatkan proses mining supaya lebih efektif. Oleh karena itu, data mining dibagi menjadi beberapa kelompok berdasarkan metodenya, yaitu Larose, 2005: 11: 1. Deskripsi Deskripsi digunakan untuk memberikan gambaran secara ringkas berupa pola dan tren bagi data yang jumlahnya sangat besar dan jenisnya beragam. Metode dalam data mining yang dapat digunakan untuk deskripsi contohnya neural network dan exploratory data analysis. 17 2. Klasifikasi Pada klasifikasi terdapat variabel target yang berupa nilai kategori. Contoh dari klasifikasi adalah penggolongan pendapatan masyarakat ke dalam tiga kelompok, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah. Algoritma klasifikasi yang biasa digunakan adalah Naïve Bayes, K-Nearest Neighbor, dan C4.5. 3. Estimasi Estimasi mirip dengan klasifikasi namun variabel target pada proses estimasi lebih condong ke arah numerik daripada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi, kemudian nilai estimasi dari variabel target dibuat berdasarkan pada nilai prediksi. Contoh algoritma estimasi adalah linear regression dan neural network. 4. Prediksi Prediksi hampir sama dengan klasifikasi dan estimasi, namun pada prediksi data yang digunakan adalah data runtun waktu data time series dan nilai pada hasil akhir digunakan untuk beberapa waktu mendatang. Contoh prediksi dalam bisnis dan penelitian adalah prediksi harga beras dalam tiga bulan kedepan. 5. Pengelompokan Pengelompokan data atau pembentukan data ke dalam jenis yang sama. Pengelompokan tidak untuk mengklasifikasi, mengestimasi, atau memprediksi nilai, tetapi membagi seluruh data menjadi kelompok- 18 kelompok yang relatif sama homogen. Perbedaan algoritma pengelompokan dengan algoritma klasifikasi adalah pengelompokan tidak memiliki target class label. Contoh algoritma pengelompokan adalah K- Means dan Fuzzy C-Means. 6. Asosiasi Asosiasi digunakan untuk menemukan atribut yang muncul dalam waktu yang bersamaan dan untuk mencari hubungan antara dua atau lebih data dalam sekumpulan data. Contoh penggunaan aturan asosiasi adalah analisis kemungkinan seorang pelanggan membeli roti dan susu dalam waktu yang bersamaan di suatu pasar swalayan. Contoh algoritma aturan asosiasi yang sering digunakan adalah Apriori dan FP-Growth.

D. Klasifikasi