13 2.
Data Warehouse Data warehouse adalah tempat penyimpanan informasi dari berbagai
sumber data dan disimpan pada satu tempat. Data warehouse dibangun melalui sebuah proses dari pembersihan data dari data-data yang tidak
lengkap, menganalisis data, perubahan bentuk data, pemuatan ulang data- data yang baru, dan pembaharuan data secara periodik.
3. Transactional Data
Transactional data pada setiap record dikumpulkan berdasarkan sebuah transaksi dalam dunia bisnis. Sebuah transaksi memiliki nomor
identitas transaksi yang unik trans_ID. Transactional data yang mempunyai tabel tambahan yang berisi informasi lain direlasikan pada
hubungan yang mungkin terjadi, seperti deskripsi barang, informasi dari pelayan toko, dan lain-lain.
C. Penambangan Data Data Mining
Data mining adalah proses menentukan pola dan informasi dari data yang berjumlah besar. Sumber data dapat berupa database, data warehouse, Web, tempat
penyimpanan informasi lainnya atau data yang mengalir ke dalam sistem yang dinamis Han, et al, 2012: 8.
Menurut Grup Gartner dalam Larose, 2005: 2 data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan
memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti statistik dan matematika.
14 Menurut Turban, dkk dalam Kusrini Emha, 2009: 3 Data mining adalah
proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengindentifikasi informasi yang
bermanfaat dan pengetahuan yang terkait dari berbagai database besar. Data mining merupakan salah satu langkah penting dalam menemukan
sebuah pengetahuan pada proses Knowledge Discovery in Data KDD. KDD adalah proses menentukan informasi yang berguna serta pola-pola yang ada dalam
data. Tahapan proses KDD ditunjukkan pada Gambar 2.1.
Gambar 2.1 Tahap-tahap Knowledge Discovery in Data Han, et al, 2006: 6
15 Menurut Han, et al 2006: 7 tahapan dalam KDD dapat dijelaskan sebagai
berikut: 1.
Pembersihan Data Data Cleaning Pembersihan data merupakan proses menghilangkan noise dan data
yang tidak konsisten. Pada tahap ini data-data yang memiliki isian tidak sempurna seperti data yang tidak memiliki kelengkapan atribut yang
dibutuhkan dan data yang tidak valid dihapus dari database. 2.
Integrasi Data Data Integration Integrasi data merupakan proses kombinasi beberapa sumber data ke
dalam database. Pada tahap ini dilakukan penggabungan data dari berbagai sumber untuk dibentuk penyimpanan data yang koheren.
3. Seleksi Data Data Selection
Seleksi data merupakan pemilihan data yang digunakan untuk proses data mining. Data hasil seleksi yang akan digunakan untuk proses data
mining, disimpan suatu berkas dan terpisah dari basis data operasional. 4.
Transformasi Data Data Transformation Transformasi data merupakan proses mentransformasikan dan
mengkonsolidasikan data yang digunakan untuk proses mining. Pada tahap ini dilakukan pengubahan format data menjadi format yang sesuai dengan
teknik data mining yang digunakan. 5.
Penambangan Data Data Mining Penambangan data merupakan proses utama mencari pengetahuan
dari informasi tersembunyi. Penambangan data adalah proses mencari pola
16 atau informasi menarik dalam data terpilih dengan menggunakan teknik
atau metode tertentu. Teknik dalam data mining sangat bervariasi, pemilihan teknik yang tepat sangat bergantung pada tujuan dan proses KDD
secara keseluruhan. 6.
Evaluasi Pola Pattern Evaluation Evaluasi pola ialah proses mengidentifikasi kebenaran pola yang telah
didapat. Pada tahap ini pola yang telah didapat dari proses data mining dievaluasi apakah pola yang ditemukan bertentangan dengan fakta atau
hipotesis yang ada sebelumnya. 7.
Representasi Pengetahuan Knowledge Presentation Representasi pengetahuan merupakan visualisasi dan presentasi
pengetahuan yang telah didapat kepada pengguna. Pada tahap terakhir ini disajikan pengetahuan dan metode yang digunakan untuk memperoleh
pengetahuan yang dapat dipahami oleh pengguna atau semua orang. Data mining mempunyai beberapa metode yang dilakukan pengguna untuk
meningkatkan proses mining supaya lebih efektif. Oleh karena itu, data mining dibagi menjadi beberapa kelompok berdasarkan metodenya, yaitu Larose, 2005:
11: 1.
Deskripsi Deskripsi digunakan untuk memberikan gambaran secara ringkas
berupa pola dan tren bagi data yang jumlahnya sangat besar dan jenisnya beragam. Metode dalam data mining yang dapat digunakan untuk deskripsi
contohnya neural network dan exploratory data analysis.
17 2.
Klasifikasi Pada klasifikasi terdapat variabel target yang berupa nilai kategori.
Contoh dari klasifikasi adalah penggolongan pendapatan masyarakat ke dalam tiga kelompok, yaitu pendapatan tinggi, pendapatan sedang, dan
pendapatan rendah. Algoritma klasifikasi yang biasa digunakan adalah Naïve Bayes, K-Nearest Neighbor, dan C4.5.
3. Estimasi
Estimasi mirip dengan klasifikasi namun variabel target pada proses estimasi lebih condong ke arah numerik daripada ke arah kategori. Model
dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi, kemudian nilai estimasi dari variabel
target dibuat berdasarkan pada nilai prediksi. Contoh algoritma estimasi adalah linear regression dan neural network.
4. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, namun pada prediksi data yang digunakan adalah data runtun waktu data time series
dan nilai pada hasil akhir digunakan untuk beberapa waktu mendatang. Contoh prediksi dalam bisnis dan penelitian adalah prediksi harga beras
dalam tiga bulan kedepan. 5.
Pengelompokan Pengelompokan data atau pembentukan data ke dalam jenis yang
sama. Pengelompokan tidak untuk mengklasifikasi, mengestimasi, atau memprediksi nilai, tetapi membagi seluruh data menjadi kelompok-
18 kelompok
yang relatif
sama homogen.
Perbedaan algoritma
pengelompokan dengan algoritma klasifikasi adalah pengelompokan tidak memiliki target class label. Contoh algoritma pengelompokan adalah K-
Means dan Fuzzy C-Means. 6.
Asosiasi Asosiasi digunakan untuk menemukan atribut yang muncul dalam
waktu yang bersamaan dan untuk mencari hubungan antara dua atau lebih data dalam sekumpulan data. Contoh penggunaan aturan asosiasi adalah
analisis kemungkinan seorang pelanggan membeli roti dan susu dalam waktu yang bersamaan di suatu pasar swalayan. Contoh algoritma aturan
asosiasi yang sering digunakan adalah Apriori dan FP-Growth.
D. Klasifikasi