2.1.2. Pengertian Data Warehouse
Gudang data menggeneralisasi dan mengkonsolidasikan data dalam ruang multidimensi. Pembuatan gudang data yang meliputi pembersihan
data, integrasi data, dan transformasi data dan dapat dilihat sebagai langkah preprocessing penting untuk data mining. Selain itu, gudang data
menyediakan Online Analytical Processing OLAP. Pengertian dari gudang data itu sendiri dapat dilihat dari berbagai
macam pandangan. Menurut W.H. Inmon dan Richard D.H., data warehouse
adalah koleksi data yang mempunyai sifat berorientasi subjek, terintegrasi, time-variant, dan bersifat tetap dari koleksi data dalam
mendukung proses pengambilan keputusan manajemen. Menurut Vidette Poe, data warehouse merupakan database yang bersifat analisis dan read
only yang digunakan sebagai fondasi dari sistem penunjang keputusan.
Dari berbagai definisi dapat disimpulkan bahwa data warehouse adalah database
yang saling bereaksi yang dapat digunakan untuk query dan analisis, bersifat orientasi subjek, terintegrasi, time-variant, tidak berubah
yang digunakan untuk membantu para pengambil keputusan. Gudang data juga memiliki karakteristik memiliki empat
karakteristik utama yakni subject-oriented berorientasi subyek, Integrated
terintegrasi, Time Variant rentang waktu dan Non-Volatile. Berikut ini adalah penjelasan dari masing-masing karakteristik.
a. Berorientasi subjek artinya data warehouse didesain untuk
menganalisis data berdasarkan subyek-subyek tertentu dalam organisasi, bukan pada proses atau fungsi aplikasi tertentu. Data
warehouse menyimpan data yang bersifat sebagai penunjang suatu
keputusan. Data yang disimpan dalam data warehouse berorientasi subjek
bukan terhadap prosesnya. Untuk lebih jelasnya berikut ini adalah perbedaan dari data operasional dengan data warehouse
Gambar 2. 1 Perbedaan Basis Data Operasional dengan Data Warehouse
b. Terintegrasi sebuah data warehouse biasanya dibuat dari berbagai
macam sumber data, seperti relational database, file, dan on-line transactions records.
Pembersihan dan integrasi data digunakan untuk menjaga konsistensi data dalam penamaan, encoding structures,
attribute measures dan lain-lain
c. Time-Variant data disimpan untuk menyediakan informasi dari
perspektif sejarah Misalnya, data dari 5-10 tahun terakhir. Data yang di data warehouse dapat dikatakan akurat atau valid pada rentang
waktu tertentu d.
NonVolatile setiap kali proses perubahan, data akan di tampung dalam tiap-tiap waktu. Jadi tidak di perbaharui terus menerus atau tidak di
update secara real time tetapi di refresh dari sistem operasional secara
reguler. Data warehouse tidak memerlukan pemrosesan transaksi dan recovery
. Hanya ada dua operasi initial loading of data dan access of data
. Jiawei et all, 2006
Gudang data juga memiliki arsitektur tertentu. Data yang digunakan untuk membuat gudang data diperoleh dari berbagai sumber oleh sebab itu
sebelum data tersebut digunakan untuk membuat gudang data perlu dilakukan proses dengan menggunakan ETL Extract,Transform, Load.
Untuk lebih jelasnya dapat dilihat pada Gambar 2.2.
Gambar 2. 2 Arsitektur Gudang Data
Didalam gudang data terdapat tiga proses besar yakni ETL Extract, Transform, Load.
Berikut ini adalah penjelasan singkat mengenai ETL.
a. Extract proses pengambilan data yang diperlukan dari sumber data
warehouse dan selanjutnya dimasukkan pada staging area untuk
diproses pada tahap berikutnya .Pada fungsi ini, akan banyak berhubungan dengan berbagai tipe sumber data. Format data, mesin
yang berbeda, software dan arsitektur yang tidak sama. Sehingga sebelum proses ini dilakukan, sebaiknya perlu didefinisikan
requirement terhadap sumber data yang dibutuhkan untuk lebih
memudahkan pada extraction data ini. b.
Transform, pada proses transaksional data disimpan dalam berbagai format sehingga jarang ditemui data yang konsisten antara aplikasi-
aplikasi yang ada. Transformasi data ditujukan untuk mengatasi masalah ini. Dengan proses transformasi data melakukan standarisasi
terhadap data pada satu format yang konsisten. Beberapa contoh ketidak konsistenan data tersebut dapat diakibatkan oleh tipe data yang
berbeda, data length dan lain sebagainya. c.
Load, memindahkan data ke data warehouse. Ada dua load data yang dapat dilakukan pada data warehouse. Pertama adalah inisial load,
proses ini dilakukan pada saat telah selesai mendesain dan membangun data warehouse
. Data yang dimasukkan tentunya akan sangat besar dan memakan waktu yang relatif lebih lama. Kedua Incremental load,
dilakukan ketika data warehouse telah dioperasikan. Dengan melakukan data extraction, transformation dan loading terhadap data
tersebut .
2.1.3. Data Mining