BAB II LANDASAN TEORI
2.1. Gudang Data
2.1.1. Pengertian Gudang Data
Pengertian gudang data data warehouse sendiri dapat bermacam-
macam namun memiliki inti yang sama, seperti pendapat beberapa ahli berikut:
Menurut W.H. Inmon dan Richard D.H., data warehouse adalah
koleksi data yang mempunyai sifat berorientasi subjek,terintegrasi,time- variant, dan bersifat tetap dari koleksi data dalam mendukung proses
pengambilan keputusan management. Menurut Vidette Poe,
data warehouse merupakan database yang bersifat analisis dan
read only yang digunakan sebagai fondasi dari sistem penunjang keputusan.
Menurut Paul Lane, data warehouse merupakan database relasional
yang didesain lebih kepada query dan analisa dari pada proses transaksi,
biasanya mengandung history data dari proses transaksi dan bisa juga
data dari sumber lainnya. Data warehouse memisahkan beban kerja
analisis dari beban kerja transaksi dan memungkinkan organisasi menggabungkonsolidasi data dari berbagai macam sumber.
Dalam gudang data sendiri terdapat 4 empat karakteristik utama yaitu
subject oriented, integrated, time-variant, non volatile. Ke empat karakteristik
tersebut memiliki
pengertian sebagai
berikut
1. Subject Oriented, gudang data didesain untuk menganalisis
data berdasarkan subjek-subjek tertentu dalam sebuah organisasi, bukan pada proses atau fungsi aplikasi tertentu.
Gudang data berfokus pada pemodelan dan analisis data bagi para pengambil keputusan. Oleh karena itu, gudang data
biasanya memberikan pandangan sederhana dan ringkas terhadap masalah subjek tertentu dengan mengecualikan data
yang tidak berguna dalam proses pendukung keputusan. 2.
Integrated, gudang data biasanya dibuat dari berbagai macam sumber data, seperti
relational database, file, dan on-line transactions records. Pembersihan dan integrasi data
digunakan untuk menjaga konsistensi data dalam penamaan, encoding structures, attribute measures dan lain-lain.
3. Time-variant, data disimpan untuk menyediakan informasi
dari perspektif bersejarah misalnya, 5-10 tahun.Setiap struktur kunci di gudang data berisi,baik secara implicit
maupun eksplisit, elemen waktu. 4.
Non volatile, sebuah gudang data adalah selalu secara fisik memisahkan penyimpanan dari data yang berubah dari
aplikasi data yang ditemukan dalam lingkungan operasional. Karena ini pemisahan, gudang data tidak memerlukan
pemrosesan transaksi, pemulihan, dan konkurensi mengontrol mekanisme. Biasanya hanya membutuhkan dua operasi dalam
mengakses data: loading data dan akses data. Gudang data memiliki arsitektur untuk memproses sebuah data mentah
menjadi gudang data. Sebelum menjadi sebuah gudang data, data mentah tersebut perlu dilakukan proses ETL
Extract, Transform, Load . Proses tersebut dapat ditunjukan pada gambar 2.1.
Gambar 2. 1 Proses ETL
Pada gudang data terdapat 3 komponen proses yang utama yaitu Extract,
Transform, Load. Berikut penjelasan mengenai ETL tersebut: 1.
Extract, proses pengambilan data yang diperlukan dari sumber gudang data dan selanjutnya dimasukkan pada
staging area untuk diproses pada tahap berikutnya. Pada fungsi ini akan
banyak berhubungan dengan berbagai tipe sumber data. Format data, mesin yang berbeda,
software dan arsitektur yang tidak sama. Sehingga sebelum proses ini dilakukan, sebaiknya perlu
didefinisikan requirement terhadap sumber data yang dibutuhkan
untuk lebih memudahkan pada extraction data.
2. Transform, pada proses transaksional data disimpan dalam
berbagai format sehingga jarang ditemui data yang konsisten antara aplikasi-aplikasi yang ada. Transformasi data ditujukan
untuk mengatasi masalah ini. Dengan proses transformasi data melakukan standarisasi terhadap data pada satu format yang
konsisten. Beberapa contoh ketidak konsistenan data tersebut dapat diakibatkan oleh tipe data yang berbeda,
data length, dan lain sebagainya.
EXTRACT TRANSFORM
LOAD
3. Load, memindahkan data ke data warehouse. Ada dua load yang
dapat dilakukan pada data warehouse. Pertama adalah initial
load, proses ini dilakukan pada saat telah selesai mendesaindan membangun
data warehouse. Data yang dimasukkan tentunya akan sangat besar dan memakan waktu yang lama. Kedua
incremental load, dilakukan ketika data warehouse telah dioperasikan. Dengan data
extraction, transformation¸dan loading terhadap data tersebut.
2.1.2. Hubungan Datawarehouse dan OLAP