BAB II LANDASAN TEORI
2.1. Gudang Data
2.1.1. Pengertian Gudang Data
Pengertian  gudang  data  data  warehouse  sendiri  dapat  bermacam-
macam  namun  memiliki inti  yang sama, seperti pendapat  beberapa  ahli berikut:
Menurut  W.H.  Inmon  dan  Richard  D.H., data  warehouse  adalah
koleksi data yang mempunyai sifat berorientasi subjek,terintegrasi,time- variant,  dan  bersifat  tetap  dari  koleksi  data  dalam  mendukung  proses
pengambilan keputusan management. Menurut  Vidette  Poe,
data  warehouse  merupakan  database  yang bersifat  analisis  dan
read  only  yang  digunakan  sebagai  fondasi  dari sistem penunjang keputusan.
Menurut  Paul  Lane, data  warehouse  merupakan  database  relasional
yang didesain lebih kepada query dan analisa dari pada proses transaksi,
biasanya  mengandung history  data  dari  proses  transaksi  dan  bisa  juga
data  dari  sumber  lainnya. Data  warehouse  memisahkan  beban  kerja
analisis  dari  beban  kerja  transaksi  dan  memungkinkan  organisasi menggabungkonsolidasi data dari berbagai macam sumber.
Dalam  gudang  data  sendiri  terdapat  4  empat  karakteristik  utama yaitu
subject  oriented,  integrated,  time-variant,  non  volatile.  Ke  empat karakteristik
tersebut memiliki
pengertian sebagai
berikut
1. Subject  Oriented,  gudang  data  didesain  untuk  menganalisis
data  berdasarkan  subjek-subjek  tertentu  dalam  sebuah organisasi,  bukan  pada  proses  atau  fungsi  aplikasi  tertentu.
Gudang data berfokus pada pemodelan dan analisis data bagi para  pengambil  keputusan.  Oleh  karena  itu,  gudang  data
biasanya  memberikan  pandangan  sederhana  dan  ringkas terhadap  masalah  subjek  tertentu  dengan  mengecualikan  data
yang tidak berguna dalam proses pendukung keputusan. 2.
Integrated, gudang data biasanya dibuat dari berbagai macam sumber  data,  seperti
relational  database,  file,  dan  on-line transactions  records.  Pembersihan  dan  integrasi  data
digunakan  untuk  menjaga  konsistensi  data  dalam  penamaan, encoding structures, attribute measures dan lain-lain.
3. Time-variant,  data  disimpan  untuk  menyediakan  informasi
dari  perspektif  bersejarah  misalnya,  5-10  tahun.Setiap struktur  kunci  di  gudang  data  berisi,baik  secara  implicit
maupun eksplisit, elemen waktu. 4.
Non  volatile,  sebuah  gudang  data  adalah  selalu  secara  fisik memisahkan  penyimpanan  dari  data  yang  berubah  dari
aplikasi  data  yang  ditemukan  dalam  lingkungan  operasional. Karena  ini  pemisahan,  gudang  data  tidak  memerlukan
pemrosesan transaksi, pemulihan, dan konkurensi mengontrol mekanisme. Biasanya hanya membutuhkan dua operasi dalam
mengakses data: loading data dan akses data. Gudang  data  memiliki  arsitektur  untuk  memproses  sebuah  data  mentah
menjadi  gudang  data.  Sebelum  menjadi  sebuah  gudang  data,  data mentah tersebut perlu dilakukan proses ETL
Extract, Transform, Load . Proses tersebut dapat ditunjukan pada gambar 2.1.
Gambar 2. 1 Proses ETL
Pada gudang data terdapat 3 komponen proses yang utama yaitu Extract,
Transform, Load. Berikut penjelasan mengenai ETL tersebut: 1.
Extract,  proses  pengambilan  data  yang  diperlukan  dari  sumber gudang  data  dan  selanjutnya  dimasukkan  pada
staging  area untuk  diproses  pada  tahap  berikutnya.  Pada  fungsi  ini  akan
banyak  berhubungan  dengan  berbagai  tipe  sumber  data.  Format data,  mesin  yang  berbeda,
software  dan  arsitektur  yang  tidak sama.  Sehingga  sebelum  proses  ini  dilakukan,  sebaiknya  perlu
didefinisikan requirement terhadap sumber data yang dibutuhkan
untuk lebih memudahkan pada extraction data.
2. Transform,  pada  proses  transaksional  data  disimpan  dalam
berbagai  format  sehingga  jarang  ditemui  data  yang  konsisten antara  aplikasi-aplikasi  yang  ada.  Transformasi  data  ditujukan
untuk  mengatasi  masalah  ini.  Dengan  proses  transformasi  data melakukan  standarisasi  terhadap  data  pada  satu  format  yang
konsisten.  Beberapa  contoh  ketidak  konsistenan  data  tersebut dapat  diakibatkan  oleh  tipe  data  yang  berbeda,
data  length,  dan lain sebagainya.
EXTRACT TRANSFORM
LOAD
3. Load, memindahkan data ke data warehouse. Ada dua load yang
dapat  dilakukan  pada data  warehouse.  Pertama  adalah  initial
load,  proses  ini  dilakukan  pada  saat  telah  selesai  mendesaindan membangun
data  warehouse.  Data  yang  dimasukkan  tentunya akan  sangat  besar  dan  memakan  waktu  yang  lama.  Kedua
incremental  load,  dilakukan  ketika  data  warehouse  telah dioperasikan.  Dengan  data
extraction,  transformation¸dan loading terhadap data tersebut.
2.1.2. Hubungan Datawarehouse dan OLAP