BAB II LANDASAN TEORI
Pada bab ini akan dipaparkan teori-teori  yang digunakan untuk menyusun tugas akhir ini, yaitu
data-warehouse
,
cube
,
Multiway Array Aggregation
sebagai metode dalam perhitungan data
cube
.
2.1 Gudang Data
Data Warehouse
Menurut Inmon dalam Jiawei, 2006:106,
Data warehouse
adalah koleksi data  yang  bersifat
subject-oriented
,
terintegrasi
,
time-variant
,  dan
non-volatile
yang digunakan untuk mendukung proses pengambilan keputusan  yang strategis, di mana setiap unit dari data adalah
non-volatile
dan relevan untuk waktu tertentu.
Data  warehouse
memungkinkan  pengguna  untuk  melakukan  pemeriksaan terhadap  data  untuk  melakukan  analisis  terhadap  data  dalam  beragam  cara  dan
membuat  keputusan  yang  didasarkan  pada  hasil  analisis.  Untuk  pembuatan gudang  data  dilakukan  langkah-langkah  pokok,  seperti  di  bawah  ini  Wasito,
2010 : 1.
Membaca data legacy. Memperhatikan bagian-bagian data yang perlu dibersihkan.
2. Menggabungkan data dari berbagai sumber terpisah.
Setiap jenis informasi yang diinginkan mungkin berasal dari beberapa
file
yang harus digabungkan untuk digunakan pada gudang data. 3.
Memindahkan  data  dari  sumber  ke  server  gudang  data.
4. Membuat standarisasi format dan
copy
-kan data dari sumber sekaligus data dibuat bersih
clean
. 5.
Memecah gudang data dalam tabel fakta dan tabel dimensi. Tabel fakta dan tabel dimensi disusun menurut kebutuhan subyek.
Gudang data memiliki karakteristik utama sebagai berikut :
Tabel 2.1 : Karakteristik Gudang Data
Karakteristik Deskripsi
Subject Orientation
Data diorganisir sesuai dengan kebutuhan user.
Integrated
Menghilangkan  kerancuan  dalam  hal  penamaan dan kekacauan informasi. Data harus “clean”.
Non-volatile
Data  hanya  dapat  dibaca,  tidak  dapat  diubah  oleh user.
Time-series
Data  dalam  rangkaian  waktu,  bukan  hanya  status saat ini.
Summarized
Data  operasional  dikumpulkan  diringkas  untuk mendukung keputusan.
Larger
Memelihara  data  dari  waktu  ke  waktu  selama diperlukan.
Not-Normalized
Data dapat redundant.
Metadata
Data  mengenai  data  untuk  user  dan  personil gudang data.
Input
Data  operasional  ditambah  data  eksternal  yang
dibutuhkan.
2.2 Pentaho Data Integration Kettle
Pentaho  Data  Integration
PDI  atau  Kettle  adalah
utilities
ETL
open source
di  bawah  Pentaho  Corp.  Amerika.  Kettle  terdiri  dari  4  aplikasi  yang
dijalankan  melalui  shell  atau  batch
script
yang  berkaitan,    yaitu http:pentaho.phi-integration.comkettle :
Spoon
, yaitu aplikasi grafis berbasis swing yang digunakan untuk merancang file skema
job
dan
transformation
Pan
, yaitu
script
yang digunakan untuk menjalankan file skema
transformation
melalui terminal
command line
Kitchen
, yaitu
script
yang digunakan untuk menjalankan file skema
job
melalui terminal
command line
Carte
, yaitu temporary web server yang digunakan untuk mengeksekusi jobtransformation secara
cluster
atau
parallel
Saat  ini  Kettle  merupakan  utilitas  ETL  yang  sangat  popular  dengan beberapa fitur sebagai berikut http:pentaho.phi-integration.comkettle :
1. Memiliki
utilitas grafik
yang dapat digunakan merancang
control flow
umum maupun
data flow
aliran data. 2.
Multi platform
- karena dikembangkan di atas Java yang notabene berjalan di banyak platform sistem operasi.
3. Bersifat
concurrent
, dalam arti row-row data diambil oleh suatu step dan diserahkan ke
step
lain secara
parallel
. 4.
Scalable - dapat beradaptasi dengan penambahan kapasitas memori RAM atau pun
storage scale up
dan dapat node komputer  cluster
scale out
. 5.
Koleksi step
transformation dan job yang cukup banyak 6.
Extensible,
kita dapat membuat step transformation dan job baru dengan sistem plugin.
7. Dukungan luas berbagai produk database yang terkenal di pasaran
baik itu
proprietary
maupun
free open source
seperti Oracle, SQL Server, MySQL, PostgreSQL dan lain sebagainya.
2.3 OLAP Online Analytical Processing