BAB II LANDASAN TEORI
Pada bab ini akan dipaparkan teori-teori  yang digunakan untuk menyusun tugas akhir ini, yaitu data-warehouse, cube, Multiway Array Aggregation sebagai
metode dalam perhitungan data cube.
2.1 Gudang Data Data Warehouse
Menurut Inmon dalam Jiawei, 2006:106, Data warehouse adalah koleksi data  yang  bersifat  subject-oriented,  terintegrasi,  time-variant,  dan  non-volatile
yang digunakan untuk mendukung proses pengambilan keputusan  yang strategis, di mana setiap unit dari data adalah non-volatile dan relevan untuk waktu tertentu.
Data  warehouse memungkinkan  pengguna  untuk  melakukan  pemeriksaan
terhadap  data  untuk  melakukan  analisis  terhadap  data  dalam  beragam  cara  dan membuat  keputusan  yang  didasarkan  pada  hasil  analisis.  Untuk  pembuatan
gudang  data  dilakukan  langkah-langkah  pokok,  seperti  di  bawah  ini  Wasito, 2010 :
1.  Membaca data legacy. Memperhatikan bagian-bagian data yang perlu dibersihkan.
2.  Menggabungkan data dari berbagai sumber terpisah. Setiap jenis informasi yang diinginkan mungkin berasal dari beberapa
file yang harus digabungkan untuk digunakan pada gudang data.
3.  Memindahkan data
dari sumber
ke server
gudang data.
4.  Membuat standarisasi format dan copy-kan data dari sumber sekaligus data dibuat bersih clean.
5.  Memecah gudang data dalam tabel fakta dan tabel dimensi. Tabel fakta dan tabel dimensi disusun menurut kebutuhan subyek.
Gudang data memiliki karakteristik utama sebagai berikut :
Tabel 2.1 : Karakteristik Gudang Data
Karakteristik Deskripsi
Subject Orientation Data diorganisir sesuai dengan kebutuhan user.
Integrated Menghilangkan  kerancuan  dalam  hal  penamaan
dan kekacauan informasi. Data harus “clean”. Non-volatile
Data  hanya  dapat  dibaca,  tidak  dapat  diubah  oleh user.
Time-series Data  dalam  rangkaian  waktu,  bukan  hanya  status
saat ini. Summarized
Data  operasional  dikumpulkan  diringkas  untuk mendukung keputusan.
Larger Memelihara  data  dari  waktu  ke  waktu  selama
diperlukan. Not-Normalized
Data dapat redundant. Metadata
Data  mengenai  data  untuk  user  dan  personil gudang data.
Input Data  operasional  ditambah  data  eksternal  yang
dibutuhkan.
2.2 Pentaho Data Integration Kettle
Pentaho  Data  Integration PDI  atau  Kettle  adalah  utilities  ETL  open
source di  bawah  Pentaho  Corp.  Amerika.  Kettle  terdiri  dari  4  aplikasi  yang
dijalankan  melalui  shell  atau  batch  script  yang  berkaitan,    yaitu http:pentaho.phi-integration.comkettle :
Spoon , yaitu aplikasi grafis berbasis swing yang digunakan untuk
merancang file skema job dan transformation
Pan , yaitu script yang digunakan untuk menjalankan file skema
transformation melalui terminal  command line
Kitchen , yaitu script yang digunakan untuk menjalankan file skema
job melalui terminal  command line
Carte , yaitu temporary web server yang digunakan untuk
mengeksekusi jobtransformation secara cluster atau parallel
Saat  ini  Kettle  merupakan  utilitas  ETL  yang  sangat  popular  dengan beberapa fitur sebagai berikut http:pentaho.phi-integration.comkettle :
1.  Memiliki utilitas grafik yang dapat digunakan merancang  control flow
umum maupun data flow aliran data. 2.  Multi platform - karena dikembangkan di atas Java yang notabene
berjalan di banyak platform sistem operasi.
3.  Bersifat concurrent, dalam arti row-row data diambil oleh suatu step dan diserahkan ke step lain secara parallel.
4.  Scalable - dapat beradaptasi dengan penambahan kapasitas memori RAM atau pun storage scale up dan dapat node komputer  cluster
scale out. 5.  Koleksi step transformation dan job yang cukup banyak
6.  Extensible, kita dapat membuat step transformation dan job baru
dengan sistem plugin. 7.  Dukungan luas berbagai produk database yang terkenal di pasaran
baik itu proprietary maupun free open source seperti Oracle, SQL Server, MySQL, PostgreSQL dan lain sebagainya.
2.3 OLAP Online Analytical Processing
Online  Analytical  Processing adalah  teknologi  yang  memproses  data  di
dalam  data  warehouse  dalam  struktur  multidimensi.  Sistem  OLAP  menyediakan kecepatan  dan  fleksibilitas  untuk  mendukung  analisis  dalam  waktu  singkat.  Di
dalam  OLAP  terdapat  2  komponen  utama,  yaitu  cube  dan  dimension.  Cube kubus  adalah  suatu  pendekatan  baru  untuk  memvisualisasikan  bagaimana  data
diorganisasi.  Dimension  adalah  suatu  tabel  parameter  yang  dibuat  berdasarkan tabel  di  dalam  data  warehouse  yang  sifatnya  dapat  dikelompokkan  dan  diukur.
Dengan  menggunakan  teknologi  OLAP,  user  dapat  menganalisis  data  secara interaktif  dengan  menggunakan  fasilitas  yang  baik  untuk  membuat  laporan.  Di
dalam teknologi  OLAP,  operasi – operasi yang dilakukan adalah sebagai berikut
Han dan Kamber, 2006 :   Roll-up  :  melakukan  konsolidasi  data  dengan  cara  meningkatkan
tingkat  suatu  hirarki  cube  data  pada  multidimensional  data  sehingga pada  saat  roll-up  dilakukan,  maka  jumlah  dimensi  akan  berkurang.
Contohnya,  operasi  roll-up  yang  dilakukan  pada  cube  data  di  tingkat kecamatan menjadi tingkat kabupaten.
  Drill-down  :  merupakan  kebalikan  dari  roll-up  dengan  menurunkan tingkat suatu hirarki cube data sehingga dapat merepresentasikan cube
untuk memberikan informasi lebih detilterperinci.   Slicing dan dicing : digunakan untuk melihat data dari titik pandangan
yang  berbeda.  Dimana,  slicing  dilakukan  dengan  cara  memilih  satu dimensi  dari  suatu  cube  sedangkan  dicing  dilakukan  dengan  cara
memilih  dua  atau  lebih  dimensi  dari  suatu  cube  sehingga menghasilkan subcube.
2.4 Pre-Processing