BAB II LANDASAN TEORI
Pada bab ini akan dipaparkan teori-teori yang digunakan untuk menyusun tugas akhir ini, yaitu
data-warehouse
,
cube
,
Multiway Array Aggregation
sebagai metode dalam perhitungan data
cube
.
2.1 Gudang Data
Data Warehouse
Menurut Inmon dalam Jiawei, 2006:106,
Data warehouse
adalah koleksi data yang bersifat
subject-oriented
,
terintegrasi
,
time-variant
, dan
non-volatile
yang digunakan untuk mendukung proses pengambilan keputusan yang strategis, di mana setiap unit dari data adalah
non-volatile
dan relevan untuk waktu tertentu.
Data warehouse
memungkinkan pengguna untuk melakukan pemeriksaan terhadap data untuk melakukan analisis terhadap data dalam beragam cara dan
membuat keputusan yang didasarkan pada hasil analisis. Untuk pembuatan gudang data dilakukan langkah-langkah pokok, seperti di bawah ini Wasito,
2010 : 1.
Membaca data legacy. Memperhatikan bagian-bagian data yang perlu dibersihkan.
2. Menggabungkan data dari berbagai sumber terpisah.
Setiap jenis informasi yang diinginkan mungkin berasal dari beberapa
file
yang harus digabungkan untuk digunakan pada gudang data. 3.
Memindahkan data dari sumber ke server gudang data.
4. Membuat standarisasi format dan
copy
-kan data dari sumber sekaligus data dibuat bersih
clean
. 5.
Memecah gudang data dalam tabel fakta dan tabel dimensi. Tabel fakta dan tabel dimensi disusun menurut kebutuhan subyek.
Gudang data memiliki karakteristik utama sebagai berikut :
Tabel 2.1 : Karakteristik Gudang Data
Karakteristik Deskripsi
Subject Orientation
Data diorganisir sesuai dengan kebutuhan user.
Integrated
Menghilangkan kerancuan dalam hal penamaan dan kekacauan informasi. Data harus “clean”.
Non-volatile
Data hanya dapat dibaca, tidak dapat diubah oleh user.
Time-series
Data dalam rangkaian waktu, bukan hanya status saat ini.
Summarized
Data operasional dikumpulkan diringkas untuk mendukung keputusan.
Larger
Memelihara data dari waktu ke waktu selama diperlukan.
Not-Normalized
Data dapat redundant.
Metadata
Data mengenai data untuk user dan personil gudang data.
Input
Data operasional ditambah data eksternal yang
dibutuhkan.
2.2 Pentaho Data Integration Kettle
Pentaho Data Integration
PDI atau Kettle adalah
utilities
ETL
open source
di bawah Pentaho Corp. Amerika. Kettle terdiri dari 4 aplikasi yang
dijalankan melalui shell atau batch
script
yang berkaitan, yaitu http:pentaho.phi-integration.comkettle :
Spoon
, yaitu aplikasi grafis berbasis swing yang digunakan untuk merancang file skema
job
dan
transformation
Pan
, yaitu
script
yang digunakan untuk menjalankan file skema
transformation
melalui terminal
command line
Kitchen
, yaitu
script
yang digunakan untuk menjalankan file skema
job
melalui terminal
command line
Carte
, yaitu temporary web server yang digunakan untuk mengeksekusi jobtransformation secara
cluster
atau
parallel
Saat ini Kettle merupakan utilitas ETL yang sangat popular dengan beberapa fitur sebagai berikut http:pentaho.phi-integration.comkettle :
1. Memiliki
utilitas grafik
yang dapat digunakan merancang
control flow
umum maupun
data flow
aliran data. 2.
Multi platform
- karena dikembangkan di atas Java yang notabene berjalan di banyak platform sistem operasi.
3. Bersifat
concurrent
, dalam arti row-row data diambil oleh suatu step dan diserahkan ke
step
lain secara
parallel
. 4.
Scalable - dapat beradaptasi dengan penambahan kapasitas memori RAM atau pun
storage scale up
dan dapat node komputer cluster
scale out
. 5.
Koleksi step
transformation dan job yang cukup banyak 6.
Extensible,
kita dapat membuat step transformation dan job baru dengan sistem plugin.
7. Dukungan luas berbagai produk database yang terkenal di pasaran
baik itu
proprietary
maupun
free open source
seperti Oracle, SQL Server, MySQL, PostgreSQL dan lain sebagainya.
2.3 OLAP Online Analytical Processing