BAB II LANDASAN TEORI
Pada bab ini akan dipaparkan teori-teori yang digunakan untuk menyusun tugas akhir ini, yaitu data-warehouse, cube, Multiway Array Aggregation sebagai
metode dalam perhitungan data cube.
2.1 Gudang Data Data Warehouse
Menurut Inmon dalam Jiawei, 2006:106, Data warehouse adalah koleksi data yang bersifat subject-oriented, terintegrasi, time-variant, dan non-volatile
yang digunakan untuk mendukung proses pengambilan keputusan yang strategis, di mana setiap unit dari data adalah non-volatile dan relevan untuk waktu tertentu.
Data warehouse memungkinkan pengguna untuk melakukan pemeriksaan
terhadap data untuk melakukan analisis terhadap data dalam beragam cara dan membuat keputusan yang didasarkan pada hasil analisis. Untuk pembuatan
gudang data dilakukan langkah-langkah pokok, seperti di bawah ini Wasito, 2010 :
1. Membaca data legacy. Memperhatikan bagian-bagian data yang perlu dibersihkan.
2. Menggabungkan data dari berbagai sumber terpisah. Setiap jenis informasi yang diinginkan mungkin berasal dari beberapa
file yang harus digabungkan untuk digunakan pada gudang data.
3. Memindahkan data
dari sumber
ke server
gudang data.
4. Membuat standarisasi format dan copy-kan data dari sumber sekaligus data dibuat bersih clean.
5. Memecah gudang data dalam tabel fakta dan tabel dimensi. Tabel fakta dan tabel dimensi disusun menurut kebutuhan subyek.
Gudang data memiliki karakteristik utama sebagai berikut :
Tabel 2.1 : Karakteristik Gudang Data
Karakteristik Deskripsi
Subject Orientation Data diorganisir sesuai dengan kebutuhan user.
Integrated Menghilangkan kerancuan dalam hal penamaan
dan kekacauan informasi. Data harus “clean”. Non-volatile
Data hanya dapat dibaca, tidak dapat diubah oleh user.
Time-series Data dalam rangkaian waktu, bukan hanya status
saat ini. Summarized
Data operasional dikumpulkan diringkas untuk mendukung keputusan.
Larger Memelihara data dari waktu ke waktu selama
diperlukan. Not-Normalized
Data dapat redundant. Metadata
Data mengenai data untuk user dan personil gudang data.
Input Data operasional ditambah data eksternal yang
dibutuhkan.
2.2 Pentaho Data Integration Kettle
Pentaho Data Integration PDI atau Kettle adalah utilities ETL open
source di bawah Pentaho Corp. Amerika. Kettle terdiri dari 4 aplikasi yang
dijalankan melalui shell atau batch script yang berkaitan, yaitu http:pentaho.phi-integration.comkettle :
Spoon , yaitu aplikasi grafis berbasis swing yang digunakan untuk
merancang file skema job dan transformation
Pan , yaitu script yang digunakan untuk menjalankan file skema
transformation melalui terminal command line
Kitchen , yaitu script yang digunakan untuk menjalankan file skema
job melalui terminal command line
Carte , yaitu temporary web server yang digunakan untuk
mengeksekusi jobtransformation secara cluster atau parallel
Saat ini Kettle merupakan utilitas ETL yang sangat popular dengan beberapa fitur sebagai berikut http:pentaho.phi-integration.comkettle :
1. Memiliki utilitas grafik yang dapat digunakan merancang control flow
umum maupun data flow aliran data. 2. Multi platform - karena dikembangkan di atas Java yang notabene
berjalan di banyak platform sistem operasi.
3. Bersifat concurrent, dalam arti row-row data diambil oleh suatu step dan diserahkan ke step lain secara parallel.
4. Scalable - dapat beradaptasi dengan penambahan kapasitas memori RAM atau pun storage scale up dan dapat node komputer cluster
scale out. 5. Koleksi step transformation dan job yang cukup banyak
6. Extensible, kita dapat membuat step transformation dan job baru
dengan sistem plugin. 7. Dukungan luas berbagai produk database yang terkenal di pasaran
baik itu proprietary maupun free open source seperti Oracle, SQL Server, MySQL, PostgreSQL dan lain sebagainya.
2.3 OLAP Online Analytical Processing
Online Analytical Processing adalah teknologi yang memproses data di
dalam data warehouse dalam struktur multidimensi. Sistem OLAP menyediakan kecepatan dan fleksibilitas untuk mendukung analisis dalam waktu singkat. Di
dalam OLAP terdapat 2 komponen utama, yaitu cube dan dimension. Cube kubus adalah suatu pendekatan baru untuk memvisualisasikan bagaimana data
diorganisasi. Dimension adalah suatu tabel parameter yang dibuat berdasarkan tabel di dalam data warehouse yang sifatnya dapat dikelompokkan dan diukur.
Dengan menggunakan teknologi OLAP, user dapat menganalisis data secara interaktif dengan menggunakan fasilitas yang baik untuk membuat laporan. Di
dalam teknologi OLAP, operasi – operasi yang dilakukan adalah sebagai berikut
Han dan Kamber, 2006 : Roll-up : melakukan konsolidasi data dengan cara meningkatkan
tingkat suatu hirarki cube data pada multidimensional data sehingga pada saat roll-up dilakukan, maka jumlah dimensi akan berkurang.
Contohnya, operasi roll-up yang dilakukan pada cube data di tingkat kecamatan menjadi tingkat kabupaten.
Drill-down : merupakan kebalikan dari roll-up dengan menurunkan tingkat suatu hirarki cube data sehingga dapat merepresentasikan cube
untuk memberikan informasi lebih detilterperinci. Slicing dan dicing : digunakan untuk melihat data dari titik pandangan
yang berbeda. Dimana, slicing dilakukan dengan cara memilih satu dimensi dari suatu cube sedangkan dicing dilakukan dengan cara
memilih dua atau lebih dimensi dari suatu cube sehingga menghasilkan subcube.
2.4 Pre-Processing