Summarization
Data primitif, sangat detail
Penggabungan, peringkasan
View Gambaran Detail, relasi datar
Summarized peringkasan, multidimensional
Unit Kerja Pendek,
simple transaksi
Komplek kueri
Akses Readwrite
Hanya dapat
read
Fokus Data masuk
Infromasi keluar Operasi
Index
hash
pada
primary key
Kebanyakan scan
Jumlah data yang diakses Puluhan
Jutaan Jumlah pengguna
Ribuan Ratusan
Ukuran
database
100 MB hingga GB 100 GB hingga mencapai TB
Prioritas Performa
tinggi, ketersediaan tinggi
Fleksibilitas tinggi, otonomi pengguna akhir
Metrik Melalui Transaksi
Melalui kueri, waktu respon
2.5. Pentaho Data Integration Kettle
2.5.1. Pengertian Pentaho
Menurut Phi-Integration.com, Pentaho merupakan sebuah perusahaan yang menawarkan produk business intelligence BI
yang menyediakan data integrasi, pelayanan OLAP, pelaporan atau
reporting, dashboarding, data mining
dan kemampuan ETL atau
extract transfrom load
pada Kettle.
2.5.2. Kettle
Kettle merupakan aplikasi
Extract, Transformation
dan
Load
atau sering disingkat dengan ETL. Aplikasi Kettle merupakan PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
salah satu bagian dari aplikasi BI Pentaho, yang dikenal dengan
Pentaho Data Integration
PDI. Kettle memiliki banyak komponen-komponen penting dalam membangun sebuah gudang
data, diantaranya yaitu : 1.
Step
adalah blok bangunan inti dari
transformation.
Masing- masing step memiliki fungsi dan tugas tertentu, diantaranya :
-
JobSteps
: step yang berjalan secara sekuensial dan lebih
berpusat pada
control flow
secara keseluruhan dari tugas ETL.
-
Transformation steps
: step yang berjalan secara paralel dan lebih menitik beratkan pada
inputoutput
data.
2.
Transformation
adalah komponen kettle yang menangani proses manipulasi aliran data. Semua proses ETL dilakukan
dalam transformation. Dalam sebuah transformation terdapat satu atau banyak step. Transformation menjalankan semua step
secara pararel dan transformation selalu memiliki step awal dan step akhir dalam bentuk table output. Simbol
transformation dalam Spoon adalah:
3.
Job
adalah komponen dari kettle yang menangani kontrol atas aliran tugas
flow controll. Job
terdiri dari satu atau lebih
job entry
yang dijalankan dalam urutan tertentu.
4.
Spoon
merupakan
Integrated Developmnet Environment
IDE, yang berupa
Graphical User Interface
GUI, digunakan untuk merancang, mengeksekusi, menyunting, dan menjalankan Job
dan Tranformation. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Lingkungan kerja
spoon
terdiri dari beberapa bagian, diantaranya :
a
Pulldown Menu
Koleksi menu dari
spoon
yang terintegrasi dalam satu toolbar.
b
Welcome Screen
Adalah halaman pembuka
kettle
yang berisi informasi mengenai situs
Pentaho.
c
Toolbar
Terdiri dari
job, transformation toolbar.
d
Panel Execution Result,
terdiri dari : ☞
Execution History,
data history eksekusi. ☞
Logging,
berisi detail dari eksekusi
job, transformation.
☞
Job Metrics,
berisi detail dari step-step yang telah dieksekusi.
☞
Step Metrics,
berisi detail jumlah pembacaan data
write, update, delete, dll
, per satuan waktu detik dari step-step yang telah
dieksekusi. ☞
Performance Graphs,
adalah tampilan grafis dari pembacaan data dari
Step Metrics.
5. Pan, adalah
command line tool
yang khusus digunakan untuk menjalankan dan mengeksekusi file transformasi yang
berekstensi .ktr. Pan sendiri adalah
script
dalam bentuk file pan.bat
batch script
untuk
windows
dan pan.sh
BASH shell script
untuk UnixLinux
.
Biasanya digunakan jika ingin menjalankan
Transformation
pada saat otomatisasi terjadwal
scheduled automation.
6.
Kitchen,
adalah
command line tool
yang khusus digunakan untuk menjalankan job. Umumnya dijalankan pada saat
otomatisasi terjadwal
scheduled automation.
Dipaketkan dengan nama file pan.bat
batch script
dan pan.sh
BASH shell script.
7.
Carte,
merupakan
cluster web server
yang digunakan untuk mengeksekusi
job transformation
terutama digunakan untuk meningkatkan pedorma ETL dengan pembagian
load
kerja pada beberapa
node Carte master
dan
slave
dalam lingkungan
cluster kettle.
Semua aplikasi tersebut dijalankan melalui
shell
atau
batch script
yang saling berkaitan. Fitur-fitur di dalam kettle diantaranya: -
Memiliki utilitas grafik yang dapat digunakan untuk merancang
control flow
umum maupun
data flow.
- Multi platform, karena dikembangkan di atas java yang dimana
java berjalan di banyak platform sistem operasi. -
Bersifat
concurrent
yaitu pada setiap
row-row
data diambil oleh step yang akan diserahkan secara paralel.
-
Scalable,
dapat beradaptasi dengan penambahan kapasitas memori RAM maupun
storage.
- Koleksi step transformasi dan job cukup banyak.
-
Extensible,
kita dapat membuat step transformasi dan job baru dengan sistem
plugin.
- Dukungan luas dari berbagai produk database yang terkenal di
pasaran baik itu
Iproprietary
maupun
free open source
seperti
Oracle, SQL server, Mysql, PostgreSQL
dan lain sebagainya. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2.6. Mondrian