Gambar 2. 5
Data mining
merupakan irisan dari berbagai disiplin Budi Santosa, 2007
2.1.4. Langkah Dalam Membangun Gudang Data
Gudang data dapat diterapkan dengan mengikuti langkah-langkah pokok seperti berikut ini Wasito, 2010.
1. Membaca data
legacy
Memperhatikan bagian-bagian data yang perlu untuk dibersihkan. 1.
Menggabungkan data dari berbagai sumber terpisah Setiap jenis informasi yang diinginkan mungkin berasal dari beberapa
file
yang harus digabungkan untuk digunakan pada gudang data. 2.
Memindahkan data dari sumber ke server gudang data Membuat standarisasi format
copy-
kan data dari sumber sekaligus data dibuat bersih
clean.
3. Memecah gudang data dalam tabel fakta dan tabel dimensi
Tabel fakta dan tabel dimensi disusun menurut kebutuhan subyek.
2.1.5. Kettle Pentaho Data Integration
Kettle adalah aplikasi ETL
Extract, Transformation, Load
open source yang sangat populer, dan merupakan salah satu yang terbaik di
pasar BI dunia saat ini. Khusus di Indonesia, Kettle telah banyak digunakan sebagai
tool
standar untuk pengolahan data ketika ERP atau sistem transaksional “kalah” kecepatan dengan proses bisnis yang dinamis.
Kettle merupakan bagian dari aplikasi Pentaho. Proyek ini berdiri sendiri dan merupakan inisiatif dari Mat Casters yang sampai saat ini tetap
aktif sebagai
project leader
dari Kettle – sebelum diakuisisi oleh Pentaho
pada tahun 2006. Sejak diakuisisi Kettle berubah nama menjadi Pentaho Data Integration PDI.
Didalam Kettle terdapat kompenen-komponen yang terdiri dari 4 aplikasi yaitu Spoon, Pan, Kitchen dan Carte.
1. Spoon, yaitu aplikasi grafis berbasis swing yang digunakan untuk
merancang
file
skema
job
dan
transformation.
2. Pan, yaitu
script
yang digunakan untuk menjalankan
file
skema
transformation melalui terminal
command line.
3. Kitchen, yaitu
script
yang digunakan untuk menjalankan
file
skema
job melalui terminal
command line.
4. Carte, yaitu temporary web server yang digunakan untuk
mengeksekusi jobtransformation secara
cluster
atau
parallel.
Dari semua aplikasi tersebut dijalankan melalui
shell
atau
batch script
yang berkaitan. Selain ke empat komponen diatas terdapat fitur-fitur dari Kettle.
1. Memiliki utilitas grafik yang dapat digunakan merancang
control flow
umum maupun
data flow
aliran data. 2.
Multi platform - karena dikembangkan di atas Java yang notabene berjalan di banyak platform sistem operasi.
3. Bersifat
concurrent
, dalam arti
row-row
data diambil oleh suatu
step
dan diserahkan ke
step
lain secara
parallel
. 4.
Scalable
- dapat beradaptasi dengan penambahan kapasitas memori RAM atau pun
storage scale up
dan dapat node komputer cluster
scale out
. 5.
Koleksi step transformation dan job yang cukup banyak. 6.
Extensible,
dapat membuat step transformation dan job baru dengan sistem plugin.
7. Dukungan luas berbagai produk
database
yang terkenal di pasaran baik itu
proprietary
maupun
free open source
seperti Oracle, SQL Server, MySQL, PostgreSQL dan lain sebagainya.pentaho.phi-
integration.com Selain menggunakan Kettle
tools
lain yang digunakan yaitu Pentaho
schema worbench
dan JPivot
.
Pentaho
schema workbench
yang merupakan GUI untuk merancang skema XML Mondrian. Jpivot
merupakan
client
OLAP dengan antar muka web dan dikembangkan diatas
teknologi JSPJava Server Pages. JPivot memiliki kemampuan berinteraksi dengan Mondrian secara native dan OLAP
engine
lain melalui meanisme layanan XMLA XML for Analysis.
www.phi- Integration.com
2.1.6. OLAP On-Line Analytical Processing