Gambar 2. 5 Data mining merupakan irisan dari berbagai disiplin Budi Santosa, 2007
2.1.4. Langkah Dalam Membangun Gudang Data
Gudang data dapat diterapkan dengan mengikuti langkah-langkah pokok seperti berikut ini Wasito, 2010.
1. Membaca data legacy
Memperhatikan bagian-bagian data yang perlu untuk dibersihkan. 1.
Menggabungkan data dari berbagai sumber terpisah Setiap jenis informasi yang diinginkan mungkin berasal dari beberapa
file yang harus digabungkan untuk digunakan pada gudang data.
2. Memindahkan data dari sumber ke server gudang data
Membuat standarisasi format copy-kan data dari sumber sekaligus data dibuat bersih clean.
3. Memecah gudang data dalam tabel fakta dan tabel dimensi
Tabel fakta dan tabel dimensi disusun menurut kebutuhan subyek.
2.1.5. Kettle Pentaho Data Integration
Kettle adalah aplikasi ETL Extract, Transformation, Load open source yang sangat populer, dan merupakan salah satu yang terbaik di
pasar BI dunia saat ini. Khusus di Indonesia, Kettle telah banyak digunakan sebagai tool standar untuk pengolahan data ketika ERP atau
sistem transaksional “kalah” kecepatan dengan proses bisnis yang dinamis. Kettle merupakan bagian dari aplikasi Pentaho. Proyek ini berdiri
sendiri dan merupakan inisiatif dari Mat Casters yang sampai saat ini tetap aktif sebagai project leader dari Kettle
– sebelum diakuisisi oleh Pentaho pada tahun 2006. Sejak diakuisisi Kettle berubah nama menjadi Pentaho
Data Integration PDI. Didalam Kettle terdapat kompenen-komponen yang terdiri dari 4
aplikasi yaitu Spoon, Pan, Kitchen dan Carte. 1.
Spoon, yaitu aplikasi grafis berbasis swing yang digunakan untuk merancang file skema job dan transformation.
2. Pan, yaitu script yang digunakan untuk menjalankan file skema
transformation melalui terminal command line.
3. Kitchen, yaitu script yang digunakan untuk menjalankan file skema
job melalui terminal command line.
4. Carte, yaitu temporary web server yang digunakan untuk
mengeksekusi jobtransformation secara cluster atau parallel.
Dari semua aplikasi tersebut dijalankan melalui shell atau batch script
yang berkaitan. Selain ke empat komponen diatas terdapat fitur-fitur dari Kettle.
1. Memiliki utilitas grafik yang dapat digunakan merancang control
flow umum maupun data flow aliran data.
2. Multi platform - karena dikembangkan di atas Java yang notabene
berjalan di banyak platform sistem operasi. 3.
Bersifat concurrent, dalam arti row-row data diambil oleh suatu step dan diserahkan ke step lain secara parallel.
4. Scalable - dapat beradaptasi dengan penambahan kapasitas memori
RAM atau pun storage scale up dan dapat node komputer cluster scale out.
5. Koleksi step transformation dan job yang cukup banyak.
6.
Extensible, dapat membuat step transformation dan job baru dengan
sistem plugin. 7.
Dukungan luas berbagai produk database yang terkenal di pasaran baik itu proprietary maupun free open source seperti Oracle, SQL
Server, MySQL, PostgreSQL dan lain sebagainya.pentaho.phi- integration.com
Selain menggunakan Kettle tools lain yang digunakan yaitu Pentaho schema worbench dan JPivot. Pentaho schema workbench yang
merupakan GUI untuk merancang skema XML Mondrian. Jpivot merupakan client OLAP dengan antar muka web dan dikembangkan diatas
teknologi JSPJava Server Pages. JPivot memiliki kemampuan berinteraksi dengan Mondrian secara native dan OLAP engine lain melalui
meanisme layanan XMLA XML for Analysis. www.phi-
Integration.com
2.1.6. OLAP On-Line Analytical Processing