Langkah Dalam Membangun Gudang Data Kettle Pentaho Data Integration

Gambar 2. 5 Data mining merupakan irisan dari berbagai disiplin Budi Santosa, 2007

2.1.4. Langkah Dalam Membangun Gudang Data

Gudang data dapat diterapkan dengan mengikuti langkah-langkah pokok seperti berikut ini Wasito, 2010. 1. Membaca data legacy Memperhatikan bagian-bagian data yang perlu untuk dibersihkan. 1. Menggabungkan data dari berbagai sumber terpisah Setiap jenis informasi yang diinginkan mungkin berasal dari beberapa file yang harus digabungkan untuk digunakan pada gudang data. 2. Memindahkan data dari sumber ke server gudang data Membuat standarisasi format copy-kan data dari sumber sekaligus data dibuat bersih clean. 3. Memecah gudang data dalam tabel fakta dan tabel dimensi Tabel fakta dan tabel dimensi disusun menurut kebutuhan subyek.

2.1.5. Kettle Pentaho Data Integration

Kettle adalah aplikasi ETL Extract, Transformation, Load open source yang sangat populer, dan merupakan salah satu yang terbaik di pasar BI dunia saat ini. Khusus di Indonesia, Kettle telah banyak digunakan sebagai tool standar untuk pengolahan data ketika ERP atau sistem transaksional “kalah” kecepatan dengan proses bisnis yang dinamis. Kettle merupakan bagian dari aplikasi Pentaho. Proyek ini berdiri sendiri dan merupakan inisiatif dari Mat Casters yang sampai saat ini tetap aktif sebagai project leader dari Kettle – sebelum diakuisisi oleh Pentaho pada tahun 2006. Sejak diakuisisi Kettle berubah nama menjadi Pentaho Data Integration PDI. Didalam Kettle terdapat kompenen-komponen yang terdiri dari 4 aplikasi yaitu Spoon, Pan, Kitchen dan Carte. 1. Spoon, yaitu aplikasi grafis berbasis swing yang digunakan untuk merancang file skema job dan transformation. 2. Pan, yaitu script yang digunakan untuk menjalankan file skema transformation melalui terminal command line. 3. Kitchen, yaitu script yang digunakan untuk menjalankan file skema job melalui terminal command line. 4. Carte, yaitu temporary web server yang digunakan untuk mengeksekusi jobtransformation secara cluster atau parallel. Dari semua aplikasi tersebut dijalankan melalui shell atau batch script yang berkaitan. Selain ke empat komponen diatas terdapat fitur-fitur dari Kettle. 1. Memiliki utilitas grafik yang dapat digunakan merancang control flow umum maupun data flow aliran data. 2. Multi platform - karena dikembangkan di atas Java yang notabene berjalan di banyak platform sistem operasi. 3. Bersifat concurrent, dalam arti row-row data diambil oleh suatu step dan diserahkan ke step lain secara parallel. 4. Scalable - dapat beradaptasi dengan penambahan kapasitas memori RAM atau pun storage scale up dan dapat node komputer cluster scale out. 5. Koleksi step transformation dan job yang cukup banyak. 6. Extensible, dapat membuat step transformation dan job baru dengan sistem plugin. 7. Dukungan luas berbagai produk database yang terkenal di pasaran baik itu proprietary maupun free open source seperti Oracle, SQL Server, MySQL, PostgreSQL dan lain sebagainya.pentaho.phi- integration.com Selain menggunakan Kettle tools lain yang digunakan yaitu Pentaho schema worbench dan JPivot. Pentaho schema workbench yang merupakan GUI untuk merancang skema XML Mondrian. Jpivot merupakan client OLAP dengan antar muka web dan dikembangkan diatas teknologi JSPJava Server Pages. JPivot memiliki kemampuan berinteraksi dengan Mondrian secara native dan OLAP engine lain melalui meanisme layanan XMLA XML for Analysis. www.phi- Integration.com

2.1.6. OLAP On-Line Analytical Processing