Gudang Data Pentaho Data Integration Kettle

BAB II LANDASAN TEORI

Pada bab ini akan dipaparkan teori-teori yang digunakan untuk menyusun tugas akhir ini, yaitu data-warehouse , cube , Multiway Array Aggregation sebagai metode dalam perhitungan data cube .

2.1 Gudang Data

Data Warehouse Menurut Inmon dalam Jiawei, 2006:106, Data warehouse adalah koleksi data yang bersifat subject-oriented , terintegrasi , time-variant , dan non-volatile yang digunakan untuk mendukung proses pengambilan keputusan yang strategis, di mana setiap unit dari data adalah non-volatile dan relevan untuk waktu tertentu. Data warehouse memungkinkan pengguna untuk melakukan pemeriksaan terhadap data untuk melakukan analisis terhadap data dalam beragam cara dan membuat keputusan yang didasarkan pada hasil analisis. Untuk pembuatan gudang data dilakukan langkah-langkah pokok, seperti di bawah ini Wasito, 2010 : 1. Membaca data legacy. Memperhatikan bagian-bagian data yang perlu dibersihkan. 2. Menggabungkan data dari berbagai sumber terpisah. Setiap jenis informasi yang diinginkan mungkin berasal dari beberapa file yang harus digabungkan untuk digunakan pada gudang data. 3. Memindahkan data dari sumber ke server gudang data. 4. Membuat standarisasi format dan copy -kan data dari sumber sekaligus data dibuat bersih clean . 5. Memecah gudang data dalam tabel fakta dan tabel dimensi. Tabel fakta dan tabel dimensi disusun menurut kebutuhan subyek. Gudang data memiliki karakteristik utama sebagai berikut : Tabel 2.1 : Karakteristik Gudang Data Karakteristik Deskripsi Subject Orientation Data diorganisir sesuai dengan kebutuhan user. Integrated Menghilangkan kerancuan dalam hal penamaan dan kekacauan informasi. Data harus “clean”. Non-volatile Data hanya dapat dibaca, tidak dapat diubah oleh user. Time-series Data dalam rangkaian waktu, bukan hanya status saat ini. Summarized Data operasional dikumpulkan diringkas untuk mendukung keputusan. Larger Memelihara data dari waktu ke waktu selama diperlukan. Not-Normalized Data dapat redundant. Metadata Data mengenai data untuk user dan personil gudang data. Input Data operasional ditambah data eksternal yang dibutuhkan.

2.2 Pentaho Data Integration Kettle

Pentaho Data Integration PDI atau Kettle adalah utilities ETL open source di bawah Pentaho Corp. Amerika. Kettle terdiri dari 4 aplikasi yang dijalankan melalui shell atau batch script yang berkaitan, yaitu http:pentaho.phi-integration.comkettle :  Spoon , yaitu aplikasi grafis berbasis swing yang digunakan untuk merancang file skema job dan transformation  Pan , yaitu script yang digunakan untuk menjalankan file skema transformation melalui terminal command line  Kitchen , yaitu script yang digunakan untuk menjalankan file skema job melalui terminal command line  Carte , yaitu temporary web server yang digunakan untuk mengeksekusi jobtransformation secara cluster atau parallel Saat ini Kettle merupakan utilitas ETL yang sangat popular dengan beberapa fitur sebagai berikut http:pentaho.phi-integration.comkettle : 1. Memiliki utilitas grafik yang dapat digunakan merancang control flow umum maupun data flow aliran data. 2. Multi platform - karena dikembangkan di atas Java yang notabene berjalan di banyak platform sistem operasi. 3. Bersifat concurrent , dalam arti row-row data diambil oleh suatu step dan diserahkan ke step lain secara parallel . 4. Scalable - dapat beradaptasi dengan penambahan kapasitas memori RAM atau pun storage scale up dan dapat node komputer cluster scale out . 5. Koleksi step transformation dan job yang cukup banyak 6. Extensible, kita dapat membuat step transformation dan job baru dengan sistem plugin. 7. Dukungan luas berbagai produk database yang terkenal di pasaran baik itu proprietary maupun free open source seperti Oracle, SQL Server, MySQL, PostgreSQL dan lain sebagainya.

2.3 OLAP Online Analytical Processing