Pentaho Data Integration Kettle

Summarization Data primitif, sangat detail Penggabungan, peringkasan View Gambaran Detail, relasi datar Summarized peringkasan, multidimensional Unit Kerja Pendek, simple transaksi Komplek kueri Akses Readwrite Hanya dapat read Fokus Data masuk Infromasi keluar Operasi Indexhash pada primary key Kebanyakan scan Jumlah data yang diakses Puluhan Jutaan Jumlah pengguna Ribuan Ratusan Ukuran database 100 MB hingga GB 100 GB hingga mencapai TB Prioritas Performa tinggi, ketersediaan tinggi Fleksibilitas tinggi, otonomi pengguna akhir Metrik Melalui Transaksi Melalui kueri, waktu respon

2.5. Pentaho Data Integration Kettle

2.5.1. Pengertian Pentaho

Menurut Phi-Integration.com, Pentaho merupakan sebuah perusahaan yang menawarkan produk business intelligence BI yang menyediakan data integrasi, pelayanan OLAP, pelaporan atau reporting, dashboarding, data mining dan kemampuan ETL atau extract transfrom load pada Kettle.

2.5.2. Kettle

Kettle merupakan aplikasi Extract, Transformation dan Load atau sering disingkat dengan ETL. Aplikasi Kettle merupakan salah satu bagian dari aplikasi BI Pentaho, yang dikenal dengan Pentaho Data Integration PDI. Kettle memiliki banyak komponen-komponen penting dalam membangun sebuah gudang data, diantaranya yaitu : 1. Step adalah blok bangunan inti dari transformation. Masing- masing step memiliki fungsi dan tugas tertentu, diantaranya : - JobSteps : step yang berjalan secara sekuensial dan lebih berpusat pada control flow secara keseluruhan dari tugas ETL. - Transformation steps : step yang berjalan secara paralel dan lebih menitik beratkan pada inputoutput data. 2. Transformation adalah komponen kettle yang menangani proses manipulasi aliran data. Semua proses ETL dilakukan dalam transformation. Dalam sebuah transformation terdapat satu atau banyak step. Transformation menjalankan semua step secara pararel dan transformation selalu memiliki step awal dan step akhir dalam bentuk table output. Simbol transformation dalam Spoon adalah: 3. Job adalah komponen dari kettle yang menangani kontrol atas aliran tugas flow controll. Job terdiri dari satu atau lebih job entry yang dijalankan dalam urutan tertentu. 4. Spoon merupakan Integrated Developmnet Environment IDE, yang berupa Graphical User Interface GUI, digunakan untuk merancang, mengeksekusi, menyunting, dan menjalankan Job dan Tranformation. Lingkungan kerja spoon terdiri dari beberapa bagian, diantaranya : a Pulldown Menu Koleksi menu dari spoon yang terintegrasi dalam satu toolbar. b Welcome Screen Adalah halaman pembuka kettle yang berisi informasi mengenai situs Pentaho. c Toolbar Terdiri dari job, transformation toolbar. d Panel Execution Result, terdiri dari : ☞ Execution History, data history eksekusi. ☞ Logging, berisi detail dari eksekusi job, transformation. ☞ Job Metrics, berisi detail dari step-step yang telah dieksekusi. ☞ Step Metrics, berisi detail jumlah pembacaan data write, update, delete, dll, per satuan waktu detik dari step-step yang telah dieksekusi. ☞ Performance Graphs, adalah tampilan grafis dari pembacaan data dari Step Metrics. 5. Pan, adalah command line tool yang khusus digunakan untuk menjalankan dan mengeksekusi file transformasi yang berekstensi .ktr. Pan sendiri adalah script dalam bentuk file pan.bat batch script untuk windows dan pan.sh BASH shell script untuk UnixLinux. Biasanya digunakan jika ingin menjalankan Transformation pada saat otomatisasi terjadwal scheduled automation. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 6. Kitchen, adalah command line tool yang khusus digunakan untuk menjalankan job. Umumnya dijalankan pada saat otomatisasi terjadwal scheduled automation. Dipaketkan dengan nama file pan.bat batch script dan pan.sh BASH shell script. 7. Carte, merupakan cluster web server yang digunakan untuk mengeksekusi job transformation terutama digunakan untuk meningkatkan pedorma ETL dengan pembagian load kerja pada beberapa node Carte master dan slave dalam lingkungan cluster kettle. Semua aplikasi tersebut dijalankan melalui shell atau batch script yang saling berkaitan. Fitur-fitur di dalam kettle diantaranya: - Memiliki utilitas grafik yang dapat digunakan untuk merancang control flow umum maupun data flow. - Multi platform, karena dikembangkan di atas java yang dimana java berjalan di banyak platform sistem operasi. - Bersifat concurrent yaitu pada setiap row-row data diambil oleh step yang akan diserahkan secara paralel. - Scalable, dapat beradaptasi dengan penambahan kapasitas memori RAM maupun storage. - Koleksi step transformasi dan job cukup banyak. - Extensible, kita dapat membuat step transformasi dan job baru dengan sistem plugin. - Dukungan luas dari berbagai produk database yang terkenal di pasaran baik itu Iproprietary maupun free open source seperti Oracle, SQL server, Mysql, PostgreSQL dan lain sebagainya.

2.6. Mondrian