Gudang Data Data Warehouse OLAP Online Analytical Processing

BAB II LANDASAN TEORI

Pada bab ini akan dipaparkan teori-teori yang digunakan untuk menyusun tugas akhir ini, yaitu data-warehouse, cube, Multiway Array Aggregation sebagai metode dalam perhitungan data cube.

2.1 Gudang Data Data Warehouse

Menurut Inmon dalam Jiawei, 2006:106, Data warehouse adalah koleksi data yang bersifat subject-oriented, terintegrasi, time-variant, dan non-volatile yang digunakan untuk mendukung proses pengambilan keputusan yang strategis, di mana setiap unit dari data adalah non-volatile dan relevan untuk waktu tertentu. Data warehouse memungkinkan pengguna untuk melakukan pemeriksaan terhadap data untuk melakukan analisis terhadap data dalam beragam cara dan membuat keputusan yang didasarkan pada hasil analisis. Untuk pembuatan gudang data dilakukan langkah-langkah pokok, seperti di bawah ini Wasito, 2010 : 1. Membaca data legacy. Memperhatikan bagian-bagian data yang perlu dibersihkan. 2. Menggabungkan data dari berbagai sumber terpisah. Setiap jenis informasi yang diinginkan mungkin berasal dari beberapa file yang harus digabungkan untuk digunakan pada gudang data. 3. Memindahkan data dari sumber ke server gudang data. 4. Membuat standarisasi format dan copy-kan data dari sumber sekaligus data dibuat bersih clean. 5. Memecah gudang data dalam tabel fakta dan tabel dimensi. Tabel fakta dan tabel dimensi disusun menurut kebutuhan subyek. Gudang data memiliki karakteristik utama sebagai berikut : Tabel 2.1 : Karakteristik Gudang Data Karakteristik Deskripsi Subject Orientation Data diorganisir sesuai dengan kebutuhan user. Integrated Menghilangkan kerancuan dalam hal penamaan dan kekacauan informasi. Data harus “clean”. Non-volatile Data hanya dapat dibaca, tidak dapat diubah oleh user. Time-series Data dalam rangkaian waktu, bukan hanya status saat ini. Summarized Data operasional dikumpulkan diringkas untuk mendukung keputusan. Larger Memelihara data dari waktu ke waktu selama diperlukan. Not-Normalized Data dapat redundant. Metadata Data mengenai data untuk user dan personil gudang data. Input Data operasional ditambah data eksternal yang dibutuhkan.

2.2 Pentaho Data Integration Kettle

Pentaho Data Integration PDI atau Kettle adalah utilities ETL open source di bawah Pentaho Corp. Amerika. Kettle terdiri dari 4 aplikasi yang dijalankan melalui shell atau batch script yang berkaitan, yaitu http:pentaho.phi-integration.comkettle :  Spoon , yaitu aplikasi grafis berbasis swing yang digunakan untuk merancang file skema job dan transformation  Pan , yaitu script yang digunakan untuk menjalankan file skema transformation melalui terminal command line  Kitchen , yaitu script yang digunakan untuk menjalankan file skema job melalui terminal command line  Carte , yaitu temporary web server yang digunakan untuk mengeksekusi jobtransformation secara cluster atau parallel Saat ini Kettle merupakan utilitas ETL yang sangat popular dengan beberapa fitur sebagai berikut http:pentaho.phi-integration.comkettle : 1. Memiliki utilitas grafik yang dapat digunakan merancang control flow umum maupun data flow aliran data. 2. Multi platform - karena dikembangkan di atas Java yang notabene berjalan di banyak platform sistem operasi. 3. Bersifat concurrent, dalam arti row-row data diambil oleh suatu step dan diserahkan ke step lain secara parallel. 4. Scalable - dapat beradaptasi dengan penambahan kapasitas memori RAM atau pun storage scale up dan dapat node komputer cluster scale out. 5. Koleksi step transformation dan job yang cukup banyak

6. Extensible, kita dapat membuat step transformation dan job baru

dengan sistem plugin. 7. Dukungan luas berbagai produk database yang terkenal di pasaran baik itu proprietary maupun free open source seperti Oracle, SQL Server, MySQL, PostgreSQL dan lain sebagainya.

2.3 OLAP Online Analytical Processing

Online Analytical Processing adalah teknologi yang memproses data di dalam data warehouse dalam struktur multidimensi. Sistem OLAP menyediakan kecepatan dan fleksibilitas untuk mendukung analisis dalam waktu singkat. Di dalam OLAP terdapat 2 komponen utama, yaitu cube dan dimension. Cube kubus adalah suatu pendekatan baru untuk memvisualisasikan bagaimana data diorganisasi. Dimension adalah suatu tabel parameter yang dibuat berdasarkan tabel di dalam data warehouse yang sifatnya dapat dikelompokkan dan diukur. Dengan menggunakan teknologi OLAP, user dapat menganalisis data secara interaktif dengan menggunakan fasilitas yang baik untuk membuat laporan. Di dalam teknologi OLAP, operasi – operasi yang dilakukan adalah sebagai berikut Han dan Kamber, 2006 :  Roll-up : melakukan konsolidasi data dengan cara meningkatkan tingkat suatu hirarki cube data pada multidimensional data sehingga pada saat roll-up dilakukan, maka jumlah dimensi akan berkurang. Contohnya, operasi roll-up yang dilakukan pada cube data di tingkat kecamatan menjadi tingkat kabupaten.  Drill-down : merupakan kebalikan dari roll-up dengan menurunkan tingkat suatu hirarki cube data sehingga dapat merepresentasikan cube untuk memberikan informasi lebih detilterperinci.  Slicing dan dicing : digunakan untuk melihat data dari titik pandangan yang berbeda. Dimana, slicing dilakukan dengan cara memilih satu dimensi dari suatu cube sedangkan dicing dilakukan dengan cara memilih dua atau lebih dimensi dari suatu cube sehingga menghasilkan subcube.

2.4 Pre-Processing