Pengertian Gudang Data Gudang Data

BAB II LANDASAN TEORI

2.1. Gudang Data

2.1.1. Pengertian Gudang Data

Pengertian gudang data data warehouse sendiri dapat bermacam- macam namun memiliki inti yang sama, seperti pendapat beberapa ahli berikut: Menurut W.H. Inmon dan Richard D.H., data warehouse adalah koleksi data yang mempunyai sifat berorientasi subjek,terintegrasi,time- variant, dan bersifat tetap dari koleksi data dalam mendukung proses pengambilan keputusan management. Menurut Vidette Poe, data warehouse merupakan database yang bersifat analisis dan read only yang digunakan sebagai fondasi dari sistem penunjang keputusan. Menurut Paul Lane, data warehouse merupakan database relasional yang didesain lebih kepada query dan analisa dari pada proses transaksi, biasanya mengandung history data dari proses transaksi dan bisa juga data dari sumber lainnya. Data warehouse memisahkan beban kerja analisis dari beban kerja transaksi dan memungkinkan organisasi menggabungkonsolidasi data dari berbagai macam sumber. Dalam gudang data sendiri terdapat 4 empat karakteristik utama yaitu subject oriented, integrated, time-variant, non volatile. Ke empat karakteristik tersebut memiliki pengertian sebagai berikut 1. Subject Oriented, gudang data didesain untuk menganalisis data berdasarkan subjek-subjek tertentu dalam sebuah organisasi, bukan pada proses atau fungsi aplikasi tertentu. Gudang data berfokus pada pemodelan dan analisis data bagi para pengambil keputusan. Oleh karena itu, gudang data biasanya memberikan pandangan sederhana dan ringkas terhadap masalah subjek tertentu dengan mengecualikan data yang tidak berguna dalam proses pendukung keputusan. 2. Integrated, gudang data biasanya dibuat dari berbagai macam sumber data, seperti relational database, file, dan on-line transactions records. Pembersihan dan integrasi data digunakan untuk menjaga konsistensi data dalam penamaan, encoding structures, attribute measures dan lain-lain. 3. Time-variant, data disimpan untuk menyediakan informasi dari perspektif bersejarah misalnya, 5-10 tahun.Setiap struktur kunci di gudang data berisi,baik secara implicit maupun eksplisit, elemen waktu. 4. Non volatile, sebuah gudang data adalah selalu secara fisik memisahkan penyimpanan dari data yang berubah dari aplikasi data yang ditemukan dalam lingkungan operasional. Karena ini pemisahan, gudang data tidak memerlukan pemrosesan transaksi, pemulihan, dan konkurensi mengontrol mekanisme. Biasanya hanya membutuhkan dua operasi dalam mengakses data: loading data dan akses data. Gudang data memiliki arsitektur untuk memproses sebuah data mentah menjadi gudang data. Sebelum menjadi sebuah gudang data, data mentah tersebut perlu dilakukan proses ETL Extract, Transform, Load . Proses tersebut dapat ditunjukan pada gambar 2.1. Gambar 2. 1 Proses ETL Pada gudang data terdapat 3 komponen proses yang utama yaitu Extract, Transform, Load. Berikut penjelasan mengenai ETL tersebut: 1. Extract, proses pengambilan data yang diperlukan dari sumber gudang data dan selanjutnya dimasukkan pada staging area untuk diproses pada tahap berikutnya. Pada fungsi ini akan banyak berhubungan dengan berbagai tipe sumber data. Format data, mesin yang berbeda, software dan arsitektur yang tidak sama. Sehingga sebelum proses ini dilakukan, sebaiknya perlu didefinisikan requirement terhadap sumber data yang dibutuhkan untuk lebih memudahkan pada extraction data. 2. Transform, pada proses transaksional data disimpan dalam berbagai format sehingga jarang ditemui data yang konsisten antara aplikasi-aplikasi yang ada. Transformasi data ditujukan untuk mengatasi masalah ini. Dengan proses transformasi data melakukan standarisasi terhadap data pada satu format yang konsisten. Beberapa contoh ketidak konsistenan data tersebut dapat diakibatkan oleh tipe data yang berbeda, data length, dan lain sebagainya. EXTRACT TRANSFORM LOAD 3. Load, memindahkan data ke data warehouse. Ada dua load yang dapat dilakukan pada data warehouse. Pertama adalah initial load, proses ini dilakukan pada saat telah selesai mendesaindan membangun data warehouse. Data yang dimasukkan tentunya akan sangat besar dan memakan waktu yang lama. Kedua incremental load, dilakukan ketika data warehouse telah dioperasikan. Dengan data extraction, transformation¸dan loading terhadap data tersebut.

2.1.2. Hubungan Datawarehouse dan OLAP