Data warehouse server OLAP Server Extract, Transform, dan Load

2.1.4. Arsitektur Gudang Data

Gudang data sering mengadopsi beberapa arsitektur, diantaranya yaitu three-tier seperti gambar 2.1 menurut Jiawei Han dan Micheline Kamber 2006: Gambar 2.1 Arsitektur Data Warehouse Sumber : Jiawei Han dan Micheline Kamber. 2006

a. Data warehouse server

Merupakan tingakatan paling bawah pada arsitektural data warehouse. Data warehouse server merupakan relational database system. Back-end tools dan utilities digunakan untuk menghasilkan data ke tingkat bawah dari operasional database atau sumber eksternal lainnya misalnya, pelanggan infromasi profil yang disediakan oleh konsultan eksternal. Tools dan utilities menghasilkan data extraction, cleaning, dan transformation misalnya, untuk menggabungkan data yang sama dari sumber yang berbeda ke dalam format yang terpadu, seperti fungsi load dan refresh untuk update ke dalam gudang data. Data yang diambil menggunakan antar- muka program aplikasi yang dikenal sebagai gateway. Sebuah gateway di dukung oleh DBMS yang mendasari dan memungkinkan program klien untuk menghasilkan kode sql yang akan dieksekusi di server.

b. OLAP Server

Merupakan tingkatan menengah dalam arsitektural gudang data. Biasanya diimplementasikan baik menggunakan model relasional OLAP ROLAP yaitu perpanjangan dari relasional DBMS yang memetakan operasi pada data multidimensi pada operasi relasional standar, atau model multidimensional OLAP MOLAP yaitu server yang mempunyai tugas yang khusus untuk mengarahkan implementasi multidimensi data dan operasi.

c. Front End Client Layer

Merupakan tingkatan atas pada arsitektural gudang data. Berisikan tool kueri, alat analisis, dan tool data mining contoh, trend analysis, prediksi dan sebagainya. Berdasarkan sudut pandang arsitektur gudang data diatas, terdapat tiga model gudang data, diantaranya:

1. The Enterprise Warehouse

Enterprise warehouse mengumpulkan segala informasi dalam seluruh organisasi. Selain itu juga PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI menyediakan integrasi data yang luas. Mengandung data yang detail, seperti ringkasan data dan ukurannya besar. Enterprise warehouse biasanya di implementasikan di traditional mainframes, computer superservers atau platform arsitektur pararel.

2. The Data Mart

Data mart mengandung bagian dari data perusahaan yang besar yang bernilai bagi grup tertentu. Data mart biasanya di implementasikan pada low-cost departmental server. Untuk implementasi putaran dari data mart lebih ke minggu. Dimana untuk sumber data, data mart dapat dikategorikan independent atau dependent.

3. The Virtual Warehouse

Virtual warehouse adalah kumpulan view dari seluruh operasional database. Untuk efisiensi proses kueri, hanya beberapa view yang ditampilkan. Virtual database warehouse dibangun tetapi membutuhkan kapasitas yang besar. Menurut Poe 1996, arsitektur adalah kumpulan aturan atau struktur yang memberikan kerangka untuk keseluruhan rancangan pada suatu sistem atau produk. Arsitektur data menyediakan kerangka dengan mengidentifikasi dan memahami bagaiman data akan dipindahkan melalui sistem dan digunakan di dalam perusahaan. Arsitektur data dalam gudang data memiliki komponen utama yaitu basis data yang hanya dapat dibaca read- only database. Karakteristik arsitektur menurut Poe 1956 adalah: 1. Data diambil dari sistem asal seperti sistem informasi yang ada, database, dan file. 2. Data dari sistem asal diintegrasikan dan ditransformasikan sebelum disimpan pada DBMS Database Management System seperti oracle, Ms SQL Server, IBM DB2, Sybase dan masih banyak yang lain. 3. Gudang data adalah jenis basis data reaad-only atau hanya dapat dibaca yang diperuntukkan dalam pengambilan keputusan. 4. User mengakses gudang data melalui front-end tool atau aplikasi. Gambar 2.2 Arsitektur Gudang Data Sumber : Vidette Poe. 1956

2.1.5. Metadata

Metadata adalah data mengenai data. Metadata memberikan peranan yang penting untuk keefektifan penggunaan gudang data karena akan mempermudah end user dalam melakukan analisis dan menghemat waktu. Metadata bertindak seperti indek mengenai isi dari gudang data.

2.1.6. Denormalisasi

Denormalisasi menurut Connolly dan Begg 2002, adalah suatu proses yang merubah normalisasi dari database dengan cara penggabungan tabel dan merupakan sebuah proses yang secara sengaja dilakukan dengan melanggar peraturan bentuk normal normalisasi dengan tujuan untuk meningkatkan performance pengaksesan data yang ada. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Keuntungan melakukan proses denormalisasi yaitu : 1. Mengurangi jumlah relasi yang terjadi antar tabel-tabel yang harus mengalami proses pada waktu pencarian sehingga akan meningkatkan kecepatan proses kueri data. 2. Membuat struktur fisik database agar mudah dipahami menurut model dimensi dari pengguna. Struktur tabel yang dibuat sesuai dengan kebutuhan pengguna memungkinkan terjadinya akses langsung yang sekali lagi akan meningkatkan performance. Kelemahan dalam melakukan denormalisasi adalah : 1. Proses denormalisasi secara tidak langsung akan membuat redudansi data. 2. Pada proses denormalisasi memerlukan alokasi penyimpanan yang besar.

2.1.7. Manfaat Gudang Data

Ada empat manfaat yang bisa dilakukan dengan adanya gudang data, yaitu: 1. Pembuatan Laporan Pembuatan laporan merupakan salah satu kegunaan gudang data yang paling umum dilakukan. Dengan menggunakan kueri sederhana didapatkan laporan perbulan, pertahun atau jangka waktu kapanpun yang diinginkan. 2. On-Line Analytical Processing OLAP Dengan adanya gudang data, semua informasi baik detail maupun hasil summary yang dibutuhkan dalam proses analisa mudah didapat. OLAP mendayagunakan konsep data multi dimensi dan memungkinkan para pemakai menganalisa data sampai mendetail, tanpa mengetikkan satupun perintah SQL. Hal ini dimungkinkan karena pada konsep multi dimensi, maka data yang berupa fakta yang sama bisa dilihat dengan PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI menggunakan fungsi yang berbeda. Fasilitas lain yang ada pada software OLAP adalah fasilitas rool-up dan drill-down. Drill-down adalah kemampuan untuk melihat detail dari suatu informasi dan rool-up adalah kebalikannya. 3. Data Mining Data mining merupakan proses untuk menggali mining pengetahuan dan informasi baru dari data yang berjumlah banyak pada gudang data, dengan menggunakan kecerdasan buatan Artificial Intelegence, statistik dan matematika. Data mining merupakan teknologi yang diharapkan menjembatani komunikasi antara data dan pemakainya. 4. Proses Informasi Executive Gudang data dapat membuat ringkasan informasi yang penting dengan tujuan membuat keputusan bisnis, tanpa harus menjelajahi keseluruhan data. Dengan menggunakan gudang data segala laporan telah diringkas dan dapat pula mengetahui segala rinciannya secara lengkap, sehingga mempermudah proses pengambilan keputusan. Informasi dan data pada laporan gudang data menjadi target informative bagi user.

2.1.8. Langkah Pembuatan Gudang Data

Langkah-langkah yang digunakan saat melakukan pembuatan gudang data sebagai berikut: 1. Membaca data legacy Memperhatikan bagian-bagian data yang perlu untuk dibersihkan 2. Memindahkan data dari sumber ke server gudang data Membuat standarisasi format dan copy-kan data dari sumber sekaligus data dibuat bersih clean. 3. Memecah gudang data dalam tabel fakta dan tabel dimensi Tabel fakta dan tabel dimensi disusun menurut kebutuhan subyek.

2.2. Extract, Transform, dan Load

2.2.1. Pengertian ETL

Menurut Songini 2004 Extract, transform, load adalah salah satu proses dalam data warehouse yang melibatkan pembacaan data dari sumbernya, pembersihan dan penyesuaian format tersebut, dan penulisan data tersebut ke dalam ruang penyimpanan untuk digunakan lebih lanjut.

2.2.2. Proses dalam Extract, Transform, Load

Menurut Pusadan 2013 Proses ETL berfungsi untuk mengekstrak dan mengintegrasikan data dari berbagai sumber ke dalam data warehouse dalam selang waktu tertentu. Berikut mekanisme ETL: a. Extraction adalah suatu proses yang mengidentifikasikan seluruh sumber data yang relevan dan kemudian mengambil data dari sumber-sumber data tersebut. b. Transform adalah suatu proses yang memiliki peran dalam melakukan perubahan dan integrasi skema serta struktur yang berbeda ke dalam skema dan struktur yang telah didefinisikan sebelumnya oleh data warehouse. c. Loading adalah suatu proses pemindahan data secara fisik dari sistem operasional ke dalam data warehouse. Untuk melakukan data warehouse maka diperlukan utilitas yang dirancang khusus untuk hal tersebut. Utilitas tersebut harus memiliki kemampuan : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI  Membaca dari dan mengirim data ke berbagai sumber file teks, excel, database relational, dan sebagainya  Mampu menyesuaikan atau transformasi data  Memiliki informasi metadata pada setiap perjalanan transformasi  Memiliki audit log yang baik  Dapat ditingkatkan performanya dengan scale up dan scale out  Mudah diimplementasikan. Secara singkat dari proses ETL dapat dilihat pada gambar 2.3: Gambar 2.3 Sistem Kerja Data Warehouse Sumber : Han dan Kamber. 2001

2.3. Model Data Multidimensi