2.1.4. Arsitektur Gudang Data
Gudang data sering mengadopsi beberapa arsitektur, diantaranya yaitu three-tier seperti gambar 2.1 menurut Jiawei Han
dan Micheline Kamber 2006:
Gambar 2.1 Arsitektur Data Warehouse Sumber : Jiawei Han dan Micheline Kamber. 2006
a. Data warehouse server
Merupakan tingakatan paling bawah pada arsitektural data
warehouse. Data warehouse server merupakan relational database system. Back-end tools dan utilities digunakan untuk
menghasilkan data ke tingkat bawah dari operasional database atau sumber eksternal lainnya misalnya, pelanggan infromasi
profil yang disediakan oleh konsultan eksternal. Tools dan utilities menghasilkan data extraction, cleaning, dan
transformation misalnya, untuk menggabungkan data yang sama dari sumber yang berbeda ke dalam format yang
terpadu, seperti fungsi load dan refresh untuk update ke dalam gudang data. Data yang diambil menggunakan antar-
muka program aplikasi yang dikenal sebagai gateway. Sebuah gateway di dukung oleh DBMS yang mendasari dan
memungkinkan program klien untuk menghasilkan kode sql yang akan dieksekusi di server.
b. OLAP Server
Merupakan tingkatan menengah dalam arsitektural gudang data. Biasanya diimplementasikan baik menggunakan model
relasional OLAP ROLAP yaitu perpanjangan dari relasional DBMS yang memetakan operasi pada data multidimensi pada
operasi relasional standar, atau model multidimensional OLAP MOLAP yaitu server yang mempunyai tugas yang khusus
untuk mengarahkan implementasi multidimensi data dan operasi.
c. Front End Client Layer
Merupakan tingkatan atas pada arsitektural gudang data. Berisikan tool kueri, alat analisis, dan tool data mining
contoh, trend analysis, prediksi dan sebagainya.
Berdasarkan sudut pandang arsitektur gudang data diatas, terdapat tiga model gudang data, diantaranya:
1. The Enterprise Warehouse
Enterprise warehouse
mengumpulkan segala
informasi dalam seluruh organisasi. Selain itu juga PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
menyediakan integrasi data yang luas. Mengandung data yang detail, seperti ringkasan data dan ukurannya besar.
Enterprise warehouse biasanya di implementasikan di traditional mainframes, computer superservers atau
platform arsitektur pararel.
2. The Data Mart
Data mart mengandung bagian dari data perusahaan yang besar yang bernilai bagi grup tertentu. Data mart
biasanya di implementasikan pada low-cost departmental server. Untuk implementasi putaran dari data mart lebih ke
minggu. Dimana untuk sumber data, data mart dapat dikategorikan independent atau dependent.
3. The Virtual Warehouse
Virtual warehouse adalah kumpulan view dari seluruh operasional database. Untuk efisiensi proses kueri,
hanya beberapa view yang ditampilkan. Virtual database warehouse dibangun tetapi membutuhkan kapasitas yang
besar.
Menurut Poe 1996, arsitektur adalah kumpulan aturan atau struktur yang memberikan kerangka untuk keseluruhan
rancangan pada suatu sistem atau produk. Arsitektur data menyediakan kerangka dengan mengidentifikasi dan memahami
bagaiman data akan dipindahkan melalui sistem dan digunakan di dalam perusahaan. Arsitektur data dalam gudang data memiliki
komponen utama yaitu basis data yang hanya dapat dibaca read- only database. Karakteristik arsitektur menurut Poe 1956 adalah:
1. Data diambil dari sistem asal seperti sistem informasi yang ada, database, dan file.
2. Data dari sistem asal diintegrasikan dan ditransformasikan sebelum disimpan pada DBMS Database Management
System seperti oracle, Ms SQL Server, IBM DB2, Sybase dan masih banyak yang lain.
3. Gudang data adalah jenis basis data reaad-only atau hanya dapat dibaca yang diperuntukkan dalam pengambilan
keputusan. 4. User mengakses gudang data melalui front-end tool atau
aplikasi.
Gambar 2.2 Arsitektur Gudang Data Sumber : Vidette Poe. 1956
2.1.5. Metadata
Metadata adalah data mengenai data. Metadata memberikan peranan yang penting untuk keefektifan penggunaan gudang data
karena akan mempermudah end user dalam melakukan analisis dan menghemat waktu. Metadata bertindak seperti indek mengenai isi
dari gudang data.
2.1.6. Denormalisasi
Denormalisasi menurut Connolly dan Begg 2002, adalah
suatu proses yang merubah normalisasi dari database dengan cara penggabungan tabel dan merupakan sebuah proses yang secara
sengaja dilakukan dengan melanggar peraturan bentuk normal normalisasi dengan tujuan untuk meningkatkan performance
pengaksesan data yang ada. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Keuntungan melakukan proses denormalisasi yaitu : 1. Mengurangi jumlah relasi yang terjadi antar tabel-tabel
yang harus mengalami proses pada waktu pencarian sehingga akan meningkatkan kecepatan proses kueri data.
2. Membuat struktur fisik database agar mudah dipahami menurut model dimensi dari pengguna. Struktur tabel yang
dibuat sesuai dengan kebutuhan pengguna memungkinkan terjadinya akses langsung yang sekali lagi akan
meningkatkan performance. Kelemahan dalam melakukan denormalisasi adalah :
1. Proses denormalisasi secara tidak langsung akan membuat redudansi data.
2. Pada proses
denormalisasi memerlukan
alokasi penyimpanan yang besar.
2.1.7. Manfaat Gudang Data
Ada empat manfaat yang bisa dilakukan dengan adanya gudang data, yaitu:
1. Pembuatan Laporan Pembuatan laporan merupakan salah satu kegunaan gudang
data yang paling umum dilakukan. Dengan menggunakan kueri sederhana didapatkan laporan perbulan, pertahun atau jangka
waktu kapanpun yang diinginkan. 2. On-Line Analytical Processing OLAP
Dengan adanya gudang data, semua informasi baik detail maupun hasil summary yang dibutuhkan dalam proses analisa
mudah didapat. OLAP mendayagunakan konsep data multi dimensi dan memungkinkan para pemakai menganalisa data
sampai mendetail, tanpa mengetikkan satupun perintah SQL. Hal ini dimungkinkan karena pada konsep multi dimensi,
maka data yang berupa fakta yang sama bisa dilihat dengan PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
menggunakan fungsi yang berbeda. Fasilitas lain yang ada pada software OLAP adalah fasilitas rool-up dan drill-down.
Drill-down adalah kemampuan untuk melihat detail dari suatu informasi dan rool-up adalah kebalikannya.
3. Data Mining Data mining merupakan proses untuk menggali mining
pengetahuan dan informasi baru dari data yang berjumlah banyak pada gudang data, dengan menggunakan kecerdasan
buatan Artificial Intelegence, statistik dan matematika. Data mining merupakan teknologi yang diharapkan menjembatani
komunikasi antara data dan pemakainya.
4. Proses Informasi Executive Gudang data dapat membuat ringkasan informasi yang
penting dengan tujuan membuat keputusan bisnis, tanpa harus menjelajahi keseluruhan data. Dengan menggunakan gudang
data segala laporan telah diringkas dan dapat pula mengetahui segala rinciannya secara lengkap, sehingga mempermudah
proses pengambilan keputusan. Informasi dan data pada laporan gudang data menjadi target informative bagi user.
2.1.8. Langkah Pembuatan Gudang Data
Langkah-langkah yang
digunakan saat
melakukan
pembuatan gudang data sebagai berikut:
1. Membaca data legacy Memperhatikan bagian-bagian data yang perlu untuk
dibersihkan 2. Memindahkan data dari sumber ke server gudang data
Membuat standarisasi format dan copy-kan data dari sumber sekaligus data dibuat bersih clean.
3. Memecah gudang data dalam tabel fakta dan tabel dimensi Tabel fakta dan tabel dimensi disusun menurut kebutuhan
subyek.
2.2. Extract, Transform, dan Load
2.2.1. Pengertian ETL
Menurut Songini 2004 Extract, transform, load adalah salah satu proses dalam data warehouse yang melibatkan
pembacaan data dari sumbernya, pembersihan dan penyesuaian format tersebut, dan penulisan data tersebut ke dalam ruang
penyimpanan untuk digunakan lebih lanjut.
2.2.2. Proses dalam Extract, Transform, Load
Menurut Pusadan 2013 Proses ETL berfungsi untuk
mengekstrak dan mengintegrasikan data dari berbagai sumber ke dalam data warehouse dalam selang waktu tertentu. Berikut
mekanisme ETL: a. Extraction adalah suatu proses yang mengidentifikasikan
seluruh sumber data yang relevan dan kemudian mengambil data dari sumber-sumber data tersebut.
b. Transform adalah suatu proses yang memiliki peran dalam melakukan perubahan dan integrasi skema serta struktur yang
berbeda ke dalam skema dan struktur yang telah didefinisikan sebelumnya oleh data warehouse.
c. Loading adalah suatu proses pemindahan data secara fisik dari sistem operasional ke dalam data warehouse.
Untuk melakukan data warehouse maka diperlukan utilitas yang dirancang khusus untuk hal tersebut. Utilitas tersebut harus
memiliki kemampuan : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Membaca dari dan mengirim data ke berbagai sumber file teks, excel, database relational, dan sebagainya
Mampu menyesuaikan atau transformasi data Memiliki informasi metadata pada setiap perjalanan
transformasi Memiliki audit log yang baik
Dapat ditingkatkan performanya dengan scale up dan scale
out Mudah diimplementasikan.
Secara singkat dari proses ETL dapat dilihat pada gambar 2.3:
Gambar 2.3 Sistem Kerja Data Warehouse Sumber : Han dan Kamber. 2001
2.3. Model Data Multidimensi