Perbedaan OLAP Dengan OLTP Extract, Transform, Load

Kegunaan dari kunci pengganti adalah memperbolehkan data pada data warehouse untuk memiliki beberapa kebebasan dalam penggunaan data, tidak seperti halnya yang diproduksi oleh sistem OLTP. Dimensional model yang sering digunakan pada data warehouse adalah skema bintang atau snowflake yang mudah dimengerti dan sesuai dengan kebutuhan bisnis, mendukung query sederhana dan menyediakan performa query yang superior dengan meminimalisasi tabel-tabel join. Berikut ini adalah skema dimensional model yang sering digunakan:

2.8.1. Star Scheme

Skema bintang merupakan struktuk logikal yang memiliki tabel fakta yang terdiri atas data faktual ditengahnya, dan dikelilingi oleh tabel-tabel dimensi yang berisi referensi data. Pada model ini setiap tabel dimensi hanya berhubungan dengan tabel fakta Connoly dan Begg, 2005. Gambar 2.9 Star Scheme

1. Tabel Fakta

Tabel fakta berisi field yang menunjukkan fakta dari suatu subjek, yang diidentifikasi bahwa dengan field ini kita bisa mengukur nilai suatu aktivitas dalam subjek tertentu. Misalnya dalam subjek penjualan. Tabel fakta ini berisi foreign key dari tabel dimensi, karena berhubungan dengan tabel-tabel dimensi di sekelilingnya.

2. Tabel Dimensi

Tabel dimensi merupakan penjelasan dari data yang terdapat dalam tabel fakta. Misalnya dalam tabel fakta menyebutkan penjualan produk ke pelanggan PT.X, maka untuk melihat detail mengenai PT.X, bisa dilihat dalam tabel dimensi Pelanggan yang berhubungan dengan tabel fakta tersebut.

2.8.2. Snowflake Scheme

Merupakan varian dari skema bintang dimana tabel-tabel dimensi tidak terdapat data yang di denormalisasi. Dengan kata lain satu atau lebih tabel dimensi boleh tidak bergabung secara langsung kepada tabel fakta tapi pada tabel dimensi lainnya Connoly dan Begg, 2005. Gambar 2.10 Snowflake Scheme

2.8.3. Starflake Scheme

Keduanya merupakan model-model dimensional, perbedaannya terletak pada implementasi fisikal. Skema snowflake memberi kemudahan pada perawatan dimensi, dikarenakan strukturnya yang lebih normalisasi. Sedangkan skema bintang lebih efisien serta sederhana dalam membuat query dan mudah diakses secara langsung oleh pengguna. Adapun starflake merupakan gabungan diantara keduanya. Keuntungan menggunakan masing-masing model tersebut dalam data warehouse antara lain : a. Efisien dalam hal mengakses data b. Dapat beradaptasi terhadap kebutuhan-kebutuhan user c. Bersifat fleksibel terhadap perubahan yang terjadi khususnya perubahan yang mengarah pada perkembangan d. Memiliki kemampuan dalam memodelkan situasi bisnis secara umum e. Meskipun skema yang dihasilkan sangat kompleks, tetapi pemrosesan query dapat diperkirakan, hal ini dikarenakan pada level terendah, setiap tabel fakta harus di query secara independen.

2.9. Extract, Transform, Load

ETL Extract, Transform, Load adalah proses pengambilan data dari application data dan mengintegrasikannya ke dalam data warehouse Inmon, 2002. Atau bias diartikan sebagai proses migrasi dari database operasional menuju data warehouse mariana et al. 2010. Tujuan ETL adalah mengumpulkan, menyaring, mengolah, dan menggabungkan data-data yang relevan dari berbagai sumber untuk disimpan ke dalam data warehouse Darudiato, 2010. Hasil dari proses ETL adalah dihasilkannya data yang memenuhi kriteria data warehouse seperti data yang historis, terpadu, terangkum, statis, dan memiliki struktur yang dirancang untuk keperluan proses analisis . Proses ETL ini dibagi menjadi tiga, yaitu: 1. Extraxt, adalah proses penentuan source yang akan digunakan sebagai sumber data bagi data warehouse. Dalam proses ini ditentukan data apa saja yang dibutuhkan, tabel apa yang dijadikan sumber. 2. Transform, setelah data ditentukan barulah data-data tersebut dirubah agar sesuai dengan standard yang ada pada data warehouse. 3. Kemudian di Load, yaitu proses untuk memasukkan data-data yang sudah ditransform ke dalam data warehouse untuk disimpan sebagai summary. Masalah-masalah yang terjadi dalam ETL adalah sumber-sumber data umumnya sangat bervariasi Darudiato, 2010 diantaranya: 1. Platform mesin dan sistem operasi yang berlainan. 2. Mungkin melibatkan sistem kuno dengan teknologi basis data yang sudah ketinggalan zaman. 3. Kualitas data yang berbeda-beda. 4. Aplikasi sumber data mungkin menggunakan nilai data representasi internal yang sulit dimengerti.

2.10. Nine Step Design Method

Berikut ini adalah Sembilan langkah untuk merancang suatu data warehouse yang di cetuskan oleh Kimball 2002:

2.10.1. Memilih Proses

Pada proses pertama ini, yang dilakukan adalah menganalisa dan menentukan subyek permasalahan yang dihadapi, lalu mengidentifikasi proses bisnis yang berhubungan dengan permasalahan tersebut. Pemilihan proses dilakukan untuk memperjelas batasan data warehouse yang akan dibuat.

2.10.2. Menentukan Grain

Grain merupakan calon fakta yang dapat dianalisis. Pemilihan grain dilakukan untuk memutuskan apa yang direpresentasikan record dari tabel fakta. Pada proses kedua ini dipilihlah data dari calon fakta, dengan memutuskan record apa yang akan direpresentasikan pada tabel fakta.

2.10.3. Mengidentifikasi Dan Penyesuaian Dimensi

Dalam tahap ini dilakukan identifikasi dimensi untuk setiap tabel fakta yang ada. Misal, setiap data pelanggan pada tabel dimensi pembeli dilengkapi dengan id_pelanggan, no_pelanggan, tipe_pelanggan, tempat_tinggal, dan lain sebagainya.

2.10.4. Memilih Fakta

Pada tahap ini dipilih fakta-fakta yang akan mengisi setiap tabel fakta, dimana fakta-fakta yang dipilih harus sesuai dengan grain yang telah ditentukan. Biasanya penyesuaian dimensi dan grain ini ditampilkan dalam bentuk matriks.

2.10.5. Menyimpan Perhitungan Awal Dalam Tabel Fakta

Sesuai dengan grain yang telah ditentukan sebelumnya yang merupakan calon-calon fakta. Masing-masing fakta memiliki data yang dapat dihitung, pada tahap inilah perhitungan tersebut dilakukan. Hal ini terjadi apabila fakta kehilangan statement.

2.10.6. Melihat Kembali Tabel Dimensi

Pada tahap ini ditambahkan keterangan selengkap-lengkapnya pada tabel dimensi. Keterangannya harus bersifat intuitif dan mudah dipahami oleh pengguna.

2.10.7. Memilih Durasi Database

Pada proses ini yang dilakukan adalah menentukan pembatasan waktu untuk data yang diambil dan dipindahkan kedalam tael fakta. Penentuan durasi ini tergantung terhadap kebutuhan informasi perusahaan. Misalnya pada suatu perusahaan asuransi, mengharuskan data disimpan selama 10 tahun atau lebih.

2.10.8. Menelusuri Perubahan Dari Dimensi

Pada proses ini yang dilakukan adalah mengamati perubahan data dari tabel dimensi. Cara yang dapat dilakukan ada tiga, yaitu: a. Atribut dimensi yang telah berubah tertulis ulang b. Atribut dimensi yang telah berubah menimbulkan sebuah dimensi baru c. Atribut dimensi yang telah berubah menimbulkan alternatif sehingga nilai atribut lama dan yang baru dapat diakses secara bersama pada dimensi yang sama.