LAPORAN ETL Extraction Transformation da

LAPORAN ETL (Extraction, Transformation, dan Loading)
DATA WAREHOUSE
Semester 5 Tahun Akademin 2016/2017

Disusun Oleh :
147006096

M Iqbal Nurpadilah

147006114

Muhsin

147006118

Moch Frendi Andhika

147006119

Rizky Rizaldy


147006125

Friska Maulida

JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS SILIWANGI
TASIKMALAYA
2016/2017

I.

Cara Instalisasi PDI (Pentaho Data Integration)
Langkah-langkah yang harus dilakukan :
1. Instalasi Java Software (jdk & jre).
2. Download Pentaho(Windows) atau copy file bundle pentaho
3. Konfigurasi environment variables untuk path java
 Instalasi Java Software
Untuk mengecek apakah java software telah terinstall atau belum. Buka
CMD(Command Prompt) lalu ketikkan : Java –version


Jika tampilannya muncul seperti gambar diatas. Maka java software telah
terinstall.
 Download Pentaho(Windows) atau copy file bundle pentaho
Disini saya menggunakan Pentaho Data Integration (PDI). Disini saya
menggunakan file bundle yang tinggal digunakan saja, saya akan lebih
menjelaskan cara untuk koneksi dari pentaho terhadap database MSSql
Server.
Apabila anda telah menginstal pentaho buka tools tersebut, spoon.bat.
maka akan tampil seperti gambar dibawah :

Saya akan menjelaskan cara untuk koneksi ke databasenya :
1.

Klik File – New Transformation

2.

Buka folder input lalu drag table input kesebelah atau ke page
desainnya


3.

Klik dua kali pada table input lalu pilih new maka akan muncul gambar
seperti dibawah

Gambar diatas adalah database connection dari pentaho ke MSSql.
Terdapat beberapa field yang harus disi seperti :
1.

Connection Name – adalah nama koneksi yang akan kita buat

2.

Hostname localhost

3.

Database Name – Sesuaikan dengan database yang ada di MSSql


4.

Instance Name – Sesuaikan dengan nama Instance name yang ada di
MSSql

5.

Port default 1443

6.

User Name dan Password MSSql anda

7.

Connection bertipe MS SQL Server dan Access (JDBC)

Apabila muncul gambar seperti diatas, berarti koneksi database
berhasil.
 Konfigurasi environment variables untuk path java

1) Buka Environment Variables

2. PATH Configuration
Pilih new
Edit variable name = PATH
Variable

Value

=

C:\Program

Files\Java\jdk1.7.0_17\bin

(tergantung lokasi Jdk anda)

Klik Ok, Selesai.
3. JAVA PATH Configuration
Pilih new

Edit variable name = JAVA_HOME
Variable Value = C:\Program Files\Java\jdk1.7.0_17 (tergantung
lokasi Jdk anda)

Klik Ok, Selesai

II. Skenario dan Tahapan ETL
Tahapan-tahapan yang dilakukan untuk membuat ETL (Extraction,
Transformation, Loading) sebagai berikut:
 Buat transformasi baru dengan cara file - new - new transformation
 Masuk ke menu design dan cari design yang akan digunakan berupa
data grid yang terdapat dari design - input lalu drag drop ke layout
 Masuk ke menu design dan cari design yang akan digunakan berupa
sort row yang terdapat dari design - transform lalu drag drop ke layout
 Masuk ke menu design dan cari design yang akan digunakan berupa
merge join yang terdapat dari design - joins lalu drag drop ke layout
 Masuk ke menu design dan design yang akan digunakan berupa dummy
yang terdapat dari design - flow lalu drag drop ke layout
 Masukan metadata dalam data grid dan kemudian isi datanya kemudian
samakan satu metadata dari kedua data grid

 Hubungkan data grid ke sort row, yang di sort merupakan primary
keynya (metadata yang sama d kedua data grid) saja
 Setiap data grid mempunyai sort row tersendiri
 Kemudian kedua row di output ke merge join

 Di merge join masukan first step dan second step (kedua sort row)
kemudian klik get key fields dan hapus metadata kecuali meta data
yang sama di kedua data grid dan juga di merge join kita dapat memilih
join type :
- Inner = menampilkan data dimana setiap data yang ditampilkan
-

lengkap dan tidak ada yang kosong (null)
Right Outer = menampilkan data dimana data yang ditampilkan
lengkap (left) /tdk ada yang kosong dan menyeluruh (right)

-

meskipun ada data null
Left Outer= menampilkan data dimana data yang ditampilkan

lengkap (right) /tdk ada yg kosong dan menyeluruh (left)

-

meskipun ada data null
Full Outer = menimpilkan data secara menyeluruh meskipun

ada data null d tampilkan
 Lalu data merge join d output ke dummy.
 Terakhir d preview dgn cara klik kanan dummy - preview - klik dummy
- quick launch
III. Data yang di gunakan
Bagian data yang digunakan dalam pembuatan ETL ini di antaranya
berupa metadata dan data.
Metadata adalah data yang mendeskripsikan data, definisi dari data
warehouse itu sendiri (struktur penyimpanan data, proses ETL, dan kualitas data) .
tujuh jenis metadata dalam data warehouse adalah sebagai berikut :
 Definisi data dan pemetaan metadata mengandung arti dari setiap fakta dan
dimensi kolom dan dari mana data tersebut berasal.
 Struktur data metadata menggambarkan struktur dari tabel di setiap

menyimpan data.
 Source system metadata menjelaskan struktur dari source system database.
 Metadata proses ETL menggambarkan setiap aliran data dalam proses
ETL.
 Kualitas data metadata menggambarkan aturan kualitas data, tingkat risiko
mereka, dan tindakan mereka.
 Audit metadata berisi catatan proses dan kegiatan dalam data warehouse.
 Penggunaan metadata berisi event log dari penggunaan aplikasi

Alasan utama adalah untuk menggambarkan dan menjelaskan data dan
gudang data (struktur dan proses) untuk para pengguna. Penjelasan ini
memungkinkan pengguna untuk menggunakan data warehouse yang lebih baik.
Penjelasan ini juga membuat lebih mudah untuk meningkatkan dan memelihara
data warehouse. Definisi data metadata membantu menghindari kesalahpahaman
diantara pengguna mengenai makna kolom tertentu. Pemetaan data metadata
membantu pengguna untuk memahami dampak dari kolom yang diperbaharui atau
menambahkan kolom baru di data warehouse. Alasan kedua adalah untuk tujuan
audit untuk memahami apa yang terjadi, di mana hal itu terjadi, dan ketika itu
terjadi.
Sedangkan penggunaan data mart adalah suatu bagian pada data

warehouse yang mendukung pembuatan laporan dan analisa data pada suatu unit,
bagian atau operasi pada suatu perusahaan. Dalam beberapa implementasi data
warehouse, data mart adalah miniature data warehouse. Data mart sering
digunakan untuk memberikan informasi kepada segmen fungsional organisasi.

Analisis :
Dari tampilan diatas yaitu pembuatan metadata yaitu berupa data step
name berupa kode buku dan nama buku beserta type data yang digunakannya,
untuk kode buku menggunakan type data string dan nama buku type data
string.

Analisis :
Kemudian sesudah membuat metada, data martnya diisikan sesuai
masukan dari metadata yaitu kode buku dan nama buku.

Analisis :
Dari tampilan diatas yaitu pembuatan metadata yaitu berupa data
step name berupa kode buku dan jenis buku beserta type data yang
digunakannya, untuk kode buku menggunakan type data string dan nama
buku type data string.


Analisis :
Kemudian sesudah membuat metada, data martnya diisikan sesuai
masukan dari metadata yaitu kode buku dan nama buku.

IV. Bagian ETL (Sumber, Transformasi, Apa yang digunakan)
Proses ETL (Extraction, Transformation, Loading) merupakan proses yang
harus dilalui dalam pembentukan data warehouse.
a. Ekstraksi Data (Extract)
Ekstraksi data adalah proses dimana data diambil atau diekstrak dari
berbagai sistem operasional, baik menggunakan query, atau aplikasi ETL.
Terdapat beberapa fungsi ekstraksi data, yaitu :
1. Ekstraksi data secara otomatis dari aplikasi sumber.
2. Penyaringan atau seleksi data hasil ekstraksi.
3. Pengiriman data dari berbagai platform aplikasi ke sumber data.
4. Perubahan format layout data dari format aslinya.
5. Penyimpanan dalam file sementara untuk penggabungan dengan hasil
ekstraksi dari sumber lain.
b. Transformasi Data (Transformation)
Transformasi adalah proses dimana data mentah (raw data) hasil
ekstraksi disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkahlangkah dalam transformasi data adalah sebagai berikut :
1.

Memetakan data input dari skema data aslinya ke skema data
warehouse.

2.

Melakukan konversi tipe data atau format data.

3.

Pembersihan serta pembuangan duplikasi dan kesalahan data.

4.

Penghitungan nilai-nilai derivat atau mula-mula.

5.

Penghitungan nilai-nilai agregat atau rangkuman.

6.

Pemerikasaan integritas referensi data.

7.

Pengisian nilai-nilai kosong dengan nilai default.

8.

Penggabungan data.

c. Pengisian Data (Loading)
Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang
didapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk memuat
data adalah dengan menjalankan SQL script secara periodik.
Berikut di bawah ini terdapat tahapan-tahapan untuk proses ETL, di
antaranya:
1) Langkah

pertama,

klik

menu

file

kemudian

file

dan

pilih

Transformation

2) Masuk ke menu design dan cari design yang akan digunakan berupa
data grid yang terdapat dari design - input lalu drag drop ke layout

3) Masuk ke menu design dan cari design yang akan digunakan berupa
sort row yang terdapat dari design - transform lalu drag drop ke layout

4) Masuk ke menu design dan cari design yang akan digunakan berupa
merge join yang terdapat dari design - joins lalu drag drop ke layout

5) Masuk ke menu design dan design yang akan digunakan berupa dummy
yang terdapat dari design - flow lalu drag drop ke layout

6.) Masukan metadata dalam data grid dan kemudian isi datanya dan
samakan satumeta data dari kedua data grid
Metadata (1)

Data 1

Meta 2

Data 2

7). Hubungkan data grid ke sort row, yang di sort merupakan primary
keynya (metadata yg sama di kedua data grid) saja

8). Kemudian kedua row di output ke merge join

9). Di merge join masukan first step dan second step (kedua sort row)
kemudian klik get key fields dan hapus meta data kecuali metadata
yang sama di kedua data grid dan juga d merge join kita dapat memilih
join type Full Outer = menimpilkan data secara menyeluruh meskipun
ada data null d tampilkan

10). Lalu data merge join di output ke dummy

11). Terakhir di preview dengan cara klik kanan dummy - preview - klik
dummy - quick launch

V. Output Akhir

Analisis :
Kesimpulan dari output akhir di atas, data-data yang ditampilkan yaitu dari
Kode Buku, Nama Buku dan Jenis Buku. Masing-masing data diisi berdasarkan
data yang dikumpulkan. Dan hasilnya pun seperti diatas.