LAPORAN ETL Extraction Transformation da
LAPORAN ETL (Extraction, Transformation, dan Loading)
DATA WAREHOUSE
Semester 5 Tahun Akademin 2016/2017
Disusun Oleh :
147006096
M Iqbal Nurpadilah
147006114
Muhsin
147006118
Moch Frendi Andhika
147006119
Rizky Rizaldy
147006125
Friska Maulida
JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS SILIWANGI
TASIKMALAYA
2016/2017
I.
Cara Instalisasi PDI (Pentaho Data Integration)
Langkah-langkah yang harus dilakukan :
1. Instalasi Java Software (jdk & jre).
2. Download Pentaho(Windows) atau copy file bundle pentaho
3. Konfigurasi environment variables untuk path java
Instalasi Java Software
Untuk mengecek apakah java software telah terinstall atau belum. Buka
CMD(Command Prompt) lalu ketikkan : Java –version
Jika tampilannya muncul seperti gambar diatas. Maka java software telah
terinstall.
Download Pentaho(Windows) atau copy file bundle pentaho
Disini saya menggunakan Pentaho Data Integration (PDI). Disini saya
menggunakan file bundle yang tinggal digunakan saja, saya akan lebih
menjelaskan cara untuk koneksi dari pentaho terhadap database MSSql
Server.
Apabila anda telah menginstal pentaho buka tools tersebut, spoon.bat.
maka akan tampil seperti gambar dibawah :
Saya akan menjelaskan cara untuk koneksi ke databasenya :
1.
Klik File – New Transformation
2.
Buka folder input lalu drag table input kesebelah atau ke page
desainnya
3.
Klik dua kali pada table input lalu pilih new maka akan muncul gambar
seperti dibawah
Gambar diatas adalah database connection dari pentaho ke MSSql.
Terdapat beberapa field yang harus disi seperti :
1.
Connection Name – adalah nama koneksi yang akan kita buat
2.
Hostname localhost
3.
Database Name – Sesuaikan dengan database yang ada di MSSql
4.
Instance Name – Sesuaikan dengan nama Instance name yang ada di
MSSql
5.
Port default 1443
6.
User Name dan Password MSSql anda
7.
Connection bertipe MS SQL Server dan Access (JDBC)
Apabila muncul gambar seperti diatas, berarti koneksi database
berhasil.
Konfigurasi environment variables untuk path java
1) Buka Environment Variables
2. PATH Configuration
Pilih new
Edit variable name = PATH
Variable
Value
=
C:\Program
Files\Java\jdk1.7.0_17\bin
(tergantung lokasi Jdk anda)
Klik Ok, Selesai.
3. JAVA PATH Configuration
Pilih new
Edit variable name = JAVA_HOME
Variable Value = C:\Program Files\Java\jdk1.7.0_17 (tergantung
lokasi Jdk anda)
Klik Ok, Selesai
II. Skenario dan Tahapan ETL
Tahapan-tahapan yang dilakukan untuk membuat ETL (Extraction,
Transformation, Loading) sebagai berikut:
Buat transformasi baru dengan cara file - new - new transformation
Masuk ke menu design dan cari design yang akan digunakan berupa
data grid yang terdapat dari design - input lalu drag drop ke layout
Masuk ke menu design dan cari design yang akan digunakan berupa
sort row yang terdapat dari design - transform lalu drag drop ke layout
Masuk ke menu design dan cari design yang akan digunakan berupa
merge join yang terdapat dari design - joins lalu drag drop ke layout
Masuk ke menu design dan design yang akan digunakan berupa dummy
yang terdapat dari design - flow lalu drag drop ke layout
Masukan metadata dalam data grid dan kemudian isi datanya kemudian
samakan satu metadata dari kedua data grid
Hubungkan data grid ke sort row, yang di sort merupakan primary
keynya (metadata yang sama d kedua data grid) saja
Setiap data grid mempunyai sort row tersendiri
Kemudian kedua row di output ke merge join
Di merge join masukan first step dan second step (kedua sort row)
kemudian klik get key fields dan hapus metadata kecuali meta data
yang sama di kedua data grid dan juga di merge join kita dapat memilih
join type :
- Inner = menampilkan data dimana setiap data yang ditampilkan
-
lengkap dan tidak ada yang kosong (null)
Right Outer = menampilkan data dimana data yang ditampilkan
lengkap (left) /tdk ada yang kosong dan menyeluruh (right)
-
meskipun ada data null
Left Outer= menampilkan data dimana data yang ditampilkan
lengkap (right) /tdk ada yg kosong dan menyeluruh (left)
-
meskipun ada data null
Full Outer = menimpilkan data secara menyeluruh meskipun
ada data null d tampilkan
Lalu data merge join d output ke dummy.
Terakhir d preview dgn cara klik kanan dummy - preview - klik dummy
- quick launch
III. Data yang di gunakan
Bagian data yang digunakan dalam pembuatan ETL ini di antaranya
berupa metadata dan data.
Metadata adalah data yang mendeskripsikan data, definisi dari data
warehouse itu sendiri (struktur penyimpanan data, proses ETL, dan kualitas data) .
tujuh jenis metadata dalam data warehouse adalah sebagai berikut :
Definisi data dan pemetaan metadata mengandung arti dari setiap fakta dan
dimensi kolom dan dari mana data tersebut berasal.
Struktur data metadata menggambarkan struktur dari tabel di setiap
menyimpan data.
Source system metadata menjelaskan struktur dari source system database.
Metadata proses ETL menggambarkan setiap aliran data dalam proses
ETL.
Kualitas data metadata menggambarkan aturan kualitas data, tingkat risiko
mereka, dan tindakan mereka.
Audit metadata berisi catatan proses dan kegiatan dalam data warehouse.
Penggunaan metadata berisi event log dari penggunaan aplikasi
Alasan utama adalah untuk menggambarkan dan menjelaskan data dan
gudang data (struktur dan proses) untuk para pengguna. Penjelasan ini
memungkinkan pengguna untuk menggunakan data warehouse yang lebih baik.
Penjelasan ini juga membuat lebih mudah untuk meningkatkan dan memelihara
data warehouse. Definisi data metadata membantu menghindari kesalahpahaman
diantara pengguna mengenai makna kolom tertentu. Pemetaan data metadata
membantu pengguna untuk memahami dampak dari kolom yang diperbaharui atau
menambahkan kolom baru di data warehouse. Alasan kedua adalah untuk tujuan
audit untuk memahami apa yang terjadi, di mana hal itu terjadi, dan ketika itu
terjadi.
Sedangkan penggunaan data mart adalah suatu bagian pada data
warehouse yang mendukung pembuatan laporan dan analisa data pada suatu unit,
bagian atau operasi pada suatu perusahaan. Dalam beberapa implementasi data
warehouse, data mart adalah miniature data warehouse. Data mart sering
digunakan untuk memberikan informasi kepada segmen fungsional organisasi.
Analisis :
Dari tampilan diatas yaitu pembuatan metadata yaitu berupa data step
name berupa kode buku dan nama buku beserta type data yang digunakannya,
untuk kode buku menggunakan type data string dan nama buku type data
string.
Analisis :
Kemudian sesudah membuat metada, data martnya diisikan sesuai
masukan dari metadata yaitu kode buku dan nama buku.
Analisis :
Dari tampilan diatas yaitu pembuatan metadata yaitu berupa data
step name berupa kode buku dan jenis buku beserta type data yang
digunakannya, untuk kode buku menggunakan type data string dan nama
buku type data string.
Analisis :
Kemudian sesudah membuat metada, data martnya diisikan sesuai
masukan dari metadata yaitu kode buku dan nama buku.
IV. Bagian ETL (Sumber, Transformasi, Apa yang digunakan)
Proses ETL (Extraction, Transformation, Loading) merupakan proses yang
harus dilalui dalam pembentukan data warehouse.
a. Ekstraksi Data (Extract)
Ekstraksi data adalah proses dimana data diambil atau diekstrak dari
berbagai sistem operasional, baik menggunakan query, atau aplikasi ETL.
Terdapat beberapa fungsi ekstraksi data, yaitu :
1. Ekstraksi data secara otomatis dari aplikasi sumber.
2. Penyaringan atau seleksi data hasil ekstraksi.
3. Pengiriman data dari berbagai platform aplikasi ke sumber data.
4. Perubahan format layout data dari format aslinya.
5. Penyimpanan dalam file sementara untuk penggabungan dengan hasil
ekstraksi dari sumber lain.
b. Transformasi Data (Transformation)
Transformasi adalah proses dimana data mentah (raw data) hasil
ekstraksi disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkahlangkah dalam transformasi data adalah sebagai berikut :
1.
Memetakan data input dari skema data aslinya ke skema data
warehouse.
2.
Melakukan konversi tipe data atau format data.
3.
Pembersihan serta pembuangan duplikasi dan kesalahan data.
4.
Penghitungan nilai-nilai derivat atau mula-mula.
5.
Penghitungan nilai-nilai agregat atau rangkuman.
6.
Pemerikasaan integritas referensi data.
7.
Pengisian nilai-nilai kosong dengan nilai default.
8.
Penggabungan data.
c. Pengisian Data (Loading)
Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang
didapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk memuat
data adalah dengan menjalankan SQL script secara periodik.
Berikut di bawah ini terdapat tahapan-tahapan untuk proses ETL, di
antaranya:
1) Langkah
pertama,
klik
menu
file
kemudian
file
dan
pilih
Transformation
2) Masuk ke menu design dan cari design yang akan digunakan berupa
data grid yang terdapat dari design - input lalu drag drop ke layout
3) Masuk ke menu design dan cari design yang akan digunakan berupa
sort row yang terdapat dari design - transform lalu drag drop ke layout
4) Masuk ke menu design dan cari design yang akan digunakan berupa
merge join yang terdapat dari design - joins lalu drag drop ke layout
5) Masuk ke menu design dan design yang akan digunakan berupa dummy
yang terdapat dari design - flow lalu drag drop ke layout
6.) Masukan metadata dalam data grid dan kemudian isi datanya dan
samakan satumeta data dari kedua data grid
Metadata (1)
Data 1
Meta 2
Data 2
7). Hubungkan data grid ke sort row, yang di sort merupakan primary
keynya (metadata yg sama di kedua data grid) saja
8). Kemudian kedua row di output ke merge join
9). Di merge join masukan first step dan second step (kedua sort row)
kemudian klik get key fields dan hapus meta data kecuali metadata
yang sama di kedua data grid dan juga d merge join kita dapat memilih
join type Full Outer = menimpilkan data secara menyeluruh meskipun
ada data null d tampilkan
10). Lalu data merge join di output ke dummy
11). Terakhir di preview dengan cara klik kanan dummy - preview - klik
dummy - quick launch
V. Output Akhir
Analisis :
Kesimpulan dari output akhir di atas, data-data yang ditampilkan yaitu dari
Kode Buku, Nama Buku dan Jenis Buku. Masing-masing data diisi berdasarkan
data yang dikumpulkan. Dan hasilnya pun seperti diatas.
DATA WAREHOUSE
Semester 5 Tahun Akademin 2016/2017
Disusun Oleh :
147006096
M Iqbal Nurpadilah
147006114
Muhsin
147006118
Moch Frendi Andhika
147006119
Rizky Rizaldy
147006125
Friska Maulida
JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS SILIWANGI
TASIKMALAYA
2016/2017
I.
Cara Instalisasi PDI (Pentaho Data Integration)
Langkah-langkah yang harus dilakukan :
1. Instalasi Java Software (jdk & jre).
2. Download Pentaho(Windows) atau copy file bundle pentaho
3. Konfigurasi environment variables untuk path java
Instalasi Java Software
Untuk mengecek apakah java software telah terinstall atau belum. Buka
CMD(Command Prompt) lalu ketikkan : Java –version
Jika tampilannya muncul seperti gambar diatas. Maka java software telah
terinstall.
Download Pentaho(Windows) atau copy file bundle pentaho
Disini saya menggunakan Pentaho Data Integration (PDI). Disini saya
menggunakan file bundle yang tinggal digunakan saja, saya akan lebih
menjelaskan cara untuk koneksi dari pentaho terhadap database MSSql
Server.
Apabila anda telah menginstal pentaho buka tools tersebut, spoon.bat.
maka akan tampil seperti gambar dibawah :
Saya akan menjelaskan cara untuk koneksi ke databasenya :
1.
Klik File – New Transformation
2.
Buka folder input lalu drag table input kesebelah atau ke page
desainnya
3.
Klik dua kali pada table input lalu pilih new maka akan muncul gambar
seperti dibawah
Gambar diatas adalah database connection dari pentaho ke MSSql.
Terdapat beberapa field yang harus disi seperti :
1.
Connection Name – adalah nama koneksi yang akan kita buat
2.
Hostname localhost
3.
Database Name – Sesuaikan dengan database yang ada di MSSql
4.
Instance Name – Sesuaikan dengan nama Instance name yang ada di
MSSql
5.
Port default 1443
6.
User Name dan Password MSSql anda
7.
Connection bertipe MS SQL Server dan Access (JDBC)
Apabila muncul gambar seperti diatas, berarti koneksi database
berhasil.
Konfigurasi environment variables untuk path java
1) Buka Environment Variables
2. PATH Configuration
Pilih new
Edit variable name = PATH
Variable
Value
=
C:\Program
Files\Java\jdk1.7.0_17\bin
(tergantung lokasi Jdk anda)
Klik Ok, Selesai.
3. JAVA PATH Configuration
Pilih new
Edit variable name = JAVA_HOME
Variable Value = C:\Program Files\Java\jdk1.7.0_17 (tergantung
lokasi Jdk anda)
Klik Ok, Selesai
II. Skenario dan Tahapan ETL
Tahapan-tahapan yang dilakukan untuk membuat ETL (Extraction,
Transformation, Loading) sebagai berikut:
Buat transformasi baru dengan cara file - new - new transformation
Masuk ke menu design dan cari design yang akan digunakan berupa
data grid yang terdapat dari design - input lalu drag drop ke layout
Masuk ke menu design dan cari design yang akan digunakan berupa
sort row yang terdapat dari design - transform lalu drag drop ke layout
Masuk ke menu design dan cari design yang akan digunakan berupa
merge join yang terdapat dari design - joins lalu drag drop ke layout
Masuk ke menu design dan design yang akan digunakan berupa dummy
yang terdapat dari design - flow lalu drag drop ke layout
Masukan metadata dalam data grid dan kemudian isi datanya kemudian
samakan satu metadata dari kedua data grid
Hubungkan data grid ke sort row, yang di sort merupakan primary
keynya (metadata yang sama d kedua data grid) saja
Setiap data grid mempunyai sort row tersendiri
Kemudian kedua row di output ke merge join
Di merge join masukan first step dan second step (kedua sort row)
kemudian klik get key fields dan hapus metadata kecuali meta data
yang sama di kedua data grid dan juga di merge join kita dapat memilih
join type :
- Inner = menampilkan data dimana setiap data yang ditampilkan
-
lengkap dan tidak ada yang kosong (null)
Right Outer = menampilkan data dimana data yang ditampilkan
lengkap (left) /tdk ada yang kosong dan menyeluruh (right)
-
meskipun ada data null
Left Outer= menampilkan data dimana data yang ditampilkan
lengkap (right) /tdk ada yg kosong dan menyeluruh (left)
-
meskipun ada data null
Full Outer = menimpilkan data secara menyeluruh meskipun
ada data null d tampilkan
Lalu data merge join d output ke dummy.
Terakhir d preview dgn cara klik kanan dummy - preview - klik dummy
- quick launch
III. Data yang di gunakan
Bagian data yang digunakan dalam pembuatan ETL ini di antaranya
berupa metadata dan data.
Metadata adalah data yang mendeskripsikan data, definisi dari data
warehouse itu sendiri (struktur penyimpanan data, proses ETL, dan kualitas data) .
tujuh jenis metadata dalam data warehouse adalah sebagai berikut :
Definisi data dan pemetaan metadata mengandung arti dari setiap fakta dan
dimensi kolom dan dari mana data tersebut berasal.
Struktur data metadata menggambarkan struktur dari tabel di setiap
menyimpan data.
Source system metadata menjelaskan struktur dari source system database.
Metadata proses ETL menggambarkan setiap aliran data dalam proses
ETL.
Kualitas data metadata menggambarkan aturan kualitas data, tingkat risiko
mereka, dan tindakan mereka.
Audit metadata berisi catatan proses dan kegiatan dalam data warehouse.
Penggunaan metadata berisi event log dari penggunaan aplikasi
Alasan utama adalah untuk menggambarkan dan menjelaskan data dan
gudang data (struktur dan proses) untuk para pengguna. Penjelasan ini
memungkinkan pengguna untuk menggunakan data warehouse yang lebih baik.
Penjelasan ini juga membuat lebih mudah untuk meningkatkan dan memelihara
data warehouse. Definisi data metadata membantu menghindari kesalahpahaman
diantara pengguna mengenai makna kolom tertentu. Pemetaan data metadata
membantu pengguna untuk memahami dampak dari kolom yang diperbaharui atau
menambahkan kolom baru di data warehouse. Alasan kedua adalah untuk tujuan
audit untuk memahami apa yang terjadi, di mana hal itu terjadi, dan ketika itu
terjadi.
Sedangkan penggunaan data mart adalah suatu bagian pada data
warehouse yang mendukung pembuatan laporan dan analisa data pada suatu unit,
bagian atau operasi pada suatu perusahaan. Dalam beberapa implementasi data
warehouse, data mart adalah miniature data warehouse. Data mart sering
digunakan untuk memberikan informasi kepada segmen fungsional organisasi.
Analisis :
Dari tampilan diatas yaitu pembuatan metadata yaitu berupa data step
name berupa kode buku dan nama buku beserta type data yang digunakannya,
untuk kode buku menggunakan type data string dan nama buku type data
string.
Analisis :
Kemudian sesudah membuat metada, data martnya diisikan sesuai
masukan dari metadata yaitu kode buku dan nama buku.
Analisis :
Dari tampilan diatas yaitu pembuatan metadata yaitu berupa data
step name berupa kode buku dan jenis buku beserta type data yang
digunakannya, untuk kode buku menggunakan type data string dan nama
buku type data string.
Analisis :
Kemudian sesudah membuat metada, data martnya diisikan sesuai
masukan dari metadata yaitu kode buku dan nama buku.
IV. Bagian ETL (Sumber, Transformasi, Apa yang digunakan)
Proses ETL (Extraction, Transformation, Loading) merupakan proses yang
harus dilalui dalam pembentukan data warehouse.
a. Ekstraksi Data (Extract)
Ekstraksi data adalah proses dimana data diambil atau diekstrak dari
berbagai sistem operasional, baik menggunakan query, atau aplikasi ETL.
Terdapat beberapa fungsi ekstraksi data, yaitu :
1. Ekstraksi data secara otomatis dari aplikasi sumber.
2. Penyaringan atau seleksi data hasil ekstraksi.
3. Pengiriman data dari berbagai platform aplikasi ke sumber data.
4. Perubahan format layout data dari format aslinya.
5. Penyimpanan dalam file sementara untuk penggabungan dengan hasil
ekstraksi dari sumber lain.
b. Transformasi Data (Transformation)
Transformasi adalah proses dimana data mentah (raw data) hasil
ekstraksi disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkahlangkah dalam transformasi data adalah sebagai berikut :
1.
Memetakan data input dari skema data aslinya ke skema data
warehouse.
2.
Melakukan konversi tipe data atau format data.
3.
Pembersihan serta pembuangan duplikasi dan kesalahan data.
4.
Penghitungan nilai-nilai derivat atau mula-mula.
5.
Penghitungan nilai-nilai agregat atau rangkuman.
6.
Pemerikasaan integritas referensi data.
7.
Pengisian nilai-nilai kosong dengan nilai default.
8.
Penggabungan data.
c. Pengisian Data (Loading)
Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang
didapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk memuat
data adalah dengan menjalankan SQL script secara periodik.
Berikut di bawah ini terdapat tahapan-tahapan untuk proses ETL, di
antaranya:
1) Langkah
pertama,
klik
menu
file
kemudian
file
dan
pilih
Transformation
2) Masuk ke menu design dan cari design yang akan digunakan berupa
data grid yang terdapat dari design - input lalu drag drop ke layout
3) Masuk ke menu design dan cari design yang akan digunakan berupa
sort row yang terdapat dari design - transform lalu drag drop ke layout
4) Masuk ke menu design dan cari design yang akan digunakan berupa
merge join yang terdapat dari design - joins lalu drag drop ke layout
5) Masuk ke menu design dan design yang akan digunakan berupa dummy
yang terdapat dari design - flow lalu drag drop ke layout
6.) Masukan metadata dalam data grid dan kemudian isi datanya dan
samakan satumeta data dari kedua data grid
Metadata (1)
Data 1
Meta 2
Data 2
7). Hubungkan data grid ke sort row, yang di sort merupakan primary
keynya (metadata yg sama di kedua data grid) saja
8). Kemudian kedua row di output ke merge join
9). Di merge join masukan first step dan second step (kedua sort row)
kemudian klik get key fields dan hapus meta data kecuali metadata
yang sama di kedua data grid dan juga d merge join kita dapat memilih
join type Full Outer = menimpilkan data secara menyeluruh meskipun
ada data null d tampilkan
10). Lalu data merge join di output ke dummy
11). Terakhir di preview dengan cara klik kanan dummy - preview - klik
dummy - quick launch
V. Output Akhir
Analisis :
Kesimpulan dari output akhir di atas, data-data yang ditampilkan yaitu dari
Kode Buku, Nama Buku dan Jenis Buku. Masing-masing data diisi berdasarkan
data yang dikumpulkan. Dan hasilnya pun seperti diatas.