Pembangunan Data Warehouse dan Aplikasi Olap Berbasis Web Menggunakan Palo (Studi Kasus: Data PPMB IPB)

ABSTRAK
ABI HERLAMBANG. Pembangunan Data Warehouse dan Aplikasi OLAP Berbasis Web
Menggunakan Palo (Studi Kasus: Data PPMB IPB). Dibimbing oleh IMAS SUKAESIH
SITANGGANG dan HARI AGUNG ADRIANTO.
Panitia Penerimaan Mahasiswa Baru (PPMB) IPB menerima mahasiswa baru. Data
penerimaan tersebut menumpuk setiap tahunnya, dan menjadi masalah dalam menyajikan informasi
yang konklusif, cepat, dan menarik. Teknologi data warehouse dan On-Line Analytical Processing
(OLAP) dapat mengelola tumpukan data tersebut dan mempresentasikannya untuk membantu proses
pengambilan keputusan. Tujuan penelitian ini adalah membangun data warehouse dan operasi-operasi
OLAP, serta membangun aplikasi untuk memvisualisasikan hasil operasi-operasi OLAP. Data yang
digunakan adalah data PPMB IPB dan IPK TPB IPB tahun masuk 2000 sampai 2004.
Data warehouse membentuk skema galaksi dengan dua kubus data, yaitu kubus data Pelamar
dengan tujuh dimensi dan Mahasiswa dengan enam dimensi. Data dari data warehouse dianalisis
dengan operasi-operasi OLAP. Aplikasi OLAP dibangun dengan bahasa pemrograman PHP, OLAP
server Palo, dan pembangkit grafik JpGraph. Fasilitas yang dimiliki aplikasi adalah menu OLAP,
penyaringan dimensi, visualisasi crosstab dan grafik, dan disain cetakan. Aplikasi ini berbasis web
dan dilengkapi dengan versi portable.
Aplikasi OLAP menggunakan kubus data Palo sehingga akses data menjadi lebih cepat. Hasil
ekplorasi data PPMB IPB melalui aplikasi disajikan dalam bentuk informasi yang konklusif, cepat,
dan menarik dengan crosstab dan grafik dinamis. Analisis data PPMB menghasilkan beberapa
informasi konklusif, misal: bahwa pelamar USMI paling banyak berasal dari Jawa dan Sumatera; dan

mayoritas pelamar USMI memilih fakultas FAPERTA, FMIPA, dan FATETA.
Kata kunci: data warehouse, OLAP, data multidimensi, kubus data.

PEMBANGUNAN DATA WAREHOUSE DAN
APLIKASI OLAP BERBASIS WEB MENGGUNAKAN PALO
(STUDI KASUS: DATA PPMB IPB)

ABI HERLAMBANG
G64101047

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2007

17

DAFTAR PUSTAKA
Bouzeghoub M & Kedad Z. 2000. A QualityBased Framework for Physical Data
Warehouse Design. Laboratoire PRiSM,

Université de Versailles. Versailles Cedex,
France.
Connolly T & Begg C. 2002. Database
Systems: A Practical Approach to Design,
Implementation, and Management. USA:
Addison Wesley.
Han J & Kamber M. 2001. Data Mining
Concepts & Techniques. Simon Fraser
University. USA: Morgan Kaufman.
Inmon WH. 1996. Building the Data
warehouse. New York, USA: John Wiley
& Sons.
Kantardzic M. 2003. Data Mining Concept,
Models, Methods, dan Algorithms. New
Jersey, USA: A John Wiley & Sons.
Mallach EG. 2000. Decision Support and
Data Warehouse Systems, International
Edition. Singapore: McGraw-Hill.
Post GV. 2005. Database Management
Systems: Designing and Building Business

Applications. Ed ke-3. New York, USA:
McGraw Hill.
Silberschatz A, Korth HF, & Sudarshan S.
2006. Database System Concepts. Ed ke-5.
Singapore: McGraw-Hill.

PEMBANGUNAN DATA WAREHOUSE DAN
APLIKASI OLAP BERBASIS WEB MENGGUNAKAN PALO
(STUDI KASUS: DATA PPMB IPB)

ABI HERLAMBANG
G64101047

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2007

ABSTRAK
ABI HERLAMBANG. Pembangunan Data Warehouse dan Aplikasi OLAP Berbasis Web

Menggunakan Palo (Studi Kasus: Data PPMB IPB). Dibimbing oleh IMAS SUKAESIH
SITANGGANG dan HARI AGUNG ADRIANTO.
Panitia Penerimaan Mahasiswa Baru (PPMB) IPB menerima mahasiswa baru. Data
penerimaan tersebut menumpuk setiap tahunnya, dan menjadi masalah dalam menyajikan informasi
yang konklusif, cepat, dan menarik. Teknologi data warehouse dan On-Line Analytical Processing
(OLAP) dapat mengelola tumpukan data tersebut dan mempresentasikannya untuk membantu proses
pengambilan keputusan. Tujuan penelitian ini adalah membangun data warehouse dan operasi-operasi
OLAP, serta membangun aplikasi untuk memvisualisasikan hasil operasi-operasi OLAP. Data yang
digunakan adalah data PPMB IPB dan IPK TPB IPB tahun masuk 2000 sampai 2004.
Data warehouse membentuk skema galaksi dengan dua kubus data, yaitu kubus data Pelamar
dengan tujuh dimensi dan Mahasiswa dengan enam dimensi. Data dari data warehouse dianalisis
dengan operasi-operasi OLAP. Aplikasi OLAP dibangun dengan bahasa pemrograman PHP, OLAP
server Palo, dan pembangkit grafik JpGraph. Fasilitas yang dimiliki aplikasi adalah menu OLAP,
penyaringan dimensi, visualisasi crosstab dan grafik, dan disain cetakan. Aplikasi ini berbasis web
dan dilengkapi dengan versi portable.
Aplikasi OLAP menggunakan kubus data Palo sehingga akses data menjadi lebih cepat. Hasil
ekplorasi data PPMB IPB melalui aplikasi disajikan dalam bentuk informasi yang konklusif, cepat,
dan menarik dengan crosstab dan grafik dinamis. Analisis data PPMB menghasilkan beberapa
informasi konklusif, misal: bahwa pelamar USMI paling banyak berasal dari Jawa dan Sumatera; dan
mayoritas pelamar USMI memilih fakultas FAPERTA, FMIPA, dan FATETA.

Kata kunci: data warehouse, OLAP, data multidimensi, kubus data.

PEMBANGUNAN DATA WAREHOUSE DAN
APLIKASI OLAP BERBASIS WEB MENGGUNAKAN PALO
(STUDI KASUS: DATA PPMB IPB)

ABI HERLAMBANG
G64101047

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2007

Judul


: Pembangunan Data Warehouse dan
Aplikasi OLAP Berbasis Web Menggunakan Palo
(Studi Kasus: Data PPMB IPB)
Nama : Abi Herlambang
NRP : G64101047

Menyetujui:
Pembimbing I,

Pembimbing II,

Imas S. Sitanggang, S.Si, M.Kom.
NIP 132206235

Hari Agung Adrianto, S.Kom, M.Si.
NIP 132311918

Mengetahui:
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Prof. Dr. Ir. Yonny Koesmaryono, M.S.
NIP 131473999

Tanggal Lulus:

PRAKATA

Puji syukur Penulis panjatkan ke hadirat Allah SWT atas segala curahan rahmat dan karuniaNya sehingga skripsi ini dapat diselesaikan. Skripsi ini merupakan hasil penelitian yang dilakukan dari
Desember 2006 sampai Mei 2007 dengan bidang kajian Pembangunan Data Warehouse dan Aplikasi
OLAP Berbasis Web Menggunakan Palo (Studi Kasus: Data PPMB IPB).
Penulis mengucapkan terima kasih kepada Ibu Imas S. Sitanggang, S.Si, M.Kom selaku
pembimbing I yang telah memberi saran, masukan, dan ide-ide kepada Penulis dalam menyusun
skripsi ini. Terima kasih juga Penulis ucapkan kepada Bapak Hari Agung Adrianto, S.Kom, M.Si
selaku pembimbing II yang telah memberi saran dan masukan kepada Penulis. Ucapan terima kasih
juga kepada Ibu Shelvie Nidya Neyman, S.Kom, M.Si selaku penguji yang telah membantu Penulis.
Penulis juga mengucapkan terima kasih kepada:
1 Ibu dan Bapak yang selalu memberikan doa, nasihat, dukungan, semangat, dan kasih sayang yang
luar biasa kepada Penulis sehingga Penulis dapat menyelesaikan tugas akhir ini. Kak Yuyun, Kak

Yuli, Kak Indah, Kak Rani, Kak Putri, Sunan, Pramu, dan Sisi yang tidak pernah bosan
memberikan perhatian dan dukungan setiap saat dibutuhkan.
2 Kang Asep dan Bang Tomo yang menjadi tempat bertukar pikiran di tengah-tengah kesibukan
Penulis mengerjakan tugas dan pekerjaan.
3 Erwin yang memberikan motivasi kepada Penulis untuk memulai mengerjakan tugas akhir.
4 Liesca, Rosy, Robi, Khamam, Didik, Nawi, dan Ifnu, teman-teman mahasiswa kadaluarsa di
Lab.02 yang menemani Penulis selama mengerjakan tugas akhir.
5 Nando dan Ucup yang membantu Penulis menghilangkan rasa suntuk selama di IPB.
6 Aditama, Wulan, Bejo, May, Sue, dan Meilani, teman milis sekoetoe_98 yang memberikan
semangat kepada Penulis untuk menyelesaikan tugas akhir.
7 Kawan-kawan Ilkom angkatan 38 yang telah banyak membantu Penulis selama menjalani waktu di
IPB.
8 Departemen Ilmu Komputer, staf, dan dosen yang telah banyak membantu baik selama penelitian
maupun pada masa perkuliahan.
Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan
penelitian ini yang tidak dapat disebutkan satu-persatu, Penulis ucapkan terima kasih banyak.
Semoga penelitian ini dapat memberikan manfaat.

Bogor, Mei 2007


Abi Herlambang

RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 28 Desember 1982 dari ayah Edi Sunaryo Yatim dan
ibu Rojenah. Penulis merupakan anak keenam dari sembilan bersaudara.
Tahun 2001 Penulis lulus dari SMU Negeri 99 Jakarta dan pada tahun yang sama lulus seleksi
masuk IPB melalui jalur Ujian Masuk Perguruan Tinggi Negeri. Penulis memilih Program Studi Ilmu
Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam IPB.
Tahun 2005 bulan Januari sampai Maret, Penulis melakukan kegiatan praktik lapang di PT
Bank Bukopin Kantor Pusat, terlibat dalam tim pembangunan sistem inventaris untuk kantor cabang
syariah. Pada Maret 2005 sampai Mei 2005, Penulis membangun aplikasi pencatatan dan validasi
transaksi keuangan untuk back office Departemen Telex Bank Bukopin Cabang Melawai Syariah. Di
akhir tahun 2005 selama satu bulan, Penulis mengembangkan disain laporan aplikasi Courier
Information System untuk Hansha Logistic. Tahun 2006 dari April sampai September, Penulis
bersama tim dari PT Fajar Buana Pratama membangun Sistem Informasi Diklat Pusbang Aparatur KP
untuk Pusat Pelatihan Badan Pengembangan SDM Departemen Kelautan dan Perikanan RI.

DAFTAR ISI
Halaman
DAFTAR TABEL .......................................................................................................................... vii

DAFTAR GAMBAR...................................................................................................................... vii
DAFTAR LAMPIRAN.................................................................................................................. viii
PENDAHULUAN
Latar Belakang ............................................................................................................................. 1
Tujuan .......................................................................................................................................... 1
Ruang Lingkup............................................................................................................................. 1
Manfaat ........................................................................................................................................ 1
TINJAUAN PUSTAKA
Data Preprocessing...................................................................................................................... 1
Data Warehouse........................................................................................................................... 3
Model Data Multidimensi ............................................................................................................ 4
On-Line Analytical Processing (OLAP) ...................................................................................... 5
Arsitektur Three-Tier Data Warehouse ....................................................................................... 6
METODE PENELITIAN
Analisis ........................................................................................................................................ 6
Data Preprocessing...................................................................................................................... 6
Aplikasi OLAP............................................................................................................................. 7
Lingkungan Pengembangan ......................................................................................................... 7
HASIL DAN PEMBAHASAN
Analisis Data................................................................................................................................ 8

Integrasi dan Reduksi Data .......................................................................................................... 9
Pembersihan Data ........................................................................................................................ 9
Transformasi Data...................................................................................................................... 10
Pemuatan Data ........................................................................................................................... 10
Gambaran Umum Aplikasi ........................................................................................................ 11
Kelebihan dan Kekurangan Sistem ............................................................................................ 12
Presentasi Hasil.......................................................................................................................... 13
KESIMPULAN DAN SARAN
Kesimpulan ................................................................................................................................ 15
Saran .......................................................................................................................................... 16
DAFTAR PUSTAKA ..................................................................................................................... 17
LAMPIRAN ................................................................................................................................... 18

vi

DAFTAR TABEL
Halaman
1 Nama dan deskripsi atribut tabel pre_pelamar hasil integrasi dan reduksi.................................. 9
2 Nama dan deskripsi atribut tabel pre_mahasiswa hasil integrasi dan reduksi............................. 9
3 Nama dan deskripsi dimensi dari kubus data Pelamar .............................................................. 10
4 Nama dan deskripsi dimensi dari kubus data Mahasiswa ......................................................... 11

DAFTAR GAMBAR
Halaman
1 Representasi kubus data dengan 3 dimensi (Han & Kamber 2001) ............................................ 4
2 Skema bintang (Han & Kamber 2001)........................................................................................ 4
3 Skema snowflake (Han & Kamber 2001).................................................................................... 5
4 Skema galaksi (Han & Kamber 2001) ........................................................................................ 5
5 Arsitektur three-tier data warehousing (Han & Kamber 2001).................................................. 6
6 Skema galaksi data warehouse pelamar dan mahasiswa ............................................................ 8
7 Arsitektur data warehousing dan aplikasi OLAP ..................................................................... 11
8 Contoh tampilan aplikasi OLAP ............................................................................................... 12
9 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 untuk fakultas
FAPERTA, FATETA, dan FMIPA, dan dimensi Waktu tingkat Tahun Masuk ....................... 13
10 Crosstab ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 untuk Fakultas
FAPERTA, FATETA, dan FMIPA, dan dimensi Waktu tingkat Tahun Masuk ....................... 13
11 Crosstab sepuluh program studi dengan rataan IPK TPB terbesar ........................................... 14
12 Grafik ukuran Rataan IPK TPB, dimensi Program Studi untuk Ilmu Komputer, dan
dimensi Waktu tingkat Tahun Masuk ....................................................................................... 15
13 Crosstab ukuran Rataan IPK TPB, dimensi Jalur untuk USMI dan UMPTN/SPMB,
dimensi Waktu tingkat Tahun Masuk, dan dimensi Program Studi untuk Ilmu Komputer....... 15
14 Crosstab ukuran Rataan IPK TPB, dimensi Jenis Kelamin untuk Perempuan dan Lelaki,
dimensi Waktu tingkat Tahun Masuk, dimensi Program Studi untuk Ilmu Komputer,
dan dimensi Jalur untuk UMPTN/SPMB.................................................................................. 15

vii

DAFTAR LAMPIRAN
Halaman
1 Daftar file data sumber .............................................................................................................. 19
2 Rincian proses pembersihan data .............................................................................................. 19
3 Data tabel dimensi data warehouse........................................................................................... 21
4 Grafik ukuran Jumlah Pelamar USMI dan dimensi Studi Pilihan1 tingkat Fakultas ................ 23
5 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 tingkat Fakultas, dan
dimensi Asal untuk Sumatera dan Jawa .................................................................................... 24
6 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 tingkat Fakultas, dan
dimensi Asal untuk Nusa Tenggara, Kalimantan, Sulawesi, Irian, dan Luar Negeri ................ 24
7 Crosstab dengan operasi OLAP drill-down sampai tingkat dua, ukuran Jumlah Pelamar
USMI, dimensi Studi Putusan1, dan dimensi Asal.................................................................... 25
8 Grafik ukuran Rataan IPK TPB, dimensi Program Studi untuk 10 program studi dengan
rataan IPK TPB terbesar, dan dimensi Waktu tingkat Tahun Masuk........................................ 25
9 Grafik ukuran Rataan IPK TPB, dimensi Jalur untuk USMI dan UMPTN/SPMB,
dimensi Waktu tingkat Tahun Masuk, dan dimensi Program Studi untuk Ilmu Komputer....... 26
10 Grafik ukuran Rataan IPK TPB, dimensi Jenis Kelamin untuk Perempuan dan Lelaki,
dimensi Waktu tingkat Tahun Masuk, dimensi Program Studi untuk Ilmu Komputer,
dan dimensi Jalur untuk UMPTN/SPMB.................................................................................. 26

viii

1

PENDAHULUAN
Latar Belakang
Teknologi basis data saat ini berkembang
sangat pesat. Data disimpan dalam basis data,
diolah kemudian disajikan sebagai informasi
yang bernilai bagi pengguna. Penyimpanan
data secara rutin dan terakumulasi dari waktu
ke waktu akan menyebabkan terjadinya
penumpukan data. Saat ini dari sisi perangkat
keras media penyimpanan tidak menjadi
masalah karena telah tersedia media yang
mempunyai kapasitas hingga ukuran Terabyte.
Namun penumpukan data tersebut menjadi
masalah dalam menyajikan informasi yang
konklusif, cepat, dan menarik. Kondisi ini
dikenal dengan istilah “rich of data but poor
of information”.
Teknologi data warehouse dan On-Line
Analytical Processing (OLAP) adalah satu
solusi dari masalah penumpukan data yang
kurang dimanfaatkan dengan baik. Teknologi
tersebut dapat mengelola tumpukan data, dan
mempresentasikannya untuk membantu proses
pengambilan keputusan. Dengan bantuan
aplikasi OLAP, pimpinan dari suatu
organisasi dapat menganalisis sejumlah besar
data yang dimiliki oleh organisasi tersebut.
Hasil analisis dapat berupa pola, tren, dan
kondisi tertentu yang dilakukan pada waktu
nyata dengan tanggapan yang cepat terhadap
pertanyaan yang diajukan hingga membantu
dalam proses pengambilan keputusan.
Setiap tahun Institut Pertanian Bogor
(IPB) menerima mahasiswa baru melalui satu
proses seleksi. Data dari proses seleksi itu
disimpan dalam basis data dan menumpuk
tiap tahunnya. Informasi tersembunyi yang
terkandung dalam basis data tersebut perlu
dieksplorasi dan divisualisasikan ke dalam
bentuk yang menarik.
Dalam penelitian ini dibangun sebuah data
warehouse dan sebuah aplikasi OLAP untuk
data Panitia Penerimaan Mahasiswa Baru
(PPMB) IPB dengan menggunakan Palo
sebagai OLAP server. Data tersebut meliputi
data pelamar melalui jalur USMI dan data
mahasiswa dari PPMB serta data IPK
mahasiswa Tingkat Persiapan Bersama (TPB)
IPB tahun masuk 2000 sampai 2004.
Beberapa informasi yang dapat diperoleh dari
aplikasi ini antara lain:
ƒ Pola sebaran pilihan pelamar (calon
mahasiswa) jalur USMI terhadap fakultas
dilihat dari asal pulau pelamar.

ƒ Jumlah pelamar yang program studi
pilihan pertamanya ada di fakultas FMIPA
tapi diterima di program studi selain
fakultas FMIPA.
ƒ Tren perkembangan indeks prestasi
mahasiswa di TPB dari program studiprogram studi yang bersaing dengan
program studi ilmu komputer.
ƒ Tren perkembangan indeks prestasi TPB
program studi ilmu komputer yang
menurun pada mahasiswa tahun masuk
2003.
Informasi lainnya dapat diperoleh dengan
memilih ukuran dan dimensi tertentu yang
tersedia dalam aplikasi.
Tujuan
Tujuan dari penelitian ini adalah:
1. Membangun data warehouse dan operasioperasi OLAP untuk data PPMB IPB dan
data IPK TPB IPB.
2. Membangun
aplikasi untuk
memvisualisasikan hasil operasi-operasi OLAP.
Ruang Lingkup
Ruang lingkup penelitian dibatasi pada
pembuatan data warehouse, implementasi
operasi OLAP, dan presentasi informasi yang
dapat diungkap dengan membangun aplikasi
pendukung. Data yang digunakan adalah data
pelamar jalur USMI dan data mahasiswa dari
PPMB IPB serta data IPK mahasiswa TPB
IPB tahun masuk 2000 sampai 2004.
Manfaat
Penelitian ini diharapkan bermanfaat bagi
pihak-pihak yang memerlukan informasi
konklusif, cepat, dan menarik dari agregat
pelamar yang ikut seleksi penerimaan masuk
jalur USMI dan informasi seputar agregat
mahasiswa IPB sehingga dapat membantu
dalam proses pengambilan keputusan.

TINJAUAN PUSTAKA
Data Preprocessing
Hal yang lumrah terjadi pada basis data
adalah data tidak lengkap (tidak ada atau
kurang isi pada atributnya, atau hanya berisi
data agregat), mengandung noise (terdapat
error, atau berisi nilai yang tidak semestinya),
dan tidak konsisten. Pemrosesan data dengan
teknik data preprocessing dapat memperbaiki
kualitas data, dengan demikian membantu
memperbaiki akurasi dan efisiensi proses

2

pengolahan data selanjutnya (Han & Kamber
2001).
Tahapan data preprocessing adalah (Han
& Kamber 2001):
1. Pembersihan data (cleaning)
Pada proses pembersihan data kotor
dihilangkan dan diperbaiki. Pembersihan
dilakukan dengan mengisi nilai yang
kosong,
mengurangi
noise
dan
memperbaiki ketidakkonsistenan dalam
data. Permasalahan data kotor dan cara
membersihkannya yaitu:
ƒ Nilai yang kosong (hilang)
Untuk mengatasi nilai yang kosong
dalam
data
dapat
dilakukan
penghapusan tuple, mengganti nilainya
secara manual, isi dengan konstanta
global seperti ’tidak tahu’ atau ’∞’,
menggunakan nilai rata-rata dari
atribut yang kosong, isi dengan nilai
rata-rata dari kelas yang sama, dan isi
nilai yang mungkin melalui metode
regresi, induksi pohon keputusan dan
lain sebagainya.
ƒ Nilai mengandung noise
Data
dengan
nilai
yang
mengandung noise dapat diganti
dengan nilai hasil perhitungan dengan
metode binning (mengelompokkan
nilai), metode regresi, atau dengan cara
pengklusteran.
ƒ Data tidak konsisten
Data tidak konsisten diperbaiki
dengan menyeragamkan data dengan
menggunakan referensi eksternal.
2. Integrasi data
Integrasi data adalah penggabungan
data dari berbagai sumber penyimpanan
data. Proses integrasi mungkin akan
menimbulkan beberapa masalah seperti
masalah identifikasi entitas misalnya pada
entitas yang sama terdapat nama yang
berbeda. Redundancy juga menjadi salah
satu masalah, terdapat lebih dari satu tuple
untuk satu data unik. Masalah lainnya
yang timbul adalah konflik nilai data,
disebabkan oleh perbedaan representasi
nilai, misal pada satu data menggunakan
satuan kilogram sedang pada data lain
menggunakan satuan ton.

3. Transformasi data (transformation)
Tahap transformasi data dilakukan agar
data tetap konsisten dan dapat digunakan
untuk
proses
selanjutnya
dengan
mengubah ke dalam bentuk yang tepat.
Data dari bermacam sumber diberi format
dan nama yang umum. Transformasi yang
paling penting adalah transformasi nama
agar tidak ada nama atribut yang sama
atau atribut yang sama memiliki nama
yang berbeda pada basis data yang
berbeda.
Transformasi
berikut:

data

mencakup

hal

ƒ Smoothing
Dilakukan untuk menghilangkan
noise dari data. Tekniknya meliputi
binning, regresi, dan pengklusteran.
ƒ Agregasi
Peringkasan
dan
agregasi
diterapkan pada data. Misalnya data
penjualan harian bisa diagregasi
menjadi data penjualan bulanan.
ƒ Generalisasi
Data tingkat rendah digantikan
dengan tingkat yang lebih tinggi
menggunakan konsep hirarki. Misal
kategori jalan bisa digeneralisasikan
menjadi kategori tingkat lebih tinggi
yaitu kota atau negara.
ƒ Normalisasi
Atribut data dibuat skala dengan
range yang lebih kecil.
ƒ Konstruksi atribut
Atribut baru dibuat dan ditambah
dari atribut-atribut yang ada untuk
membantu proses pengolahan data
selanjutnya.
4. Reduksi data
Teknik reduksi data diterapkan untuk
memperoleh representasi tereduksi dari
sejumlah data yang berimplikasi pada
volume yang jauh lebih kecil.
Strategi mereduksi data meliputi:
ƒ Agregasi kubus data
Operasi agregasi diterapkan pada
data dalam konstruksi kubus data.

3

ƒ Reduksi dimensi
Penghilangan atribut atau dimensi
yang tidak relevan, relevansinya tidak
kuat, atau redundan.
ƒ Kompresi data
Mereduksi ukuran data dengan
mekanisme encoding.
ƒ Numerosity reduction
Data diganti atau diestimasikan
dengan alternatifnya.
ƒ Diskretisasi
hirarki

dan

generasi

konsep

Nilai-nilai data tingkat rendah
diganti dengan tingkat konseptual yang
lebih tinggi. Diskretisasi merupakan
bentuk dari numerosity reduction yang
berguna untuk generasi otomatis dari
konsep hirarki.
Dijelaskan oleh Han & Kamber (2001)
bahwa tahapan data preprocessing tidak
terpisah
sendiri-sendiri
(not
mutually
exclusive). Mungkin saja saat proses
pembersihan dilakukan, proses transformasi
juga dilakukan di dalamnya.
Data Warehouse
Data warehouse menyediakan arsitektur
dan alat bantu bagi pimpinan organisasi untuk
mengorganisasikan
secara
sistematis,
dipahami, dan digunakan data tersebut untuk
membuat keputusan (Han & Kamber 2001).
Data warehouse adalah sekumpulan data
berorientasi subjek, terintegrasi, time-variant,
dan non-volatile yang mendukung manajemen
dalam proses pembuatan keputusan (Inmon
1996). Penjelasan rinci dari pengertian data
warehouse adalah (Han & Kamber 2001):
ƒ Berorientasi subjek
Data warehouse disusun berdasarkan
subjek yang utama, seperti pelanggan,
produk atau penjualan. Data warehouse
menyediakan tampilan yang sederhana dan
ringkas dengan menghilangkan data yang
tidak berguna dalam proses membuat
keputusan.
ƒ Terintegrasi
Data warehouse biasanya dibangun
dengan mengintegrasikan berbagai sumber
data, seperti basis data relasional, flat file,
dan data transaksi on-line. Teknik

pembersihan dan integrasi data diterapkan
untuk memastikan data tetap konsisten.
ƒ Time-variant
Data disimpan untuk menyediakan
informasi berdasarkan perspektif waktu.
ƒ Non-volatile
Data warehouse adalah tempat
penyimpanan data yang terpisah dari basis
data
operasional
sehingga
hanya
memerlukan pemuatan dan akses data.
Data warehouse merupakan ruang
penyimpanan (atau arsip) informasi yang
dikumpulkan dari berbagai sumber, disimpan
dengan sebuah skema terintegrasi pada satu
tempat. Data/infomasi tersebut tersimpan
dalam jangka waktu yang lama, sehingga
memungkinkan pengguna mengakses data
historis. Data warehouse menyediakan satu
tampilan data terkonsolidasi, sehingga
menciptakan query untuk proses pengambilan
keputusan menjadi lebih mudah. Dengan
mengakses informasi dari data warehouse,
proses traksaksi online tidak terganggu oleh
beban kerja proses pengambilan keputusan
(Silberschatz et al 2006).
Keuntungan
yang
didapat
jika
menggunakan data warehouse antara lain
(Connolly & Begg 2002):
ƒ Menghasilkan keuntungan yang kompetitif
dengan cara memperbolehkan pembuat
keputusan mengakses data yang dapat
memunculkan informasi yang sebelumnya
tidak ada, tidak diketahui, dan tidak
digunakan.
ƒ Meningkatkan produktivitas para pembuat
keputusan dengan cara menciptakan basis
data terintegrasi yang terdiri dari data
historis yang konsisten dan berorientasi
subjek.
Data
warehousing
adalah
suatu
infrastruktur
perangkat
lunak
yang
mendukung
aplikasi
OLAP
dengan
menyediakan sebuah koleksi alat bantu yang
(i) mengumpulkan data dari sekumpulan
sumber-sumber heterogen terdistribusi, (ii)
membersihkan dan mengintegrasikan data
tersebut ke dalam representasi yang seragam
(iii) mengagregasi dan mengorganisasi data
tersebut ke dalam struktur multidimensional
yang tepat untuk pengambilan keputusan, dan
(iv) memperbaharuinya secara periodik untuk
menjaga agar data mutakhir dan akurat
(Bouzeghoub & Kedad 2000).

4

Model Data Multidimensi
Pembuatan data warehouse didasarkan
pada model data multidimensi. Model ini
menampilkan data dalam bentuk kubus.
Model data multidimensi terdiri dari dimensi
(dimensions) dan fakta (facts) (Han & Kamber
2001).
Dimensi adalah perspektif atau entitas
penting yang dimiliki oleh organisasi. Setiap
dimensi mungkin memiliki satu tabel yang
berasosiasi dengannya yang disebut dengan
tabel dimensi yang mendeskripsikan dimensi
itu sendiri. Dimensi akan berubah jika analisis
kebutuhan pengguna berubah. Dimensi
mendefinisikan label yang membentuk isi
laporan. Tabel dimensi berukuran lebih kecil
daripada tabel fakta dan berisi data tidak
numerik. Pada data warehouse, kubus data
merupakan kubus dengan n-dimensi (Han &
Kamber 2001).
Fakta adalah ukuran-ukuran numerik,
merupakan kuantitas yang akan dianalisis
hubungan antar dimensinya. Tabel fakta berisi
nama-nama fakta (ukuran) dan key dari tabeltabel dimensi yang berelasi dengan tabel fakta
itu. Data fakta diekstrak dari berbagai sumber.
Data fakta cenderung stabil dan tidak berubah
seiring waktu. Tabel fakta berukuran besar,
memiliki jumlah baris sesuai dengan jumlah
kombinasi nilai dimensi yang mungkin dan
jumlah kolom sesuai dengan jumlah dimensi
yang direpresentasikan (Han & Kamber
2001).

cuboid (Han & Kamber 2001). Contoh kubus
data dengan tiga dimensi ada pada Gambar 1.
Kubus data tersebut memiliki dimensi time,
item, dan location, ukuran yang ditampilkan
adalah dollar_sold (dalam ribuan).
Skema basis data berisi kumpulan entitas
dan hubungan antarentitas. Sebuah data
warehouse memerlukan skema yang ringkas
dan berorientasi subjek yang dapat digunakan
dalam analisis data on-line. Tipe-tipe skema
model data multidimensi adalah (Han &
Kamber 2001):
ƒ Skema bintang (star schema)
Skema bintang adalah skema data
warehouse yang paling sederhana. Skema
ini disebut skema bintang karena
hubungan antara tabel dimensi dan tabel
fakta menyerupai bintang, dimana satu
tabel fakta dihubungkan dengan beberapa
tabel dimensi. Titik tengah skema bintang
adalah satu tabel fakta besar dan sudutsudutnya adalah tabel-tabel dimensi.
Bentuk skema bintang dapat dilihat pada
Gambar 2. Keuntungan yang didapat jika
menggunakan
skema
ini
adalah
peningkatan kinerja data warehouse,
pemrosesan query yang lebih efisien, dan
waktu respon yang cepat.

Gambar 2 Skema bintang
Kamber 2001)

(Han

&

ƒ Skema snowflake (snowflake schema)

Gambar 1 Representasi kubus data dengan 3
dimensi (Han & Kamber 2001)
Kubus data disebut juga cuboid, berasal
dari banyak dimensi. Potongan cuboid yang
lebih kecil dapat dibuat dengan mengambil
sebagian dimensi dari sebuah cuboid besar.
Potongan cuboid memiliki tingkat yang lebih
tinggi (besar nilainya) dari cuboid asalnya,
cuboid dengan tingkat terendah disebut base

Skema snowflake adalah variasi dari
skema bintang dimana beberapa tabel
dimensi dinormalisasi, jadi dihasilkan
beberapa tabel tambahan. Bentuk skema
snowflake dapat dilihat pada Gambar 3
(halaman 5). Keuntungan yang didapat
dengan menggunakan skema ini adalah
penghematan memory, tapi waktu yang
dibutuhkan untuk pemrosesan query
menjadi lebih lama.

5

keputusan. OLAP tool sangat berguna untuk
proses data mining, OLAP dapat menjadi
bagian dari data mining tetapi keduanya tidak
bersifat substitusi (Kantardzic 2003).
Tipe-tipe operasi OLAP antara lain (Han
& Kamber 2001):
ƒ Roll-up

Gambar 3 Skema snowflake (Han &
Kamber 2001)
ƒ Skema galaksi (fact constellation)
Pada skema galaksi, beberapa tabel
fakta berbagi tabel dimensi. Bentuk skema
galaksi dapat dilihat pada Gambar 4.
Keuntungan menggunakan skema ini
adalah
menghemat
memory
dan
mengurangi kesalahan yang mungkin
terjadi.

Operasi ini melakukan agregasi pada
kubus data dengan cara menaikkan tingkat
suatu hirarki konsep atau mengurangi
dimensi. Misalkan pada kubus data dari
kelompok kota di-roll up menjadi
kelompok propinsi atau negara. Contoh
lainnya kubus data menampilkan agregasi
total penjualan berdasarkan lokasi dan
waktu, roll up mereduksi dimensi dapat
dilakukan dengan menurunkan tingkat
suatu hirarki konsep atau menambahkan
dimensi menghilangkan waktu sehingga
hanya menampilkan agregasi total
penjualan berdasarkan lokasi.
ƒ Drill-down
Drill-down adalah kebalikan dari rollup. Operasi ini mempresentasikan data
menjadi lebih detil. Drill-down dilakukan
dengan cara menurunkan tingkat suatu
hirarki konsep atau menambahkan
dimensi. Misalkan dari kelompok tahun didrill down menjadi kelompok triwulan,
bulan, atau hari.

Gambar 4 Skema galaksi
Kamber 2001)

(Han

&

On-Line Analytical Processing (OLAP)
On-Line Analytical Processing (OLAP)
terdiri dari seperangkat tool untuk membantu
proses analisis dan perbandingan data dalam
basis data. Kegunaan utama OLAP tool adalah
kemampuan interaktifnya untuk membantu
pimpinan organisasi melihat data dari
berbagai perspektif (Post 2005).
Tool dan metoda OLAP membantu
pengguna menganalisis data pada sebuah data
warehouse dengan menyediakan berbagai
tampilan data, dan didukung dengan
representasi grafik yang dinamis. Dalam
tampilan tersebut dimensi-dimensi data
berbeda menunjukkan karakteristik bisnis
yang berbeda pula. OLAP tool sangat
membantu untuk melihat data dimensional
dari berbagai sudut pandang. OLAP tool tidak
belajar dan tidak menciptakan pengetahuan
baru dari data dengan sendirinya, tetapi
merupakan alat bantu visualisasi khusus untuk
membantu end-user menarik kesimpulan dan

ƒ Slice dan dice
Operasi slice melakukan pemilihan
satu dimensi dari kubus data sehingga
menghasilkan bagian kubus (subcube).
Operasi dice menghasilkan bagian kubus
(subcube) dengan melakukan pemilihan
dua atau lebih dimensi.
ƒ Pivot (rotate)
Pivot adalah operasi visualisasi dengan
memutar koordinat data pada tampilan
yang bertujuan untuk menyediakan
presentasi alternatif dari data.
Satu kategori dari OLAP yang mulai
muncul pada tahun 1997 adalah Web-based
OLAP (WOLAP). Dengan produk ini
pengguna web browser atau komputer dalam
jaringan dapat mengakses dan menganalisis
data dalam data warehouse. WOLAP dapat
diterapkan dalam internet atau intranet,
namun banyak organisasi lebih memilih
intranet karena alasan keamanan dan
kerahasiaan data. WOLAP dapat digunakan
selama klien memiliki perangkat lunak web

6

yang diperlukan dan terhubung dengan
jaringan komputer yang benar. Teknologi ini
juga mengeliminasi kebutuhan akan instalasi
paket perangkat lunak pada komputer
pengguna (Mallach 2000).
Arsitektur Three-Tier Data Warehouse
Data warehouse sering kali mengadopsi
arsitektur three-tier, seperti dipresentasikan
pada Gambar 5. Lapisan-lapisan arsitektur
data warehousing tersebut adalah (Han &
Kamber 2001):
1. Lapis bawah (bottom tier)
Pada lapis bawah adalah server data
warehouse yang biasanya sebuah sistem
basis data relasional. Pada lapis ini data
diambil dari basis data operasional dan
sumber eksternal lainnya, diekstrak,
dibersihkan, dan ditransformasi. Data
disimpan sebagai data warehouse.

METODE PENELITIAN
Analisis
Data dikumpulkan dan dianalisis nilai dan
atributnya untuk mendapatkan atribut-atribut
yang tepat untuk membuat data warehouse.
Dari hasil analisis ini ditentukan fakta dan
dimensi dan dibuat skema model data
multidimensi, kemudian melalui proses data
preprocessing dibuat data warehouse-nya.
Aplikasi OLAP dibangun menggunakan
Palo PHP API (Application Program
Interface) dan terhubung ke OLAP server
Palo yang melakukan fungsi agregasi dan
terdapat kubus data di dalamnya. Palo
merupakan basis data berbasis sel yang
multidimensional, hirarkis, dan berbasis
memori. Query dalam Palo menghasilkan satu
nilai sel tunggal, bukan baris data seperti basis
data relasional. Palo merupakan OLAP
multidimensional, menyimpan data dalam
kubus data. Dengan dimensi yang hirarkis,
kubus data Palo mampu melakukan agregasi
multidimensional. Palo berbasis memori yang
berimplikasi pada kecepatan. Akses data
berbasis sel dilakukan pada waktu nyata
(www.palo.net 2006).
Palo menyediakan Palo Excel Add-In yang
terintegrasi dengan Microsoft Office Excel.
Palo Excel Add-In memiliki fasilitas untuk
menampilkan data dari kubus data Palo,
membentuk struktur kubus data Palo, dan
memuat data dari sumber eksternal ke kubus
data Palo.

Gambar 5 Arsitektur
three-tier
data
warehousing (Han & Kamber
2001)
2. Lapis tengah (middle tier)
Lapis tengah adalah OLAP server yang
biasanya
diimplementasikan
dengan
OLAP Relasional (ROLAP) atau OLAP
Multidimensional (MOLAP).
3. Lapis atas (top tier)
Pada lapis atas adalah lapisan front-end
client, berisi query dan perangkat
pelaporan, perangkat analisis, dan/atau
perangkat data mining (seperti: analisis
tren, prediksi, dan lainnya).

Aplikasi
OLAP
dibangun
untuk
mempresentasikan
hasil
operasi-operasi
OLAP. Kelebihan aplikasi ini dibanding Palo
Excel Add-In adalah berbasis web, terdapat
operasi roll-up dan drill-down dalam tabel,
dan grafik dinamis. Pengguna dapat
mengevaluasi pola dengan menentukan kubus,
ukuran, dimensi-dimensi, dan elemen-elemen
dimensi,
kemudian
aplikasi
akan
memvisualisasikan ke bentuk yang mudah
dipahami.
Data Preprocessing
Data dari berbagai sumber dikumpulkan
dan dilakukan data preprocessing. Tahapan
data
preprocessing dalam penelitian ini
adalah:
1. Integrasi dan reduksi
Dilakukan penggabungan data dari
berbagai sumber ke satu basis data. Data

7

direduksi dengan membuang atribut yang
tidak menarik dan tidak relevan.
2. Pembersihan
Data dibersihkan untuk memperbaiki
data yang kosong, mengandung noise, dan
tidak konsisten. Pada tahapan ini juga
terdapat transformasi untuk menjaga
konsistensi data.
3. Transformasi
Tranformasi ke bentuk data yang tepat
agar dapat digunakan untuk proses
selanjutnya. Di dalamnya meliputi
penyeragaman nama atribut, generalisasi,
agregasi, dan konstruksi atribut/dimensi.
Akhir dari tahapan transformasi ini adalah
terbentuknya sebuah data warehouse.
Dalam penelitian ini, modul program
untuk membantu pemrosesan data dibuat
dengan bahasa pemrograman PHP. Modul ini
terdiri dari modul transfer.php dan clean.php.
Modul-modul tersebut menggunakan library
ADOdb sebagai jembatan untuk mengakses
basis data. Modul transfer.php dibuat karena
keterbatasan fasilitas konversi dalam DBMS
MsSQL Server 2000, yaitu beberapa tipe data
dari data sumber tidak dapat dipetakan ke tipe
data MsSQL. Modul transfer.php memiliki
fungsi untuk mengkonversi data dari basis
data Foxpro ke DBMS MsSQL, dan memuat
data dari tabel atau view SQL ke tabel baru.
Modul clean.php memiliki fungsi untuk
membersihkan data.
Aplikasi OLAP
Langkah awal pembangunan aplikasi
adalah membentuk struktur kubus data dalam
OLAP server Palo. Pembentukan struktur
kubus data dilakukan di Palo Excel Add-In.
Namun
untuk
mempercepat
proses
pembentukan ini, dibuat suatu modul program
dengan nama palo_modeller.php. Modul ini
menggunakan library ADOdb sebagai
jembatan
ke
basis
data.
Modul
palo_modeller.php memiliki fungsi untuk
memetakan dimensi dan elemen-elemennya
dari tabel dimensi data warehouse menjadi
dimensi kubus data Palo. Struktur kubus data
yang sudah terbentuk kemudian diisi dengan
data dari data warehouse melalui fasilitas
Data Import di Palo Excel Add-In.
Selanjutnya
dilakukan
perancangan
aplikasi yang terdiri dari rancangan
antarmuka, fungsi, class, dan modul.
Antarmuka terdiri dari dua rancangan
tampilan, yaitu untuk tampilan screen dengan

resolusi 1024 × 768 pixel dan untuk tampilan
hasil cetakan. Fungsi aplikasi dirancang untuk
operasi-operasi OLAP dan visualisasi hasil
operasi OLAP dengan crosstab dan grafik.
Implementasi
aplikasi
menggunakan
bahasa pemrograman PHP, Palo PHP API,
library JpGraph, dan JavaScript. Tampilan
aplikasi
menggunakan
kode
HTML
(HyperText Markup Language) dan CSS
(Cascade Style Sheets).
Nama dan fungsi dari class dan modul
utama dalam aplikasi OLAP adalah:
ƒ app: merupakan class
menjalankan aplikasi.

induk

yang

ƒ content: mengatur isi dari aplikasi.
ƒ olap_function:
menjalankan
operasioperasi OLAP. Class ini merupakan hasil
modifikasi
dari
modul
program
palo_demo.php yang terdapat dalam Palo
SDK (Software Development Kit) 1.0c.
Dalam modul palo_demo.php terdapat
fungsi untuk membentuk struktur data
crosstab dan fungsi operasi roll-up dan
drill-down. Palo_demo.php dimodifikasi
dengan mengubah pemrogramannya dari
prosedural menjadi berorientasi objek, dan
ditambah fungsi operasi slice dan dice.
ƒ olap_render: menampilkan aplikasi dalam
sintaksis HTML.
ƒ olap_graph_generator: menggambar grafik
hasil
operasi
OLAP.
Class
ini
menggunakan library JpGraph untuk
menghasilkan grafik.
Lingkungan Pengembangan
Aplikasi dibangun dengan menggunakan
perangkat sebagai berikut:
Perangkat keras berupa komputer personal
dengan spesifikasi:
ƒ Prosesor Intel Pentium 4 CPU 1.7 GHz
ƒ Memori 512 MB DDR RAM
ƒ Harddisk 120 GB
ƒ Monitor 15” dengan resolusi 1024 × 768
ƒ Mouse dan Keyboard
Perangkat lunak:
ƒ Sistem Operasi Microsoft Windows XP
Professional SP2
ƒ Microsoft SQL Server 2000 (perangkat
lunak bantu untuk pemrosesan data dan
pembuatan skema data warehouse)

8

ƒ Palo Server 1.0c (berfungsi sebagai OLAP
server yang melakukan fungsi agregasi
dan tempat penyimpanan struktur dan data
kubus data multidimensi)
ƒ Palo Excel Add-In 1.0c (tempat
pembuatan/pemodelan struktur kubus data
dan proses pemuatan data dari data
warehouse ke kubus data)
ƒ Web Server Apache 2.0.52
ƒ Bahasa pemrograman PHP 5.1.6
ƒ ADOdb 4.68 library for PHP (digunakan
dalam tahapan data preprocessing dan
menghubungkan basis data MsSQL dan
ODBC Foxpro dengan modul program)
ƒ JpGraph 1.20 (library
menghasilkan grafik)

PHP

untuk

ƒ Maguma Studio Free 1.3.3 (IDE PHP)
ƒ Web browser Mozilla Firefox 2.0 dan
Microsoft Internet Explorer 6.

HASIL DAN PEMBAHASAN
Analisis Data
Dari data sumber diperoleh 14 tabel
dengan format Foxpro (.dbf) dan 5 tabel
dengan format Excel (.xls). Analisis dilakukan
terhadap data sumber tersebut untuk
mendapatkan atribut-atribut yang tepat untuk
data warehouse. Daftar file data sumber ada
pada Lampiran 1.
Pada studi kasus data pelamar PPMB,
semua tuple dan atribut dalam tabel data
pelamar terpilih telah tercakup dalam tabel

Asal
PK

data pelamar, sehingga tabel data pelamar
terpilih (terpilih00, terpilih01, terpilih02,
terpilih03, dan terpilih04) tidak diikutsertakan
dalam tabel fakta. Tabel data jumlah pelamar
yang datang (dataptd2) dibuang karena sama
dengan data pelamar yang sudah diagregasi.
Tabel data pelamar yang dipanggil tahun 2005
(sla05ipb) juga dibuang karena datanya tidak
lengkap, data yang tersedia hanya untuk tahun
2005.
Pemilihan
atribut
diprioritaskan
berdasarkan ketentuan-ketentuan, yaitu:
1. Atribut menarik untuk dianalisis,
2. Atribut berkaitan dengan atribut atau tabel
data yang lain,
3. Kombinasi nilai yang mungkin muncul
tidak didominasi oleh satu nilai dan tidak
terlalu banyak nilai bedanya,
4. Nilai null tidak melebihi 10%, dan
5. Pertimbangan kinerja
mengurangi atribut.

sistem

dengan

Dari atribut-atribut yang dipilih kemudian
ditentukan atribut-atribut yang dapat dijadikan
ukuran dan dimensi. Hasil analisis data
ditentukan empat fakta dalam dua tabel fakta
dan sepuluh dimensi. Fakta terdiri dari ukuran
jumlah pelamar USMI (dalam tabel fakta
Pelamar), rataan pendapatan ayah, rataan IPK
TPB, dan jumlah mahasiswa (dalam tabel
fakta Mahasiswa). Selanjutnya dibuat skema
model data multidimensi data warehouse.
Skema data warehouse yang dibangun dapat
dilihat pada Gambar 6.

Waktu

id_asal

PK

propinsi
pulau

id_waktu

Jalur
PK

tahun_masuk
Pelamar

Mahasiswa

id_jalur
jalur

Listrik
PK

id_listrik
listrik

BiayaHidup
PK

id_biaya
biaya_hidup

FK1
FK2
FK3
FK4
FK5
FK6
FK7
FK8
FK9

id_waktu
id_asal
id_kel
studi_pilihan1
studi_pilihan2
studi_putusan
id_listrik
id_biaya
id_kategori
jumlah_pelamar_usmi

JenisKelamin
PK

id_kel
lelaki_perempuan

FK1
FK2
FK3
FK4
FK5
FK6
FK7

id_waktu
id_jalur
id_kel
pendidikan_ayah
pendidikan_ibu
id_pek
id_studi
rataan_pendapatan_ayah
rataan_ipk_tpb
jumlah_mhs

Studi
PK

id_studi

KategoriSLA
PK

id_kategori
kategori_sla

program_studi
departemen
fakultas

Gambar 6 Skema galaksi data warehouse pelamar dan mahasiswa

Pendidikan
PK

id_pend
pendidikan

PekerjaanAyah
PK

id_pek
pekerjaan_ayah

9

Integrasi dan Reduksi Data
Integrasi data dilakukan bersamaan dengan
reduksi data. Integrasi dan reduksi data ini
dilakukan
pada
awal
proses
data
preprocessing untuk menyamakan format
basis data dan menyusutkan volume sehingga
memudahkan proses-proses selanjutnya. Data
diproses menjadi dua bagian besar yaitu data
untuk tabel fakta Pelamar dan tabel fakta
Mahasiswa.
Integrasi diawali dengan konversi seluruh
data sumber (.dbf dan .xls) menjadi satu basis
data dengan format Microsoft SQL Server
(.mdf). Integrasi selanjutnya menggabungkan
tabel-tabel menjadi satu tabel besar untuk
dijadikan tabel fakta. Tabel-tabel yang akan
digabungkan diidentifikasi nama atribut dan
tipe datanya, kemudian dibuatkan tabel baru
dengan nama atribut sesuai dengan hasil
identifikasi. Penggabungan itu adalah
menggabungkan tabel data pelamar (cal00ipb,
cal01ipb, cal02ipb, cal03ipb, dan cal04ipb)
dengan tabel data penilaian asal SMA
(perak2). Penggabungan yang kedua adalah
menggabungkan tabel data mahasiswa
(pl_ilkom) dengan data IPK TPB mahasiswa
(ipk00, ipk01, ipk02, ipk03, ipk04).
Reduksi data dilakukan dengan membuang
atribut-atribut yang tidak terpilih berdasarkan
hasil analisis data. Nilai-nilai atribut yang
redundan dalam tabel-tabel sumber tidak
disertakan
dalam
proses
selanjutnya
(dibuang).
Proses integrasi dan reduksi data
membentuk tabel baru. Tabel tersebut adalah
tabel pre_pelamar yang terdiri dari sepuluh
atribut dan 44224 tuple. Tabel baru yang
kedua adalah tabel pre_mahasiswa yang
terdiri dari sembilan atribut dan 14055 tuple.
Nama dan deskripsi atribut dari tabel-tabel
tersebut dapat dilihat pada Tabel 1 dan Tabel
2.
Tabel 1

Nama dan deskripsi atribut tabel
pre_pelamar hasil integrasi dan
reduksi

Nama Atribut
tahunmasuk
nosla
nrp
jeniskel
pilihan1

Deskripsi
Tahun calon mahasiswa
melamar
Nomor kode asal SMU
pelamar
NRP pelamar yang diterima
Kode jenis kelamin
Kode program studi pilihan
pertama

Nama Atribut
pilihan2
putusan1
listrik
biayahidup

kategori

Tabel 2

Nama dan deskripsi atribut tabel
pre_mahasiswa hasil integrasi dan
reduksi

Nama Atribut
tahunmasuk
jalur
jeniskel
pendayah
pendibu
pekerjayah
nrp
pendapatan
IPK

Deskripsi
Kode program studi pilihan
kedua
Kode program studi pelamar
yang diterima
Kode daya listrik rumah
orangtua/wali
Perkiraan biaya hidup
bulanan yang akan diperoleh
pelamar
Kategori penilaian IPB
terhadap asal SMU pelamar

Deskripsi
Tahun mahasiswa masuk IPB
Kode jalur masuk mahasiswa
Kode jenis kelamin
Kode pendidikan terakhir
ayah
Kode pendidikan terakhir ibu
Kode pekerjaan ayah
NRP mahasiswa
Pendapatan ayah bulanan
saat mahasiswa masuk
IPK TPB mahasiswa

Pembersihan Data
Pada proses pembersihan data dilakukan
identifikasi terhadap data yang kosong (null),
mengandung noise, dan tidak konsisten karena
proses pengentrian data sumber maupun
akibat proses integrasi data.
Noise pada atribut pendapatan di tabel
pre_mahasiswa di-update dengan nilai
pendapatan rata-rata orangtua berdasarkan
kelas pekerjaan ayah. Sedangkan nilai kosong
dan noise pada atribut IPK di-update menjadi
nilai rata-rata IPK dari seluruh mahasiswa.
Pada proses pembersihan juga diselingi proses
transformasi untuk membersihkan data yang
tidak konsisten. Transformasi yang banyak
terjadi
di
tabel
pre_pelamar
dan
pre_mahasiswa adalah transformasi kode
program studi lama menjadi kode program
studi baru.
Setelah proses pembersihan, tabel
pre_mahasiswa berkurang lima tuple karena
adanya penghapusan tuple menjadi 14045
tuple. Sedangkan pada tabel pre_pelamar tetap
44224 tuple. Rincian proses pembersihan data
ada pada Lampiran 2.

10

Transformasi Data
Tranformasi data ke bentuk yang tepat
dengan berpedoman pada skema data
warehouse yang telah dibuat. Proses
transformasi ini meliputi penyeragaman nama
atribut, generalisasi, agregasi, dan konstruksi
atribut/dimensi.
Atribut-atribut
dari
tabel
hasil
pembersihan diubah namanya sesuai dengan
nama-nama yang ada di skema. Data untuk
atribut kode asal SMU pelamar (nosla) dari
tabel pre_pelamar digeneralisasi dengan
mengubah nilainya menjadi kode asal dengan
mengambil dua digit awal dari nosla yang
merepresentasikan asal propinsi pelamar.
Atribut
nrp
dihilangkan
karena
mendeskripsikan hal yang sama dengan
atribut putusan1, keduanya secara tidak
langsung menjelaskan program studi bagi
pelamar yang diterima. Data untuk atribut
nomor mahasiswa (nrp) tabel pre_mahasiswa
digeneralisasi menjadi kode program studi
dengan mengambil empat digit awal dari nrp.
Data untuk atribut pendapatan dibulatkan ke
ribuan. Hasil transformasi ini dimasukkan ke
dalam tabel baru, tabel pre_pelamar menjadi
tabel pre2_pelamar dan tabel pre_mahasiswa
menjadi tabel pre2_mahasiswa.
Langkah selanjutnya adalah menentukan
nilai agregasi atribut-atribut yang menjadi
ukuran. Data tabel pre2_pelamar ditentukan
nilai agregasinya untuk mendapatkan ukuran
jumlah pelamar dengan cara menghitung
jumlah pelamar dikelompokkan berdasarkan
atribut-atribut yang ada. Atribut baru
dikonstruksi untuk menampung ukuran
jumlah pelamar hasil agregasi. Begitu juga
data tabel pre2_mahasiswa ditentukan nilai
agregasinya untuk mendapatkan ukuran rataan
pendapatan ayah, rataan IPK TPB, dan jumlah
mahasiswa. OLAP server Palo belum
mendukung fungsi agregasi rataan. Oleh
sebab itu nilai agregasi rataan ditentukan
dengan menentukan nilai total dari ukuran,
kemudian aplikasi membaginya dengan
ukuran jumlah, hasilnya adalah rataan dari
ukuran tersebut. Untuk data atribut
pendapatan
dan
IPK
dari
tabel
Tabel 3

pre2_mahasiswa ditentukan nilai totalnya dan
dihitung
ukuran
jumlah
mahasiswa,
dikelompokkan berdasarkan atribut-atribut
non-ukuran. Atribut baru dikonstruksi untuk
ukuran jumlah mahasiswa. Hasil dari
transformasi dengan operasi agregasi ini
dipindahkan ke tabel baru yang me