Gambar 2.1 Tahapan dalam Data Mining
Sumber :
HanKamber2006
2.5 Multi Dimensional Modelling
Teknologi OLAP menganut
multi dimensional modeling
yang berarti user dapat melihat analisis pengukuran dengan berbagai dimensi sebagai
pandangannya. Di dalam konsep ini, istilah - istilah yang berkaitan dengan OLAP adalah :
1.
Cube
: struktur multi dimensional konseptual, terdiri dari dimension dan measure dan biasanya mencakup pandangan bisnis tertentu.
2.
Dimension
: disebut juga dengan dimensi, merupakan view sudut pandang yang menyusun cube. Dimensi terdiri dari
berbagai level. 3.
Measure
: nilai pengukuran
4.
Member
: isi anggota dari suatu dimensi measure tertentu. Di dalam model multi-dimensional, database terdiri dari beberapa tabel
fakta dan tabel dimensi yang saling berkaitan. Tabel fakta merupakan tabel yang berisi fakta numerik. Suatu tabel fakta berisi berbagai nilai agregasi yang menjadi
dasar pengukuran
measure
serta beberapa key yang terkait ke tabel dimensi yang akan menjadi sudut pandang dari
measure
tersebut. Tabel dimensi yaitu tabel yang berisi petunjuk ke tabel fakta, digunakan untuk menunjukan darimana data
dapat ditemukan dan tabel terpisah dibutuhkan untuk setiap dimensi. Pada tabel dimensi terdapat
surrogate key
yang merupakan
primary key
untuk tabel tersebut. Nilai ini biasanya berupa nilai sekuensial dan tidak memiliki arti dari proses bisnis
darimana sumber data berasal. Dalam perkembangannya, susunan tabel fakta dan tabel dimensi ini
memiliki standar perancangan atau yang disebut dengan schema karena terbukti meningkatkan performa dan kemudahan dalam penerjemahan ke sistem OLAP.
Schema inilah yang nantinya menjadi dasar untuk melakukan data warehousing. Dua schema yang paling umum digunakan oleh berbagai OLAP engine adalah
skema bintang
star schema
dan skema butir salju
snowflake schema
.
2.6 Skema Bintang
Star Schema
Skema bintang berpusat pada satu tabel fakta yang dikelilingi oleh satu atau beberapa tabel dimensi sebagai cabangnya sehingga terlihat seperti bintang.
Setiap percabangan berhenti pada satu tabel dimensi atau dengan kata lain tabel dimensi dengan skema ini semuanya berupa
leaf
daun dan tidak ada percabangan lain dapat dilihat pada gambar 2.2 di bawah ini.
Gambar 2.2 : Skema Bintang dari PHI-Minimart
Dalam skema bintang tergambar dua jenis tabel, yaitu tabel dimensi dan tabel fakta. Kedua tabel tersebut mempunyai karakteristik masing-masing yang
akan dijelaskan sebagai berikut : 1.
Tabel Dimensi, karakteristiknya adalah : Key tabel dimensi, merupakan
primary key
dari tabel dimensi yang mengidentifikasi setiap baris dalam tabel secara unik.
Merupakan tabel yang lebar. Tabel dimensi memiliki jumlah kolom atau atribut yang banyak, oleh karena itu tabel dimensi
bersifat lebar.
Atribut berupa teks. Dalam tabel dimensi, jarang ditemukan nilai numerik untuk perhitungan, atribut umumnya berupa teks yang
merepresentasikan deskripsi tekstual dari komponen-komponen dalam dimensi bisnis.
Atribut-atribut tidak berhubungan secara langsung. Tidak dinormalisasi. Untuk kinerja query yang efektif, paling baik
jika query mengambil dari tabel dimensi dan langsung ke tabel fakta tanpa melalui tabel perantara yang akan terbentuk jika tabel
dimensi dinormalisasi. Kemampuan drill-down dan roll-up. Atribut-atribut dalam tabel
dimensi menyediakan kemampuan untuk mendapatkan detail dari tingkat tinggi agregasi sampai tingkat detail yang rendah.
Terdapat beberapa hirarki. Berbagai bagian perusahaan dapat mengelompokkan dimensi dengan cara yang berbeda, sehingga
terbentuk lebih dari 1 hirarki. Jumlah record yang lebih sedikit. Tabel dimensi umumnya
memiliki jumlah record atau baris yang lebih sedikit dari tabel fakta.
2. Tabel fakta, karakteristiknya adalah :
Concatenated key. Baris dalam tabel fakta diidentifikasi dengan menggunakan
primary key
dari tabel-tabel dimensi, maka
primary
key
dari tabel fakta merupakan gabungan
primary key
dari semua tabel dimensi.
Data grain, merupakan tingkat detail untuk pengukuran. Sebagai contoh, jumlah pemesanan berhubungan dengan jumlah produk
tertentu pada suatu pesanan, tanggal tertentu, untuk pelanggan spesifik dan diperoleh oleh seorang perwakilan penjualan spesifik
tertentu. Jika jumlah pesanan dilihat sebagai jumlah untuk suatu produk perbulan, maka data grain-nya berbeda dan pada tingkat
yang lebih tinggi. Fully additive measures. Agregasi dari fully additive measures
dilaksanakan dengan penjumlahan sederhana nilai-nilai atribut tersebut.
Semiadditive measures. Semiadditive measures merupakan nilai yang tidak dapat langsung dijumlahkan, sebagai contoh persentase
keuntungan. Tabel besar, tidak lebar. Tabel fakta umumnya memiliki lebih sedikit atribut daripada tabel dimensi, namun
memiliki jumlah record yang lebih banyak. Sparse data. Tabel fakta tidak perlu menyimpan record yang
nilainya null. Maka tabel fakta dapat memiliki gap. Degenerate dimensions. Terdapat elemen-elemen data dari sistem
operasional yang bukan merupakan fakta ataupun dimensi, seperti nomor pesanan, nomor tagihan, dan lain-lain. Namun atribut-
atribut tersebut dapat berguna dalam jenis analisis tertentu. Sebagai
contoh, mencari rata-rata jumlah produk per pesanan, maka produk harus dihubungkan ke nomor pesanan untuk mendapatkan nilai
rata-rata. Atribut-atribut tersebut disebut degenerate dimension dan disimpan sebagai atribut dari tabel fakta.
2.7
Multiway Array Aggregation For Full Cube Computation
Multiway Array Aggregation
merupakan metode untuk menghitung ukuran data
cube
dengan menggunakan array multidimensi sebagai struktur data yang dasar. Metode ini, digunakan dengan tujuan dapat mempersingkat waktu
dalam menampilkan data. Metode ini menggunakan array untuk menangani perhitungan nilai-nilai dimensi. Nilai
– nilai itu diakses melalui posisi atau indeks lokasi array yang terkait.
Metode ini menggunakan langkah – langkah untuk menghitung ukuran
data cube, sebagai berikut : 1.
Mempartisi array menjadi
chunk
.
Chunk
merupakan sub-cube yang cukup kecil untuk dapat dimasukkan ke dalam memori yang tersedia yang digunakan untuk
melakukan perhitungan
cube
.
Chunking
adalah metode untuk membagi array n-dimensi menjadi n-dimensi potongan, di mana potongan
disimpan sebagai objek pada disk. Potongan dikompres sehingga dapat digunakan untuk menghapus ruang kosong yang dihasilkan dari sel
array kosong sel-sel yang tidak mengandung data yang valid atau yang jumlah selnya adalah nol.
Untuk lebih jelasnya, dapat diperhatikan contoh berikut ini :
Misalkan, dimiliki
cube
dengan ukuran tiga dimensi 3D. Kemudian data dari dimensi ini diubah ke dalam data array untuk dapat dilakukan
perhitungan. 3-D Data array yang berisi tiga dimensi A, B, dan C dipartisi menjadi
chunk
sub-cube. Misalkan, dimensi A dibagi dalam empat sama besar partisi a0, a1, a2, a3 begitu pula Dimensi B dan C
sama-sama diatur dalam empat partisi. Dalam contoh ini, array dibagi menjadi 64 potongan seperti yang ditunjukkan pada Gambar 2.3.
dibawah ini.
Gambar 2.3 : 3-D array untuk dimensi
A
,
B
, dan
C
, yang dipartisi menjadi 64
chunks
2. Menghitung aggregate.
Untuk menghitung aggregate, dilakukan dengan mengakses nilai- nilai yang ada pada sel di
cube
. Urutan dimana sel – sel yang
dikunjungi dapat dioptimalkan sehingga dapat meminimalkan pengunjungan sel kembali, maka dari itu metode ini akan dapat
mengurangi akses memori dan biaya penyimpanan. Teknik ini
melibatkan
chunking
beberapa perhitungan agregasi sehingga disebut sebagai
multiway array aggregation
. Pada metode ini, penghitungan agregasi dilakukan secara bersamaan pada beberapa dimensi.
Untuk lebih jelasnya, dapat diperhatikan contoh berikut ini : Misalkan, dimiliki
cube
dengan ukuran tiga dimensi 3D yaitu A, B, C dengan ukuran data untuk masing
– masing dimensi adalah 40, 400, 4000. Kemudian untuk langkah pertama yang dilakukan adalah
mempartisi ke dalam
chunk
. Masing – masing besar data dibagi sama
besar yaitu dibagi dalam partisi 4 maka hasilnya adalah 10, 100, 1000. Kemudian urutan dari cubenya adalah sebagai berikut :
Base cuboid : ABC 2- cuboid : AB , AC, BC
1-cuboid : A, B, C 0-cuboid : all
Setelah itu dilakukan penghitungan agregasi, dengan mengakses nilai-nilai yang ada pada sel di dalam
cube
melewati dua alur yaitu kanan dan kiri, contohnya adalah :
ABC
AB AC
BC A
B C
ABC
AB AC
BC A
B C
a b
Untuk perhitungannya adalah perkalian antara besar data setiap dimensi yang dilewati, namun ketika melewati dimensi yang pernah
dilewati maka perkalian dilakukan dengan nilai partisi dari dimensi yang telah dilewati. Perhitungan untuk alur AB adalah sebagai berikut
AB + A`C + B`C` = 40400+104000+1001000 = 16000+40000+100000=156.000 memory unit, kemudian perhitungan
untuk alur
BC adalah
sebagai berikut
BC+AC`+A`B`=4004000+401000+10100 =
1600000+40000+1000=1641000 memori
unit. Kemudian
dibandingkan cube dengan memory unit yang minimum yang terbaik yang dipilih, oleh sebab itu cube a yang lebih efisien daripada cube
b.
BAB III ANALISIS DAN DESAIN