Multi Dimensional Modelling Skema Bintang

Gambar 2.1 Tahapan dalam Data Mining Sumber : HanKamber2006

2.5 Multi Dimensional Modelling

Teknologi OLAP menganut multi dimensional modeling yang berarti user dapat melihat analisis pengukuran dengan berbagai dimensi sebagai pandangannya. Di dalam konsep ini, istilah - istilah yang berkaitan dengan OLAP adalah : 1. Cube : struktur multi dimensional konseptual, terdiri dari dimension dan measure dan biasanya mencakup pandangan bisnis tertentu. 2. Dimension : disebut juga dengan dimensi, merupakan view sudut pandang yang menyusun cube. Dimensi terdiri dari berbagai level. 3. Measure : nilai pengukuran 4. Member : isi anggota dari suatu dimensi measure tertentu. Di dalam model multi-dimensional, database terdiri dari beberapa tabel fakta dan tabel dimensi yang saling berkaitan. Tabel fakta merupakan tabel yang berisi fakta numerik. Suatu tabel fakta berisi berbagai nilai agregasi yang menjadi dasar pengukuran measure serta beberapa key yang terkait ke tabel dimensi yang akan menjadi sudut pandang dari measure tersebut. Tabel dimensi yaitu tabel yang berisi petunjuk ke tabel fakta, digunakan untuk menunjukan darimana data dapat ditemukan dan tabel terpisah dibutuhkan untuk setiap dimensi. Pada tabel dimensi terdapat surrogate key yang merupakan primary key untuk tabel tersebut. Nilai ini biasanya berupa nilai sekuensial dan tidak memiliki arti dari proses bisnis darimana sumber data berasal. Dalam perkembangannya, susunan tabel fakta dan tabel dimensi ini memiliki standar perancangan atau yang disebut dengan schema karena terbukti meningkatkan performa dan kemudahan dalam penerjemahan ke sistem OLAP. Schema inilah yang nantinya menjadi dasar untuk melakukan data warehousing. Dua schema yang paling umum digunakan oleh berbagai OLAP engine adalah skema bintang star schema dan skema butir salju snowflake schema .

2.6 Skema Bintang

Star Schema Skema bintang berpusat pada satu tabel fakta yang dikelilingi oleh satu atau beberapa tabel dimensi sebagai cabangnya sehingga terlihat seperti bintang. Setiap percabangan berhenti pada satu tabel dimensi atau dengan kata lain tabel dimensi dengan skema ini semuanya berupa leaf daun dan tidak ada percabangan lain dapat dilihat pada gambar 2.2 di bawah ini. Gambar 2.2 : Skema Bintang dari PHI-Minimart Dalam skema bintang tergambar dua jenis tabel, yaitu tabel dimensi dan tabel fakta. Kedua tabel tersebut mempunyai karakteristik masing-masing yang akan dijelaskan sebagai berikut : 1. Tabel Dimensi, karakteristiknya adalah :  Key tabel dimensi, merupakan primary key dari tabel dimensi yang mengidentifikasi setiap baris dalam tabel secara unik.  Merupakan tabel yang lebar. Tabel dimensi memiliki jumlah kolom atau atribut yang banyak, oleh karena itu tabel dimensi bersifat lebar.  Atribut berupa teks. Dalam tabel dimensi, jarang ditemukan nilai numerik untuk perhitungan, atribut umumnya berupa teks yang merepresentasikan deskripsi tekstual dari komponen-komponen dalam dimensi bisnis.  Atribut-atribut tidak berhubungan secara langsung.  Tidak dinormalisasi. Untuk kinerja query yang efektif, paling baik jika query mengambil dari tabel dimensi dan langsung ke tabel fakta tanpa melalui tabel perantara yang akan terbentuk jika tabel dimensi dinormalisasi.  Kemampuan drill-down dan roll-up. Atribut-atribut dalam tabel dimensi menyediakan kemampuan untuk mendapatkan detail dari tingkat tinggi agregasi sampai tingkat detail yang rendah.  Terdapat beberapa hirarki. Berbagai bagian perusahaan dapat mengelompokkan dimensi dengan cara yang berbeda, sehingga terbentuk lebih dari 1 hirarki.  Jumlah record yang lebih sedikit. Tabel dimensi umumnya memiliki jumlah record atau baris yang lebih sedikit dari tabel fakta. 2. Tabel fakta, karakteristiknya adalah :  Concatenated key. Baris dalam tabel fakta diidentifikasi dengan menggunakan primary key dari tabel-tabel dimensi, maka primary key dari tabel fakta merupakan gabungan primary key dari semua tabel dimensi.  Data grain, merupakan tingkat detail untuk pengukuran. Sebagai contoh, jumlah pemesanan berhubungan dengan jumlah produk tertentu pada suatu pesanan, tanggal tertentu, untuk pelanggan spesifik dan diperoleh oleh seorang perwakilan penjualan spesifik tertentu. Jika jumlah pesanan dilihat sebagai jumlah untuk suatu produk perbulan, maka data grain-nya berbeda dan pada tingkat yang lebih tinggi.  Fully additive measures. Agregasi dari fully additive measures dilaksanakan dengan penjumlahan sederhana nilai-nilai atribut tersebut.  Semiadditive measures. Semiadditive measures merupakan nilai yang tidak dapat langsung dijumlahkan, sebagai contoh persentase keuntungan. Tabel besar, tidak lebar. Tabel fakta umumnya memiliki lebih sedikit atribut daripada tabel dimensi, namun memiliki jumlah record yang lebih banyak.  Sparse data. Tabel fakta tidak perlu menyimpan record yang nilainya null. Maka tabel fakta dapat memiliki gap.  Degenerate dimensions. Terdapat elemen-elemen data dari sistem operasional yang bukan merupakan fakta ataupun dimensi, seperti nomor pesanan, nomor tagihan, dan lain-lain. Namun atribut- atribut tersebut dapat berguna dalam jenis analisis tertentu. Sebagai contoh, mencari rata-rata jumlah produk per pesanan, maka produk harus dihubungkan ke nomor pesanan untuk mendapatkan nilai rata-rata. Atribut-atribut tersebut disebut degenerate dimension dan disimpan sebagai atribut dari tabel fakta. 2.7 Multiway Array Aggregation For Full Cube Computation Multiway Array Aggregation merupakan metode untuk menghitung ukuran data cube dengan menggunakan array multidimensi sebagai struktur data yang dasar. Metode ini, digunakan dengan tujuan dapat mempersingkat waktu dalam menampilkan data. Metode ini menggunakan array untuk menangani perhitungan nilai-nilai dimensi. Nilai – nilai itu diakses melalui posisi atau indeks lokasi array yang terkait. Metode ini menggunakan langkah – langkah untuk menghitung ukuran data cube, sebagai berikut : 1. Mempartisi array menjadi chunk . Chunk merupakan sub-cube yang cukup kecil untuk dapat dimasukkan ke dalam memori yang tersedia yang digunakan untuk melakukan perhitungan cube . Chunking adalah metode untuk membagi array n-dimensi menjadi n-dimensi potongan, di mana potongan disimpan sebagai objek pada disk. Potongan dikompres sehingga dapat digunakan untuk menghapus ruang kosong yang dihasilkan dari sel array kosong sel-sel yang tidak mengandung data yang valid atau yang jumlah selnya adalah nol. Untuk lebih jelasnya, dapat diperhatikan contoh berikut ini : Misalkan, dimiliki cube dengan ukuran tiga dimensi 3D. Kemudian data dari dimensi ini diubah ke dalam data array untuk dapat dilakukan perhitungan. 3-D Data array yang berisi tiga dimensi A, B, dan C dipartisi menjadi chunk sub-cube. Misalkan, dimensi A dibagi dalam empat sama besar partisi a0, a1, a2, a3 begitu pula Dimensi B dan C sama-sama diatur dalam empat partisi. Dalam contoh ini, array dibagi menjadi 64 potongan seperti yang ditunjukkan pada Gambar 2.3. dibawah ini. Gambar 2.3 : 3-D array untuk dimensi A , B , dan C , yang dipartisi menjadi 64 chunks 2. Menghitung aggregate. Untuk menghitung aggregate, dilakukan dengan mengakses nilai- nilai yang ada pada sel di cube . Urutan dimana sel – sel yang dikunjungi dapat dioptimalkan sehingga dapat meminimalkan pengunjungan sel kembali, maka dari itu metode ini akan dapat mengurangi akses memori dan biaya penyimpanan. Teknik ini melibatkan chunking beberapa perhitungan agregasi sehingga disebut sebagai multiway array aggregation . Pada metode ini, penghitungan agregasi dilakukan secara bersamaan pada beberapa dimensi. Untuk lebih jelasnya, dapat diperhatikan contoh berikut ini : Misalkan, dimiliki cube dengan ukuran tiga dimensi 3D yaitu A, B, C dengan ukuran data untuk masing – masing dimensi adalah 40, 400, 4000. Kemudian untuk langkah pertama yang dilakukan adalah mempartisi ke dalam chunk . Masing – masing besar data dibagi sama besar yaitu dibagi dalam partisi 4 maka hasilnya adalah 10, 100, 1000. Kemudian urutan dari cubenya adalah sebagai berikut :  Base cuboid : ABC  2- cuboid : AB , AC, BC  1-cuboid : A, B, C  0-cuboid : all Setelah itu dilakukan penghitungan agregasi, dengan mengakses nilai-nilai yang ada pada sel di dalam cube melewati dua alur yaitu kanan dan kiri, contohnya adalah : ABC AB AC BC A B C ABC AB AC BC A B C a b Untuk perhitungannya adalah perkalian antara besar data setiap dimensi yang dilewati, namun ketika melewati dimensi yang pernah dilewati maka perkalian dilakukan dengan nilai partisi dari dimensi yang telah dilewati. Perhitungan untuk alur AB adalah sebagai berikut AB + A`C + B`C` = 40400+104000+1001000 = 16000+40000+100000=156.000 memory unit, kemudian perhitungan untuk alur BC adalah sebagai berikut BC+AC`+A`B`=4004000+401000+10100 = 1600000+40000+1000=1641000 memori unit. Kemudian dibandingkan cube dengan memory unit yang minimum yang terbaik yang dipilih, oleh sebab itu cube a yang lebih efisien daripada cube b.

BAB III ANALISIS DAN DESAIN