3. Bersifat
concurrent
, dalam arti row-row data diambil oleh suatu step dan diserahkan ke
step
lain secara
parallel
. 4.
Scalable - dapat beradaptasi dengan penambahan kapasitas memori RAM atau pun
storage scale up
dan dapat node komputer cluster
scale out
. 5.
Koleksi step
transformation dan job yang cukup banyak 6.
Extensible,
kita dapat membuat step transformation dan job baru dengan sistem plugin.
7. Dukungan luas berbagai produk database yang terkenal di pasaran
baik itu
proprietary
maupun
free open source
seperti Oracle, SQL Server, MySQL, PostgreSQL dan lain sebagainya.
2.3 OLAP Online Analytical Processing
Online Analytical Processing
adalah teknologi yang memproses data di dalam data warehouse dalam struktur multidimensi. Sistem OLAP menyediakan
kecepatan dan fleksibilitas untuk mendukung analisis dalam waktu singkat. Di dalam OLAP terdapat 2 komponen utama, yaitu
cube
dan
dimension
.
Cube
kubus adalah suatu pendekatan baru untuk memvisualisasikan bagaimana data diorganisasi.
Dimension
adalah suatu tabel parameter yang dibuat berdasarkan tabel di dalam
data warehouse
yang sifatnya dapat dikelompokkan dan diukur. Dengan menggunakan teknologi OLAP, user dapat menganalisis data secara
interaktif dengan menggunakan fasilitas yang baik untuk membuat laporan. Di dalam teknologi OLAP, operasi
– operasi yang dilakukan adalah sebagai berikut
Han dan Kamber, 2006 :
Roll-up
: melakukan konsolidasi data dengan cara meningkatkan tingkat suatu hirarki
cube
data pada multidimensional data sehingga pada saat
roll-up
dilakukan, maka jumlah dimensi akan berkurang. Contohnya, operasi
roll-up
yang dilakukan pada
cube
data di tingkat kecamatan menjadi tingkat kabupaten.
Drill-down
: merupakan kebalikan dari
roll-up
dengan menurunkan tingkat suatu hirarki
cube
data sehingga dapat merepresentasikan
cube
untuk memberikan informasi lebih detilterperinci.
Slicing
dan
dicing
: digunakan untuk melihat data dari titik pandangan yang berbeda. Dimana,
slicing
dilakukan dengan cara memilih satu dimensi dari suatu
cube
sedangkan
dicing
dilakukan dengan cara memilih dua atau lebih dimensi dari suatu
cube
sehingga menghasilkan subcube.
2.4 Pre-Processing
Pre-processing
merupakan tahapan dalam membangun
data mining
yang digunakan untuk membersihkan data dari segala
noise.
Tahap ini akan dilakukan dalam pembentukan gudang data
data warehouse
karena di dalam gudnag data membutuhkan data yang sudah bersih. Berikut ini merupakan langkah-langkah
pre-processing HanKamber, 2006
: 1.
Pembersihan data
data cleaning
Proses ini dilakukan untuk membuang data
noice
dan yang tidak
konsisten akan dihapus. Langkah pertama yang dilakukan dalam proses pembersihan data adalah mendeteksi ketidakcocokan.
Ketidakcocokan tersebut dapat disebabkan oleh beberapa factor antara lain adanya kesalahan petugas ketika memasukkan data, kemungkinan
adanya kesalahan yang disengaja dan adanya data yang tidak sesuai. 2.
Integrasi data
data integration
Pada proses ini akan dilakukan penggabungan data. Data digabungkan dari beberapa tempat penyimpanan akan digabungkan ke
dalam satu tempat penyimpanan data yang koheren. 3.
Seleksi data
data selection
Pada proses ini data yang relevan akan diambil dari basis data untuk dianalisis. Pada langkah ini, akan dilakukan analisis korelasi
untuk analisa fitur. Atribut – atribut data yang ada akan dilakukan
pengecekkan apakah atribut tersebut relevan untuk di-
mining
. Atribut yang tidak relevan atau atribut yang mengalami redudansi tidak akan
digunakan atau diabaikan. Atribut yang akan digunakan adalah atribut yang bersifat independen. Atribut yang independen adalah atribut
yang antara satu atribut dengan atribut yang lainnya tidak saling mempengaruhi.
4. Transformasi data
data transformation
Pada proses ini data ditransformasikan ke dalam bentuk yang tepat untuk di-
mining
. Yang termasuk dalam proses transformasi data adalah penghalusan smooting yaitu proses menghilangkan
noise
yang ada pada data, generalisasi
generalization
yaitu mengganti data primitive atau data level rendah menjadi data level tinggi,
normalisasi
normalization
yaitu mengemas data atribut ke dalam skala yang kecil, dan konstruksi atribut atau fitur
attribute construction
atau
feature construction
yaitu mengkonstruksi dan menambahkan atribut baru untuk membantu dalam proses
penambangan. 5.
Penambangan data
data mining
Pada proses ini akan diaplikasikan metode yang tepat untuk mengekstrak pola data.
6. Evaluasi pola
pattern evaluation
Proses ini dilakukan untuk mengidentifikasi pola yang benar dan menarik. Pola tersebut akan direpresentasikan dalam bentuk
pengetahuan berdasarkan beberapa pengukuran yang penting. 7.
Presentasi pengetahuan
knowledge presentation
Pada langkah ini informasi yang sudah ditambang akan divisualisasikan dan direpresentasikan kepada pengguna.
Tahapan tersebut dapat diilustrasikan kedalam gambar berikut :
Gambar 2.1 Tahapan dalam Data Mining
Sumber :
HanKamber2006
2.5 Multi Dimensional Modelling