12 1.
Data Cleaning
Langkah ini merupakan langkah untuk menghilangkan
noise
pengganggu dan data yang tidak konsisten.
2. Data Integration
Langkah ini merupakan suatu proses dimana beberapa sumber data digabungkan menjadi satu kesatuan.
3. Data Selection
Langkah ini merupakan proses untuk melakukan analisis, dimana data yang relevan diambil dari
database
.
4. Data Transformation
Langkah ini merupakan proses dimana data diubah transformasi menjadi data yang tepat untuk ditambang
sehingga dapat dilakukan proses operasi seperti penjumlahan atau penggabungan.
5. Data Mining
Langkah ini merupakan proses penting di mana metode cerdas yang diterapkan untuk mengekstrak pola data.
6. Pattern Evaluation
Langkah ini merupakan proses untuk mengidentifikasi pola- pola menarik yang menampilkan basis pengetahuan dalam
suatu ukuran ketertarikan.
7. Knowledge Presentation
Langkah ini merupakan proses dimana teknik untuk menampilkan suatu gambaran dan representasi pengetahuan
hasil tambang kepada pengguna.
2.2
Outlier
2.2.1 Pengertian
Outlier
Ada beberapa pengertian
outlier
dari beberapa sumber. Menurut Han et.al. 2012,
outlier
adalah objek data yang menyimpang secara signifikan dari sisa data, seolah-olah itu dihasilkan oleh mekanisme
13
yang berbeda. Menurut Hawkins 1980,
outlier
merupakan pengamatan yang berbeda dari pengamatan lainnya sehingga
menimbulkan kecurigaan bahwa hal itu dihasilkan oleh berbagai mekanisme.
2.2.2 Pendekatan Deteksi
Outlier
Menurut Han et.al. 2012, pendeteksian
outlier
terdapat beberapa pendekatan, antara lain
statistical methods
,
proximity-based approach
,
clustering-based approach
,
classficication-based approach
, dan
high- dimensional data
. Pendekatan
statistical methods
atau biasa dikenal sebagai metode berbasis model membuat asumsi mengenai normalitas data.
Pendekatan ini dianggap bahwa obyek data normal dihasilkan oleh model statistik, sedangkan data yang tidak mengikuti model dianggap
sebagai
outlier
. Efektivitas
statistical methods
sangat bergantung pada asumsi apakah model statistik yang dibuat selalu berlaku untuk data
yang diberikan. Pendekatan
proximity-based
mengasumsikan bahwa sebuah obyek dikatakan sebagai
outlier
jika memiliki perbedaan yang signifikan dengan tetangga terdekatnya pada set data yang sama. Efektivitas
metode berbasis
proximity
sangat bergantung pada jarak atau ukuran yang digunakan. Metode berbasis
proximity
ini sering mengalami kesulitan dalam mendeteksi
outlier
jika sebuah obyek yang dikatakan sebagai
outlier
memiliki kedekatan satu sama lain. Pendekatan
proximity-based
ini memiliki dua jenis utama deteksi
outlier
, yaitu
distance-based
, dan
density-based
. Pendekatan
clustering-based
mengasumsikan bahwa obyek yang bersifat normal tergabung dalam kelompok besar large cluster,
sedangkan obyek yang dikatakan sebagai
outlier
tidak tergabung dalam kelompok.
14
Pendekatan
classification-based
mengasumsikan bahwa
pendeteksian
outlier
menggunakan pendekatan ini dapat digunakan jika set data training dan label kelas tersedia. Ide umum dari metode
deteksi
outlier
berbasis
classification
adalah menentukan model klasifikasi yang dapat membedakan data normal dan
outlier
. Metode
outlier
basis
classification
ini sering menggunakan satu kelas sebagai label untuk menggambarkan data berupa normal atau
outlier
. Pendekatan
high-dimensional data
, memiliki beberapa contoh algoritma yaitu
Angle-Based Outlier Degree
ABOD Kriegel et.al. 2008,
Grid-Based Subspace Outlier Detection
Aggarwal Yu, 2000, dan Subspace
Outlier
Degree SOD Kriegel et.al., 2009.
2.3 MixCBLOF Mix Cluster Based Local