12
1. Data Cleaning
Langkah ini merupakan langkah untuk menghilangkan noise pengganggu dan data yang tidak konsisten.
2. Data Integration
Langkah ini merupakan suatu proses dimana beberapa sumber data digabungkan menjadi satu kesatuan.
3. Data Selection
Langkah ini merupakan proses untuk melakukan analisis, dimana data yang relevan diambil dari database.
4. Data Transformation
Langkah ini merupakan proses dimana data diubah transformasi menjadi data yang tepat untuk ditambang
sehingga dapat dilakukan proses operasi seperti penjumlahan atau penggabungan.
5. Data Mining
Langkah ini merupakan proses penting di mana metode cerdas yang diterapkan untuk mengekstrak pola data.
6. Pattern Evaluation
Langkah ini merupakan proses untuk mengidentifikasi pola- pola menarik yang menampilkan basis pengetahuan dalam
suatu ukuran ketertarikan. 7.
Knowledge Presentation Langkah ini merupakan proses dimana teknik untuk
menampilkan suatu gambaran dan representasi pengetahuan hasil tambang kepada pengguna.
2.2 Outlier
2.2.1 Pengertian Outlier
Ada beberapa pengertian outlier dari beberapa sumber. Menurut Han et.al. 2012, outlier adalah objek data yang menyimpang secara
signifikan dari sisa data, seolah-olah itu dihasilkan oleh mekanisme PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
yang berbeda. Menurut Hawkins 1980, outlier merupakan pengamatan yang berbeda dari pengamatan lainnya sehingga
menimbulkan kecurigaan bahwa hal itu dihasilkan oleh berbagai mekanisme.
2.2.2 Pendekatan Deteksi Outlier
Menurut Han et.al. 2012, pendeteksian outlier terdapat beberapa pendekatan, antara lain statistical methods, proximity-based approach,
clustering-based approach, classficication-based approach, dan high- dimensional data.
Pendekatan statistical methods atau biasa dikenal sebagai metode berbasis model membuat asumsi mengenai normalitas data.
Pendekatan ini dianggap bahwa obyek data normal dihasilkan oleh model statistik, sedangkan data yang tidak mengikuti model dianggap
sebagai outlier. Efektivitas statistical methods sangat bergantung pada asumsi apakah model statistik yang dibuat selalu berlaku untuk data
yang diberikan. Pendekatan proximity-based mengasumsikan bahwa sebuah obyek
dikatakan sebagai outlier jika memiliki perbedaan yang signifikan dengan tetangga terdekatnya pada set data yang sama. Efektivitas
metode berbasis proximity sangat bergantung pada jarak atau ukuran yang digunakan. Metode berbasis proximity ini sering mengalami
kesulitan dalam mendeteksi outlier jika sebuah obyek yang dikatakan sebagai outlier memiliki kedekatan satu sama lain. Pendekatan
proximity-based ini memiliki dua jenis utama deteksi outlier, yaitu distance-based, dan density-based.
Pendekatan clustering-based mengasumsikan bahwa obyek yang bersifat normal tergabung dalam kelompok besar large cluster,
sedangkan obyek yang dikatakan sebagai outlier tidak tergabung dalam kelompok.
14
Pendekatan classification-based
mengasumsikan bahwa
pendeteksian outlier menggunakan pendekatan ini dapat digunakan jika set data training dan label kelas tersedia. Ide umum dari metode
deteksi outlier berbasis classification adalah menentukan model klasifikasi yang dapat membedakan data normal dan outlier. Metode
outlier basis classification ini sering menggunakan satu kelas sebagai label untuk menggambarkan data berupa normal atau outlier.
Pendekatan high-dimensional data, memiliki beberapa contoh algoritma yaitu Angle-Based Outlier Degree ABOD Kriegel et.al.
2008, Grid-Based Subspace Outlier Detection Aggarwal Yu, 2000, dan Subspace Outlier Degree SOD Kriegel et.al., 2009.
2.3 MixCBLOF Mix Cluster Based Local Outlier Factor