Statistik Based Distance Based Density Based

menjadi seribu jika data sudah berjumlah satu juta. Dengan demikian, deteksi outlier pada data yang menyimpang merupakan pekerjaan yang penting untuk berbagai keperluan dalam data mining Prasetyo. Beberapa metode yang dapat digunakan untuk pendeteksian outlier adalah Statistik Based, Distance Based, Density Based, dan Deviation Based.

2.2.2 Jenis Pendekatan Outlier

2.2.2.1 Statistik Based

Cara yang paling sederhana adalah cara statistik. Perlu dilakukan perhitungan rata-rata dan standar deviasi. Kemudian berdasarkan nilai tersebut dibuat fungsi threshold berpotensi untuk dinyatakan sebagai outlier. Kelebihan dan kekurangan Statistik Based: 1. Jika pengetahuan data cukup jenis distribusi data dan jenis uji yang diperlukan, maka pendekatan statistik akan sangat efektif. 2. Umumnya sulit menemukan fungsi distribusi dan jenis uji yang tepat untuk data. 3. Kebanyakan uji hanya cocok untuk single atribut. 4. Sulit untuk menentukan fungsi distribusi dan uji yang tepat untuk data berdimensi tinggi.

2.2.2.2 Distance Based

Sebuah metode pencarian outlier yang populer dengan menghitung jarak pada obyek tetangga terdekat nearest neighbor. Dalam pendekatan ini, satu obyek melihat obyek- obyek local neihgborhood yang didefinisikan dengan k- nearest neighbor. Jika ketertetanggan antar obyek relatif dekat maka dikatakan obyek tersebut normal, akan tetapi jika ketertetanggan antar obyek relatif sangat jauh maka dikatakan obyek tersebut tidak normal Hendriyadi, 2009. Kelebihan dan kekurangan Distance Based: 1. Pendekatannya cukup sederhana. 2. Basisdata yang besar akan memakan biaya yang besar. 3. Sangat tergantung pada nilai parameter yang dipilih. 4. Waktu proses mendeteksi outlier dan hasil deteksi kurang akurat dibandingkan dengan metode Density-Based Hendriyadi, 2009

2.2.2.3 Density Based

Metode density-based tidak secara eksplisit mengklasifikasikan sebuah obyek adalah outlier atau bukan, akan tetapi lebih kepada pemberian nilai kepada obyek sebagai derajat kekuatan, obyek tersebut dapat dikategorikan sebagai outlier. Ukuran derajat kekuatan ini adalah local outlier factor LOF. Pendekatan untuk pencarian outlier ini hanya membutuhkan satu parameter yaitu MinPts, dimana MinPts adalah jumlah tetangga terdekat yang digunakan untuk mendefinisikan local neighborhood suatu obyek. MinPts diasumsikan sebagai jangkauan dari nilai MinPtsLB dan MinPtsUB. Nilai MinPtsLB dan MinPtsUB disarankan bernilai 10 dan 20. Akhirnya semua obyek dalam dataset dihitung nilai LOFnya Hendriyadi, 2009. Kelebihan dan kekurangan Density Based: 1. Dapat digunakan untuk data yang kepadatannya berbeda. 2. Namun pemilihan parameter juga menjadi satu penentuan yang kuat dalam menentukan nilai kepadatan. 3. Tanpa LOF objek yang berada pada cluster yang berbeda dapat dianggap outlier juga.

2.2.2.4 Deviation Based