menjadi seribu jika data sudah berjumlah satu juta. Dengan demikian, deteksi outlier pada data yang menyimpang merupakan pekerjaan yang
penting untuk berbagai keperluan dalam data mining Prasetyo. Beberapa metode yang dapat digunakan untuk pendeteksian
outlier adalah Statistik Based, Distance Based, Density Based, dan Deviation Based.
2.2.2 Jenis Pendekatan Outlier
2.2.2.1 Statistik Based
Cara yang paling sederhana adalah cara statistik. Perlu dilakukan perhitungan rata-rata dan standar deviasi. Kemudian
berdasarkan nilai tersebut dibuat fungsi threshold berpotensi untuk dinyatakan sebagai outlier.
Kelebihan dan kekurangan Statistik Based: 1.
Jika pengetahuan data cukup jenis distribusi data dan jenis uji yang diperlukan, maka pendekatan statistik akan sangat
efektif. 2.
Umumnya sulit menemukan fungsi distribusi dan jenis uji yang tepat untuk data.
3. Kebanyakan uji hanya cocok untuk single atribut.
4. Sulit untuk menentukan fungsi distribusi dan uji yang tepat
untuk data berdimensi tinggi.
2.2.2.2 Distance Based
Sebuah metode pencarian outlier yang populer dengan menghitung jarak pada obyek tetangga terdekat nearest
neighbor. Dalam pendekatan ini, satu obyek melihat obyek- obyek local neihgborhood yang didefinisikan dengan k-
nearest neighbor. Jika ketertetanggan antar obyek relatif dekat maka dikatakan obyek tersebut normal, akan tetapi jika
ketertetanggan antar obyek relatif sangat jauh maka dikatakan obyek tersebut tidak normal Hendriyadi, 2009.
Kelebihan dan kekurangan Distance Based: 1.
Pendekatannya cukup sederhana. 2.
Basisdata yang besar akan memakan biaya yang besar. 3.
Sangat tergantung pada nilai parameter yang dipilih. 4.
Waktu proses mendeteksi outlier dan hasil deteksi kurang akurat dibandingkan dengan metode Density-Based
Hendriyadi, 2009
2.2.2.3 Density Based
Metode density-based
tidak secara
eksplisit mengklasifikasikan sebuah obyek adalah outlier atau bukan,
akan tetapi lebih kepada pemberian nilai kepada obyek sebagai derajat kekuatan, obyek tersebut dapat dikategorikan sebagai
outlier. Ukuran derajat kekuatan ini adalah local outlier factor LOF. Pendekatan untuk pencarian outlier ini hanya
membutuhkan satu parameter yaitu MinPts, dimana MinPts adalah jumlah tetangga terdekat yang digunakan untuk
mendefinisikan local neighborhood suatu obyek. MinPts diasumsikan sebagai jangkauan dari nilai MinPtsLB dan
MinPtsUB. Nilai MinPtsLB dan MinPtsUB disarankan bernilai 10 dan 20. Akhirnya semua obyek dalam dataset
dihitung nilai LOFnya Hendriyadi, 2009.
Kelebihan dan kekurangan Density Based: 1.
Dapat digunakan untuk data yang kepadatannya berbeda. 2.
Namun pemilihan parameter juga menjadi satu penentuan yang kuat dalam menentukan nilai kepadatan.
3. Tanpa LOF objek yang berada pada cluster yang berbeda
dapat dianggap outlier juga.
2.2.2.4 Deviation Based