2.2.3 Metode Pendekatan Outlier
Menurut Jiawei Han dan Kamber, teknik data mining dapat digunakan untuk mendeteksi adanya suatu outlier pada sebuah dataset.
Teknik data mining yang digunakan adalah metode deteksi outlier dengan menggunakan metode statistical distribution based, distance
based , density based, dan deviation based.
1. Statistical Distribution based
Dalam metode ini data diasumsikan sebagai sebuah hipotesis kerja. Setiap data obyek di dalam dataset dibandingkan terhadap
hipotesis kerja. Data yang dapat diterima maka akan masuk dalam hipotesis kerja, sedangkan data yang ditolak atau tidak sesuai
dengan hipotesis kerja maka ditetapkan menjadi hipotesis alternatif outlier.
Kelebihan metode ini jika pengetahuan data akan jenis distribut data dan jenis uji yang diperlukan sudah cukup, maka pendekatan
statistik sangat efektif. Akan tetapi kekurangan dari metode pendekatan ini adalah sulit untuk menemukan fungsi distribusi
dan jenis uji yang tepat untuk data dikarenakan kebanyakan uji hanya cocok untuk single atribut. Selain itu juga ditemukan
kesulitan dalam menentukan fungsi distribusi dan uji yang tepat untuk data berdimensi tinggi.
2. Distance based
Metode ini adalah sebuah metode deteksi outlier dengan menghitung jarak pada obyek tetangga terdekat nearest
neighbor . Di dalam pendekatan ini sebuah obyek melihat obyek-
obyek local neighborhod yang didefinisikan sebagai k-nearest neighbor
. Jika ketetanggaan sebuah obyek relatif dekat maka obyek tersebut dikatakan normal, namun jika ketetanggaan antar
obyek relative jauh maka obyek tersebut dikatakan tidak normal outlier
.
Kelebihan dari metode pendekatan ini adalah sederhana. Akan tetapi untuk menangani basis data yang besar akan memakan
biaya besar, sangat bergantung dengan nilai parameter yang dipilih dan juga tidak dapat menangani kasus himpunan data yang
memiliki kepadatan berbeda pada daerah berbeda. 3.
Density based Metode density-based tidak secara eksplisit mengklasifikasikan
sebuah obyek adalah outlier atau bukan, akan tetapi lebih kepada pemberian nilai kepada obyek sebagai derajat kekuatan obyek
tersebut dapat dikategorikan sebagai outlier. Ukuran derajat kekuatan ini adalah local outlier factor LOF. Pendekatan untuk
pencarian outlier ini hanya membutuhkan sebuah parameter yaitu k, k adalah jangkauan atau jumlah tetangga terdekat yang
digunakan untuk mendefinisikan local Neighborhood suatu obyek.
4. Deviation based
Metode deviation based tidak menggunakan pengujian statistik ataupun perbandingan jarak untuk mengidentifikasi sebuah
outlier . Sebaliknya metode ini mengidentifikasi sebuah outlier
dengan memeriksa karakteristik utama dari obyek dalam sebuah kumpulan. Obyek yang memiliki karakteristik diluar karakteristik
utama maka akan dianggap sebagai outlier. Kelebihan dari metode pendekatan ini adalah dapat digunakan
untuk data yang kepadatannya berbeda. Namun pemilihan parameter juga menjadi satu penentu yang kuat dalam
menentukan nilai kepadatan.
2.3 Algoritma Local Outlier Probability