Metode Pendekatan Outlier Outlier

2.2.3 Metode Pendekatan Outlier

Menurut Jiawei Han dan Kamber, teknik data mining dapat digunakan untuk mendeteksi adanya suatu outlier pada sebuah dataset. Teknik data mining yang digunakan adalah metode deteksi outlier dengan menggunakan metode statistical distribution based, distance based , density based, dan deviation based. 1. Statistical Distribution based Dalam metode ini data diasumsikan sebagai sebuah hipotesis kerja. Setiap data obyek di dalam dataset dibandingkan terhadap hipotesis kerja. Data yang dapat diterima maka akan masuk dalam hipotesis kerja, sedangkan data yang ditolak atau tidak sesuai dengan hipotesis kerja maka ditetapkan menjadi hipotesis alternatif outlier. Kelebihan metode ini jika pengetahuan data akan jenis distribut data dan jenis uji yang diperlukan sudah cukup, maka pendekatan statistik sangat efektif. Akan tetapi kekurangan dari metode pendekatan ini adalah sulit untuk menemukan fungsi distribusi dan jenis uji yang tepat untuk data dikarenakan kebanyakan uji hanya cocok untuk single atribut. Selain itu juga ditemukan kesulitan dalam menentukan fungsi distribusi dan uji yang tepat untuk data berdimensi tinggi. 2. Distance based Metode ini adalah sebuah metode deteksi outlier dengan menghitung jarak pada obyek tetangga terdekat nearest neighbor . Di dalam pendekatan ini sebuah obyek melihat obyek- obyek local neighborhod yang didefinisikan sebagai k-nearest neighbor . Jika ketetanggaan sebuah obyek relatif dekat maka obyek tersebut dikatakan normal, namun jika ketetanggaan antar obyek relative jauh maka obyek tersebut dikatakan tidak normal outlier . Kelebihan dari metode pendekatan ini adalah sederhana. Akan tetapi untuk menangani basis data yang besar akan memakan biaya besar, sangat bergantung dengan nilai parameter yang dipilih dan juga tidak dapat menangani kasus himpunan data yang memiliki kepadatan berbeda pada daerah berbeda. 3. Density based Metode density-based tidak secara eksplisit mengklasifikasikan sebuah obyek adalah outlier atau bukan, akan tetapi lebih kepada pemberian nilai kepada obyek sebagai derajat kekuatan obyek tersebut dapat dikategorikan sebagai outlier. Ukuran derajat kekuatan ini adalah local outlier factor LOF. Pendekatan untuk pencarian outlier ini hanya membutuhkan sebuah parameter yaitu k, k adalah jangkauan atau jumlah tetangga terdekat yang digunakan untuk mendefinisikan local Neighborhood suatu obyek. 4. Deviation based Metode deviation based tidak menggunakan pengujian statistik ataupun perbandingan jarak untuk mengidentifikasi sebuah outlier . Sebaliknya metode ini mengidentifikasi sebuah outlier dengan memeriksa karakteristik utama dari obyek dalam sebuah kumpulan. Obyek yang memiliki karakteristik diluar karakteristik utama maka akan dianggap sebagai outlier. Kelebihan dari metode pendekatan ini adalah dapat digunakan untuk data yang kepadatannya berbeda. Namun pemilihan parameter juga menjadi satu penentu yang kuat dalam menentukan nilai kepadatan.

2.3 Algoritma Local Outlier Probability

Dokumen yang terkait

Deteksi outlier menggunakan Algoritma Local Correlation Integral (LOCI) : studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma.

0 0 258

Deteksi outlier menggunakan Algoritma Connectivity Based Outlier Factor : studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma.

0 4 252

Deteksi Outlier menggunakan algoritma Block-Based Nested-Loop : studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma.

0 2 202

Deteksi Outlier menggunakan algoritma Naive Nested Loop : studi kasus data akademik mahasiswa Program Studi Teknik Informatika, Universitas Sanata Dharma, Yogyakarta.

2 3 236

Deteksi outlier menggunakan Algoritma Connectivity Based Outlier Factor studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma

1 8 250

Deteksi outlier menggunakan Algoritma Local Outlier Probability studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma

1 9 263

Deteksi Outlier menggunakan algoritma Block Based Nested Loop studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma

0 1 200

Deteksi outlier menggunakan Algoritma Local Correlation Integral (LOCI) studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma

0 4 256

Deteksi outlier menggunakan algoritma local outlier factor : studi kasus data akademik mahasiswa TI Universitas Sanata Dharma - USD Repository

0 0 241

Deteksi Outlier menggunakan algoritma Naive Nested Loop : studi kasus data akademik mahasiswa Program Studi Teknik Informatika, Universitas Sanata Dharma, Yogyakarta - USD Repository

0 0 234