persetujuan yang menyatakan seperti apakah ketentuan outlier yang bermakna Knorr, 2002.
2.3.3 Penyebab Outlier
Outlier dapat disebabkan karena data berasal dari sumber yang berbeda,
variasi alami dari data itu sendiri, dan kesalahan saat pengukuran atau eksekusi data. Adanya data outlier ini akan membuat analisis terhadap serangkaian data
menjadi bias, atau tidak mencerminkan fenomena yang sebenarnya. Istilah outlier
juga sering dikaitkan dengan nilai esktrem, baik ekstrem besar maupun ekstrem kecil. Sebagai ilustrasi, jika ada empat mahasiswa, mahasiswa pertama
mempunyai uang saku per bulan Rp. 500 ribu, mahasiswa kedua Rp. 600 ribu, mahasiswa ketiga Rp. 700 ribu, dan mahasiswa keempat karena merupakan
anak orang kaya, mempunyai uang saku per bulan sampai dengan Rp. 5 juta. Secara sekilas tampak bahwa nilai 5 juta relatif jauh dibandingkan uang saku
ketiga mahasiswa yang lain.
2.3.4 Manfaat Outlier
Deteksi outlier merupakan salah satu bidang penelitian yang penting dalam topik penambangan data. Penelitian ini bermanfaat untuk mendeteksi
perilaku yang tidak normal seperti deteksi penyalahgunaan kartu kredit, deteksi adanya penyusupan pada jaringan komunikasi, analisis medis, segmentasi data
pelanggan yang berkaitan dengan pemasaran barang. Banyak metode telah dikembangkan untuk menyelesaikan masalah ini, namun kebanyakan hanya
fokus pada data dengan atribut yang seragam, yaitu data numerik atau data kategorikal saja.
2.3.5 Berbagai Macam Pendekatan Pendeteksi Outlier
1. Metode Grafis
Metode ini dilakukan dengan cara memotong data dengan observasi ke-
i i=1, 2, 3,…,n. Dalam beberapa software statistika, metode ini dilakukan dalam menu scatterplot. Dari plot tersebut, pencilan akan
nampak memisahkan diri dari kumpulan sebagian besar data.
Gambar 2.2 Scatterplot dari data dan objek Hatta, 2012
Panah pada plot tersebut menunjuk pada data yang diduga menjadi outlier. Keuntungan dari metode ini adalah mudah dipahami tanpa melibatkan
perhitungan yang rumit dan menarik karena menampilkan data secara grafis gambar. Kelemahan metode ini adalah keputusan bahwa data
tersebut termasuk pencilan atau tidak bergantung pada kebijakan judgement peneliti, karena hanya mengandalkan visualisasi grafis Hatta,
2012. 2.
Metode Statistik Cara paling sederhana adalah dengan cara statistik. Perlu dilakukan
perhitungan rata-rata dan standar deviasi. Kemudian berdasarkan nilai
tersebut dibuat fungsi threshold yang berpotensi untuk dinyatakan sebagai outlier.
Pendekatan distribusi
statistik untuk
deteksi outlier
mengasumsikan model distribusi dan probabilitas untuk sekumpulan data misalnya, distribusi normal atau Poisson untuk selanjutnya
mengidentifikasi outlier menggunakan model tes discordancy kejanggalan. Pengujian membutuhkan pengetahuan dari parameter
kumpulan data seperti distribusi data, pengetahuan distribusi parameter seperti rata-rata, dan perkiraan jumlah outlier.
3. Metode Distance-based
Sebuah metode pencarian outlier yang popular dengan menghitung jarak pada objek tetangga terdekat nearest neighbor. Dalam
pendekatan ini, satu objek melihat objek-objek local neighborhood yang didefinisikan dengan k-nearest neighbor. Jika ketetanggaan antar
objek relatif dekat maka dikatakan objek tersebut normal, akan tetapi jika ketetanggaan antar objek relatif sangat jauh maka dikatakan objek
tersebut tidak normal
.
Dengan menggunakan pendekatan Distance Based
, objek O pada dataset D adalah distance based outlier DB dengan parameter pct dan dmin. Outlier DB adalah objek O pada
kumpulan data T sedemikian rupa bahwa setidaknya ada sebagian kecil pct objek dalam T terletak pada jarak lebih besar dari D dari O.
Objek data dikatakan sebagai outlier apabila objek tersebut memiliki objek tetangga yang sangat sedikit pada jarak tertentu dan
memiliki jarak jauh dibandingkan dengan jarak rata-rata objek data tetangga terdekat.
Kelebihan dari Metode Distance-Based adalah pendekatannya yang cukup sederhana. Sedangkan, kekurangan Metode Distance-
Based adalah
a. Untuk basisdata yang besar akan memakan biaya yang besar
b. Sangat tergantung pada nilai parameter yang dipilih
c. Tidak dapat menangani kasus himpunan data yang memiliki
kepadatan berbeda pada daerah yang berbeda d.
Waktu proses deteksi dan hasil deteksi kurang akurat dibandingkan dengan metode Density-Based Handriyani et al.,
2009
4. Metode Density-Based
Metode density-based tidak secara eksplisit mengklasifikasikan sebuah objek adalah outlier atau bukan, akan tetapi lebih kepada
pemberian nilai kepada objek sebagai derajat kekuatan objek tersebut dapat dikategorikan sebagai outlier. Ukuran derajat kekuatan ini
adalah local outlier factor LOF. Pendekatan untuk pencarian outlier ini hanya membutuhkan satu parameter yaitu MinPts, dimana MinPts
adalah jumlah tetangga terdekat yang digunakan untuk mendefinisikan
local neighborhood suatu objek. MinPts diasumsikan sebagai
jangkauan dari nilai batas bawah dan batas atas parameter MinPts. Untuk selanjutnya semua objek dalam sekumpulan data akan dihitung
nilai LOF-nya. Objek data akan dianggap memiliki nilai outlier yang tinggi jika
pada jarak k tetangga terdekat memiliki kepadatan yang sangat kecil. Semakin banyak objek
– objek tetangga dalam jarak k-tetangga terdekat, objek ini memiliki nilai LOF mendekati 1 dan tidak
seharusnya diberi label sebagai outlier. Kelebihan Metode Density Based adalah dapat digunakan untuk data
yang kepadatannya berbeda. Sedangkan, kekurangan Metode Density Based
adalah : a.
Pemilihan parameter juga menjadi satu penentu yang kuat dalam menentukan nilai kepadatan
b. Tanpa LOF maka objek yang berada pada klaster yang berbeda
dapat dianggap outlier 5.
Metode Deviation Based Pada dasarnya metode Deviation-Based lebih memiliki akurasi
yang baik dalam mengidentifikasi outlier karena metode ini menggunakan data cubes untuk mengidentifikasi daerah-dearah
anomali pada data multidimensional yang besar.Metode Deviation Based
mengindentifikasi outlier dengan menentukan karateristik utama dari objek dalam sebuah grup. Objek yang memiliki deviasi
dari deskripsi tersebut akan dianggap sebagai outlier Han Kamber, 2006.
Terdapat dua teknik yang digunakan dalam pendekatan deviation based
, yaitu a.
Teknik Sequential Exception, dengan mensimulasikan cara manusia membedakan objek yang berbeda dari sederetan objek
normal b.
Teknik OLAP OnLine Analysis Processing data cube : menggunakan data cube untuk mengindentifikasi daerah-daerah
outlier pada data multidimensional yang besar
Data preprocessing dalam deteksi outlier merupakan hal yang penting
untuk diperhatikan karena data yang akan dihasilkan dalam deteksi outlier
ini khusus pada kasus data berdimensi sangat tinggi. Reduksi dimensi merupakan satu hal yang sangat menarik untuk diteliti lebih
lanjut. 2.4 Metode Pendeteksi Outlier dengan Pendekatan Distance-Based
Sebuah objek, o pada kumpulan data, D , adalah distance-based DB outlier dengan parameter pct dan dmin, jika setidaknya ada bagian dari pct , dalam objek-
objek pada D terletak lebih jauh dari jarak dmin ke o. Dengan kata lain, daripada mengandalkan uji statistik, kita bisa memikirkan outlier berbasis jarak seperti
objek-objek tersebut yang tidak memiliki cukup tetangga, dimana tetangga didefinisikan berdasarkan jarak dari objek yang diberikan. Dibandingkan dengan
metode pendekatan statistik , deteksi outlier berbasis jarak menyamaratakan ide
dibalik pengujian discordancy kejanggalan untuk berbagai macam standar distribusi. Deteksi outlier berbasis jarak menghindari perhitungan yang berlebihan
yang dapat dikaitkan dengan ketepatan distribusi yang diamati ke dalam beberapa distribusi standar dan dalam memilih pengujian discordancy kejanggalan Han
Kamber, 2006. Deteksi outlier berbasis jarak mengharuskan pengguna untuk mengatur kedua
parameter pct dan dmin. Menemukan pengaturan yang cocok untuk parameter tersebut dapat melibatkan banyak percobaan dan kesalahan. Dalam penentuan
parameter pct dan dmin keterlibatan pengguna diperlukan untuk mengubahnya secara berkelanjutan dalam menentukan outlier diberbagai variasi pengujian.
Terdapat tiga algoritma pendeteksi outlier dalam pendekatan Distance Based, yaitu algoritma index based, naïve nested loop, block-based nested loop dan cell
based . Pada penelitian tugas akhir ini akan menggunakan algoritma naïve nested
loop .
2.4.1 Algoritma Naïve Nested Loop