Manfaat Outlier Berbagai Macam Pendekatan Pendeteksi Outlier

persetujuan yang menyatakan seperti apakah ketentuan outlier yang bermakna Knorr, 2002.

2.3.3 Penyebab Outlier

Outlier dapat disebabkan karena data berasal dari sumber yang berbeda, variasi alami dari data itu sendiri, dan kesalahan saat pengukuran atau eksekusi data. Adanya data outlier ini akan membuat analisis terhadap serangkaian data menjadi bias, atau tidak mencerminkan fenomena yang sebenarnya. Istilah outlier juga sering dikaitkan dengan nilai esktrem, baik ekstrem besar maupun ekstrem kecil. Sebagai ilustrasi, jika ada empat mahasiswa, mahasiswa pertama mempunyai uang saku per bulan Rp. 500 ribu, mahasiswa kedua Rp. 600 ribu, mahasiswa ketiga Rp. 700 ribu, dan mahasiswa keempat karena merupakan anak orang kaya, mempunyai uang saku per bulan sampai dengan Rp. 5 juta. Secara sekilas tampak bahwa nilai 5 juta relatif jauh dibandingkan uang saku ketiga mahasiswa yang lain.

2.3.4 Manfaat Outlier

Deteksi outlier merupakan salah satu bidang penelitian yang penting dalam topik penambangan data. Penelitian ini bermanfaat untuk mendeteksi perilaku yang tidak normal seperti deteksi penyalahgunaan kartu kredit, deteksi adanya penyusupan pada jaringan komunikasi, analisis medis, segmentasi data pelanggan yang berkaitan dengan pemasaran barang. Banyak metode telah dikembangkan untuk menyelesaikan masalah ini, namun kebanyakan hanya fokus pada data dengan atribut yang seragam, yaitu data numerik atau data kategorikal saja.

2.3.5 Berbagai Macam Pendekatan Pendeteksi Outlier

1. Metode Grafis Metode ini dilakukan dengan cara memotong data dengan observasi ke- i i=1, 2, 3,…,n. Dalam beberapa software statistika, metode ini dilakukan dalam menu scatterplot. Dari plot tersebut, pencilan akan nampak memisahkan diri dari kumpulan sebagian besar data. Gambar 2.2 Scatterplot dari data dan objek Hatta, 2012 Panah pada plot tersebut menunjuk pada data yang diduga menjadi outlier. Keuntungan dari metode ini adalah mudah dipahami tanpa melibatkan perhitungan yang rumit dan menarik karena menampilkan data secara grafis gambar. Kelemahan metode ini adalah keputusan bahwa data tersebut termasuk pencilan atau tidak bergantung pada kebijakan judgement peneliti, karena hanya mengandalkan visualisasi grafis Hatta, 2012. 2. Metode Statistik Cara paling sederhana adalah dengan cara statistik. Perlu dilakukan perhitungan rata-rata dan standar deviasi. Kemudian berdasarkan nilai tersebut dibuat fungsi threshold yang berpotensi untuk dinyatakan sebagai outlier. Pendekatan distribusi statistik untuk deteksi outlier mengasumsikan model distribusi dan probabilitas untuk sekumpulan data misalnya, distribusi normal atau Poisson untuk selanjutnya mengidentifikasi outlier menggunakan model tes discordancy kejanggalan. Pengujian membutuhkan pengetahuan dari parameter kumpulan data seperti distribusi data, pengetahuan distribusi parameter seperti rata-rata, dan perkiraan jumlah outlier. 3. Metode Distance-based Sebuah metode pencarian outlier yang popular dengan menghitung jarak pada objek tetangga terdekat nearest neighbor. Dalam pendekatan ini, satu objek melihat objek-objek local neighborhood yang didefinisikan dengan k-nearest neighbor. Jika ketetanggaan antar objek relatif dekat maka dikatakan objek tersebut normal, akan tetapi jika ketetanggaan antar objek relatif sangat jauh maka dikatakan objek tersebut tidak normal . Dengan menggunakan pendekatan Distance Based , objek O pada dataset D adalah distance based outlier DB dengan parameter pct dan dmin. Outlier DB adalah objek O pada kumpulan data T sedemikian rupa bahwa setidaknya ada sebagian kecil pct objek dalam T terletak pada jarak lebih besar dari D dari O. Objek data dikatakan sebagai outlier apabila objek tersebut memiliki objek tetangga yang sangat sedikit pada jarak tertentu dan memiliki jarak jauh dibandingkan dengan jarak rata-rata objek data tetangga terdekat. Kelebihan dari Metode Distance-Based adalah pendekatannya yang cukup sederhana. Sedangkan, kekurangan Metode Distance- Based adalah a. Untuk basisdata yang besar akan memakan biaya yang besar b. Sangat tergantung pada nilai parameter yang dipilih c. Tidak dapat menangani kasus himpunan data yang memiliki kepadatan berbeda pada daerah yang berbeda d. Waktu proses deteksi dan hasil deteksi kurang akurat dibandingkan dengan metode Density-Based Handriyani et al., 2009 4. Metode Density-Based Metode density-based tidak secara eksplisit mengklasifikasikan sebuah objek adalah outlier atau bukan, akan tetapi lebih kepada pemberian nilai kepada objek sebagai derajat kekuatan objek tersebut dapat dikategorikan sebagai outlier. Ukuran derajat kekuatan ini adalah local outlier factor LOF. Pendekatan untuk pencarian outlier ini hanya membutuhkan satu parameter yaitu MinPts, dimana MinPts adalah jumlah tetangga terdekat yang digunakan untuk mendefinisikan local neighborhood suatu objek. MinPts diasumsikan sebagai jangkauan dari nilai batas bawah dan batas atas parameter MinPts. Untuk selanjutnya semua objek dalam sekumpulan data akan dihitung nilai LOF-nya. Objek data akan dianggap memiliki nilai outlier yang tinggi jika pada jarak k tetangga terdekat memiliki kepadatan yang sangat kecil. Semakin banyak objek – objek tetangga dalam jarak k-tetangga terdekat, objek ini memiliki nilai LOF mendekati 1 dan tidak seharusnya diberi label sebagai outlier. Kelebihan Metode Density Based adalah dapat digunakan untuk data yang kepadatannya berbeda. Sedangkan, kekurangan Metode Density Based adalah : a. Pemilihan parameter juga menjadi satu penentu yang kuat dalam menentukan nilai kepadatan b. Tanpa LOF maka objek yang berada pada klaster yang berbeda dapat dianggap outlier 5. Metode Deviation Based Pada dasarnya metode Deviation-Based lebih memiliki akurasi yang baik dalam mengidentifikasi outlier karena metode ini menggunakan data cubes untuk mengidentifikasi daerah-dearah anomali pada data multidimensional yang besar.Metode Deviation Based mengindentifikasi outlier dengan menentukan karateristik utama dari objek dalam sebuah grup. Objek yang memiliki deviasi dari deskripsi tersebut akan dianggap sebagai outlier Han Kamber, 2006. Terdapat dua teknik yang digunakan dalam pendekatan deviation based , yaitu a. Teknik Sequential Exception, dengan mensimulasikan cara manusia membedakan objek yang berbeda dari sederetan objek normal b. Teknik OLAP OnLine Analysis Processing data cube : menggunakan data cube untuk mengindentifikasi daerah-daerah outlier pada data multidimensional yang besar Data preprocessing dalam deteksi outlier merupakan hal yang penting untuk diperhatikan karena data yang akan dihasilkan dalam deteksi outlier ini khusus pada kasus data berdimensi sangat tinggi. Reduksi dimensi merupakan satu hal yang sangat menarik untuk diteliti lebih lanjut. 2.4 Metode Pendeteksi Outlier dengan Pendekatan Distance-Based Sebuah objek, o pada kumpulan data, D , adalah distance-based DB outlier dengan parameter pct dan dmin, jika setidaknya ada bagian dari pct , dalam objek- objek pada D terletak lebih jauh dari jarak dmin ke o. Dengan kata lain, daripada mengandalkan uji statistik, kita bisa memikirkan outlier berbasis jarak seperti objek-objek tersebut yang tidak memiliki cukup tetangga, dimana tetangga didefinisikan berdasarkan jarak dari objek yang diberikan. Dibandingkan dengan metode pendekatan statistik , deteksi outlier berbasis jarak menyamaratakan ide dibalik pengujian discordancy kejanggalan untuk berbagai macam standar distribusi. Deteksi outlier berbasis jarak menghindari perhitungan yang berlebihan yang dapat dikaitkan dengan ketepatan distribusi yang diamati ke dalam beberapa distribusi standar dan dalam memilih pengujian discordancy kejanggalan Han Kamber, 2006. Deteksi outlier berbasis jarak mengharuskan pengguna untuk mengatur kedua parameter pct dan dmin. Menemukan pengaturan yang cocok untuk parameter tersebut dapat melibatkan banyak percobaan dan kesalahan. Dalam penentuan parameter pct dan dmin keterlibatan pengguna diperlukan untuk mengubahnya secara berkelanjutan dalam menentukan outlier diberbagai variasi pengujian. Terdapat tiga algoritma pendeteksi outlier dalam pendekatan Distance Based, yaitu algoritma index based, naïve nested loop, block-based nested loop dan cell based . Pada penelitian tugas akhir ini akan menggunakan algoritma naïve nested loop .

2.4.1 Algoritma Naïve Nested Loop

Dokumen yang terkait

Deteksi outlier menggunakan Algoritma Local Correlation Integral (LOCI) : studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma.

0 0 258

Deteksi outlier menggunakan Algoritma Local Outlier Probability : studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma.

0 5 265

Deteksi outlier menggunakan Algoritma Connectivity Based Outlier Factor : studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma.

0 4 252

Deteksi Outlier menggunakan algoritma Block-Based Nested-Loop : studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma.

0 2 202

Deteksi outlier menggunakan algoritma Naive Nested Loop (studi kasus : data akademik mahasiswa program studi PS Universitas XYZ).

0 0 4

Deteksi outlier menggunakan Algoritma Connectivity Based Outlier Factor studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma

1 8 250

Deteksi outlier menggunakan Algoritma Local Outlier Probability studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma

1 9 263

Deteksi Outlier menggunakan algoritma Block Based Nested Loop studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma

0 1 200

Deteksi outlier menggunakan Algoritma Local Correlation Integral (LOCI) studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma

0 4 256

Deteksi Outlier menggunakan algoritma Naive Nested Loop : studi kasus data akademik mahasiswa Program Studi Teknik Informatika, Universitas Sanata Dharma, Yogyakarta - USD Repository

0 0 234