Dalam analisis outlier terdapat dua masalah besar yaitu penentuan data apa yang dapat dipertimbangkan sebagai outlier dan menemukan metode yang
efisien untuk menggali outlier yang ditetapkan.
2.3.2 Hubungan Antara Penambangan Data dengan Outlier
Kecanggihan dan kemungkinan otomatisasi algoritma penambangan data dibutuhkan untuk mendukung kinerja ilmuwan dan ahli statistika.
Sekumpulan data yang ada dapat meningkat secara drastis, hal ini memperjelas bahwa perangkat penambangan data yang baik akan dibutuhkan untuk
pemanfaatan data dalam kebutuhan strategi penelitian Knoor,2002. Walaupun secara tradisional ilmuwan mampu menyelesaikan
pengolahan data dengan jumlah atribut yang sedikit secara efektif, namun ukuran kumpulan data dan jumlah dimensi dalam jumlah yang besar telah
terbukti menjadi kunci penghambat pada analisis data Han Kamber, 2006. Salah satu permasalahan dalam penambangan data adalah identifikasi
outlier secara efisien pada sekumpulan data yang memiliki lebih dari satu
jumlah atribut. Permasalahan lain adalah jumlah informasi tambahan yang dapat disediakan oleh algoritma pendeteksi outlier.
Dalam beberapa teknik deteksi outlier yang ada, terdapat tahapan identifikasi untuk menyediakan penjelasan atau deskripsi data mana saja yang
menjadi outlier pada sebuah kumpulan data dan menyediakan informasi mengenai makna hubungan antar outlier. Meskipun dapat dikatakan bahwa
outlier merupakan data yang cukup berbeda dari data lain, masih sedikit
persetujuan yang menyatakan seperti apakah ketentuan outlier yang bermakna Knorr, 2002.
2.3.3 Penyebab Outlier
Outlier dapat disebabkan karena data berasal dari sumber yang berbeda,
variasi alami dari data itu sendiri, dan kesalahan saat pengukuran atau eksekusi data. Adanya data outlier ini akan membuat analisis terhadap serangkaian data
menjadi bias, atau tidak mencerminkan fenomena yang sebenarnya. Istilah outlier
juga sering dikaitkan dengan nilai esktrem, baik ekstrem besar maupun ekstrem kecil. Sebagai ilustrasi, jika ada empat mahasiswa, mahasiswa pertama
mempunyai uang saku per bulan Rp. 500 ribu, mahasiswa kedua Rp. 600 ribu, mahasiswa ketiga Rp. 700 ribu, dan mahasiswa keempat karena merupakan
anak orang kaya, mempunyai uang saku per bulan sampai dengan Rp. 5 juta. Secara sekilas tampak bahwa nilai 5 juta relatif jauh dibandingkan uang saku
ketiga mahasiswa yang lain.
2.3.4 Manfaat Outlier