pertama berkaitan dengan pola yang dimiliki oleh banyak obyek atau pada obyek dengan persentase yang besar dalam dataset. Berbagai penelitian penambangan
data mengenai aturan asosiasi, klasifikasi, klastering dan generalisasi konsep termasuk dalam tiga kategori tersebut. Sebaliknya, kategori keempat berfokus
pada obyek dengan persentase yang kecil, yang umumnya sering diabaikan atau dihilangkan karena dianggap noise Knorr Ng, 1998.
Evaluation merupakan tahap pembuatan pola atau pemetaan berdasarkan
hasil penambangan data. Tujuan dilakukannya tahap ini untuk membantu pihak- pihak yang berkepentingan terhadap data yang dianalisis untuk memperoleh
gambaran tentang data tersebut. Pembuatan diagram atau pohon keputusan merupakan contoh visualisasi hasil penambangan data. Visualisasi dapat
memberikan gambaran yang lebih mudah dipahami dibandingkan hasil sebuah penambangan data. Setelah tahap visualisasi selesai maka akan diperoleh hasil
akhir analisis data yaitu knowledge.
2.2 Outlier Detection
2.2.1 Pengertian Outlier
Outlier dalam sekumpulan data merupakan data yang dianggap tidak
mirip atau tidak konsisten dengan data lainnya. Outlier merupakan hasil observasi data pengukuran dalam suatu kumpulan data yang nilainya sangat
berbeda jika dibandingkan dengan sekumpulan data dari pengukuran lain Hawkins, 1980. Outlier juga merupakan data yang tidak mengikuti pola umum
atau model dari data lainnya yang berada dalam kumpulan yang sama. Outlier
terlihat berbeda jauh dan tidak konsisten dengan data lain Han Kamber, 2006.
2.2.2 Penyebab Outlier
Pertama, munculnya outlier dapat disebabkan oleh data pengukuran yang salah. Sebagai contoh, munculnya data umur seseorang yaitu 999 tahun dapat
disebabkan oleh pengaturan otomatis default program. Pengaturan otomatis ini diberlakukan pada data umur yang tidak direkam missing values Han
Kamber, 2006. Kedua, kemunculan outlier juga dapat dikarenakan data pengukuran
berasal dari populasi lain. Contohnya yaitu gaji seorang pimpinan perusahaan dapat dianggap sebagai outlier di antara gaji para karyawan di perusahaan
tersebut Han Kamber, 2006. Hal ini disebabkan adanya perbedaan yang sangat mencolok antara gaji seorang pimpinan dan gaji karyawan di sebuah
perusahaan. Ketiga, outlier berasal dari data pengukuran yang benar tetapi mewakili
peristiwa atau keadaan unik yang jarang terjadi. Sebagai contoh, terdapat sebuah sekolah yang selalu menghasilkan lulusan dengan nilai yang sangat rendah setiap
tahun. Ketika terdapat seorang siswa yang lulus dari sekolah tersebut dengan nilai yang sangat tinggi, maka siswa itu akan dianggap sebagai outlier.
2.2.3 Manfaat Deteksi Outlier
Sebagian besar
algoritma penambangan
data berfokus
untuk meminimalkan pengaruh outlier atau mengeliminasi outlier tersebut. Hal ini
dapat mengakibatkan hilangnya informasi penting yang tersembunyi dibalik outlier
tersebut. Outlier sebenarnya dapat menjadi hal yang menarik untuk dianalisis lebih lanjut.
Deteksi outlier outlier detection adalah deteksi yang dilakukan pada sekumpulan obyek untuk menemukan obyek yang memiliki tingkat kemiripan
yang sangat rendah dibandingkan dengan obyek lainnya. Deteksi outlier umumya digunakan untuk menemukan kejanggalan dalam data, deteksi kecurangan data
atau untuk mengetahui adanya pola khusus dalam sekumpulan data. Deteksi outlier
sering dimanfaatkan untuk mendeteksi kecurangan penggunaan kredit atau layanan telekomunikasi. Deteksi outlier juga berguna dalam bidang
pemasaran, yaitu untuk mengidentifikasi perilaku belanja konsumen dengan tingkat pendapatan yang tinggi atau rendah. Dalam dunia kesehatan, deteksi
outlier digunakan untuk menemukan respon yang tidak biasanya atau berbeda
terhadap berbagai perawatan kesehatan Han Kamber, 2006. Di bidang pendidikan, deteksi outlier dapat digunakan untuk mengetahui prestasi akademik
mahasiswa yang berbeda secara signifikan dari mahasiswa lainnya dalam universitas yang sama Tair El-Halees, 2012.
3.2.4 Metode Deteksi Outlier