Manfaat Penelitian Metodologi Penelitian

9 metode statistik yang paling sering digunakan untuk memprediksi numerik meskipun ada metode lainnya. Regresi juga mencakup identifikasi distribusi tren berdasarkan data yang tersedia. Klasifikasi dan regresi perlu didahului dengan analisis relevansi yaitu upaya untuk mengidentifikasi atribut yang relevan klasifikasi dan proses regresi. Atribut tersebut kemudian dipilih untuk proses klasifikasi dan regresi. Atribut yang tidak relevan dikeluarkan atau tidak digunakan. d. Analisis Pengelompokan atau Klastering Tidak seperti klasifikasi dan regresi yang menganalisa set data kelas berlabel, klastering menganalisa datatabpa label kelas. Dalam banyak kasus data dengan kelas berlabel mungkim tidak ada diawal. Klastering dapat digunakan untuk menghasilkan label kelas untuk sekelompok data. Objek yang bergerombol atau berkelompok berdasarkan pada prinsip memaksimalkan kesamaan intrakelas dan meminimalkan kesamaan antarkelas, sehingga objek dalam sebuah kelompok memiliki kesamaan yang tinggi dibandingkan satu sama lain tapi berbeda dengan objek dalam kelompok lainnya. e. Analisis Outlier Satu set data yang mungkin berisi objek yang tidak sesuai dengan perilaku umum atau model dari data atau yang disebut outlier . Banyak metode dalam penambangan data membuang oulier karena dianggap sebagai kebisingan atau pengecualian. Namun, dalam beberapa aplikasi identifikasi peristiwa langka lebih menarik daripada peristiwa yang terjadi lebih teratur. Outlier dapat dideteksi menggunakan uji statistik yang mengasumsikan distribusi atau probabilitas model untuk data, atau menggunakan jarak antarobjek dimana objek yang jauh dari setiap kelompok lainnya adalah outlier. Metode density-based mengidentifikasi outlier di bagian lokal meskipun outlier tersebut 10 teridentifikasi sebagai data yang normal dengan menggunakan metode statistik. 2.2 Outlier

2.2.1 Pengertian

Outlier Menurut Han dan Kamber 2012 outlier adalah objek data yang menyimpang jauh dalam suatu set data, seolah-olah objek tersebut dihasilkan dengan mekanisme yang berbeda. Deteksi outlier adalah proses mencari objek data dengan perilaku atau karakteristik yang sangat berbeda dari harapan. Objek data tersebut disebut outlier atau anomali. Banyak algoritma dalam penambangan data mencoba meminimalisasikan atau bahkan mengeliminasi outlier . Namun outlier bisa saja menghasilkan informasi penting yang tersembunyi karena noise satu orang bisa menjadi sinyal bagi orang lain. Deteksi outlier penting dalam banyak aplikasi untuk mendeteksi penipuan seperti perawatan medis, keselamatan publik dan keamanan, deteksi kerusakan industri, pengolahan gambar, pengawasan jaringan sensorvideo dan deteksi gangguan. Deteksi outlier dan analisis pengelompokan atau klastering merupakan dua tugas yang sangat terkait namun memiliki tujuan yang berbeda. Pengelompokan digunakan untuk menemukan pola mayoritas dalam kumpulan data dan mengatur data dalam kelompok yang sesuai, sedangkan deteksi outlier digunakan untuk mendeteksi kasus-kasus yang menyimpang jauh dari pola mayoritas. Menurut Tan et.al 2006 outlier dapat disebabkan oleh sebagai berikut : 1. Data Dari Kelas Yang Berbeda Suatu objek mungkin saja berbeda dari objek lainnya karena objek tersebut dari tipe atau kelas yang berbeda. Sebagai contoh, seseorang yang melakukan penipuan kartu kredit memiliki kelas