Pengertian Outlier Pendekatan Deteksi Outlier

12 1. Data Cleaning Langkah ini merupakan langkah untuk menghilangkan noise pengganggu dan data yang tidak konsisten. 2. Data Integration Langkah ini merupakan suatu proses dimana beberapa sumber data digabungkan menjadi satu kesatuan. 3. Data Selection Langkah ini merupakan proses untuk melakukan analisis, dimana data yang relevan diambil dari database. 4. Data Transformation Langkah ini merupakan proses dimana data diubah transformasi menjadi data yang tepat untuk ditambang sehingga dapat dilakukan proses operasi seperti penjumlahan atau penggabungan. 5. Data Mining Langkah ini merupakan proses penting di mana metode cerdas yang diterapkan untuk mengekstrak pola data. 6. Pattern Evaluation Langkah ini merupakan proses untuk mengidentifikasi pola- pola menarik yang menampilkan basis pengetahuan dalam suatu ukuran ketertarikan. 7. Knowledge Presentation Langkah ini merupakan proses dimana teknik untuk menampilkan suatu gambaran dan representasi pengetahuan hasil tambang kepada pengguna.

2.2 Outlier

2.2.1 Pengertian Outlier

Ada beberapa pengertian outlier dari beberapa sumber. Menurut Han et.al. 2012, outlier adalah objek data yang menyimpang secara signifikan dari sisa data, seolah-olah itu dihasilkan oleh mekanisme PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 13 yang berbeda. Menurut Hawkins 1980, outlier merupakan pengamatan yang berbeda dari pengamatan lainnya sehingga menimbulkan kecurigaan bahwa hal itu dihasilkan oleh berbagai mekanisme.

2.2.2 Pendekatan Deteksi Outlier

Menurut Han et.al. 2012, pendeteksian outlier terdapat beberapa pendekatan, antara lain statistical methods, proximity-based approach, clustering-based approach, classficication-based approach, dan high- dimensional data. Pendekatan statistical methods atau biasa dikenal sebagai metode berbasis model membuat asumsi mengenai normalitas data. Pendekatan ini dianggap bahwa obyek data normal dihasilkan oleh model statistik, sedangkan data yang tidak mengikuti model dianggap sebagai outlier. Efektivitas statistical methods sangat bergantung pada asumsi apakah model statistik yang dibuat selalu berlaku untuk data yang diberikan. Pendekatan proximity-based mengasumsikan bahwa sebuah obyek dikatakan sebagai outlier jika memiliki perbedaan yang signifikan dengan tetangga terdekatnya pada set data yang sama. Efektivitas metode berbasis proximity sangat bergantung pada jarak atau ukuran yang digunakan. Metode berbasis proximity ini sering mengalami kesulitan dalam mendeteksi outlier jika sebuah obyek yang dikatakan sebagai outlier memiliki kedekatan satu sama lain. Pendekatan proximity-based ini memiliki dua jenis utama deteksi outlier, yaitu distance-based, dan density-based. Pendekatan clustering-based mengasumsikan bahwa obyek yang bersifat normal tergabung dalam kelompok besar large cluster, sedangkan obyek yang dikatakan sebagai outlier tidak tergabung dalam kelompok. 14 Pendekatan classification-based mengasumsikan bahwa pendeteksian outlier menggunakan pendekatan ini dapat digunakan jika set data training dan label kelas tersedia. Ide umum dari metode deteksi outlier berbasis classification adalah menentukan model klasifikasi yang dapat membedakan data normal dan outlier. Metode outlier basis classification ini sering menggunakan satu kelas sebagai label untuk menggambarkan data berupa normal atau outlier. Pendekatan high-dimensional data, memiliki beberapa contoh algoritma yaitu Angle-Based Outlier Degree ABOD Kriegel et.al. 2008, Grid-Based Subspace Outlier Detection Aggarwal Yu, 2000, dan Subspace Outlier Degree SOD Kriegel et.al., 2009.

2.3 MixCBLOF Mix Cluster Based Local Outlier Factor

Dokumen yang terkait

POBYE PENGARUH PENGALAMAN KERJA, INDEPENDENSI, OBYEKTIFITAS, INTEGRITAS, DAN KOMPETENSI TERHADAP KUALITAS HASIL PEMERIKSAAN DI INSPEKTORAT PROVINSI DAERAH ISTIMEWA YOGYAKARTA.

0 3 14

Penerapan algoritma apriori untuk analisis daya serap hasil ujian nasional matematika SMA jurusan IPA di Yogyakarta.

0 1 13

Penerapan algoritma apriori untuk analisis daya serap hasil ujian nasional mata pelajaran Matematika SMA jurusan IPA di Daerah Istimewa Yogyakarta.

0 12 206

Penerapan algoritma fp-growth untuk analisis pola asosiasi daya serap hasil jian nasional mata pelajaran Bahasa Indonesia SMA di Yogyakarta.

1 11 122

Pengelompokan Sekolah Menengah Atas di Provinsi Daerah Istimewa Yogyakarta berdasarkan nilai Ujian Nasional menggunakan algoritma K-Means Clustering.

1 1 87

Pengelompokan Sekolah Menengah Atas di Provinsi Daerah Istimewa Yogyakarta berdasarkan nilai Ujian Nasional menggunakan algoritma agglomerative hierarchical clustering.

11 55 123

Deteksi outlier untuk nilai ujian Sekolah Menengah Atas (Sma) menggunakan Algoritma Influenced Outlierness (INFLO).

0 1 373

Penerapan metode enhanced class outlier distance based untuk identifikasi outlier pada data hasil ujian nasional, indeks integritas dan akreditasi sekolah menengah atas

1 6 143

Penerapan algoritma MixCBLOF berbasis klaster untuk identifikasi outlier pada data hasil ujian nasional, indeks integritas, dan akreditasi SMA di Daerah Istimewa Yogyakarta

0 5 138

Provinsi Daerah Istimewa Yogyakarta UU NO 13 2012

0 0 23