4. Kriteria pemberhentian. 5. Pruning.
2.2 Outlier
2.2.1 Pengertian Outlier
Outlier
merupakan kumpulan data yang dianggap memiliki sifat yang berbeda, tidak konsisten dibandingkan dengan kebanyakan data
lainnya Han Kamber, 2006. Adanya data
outlier
ini akan membuat analisis terhadap serangkaian data menjadi bias, atau tidak
mencerminkan fenomena yang sebenarnya.
Outlier
adalah suatu data yang menyimpang dari sekumpulan data yang lain dan juga merupakan pengamatan yang tidak mengikuti
sebagian besar pola dan terletak jauh dari pusat data Soemartini, 2007.
Analisis
outlier
dikenal juga dengan analisis anomali atau deteksi anomali atau deteksi
outlier
nilai atributnya obyek tsb, signifikan berbeda dengan nilai atribut obyek lainnya atau
exception mining.
Gambar 2.2 data set
outlier
Beberapa penyebab adanya
outlier
, yaitu : Data berasal dari sumber yang berbeda
Variasi natural data itu sendiri Error pada saat pengukuran atau pengumpulan data
Memang ada data-data ekstrim yang tidak dapat dihindarkan keberadaannya
Seb agai ilustrasi, pada pendapatan toko roti “Amanah” pada
bulan Januari sampai Agustus. Pada bulan Januari pendapatan sekitar Rp 150 ribu, Febuari Rp 300 ribu, Maret Rp 200 ribu, April Rp 150
ribu, Mei Rp 130 ribu, Juni Rp 200 ribu, Juli Rp 300 ribu, dan Agustus Rp 1 juta. Dari data tersebut sangat tampak bahwa nilai 1 juta
relatif jauh dibandingkan pendapatan di bulan-bulan sebelumnya.
2.2.2 Dampak Outlier
Deteksi
outlier
merupakan suatu teknik untuk mencari obyek dimana obyek tersebut mempunyai perilaku berbeda dibandingkan
obyek-obyek pada umumnya. Deteksi
outlier
merupakan salah satu bidang penelitian yang penting dalam topik penambangan data.
Penelitian ini bermanfaat untuk mendeteksi penyalahgunaan kartu kredit, deteksi adanya penyusupan pada jaringan komunikasi, analisis
medis, segmentasi data pelanggan yang berkaitan dengan pemasaran barang.
Keberadaan data
outlier
akan mengganggu dalam proses analisis data dan harus dihindari dalam banyak hal.
Outlier
dapat menyebabkan hal-hal berikut ini :
Residual yang besar dari model yang terbentuk Varians pada data tersebut menjadi lebih besar
Taksiran interval memiliki rentang yang lebar
2.2.3 Metode Pendekatan