4. Kriteria pemberhentian. 5. Pruning.
2.2 Outlier
2.2.1 Pengertian Outlier
Outlier merupakan kumpulan data yang dianggap memiliki sifat
yang berbeda, tidak konsisten dibandingkan dengan kebanyakan data lainnya Han Kamber, 2006. Adanya data outlier ini akan
membuat analisis terhadap serangkaian data menjadi bias, atau tidak mencerminkan fenomena yang sebenarnya.
Outlier adalah suatu data yang menyimpang dari sekumpulan
data yang lain dan juga merupakan pengamatan yang tidak mengikuti sebagian besar pola dan terletak jauh dari pusat data Soemartini,
2007. Analisis outlier dikenal juga dengan analisis anomali atau
deteksi anomali atau deteksi outlier nilai atributnya obyek tsb, signifikan berbeda dengan nilai atribut obyek lainnya atau exception
mining.
Gambar 2.2 data set outlier Beberapa penyebab adanya outlier, yaitu :
Data berasal dari sumber yang berbeda Variasi natural data itu sendiri
Error pada saat pengukuran atau pengumpulan data
Memang ada data-data ekstrim yang tidak dapat dihindarkan keberadaannya
Seb agai ilustrasi, pada pendapatan toko roti “Amanah” pada
bulan Januari sampai Agustus. Pada bulan Januari pendapatan sekitar Rp 150 ribu, Febuari Rp 300 ribu, Maret Rp 200 ribu, April Rp 150
ribu, Mei Rp 130 ribu, Juni Rp 200 ribu, Juli Rp 300 ribu, dan Agustus Rp 1 juta. Dari data tersebut sangat tampak bahwa nilai 1 juta
relatif jauh dibandingkan pendapatan di bulan-bulan sebelumnya.
2.2.2 Dampak Outlier
Deteksi outlier merupakan suatu teknik untuk mencari obyek dimana obyek tersebut mempunyai perilaku berbeda dibandingkan
obyek-obyek pada umumnya. Deteksi outlier merupakan salah satu bidang penelitian yang penting dalam topik penambangan data.
Penelitian ini bermanfaat untuk mendeteksi penyalahgunaan kartu kredit, deteksi adanya penyusupan pada jaringan komunikasi, analisis
medis, segmentasi data pelanggan yang berkaitan dengan pemasaran barang.
Keberadaan data outlier akan mengganggu dalam proses analisis data dan harus dihindari dalam banyak hal. Outlier dapat
menyebabkan hal-hal berikut ini : Residual yang besar dari model yang terbentuk
Varians pada data tersebut menjadi lebih besar Taksiran interval memiliki rentang yang lebar
2.2.3 Metode Pendekatan Outlier