Pengertian Penambangan Data Penambangan Data

12 unsupervised. Mendeteksi outlier dengan menggunakan metode unsupervised mengasumsikan objek yang normal akan membentuk kelompok. Dengan kata lain metode unsupervised mengharapkan objek-objek yang normal akan mengikuti pola yang jauh lebih sering daripada outlier. Objek yang normal tidak harus selalu memiliki kesamaan yang tinggi dalam satu kelompok, namun dapat membentuk beberapa kelompok dimana setiap kelompok memiliki fitur yang berbeda. Outlier diharapkan berada jauh dari setiap kelompok objek yang normal. Dalam banyak aplikasi, jumlah objek yang memiliki label biasanya kecil. Ada beberapa kasus dimana hanya satu set kecil dari objek normal danatau outlier yang berlabel, sedangkan sebagian besar data tidak berlabel. Deteksi outlier menggunakan metode semisupervised dikembangkan untuk mengatasi kasus tersebut. Model objek yang normal dapat digunakan untuk mendeteksi benda-benda yang tidak sesuai dengan model objek normal diklasifikasikan sebagai outlier. 2. Metode Statistical, Proximity-Based dan Clustering-Based Metode statistik atau juga dikenal sebagai metode berbasis model membuat asumsi dari normalitas data. Metode statistik menganggap bahwa objek data normal dihasilkan oleh model statistik dan tidak mengikuti model yang outlier. Efektivitas metode statistik sangat bergantung pada asumsi yang dibuat untuk model statistik berlaku untuk data yang diberikan. Metode proximity-based berasumsi bahwa sebuah objek dianggap outlier jika tetangga terdekat jauh dari ruang fitur, yaitu kedekatan objek kepada tetangganya signifikan menyimpang dari kedekatan sebagian besar objek lain dengan tetangga mereka dalam kumpulan data yang sama. Efektivitas metode proximity-based sangat bergantung pada ukuran kedekatan atau jarak yang digunakan. Metode proximity-based sering mengalami kesulitan 13 dalam mendeteksi outlier jika outlier dekat satu sama lain. Metode clustering-based mengasumsikan data yang normal termasuk dalam kelompok yang besar dan padat, sedangkan outlier termasuk dalam kelompok yang kecil dan jarang atau bahkan tidak termasuk dalam setiap kelompok.

2.3 Algoritma

Enhanced Class Outlier Distance Based Class label adalah atribut yang dipilih dalam satu data set berdasarkan permintaan pengguna dan jenis aplikasi. Sebuah class label dapat berisi diagnosa medis, keputusan persetujuan kredit atau pinjaman, golongan pelanggan, dll. Metode konvensional Outlier Mining mencari outliers dalam kumpulan data terlepas dari class label , dianggap sebagai outliers dalam seluruh dataset . Class Outlier Mining mencari outliers dengan memperhitungkan class label . Outlier Mining tidak dapat mendeteksi outliers yang berbeda dari class label , sedangkan Class Outlier Mining dapat melakukannya Hewahi Saad, 2009. Hewahi dan Saad mengusulkan definisi baru untuk class outlier dan metode baru untuk Class Outlier Mining yang berdasarkan pendekatan jarak dan tetangga terdekat. Metode ini disebut algoritma Class Outlier Distance Based CODB. Algoritma CODB didasarkan pada COF Class Outlier Faktor yaitu derajat outlier class dalam objek data. Algoritma Enhanced Class Outlier Distance Based merupakan peningkatan algoritma dari algortima Class Outlier Distance Based. Algortima Enhanced Class Outlier Distance Based dikembangkan oleh Hewahi dan Saad 2009. Berdasarkan algoritma ECODB untuk instance T menghilangkan parameter α dan β untuk menghilangkan trial dan eror, sehingga melakukan proses normalisasi pada DeviationT dan KDistT . Langkah-langkah algoritma ECODB adalah sebagai berikut : 1. Untuk semua dataset hitung PCL T, K. dimana PCL Probability of Class Label adalah probabilitas label kelas dari instance T dengan 14 kelas label K tetangga terdekat. PCL T, K dapat dihitung dengan rumus berikut ini : �, = ℎ � � � � � � � � � � � … 2.1 Misalkan ada 7 tetangga terdekat dari instance T termasuk dirinya di dalam sebuah dataset dengan dua class label yaitu x dan y, dimana ada 5 dari tetangga terdekat memiliki class label x dan 2 memiliki class label y. Instance T memiliki class label y, oleh karena itu PCL dari instance T yaitu 27. 2. Merangking daftar top N dari instance dengan nilai PCL T, K dari yang terkecil. 3. Untuk setiap instance pada daftar top N hitung DeviationT dan KdistT. DeviationT adalah seberapa besar nilai instance T menyimpang dari instances dengan kelas label yang sama. DeviationT dihitung dengan menjumlahkan jarak antara instance T dan setiap instance yang memiliki kelas yang sama dengan instance T . DeviationT dapat dihitung dengan rumus sebagai berikut : �� � � = ∑ �, � �= … 2.2 Keterangan : n = jumlah instances yang memiliki kelas yang sama terhadap instance T dT,t i = jarak antara instances yang memiliki kelas yang sama terhadap instance T KDistT adalah jumlah jarak antara instance T dan K tetangga terdekat. KDistT dapat dihitung dengan menggunakan rumus sebagai berikut : � � = ∑ �, � �= … 2.3 15 Keterangan : K = jumlah tetangga terdekat dT,t i = jarak antara tetangga terdekat terhadap instance T Kemudian lakukan normalisasi pada Deviation dan KDist agar Deviation dan KDist berada dalam range 0-1. Normalisasi Deviation dan KDist dapat dihitung dengan rumus berikut ini : �� � � = �� � � − � � − � … 2.4 � � = � � − � � � � − � � …2.5 Keterangan : normDeviationT = nilai DeviationT yang telah dinormalisasi normKDistT = nilai KDistT yang telah dinormalisasi MaxDev = nilai deviation tertinggi dari top N class outliers MinDev = nilai deviation terendah dari top N class outliers MaxKDist = nilai KDist tertinggi dari top N class outliers MinKDist = nilai KDist terendah dari top N class outliers 4. Hitung nilai COF Class Outlier Factor untuk seluruh instances di dalam top N dengan rumus sebagai berikut : � � = × �, − �� � � + � � … 2.6 Keterangan : COFT = nilai Class Outlier Faktor instance T K = jumlah tetangga terdekat instance T PCLT,K = nilai probabilitas label kelas dari instance T dengan kelas label K tetangga terdekat normDeviationT = nilai DeviationT yang telah di normalisasi normKDistT = nilai KDistT yang telah di normalisasi