Contoh Jalannya Algoritma LANDASAN TEORI

trail Connectivity-based Outlier Factor Menunjukkan seberapa jauh titik bergeser dari pola. Perbandingan titik ke titik di sekelilingnya yang mempengaruhi outlier factor

2.4 Contoh Jalannya Algoritma

Di asumsikan terdapat titik yaitu 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 2, dan 1. Titik 2 dan titik 1 terletak jauh dari titik lainnya yang berdekatan. Di tentukan bahwa jarak dari titik 1 ke 2 adalah 5 dist1,2 = 5, jarak dari titik 2 ke titik 7 adalah 3 dist2,7 = 3, sedangkan jarak dari titik satu ke titik lainnya adalah 1. Di tentukan pula k = 10, r = 11. 1. Mencari Nkp Dari contoh di atas akan di cari Nk1 terhadap p=1. Jarak terdekat dari titik 1 adalah 2, 9, 10, 8, 11, 7, 12, 6, 13, 5. Jadi Nk1 = {2, 9, 10, 8, 11, 7, 12, 6, 13, 5}. 2. Mencari SBN-path Langkah selanjutnya adalah mencari SBN-path dari titik 1 pada Nk1 ∪ {1}. Pada langkah ini, di lakukan penggabungan antara p=1 dengan Nk1. Perhitungan di lakukan secara berantai dengan ukuran jarak terdekat dari titik tertentu p1, p2, ..., pr. Dari contoh di atas, jalur atau path dari titik 1, jarak terdekat adalah ke titik 2. Dari titik 2, jarak terdekat adalah titik 7. Dari titik 7, jarak terdekat adalah titik 6. Dari titik 6, jarak terdekat adalah titik 5. Kemudian kembali ke titik 7, titik terdekat dari titik 7 selain titik 6 adalah titik 8. Dari titik 8, jarak terdekat adalah titik 9. Dari titik 9, jarak terdekat adalah titik 10. Dari titik 10, jarak terdekat adalah titik 11. Dari titik 11, jarak terdekat adalah titik 12. Dan yang terakhir dari titik 12, jarak terdekat adalah titik 13. Jadi SBN-path atau s1 = 1, 2, 7, 6, 5, 8, 9, 10, 11, 12, 13. 3. Mencari SBN-trail Langkah yang berikutnya adalah mencari SBN-trail untuk s1 atau SBN- path terhadap titik 1. SBN-trail adalah urutan edge terhadap s1 diste1, ..., dister-1. Dari jarak titik 1 ke titik 2, titik 2 ke titik 7, titik 7 ke titik 6, titik 6 ke titik 5, titik 7 ke titik 8, titik 8 ke titik 9, titik 9 ke titik 10, titik 10 ke titik 11, titik 11 ke titik 12, dan titik 12 ke titik 13. Jarak dari masing-masing titik tersebut adalah e. Jadi SBN-trail atau tr1 = 1,2, 2,7, 7,6, 6,5, 7,8, 8,9, 9,10, 10,11, 11,12, 12,13 4. Menghitung Cost Description Langkah selanjutnya adalah menghitung Cost Description. Cost Description adalah jarak dari masing-masing edge pada SBN- trail. Pada contoh data di atas sudah di tentukan bahwa jarak dari titik 1 ke 2 adalah 5 dist1,2 = 5, jarak dari titik 2 ke titik 7 adalah 3 dist2,7 = 3, sedangkan jarak dari titik satu ke titik lainnya adalah 1. Maka dapat di hitung untuk tr1, dist1,2 = 5, dist2,7 = 3, dist7,6 = 1, dist6,5 = 1, dist 7,8 = 1, dist8,9 = 1, dist9,10 = 1, dist10,11 = 1, dist11,12 = 1, dan dist12,13 = 1. Maka Cost Desciption atau c1 terhadap tr1 : c 1 = 5, 3, 1, 1, 1, 1, 1, 1, 1, 1 5. Menghitung ac-dist atau Average Chaining Distance Langkah berikutnya yaitu menghitung ac-dist. ac-dist adalah rata-rata dari bobot CDSCost Description Sequence pada SBN-trail. ac-dist Nk 1 ∪ {1} 1 = 211-151111-1 + 211-231111-1 + 211-311111-1 + 211-411111-1 + 211-511111- 1 + 211-611111-1 + 211-711111-1 + 211- 811111-1 + 211-911111-1 + 211-1011111-1 = 2,054545455 6. Menghitung COF Connectivity-based Outlier Factor Langkah selanjutnya adalah menghitung Connectivity-based Outlier Factor COF. Jadi COFk1 = 2,1 Setelah di temukan nilai COF, maka dapat di tentukan bahwa obyek tersebut tergolong outlier atau tidak. Pada contoh di atas, dapat di tentukan bahwa obyek tersebut termasuk outlier dikarenakan nilai COF lebih dari 1. 17

BAB III METODOLOGI PENELITIAN

Pada bab ini akan di jelaskan mengenai metodologi penambangan data yang di gunakan dalam penelitian sistem deteksi outlier menggunakan algoritma Connectivity-based Outlier Factor. Metodologi yang di gunakan adalah KDD Knowledge Discovery in Database menurut Jiawei Han dan Kamber. Akan di jelaskan pula penerapan dari algoritma Connectivity- based Outlier Factor pada kumpulan data atau data set akademik mahasiswa Teknik Informatika Universitas Sanata Dharma.

3.1 Data yang dibutuhkan

Data yang di gunakan dalam penelitian ini adalah Data Akademik Mahasiswa Teknik Informatika Universitas Sanata Dharma angkatan 2007-2008. Data akademik yang di gunakan adalah dari semester satu sampai semester empat. Data ini berasal dari penelitian yang dilakukan oleh Rosa, dkk 2011. Data ini berupa script query yang berisi tabel gudang data dan file ini berformat .sql.

3.2 Pengolahan Data

Tahapan pengolahan data untuk data akademik Teknik Informatika Universitas Sanata Dharma adalah sebagai berikut:

1. Data Integration atau Penggabungan Data

Di dalam tahapan ini di lakukan penggabungan data dari berbagai sumber data yang ada agar mudah di pilih dan di proses nantinya. Sumber data yang berupa file .sql script query dari penelitian Rosa, dkk 2011 ini kemudian di olah dengan di import ke dalam database dan akan terbuat satu database baru bernama gudangdata. Database gudangdata memiliki sembilan tabel, yaitu tabel dim_angkatan, tabel dim_daftarsmu, tabel dim_fakultas, tabel dim_jeniskel, tabel dim_kabupaten, tabel dim_prodi,

Dokumen yang terkait

Deteksi outlier menggunakan Algoritma Local Correlation Integral (LOCI) : studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma.

0 0 258

Deteksi outlier menggunakan Algoritma Local Outlier Probability : studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma.

0 5 265

Deteksi Outlier menggunakan algoritma Block-Based Nested-Loop : studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma.

0 2 202

Deteksi Outlier menggunakan algoritma Naive Nested Loop : studi kasus data akademik mahasiswa Program Studi Teknik Informatika, Universitas Sanata Dharma, Yogyakarta.

2 3 236

Deteksi outlier menggunakan Algoritma Connectivity Based Outlier Factor studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma

1 8 250

Deteksi outlier menggunakan Algoritma Local Outlier Probability studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma

1 9 263

Deteksi Outlier menggunakan algoritma Block Based Nested Loop studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma

0 1 200

Deteksi outlier menggunakan Algoritma Local Correlation Integral (LOCI) studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma

0 4 256

Deteksi outlier menggunakan algoritma local outlier factor : studi kasus data akademik mahasiswa TI Universitas Sanata Dharma - USD Repository

0 0 241

Deteksi Outlier menggunakan algoritma Naive Nested Loop : studi kasus data akademik mahasiswa Program Studi Teknik Informatika, Universitas Sanata Dharma, Yogyakarta - USD Repository

0 0 234