2.4 Contoh Jalannya Algoritma
Misalnya sebuah database memiliki sebuah objek dan dilambangkan sebagai P
1
, P
2
, P
3
, P
4,
P
5
, P
6
, P
7,
P
8
, P
9
, P
10
, P
11
, P
12
, dan P
13
. Dari objek tersebut memiliki atribut nilai ips1, nil11, nil12, nil13, nil14, dan nil15. Tabel
2.2 merupakan tabel yang berisi data nilai dari 13 mahasiswa.
Tabel 2.2 Data 13 Mahasiswa
IPS 1 NIL11 NIL12 NIL13 NIL14 NIL15
P1 2.94
2.80 2.00
2.00 2.00
1.60
P2 1.72
1.20 0.80
3.20 1.20
0.40
P3
2.56 2.40
1.60 2.00
2.80 2.00
P4 2.44
2.00 2.00
2.40 2.00
2.00
P5 2.94
2.40 1.60
2.40 1.20
2.80
P6
1.89 2.40
2.00 2.40
2.40 2.80
P7 4.00
2.40 2.40
1.60 1.60
2.80
P8 1.44
4.00 2.00
3.60 2.40
2.80
P9 3.72
3.20 2.40
2.40 2.80
2.00
P10
1.72 2.80
2.40 3.20
3.20 0.80
P11 3.28
2.80 2.40
2.80 2.40
2.40
P12 2.89
2.40 2.00
2.00 2.80
2.00
P13
2.89 2.00
2.00 3.20
2.00 2.80
1. Menghitung jumlah
r-neighbors
dari
pi
.
Maka untuk contoh diatas langkah untuk menghitung jumlah
r-neighbors
dari obyek P2 adalah sebagai berikut. Diasumsikan nilai r = 6. Kemudian tandai yang jaraknya kurang dari sama dengan r.
Tabel 2.3 merupakan tabel yang berisi tentang jumlah
r-neighbors
dari ke-13 obyek.
Tabel 2.3 Jumlah
r-neighbors
dari
pi
Object r-neighbors
np
i
,r
P1 P1,P2,P3,P4,P5,P6,P7,P8,P9,P10,P11,P12,P13
13
P2 P2,P1,P3,P4,P5,P6,P7,P8,P9,P10,P11,P12,P13
13
P3 P3,P1,P2,P4,P5,P6,P7,P8,P9,P10,P11,P12,P13
13 P4
P4,P1,P2,P3,P5,P6,P7,P8,P9,P10,P11,P12,P13 13
P5 P5,P1,P2,P3,P4,P6,P7,P8,P9,P10,P11,P12,P13
13 P6
P6,P1,P2,P3,P4,P5,P7,P8,P9,P10,P11,P12,P13 13
P7 P7,P1,P2,P3,P4,P5,P6,P8,P9,P10,P11,P12,P13
13 P8
P8,P1,P2,P3,P4,P5,P6,P7,P9,P10,P11,P12,P13 13
P9 P9,P1,P2,P3,P4,P5,P6,P7,P8,P10,P11,P12,P13
13 P10
P10,P1,P2,P3,P4,P5,P6,P7,P8,P9,P11,P12,P13 13
P11 P11,P1,P2,P3,P4,P5,P6,P7,P8,P9,P10,P12,P13
13 P12
P12,P1,P2,P3,P4,P5,P6,P7,P8,P9,P10,P11,P13 13
P13 P13,P1,P2,P3,P4,P5,P6,P7,P8,P9,P10,P11,P12
13
2. Menghitung jumlah
r-neighbors
dari
pi
.
Selanjutnya mencari
r-neighbors
dari objek P2 adalah sebagai berikut: a.
Nilai = 0.5.
b. Nilai
r = 3. c.
Maka �, � atau jumlah ar-neighbors dari objek
pi
.
Tabel 2.4 merupakan tabel yang berisi tentang jumlah
r-neighbors
dari ke-13 obyek.
Tabel 2.4 Jumlah
r-neighbors
dari
pi
.
Object r-neighbors
np, r
P1 P1,P3,P4,P5,P6,P7,P8,P9,P10,P11,P12,P13
12
P2 P2,P4
2
P3 P3,P1,P4,P5,P6,P7,P8,P9,P10,P11,P12,P13
12 P4
P4,P1,P2,P3,P5,P6,P7,P8,P9,P10,P11,P12,P13 13
P5 P5,P1,P3,P4,P6,P7,P8,P9,P11,P12,P13
11 P6
P6,P1,P3,P4,P5,P7,P8,P9,P10,P11,P12,P13 12
P7 P7,P1,P3,P4,P5,P6,P9,P11,P12,P13
10 P8
P8,P1,P3,P4,P5,P6,P9,P10,P11,P12,P13 11
P9 P9,P1,P3,P4,P5,P6,P7,P8,P10,P11,P12,P13
12 P10
P10,P1,P3,P4,P6,P8,P9,P11,P12,P13 10
P11 P11,P1,P3,P4,P5,P6,P7,P8,P9,P10,P12,P13
12 P12
P12,P1,P3,P4,P5,P6,P7,P8,P9,P10,P11,P13 12
P13 P13,P4,P5,P6,P11
12
3. Menghitung rata-rata dari
np,
r
pada r-neighbors dari pi.
Selanjutnya adalah menghitung rata-rata dari �,
� pada keseluruhan objek
p
pada
r-neighborhood
dari
p
.
4. Menghitung standar deviasi dari
np,
r
pada
r-neighbors
.
Setelah menghitung rata-rata �,
� langkah selanjutnya adalah
menghitung standar deviasi �,
� pada
r-neighbors
.
5. Menghitung nilai MDEF untuk
pi
pada radius
r
.
MDEF dari sebuah objek dimana kepadatan lingkungannya cocok dengan rata rata
local neighbourhood density
akan bernilai 0. Kebalikannya MDEF dari
outlier
akan bernilai jauh dari 0
6. Menghitung standar deviasi MDEF.
Dimana
� , �, � =
̂
�
�
,�,
̂ �
�
,�,
, yaitu normalisasi deviasi
̂
� , �,
dari � ,
� untuk
�
��, � .
7. Menghitung k
MDEF.
Pada tahap selanjutnya adalah membuktikan apakah objek tersebut merupakan
outlier
atau bukan, dengan cara nilai MDEF dikalikan dengan nilai
�
, diasumsikan nilai �
= 3.
8. Local Correlation Integral
Jika nilai �
maka objek tersebut merupakan
outlier
, jika
�
maka objek tersebut bukan termasuk
outlier
. Dari perhitungan di atas, objek P2 memiliki nilai
�
.
Maka dapat disimpulkan bahwa objek P2 termasuk
outlier
.
Yang menjadi
outlier
di Semester 1 adalah mahasiswa ke 2, pada Semester 2 yang menjadi
outlier
adalah mahasiswa ke 2, pada Semester 3 yang menjadi
outlier
adalah mahasiswa ke 2, dan pada Semester 4 yang menjadi
outlier
adalah mahasiswa ke 2.
25
BAB III METODOLOGI PENELITIAN
Pada bab ini berisi mengenai metode penambangan data yang digunakan yaitu metode
Knowledge Discovery in Database
KDD yang dikemukakan oleh Jiawei Han dan Kamber.
3.1 Data yang Dibutuhkan
Pada penelitian ini data yang digunakan adalah data akademik mahasiswa yang meliputi nilai indeks prestasi semester dari semester satu
sampai semester empat dan nilai tes masuk mahasiswa program studi Teknik Informatika fakultas Sains dan Teknologi Universitas Sanata Dharma
Yogyakarta tahun angkatan 2007 dan 2008. Data tersebut diperoleh dari Gudang Data akademik mahasiwa Universitas Sanata Dharma hasil penelitian
Rosa, dkk 2011. Data ini berupa
script query
yang berisi gudang data dengan format
.sql
kemudian data tersebut diolah. Data yang digunakan dalam penelitian ini adalah data nilai hasil tes
masuk mahasiswa melalui jalur tes tertulis dan jalur prestasi. Dan juga data nilai indeks prestasi mahasiswa dari semester satu sampai dengan semester
empat.
3.2 Pengolahan Data
Berikut adalah tahapan yang dilakukan dalam pengolahan data:
3.2.1 Penggabungan Data
Data Integration
Pada tahap ini mengekstrak skrip .sql tersebut di dalam SQLyog. Setelah skrip tersebut di eksrak akan menghasilkan sebuah
database bernama “gudangdata” yang terdiri dari dim_angkatan, dim, dim_daftarsmu,
dim_fakultas, dim_jeniskel,
dim_kabupaten, dim_prodi, dim_prodifaks, dim_statuses, dan fact_lengkap2. Gambar
3.2 merupakan isi database “gudangdata”.