Deteksi outlier untuk nilai ujian Sekolah Menengah Atas (Sma) menggunakan Algoritma Influenced Outlierness (INFLO).

(1)

ABSTRAK

Pada era globalisasi saat ini, pertumbuhan data yang sangat banyak seringkali terlalu luas dan tidak menghasilkan suatu informasi yang jelas, apalagi pengetahuan. Penambangan data akan mengubah data yang sangat tidak informatif tersebut menjadi sebuah informasi yang berguna ataupun dapat pula menjadi suatu pengetahuan. Dalam penambangan data, ada suatu teknik untuk mencari data yang tidak konsisten ataupun data yang berbeda dari data yang lainnya, biasa dikenal dengan deteksi outlier. Teknik ini dapat digunakan untuk menganalisis berbagai bidang, salah satunya adalah bidang pendidikan.

Maka dari itu, penelitian ini melakukan deteksi outlier dengan menggunakan algoritma

Influenced Outlierness (INFLO). Algoritma ini dikemukakan oleh Jin et.al. pada tahun 2006, mengusulkan deteksi outlier berdasarkan influence space. Data yang digunakan adalah nilai ujian SMA dari Provinsi DIY tahun 2011 – 2014.

Penelitian ini menghasilkan sistem alat bantu deteksi menggunakan algoritma INFLO. Pengujiannya ada 5 metode. Hasil yang didapat dari seluruh pengujian adalah sistem ini dapat digunakan untuk mendeteksi outlier data nilai ujian SMA tersebut.

(2)

Therefore, this study did outlier detection algorithms using Influenced Outlierness (INFLO). This algorithm proposed by Jin et al in 2006, the outlier detection based influence space. The data used is the high school test scores of DIY Province in 2011-2014.

This research resulted in the detection system uses an algorithm tools INFLO. There are 5 methods of testing. The results of all testing is these systems can be used to detect a data outlier high school test scores.

(3)

HALAMAN JUDUL

DETEKSI OUTLIER UNTUK NILAI UJIAN

SEKOLAH MENENGAH ATAS (SMA) MENGGUNAKAN ALGORITMA INFLUENCED OUTLIERNESS (INFLO)

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

Oleh :

Maria Renia Octaviani 115314010

PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA YOGYAKARTA

(4)

HALAMAN JUDUL (BAHASA INGGRIS)

OUTLIER DETECTION FOR THE HIGH SCHOOL EXAM USING INFLUENCED OUTLIERNESS (INFLO) ALGORITHM

A Final Project

Presented as Partial Fullfillment of the Requirements To Obtain the Sarjana Komputer Degree In Informatics Engineering Study Program

By :

Maria Renia Octaviani 115314010

INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING

FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY

YOGYAKARTA 2015

(5)

iii

HALAMAN PERSETUJUAN

SKRIPSI

DETEKSI OUTLIER UNTUK NILAI UJIAN

SEKOLAH MENENGAH ATAS (SMA) MENGGUNAKAN ALGORITMA INFLUENCED OUTLIERNESS (INFLO)

Oleh :

Maria Renia Octaviani 115314010

Telah Disetujui Oleh :

Dosen Pembimbing

(6)

HALAMAN PENGESAHAN SKRIPSI

DETEKSI OUTLIER UNTUK NILAI UJIAN

SEKOLAH MENENGAH ATAS (SMA) MENGGUNAKAN ALGORITMA INFLUENCED OUTLIERNESS (INFLO)

Yang dipersiapkan dan disusun oleh : Maria Renia Octaviani

115314010

Telah dipertahankan di depan Panitia Penguji Pada tanggal …… ……… 2015

Dan dinyatakan memenuhi syarat

Susunan Panitia Penguji

Tanda Tangan Ketua : P.H. Prima Rosa, S.Si., M.Sc. ……… Sekretaris : Sri Hartati Wijono, S.Si., M.Kom. ……… Anggota : Ridowati Gunawan, S.Kom., M.T. ………

Yogyakarta, …… ……… 2015 Fakultas Sains dan Teknologi

Universitas Sanata Dharma Dekan,

(7)

HALAMAN PERSEMBAHAN

“Karena Tuhanlah yang memberikan hikmat,

dari mulut-Nya datang pengetahuan dan

kepandaian”

( Amsal 2 : 6 )

Karya ini kupersembahkan kepada : Tuhan Yesus Kristus

Bunda Maria Keluarga

(8)

HALAMAN PERNYATAAN PERNYATAAN KEASLIAN KARYA

Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak memuat karya atau bagian karya orang lain, kecuali yang telah saya sebutkan dalam kutipan daftar pustaka, sebagaimana layaknya karya ilmiah.

Yogyakarta, … ……… 2015 Penulis,

(9)

vii

ABSTRAK

Maka dari itu, penelitian ini melakukan deteksi outlier dengan menggunakan algoritma Influenced Outlierness (INFLO). Algoritma ini dikemukakan oleh Jin et.al. pada tahun 2006, mengusulkan deteksi outlier

berdasarkan influence space. Data yang digunakan adalah nilai ujian SMA dari Provinsi DIY tahun 2011 – 2014.

(10)

viii

ABSTRACT

In the current era of globalization, the growth of data very much often too broad and did not produce a clear information, let alone knowledge. Data mining will change very uninformative data into a useful information or can also be a knowledge. In data mining, there is a technique to look for inconsistent data or data that is different from other data, commonly known as outlier detection. This technique can be used to analyze a wide range of fields, one of which is education. Therefore, this study did outlier detection algorithms using Influenced Outlierness (INFLO). This algorithm proposed by Jin et al in 2006, the outlier detection based influence space. The data used is the high school test scores of DIY Province in 2011-2014.

(11)

HALAMAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPERLUAN KEPENTINGAN AKADEMIS

Yang bertanda tangan di bawah ini, saya mahasiswi Universitas Sanata Dharma : Nama : Maria Renia Octaviani

Nomor Mahasiswa : 115314010

Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan Universitas Sanata Dharma karya ilmiah saya yang berjudul :

DETEKSI OUTLIER UNTUK NILAI UJIAN

SEKOLAH MENENGAH ATAS (SMA) MENGGUNAKAN ALGORITMA INFLUENCED OUTLIERNESS (INFLO)

Beserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan kepada Perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain, mengelolanya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis.

Demikian pernyataan ini saya buat dengan sebenarnya Dibuat di Yogyakarta

Pada tanggal … ……… 2015 Yang menyatakan,

(12)

KATA PENGANTAR

Puji dan syukur kepada Tuhan Yang Maha Esa, karena pada akhirnya penulis dapat menyelesaikan penelitian tugas akhir ini yang berjudul “Deteksi Outlier Untuk Nilai Ujian Sekolah Menengah Atas (SMA) Menggunakan Algoritma Influenced Outlierness (INFLO)”.

Dalam menyelesaikan seluruh penyusunan tugas akhir ini, penulis tak lepas dari doa, bantuan, dukungan, dan motivasi dari banyak pihak. Oleh karena itu, penulis ingin mengucapkan banyak terima kasih kepada :

1. Ibu Paulina Heruningsih Prima Rosa, S.Si., M.Sc. selaku Dekan Fakultas Sains dan Teknologi dan juga selaku Dosen Penguji.

2. Ibu Ridowati Gunawan, S.Kom., M.T. selaku Ketua Program Studi Teknik Informatika dan juga selaku Dosen Pembimbing Skripsi yang telah memberikan waktu, bimbingan, dan motivasi kepada penulis.

3. Ibu Sri Hartati Wijono, S.Si., M.Kom. selaku Dosen Penguji.

4. Bapak Henricus Agung Hernawan, S.T., M.Kom. selaku Dosen Pembimbing Akademik.

5. Seluruh dosen, sekretariat, laboran, dan perpustakaan yang telah membimbing dan membantu selama proses perkuliahan di Universitas Sanata Dharma. 6. Bapak Bambang Kuncoro dari Seksi Data dan Teknologi Informasi Dinas

Pendidikan, Pemuda, dan Olah Raga Provinsi DIY yang telah bersedia memberikan data penelitian.

(13)

8. Nenek Soejani tercinta yang telah mendoakan, mendukung, memotivasi penulis dari awal bersekolah hingga dapat menyelesaikan tugas akhir ini.

9. Andreas Widiyatmoko yang selalu mendoakan, dan ada dalam suka duka. 10.Erlita Octaviani dan Daniel Tomi Raharjo yang telah memberikan banyak

bantuan dalam memberikan pandangan dan refrensi kepada penulis saat penyusunan tugas akhir ini.

11.Teman-teman TI 2011 terutama Winda, Elsa, Orin, Danik, Ronald, Arie, Pandu W., Benny, Ega yang sudah menemani dan mendukung selama ini.

12.Mbak Ari selaku kakak dari seluruh anak Kost Wisma Dara dan teman-teman kost (Nova, Yolanda, Nona, Claudia, Cik Angel, Elsa, Winda, Merna, Ratna, dan semuanya) yang sudah menjadi teman kost terbaik.

13.Semua pihak yang sudah mendukung secara langsung ataupun tidak langsung, mohon maaf saya tidak dapat menyebutkan satu per satu.

Penulis berharap penelitian ini dapat menjadi pengetahuan baru yang berguna bagi para pembaca. Penelitian ini tidak luput dari kekurangan, oleh karena itu, penulis mengharapkan saran dan kritik untuk perbaikan hingga akhirnya penelitian ini menjadi lebih baik.

Yogyakarta, … ……… 2015 Penulis,

(14)

xii

DAFTAR ISI

Halaman

HALAMAN JUDUL ... i

HALAMAN JUDUL (BAHASA INGGRIS) ... ii

HALAMAN PERSETUJUAN ... iii

HALAMAN PENGESAHAN ... iv

HALAMAN PERSEMBAHAN ... v

HALAMAN PERNYATAAN ... vi

ABSTRAK ... vii

ABSTRACT ... viii

HALAMAN PERSETUJUAN PUBLIKASI KARYA ILMIAH ... ix

KATA PENGANTAR ... x

DAFTAR ISI ... xii

DAFTAR GAMBAR ... xviii

DAFTAR TABEL ... xxi

DAFTAR RUMUS ... xxiii

DAFTAR LAMPIRAN ... xxiv

BAB I PENDAHULUAN ... 1

1.1. Latar Belakang ... 1

1.2. Rumusan Masalah... 5

1.3. Batasan Masalah ... 5

(15)

xiii

1.5. Manfaat Penelitian ... 6

1.6. Metodologi Penelitian... 6

1.7. Sistematika Penulisan ... 9

BAB II LANDASAN TEORI ... 11

2.1. PENAMBANGAN DATA ... 11

2.1.1. Pengertian Penambangan Data ... 11

2.1.2. Asal Usul Penambangan Data ... 11

2.1.3. Fungsi dalam Penambangan Data ... 12

2.1.4. Knowledge Discovery in Databases (KDD) ... 14

2.2. DETEKSI OUTLIER ... 16

2.2.1. Pengertian Outlier... 16

2.2.2. Macam Pendekatan Outlier ... 16

2.3. INFLUENCED OUTLIERNESS (INFLO)... 18

2.3.1. Deteksi Outlier dengan Algoritma INFLO ... 18

2.3.2. Contoh Deteksi Outlier dengan Algoritma INFLO ... 22

BAB III METODOLOGI PENELITIAN ... 27

3.1. SUMBER DATA ... 27

3.2. PENGOLAHAN DATA ... 28

3.2.1. Data Cleaning... 28

3.2.2. Data Integration ... 28

3.2.3. Data Selection... 28

3.2.4. Data Transformation ... 29

(16)

xiv

3.2.6. Pattern Evaluation ... 41

3.2.7. Knowledge Presentation ... 42

BAB IV ANALISIS DAN PERANCANGAN SISTEM ... 43

4.1. IDENTIFIKASI SISTEM ... 43

4.1.1. Diagram Use Case ... 44

4.1.2. Narasi Use Case ... 45

4.2. PERANCANGAN SISTEM SECARA UMUM ... 45

4.2.1. Input Sistem ... 45

4.2.2. Proses Sistem ... 46

4.2.3. Output Sistem ... 47

4.3. PERANCANGAN SISTEM ... 48

4.3.1. Diagram Aktivitas... 48

4.3.2. Diagram Kelas Analisis ... 48

4.3.3. Diagram Sequence ... 50

4.3.4. Diagram Kelas Desain ... 50

4.3.5. Rincian Algoritma per Method ... 51

4.3.5.1. Kelas KontrolKoneksiDatabase ... 51

4.3.5.2. Kelas KontrolKoneksiTable ... 53

4.3.5.3. Kelas KontrolSeleksiAtributTableModel ... 54

4.3.5.4. Kelas Kontrol_INFLOTableModel ... 55

4.3.5.5. Kelas Kontrol_INFLO ... 55

4.4. PERANCANGAN STRUKTUR DATA ... 67

(17)

4.4.2. Matriks Dua Dimensi... 69

4.5. PERANCANGAN ANTARMUKA ... 70

4.5.1. Perancangan Halaman Awal ... 70

4.5.2. Perancangan Halaman Preprocess ... 71

4.5.3. Perancangan Halaman Pilih Database ... 72

4.5.4. Perancangan Halaman Pilih Table ... 73

4.5.5. Perancangan Halaman Deteksi Outlier ... 74

4.5.6. Perancangan Halaman Bantuan ... 75

4.5.7. Perancangan Halaman Tentang ... 76

BAB V IMPLEMENTASI PENAMBANGAN DATA ... 77

5.1. IMPLEMENTASI ANTARMUKA ... 77

5.1.1. Implementasi Halaman Awal ... 77

5.1.2. Implementasi Halaman Preprocess ... 78

5.1.2.1. Preprocess ‘Pilih File’ ... 79

5.1.2.2. Preprocess ‘Pilih Database’ ... 81

5.1.2.3. Seleksi Atribut pada Halaman Preprocess ... 84

5.1.3. Implementasi Halaman Deteksi Outlier ... 88

5.1.4. Implementasi Halaman Bantuan ... 93

5.1.5. Implementasi Halaman Tentang ... 94

5.1.6. Implementasi Keluar dari Sistem ... 95

5.2. IMPLEMENTASI KELAS... 95

5.2.1. Implementasi Kelas Model ... 96

(18)

xvi

5.2.3. Implementasi Kelas View ... 96

5.3. IMPLEMENTASI STRUKTUR DATA ... 97

5.3.1. Implementasi Kelas Vertex ... 97

5.3.2. Implementasi Kelas Graph ... 99

BAB VI PENGUJIAN DAN ANALISIS HASIL PENGUJIAN ... 101

6.1. RENCANA PENGUJIAN ... 101

6.1.1. Hasil Pengujian Black Box ... 105

6.1.1.1. Pengujian Memasukkan Data ... 105

6.1.1.2. Pengujian Koneksi ke Database ... 106

6.1.1.3. Pengujian Seleksi Atribut ... 109

6.1.1.4. Pengujian Deteksi Outlier ... 110

6.1.1.5. Pengujian Penyimpanan Hasil ... 112

6.1.2. Kesimpulan Hasil Pengujian Black Box ... 113

6.1.3. Hasil Pengujian Efek Perubahan Atribut ... 114

6.1.3.1. Pengujian Data Nilai Akhir (NA) IPA Tahun 2014 ... 114

6.1.3.2. Pengujian Data Nilai Sekolah (NS) IPA Tahun 2014 ... 115

6.1.3.3. Pengujian Data Nilai Ujian Nasional (UN) IPA Tahun 2014 ... 116

6.1.4. Kesimpulan Hasil Pengujian Efek Perubahan Atribut .. 117

6.1.5. Hasil Pengujian Perbandingan Perhitungan Manual dan Hasil Deteksi Sistem ... 117

(19)

xvii

6.1.6. Kesimpulan Hasil Pengujian Perbandingan Perhitungan

Manual dan Hasil Deteksi Sistem ... 119

6.1.7. Hasil Pengujian Akurasi ... 119

6.1.8. Kesimpulan Hasil Pengujian Akurasi ... 130

6.1.9. Hasil Pengujian Waktu Kinerja Sistem ... 131

6.1.10. Kesimpulan Hasil Pengujian Waktu Kinerja Sistem ... 132

6.2. KELEBIHAN DAN KEKURANGAN SISTEM ... 133

6.2.1. Kelebihan Sistem ... 133

6.2.2. Kekurangan Sistem ... 134

BAB VII PENUTUP ... 135

7.1. KESIMPULAN ... 135

7.2. SARAN ... 136

DAFTAR PUSTAKA ... 137

(20)

xviii

DAFTAR GAMBAR

Halaman

Gambar 2.1 Asal Usul Penambangan Data ... 12

Gambar 2.2 Proses Knowledge Discovery in Databases ... 14

Gambar 4.1 Graf... 67

Gambar 4.2 Graf Tidak Berarah... 68

Gambar 4.3 Rancangan Graf ... 68

Gambar 4.4 Perancangan Halaman Awal ... 70

Gambar 4.5 Perancangan Halaman Preprocess ... 71

Gambar 4.6 Perancangan Halaman Pilih Database ... 72

Gambar 4.7 Perancangan Halaman Pilih Table ... 73

Gambar 4.8 Perancangan Halaman Deteksi Outlier ... 74

Gambar 4.9 Perancangan Halaman Bantuan ... 75

Gambar 4.10 Perancangan Halaman Tentang ... 76

Gambar 5.1 Implementasi Halaman Awal ... 77

Gambar 5.2 Implementasi Halaman Preprocess ... 78

Gambar 5.3 Implementasi Kotak Dialog Pilih File yang Salah ... 79

Gambar 5.4 Implementasi Pesan Salah Memilih File ... 80

Gambar 5.5 Implementasi Kotak Dialog Pilih File yang Benar ... 80

Gambar 5.6 Proses Setelah Memasukkan Data dari Pilih File... 81

Gambar 5.7 Implementasi Halaman Pilih Database ... 81

(21)

xix

Gambar 5.9 Pesan Koneksi Database Berhasil ... 83

Gambar 5.10 Implementasi Halaman Pilih Table ... 83

Gambar 5.11 Proses Setelah Memasukkan Data dari Pilih File... 84

Gambar 5.12 Data dari Masukkan File ataupun Database ... 84

Gambar 5.13 Informasi Data yang Dimasukkan ... 84

Gambar 5.14 Seleksi Atribut ... 85

Gambar 5.15 Tandai Semua Atribut ... 85

Gambar 5.16 Batal Seleksi Atribut ... 86

Gambar 5.17 Hapus Tanda Beberapa Atribut ... 86

Gambar 5.18 Hasil Seleksi Atribut ... 87

Gambar 5.19 Implementasi Halaman Deteksi Outlier ... 88

Gambar 5.20 Isian Nilai 'k' yang Benar ... 88

Gambar 5.21 Pesan Isian Nilai 'k' yang Salah ... 89

Gambar 5.22 Hasil Proses Deteksi Outlier ... 89

Gambar 5.23 Rincian Hasil Deteksi Outlier ... 90

Gambar 5.24 Informasi Hasil Outlier... 90

Gambar 5.25 Isian Batasan Outlier yang Benar ... 90

Gambar 5.26 Pesan Isian Batasan Outlier yang Salah ... 91

Gambar 5.27 Hasil Deteksi Outlier dengan Batasan ... 91

Gambar 5.28 Cara Penyimpanan Hasil Deteksi ... 91

Gambar 5.29 Kotak Dialog Penyimpanan ... 92

Gambar 5.30 Pesan Penyimpanan Berhasil ... 92

(22)

Gambar 5.32 Implementasi Halaman Bantuan ... 93 Gambar 5.33 Cara Melihat Informasi Sistem ... 94 Gambar 5.34 Implementasi Halaman Tentang... 94 Gambar 5.35 Cara Keluar dari Sistem ... 95 Gambar 5.36 Kotak Dialog Konfirmasi Keluar ... 95 Gambar 6.1 Grafik Pengujian Data Nilai Akhir (NA) IPA Tahun 2014 ... 114 Gambar 6.2 Grafik Pengujian Data Nilai Sekolah (NS) IPA Tahun 2014... 115 Gambar 6.3 Grafik Pengujian Data Nilai Ujian Nasional (UN) IPA Tahun 2014 ... 116 Gambar 6.4 Grafik Hasil Pengujian Waktu Kinerja Sistem ... 132

(23)

xxi

DAFTAR TABEL

Halaman Table 3.1 Tabel Atribut Data ... 27 Table 3.2 Tabel Seleksi Atribut ... 29 Table 3.3 Tabel Data Terseleksi... 30 Table 3.4 Tabel Jarak Antar Obyek ... 31 Table 3.5 Tabel NN dengan Jarak Antar Obyeknya ... 33 Table 3.6 Tabel K-Distance ... 35 Table 3.7 Tabel NN ... 36 Table 3.8 Table RNN ... 36 Table 3.9 Tabel IS ... 37 Table 3.10 Tabel Density ... 38 Table 3.11 Tabel Rata-rata Density Tiap Obyek ... 39 Table 4.1 Tabel Kelas Analisis ... 48 Table 4.2 Contoh Matriks Dua Dimensi (Awal Pembuatan Graf) ... 69 Table 4.3 Contoh Matriks Dua Dimensi (Setelah Terbentuk Edge) ... 70 Table 5.1 Tabel Implementasi Kelas Model ... 96 Table 5.2 Tabel Implementasi Kelas Controller ... 96 Table 5.3 Tabel Implementasi Kelas View ... 96 Table 6.1 Tabel Rencana Pengujian Black Box ... 102 Table 6.2 Tabel Pengujian Memasukkan Data ... 105 Table 6.3 Tabel Pengujian Koneksi ke Database ... 106

(24)

xxii

Table 6.4 Tabel Pengujian Seleksi Atribut ... 109 Table 6.5 Tabel Pengujian Deteksi Outlier ... 110 Table 6.6 Tabel Pengujian Penyimpanan Hasil ... 112 Table 6.7 Tabel Pengujian Data Nilai Akhir (NA) IPA Tahun 2014... 114 Table 6.8 Tabel Pengujian Data Nilai Sekolah (NS) IPA Tahun 2014 ... 115 Table 6.9 Tabel Pengujian Data Nilai Ujian Nasional (UN) IPA Tahun 2014 ... 116 Table 6.10 Tabel Data untuk Perbandingan Perhitungan Manual dan Sistem .... 117 Table 6.11 Tabel Hasil Perhitungan Manual... 118 Table 6.12 Tabel Hasil Perhitungan Sistem ... 119 Table 6.13. Tabel Confusion Matrix Data Nilai UN IPA Tahun 2014 ... 120 Table 6.15. Tabel Rincian Hasil Perbandingan Deteksi Sistem dan Pengguna Data Nilai UN IPA Tahun 2014 ... 121 Table 6.14. Tabel Confusion Matrix Data Nilai UN IPS Tahun 2014 ... 125 Table 6.16. Tabel Rincian Hasil Perbandingan Deteksi Sistem dan Pengguna Data Nilai UN IPS Tahun 2014 ... 126 Table 6.17 Tabel Pengujian Waktu Kinerja Sistem ... 132

(25)

xxiii

DAFTAR RUMUS

Halaman Rumus 2.1. Rumus Menghitung Jarak Euclidean…………..……….... 19 Rumus 2.2. Rumus Menghitung K-Distance dan Mencari Nearest Neighbors

(NN)………. 19 Rumus 2.3. Rumus Menghitung Influence Space(IS)……...…………. 20 Rumus 2.4. Rumus Menghitung Reverse Nearest Neighbors (RNN)…. 20

Rumus 2.5. Rumus Menghitung Local Density………..…………. 21 Rumus 2.6. Rumus Menghitung Influenced Outlierness (INFLO)

Simple………...…………... 21 Rumus 2.7. Rumus Menghitung Average Density……...………. 21 Rumus 2.8. Rumus Menghitung Influenced Outlierness (INFLO) Complete

(26)

xxiv

DAFTAR LAMPIRAN

Halaman

LAMPIRAN 1 : DIAGRAM USE CASE 140

LAMPIRAN 2 : DESKRIPSI USE CASE 141

LAMPIRAN 3 : NARASI USE CASE 142

LAMPIRAN 4 : PROSES UMUM SISTEM 146

LAMPIRAN 5 : DIAGRAM AKTIVITAS 147

LAMPIRAN 6 : DIAGRAM KELAS ANALISIS 151

LAMPIRAN 7 : DIAGRAM SEQUENCE 152

LAMPIRAN 8 : DIAGRAM KELAS DESAIN 156

LAMPIRAN 9 : DIAGRAM KELAS 157

LAMPIRAN 10 : LISTING PROGRAM 163

LAMPIRAN 11 : HASIL DETEKSI OUTLIER DARI SISTEM 294 LAMPIRAN 12 : DIAGRAM (BOX AND WHISKER PLOTS) 344 LAMPIRAN 13 : SURAT IJIN SURVEY TUGAS AKHIR 346 LAMPIRAN 14 : TANDA TERIMA SURVEY TUGAS AKHIR 347

(27)

1. BAB I PENDAHULUAN

1.1. Latar Belakang

Pada era globalisasi saat ini, pertumbuhan data sudah semakin pesat. Data muncul dari segala jenis bidang. Namun, data yang sangat banyak tersebut seringkali terlalu luas dan tidak menghasilkan suatu informasi yang jelas, apalagi pengetahuan. Semakin bertambah banyaknya jumlah data, maka terlalu banyak ruang untuk data yang sebenarnya tidak terpakai dalam analisis tertentu. Untuk itu, dibutuhkan sebuah alat untuk menambang suatu kumpulan data yang sangat banyak tersebut sehingga menjadi sebuah informasi yang berguna. Suatu alat penambangan data akan mengubah data yang sangat banyak dan tidak informatif tersebut menjadi sebuah informasi yang berguna ataupun dapat menjadi suatu pengetahuan. Dapat disimpulkan bahwa penambangan data merupakan serangkaian proses untuk menggali data menjadi output yang tidak hanya sekedar informasi, tetapi juga sebuah pengetahuan yang tersembunyi untuk membantu pengambilan suatu keputusan (Han & Kamber, 2006).

Penambangan data sendiri sebenarnya memiliki teknik yang disebut dengan Knowledge Discovery in Database (KDD). KDD sendiri masih memiliki beberapa proses di dalamnya, yaitu data cleaning, data integration, data selection, data transformation, data mining, pattern evaluation, dan knowledge presentation (Han & Kamber, 2006).

(28)

Dalam penambangan data, sudah banyak teknik ataupun metode yang sering digunakan. Salah satunya adalah teknik untuk mencari data yang tidak konsisten ataupun data yang berbeda dari data yang lainnya. Teknik ini biasa disebut dengan deteksi anomali data atau outlier detection

(Han & Kamber, 2006). Outlier sendiri merupakan sebuah observasi yang menyimpang begitu banyak dari pengamatan lain untuk membangkitkan kecurigaan bahwa objek tersebut dihasilkan oleh mekanisme yang berbeda (Hawkins, 1980).

Banyak algoritma penambangan data yang mencoba untuk meminimalkan pengaruh outlier. Masalah deteksi outlier dapat dilihat sebagai dua submasalah. Pertama, menentukan data yang dapat dianggap tidak konsisten dalam satu set data yang diberikan. Lalu yang kedua menemukan metode yang efisien untuk menemukan data yang outlier

(berbeda dengan data yang lain). Dengan demikian, deteksi outlier

merupakan salah satu tugas penambangan data yang menarik (Han & Kamber, 2006).

Menurut Kriegel et al. (2010), deteksi outlier memiliki 6 macam pendekatan, yaitu statistical test, depth-based approaches, deviation-based approaches, distance-based approaches, density-based approaches, dan

high-dimentional approache. Algoritma klasterisasi sendiri sementara membuang outlier sebagai suatu noise, namun dapat dimodifikasi untuk menyertakan deteksi outlier sebagai hasil dari eksekusi mereka. Secara umum, pengguna harus memeriksa bahwa setiap outlier ditemukan oleh

(29)

pendekatan ini memang benar-benar outlier. Namun dari sekian banyak algoritma outlier yang ada, tidak semuanya dapat cocok untuk digunakan dalam menganalisis outlier. Data yang memiliki dimensi tinggi merupakan salah satu hambatan dari algoritma outlier yang ada. Salah satu algoritma baru yang biasa digunakan untuk mendeteksi outlier adalah algoritma yang bernama Influenced Outlierness (INFLO) yang dikemukakan oleh Jin et al pada tahun 2006. Algoritma INFLO ini juga merupakan salah satu algoritma deteksi outlier dengan pendekatan berbasis density-based yang menggunakan Symmetric Neighborhood Relationship.

Teknik deteksi outlier ini dapat digunakan untuk menganalisis berbagai bidang, salah satunya adalah bidang pendidikan. Salah satu isu tentang pendidikan di Indonesia adalah mengenai Ujian Nasional (UN). Penyelenggara UN adalah Badan Standar Nasional Pendidikan (BNSP) yang bekerja sama dengan Kementerian Pendidikan dan Kebudayaan, Kementerian Agama, Kementerian Dalam Negeri, Kepolisian Republik Indonesia, Perguruan Tinggi Negeri, dan Pemerintah Daerah, yang dalam pelaksanaannya terdiri atas Penyelenggara UN Tingkat Pusat, Penyelenggara UN Tingkat Provinsi, Penyelenggara UN Tingkat Kabupaten / Kota, dan Penyelenggara UN Tingkat Sekolah / Madrasah. Menurut Prosedur Operasi Standart Ujian Nasional Tahun 2014 (POS UN 2014), kelulusan peserta didik dari UN ditentukan dari Nilai Akhir (NA) yang merupakan gabungan nilai Ujian Nasional (UN) dengan Nilai Sekolah (NS) dengan bobot 60% nilai UN dan 40% nilai NS. Nilai Sekolah tersebut

(30)

juga merupakan gabungan nilai US dengan nilai rata – rata raport semester 3, 4, dan 5 (untuk tingkat Sekolah Menengah Atas) dengan bobot 60% nilai US dan 40% nilai rata – rata raport.

Sekolah Menengah Atas (SMA) merupakan salah satu tingkatan sekolah yang menarik dan memiliki beberapa hal untuk dianalisa. Hal ini karena SMA merupakan jenjang sekolah terakhir sebelum menuju ke tingkat yang lebih tinggi (Perguruan Tinggi). SMA sendiri memiliki beberapa jurusan, seperti Ilmu Pengetahuan Alam (IPA), Ilmu Pengetahuan Sosial (IPS), Bahasa, dan Agama.

Maka dari itu, penelitian ini akan melakukan deteksi outlier pada nilai ujian SMA dari salah satu provinsi di Indonesia, yaitu Provinsi Daerah Istimewa Yogyakarta (DIY). Pemilihan provinsi-provinsi tersebut dengan alasan, yaitu berdasarkan provinsi letak Universitas Sanata Dharma Yogyakatya (DIY). Nilai ujian yang diteliti adalah nilai ujian nasional, nilai ujian sekolah, dan nilai akhir SMA dari jurusan IPA dan IPS karena mayoritas SMA di Indonesia adalah jurusan IPA dan IPS. Nilai yang dipergunakan adalah nilai ujian tahun 2011-2014.

Penelitian ini diharapkan dapat menghasilkan suatu informasi atau bahkan pengetahuan baru dari kejadian langka dari data nilai ujian SMA yang ada. Hasil yang didapatkan nantinya akan menampilkan sekolah mana dari provinsi tertentu yang outlier atau berbeda dari sekolah – sekolah lainnya yang ada dalam provinsi tersebut. Selain itu juga dapat terlihat sekolah tertentu apakah unggul dari nilai UN ataukah nilai NS atau bahkan

(31)

nilai NA. Selain itu, nantinya diharapkan dari hasil outlier yang didapatkan, akan dapat menganalisa lebih lanjut pemasalahan UN yang terjadi di Indonesia.

1.2. Rumusan Masalah

Rumusan masalah pada penelitian ini adalah sebagai berikut :

1. Bagaimana mendeteksi outlier data rata-rata nilai ujian nasional, nilai ujian sekolah, dan nilai akhir dari Sekolah Menengah Atas (SMA) yang ada di Provinsi Daerah Istimewa Yogyakarta (DIY) dengan menggunakan algoritma Influenced Outlierness (INFLO)?

2. Apakah algoritma Influenced Outlierness (INFLO) dapat mendeteksi

outlier data rata – rata nilai ujian nasional, nilai ujian sekolah, dan nilai akhir dari Sekolah Menengah Atas (SMA) yang ada di Provinsi Daerah Istimewa Yogyakarta (DIY)?

1.3. Batasan Masalah

Batasan masalah pada penelitian ini adalah sebagai berikut :

1. Algoritma deteksi outlier yang digunakan adalah Influenced Outlierness

(INFLO).

2. Data yang digunakan adalah data nilai ujian nasional, nilai ujian sekolah, dan nilai akhir untuk tahun ajaran 2011-2014.

3. Sekolah yang diteliti adalah Sekolah Menengah Atas (SMA) jurusan IPA dan IPS di Provinsi Daerah Istimewa Yogyakarta (DIY).

(32)

1.4. Tujuan Penelitian

Tujuan dari penelitian ini adalah sebagai berikut :

1. Mendeteksi outlier data rata – rata nilai ujian nasional, nilai ujian sekolah, dan nilai akhir dari Sekolah Menengah Atas (SMA) yang ada di Provinsi Daerah Istimewa Yogyakarta (DIY) dengan menggunakan algoritma Influenced Outlierness (INFLO).

2. Menganalisa kemampuan algoritma Influenced Outlierness (INFLO) dalam mendeteksi outlier dari data rata – rata nilai ujian nasional, nilai ujian sekolah, dan nilai akhir dari Sekolah Menengah Atas (SMA) yang ada di Provinsi Daerah Istimewa Yogyakarta (DIY).

1.5. Manfaat Penelitian

Manfaat dari penelitian ini adalah sebagai berikut :

1. Memberikan pengetahuan baru mengenai cara mendeteksi outlier

dengan menggunakan algoritma Influenced Outlierness (INFLO). 2. Memberikan informasi mengenai anomali data yang ada dalam nilai –

nilai ujian Sekolah Menengah Atas (SMA).

1.6. Metodologi Penelitian

Metodologi penelitian yang digunakan dalam menyelesaikan tugas akhir ini adalah sebagai berikut :

(33)

Metodologi pertama yang digunakan adalah studi pustaka. Tahap ini merupakan proses mengumpulkan informasi berupa algoritma yang digunakan untuk mendeteksi outlier dari berbagai macam referensi yang tersedia (buku, karya ilmiah, ataupun artikel lainnya yang banyak terdapat pada internet). Selanjutnya adalah mempelajari dan menganalisa dari informasi yang didapat sehingga menentukan untuk memilih algoritma Influenced Outlierness untuk penelitian deteksi

outlier pada nilai ujian siswa Sekolah Menengah Atas. 2. Metode Knowledge Discovery in Database (KDD)

Metodologi kedua ini adalah teknik penambangan data yang dituliskan oleh Jiawei Han, Micheline Kamber, dan Jian Pei pada bukunya Data Mining : Concepts and Techniques. Teknik KDD mencakup beberapa proses, yaitu :

a. Data Cleaning

Tahap ini merupakan proses dimana data yang tidak dibutuhkan / pengganggu (noise) dan data yang tidak konsisten akan dihapus.

b. Data Integration

Tahap ini merupakan proses dimana bermacam-macam data dari berbagai sumber akan digabungkan menjadi satu kesatuan.

(34)

Tahap ini merupakan proses dimana untuk melakukan analisis, data relevan akan diperoleh dari

database.

d. Data Transformation

Tahap ini merupakan proses dimana data diubah (transformasi) atau digabungkan sehingga menjadi tepat untuk ditambang dengan misalnya melakukan operasi penjumlahan atau penggabungan.

e. Data Mining

Tahap ini merupakan proses pokok dimana metode cerdas dilaksanakan untuk menggali pola dari data.

f. Pattern Evaluation

Tahap ini merupakan proses indentifikasi pola yang sungguh menarik menampilkan basis pengetahuan dalam suatu ukuran ketertarikan.

g. Knowledge Presentation

Tahap ini merupakan proses dimana teknik menampilkan suatu gambaran dan pengetahuan digunakan untuk menampilkan hasil tambang dari pengetahuan kepada pengguna.

3. Analisis dan Evaluasi

Metode ketiga ini adalah melakukan analisis dalam menentukan hasil yang outlier dengan menggunakan algoritma Influenced

(35)

Outlierness (INFLO) dari data-data yang dipergunakan. Data yang terdeteksi sebagai outlier adalah yang memiliki hasil INFLO menjauhi angka “1”.

Setelah itu akan dilakukan evaluasi dari hasil analisa yang didapat, yaitu informasi baru mengenai hasil sekolah-sekolah yang terdeteksi sebagai outlier dari provinsi tertentu. Hasil evaluasi dapat dijadikan permulaan untuk perbaikan dari sekolah yang terdeteksi

outlier tersebut.

1.7. Sistematika Penulisan

Sistematika penulisan tugas akhir ini adalah sebagai berikut : a. BAB I : PENDAHULUAN

Bab pertama ini berisi latar belakang penelitian, rumusan masalah, tujuan penelitian, batasan masalah, metodologi yang digunakan dalam penelitian, dan sistematika penulisan tugas akhir.

b. BAB II : LANDASAN TEORI

Bab kedua ini berisi dasar-dasar teori penambangan data yang digunakan dalam penelitian tugas akhir ini.

c. BAB III : METODOLOGI PENELITIAN

Bab ketiga ini berisi metodologi dari penelitian tugas akhir ini. d. BAB IV : ANALISIS DAN PERANCANGAN SISTEM

Bab keempat ini berisi analisa dan perancangan dari sistem yang dibangun.

(36)

e. BAB V : IMPLEMENTASI PENAMBANGAN DATA Bab kelima ini berisi implementasi sistem yang dibangun. f. BAB VI : PENGUJIAN DAN ANALISIS HASIL PENGUJIAN

Bab keenam ini berisi pengujian dan analisis hasil pengujian dari sistem yang dibangun.

g. BAB VII : PENUTUP

Bab terakhir ini berisi kesimpulan dan saran dari sistem ini yang berguna untuk perkembangan sistem selanjutnya.

(37)

2. BAB II

LANDASAN TEORI

2.1. PENAMBANGAN DATA

2.1.1. Pengertian Penambangan Data

Menurut Tan et.al (2006), penambangan data adalah teknologi yang memadukan metode analisis data tradisional dengan algoritma yang canggih untuk memproses volume data yang besar. Dalam bukunya disebutkan bahwa penambangan data adalah proses menemukan informasi yang berguna dari repositori data yang besar secara otomatis.

Namun tidak semua tugas menemukan informasi dapat dicari menggunakan penambangan data. Meski tugas-tugas seperti yang penting dan mungkin melibatkan pengguanaan algoritma yang canggih dan struktur data, tetap harus mengandalkan teknik ilmu komputer tradisional dan fitur yang jelas dari data. Hal ini perlu dalam membuat struktur indeks untuk secara efisien mengatur dan mengambil informasi. Meskipun demikian, teknik penambangan data telah digunakan untuk meningkatkan sistem pencarian informasi.

2.1.2. Asal Usul Penambangan Data

Menurut Tan et al. (2004), penambangan data menarik ide dari pembelajaran mesin / AI, pengenalan pola, statistik, dan sistem

(38)

basis data. Teknik tradisional mungkin tidak cocok karena data yang sangat besar, data yang berdimensi tinggi, dan sifat heterogen, sifat data yang didistribusikan. Hal ini dapat digambarkan seperti gambar berikut ini :

Gambar 2.1 Asal Usul Penambangan Data

2.1.3. Fungsi dalam Penambangan Data

Menurut Han et al. (2012), penambangan data memiliki beberapa fungsi yang menerapkan metode yang dapat dikategorikan menjadi 2 bagian besar, yaitu metode deskriptif dan metode prediktif. Metode deskriptif bertugas mengkarakterisasikan suatu sifat dari data target. Sedangkan metode prediktif bertugas membuat suatu prediksi masa depan yang dicari melalui data saat ini.

Fungsi yang terdapat dalam penambangan data ada 4, yaitu : a. Asosiasi

Asosiasi dalam penambangan data merupakan aturan dalam satu set transaksi yang akan memprediksi terjadinya item berdasarkan item lainnya dalam transaksi tersebut. (Tan et al. 2004)

(39)

b. Klasifikasi

Menurut Tan et al. (2004), dalam koleksi catatan (training set), setiap record berisi satu set atribut dimana salah satu atribut adalah suatu kelas. Saat ingin menentukan klasifikasi training set tersebut, dapat dengan mencari model untuk masing-masing atribut kelas sebagai fungsi dari nilai-nilai atribut yang lainnya. Tujuannya agar record yang sebelumnya tak terlihat dapat ditujukan dalam kelas tersebut seakurat mungkin. Satu set tes digunakan untuk menentukan akurasi dari suatu model. Biasanya, kumpulan data yang diberikan dibagi menjadi training set dan set test. Training set digunakan untuk membangun model dan set test digunakan untuk memvalidasinya.

c. Klastering

Klastering merupakan fungsi untuk menemukan suatu kelompok obyek sehingga obyek - obyek dalam kelompok akan mirip (atau terkait) satu sama lain dan berbeda dari (atau tidak terkait dengan) obyek - obyek di kelompok lainnya. (Tan et al. 2004) d. Analisis Outlier

Menurut Tan et al. (2004), outlier merupakan himpunan titik data yang jauh berbeda dari sisa data. Ada jauh lebih banyak pengamatan "normal" dibandingkan pengamatan "normal" (outlier / anomali) dalam data. Tantangan dalam analisis outlier

(40)

adalah metode yang digunakan tanpa pengawasan, dan seperti layaknya “mencari jarum dalam tumpukan jerami”.

2.1.4. Knowledge Discovery in Databases (KDD)

Penambangan data tidak dapat terpisahkan dari proses

knowledge discovery in databases atau biasa disebut dengan KDD. Proses KDD merupakan sebuah proses mengubah data mentah menjadi suatu informasi yang berguna. KDD sendiri masih memiliki beberapa proses di dalamnya, yaitu data cleaning, data integration, data selection, data transformation, data mining, pattern evaluation, dan knowledge presentation (Han & Kamber, 2006).

(41)

1. Data Cleaning

Tahap ini merupakan proses dimana data yang tidak dibutuhkan / pengganggu (noise) dan data yang tidak konsisten akan dihapus.

2. Data Integration

Tahap ini merupakan proses dimana bermacam-macam data dari berbagai sumber akan digabungkan menjadi satu kesatuan.

3. Data Selection

Tahap ini merupakan proses dimana untuk melakukan analisis, data relevan akan diperoleh dari database. 4. Data Transformation

Tahap ini merupakan proses dimana data diubah (transformasi) atau digabungkan sehingga menjadi tepat untuk ditambang dengan misalnya melakukan operasi penjumlahan atau penggabungan.

5. Data Mining

Tahap ini merupakan proses pokok dimana metode cerdas dilaksanakan untuk menggali pola dari data. 6. Pattern Evaluation

Tahap ini merupakan proses indentifikasi pola yang sungguh menarik menampilkan basis pengetahuan dalam suatu ukuran ketertarikan.

(42)

7. Knowledge Presentation

Tahap ini merupakan proses dimana teknik menampilkan suatu gambaran dan pengetahuan digunakan untuk menampilkan hasil tambang dari pengetahuan kepada pengguna.

2.2. DETEKSI OUTLIER 2.2.1. Pengertian Outlier

Outlier memiliki beberapa pengertian dari beberapa sumber. Menurut Hawkins (1980), outlier adalah sebuah pengamatan yang menyimpang begitu banyak dari pengamatan lain untuk membangkitkan kecurigaan bahwa itu dihasilkan oleh mekanisme yang berbeda. Menurut Barnet & Lewis (1994), outlier adalah observasi (atau bagian dari pengamatan) yang tampaknya tidak konsisten dengan sisa set data. Menurut Moore & McCabe (1999),

outlier adalah pengamatan yang terletak di luar pola keseluruhan distribusi. Menururt Chen, Tan & Fu (2003), outlier adalah catatan data yang tidak mengikuti derai dalam aplikasi.

2.2.2. Macam Pendekatan Outlier

Menurut Kriegel et. al. (2010), outlier memiliki beberapa pendekatan, yaitu Model-based Approaches, Proximity-based Approaches, dan High-dimensional Approaches.

(43)

Pendekatan model-based memiliki beberapa metode, yaitu

statistical test; depth-based approaches yang memiliki contoh algoritma ISODEPTH (Ruts & Rousseeuw, 1996) dan FDC (Johnson et al., 1998); dan yang terakhir adalah deviation-based approaches.

Pendekatan proximity-based juga memiliki beberapa metode, yaitu Distance-based Approaches yang memiliki contoh algoritma DB-outliers (Knorr & Ng, 1997), index-based (Knorr & Ng, 1998), nested-loop based (Knorr & Ng, 1998), dan grid-based

(Knorr & Ng, 1998); Density-based Approaches memiliki contoh algoritma local outlier factor / LOF (Breunig et al., 1999), (Breunig et al., 2000), influenced outlierness / INFLO (Jin et al., 2006), dan

local outlier correlation integral / LOCI (Papadimitriou et al., 2003).

Pendekatan terakhir adalah high-dimensional Approaches

yang memiliki contoh algoritma angle-based Outlier Degree / ABOD (Kriegel et al., 2008), grid-based subspace outlier detection

(Aggrawal & Yu, 2000), dan subspace outlier degree / SOD (Kriegel et al., 2009).

(44)

2.3. INFLUENCED OUTLIERNESS (INFLO)

2.3.1. Deteksi Outlier dengan Algoritma INFLO

Deteksi outlier seringkali lebih menarik daripada deteksi yang pada umumnya. Hal ini karena outlier mengandung informasi yang berguna dengan mendasari perilaku abnormal atau berbeda dari data ataupun informasi lainnya. Pada penelitian ini akan mendeteksi outlier dengan menggunakan algoritma Influence Outlierness atau biasa disebut dengan INFLO. Teori ini dikemukakan oleh Jin et.al. pada tahun 2006.

Algoritma ini mengusulkan deteksi outlier berdasarkan relasi dari lingkungan simetris karena mengingat sebuah obyek dalam memperkirakan distribusi kepadatan tetangganya dipengaruhi oleh suatu tetangga atau dapat disebut dengan nearest neighbors

(NN) dan tetangga sebaliknya atau juga dapat disebut dengan

reverse nearest neighbors (RNN). Hubungan simetris antara NN dan RNN akan membuat pengukuran outlierness menjadi lebih kuat. Mendeteksi sebuah obyek apakah merupakan suatu outlier

atau hanya anggota suatu cluster, dilihat dari hasil Influenced Outlierness (INFLO). Semakin tinggi INFLO, maka kemungkinan besarnya obyek tersebut adalah outlier. Namun jika INFLO semakin rendah, maka kemungkinan obyek tersebut hanya merupakan anggota suatu cluster. Langkah untuk mencari outlier dari obyek p dan q menggunakan algoritma INFLO adalah sebagai berikut :

(45)

1. Menghitung Jarak Menggunakan Euclidean Distance

Tahap ini adalah menghitung jarak (distance) dari suatu obyek p dan q di suatu database D. Rumus menghitung jarak d(p, q) dapat dirumuskan sebagai berikut :

,

= √∑

_� _�

−

_�

... (2.1) Keterangan :

d = jarak antar obyek pi = obyek “p” ke - i qi = obyek “q” ke - i

2. Menghitung K-Distance dan Mencari Nearest Neighbors (NN) Tahap ini adalah mencari tetangga terdekat dari obyek p

sekaligus mencari k-distance yang dinotasikan sebagai d(p,q)

yaitu jarak terbesar dari jarak antara obyek p dengan k tetangga terdekatnya dalam suatu database D, dengan ketentuan sebagai berikut :

a. Setidaknya obyek k dalam ′∈ � menyatakan bahwa

, ′ _≤ _, _.

b. Setiap obyek (k – 1) dalam ′∈ � menyatakan bahwa

, ′ _≤ _, _.

c. K-NN dari obyek p adalah sebuah kumpulan obyek X dalam

database D dimana , � ≤ �_�� , atau dapat dirumuskan sebagai berikut :

(46)

� = {� ∈ � \ { } | , � ≤ � � } ... (2.2)

Keterangan :

NN = tetangga terdekat

k-dist = nilai k-distance dari suatu obyek

3. Mencari Influence Space (IS)

Tahap ini adalah mencari hubungan tetangga simetris dari suatu obyek. IS merupakan gabungan dari NN (Nearest Neighbors) dan RNN (Reverse Nearest Neighbors) yang dapat dirumuskan sebagai berikut :

�

=

�

∪

� ... (2.3)

RNN merupakan inverse dari tetangga suatu obyek yang dapat juga dicari dengan rumus sebagai berikut :

�

= { | ∈ �, ∈

�

}

... (2.4) Keterangan :

NN = tetangga terdekat

RNN = reverse dari tetangga terdekat IS = gabungan NN dan RNN

4. Menghitung Local Density

Tahap ini adalah mencari inverse dari k-distance obyek p, yang dapat dirumuskan sebagai berikut :

(47)

�

=

_�

� ... (2.5)

Keterangan :

k-dist = nilai k-distance dari suatu obyek den = nilai density dari suatu obyek

5. Menghitung Influenced Outlierness (INFLO)

Tahap ini adalah menghitung INFLO dari suatu obyek, yang dapat dirumuskan sebagai berikut :

� ��

�

=

��_��

... (2.6)

dimana

�

_��

(�

_�

) =

∑ ∈ � � �

| � � | ... (2.7)

Jadi dari rumus 2.6 dan 2.7 jika digabungkan menjadi :

� ��

�

=

∑ _{∈ � �} � | � � |

� ………. (2.8)

Keterangan :

IS = influence space (jumlah obyek gabungan NN dan RNN) den = nilai density dari suatu obyek

den-avg = rata-rata nilai density obyek IS dari suatu obyek INFLO = nilai influenced outlierness dari suatu obyek

(48)

6. Memberikan Kesimpulan

Jika hasil INFLO dari suatu obyek jauh melebihi 1, maka obyek tersebut termasuk outlier. Namun jika hasil INFLO dari suatu obyek mendekati 1, maka obyek tersebut hanya merupakan anggota suatu cluster.

2.3.2. Contoh Deteksi Outlier dengan Algoritma INFLO

Contoh mendeteksi outlier menggunakan algoritma

Influenced Outlierness (INFLO) dalam sebuah himpunan D yang memiliki 5 obyek, yaitu p1, p2, p3, p4, dan p5. Dari keempat obyek tersebut ditentukan nilai k (jumlah tetangga) adalah 2.

1. Nilai masing-masing obyek

p1 9,5

p2 8,85 p3 9,35 p4 8,45 p5 7,95

2. Jarak antar obyek

p1 p2 p3 p4 p5

p1 0 8,05823 11,6939 14,9646 17,3998 p2 8,05823 0 8,03197 11,6929 14,9277 p3 11,6939 8,03197 0 8,01639 11,6861 p4 14,9646 11,6929 8,01639 0 7,96571 p5 17,3998 14,9277 11,6861 7,96571 0

(49)

p1 p2 p3 p4 p5

p1 0 p1 8,05823 p1 11,6939 p1 14,9646 p1 17,3998 p2 8,05823 p2 0 p2 8,03197 p2 11,6929 p2 14,9277 p3 11,6939 p3 8,03197 p3 0 p3 8,01639 p3 11,6861 p4 14,9646 p4 11,6929 p4 8,01639 p4 0 p4 7,96571 p5 17,3998 p5 14,9277 p5 11,6861 p5 7,96571 p5 0

Setelah diurutkan :

p1 p2 p3 p4 p5

p1 0 p2 0 p3 0 p4 0 p5 0

p2 8,05823 p3 8,03197 p4 8,01639 p5 7,96571 p4 7,96571 p3 11,6939 p1 8,05823 p2 8,03197 p3 8,01639 p3 11,6861 p4 14,9646 p4 11,6929 p5 11,6861 p2 11,6929 p2 14,9277 p5 17,3998 p5 14,9277 p1 11,6939 p1 14,9646 p1 17,3998

3. Mencari _�

p1 p2 p3 p4 p5

p1 0 p2 0 p3 0 p4 0 p5 0

p2 8,05823 p3 8,03197 p4 8,01639 p5 7,96571 p4 7,96571 p3 11,6939 p1 8,05823 p2 8,03197 p3 8,01639 p3 11,6861 p4 14,9646 p4 11,6929 p5 11,6861 p2 11,6929 p2 14,9277 p5 17,3998 p5 14,9277 p1 11,6939 p1 14,9646 p1 17,3998

� = 2 tetangga terdekat dari masing-masing obyek. � = {p2, p3}

� = {p3, p1} � = {p4, p2} � = {p5, p3} � = {p4, p3}

(50)

Sebelum mencari � _� , karena � _� = _� ∪ _� , terlebih dahulu mencari _� , seperti berikut :

p1 p2 p3 p4 p5

p1 0 p2 0 p3 0 p4 0 p5 0

� = {p2} � = {p3, p1} � = {p4, p2} � = {p5, p3} � = {p4}

Lalu hasil Influence Space (IS) menjadi seperti berikut :

p1 p2 p3 p4 p5

p1 0 p2 0 p3 0 p4 0 p5 0

p2 8,05823 p3 8,03197 p4 8,01639 p5 7,96571 p4 7,96571 p3 11,6939 p1 8,05823 p2 8,03197 p3 8,01639 p3 11,6861 p4 14,9646 p4 11,6929 p5 11,6861 p2 11,6929 p2 14,9277 p5 17,3998 p5 14,9277 p1 11,6939 p1 14,9646 p1 17,3998

5. Menghitung k-distance

�� = nilai terbesar (maksimal) dari tetangga terdekat dari

(51)

�� = 11,6939

�� = 8,05823

�� = 8,03197

�� = 8,01639

�� = 11,6861

6. Menghitung Local Density

� = 1 / 11,6939 = 0,08551

� = 1 / 8,05823 = 0,1241

� = 1 / 8,03197 = 0,1245

� = 1 / 8,01639 = 0,12474

� = 1 / 11,6861 = 0,08557

7. Menghitung Influenced Outlierness (INFLO)

� �� =

, + ,

, = 1,45355

� �� =

, + ,

, = 0,84618

� �� =

, + ,

, = 0,99934

� �� =

, + ,

, = 0,84202

� �� =

, + ,

(52)

8. Memberikan Kesimpulan

Hasil INFLO dari masing-masing obyek, terlihat bahwa hasil INFLO tersebesar adalah milik obyek p1 dan p5 dengan hasilnya masing-masing 1,45355 dan 1,45636. Maka dari itu, obyek p1 dan p5 yang terdeteksi sebagai outlier. Obyek p1 terdeteksi karena nilainya adalah 9,5 yang dimana nilai tersebut adalah nilai tertinggi dari semua obyek, sedangkan obyek p5 terdeteksi karena nilainya adalah 7,95 yang dimana nilai tersebut adalah nilai terendah dari semua obyek.

(53)

3. BAB III

METODOLOGI PENELITIAN

3.1. SUMBER DATA

Data yang digunakan untuk penelitian berupa file yang memiliki ekstensi .xls yang diperoleh dari 2 sumber. Sumber yang pertama adalah Seksi Data dan Teknologi Informasi Dinas Pendidikan, Pemuda, dan Olah Raga (DIKPORA) Provinsi Daerah Istimewa Yogyakarta (DIY). Lalu sumber yang kedua adalah dari website e-Reporting Ujian Nasional milik

Pusat Penilaian Pendidikan

http://118.98.234.22/sekretariat/hasilun/index.php/hasilun.

Data sumber merupakan data nilai Ujian Nasional (UN), Nilai Sekolah (NS), dan Nilai Akhir (NA) dari tahun 2011 – 2014. Pada penelitian ini hanya untuk SMA jurusan Ilmu Pengetahuan Alam (IPA) dan Ilmu Pengetahuan Sosial (IPS).

Table 3.1 Tabel Atribut Data

Nama Atribut Keterangan

RANKING Urutan Ranking

NAMA_SEKOLAH Nama Sekolah

JENIS_SEKOLAH Jenis Sekolah (SMA / MA) STATUS_SEKOLAH Status Sekolah (Swasta / Negeri)

Jumlah

PESERTA Jumlah Peserta

L Jumlah Peserta yang Lulus %L Persentase Peserta yang Lulus TL Jumlah Peserta yang Tidak Lulus %TL Persentase Peserta yang Tidak Lulus

(54)

3.2. PENGOLAHAN DATA 3.2.1. Data Cleaning

Tahap pertama adalah membersihkan data dari noise seperti data yang tidak terisi ataupun data yang tidak konsisten. Data yang ada tidak memiliki noise sehingga tahap ini tidak dilakukan.

3.2.2. Data Integration

Tahap selanjutnya adalah melakukan penggabungan data dari berbagai macam sumber. Data yang ada juga sudah terdapat dalam 1 file sehingga tahap ini juga tidak dilakukan.

3.2.3. Data Selection

Tahap selanjutnya adalah seleksi data dari atribut yang tidak terpakai. Proses seleksi ini dilakukan dengan memilih atribut yang relevan untuk digunakan dalam penelitian, dan menghapus atribut Mata

Ujian

BIN Nilai Bahasa Indonesia

BING Nilai Bahasa Inggris

MTK Nilai Matematika FSK /

EKO

Nilai Fisika / Nilai Ekonomi KMA /

SOS

Nilai Kimia / Nilai Sosiologi BIO /

GEO

Nilai Biologi / Nilai Geografi

TOTAL Total Nilai

(55)

yang tidak relevan. Atribut yang dapat dilanjutkan untuk penelitian adalah :

Table 3.2 Tabel Seleksi Atribut

Nama Atribut Keterangan

RANKING Ranking se-DIY

KODE_SEKOLAH Kode Sekolah

BIN Nilai Bahasa Indonesia

BING Nilai Bahasa Inggris

MTK Nilai Matematika

FSK / EKO

Nilai Fisika / Nilai Ekonomi KMA /

SOS

Nilai Kimia / Nilai Sosiologi BIO /

GEO

Nilai Biologi / Nilai Geografi

3.2.4. Data Transformation

Tahap selanjutnya adalah proses transformasi data dengan melakukan normalisasi perbedaan range. Proses normalisasi dilakukan dengan menggunakan rumus min-max normalization

seperti berikut :

′

₌

�− � �

��− � �

(�

��

− �

� �

) + �

� �…(3.1)

Keterangan :

v = nilai sebelum ternormalisasi v’ = nilai setelah ternormalisasi minA = nilai minimal dari atribut A maxA = nilai maksimal dari atribut A

(56)

� � � = nilai minimal terbaru dari atribut A � �� = nilai minimal terbaru dari atribut A

Pada penelitian ini, atribut yang digunakan sudah memiliki data yang memiliki range yang sama, yaitu 0 – 10, sehingga tahap ini tidak dilakukan. Berikut adalah data nilai Ujian Nasional Kabupaten Gunung Kidul tahun 2014 :

Table 3.3 Tabel Data Terseleksi

RK KODE

SEKOLAH BIN BING MTK FSK KMA BIO 3 05-002 8.68 7.16 8.35 7.80 7.18 8.24 19 05-001 8.39 5.94 7.35 6.48 6.51 7.78 52 05-021 8.01 5.55 5.74 5.17 5.14 6.42 59 05-005 7.94 5.80 4.52 4.83 5.09 6.49 61 05-022 7.98 5.75 4.68 4.29 4.96 6.60 64 05-003 7.88 5.38 5.04 4.64 4.71 6.16 73 05-020 8.05 5.39 4.51 4.08 4.67 5.82 74 05-006 7.91 4.77 4.80 3.93 5.08 5.95 78 05-009 7.36 5.53 4.75 3.78 4.61 6.14 86 05-034 7.96 4.38 4.82 3.90 4.08 5.72 88 05-004 7.80 4.49 5.05 3.66 4.26 5.45 89 05-027 7.89 5.19 4.07 3.97 4.47 4.91 97 05-026 7.89 4.80 4.05 4.05 3.65 5.32 103 05-007 7.79 4.73 3.77 3.92 3.83 5.15 104 05-025 7.76 5.16 3.82 3.39 3.86 5.16 125 05-012 7.86 4.56 3.27 3.16 3.05 4.63 130 05-024 7.28 4.14 3.18 3.16 3.61 4.54 139 05-008 6.82 3.80 3.25 2.97 2.39 3.89

(57)

3.2.5. Data Mining

Tahap selanjutnya adalah melakukan penambangan data yang juga terdiri dari beberapa tahapan. Pada proses saat ini digunakan aplikasi Microsoft Excel.

1. Menghitung Jarak Menggunakan Euclidean Distance

Tahap ini adalah menghitung jarak (distance) dari suatu obyek p dan q di suatu database D. Rumus menghitung jarak d(p, q) dirumuskan seperti pada Rumus 2.1, yaitu :

,

= √∑

_� _�

−

_� ... (2.1)

Berikut adalah contoh perhitungan jarak antar obyek BIN, BING, MTK, FSK, KMA, BIO :

Table 3.4 Tabel Jarak Antar Obyek

3 19 52 59 61 64

3 0 2.230560468 4.923819656 5.772139984 5.990417348 5.931053869

19 2.230560468 0 2.886381818 3.825441151 3.990501222 3.893558783

52 4.923819656 2.886381818 0 1.295685147 1.415521105 1.034021276

59 5.772139984 3.825441151 1.295685147 0 0.59186147 0.860116271

61 5.990417348 3.990501222 1.415521105 0.59186147 0 0.809382481

64 5.931053869 3.893558783 1.034021276 0.860116271 0.809382481 0

73 6.653593014 4.633670252 1.819093181 1.16965807 0.948683298 0.860639297

74 6.598371011 4.471923523 1.806682042 1.497297566 1.243462907 1.056267012

78 6.673424908 4.645277171 1.922082204 1.38477435 1.015824788 1.061602562

86 7.202645347 5.081761506 2.333302381 2.141191257 1.896786757 1.480844354

88 7.227959601 5.117069474 2.374699981 2.270682717 1.99155718 1.570222914

89 7.478322004 5.501772442 2.664939024 2.048780125 1.972916623 1.745307996

97 7.728745047 5.707512593 2.849122672 2.29658442 2.172464039 1.869197689

(58)

104 8.08233877 6.074635792 3.208644574 2.507468843 2.286853734 2.199136194

125 9.21180764 7.193622175 4.326176141 3.676492894 3.496355245 3.330555509

130 9.261414579 7.196596418 4.357751714 3.710606419 3.560210668 3.37372198

139 10.29342994 8.263237864 5.429742167 4.937296831 4.783764208 4.488685776

73 74 78 86 88 89

3 6.653593014 6.598371011 6.673424908 7.202645347 7.227959601 7.478322004

19 4.633670252 4.471923523 4.645277171 5.081761506 5.117069474 5.501772442

52 1.819093181 1.806682042 1.922082204 2.333302381 2.374699981 2.664939024

59 1.16965807 1.497297566 1.38477435 2.141191257 2.270682717 2.048780125

61 0.948683298 1.243462907 1.015824788 1.896786757 1.99155718 1.972916623

64 0.860639297 1.056267012 1.061602562 1.480844354 1.570222914 1.745307996

73 0 0.834026378 0.865621164 1.230772115 1.282770439 1.067426812

74 0.834026378 0 1.078007421 1.09945441 1.071587607 1.471393897

78 0.865621164 1.078007421 0 1.469387628 1.40648498 1.558043645

86 1.230772115 1.09945441 1.469387628 0 0.503487835 1.427094951

88 1.282770439 1.071587607 1.40648498 0.503487835 0 1.374881813

89 1.067426812 1.471393897 1.558043645 1.427094951 1.374881813 0

97 1.369890507 1.73781472 1.723571873 1.068456831 1.282692481 0.999699955

103 1.493619764 1.810938983 1.842118346 1.281288414 1.427795504 0.88391176

104 1.476787053 1.881249585 1.684280262 1.506817839 1.510099334 0.9226592

125 2.673854895 2.973835907 2.911940933 2.289432244 2.358686075 1.946458322

130 2.74457647 2.856588875 2.88925596 2.317433926 2.321723498 1.949179314

139 3.972908255 4.114948359 4.022623522 3.342274675 3.329129015 3.180597428

97 103 104 125 130 139

3 7.728745047 7.968588332 8.08233877 9.21180764 9.261414579 10.29342994

19 5.707512593 5.940824859 6.074635792 7.193622175 7.196596418 8.263237864

52 2.849122672 3.081103698 3.208644574 4.326176141 4.357751714 5.429742167

59 2.29658442 2.437457692 2.507468843 3.676492894 3.710606419 4.937296831

61 2.172464039 2.328282629 2.286853734 3.496355245 3.560210668 4.783764208

64 1.869197689 2.08719908 2.199136194 3.330555509 3.37372198 4.488685776

73 1.369890507 1.493619764 1.476787053 2.673854895 2.74457647 3.972908255

74 1.73781472 1.810938983 1.881249585 2.973835907 2.856588875 4.114948359

78 1.723571873 1.842118346 1.684280262 2.911940933 2.88925596 4.022623522

86 1.068456831 1.281288414 1.506817839 2.289432244 2.317433926 3.342274675

88 1.282692481 1.427795504 1.510099334 2.358686075 2.321723498 3.329129015

89 0.999699955 0.88391176 0.9226592 1.946458322 1.949179314 3.180597428

97 0 0.414125585 0.839464115 1.514958745 1.722411101 2.753870004

103 0.414125585 0 0.68571131 1.319166403 1.397998569 2.576800342

(59)

125 1.514958745 1.319166403 1.289340917 0 0.917932459 1.636734554

130 1.722411101 1.397998569 1.476550033 0.917932459 0 1.509668838

139 2.753870004 2.576800342 2.647319399 1.636734554 1.509668838 0

2. Menghitung K-Distance dan Mencari Nearest Neighbors (NN) Tahap ini adalah menentukan tetangga terdekat (NN) dengan asumsi jumlah tetangga terdekat (k) = 7. Caranya adalah dengan mengurutkan jarak masing-masing obyek ke obyek lainya dari nilai terkecil ke terbesar, lalu memilih 7 jarak terdekat, yaitu yang mengandung nilai terkecil. Selanjutnya adalah menghitung

k-distance dari masing-masing obyek tersebut dengan mencari nilai maksimal dari keseluruhan nilai jarak obyek dengan ke-7 tetangga terdekatnya.

Berikut adalah tetangga terdekat (NN) masing-masing obyek dengan jarak antar obyeknya :

Table 3.5 Tabel NN dengan Jarak Antar Obyeknya

3 19 52 59

3 ₀ 19 ₀ 52 ₀ 59 ₀

19 _2.230560468 3 _2.230560468 64 _1.034021276 61 _0.59186147 52 _4.923819656 52 _2.886381818 59 _1.295685147 64 _0.860116271 59 _5.772139984 59 _3.825441151 61 _1.415521105 73 _1.16965807 64 _5.931053869 64 _3.893558783 74 _1.806682042 52 _1.295685147 61 _5.990417348 61 _3.990501222 73 _1.819093181 78 _1.38477435 74 _6.598371011 74 _4.471923523 78 _1.922082204 74 _1.497297566 73 _6.653593014 73 _4.633670252 86 _2.333302381 89 _2.048780125

61 64 73 74

(60)

59 _0.59186147 61 _0.809382481 74 _0.834026378 73 _0.834026378 64 _0.809382481 59 _0.860116271 64 _0.860639297 64 _1.056267012 73 _0.948683298 73 _0.860639297 78 _0.865621164 88 _1.071587607 78 _1.015824788 52 _1.034021276 61 _0.948683298 78 _1.078007421 74 _1.243462907 74 _1.056267012 89 _1.067426812 86 _1.09945441 52 _1.415521105 78 _1.061602562 59 _1.16965807 61 _1.243462907 86 _1.896786757 86 _1.480844354 86 _1.230772115 89 _1.471393897

78 86 88 89

78 ₀ 86 ₀ 88 ₀ 89 ₀

73 _0.865621164 88 _0.503487835 86 _0.503487835 103 _0.88391176 61 _1.015824788 97 _1.068456831 74 _1.071587607 104 _0.9226592 64 _1.061602562 74 _1.09945441 97 _1.282692481 97 _0.999699955 74 _1.078007421 73 _1.230772115 73 _1.282770439 73 _1.067426812 59 _1.38477435 103 _1.281288414 89 _1.374881813 88 _1.374881813 88 _1.40648498 89 _1.427094951 78 _1.40648498 86 _1.427094951 86 _1.469387628 78 _1.469387628 103 _1.427795504 74 _1.471393897

97 103 104 125

97 ₀ 103 ₀ 104 ₀ 125 ₀

103 _0.414125585 97 _0.414125585 103 _0.68571131 130 _0.917932459 104 _0.839464115 104 _0.68571131 97 _0.839464115 104 _1.289340917 89 _0.999699955 89 _0.88391176 89 _0.9226592 103 _1.319166403 86 _1.068456831 86 _1.281288414 125 _1.289340917 97 _1.514958745 88 _1.282692481 125 _1.319166403 130 _1.476550033 139 _1.636734554 73 _1.369890507 130 _1.397998569 73 _1.476787053 89 _1.946458322 125 _1.514958745 88 _1.427795504 86 _1.506817839 86 _2.289432244

130 139

130 ₀ 139 ₀

125 _0.917932459 130 _1.509668838 103 _1.397998569 125 _1.636734554 104 _1.476550033 103 _2.576800342 139 _1.509668838 104 _2.647319399 97 _1.722411101 97 _2.753870004 89 _1.949179314 89 _3.180597428 86 _2.317433926 88 _3.329129015

(61)

Berikut ini adalah ringkasan nilai k-distance obyek :

Table 3.6 Tabel K-Distance K-Distance 3 6.653593014 19 4.633670252 52 2.333302381 59 2.048780125 61 1.896786757 64 1.480844354 73 1.230772115 74 1.471393897 78 1.469387628 86 1.469387628 88 1.427795504 89 1.471393897 97 1.514958745 103 1.427795504 104 1.506817839 125 2.289432244 130 2.317433926 139 3.329129015

3. Mencari Influence Space (IS)

Tahap ini adalah mencari hubungan tetangga simetris dari suatu obyek. IS merupakan gabungan dari NN (Nearest Neighbors) dan RNN (Reverse Nearest Neighbors). RNN merupakan

inverse dari tetangga suatu obyek.

(62)

Table 3.7 Tabel NN NN

3 19 52 59 64 61 74 73

19 3 52 59 64 61 74 73

52 64 59 61 74 73 78 86

59 61 64 73 52 78 74 89

61 59 64 73 78 74 52 86

64 61 59 73 52 74 78 86

73 74 64 78 61 89 59 86

74 73 64 88 78 86 61 89

78 73 61 64 74 59 88 86

86 88 97 74 73 103 89 78

88 86 74 97 73 89 78 103

89 103 104 97 73 88 86 74

97 103 104 89 86 88 73 125

103 97 104 89 86 125 130 88

104 103 97 89 125 130 73 86

125 130 104 103 97 139 89 86

130 125 103 104 139 97 89 86

139 130 125 103 104 97 89 88

Berikut adalah RNN dari masing-masing obyek : Table 3.8 Table RNN RNN

3 19

19 3

52 64 59 61

59 61 64 73 52 78

61 59 64 73 78 74 52

64 61 59 73 52 74 78

73 74 64 78 61 89 59 86

74 73 64 88 78 86 61 89

78 73 61 64 74 59 88 86

86 88 97 74 73 103 89 78

88 86 74 97 89 78 103

(63)

97 103 104 89 86 88 125

103 97 104 89 86 125 130 88

104 103 97 89 125 130

125 130 104 103 97 139 130 125 103 104 139

139 130 125

Sehingga menghasilkan IS dari masing-masing obyek adalah sebagai berikut :

Table 3.9 Tabel IS IS

3 19 52 59 64 61 74 73

19 3 52 59 64 61 74 73

52 64 59 61 74 73 78 86

59 61 64 73 52 78 74 89

61 59 64 73 78 74 52 86

64 61 59 73 52 74 78 86

73 74 64 78 61 89 59 86

74 73 64 88 78 86 61 89

78 73 61 64 74 59 88 86

86 88 97 74 73 103 89 78

88 86 74 97 73 89 78 103

89 103 104 97 73 88 86 74

97 103 104 89 86 88 73 125

103 97 104 89 86 125 130 88

104 103 97 89 125 130 73 86

125 130 104 103 97 139 89 86

130 125 103 104 139 97 89 86

(64)

4. Menghitung Local Density

Cara perhitungan Local Density seperti pada Rumus 2.5 :

�

=

_�

� ... (2.5)

Berikut adalah hasil local density dari semua obyek :

Table 3.10 Tabel Density

Density

3 0.150294735 19 0.215811645 52 0.428577114 59 0.488095325 61 0.527207392 64 0.675290416 73 0.812498096 74 0.679627666 78 0.680555615 86 0.680555615 88 0.70038041 89 0.679627666 97 0.660083981 103 0.70038041 104 0.663650226 125 0.436789515 130 0.431511763 139 0.300378866

(65)

Selanjutnya adalah menhitung rata-rata density dari masing-maisng obyek :

Table 3.11 Tabel Rata-rata Density Tiap Obyek

Density Density Density Density

3 0.15029474 19 0.21581165 52 0.42857711 59 0.48809532

19 0.21581165 3 0.15029474 64 0.67529042 61 0.52720739

52 0.42857711 52 0.42857711 59 0.48809532 64 0.67529042

59 0.48809532 59 0.48809532 61 0.52720739 73 0.8124981

64 0.67529042 64 0.67529042 74 0.67962767 52 0.42857711

61 0.52720739 61 0.52720739 73 0.8124981 78 0.68055561

74 0.67962767 74 0.67962767 78 0.68055561 74 0.67962767

73 0.8124981 73 0.8124981 86 0.68055561 89 0.67962767

Rata2 0.54673 Rata2 0.53737 Rata2 0.649119 Rata2 0.640483

Density Density Density Density

61 0.52720739 64 0.67529042 73 0.8124981 74 0.67962767

59 0.48809532 61 0.52720739 74 0.67962767 73 0.8124981

64 0.67529042 59 0.48809532 64 0.67529042 64 0.67529042

73 0.8124981 73 0.8124981 78 0.68055561 88 0.70038041

78 0.68055561 52 0.42857711 61 0.52720739 78 0.68055561

74 0.67962767 74 0.67962767 89 0.67962767 86 0.68055561

52 0.42857711 78 0.68055561 59 0.48809532 61 0.52720739

86 0.68055561 86 0.68055561 86 0.68055561 89 0.67962767

Rata2 0.635029 Rata2 0.613874 Rata2 0.630137 Rata2 0.679445

Density Density Density Density

78 0.68055561 86 0.680556 88 0.70038 89 0.679628

73 0.8124981 88 0.70038 86 0.680556 103 0.70038

61 0.52720739 97 0.660084 74 0.679628 104 0.66365

64 0.67529042 74 0.679628 97 0.660084 97 0.660084

74 0.67962767 73 0.812498 73 0.812498 73 0.812498

59 0.48809532 103 0.70038 89 0.679628 88 0.70038

(66)

86 0.68055561 78 0.680556 103 0.70038 74 0.679628

Rata2 0.651951 Rata2 0.701879 Rata2 0.699047 Rata2 0.699597

Density Density Density Density

97 0.660084 103 0.70038 104 0.66365 125 0.43679 103 0.70038 97 0.660084 103 0.70038 130 0.431512 104 0.66365 104 0.66365 97 0.660084 104 0.66365

89 0.679628 89 0.679628 89 0.679628 103 0.70038 86 0.680556 86 0.680556 125 0.43679 97 0.660084 88 0.70038 125 0.43679 130 0.431512 139 0.300379 73 0.812498 130 0.431512 73 0.812498 89 0.679628

125 0.43679 88 0.70038 86 0.680556 86 0.680556

Rata2 0.667697 Rata2 0.607514 Rata2 0.628778 Rata2 0.588027

Density Density

130 0.431512 139 0.300379 125 0.43679 130 0.431512 103 0.70038 125 0.43679 104 0.66365 103 0.70038 139 0.300379 104 0.66365 97 0.660084 97 0.660084 89 0.679628 89 0.679628 86 0.680556 88 0.70038

Rata2 0.588781 Rata2 0.610346

5. Menghitung Influenced Outlierness (INFLO)

Tahap ini adalah menghitung INFLO dari suatu obyek, yang sudah tertera pada Rumus 2.8 :

� ��

�

=

∑ _{∈ � �} � | � � |

(1)

10 01-011 1.585462563 10 05-023 1.575084208 10 01-017 1.514562189 11 04-077 1.579576323 11 02-008 1.486022459 11 05-002 1.508506898 12 01-041 1.509224498 12 04-077 1.484189012 12 05-023 1.499693728 13 03-003 1.508632552 13 03-003 1.432820404 13 02-002 1.460976784 14 03-005 1.412981924 14 01-041 1.405189577 14 01-042 1.424781115 15 01-023 1.380560794 15 01-023 1.377985994 15 01-039 1.39366335 16 01-058 1.369472081 16 04-004 1.370642406 16 01-041 1.384671693 17 02-008 1.368574873 17 01-054 1.36437045 17 01-046 1.374987019 18 05-033 1.365169243 18 04-076 1.360355564 18 02-008 1.371205589 19 04-024 1.351114745 19 05-033 1.33499914 19 04-077 1.370807878 20 03-006 1.334888799 20 03-019 1.329680813 20 01-023 1.370527638 21 01-051 1.29923477 21 01-017 1.327379621 21 05-014 1.339566421 22 03-024 1.282782315 22 04-024 1.321078923 22 04-076 1.309376288 23 04-013 1.27813686 23 01-014 1.313958822 23 01-028 1.283517093 24 01-029 1.275684207 24 01-027 1.310250974 24 01-054 1.276543642 25 02-030 1.273836375 25 01-051 1.284165417 25 01-027 1.258296562 26 04-076 1.273364729 26 05-002 1.274430545 26 02-001 1.234026925 27 05-005 1.267731902 27 03-024 1.27114072 27 01-051 1.232783981 28 02-044 1.267725608 28 01-058 1.27006367 28 05-033 1.228226828 29 01-021 1.263311893 29 02-002 1.261076192 29 01-004 1.217123908 30 03-019 1.261635524 30 03-006 1.255054927 30 02-050 1.215957729 31 02-006 1.257227807 31 05-034 1.249964024 31 04-024 1.19847328 32 05-034 1.253118672 32 01-046 1.243597413 32 03-006 1.198070888 33 01-054 1.237614304 33 01-026 1.231593091 33 04-033 1.190757499 34 03-007 1.228294106 34 05-014 1.228624054 34 01-026 1.186097684 35 05-002 1.227980236 35 01-021 1.225557267 35 03-019 1.174590264 36 01-014 1.224765451 36 02-030 1.224110119 36 02-030 1.171619662 37 02-029 1.222750311 37 02-029 1.212173256 37 03-003 1.170296911 38 04-010 1.218276205 38 04-013 1.20514479 38 01-014 1.164823012 39 01-042 1.216119074 39 01-007 1.199399409 39 01-007 1.164572255 40 01-015 1.213711512 40 01-042 1.197016201 40 04-004 1.164564002 41 01-007 1.207444173 41 03-005 1.190578316 41 01-020 1.161275135 42 01-006 1.206738762 42 03-016 1.177253742 42 03-005 1.157272644 43 01-027 1.205880403 43 05-005 1.176508128 43 03-024 1.153988247 44 01-003 1.203881851 44 02-033 1.1760222 44 05-034 1.14379346 45 05-014 1.194824714 45 03-017 1.174460013 45 04-010 1.141033042 46 02-050 1.191729039 46 04-079 1.168285155 46 04-013 1.139833569 47 01-026 1.190831388 47 01-045 1.165999022 47 01-029 1.136753782 48 04-023 1.180596175 48 02-050 1.157139404 48 04-048 1.133252809 49 04-009 1.178420251 49 01-029 1.1553701 49 05-005 1.132996983 50 01-012 1.177336057 50 01-025 1.137601418 50 01-008 1.125089782

(2)

51 01-025 1.175542173 51 04-010 1.135098884 51 01-025 1.123398956 52 03-016 1.163013356 52 01-009 1.131964548 52 04-009 1.116578148 53 02-033 1.151265859 53 04-025 1.126350323 53 04-046 1.103633192 54 04-073 1.142616753 54 04-060 1.123202853 54 01-045 1.100380299 55 02-003 1.13954669 55 04-039 1.12151106

56 02-025 1.139276942 56 02-004 1.112103386 57 01-045 1.135267419 57 03-014 1.109784063 58 04-055 1.133081384 58 04-055 1.106053464 59 04-028 1.132422704 59 01-055 1.104310577 60 02-013 1.125671741

61 04-039 1.124080313 62 05-012 1.121683039 63 04-061 1.12118123 64 01-028 1.118952509 65 04-079 1.117784511 66 03-012 1.114966399 67 03-001 1.106045976 68 04-017 1.100773144

(3)

LAMPIRAN 12 : DIAGRAM (

BOX AND WHISKER PLOTS

)

1. 2014_UN_IPA

BIN BING MTK FSK KMA BIO

COUNT 141 141 141 141 141 141

MEAN 7.70 5.62 4.99 4.79 4.84 5.88

STANDAR

DEVIASI 0.64003971 1.108534197 1.377811389 1.298571497 1.17790292 1.199077018

MIN 5.30 3.57 2.89 2.65 2.39 3.21

Q1 7.31 4.75 3.92 3.81 3.86 5.07

MEDIAN 7.84 5.53 4.75 4.49 4.74 5.72

Q3 8.14 6.39 5.88 5.74 5.7 6.71

MAX 9.40 8.20 8.35 7.83 7.25 9.00

BOTTOM

(Q1) 7.31 4.75 3.92 3.81 3.86 5.07

2Q BOX

(Q1 – MIN) 0.53 0.78 0.83 0.68 0.88 0.65

3Q BOX

(Q3 – MED) 0.3 0.86 1.13 1.25 0.96 0.99

WHISKER - 2.0100 1.1800 1.0300 1.1600 1.4700 1.8600

WHISKER + 1.2600 1.8100 2.4700 2.0900 1.5500 2.2900

OFFSET 0.5 1.5 2.5 3.5 4.5 5.5

0 1 2 3 4 5 6 7 8 9 10

BIN BING MTK FSK KMA BIO

(4)

2. 2014_UN_IPS

BIN BING MTK EKO SOS GEO

COUNT 159 159 159 159 159 159

MEAN 7.11 5.06 4.50 5.12 6.21 5.98

STANDAR

DEVIASI 0.799531932 1.263108419 1.78697934 1.381177716 0.996178439 1.08597211

MIN 5.17 2.60 2.00 2.42 4.35 3.75

Q1 6.51 3.94 3.05 3.96 5.375 5.11

MEDIAN 7.09 4.94 4.01 4.82 6.14 5.77

Q3 7.72 6 5.58 6.225 7.005 6.8

MAX 8.87 8.31 8.86 8.55 8.23 8.28

BOTTOM

(Q1) 6.51 3.94 3.05 3.96 5.375 5.11

2Q BOX

(Q1 – MIN) 0.58 1 0.96 0.86 0.765 0.66

3Q BOX

(Q3 – MED) 0.63 1.06 1.57 1.405 0.865 1.03

WHISKER - 1.3400 1.3400 1.0500 1.5400 1.0250 1.3600

WHISKER + 1.1500 2.3100 3.2800 2.3250 1.2250 1.4800

OFFSET 0.5 1.5 2.5 3.5 4.5 5.5

0 1 2 3 4 5 6 7 8 9 10

BIN BING MTK EKO SOS GEO

(5)

(6)

Deteksi outlier untuk nilai ujian Sekolah Menengah Atas (Sma) menggunakan Algoritma Influenced Outlierness (INFLO).

“Karena Tuhanlah yang memberikan hikmat,

dari mulut-Nya datang pengetahuan dan

kepandaian”

,

= √∑

−

�

=

∪

= { | ∈ �, ∈

}

�

=

� ��

=

... (2.6)

�

(�

) =

� ��

=

=

(�

− �

) + �

,

= √∑

−

�

=

� ��

=

LAMPIRAN 12 : DIAGRAM (

BOX AND WHISKER PLOTS

)

1.

2014_UN_IPA

2.

2014_UN_IPS

Parts

Dokumen yang terkait

PEMBANGUNAN SISTEM INFORMASI NILAI UNTUK SEKOLAH MENENGAH ATAS BERBASIS WEB PEMBANGUNAN SISTEM INFORMASI NILAI UNTUK SEKOLAH MENENGAH ATAS BERBASIS WEB.

Implementasi algoritma Partitioning Around Medoids (PAM) untuk pengelompokan Sekolah Menengah Atas di DIY berdasarkan nilai daya serap Ujian Nasional.

Pengelompokan Sekolah Menengah Atas di Provinsi Daerah Istimewa Yogyakarta berdasarkan nilai Ujian Nasional menggunakan algoritma K-Means Clustering.

Pengelompokan Sekolah Menengah Atas di Provinsi Daerah Istimewa Yogyakarta berdasarkan nilai Ujian Nasional menggunakan algoritma agglomerative hierarchical clustering.

Implementasi algoritma fuzzy c-means untuk pengelompokan sekolah menengah atas di diy berdasarkan nilai ujian nasional dan nilai sekolah.

Deteksi outlier menggunakan Algoritma Connectivity Based Outlier Factor : studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma.

Penerapan metode enhanced class outlier distance based untuk identifikasi outlier pada data hasil ujian nasional, indeks integritas dan akreditasi sekolah menengah atas

Implementasi algoritma Partitioning Around Medoids (PAM) untuk pengelompokan Sekolah Menengah Atas di DIY berdasarkan nilai daya serap Ujian Nasional

Pemahaman Nilai-Nilai Kewirausahaan Dalam Menulis Naskah Drama Untuk Sekolah Menengah Atas (SMA) Dengan Menggunakan Model Peralihan Konsep

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

Dokumen yang Anda mencari sudah siap untuk unduhkan

₌