Deteksi outlier untuk nilai ujian Sekolah Menengah Atas (Sma) menggunakan Algoritma Influenced Outlierness (INFLO).
ABSTRAK
Pada era globalisasi saat ini, pertumbuhan data yang sangat banyak seringkali terlalu luas dan tidak menghasilkan suatu informasi yang jelas, apalagi pengetahuan. Penambangan data akan mengubah data yang sangat tidak informatif tersebut menjadi sebuah informasi yang berguna ataupun dapat pula menjadi suatu pengetahuan. Dalam penambangan data, ada suatu teknik untuk mencari data yang tidak konsisten ataupun data yang berbeda dari data yang lainnya, biasa dikenal dengan deteksi outlier. Teknik ini dapat digunakan untuk menganalisis berbagai bidang, salah satunya adalah bidang pendidikan.
Maka dari itu, penelitian ini melakukan deteksi outlier dengan menggunakan algoritma
Influenced Outlierness (INFLO). Algoritma ini dikemukakan oleh Jin et.al. pada tahun 2006, mengusulkan deteksi outlier berdasarkan influence space. Data yang digunakan adalah nilai ujian SMA dari Provinsi DIY tahun 2011 – 2014.
Penelitian ini menghasilkan sistem alat bantu deteksi menggunakan algoritma INFLO. Pengujiannya ada 5 metode. Hasil yang didapat dari seluruh pengujian adalah sistem ini dapat digunakan untuk mendeteksi outlier data nilai ujian SMA tersebut.
(2)
In the current era of globalization, the growth of data very much often too broad and did not produce a clear information, let alone knowledge. Data mining will change very uninformative data into a useful information or can also be a knowledge. In data mining, there is a technique to look for inconsistent data or data that is different from other data, commonly known as outlier detection. This technique can be used to analyze a wide range of fields, one of which is education.
Therefore, this study did outlier detection algorithms using Influenced Outlierness (INFLO). This algorithm proposed by Jin et al in 2006, the outlier detection based influence space. The data used is the high school test scores of DIY Province in 2011-2014.
This research resulted in the detection system uses an algorithm tools INFLO. There are 5 methods of testing. The results of all testing is these systems can be used to detect a data outlier high school test scores.
(3)
HALAMAN JUDUL
DETEKSI OUTLIER UNTUK NILAI UJIAN
SEKOLAH MENENGAH ATAS (SMA) MENGGUNAKAN ALGORITMA INFLUENCED OUTLIERNESS (INFLO)
SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Oleh :
Maria Renia Octaviani 115314010
PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA YOGYAKARTA
(4)
ii
HALAMAN JUDUL (BAHASA INGGRIS)
OUTLIER DETECTION FOR THE HIGH SCHOOL EXAM USING INFLUENCED OUTLIERNESS (INFLO) ALGORITHM
A Final Project
Presented as Partial Fullfillment of the Requirements To Obtain the Sarjana Komputer Degree In Informatics Engineering Study Program
By :
Maria Renia Octaviani 115314010
INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY
YOGYAKARTA 2015
(5)
iii
HALAMAN PERSETUJUAN
SKRIPSI
DETEKSI OUTLIER UNTUK NILAI UJIAN
SEKOLAH MENENGAH ATAS (SMA) MENGGUNAKAN ALGORITMA INFLUENCED OUTLIERNESS (INFLO)
Oleh :
Maria Renia Octaviani 115314010
Telah Disetujui Oleh :
Dosen Pembimbing
(6)
iv
HALAMAN PENGESAHAN SKRIPSI
DETEKSI OUTLIER UNTUK NILAI UJIAN
SEKOLAH MENENGAH ATAS (SMA) MENGGUNAKAN ALGORITMA INFLUENCED OUTLIERNESS (INFLO)
Yang dipersiapkan dan disusun oleh : Maria Renia Octaviani
115314010
Telah dipertahankan di depan Panitia Penguji Pada tanggal …… ……… 2015
Dan dinyatakan memenuhi syarat
Susunan Panitia Penguji
Tanda Tangan Ketua : P.H. Prima Rosa, S.Si., M.Sc. ……… Sekretaris : Sri Hartati Wijono, S.Si., M.Kom. ……… Anggota : Ridowati Gunawan, S.Kom., M.T. ………
Yogyakarta, …… ……… 2015 Fakultas Sains dan Teknologi
Universitas Sanata Dharma Dekan,
(7)
v
HALAMAN PERSEMBAHAN
“Karena Tuhanlah yang memberikan hikmat,
dari mulut-Nya datang pengetahuan dan
kepandaian”
( Amsal 2 : 6 )Karya ini kupersembahkan kepada : Tuhan Yesus Kristus
Bunda Maria Keluarga
(8)
vi
HALAMAN PERNYATAAN PERNYATAAN KEASLIAN KARYA
Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak memuat karya atau bagian karya orang lain, kecuali yang telah saya sebutkan dalam kutipan daftar pustaka, sebagaimana layaknya karya ilmiah.
Yogyakarta, … ……… 2015 Penulis,
(9)
vii
ABSTRAK
Pada era globalisasi saat ini, pertumbuhan data yang sangat banyak seringkali terlalu luas dan tidak menghasilkan suatu informasi yang jelas, apalagi pengetahuan. Penambangan data akan mengubah data yang sangat tidak informatif tersebut menjadi sebuah informasi yang berguna ataupun dapat pula menjadi suatu pengetahuan. Dalam penambangan data, ada suatu teknik untuk mencari data yang tidak konsisten ataupun data yang berbeda dari data yang lainnya, biasa dikenal dengan deteksi outlier. Teknik ini dapat digunakan untuk menganalisis berbagai bidang, salah satunya adalah bidang pendidikan.
Maka dari itu, penelitian ini melakukan deteksi outlier dengan menggunakan algoritma Influenced Outlierness (INFLO). Algoritma ini dikemukakan oleh Jin et.al. pada tahun 2006, mengusulkan deteksi outlier
berdasarkan influence space. Data yang digunakan adalah nilai ujian SMA dari Provinsi DIY tahun 2011 – 2014.
Penelitian ini menghasilkan sistem alat bantu deteksi menggunakan algoritma INFLO. Pengujiannya ada 5 metode. Hasil yang didapat dari seluruh pengujian adalah sistem ini dapat digunakan untuk mendeteksi outlier data nilai ujian SMA tersebut.
(10)
viii
ABSTRACT
In the current era of globalization, the growth of data very much often too broad and did not produce a clear information, let alone knowledge. Data mining will change very uninformative data into a useful information or can also be a knowledge. In data mining, there is a technique to look for inconsistent data or data that is different from other data, commonly known as outlier detection. This technique can be used to analyze a wide range of fields, one of which is education. Therefore, this study did outlier detection algorithms using Influenced Outlierness (INFLO). This algorithm proposed by Jin et al in 2006, the outlier detection based influence space. The data used is the high school test scores of DIY Province in 2011-2014.
This research resulted in the detection system uses an algorithm tools INFLO. There are 5 methods of testing. The results of all testing is these systems can be used to detect a data outlier high school test scores.
(11)
ix
HALAMAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPERLUAN KEPENTINGAN AKADEMIS
Yang bertanda tangan di bawah ini, saya mahasiswi Universitas Sanata Dharma : Nama : Maria Renia Octaviani
Nomor Mahasiswa : 115314010
Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan Universitas Sanata Dharma karya ilmiah saya yang berjudul :
DETEKSI OUTLIER UNTUK NILAI UJIAN
SEKOLAH MENENGAH ATAS (SMA) MENGGUNAKAN ALGORITMA INFLUENCED OUTLIERNESS (INFLO)
Beserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan kepada Perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain, mengelolanya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis.
Demikian pernyataan ini saya buat dengan sebenarnya Dibuat di Yogyakarta
Pada tanggal … ……… 2015 Yang menyatakan,
(12)
x
KATA PENGANTAR
Puji dan syukur kepada Tuhan Yang Maha Esa, karena pada akhirnya penulis dapat menyelesaikan penelitian tugas akhir ini yang berjudul “Deteksi Outlier Untuk Nilai Ujian Sekolah Menengah Atas (SMA) Menggunakan Algoritma Influenced Outlierness (INFLO)”.
Dalam menyelesaikan seluruh penyusunan tugas akhir ini, penulis tak lepas dari doa, bantuan, dukungan, dan motivasi dari banyak pihak. Oleh karena itu, penulis ingin mengucapkan banyak terima kasih kepada :
1. Ibu Paulina Heruningsih Prima Rosa, S.Si., M.Sc. selaku Dekan Fakultas Sains dan Teknologi dan juga selaku Dosen Penguji.
2. Ibu Ridowati Gunawan, S.Kom., M.T. selaku Ketua Program Studi Teknik Informatika dan juga selaku Dosen Pembimbing Skripsi yang telah memberikan waktu, bimbingan, dan motivasi kepada penulis.
3. Ibu Sri Hartati Wijono, S.Si., M.Kom. selaku Dosen Penguji.
4. Bapak Henricus Agung Hernawan, S.T., M.Kom. selaku Dosen Pembimbing Akademik.
5. Seluruh dosen, sekretariat, laboran, dan perpustakaan yang telah membimbing dan membantu selama proses perkuliahan di Universitas Sanata Dharma. 6. Bapak Bambang Kuncoro dari Seksi Data dan Teknologi Informasi Dinas
Pendidikan, Pemuda, dan Olah Raga Provinsi DIY yang telah bersedia memberikan data penelitian.
(13)
xi
8. Nenek Soejani tercinta yang telah mendoakan, mendukung, memotivasi penulis dari awal bersekolah hingga dapat menyelesaikan tugas akhir ini.
9. Andreas Widiyatmoko yang selalu mendoakan, dan ada dalam suka duka. 10.Erlita Octaviani dan Daniel Tomi Raharjo yang telah memberikan banyak
bantuan dalam memberikan pandangan dan refrensi kepada penulis saat penyusunan tugas akhir ini.
11.Teman-teman TI 2011 terutama Winda, Elsa, Orin, Danik, Ronald, Arie, Pandu W., Benny, Ega yang sudah menemani dan mendukung selama ini.
12.Mbak Ari selaku kakak dari seluruh anak Kost Wisma Dara dan teman-teman kost (Nova, Yolanda, Nona, Claudia, Cik Angel, Elsa, Winda, Merna, Ratna, dan semuanya) yang sudah menjadi teman kost terbaik.
13.Semua pihak yang sudah mendukung secara langsung ataupun tidak langsung, mohon maaf saya tidak dapat menyebutkan satu per satu.
Penulis berharap penelitian ini dapat menjadi pengetahuan baru yang berguna bagi para pembaca. Penelitian ini tidak luput dari kekurangan, oleh karena itu, penulis mengharapkan saran dan kritik untuk perbaikan hingga akhirnya penelitian ini menjadi lebih baik.
Yogyakarta, … ……… 2015 Penulis,
(14)
xii
DAFTAR ISI
Halaman
HALAMAN JUDUL ... i
HALAMAN JUDUL (BAHASA INGGRIS) ... ii
HALAMAN PERSETUJUAN ... iii
HALAMAN PENGESAHAN ... iv
HALAMAN PERSEMBAHAN ... v
HALAMAN PERNYATAAN ... vi
ABSTRAK ... vii
ABSTRACT ... viii
HALAMAN PERSETUJUAN PUBLIKASI KARYA ILMIAH ... ix
KATA PENGANTAR ... x
DAFTAR ISI ... xii
DAFTAR GAMBAR ... xviii
DAFTAR TABEL ... xxi
DAFTAR RUMUS ... xxiii
DAFTAR LAMPIRAN ... xxiv
BAB I PENDAHULUAN ... 1
1.1. Latar Belakang ... 1
1.2. Rumusan Masalah... 5
1.3. Batasan Masalah ... 5
(15)
xiii
1.5. Manfaat Penelitian ... 6
1.6. Metodologi Penelitian... 6
1.7. Sistematika Penulisan ... 9
BAB II LANDASAN TEORI ... 11
2.1. PENAMBANGAN DATA ... 11
2.1.1. Pengertian Penambangan Data ... 11
2.1.2. Asal Usul Penambangan Data ... 11
2.1.3. Fungsi dalam Penambangan Data ... 12
2.1.4. Knowledge Discovery in Databases (KDD) ... 14
2.2. DETEKSI OUTLIER ... 16
2.2.1. Pengertian Outlier... 16
2.2.2. Macam Pendekatan Outlier ... 16
2.3. INFLUENCED OUTLIERNESS (INFLO)... 18
2.3.1. Deteksi Outlier dengan Algoritma INFLO ... 18
2.3.2. Contoh Deteksi Outlier dengan Algoritma INFLO ... 22
BAB III METODOLOGI PENELITIAN ... 27
3.1. SUMBER DATA ... 27
3.2. PENGOLAHAN DATA ... 28
3.2.1. Data Cleaning... 28
3.2.2. Data Integration ... 28
3.2.3. Data Selection... 28
3.2.4. Data Transformation ... 29
(16)
xiv
3.2.6. Pattern Evaluation ... 41
3.2.7. Knowledge Presentation ... 42
BAB IV ANALISIS DAN PERANCANGAN SISTEM ... 43
4.1. IDENTIFIKASI SISTEM ... 43
4.1.1. Diagram Use Case ... 44
4.1.2. Narasi Use Case ... 45
4.2. PERANCANGAN SISTEM SECARA UMUM ... 45
4.2.1. Input Sistem ... 45
4.2.2. Proses Sistem ... 46
4.2.3. Output Sistem ... 47
4.3. PERANCANGAN SISTEM ... 48
4.3.1. Diagram Aktivitas... 48
4.3.2. Diagram Kelas Analisis ... 48
4.3.3. Diagram Sequence ... 50
4.3.4. Diagram Kelas Desain ... 50
4.3.5. Rincian Algoritma per Method ... 51
4.3.5.1. Kelas KontrolKoneksiDatabase ... 51
4.3.5.2. Kelas KontrolKoneksiTable ... 53
4.3.5.3. Kelas KontrolSeleksiAtributTableModel ... 54
4.3.5.4. Kelas Kontrol_INFLOTableModel ... 55
4.3.5.5. Kelas Kontrol_INFLO ... 55
4.4. PERANCANGAN STRUKTUR DATA ... 67
(17)
xv
4.4.2. Matriks Dua Dimensi... 69
4.5. PERANCANGAN ANTARMUKA ... 70
4.5.1. Perancangan Halaman Awal ... 70
4.5.2. Perancangan Halaman Preprocess ... 71
4.5.3. Perancangan Halaman Pilih Database ... 72
4.5.4. Perancangan Halaman Pilih Table ... 73
4.5.5. Perancangan Halaman Deteksi Outlier ... 74
4.5.6. Perancangan Halaman Bantuan ... 75
4.5.7. Perancangan Halaman Tentang ... 76
BAB V IMPLEMENTASI PENAMBANGAN DATA ... 77
5.1. IMPLEMENTASI ANTARMUKA ... 77
5.1.1. Implementasi Halaman Awal ... 77
5.1.2. Implementasi Halaman Preprocess ... 78
5.1.2.1. Preprocess ‘Pilih File’ ... 79
5.1.2.2. Preprocess ‘Pilih Database’ ... 81
5.1.2.3. Seleksi Atribut pada Halaman Preprocess ... 84
5.1.3. Implementasi Halaman Deteksi Outlier ... 88
5.1.4. Implementasi Halaman Bantuan ... 93
5.1.5. Implementasi Halaman Tentang ... 94
5.1.6. Implementasi Keluar dari Sistem ... 95
5.2. IMPLEMENTASI KELAS... 95
5.2.1. Implementasi Kelas Model ... 96
(18)
xvi
5.2.3. Implementasi Kelas View ... 96
5.3. IMPLEMENTASI STRUKTUR DATA ... 97
5.3.1. Implementasi Kelas Vertex ... 97
5.3.2. Implementasi Kelas Graph ... 99
BAB VI PENGUJIAN DAN ANALISIS HASIL PENGUJIAN ... 101
6.1. RENCANA PENGUJIAN ... 101
6.1.1. Hasil Pengujian Black Box ... 105
6.1.1.1. Pengujian Memasukkan Data ... 105
6.1.1.2. Pengujian Koneksi ke Database ... 106
6.1.1.3. Pengujian Seleksi Atribut ... 109
6.1.1.4. Pengujian Deteksi Outlier ... 110
6.1.1.5. Pengujian Penyimpanan Hasil ... 112
6.1.2. Kesimpulan Hasil Pengujian Black Box ... 113
6.1.3. Hasil Pengujian Efek Perubahan Atribut ... 114
6.1.3.1. Pengujian Data Nilai Akhir (NA) IPA Tahun 2014 ... 114
6.1.3.2. Pengujian Data Nilai Sekolah (NS) IPA Tahun 2014 ... 115
6.1.3.3. Pengujian Data Nilai Ujian Nasional (UN) IPA Tahun 2014 ... 116
6.1.4. Kesimpulan Hasil Pengujian Efek Perubahan Atribut .. 117
6.1.5. Hasil Pengujian Perbandingan Perhitungan Manual dan Hasil Deteksi Sistem ... 117
(19)
xvii
6.1.6. Kesimpulan Hasil Pengujian Perbandingan Perhitungan
Manual dan Hasil Deteksi Sistem ... 119
6.1.7. Hasil Pengujian Akurasi ... 119
6.1.8. Kesimpulan Hasil Pengujian Akurasi ... 130
6.1.9. Hasil Pengujian Waktu Kinerja Sistem ... 131
6.1.10. Kesimpulan Hasil Pengujian Waktu Kinerja Sistem ... 132
6.2. KELEBIHAN DAN KEKURANGAN SISTEM ... 133
6.2.1. Kelebihan Sistem ... 133
6.2.2. Kekurangan Sistem ... 134
BAB VII PENUTUP ... 135
7.1. KESIMPULAN ... 135
7.2. SARAN ... 136
DAFTAR PUSTAKA ... 137
(20)
xviii
DAFTAR GAMBAR
Halaman
Gambar 2.1 Asal Usul Penambangan Data ... 12
Gambar 2.2 Proses Knowledge Discovery in Databases ... 14
Gambar 4.1 Graf... 67
Gambar 4.2 Graf Tidak Berarah... 68
Gambar 4.3 Rancangan Graf ... 68
Gambar 4.4 Perancangan Halaman Awal ... 70
Gambar 4.5 Perancangan Halaman Preprocess ... 71
Gambar 4.6 Perancangan Halaman Pilih Database ... 72
Gambar 4.7 Perancangan Halaman Pilih Table ... 73
Gambar 4.8 Perancangan Halaman Deteksi Outlier ... 74
Gambar 4.9 Perancangan Halaman Bantuan ... 75
Gambar 4.10 Perancangan Halaman Tentang ... 76
Gambar 5.1 Implementasi Halaman Awal ... 77
Gambar 5.2 Implementasi Halaman Preprocess ... 78
Gambar 5.3 Implementasi Kotak Dialog Pilih File yang Salah ... 79
Gambar 5.4 Implementasi Pesan Salah Memilih File ... 80
Gambar 5.5 Implementasi Kotak Dialog Pilih File yang Benar ... 80
Gambar 5.6 Proses Setelah Memasukkan Data dari Pilih File... 81
Gambar 5.7 Implementasi Halaman Pilih Database ... 81
(21)
xix
Gambar 5.9 Pesan Koneksi Database Berhasil ... 83
Gambar 5.10 Implementasi Halaman Pilih Table ... 83
Gambar 5.11 Proses Setelah Memasukkan Data dari Pilih File... 84
Gambar 5.12 Data dari Masukkan File ataupun Database ... 84
Gambar 5.13 Informasi Data yang Dimasukkan ... 84
Gambar 5.14 Seleksi Atribut ... 85
Gambar 5.15 Tandai Semua Atribut ... 85
Gambar 5.16 Batal Seleksi Atribut ... 86
Gambar 5.17 Hapus Tanda Beberapa Atribut ... 86
Gambar 5.18 Hasil Seleksi Atribut ... 87
Gambar 5.19 Implementasi Halaman Deteksi Outlier ... 88
Gambar 5.20 Isian Nilai 'k' yang Benar ... 88
Gambar 5.21 Pesan Isian Nilai 'k' yang Salah ... 89
Gambar 5.22 Hasil Proses Deteksi Outlier ... 89
Gambar 5.23 Rincian Hasil Deteksi Outlier ... 90
Gambar 5.24 Informasi Hasil Outlier... 90
Gambar 5.25 Isian Batasan Outlier yang Benar ... 90
Gambar 5.26 Pesan Isian Batasan Outlier yang Salah ... 91
Gambar 5.27 Hasil Deteksi Outlier dengan Batasan ... 91
Gambar 5.28 Cara Penyimpanan Hasil Deteksi ... 91
Gambar 5.29 Kotak Dialog Penyimpanan ... 92
Gambar 5.30 Pesan Penyimpanan Berhasil ... 92
(22)
xx
Gambar 5.32 Implementasi Halaman Bantuan ... 93 Gambar 5.33 Cara Melihat Informasi Sistem ... 94 Gambar 5.34 Implementasi Halaman Tentang... 94 Gambar 5.35 Cara Keluar dari Sistem ... 95 Gambar 5.36 Kotak Dialog Konfirmasi Keluar ... 95 Gambar 6.1 Grafik Pengujian Data Nilai Akhir (NA) IPA Tahun 2014 ... 114 Gambar 6.2 Grafik Pengujian Data Nilai Sekolah (NS) IPA Tahun 2014... 115 Gambar 6.3 Grafik Pengujian Data Nilai Ujian Nasional (UN) IPA Tahun 2014 ... 116 Gambar 6.4 Grafik Hasil Pengujian Waktu Kinerja Sistem ... 132
(23)
xxi
DAFTAR TABEL
Halaman Table 3.1 Tabel Atribut Data ... 27 Table 3.2 Tabel Seleksi Atribut ... 29 Table 3.3 Tabel Data Terseleksi... 30 Table 3.4 Tabel Jarak Antar Obyek ... 31 Table 3.5 Tabel NN dengan Jarak Antar Obyeknya ... 33 Table 3.6 Tabel K-Distance ... 35 Table 3.7 Tabel NN ... 36 Table 3.8 Table RNN ... 36 Table 3.9 Tabel IS ... 37 Table 3.10 Tabel Density ... 38 Table 3.11 Tabel Rata-rata Density Tiap Obyek ... 39 Table 4.1 Tabel Kelas Analisis ... 48 Table 4.2 Contoh Matriks Dua Dimensi (Awal Pembuatan Graf) ... 69 Table 4.3 Contoh Matriks Dua Dimensi (Setelah Terbentuk Edge) ... 70 Table 5.1 Tabel Implementasi Kelas Model ... 96 Table 5.2 Tabel Implementasi Kelas Controller ... 96 Table 5.3 Tabel Implementasi Kelas View ... 96 Table 6.1 Tabel Rencana Pengujian Black Box ... 102 Table 6.2 Tabel Pengujian Memasukkan Data ... 105 Table 6.3 Tabel Pengujian Koneksi ke Database ... 106
(24)
xxii
Table 6.4 Tabel Pengujian Seleksi Atribut ... 109 Table 6.5 Tabel Pengujian Deteksi Outlier ... 110 Table 6.6 Tabel Pengujian Penyimpanan Hasil ... 112 Table 6.7 Tabel Pengujian Data Nilai Akhir (NA) IPA Tahun 2014... 114 Table 6.8 Tabel Pengujian Data Nilai Sekolah (NS) IPA Tahun 2014 ... 115 Table 6.9 Tabel Pengujian Data Nilai Ujian Nasional (UN) IPA Tahun 2014 ... 116 Table 6.10 Tabel Data untuk Perbandingan Perhitungan Manual dan Sistem .... 117 Table 6.11 Tabel Hasil Perhitungan Manual... 118 Table 6.12 Tabel Hasil Perhitungan Sistem ... 119 Table 6.13. Tabel Confusion Matrix Data Nilai UN IPA Tahun 2014 ... 120 Table 6.15. Tabel Rincian Hasil Perbandingan Deteksi Sistem dan Pengguna Data Nilai UN IPA Tahun 2014 ... 121 Table 6.14. Tabel Confusion Matrix Data Nilai UN IPS Tahun 2014 ... 125 Table 6.16. Tabel Rincian Hasil Perbandingan Deteksi Sistem dan Pengguna Data Nilai UN IPS Tahun 2014 ... 126 Table 6.17 Tabel Pengujian Waktu Kinerja Sistem ... 132
(25)
xxiii
DAFTAR RUMUS
Halaman Rumus 2.1. Rumus Menghitung Jarak Euclidean…………..……….... 19 Rumus 2.2. Rumus Menghitung K-Distance dan Mencari Nearest Neighbors
(NN)………. 19 Rumus 2.3. Rumus Menghitung Influence Space(IS)……...…………. 20 Rumus 2.4. Rumus Menghitung Reverse Nearest Neighbors (RNN)…. 20
Rumus 2.5. Rumus Menghitung Local Density………..…………. 21 Rumus 2.6. Rumus Menghitung Influenced Outlierness (INFLO)
Simple………...…………... 21 Rumus 2.7. Rumus Menghitung Average Density……...………. 21 Rumus 2.8. Rumus Menghitung Influenced Outlierness (INFLO) Complete
(26)
xxiv
DAFTAR LAMPIRAN
Halaman
LAMPIRAN 1 : DIAGRAM USE CASE 140
LAMPIRAN 2 : DESKRIPSI USE CASE 141
LAMPIRAN 3 : NARASI USE CASE 142
LAMPIRAN 4 : PROSES UMUM SISTEM 146
LAMPIRAN 5 : DIAGRAM AKTIVITAS 147
LAMPIRAN 6 : DIAGRAM KELAS ANALISIS 151
LAMPIRAN 7 : DIAGRAM SEQUENCE 152
LAMPIRAN 8 : DIAGRAM KELAS DESAIN 156
LAMPIRAN 9 : DIAGRAM KELAS 157
LAMPIRAN 10 : LISTING PROGRAM 163
LAMPIRAN 11 : HASIL DETEKSI OUTLIER DARI SISTEM 294 LAMPIRAN 12 : DIAGRAM (BOX AND WHISKER PLOTS) 344 LAMPIRAN 13 : SURAT IJIN SURVEY TUGAS AKHIR 346 LAMPIRAN 14 : TANDA TERIMA SURVEY TUGAS AKHIR 347
(27)
1
1. BAB I PENDAHULUAN
1.1. Latar Belakang
Pada era globalisasi saat ini, pertumbuhan data sudah semakin pesat. Data muncul dari segala jenis bidang. Namun, data yang sangat banyak tersebut seringkali terlalu luas dan tidak menghasilkan suatu informasi yang jelas, apalagi pengetahuan. Semakin bertambah banyaknya jumlah data, maka terlalu banyak ruang untuk data yang sebenarnya tidak terpakai dalam analisis tertentu. Untuk itu, dibutuhkan sebuah alat untuk menambang suatu kumpulan data yang sangat banyak tersebut sehingga menjadi sebuah informasi yang berguna. Suatu alat penambangan data akan mengubah data yang sangat banyak dan tidak informatif tersebut menjadi sebuah informasi yang berguna ataupun dapat menjadi suatu pengetahuan. Dapat disimpulkan bahwa penambangan data merupakan serangkaian proses untuk menggali data menjadi output yang tidak hanya sekedar informasi, tetapi juga sebuah pengetahuan yang tersembunyi untuk membantu pengambilan suatu keputusan (Han & Kamber, 2006).
Penambangan data sendiri sebenarnya memiliki teknik yang disebut dengan Knowledge Discovery in Database (KDD). KDD sendiri masih memiliki beberapa proses di dalamnya, yaitu data cleaning, data integration, data selection, data transformation, data mining, pattern evaluation, dan knowledge presentation (Han & Kamber, 2006).
(28)
Dalam penambangan data, sudah banyak teknik ataupun metode yang sering digunakan. Salah satunya adalah teknik untuk mencari data yang tidak konsisten ataupun data yang berbeda dari data yang lainnya. Teknik ini biasa disebut dengan deteksi anomali data atau outlier detection
(Han & Kamber, 2006). Outlier sendiri merupakan sebuah observasi yang menyimpang begitu banyak dari pengamatan lain untuk membangkitkan kecurigaan bahwa objek tersebut dihasilkan oleh mekanisme yang berbeda (Hawkins, 1980).
Banyak algoritma penambangan data yang mencoba untuk meminimalkan pengaruh outlier. Masalah deteksi outlier dapat dilihat sebagai dua submasalah. Pertama, menentukan data yang dapat dianggap tidak konsisten dalam satu set data yang diberikan. Lalu yang kedua menemukan metode yang efisien untuk menemukan data yang outlier
(berbeda dengan data yang lain). Dengan demikian, deteksi outlier
merupakan salah satu tugas penambangan data yang menarik (Han & Kamber, 2006).
Menurut Kriegel et al. (2010), deteksi outlier memiliki 6 macam pendekatan, yaitu statistical test, depth-based approaches, deviation-based approaches, distance-based approaches, density-based approaches, dan
high-dimentional approache. Algoritma klasterisasi sendiri sementara membuang outlier sebagai suatu noise, namun dapat dimodifikasi untuk menyertakan deteksi outlier sebagai hasil dari eksekusi mereka. Secara umum, pengguna harus memeriksa bahwa setiap outlier ditemukan oleh
(29)
3
pendekatan ini memang benar-benar outlier. Namun dari sekian banyak algoritma outlier yang ada, tidak semuanya dapat cocok untuk digunakan dalam menganalisis outlier. Data yang memiliki dimensi tinggi merupakan salah satu hambatan dari algoritma outlier yang ada. Salah satu algoritma baru yang biasa digunakan untuk mendeteksi outlier adalah algoritma yang bernama Influenced Outlierness (INFLO) yang dikemukakan oleh Jin et al pada tahun 2006. Algoritma INFLO ini juga merupakan salah satu algoritma deteksi outlier dengan pendekatan berbasis density-based yang menggunakan Symmetric Neighborhood Relationship.
Teknik deteksi outlier ini dapat digunakan untuk menganalisis berbagai bidang, salah satunya adalah bidang pendidikan. Salah satu isu tentang pendidikan di Indonesia adalah mengenai Ujian Nasional (UN). Penyelenggara UN adalah Badan Standar Nasional Pendidikan (BNSP) yang bekerja sama dengan Kementerian Pendidikan dan Kebudayaan, Kementerian Agama, Kementerian Dalam Negeri, Kepolisian Republik Indonesia, Perguruan Tinggi Negeri, dan Pemerintah Daerah, yang dalam pelaksanaannya terdiri atas Penyelenggara UN Tingkat Pusat, Penyelenggara UN Tingkat Provinsi, Penyelenggara UN Tingkat Kabupaten / Kota, dan Penyelenggara UN Tingkat Sekolah / Madrasah. Menurut Prosedur Operasi Standart Ujian Nasional Tahun 2014 (POS UN 2014), kelulusan peserta didik dari UN ditentukan dari Nilai Akhir (NA) yang merupakan gabungan nilai Ujian Nasional (UN) dengan Nilai Sekolah (NS) dengan bobot 60% nilai UN dan 40% nilai NS. Nilai Sekolah tersebut
(30)
juga merupakan gabungan nilai US dengan nilai rata – rata raport semester 3, 4, dan 5 (untuk tingkat Sekolah Menengah Atas) dengan bobot 60% nilai US dan 40% nilai rata – rata raport.
Sekolah Menengah Atas (SMA) merupakan salah satu tingkatan sekolah yang menarik dan memiliki beberapa hal untuk dianalisa. Hal ini karena SMA merupakan jenjang sekolah terakhir sebelum menuju ke tingkat yang lebih tinggi (Perguruan Tinggi). SMA sendiri memiliki beberapa jurusan, seperti Ilmu Pengetahuan Alam (IPA), Ilmu Pengetahuan Sosial (IPS), Bahasa, dan Agama.
Maka dari itu, penelitian ini akan melakukan deteksi outlier pada nilai ujian SMA dari salah satu provinsi di Indonesia, yaitu Provinsi Daerah Istimewa Yogyakarta (DIY). Pemilihan provinsi-provinsi tersebut dengan alasan, yaitu berdasarkan provinsi letak Universitas Sanata Dharma Yogyakatya (DIY). Nilai ujian yang diteliti adalah nilai ujian nasional, nilai ujian sekolah, dan nilai akhir SMA dari jurusan IPA dan IPS karena mayoritas SMA di Indonesia adalah jurusan IPA dan IPS. Nilai yang dipergunakan adalah nilai ujian tahun 2011-2014.
Penelitian ini diharapkan dapat menghasilkan suatu informasi atau bahkan pengetahuan baru dari kejadian langka dari data nilai ujian SMA yang ada. Hasil yang didapatkan nantinya akan menampilkan sekolah mana dari provinsi tertentu yang outlier atau berbeda dari sekolah – sekolah lainnya yang ada dalam provinsi tersebut. Selain itu juga dapat terlihat sekolah tertentu apakah unggul dari nilai UN ataukah nilai NS atau bahkan
(31)
5
nilai NA. Selain itu, nantinya diharapkan dari hasil outlier yang didapatkan, akan dapat menganalisa lebih lanjut pemasalahan UN yang terjadi di Indonesia.
1.2. Rumusan Masalah
Rumusan masalah pada penelitian ini adalah sebagai berikut :
1. Bagaimana mendeteksi outlier data rata-rata nilai ujian nasional, nilai ujian sekolah, dan nilai akhir dari Sekolah Menengah Atas (SMA) yang ada di Provinsi Daerah Istimewa Yogyakarta (DIY) dengan menggunakan algoritma Influenced Outlierness (INFLO)?
2. Apakah algoritma Influenced Outlierness (INFLO) dapat mendeteksi
outlier data rata – rata nilai ujian nasional, nilai ujian sekolah, dan nilai akhir dari Sekolah Menengah Atas (SMA) yang ada di Provinsi Daerah Istimewa Yogyakarta (DIY)?
1.3. Batasan Masalah
Batasan masalah pada penelitian ini adalah sebagai berikut :
1. Algoritma deteksi outlier yang digunakan adalah Influenced Outlierness
(INFLO).
2. Data yang digunakan adalah data nilai ujian nasional, nilai ujian sekolah, dan nilai akhir untuk tahun ajaran 2011-2014.
3. Sekolah yang diteliti adalah Sekolah Menengah Atas (SMA) jurusan IPA dan IPS di Provinsi Daerah Istimewa Yogyakarta (DIY).
(32)
1.4. Tujuan Penelitian
Tujuan dari penelitian ini adalah sebagai berikut :
1. Mendeteksi outlier data rata – rata nilai ujian nasional, nilai ujian sekolah, dan nilai akhir dari Sekolah Menengah Atas (SMA) yang ada di Provinsi Daerah Istimewa Yogyakarta (DIY) dengan menggunakan algoritma Influenced Outlierness (INFLO).
2. Menganalisa kemampuan algoritma Influenced Outlierness (INFLO) dalam mendeteksi outlier dari data rata – rata nilai ujian nasional, nilai ujian sekolah, dan nilai akhir dari Sekolah Menengah Atas (SMA) yang ada di Provinsi Daerah Istimewa Yogyakarta (DIY).
1.5. Manfaat Penelitian
Manfaat dari penelitian ini adalah sebagai berikut :
1. Memberikan pengetahuan baru mengenai cara mendeteksi outlier
dengan menggunakan algoritma Influenced Outlierness (INFLO). 2. Memberikan informasi mengenai anomali data yang ada dalam nilai –
nilai ujian Sekolah Menengah Atas (SMA).
1.6. Metodologi Penelitian
Metodologi penelitian yang digunakan dalam menyelesaikan tugas akhir ini adalah sebagai berikut :
(33)
7
Metodologi pertama yang digunakan adalah studi pustaka. Tahap ini merupakan proses mengumpulkan informasi berupa algoritma yang digunakan untuk mendeteksi outlier dari berbagai macam referensi yang tersedia (buku, karya ilmiah, ataupun artikel lainnya yang banyak terdapat pada internet). Selanjutnya adalah mempelajari dan menganalisa dari informasi yang didapat sehingga menentukan untuk memilih algoritma Influenced Outlierness untuk penelitian deteksi
outlier pada nilai ujian siswa Sekolah Menengah Atas. 2. Metode Knowledge Discovery in Database (KDD)
Metodologi kedua ini adalah teknik penambangan data yang dituliskan oleh Jiawei Han, Micheline Kamber, dan Jian Pei pada bukunya Data Mining : Concepts and Techniques. Teknik KDD mencakup beberapa proses, yaitu :
a. Data Cleaning
Tahap ini merupakan proses dimana data yang tidak dibutuhkan / pengganggu (noise) dan data yang tidak konsisten akan dihapus.
b. Data Integration
Tahap ini merupakan proses dimana bermacam-macam data dari berbagai sumber akan digabungkan menjadi satu kesatuan.
(34)
Tahap ini merupakan proses dimana untuk melakukan analisis, data relevan akan diperoleh dari
database.
d. Data Transformation
Tahap ini merupakan proses dimana data diubah (transformasi) atau digabungkan sehingga menjadi tepat untuk ditambang dengan misalnya melakukan operasi penjumlahan atau penggabungan.
e. Data Mining
Tahap ini merupakan proses pokok dimana metode cerdas dilaksanakan untuk menggali pola dari data.
f. Pattern Evaluation
Tahap ini merupakan proses indentifikasi pola yang sungguh menarik menampilkan basis pengetahuan dalam suatu ukuran ketertarikan.
g. Knowledge Presentation
Tahap ini merupakan proses dimana teknik menampilkan suatu gambaran dan pengetahuan digunakan untuk menampilkan hasil tambang dari pengetahuan kepada pengguna.
3. Analisis dan Evaluasi
Metode ketiga ini adalah melakukan analisis dalam menentukan hasil yang outlier dengan menggunakan algoritma Influenced
(35)
9
Outlierness (INFLO) dari data-data yang dipergunakan. Data yang terdeteksi sebagai outlier adalah yang memiliki hasil INFLO menjauhi angka “1”.
Setelah itu akan dilakukan evaluasi dari hasil analisa yang didapat, yaitu informasi baru mengenai hasil sekolah-sekolah yang terdeteksi sebagai outlier dari provinsi tertentu. Hasil evaluasi dapat dijadikan permulaan untuk perbaikan dari sekolah yang terdeteksi
outlier tersebut.
1.7. Sistematika Penulisan
Sistematika penulisan tugas akhir ini adalah sebagai berikut : a. BAB I : PENDAHULUAN
Bab pertama ini berisi latar belakang penelitian, rumusan masalah, tujuan penelitian, batasan masalah, metodologi yang digunakan dalam penelitian, dan sistematika penulisan tugas akhir.
b. BAB II : LANDASAN TEORI
Bab kedua ini berisi dasar-dasar teori penambangan data yang digunakan dalam penelitian tugas akhir ini.
c. BAB III : METODOLOGI PENELITIAN
Bab ketiga ini berisi metodologi dari penelitian tugas akhir ini. d. BAB IV : ANALISIS DAN PERANCANGAN SISTEM
Bab keempat ini berisi analisa dan perancangan dari sistem yang dibangun.
(36)
e. BAB V : IMPLEMENTASI PENAMBANGAN DATA Bab kelima ini berisi implementasi sistem yang dibangun. f. BAB VI : PENGUJIAN DAN ANALISIS HASIL PENGUJIAN
Bab keenam ini berisi pengujian dan analisis hasil pengujian dari sistem yang dibangun.
g. BAB VII : PENUTUP
Bab terakhir ini berisi kesimpulan dan saran dari sistem ini yang berguna untuk perkembangan sistem selanjutnya.
(37)
11
2. BAB II
LANDASAN TEORI
2.1. PENAMBANGAN DATA
2.1.1. Pengertian Penambangan Data
Menurut Tan et.al (2006), penambangan data adalah teknologi yang memadukan metode analisis data tradisional dengan algoritma yang canggih untuk memproses volume data yang besar. Dalam bukunya disebutkan bahwa penambangan data adalah proses menemukan informasi yang berguna dari repositori data yang besar secara otomatis.
Namun tidak semua tugas menemukan informasi dapat dicari menggunakan penambangan data. Meski tugas-tugas seperti yang penting dan mungkin melibatkan pengguanaan algoritma yang canggih dan struktur data, tetap harus mengandalkan teknik ilmu komputer tradisional dan fitur yang jelas dari data. Hal ini perlu dalam membuat struktur indeks untuk secara efisien mengatur dan mengambil informasi. Meskipun demikian, teknik penambangan data telah digunakan untuk meningkatkan sistem pencarian informasi.
2.1.2. Asal Usul Penambangan Data
Menurut Tan et al. (2004), penambangan data menarik ide dari pembelajaran mesin / AI, pengenalan pola, statistik, dan sistem
(38)
basis data. Teknik tradisional mungkin tidak cocok karena data yang sangat besar, data yang berdimensi tinggi, dan sifat heterogen, sifat data yang didistribusikan. Hal ini dapat digambarkan seperti gambar berikut ini :
Gambar 2.1 Asal Usul Penambangan Data
2.1.3. Fungsi dalam Penambangan Data
Menurut Han et al. (2012), penambangan data memiliki beberapa fungsi yang menerapkan metode yang dapat dikategorikan menjadi 2 bagian besar, yaitu metode deskriptif dan metode prediktif. Metode deskriptif bertugas mengkarakterisasikan suatu sifat dari data target. Sedangkan metode prediktif bertugas membuat suatu prediksi masa depan yang dicari melalui data saat ini.
Fungsi yang terdapat dalam penambangan data ada 4, yaitu : a. Asosiasi
Asosiasi dalam penambangan data merupakan aturan dalam satu set transaksi yang akan memprediksi terjadinya item berdasarkan item lainnya dalam transaksi tersebut. (Tan et al. 2004)
(39)
13
b. Klasifikasi
Menurut Tan et al. (2004), dalam koleksi catatan (training set), setiap record berisi satu set atribut dimana salah satu atribut adalah suatu kelas. Saat ingin menentukan klasifikasi training set tersebut, dapat dengan mencari model untuk masing-masing atribut kelas sebagai fungsi dari nilai-nilai atribut yang lainnya. Tujuannya agar record yang sebelumnya tak terlihat dapat ditujukan dalam kelas tersebut seakurat mungkin. Satu set tes digunakan untuk menentukan akurasi dari suatu model. Biasanya, kumpulan data yang diberikan dibagi menjadi training set dan set test. Training set digunakan untuk membangun model dan set test digunakan untuk memvalidasinya.
c. Klastering
Klastering merupakan fungsi untuk menemukan suatu kelompok obyek sehingga obyek - obyek dalam kelompok akan mirip (atau terkait) satu sama lain dan berbeda dari (atau tidak terkait dengan) obyek - obyek di kelompok lainnya. (Tan et al. 2004) d. Analisis Outlier
Menurut Tan et al. (2004), outlier merupakan himpunan titik data yang jauh berbeda dari sisa data. Ada jauh lebih banyak pengamatan "normal" dibandingkan pengamatan "normal" (outlier / anomali) dalam data. Tantangan dalam analisis outlier
(40)
adalah metode yang digunakan tanpa pengawasan, dan seperti layaknya “mencari jarum dalam tumpukan jerami”.
2.1.4. Knowledge Discovery in Databases (KDD)
Penambangan data tidak dapat terpisahkan dari proses
knowledge discovery in databases atau biasa disebut dengan KDD. Proses KDD merupakan sebuah proses mengubah data mentah menjadi suatu informasi yang berguna. KDD sendiri masih memiliki beberapa proses di dalamnya, yaitu data cleaning, data integration, data selection, data transformation, data mining, pattern evaluation, dan knowledge presentation (Han & Kamber, 2006).
(41)
15
1. Data Cleaning
Tahap ini merupakan proses dimana data yang tidak dibutuhkan / pengganggu (noise) dan data yang tidak konsisten akan dihapus.
2. Data Integration
Tahap ini merupakan proses dimana bermacam-macam data dari berbagai sumber akan digabungkan menjadi satu kesatuan.
3. Data Selection
Tahap ini merupakan proses dimana untuk melakukan analisis, data relevan akan diperoleh dari database. 4. Data Transformation
Tahap ini merupakan proses dimana data diubah (transformasi) atau digabungkan sehingga menjadi tepat untuk ditambang dengan misalnya melakukan operasi penjumlahan atau penggabungan.
5. Data Mining
Tahap ini merupakan proses pokok dimana metode cerdas dilaksanakan untuk menggali pola dari data. 6. Pattern Evaluation
Tahap ini merupakan proses indentifikasi pola yang sungguh menarik menampilkan basis pengetahuan dalam suatu ukuran ketertarikan.
(42)
7. Knowledge Presentation
Tahap ini merupakan proses dimana teknik menampilkan suatu gambaran dan pengetahuan digunakan untuk menampilkan hasil tambang dari pengetahuan kepada pengguna.
2.2. DETEKSI OUTLIER 2.2.1. Pengertian Outlier
Outlier memiliki beberapa pengertian dari beberapa sumber. Menurut Hawkins (1980), outlier adalah sebuah pengamatan yang menyimpang begitu banyak dari pengamatan lain untuk membangkitkan kecurigaan bahwa itu dihasilkan oleh mekanisme yang berbeda. Menurut Barnet & Lewis (1994), outlier adalah observasi (atau bagian dari pengamatan) yang tampaknya tidak konsisten dengan sisa set data. Menurut Moore & McCabe (1999),
outlier adalah pengamatan yang terletak di luar pola keseluruhan distribusi. Menururt Chen, Tan & Fu (2003), outlier adalah catatan data yang tidak mengikuti derai dalam aplikasi.
2.2.2. Macam Pendekatan Outlier
Menurut Kriegel et. al. (2010), outlier memiliki beberapa pendekatan, yaitu Model-based Approaches, Proximity-based Approaches, dan High-dimensional Approaches.
(43)
17
Pendekatan model-based memiliki beberapa metode, yaitu
statistical test; depth-based approaches yang memiliki contoh algoritma ISODEPTH (Ruts & Rousseeuw, 1996) dan FDC (Johnson et al., 1998); dan yang terakhir adalah deviation-based approaches.
Pendekatan proximity-based juga memiliki beberapa metode, yaitu Distance-based Approaches yang memiliki contoh algoritma DB-outliers (Knorr & Ng, 1997), index-based (Knorr & Ng, 1998), nested-loop based (Knorr & Ng, 1998), dan grid-based
(Knorr & Ng, 1998); Density-based Approaches memiliki contoh algoritma local outlier factor / LOF (Breunig et al., 1999), (Breunig et al., 2000), influenced outlierness / INFLO (Jin et al., 2006), dan
local outlier correlation integral / LOCI (Papadimitriou et al., 2003).
Pendekatan terakhir adalah high-dimensional Approaches
yang memiliki contoh algoritma angle-based Outlier Degree / ABOD (Kriegel et al., 2008), grid-based subspace outlier detection
(Aggrawal & Yu, 2000), dan subspace outlier degree / SOD (Kriegel et al., 2009).
(44)
2.3. INFLUENCED OUTLIERNESS (INFLO)
2.3.1. Deteksi Outlier dengan Algoritma INFLO
Deteksi outlier seringkali lebih menarik daripada deteksi yang pada umumnya. Hal ini karena outlier mengandung informasi yang berguna dengan mendasari perilaku abnormal atau berbeda dari data ataupun informasi lainnya. Pada penelitian ini akan mendeteksi outlier dengan menggunakan algoritma Influence Outlierness atau biasa disebut dengan INFLO. Teori ini dikemukakan oleh Jin et.al. pada tahun 2006.
Algoritma ini mengusulkan deteksi outlier berdasarkan relasi dari lingkungan simetris karena mengingat sebuah obyek dalam memperkirakan distribusi kepadatan tetangganya dipengaruhi oleh suatu tetangga atau dapat disebut dengan nearest neighbors
(NN) dan tetangga sebaliknya atau juga dapat disebut dengan
reverse nearest neighbors (RNN). Hubungan simetris antara NN dan RNN akan membuat pengukuran outlierness menjadi lebih kuat. Mendeteksi sebuah obyek apakah merupakan suatu outlier
atau hanya anggota suatu cluster, dilihat dari hasil Influenced Outlierness (INFLO). Semakin tinggi INFLO, maka kemungkinan besarnya obyek tersebut adalah outlier. Namun jika INFLO semakin rendah, maka kemungkinan obyek tersebut hanya merupakan anggota suatu cluster. Langkah untuk mencari outlier dari obyek p dan q menggunakan algoritma INFLO adalah sebagai berikut :
(45)
19
1. Menghitung Jarak Menggunakan Euclidean Distance
Tahap ini adalah menghitung jarak (distance) dari suatu obyek p dan q di suatu database D. Rumus menghitung jarak d(p, q) dapat dirumuskan sebagai berikut :
,
= √∑
� �−
�... (2.1) Keterangan :
d = jarak antar obyek pi = obyek “p” ke - i qi = obyek “q” ke - i
2. Menghitung K-Distance dan Mencari Nearest Neighbors (NN) Tahap ini adalah mencari tetangga terdekat dari obyek p
sekaligus mencari k-distance yang dinotasikan sebagai d(p,q)
yaitu jarak terbesar dari jarak antara obyek p dengan k tetangga terdekatnya dalam suatu database D, dengan ketentuan sebagai berikut :
a. Setidaknya obyek k dalam ′∈ � menyatakan bahwa
, ′ ≤ , .
b. Setiap obyek (k – 1) dalam ′∈ � menyatakan bahwa
, ′ ≤ , .
c. K-NN dari obyek p adalah sebuah kumpulan obyek X dalam
database D dimana , � ≤ ��� , atau dapat dirumuskan sebagai berikut :
(46)
� = {� ∈ � \ { } | , � ≤ � � } ... (2.2)
Keterangan :
NN = tetangga terdekat
k-dist = nilai k-distance dari suatu obyek
3. Mencari Influence Space (IS)
Tahap ini adalah mencari hubungan tetangga simetris dari suatu obyek. IS merupakan gabungan dari NN (Nearest Neighbors) dan RNN (Reverse Nearest Neighbors) yang dapat dirumuskan sebagai berikut :
�
�=
�∪
� ... (2.3)RNN merupakan inverse dari tetangga suatu obyek yang dapat juga dicari dengan rumus sebagai berikut :
�
= { | ∈ �, ∈
�}
... (2.4) Keterangan :NN = tetangga terdekat
RNN = reverse dari tetangga terdekat IS = gabungan NN dan RNN
4. Menghitung Local Density
Tahap ini adalah mencari inverse dari k-distance obyek p, yang dapat dirumuskan sebagai berikut :
(47)
21
�
=
�� ... (2.5)
Keterangan :
k-dist = nilai k-distance dari suatu obyek den = nilai density dari suatu obyek
5. Menghitung Influenced Outlierness (INFLO)
Tahap ini adalah menghitung INFLO dari suatu obyek, yang dapat dirumuskan sebagai berikut :
� ��
�=
������ �... (2.6)
dimana
�
���(�
�) =
∑ ∈ � � �| � � | ... (2.7)
Jadi dari rumus 2.6 dan 2.7 jika digabungkan menjadi :
� ��
�=
∑ ∈ � � � | � � |
� ………. (2.8)
Keterangan :
IS = influence space (jumlah obyek gabungan NN dan RNN) den = nilai density dari suatu obyek
den-avg = rata-rata nilai density obyek IS dari suatu obyek INFLO = nilai influenced outlierness dari suatu obyek
(48)
6. Memberikan Kesimpulan
Jika hasil INFLO dari suatu obyek jauh melebihi 1, maka obyek tersebut termasuk outlier. Namun jika hasil INFLO dari suatu obyek mendekati 1, maka obyek tersebut hanya merupakan anggota suatu cluster.
2.3.2. Contoh Deteksi Outlier dengan Algoritma INFLO
Contoh mendeteksi outlier menggunakan algoritma
Influenced Outlierness (INFLO) dalam sebuah himpunan D yang memiliki 5 obyek, yaitu p1, p2, p3, p4, dan p5. Dari keempat obyek tersebut ditentukan nilai k (jumlah tetangga) adalah 2.
1. Nilai masing-masing obyek
p1 9,5
p2 8,85 p3 9,35 p4 8,45 p5 7,95
2. Jarak antar obyek
p1 p2 p3 p4 p5
p1 0 8,05823 11,6939 14,9646 17,3998 p2 8,05823 0 8,03197 11,6929 14,9277 p3 11,6939 8,03197 0 8,01639 11,6861 p4 14,9646 11,6929 8,01639 0 7,96571 p5 17,3998 14,9277 11,6861 7,96571 0
(49)
23
p1 p2 p3 p4 p5
p1 0 p1 8,05823 p1 11,6939 p1 14,9646 p1 17,3998 p2 8,05823 p2 0 p2 8,03197 p2 11,6929 p2 14,9277 p3 11,6939 p3 8,03197 p3 0 p3 8,01639 p3 11,6861 p4 14,9646 p4 11,6929 p4 8,01639 p4 0 p4 7,96571 p5 17,3998 p5 14,9277 p5 11,6861 p5 7,96571 p5 0
Setelah diurutkan :
p1 p2 p3 p4 p5
p1 0 p2 0 p3 0 p4 0 p5 0
p2 8,05823 p3 8,03197 p4 8,01639 p5 7,96571 p4 7,96571 p3 11,6939 p1 8,05823 p2 8,03197 p3 8,01639 p3 11,6861 p4 14,9646 p4 11,6929 p5 11,6861 p2 11,6929 p2 14,9277 p5 17,3998 p5 14,9277 p1 11,6939 p1 14,9646 p1 17,3998
3. Mencari �
p1 p2 p3 p4 p5
p1 0 p2 0 p3 0 p4 0 p5 0
p2 8,05823 p3 8,03197 p4 8,01639 p5 7,96571 p4 7,96571 p3 11,6939 p1 8,05823 p2 8,03197 p3 8,01639 p3 11,6861 p4 14,9646 p4 11,6929 p5 11,6861 p2 11,6929 p2 14,9277 p5 17,3998 p5 14,9277 p1 11,6939 p1 14,9646 p1 17,3998
� = 2 tetangga terdekat dari masing-masing obyek. � = {p2, p3}
� = {p3, p1} � = {p4, p2} � = {p5, p3} � = {p4, p3}
(50)
Sebelum mencari � � , karena � � = � ∪ � , terlebih dahulu mencari � , seperti berikut :
p1 p2 p3 p4 p5
p1 0 p2 0 p3 0 p4 0 p5 0
p2 8,05823 p3 8,03197 p4 8,01639 p5 7,96571 p4 7,96571 p3 11,6939 p1 8,05823 p2 8,03197 p3 8,01639 p3 11,6861 p4 14,9646 p4 11,6929 p5 11,6861 p2 11,6929 p2 14,9277 p5 17,3998 p5 14,9277 p1 11,6939 p1 14,9646 p1 17,3998
� = {p2} � = {p3, p1} � = {p4, p2} � = {p5, p3} � = {p4}
Lalu hasil Influence Space (IS) menjadi seperti berikut :
p1 p2 p3 p4 p5
p1 0 p2 0 p3 0 p4 0 p5 0
p2 8,05823 p3 8,03197 p4 8,01639 p5 7,96571 p4 7,96571 p3 11,6939 p1 8,05823 p2 8,03197 p3 8,01639 p3 11,6861 p4 14,9646 p4 11,6929 p5 11,6861 p2 11,6929 p2 14,9277 p5 17,3998 p5 14,9277 p1 11,6939 p1 14,9646 p1 17,3998
5. Menghitung k-distance
��� = nilai terbesar (maksimal) dari tetangga terdekat dari
(51)
25
��� = 11,6939
��� = 8,05823
��� = 8,03197
��� = 8,01639
��� = 11,6861
6. Menghitung Local Density
� = 1 / 11,6939 = 0,08551
� = 1 / 8,05823 = 0,1241
� = 1 / 8,03197 = 0,1245
� = 1 / 8,01639 = 0,12474
� = 1 / 11,6861 = 0,08557
7. Menghitung Influenced Outlierness (INFLO)
� �� � =
, + ,
, = 1,45355
� �� � =
, + ,
, = 0,84618
� �� � =
, + ,
, = 0,99934
� �� � =
, + ,
, = 0,84202
� �� � =
, + ,
(52)
8. Memberikan Kesimpulan
Hasil INFLO dari masing-masing obyek, terlihat bahwa hasil INFLO tersebesar adalah milik obyek p1 dan p5 dengan hasilnya masing-masing 1,45355 dan 1,45636. Maka dari itu, obyek p1 dan p5 yang terdeteksi sebagai outlier. Obyek p1 terdeteksi karena nilainya adalah 9,5 yang dimana nilai tersebut adalah nilai tertinggi dari semua obyek, sedangkan obyek p5 terdeteksi karena nilainya adalah 7,95 yang dimana nilai tersebut adalah nilai terendah dari semua obyek.
(53)
27
3. BAB III
METODOLOGI PENELITIAN
3.1. SUMBER DATA
Data yang digunakan untuk penelitian berupa file yang memiliki ekstensi .xls yang diperoleh dari 2 sumber. Sumber yang pertama adalah Seksi Data dan Teknologi Informasi Dinas Pendidikan, Pemuda, dan Olah Raga (DIKPORA) Provinsi Daerah Istimewa Yogyakarta (DIY). Lalu sumber yang kedua adalah dari website e-Reporting Ujian Nasional milik
Pusat Penilaian Pendidikan
http://118.98.234.22/sekretariat/hasilun/index.php/hasilun.
Data sumber merupakan data nilai Ujian Nasional (UN), Nilai Sekolah (NS), dan Nilai Akhir (NA) dari tahun 2011 – 2014. Pada penelitian ini hanya untuk SMA jurusan Ilmu Pengetahuan Alam (IPA) dan Ilmu Pengetahuan Sosial (IPS).
Table 3.1 Tabel Atribut Data
Nama Atribut Keterangan
RANKING Urutan Ranking
NAMA_SEKOLAH Nama Sekolah
JENIS_SEKOLAH Jenis Sekolah (SMA / MA) STATUS_SEKOLAH Status Sekolah (Swasta / Negeri)
Jumlah
PESERTA Jumlah Peserta
L Jumlah Peserta yang Lulus %L Persentase Peserta yang Lulus TL Jumlah Peserta yang Tidak Lulus %TL Persentase Peserta yang Tidak Lulus
(54)
3.2. PENGOLAHAN DATA 3.2.1. Data Cleaning
Tahap pertama adalah membersihkan data dari noise seperti data yang tidak terisi ataupun data yang tidak konsisten. Data yang ada tidak memiliki noise sehingga tahap ini tidak dilakukan.
3.2.2. Data Integration
Tahap selanjutnya adalah melakukan penggabungan data dari berbagai macam sumber. Data yang ada juga sudah terdapat dalam 1 file sehingga tahap ini juga tidak dilakukan.
3.2.3. Data Selection
Tahap selanjutnya adalah seleksi data dari atribut yang tidak terpakai. Proses seleksi ini dilakukan dengan memilih atribut yang relevan untuk digunakan dalam penelitian, dan menghapus atribut Mata
Ujian
BIN Nilai Bahasa Indonesia
BING Nilai Bahasa Inggris
MTK Nilai Matematika FSK /
EKO
Nilai Fisika / Nilai Ekonomi KMA /
SOS
Nilai Kimia / Nilai Sosiologi BIO /
GEO
Nilai Biologi / Nilai Geografi
TOTAL Total Nilai
(55)
29
yang tidak relevan. Atribut yang dapat dilanjutkan untuk penelitian adalah :
Table 3.2 Tabel Seleksi Atribut
Nama Atribut Keterangan
RANKING Ranking se-DIY
KODE_SEKOLAH Kode Sekolah
BIN Nilai Bahasa Indonesia
BING Nilai Bahasa Inggris
MTK Nilai Matematika
FSK / EKO
Nilai Fisika / Nilai Ekonomi KMA /
SOS
Nilai Kimia / Nilai Sosiologi BIO /
GEO
Nilai Biologi / Nilai Geografi
3.2.4. Data Transformation
Tahap selanjutnya adalah proses transformasi data dengan melakukan normalisasi perbedaan range. Proses normalisasi dilakukan dengan menggunakan rumus min-max normalization
seperti berikut :
′
=
�− � ����− � �
(�
���− �
� �) + �
� �…(3.1)Keterangan :
v = nilai sebelum ternormalisasi v’ = nilai setelah ternormalisasi minA = nilai minimal dari atribut A maxA = nilai maksimal dari atribut A
(56)
� � � = nilai minimal terbaru dari atribut A � ��� = nilai minimal terbaru dari atribut A
Pada penelitian ini, atribut yang digunakan sudah memiliki data yang memiliki range yang sama, yaitu 0 – 10, sehingga tahap ini tidak dilakukan. Berikut adalah data nilai Ujian Nasional Kabupaten Gunung Kidul tahun 2014 :
Table 3.3 Tabel Data Terseleksi
RK KODE
SEKOLAH BIN BING MTK FSK KMA BIO 3 05-002 8.68 7.16 8.35 7.80 7.18 8.24 19 05-001 8.39 5.94 7.35 6.48 6.51 7.78 52 05-021 8.01 5.55 5.74 5.17 5.14 6.42 59 05-005 7.94 5.80 4.52 4.83 5.09 6.49 61 05-022 7.98 5.75 4.68 4.29 4.96 6.60 64 05-003 7.88 5.38 5.04 4.64 4.71 6.16 73 05-020 8.05 5.39 4.51 4.08 4.67 5.82 74 05-006 7.91 4.77 4.80 3.93 5.08 5.95 78 05-009 7.36 5.53 4.75 3.78 4.61 6.14 86 05-034 7.96 4.38 4.82 3.90 4.08 5.72 88 05-004 7.80 4.49 5.05 3.66 4.26 5.45 89 05-027 7.89 5.19 4.07 3.97 4.47 4.91 97 05-026 7.89 4.80 4.05 4.05 3.65 5.32 103 05-007 7.79 4.73 3.77 3.92 3.83 5.15 104 05-025 7.76 5.16 3.82 3.39 3.86 5.16 125 05-012 7.86 4.56 3.27 3.16 3.05 4.63 130 05-024 7.28 4.14 3.18 3.16 3.61 4.54 139 05-008 6.82 3.80 3.25 2.97 2.39 3.89
(57)
31
3.2.5. Data Mining
Tahap selanjutnya adalah melakukan penambangan data yang juga terdiri dari beberapa tahapan. Pada proses saat ini digunakan aplikasi Microsoft Excel.
1. Menghitung Jarak Menggunakan Euclidean Distance
Tahap ini adalah menghitung jarak (distance) dari suatu obyek p dan q di suatu database D. Rumus menghitung jarak d(p, q) dirumuskan seperti pada Rumus 2.1, yaitu :
,
= √∑
� �−
� ... (2.1)Berikut adalah contoh perhitungan jarak antar obyek BIN, BING, MTK, FSK, KMA, BIO :
Table 3.4 Tabel Jarak Antar Obyek
3 19 52 59 61 64
3 0 2.230560468 4.923819656 5.772139984 5.990417348 5.931053869
19 2.230560468 0 2.886381818 3.825441151 3.990501222 3.893558783
52 4.923819656 2.886381818 0 1.295685147 1.415521105 1.034021276
59 5.772139984 3.825441151 1.295685147 0 0.59186147 0.860116271
61 5.990417348 3.990501222 1.415521105 0.59186147 0 0.809382481
64 5.931053869 3.893558783 1.034021276 0.860116271 0.809382481 0
73 6.653593014 4.633670252 1.819093181 1.16965807 0.948683298 0.860639297
74 6.598371011 4.471923523 1.806682042 1.497297566 1.243462907 1.056267012
78 6.673424908 4.645277171 1.922082204 1.38477435 1.015824788 1.061602562
86 7.202645347 5.081761506 2.333302381 2.141191257 1.896786757 1.480844354
88 7.227959601 5.117069474 2.374699981 2.270682717 1.99155718 1.570222914
89 7.478322004 5.501772442 2.664939024 2.048780125 1.972916623 1.745307996
97 7.728745047 5.707512593 2.849122672 2.29658442 2.172464039 1.869197689
(58)
104 8.08233877 6.074635792 3.208644574 2.507468843 2.286853734 2.199136194
125 9.21180764 7.193622175 4.326176141 3.676492894 3.496355245 3.330555509
130 9.261414579 7.196596418 4.357751714 3.710606419 3.560210668 3.37372198
139 10.29342994 8.263237864 5.429742167 4.937296831 4.783764208 4.488685776
73 74 78 86 88 89
3 6.653593014 6.598371011 6.673424908 7.202645347 7.227959601 7.478322004
19 4.633670252 4.471923523 4.645277171 5.081761506 5.117069474 5.501772442
52 1.819093181 1.806682042 1.922082204 2.333302381 2.374699981 2.664939024
59 1.16965807 1.497297566 1.38477435 2.141191257 2.270682717 2.048780125
61 0.948683298 1.243462907 1.015824788 1.896786757 1.99155718 1.972916623
64 0.860639297 1.056267012 1.061602562 1.480844354 1.570222914 1.745307996
73 0 0.834026378 0.865621164 1.230772115 1.282770439 1.067426812
74 0.834026378 0 1.078007421 1.09945441 1.071587607 1.471393897
78 0.865621164 1.078007421 0 1.469387628 1.40648498 1.558043645
86 1.230772115 1.09945441 1.469387628 0 0.503487835 1.427094951
88 1.282770439 1.071587607 1.40648498 0.503487835 0 1.374881813
89 1.067426812 1.471393897 1.558043645 1.427094951 1.374881813 0
97 1.369890507 1.73781472 1.723571873 1.068456831 1.282692481 0.999699955
103 1.493619764 1.810938983 1.842118346 1.281288414 1.427795504 0.88391176
104 1.476787053 1.881249585 1.684280262 1.506817839 1.510099334 0.9226592
125 2.673854895 2.973835907 2.911940933 2.289432244 2.358686075 1.946458322
130 2.74457647 2.856588875 2.88925596 2.317433926 2.321723498 1.949179314
139 3.972908255 4.114948359 4.022623522 3.342274675 3.329129015 3.180597428
97 103 104 125 130 139
3 7.728745047 7.968588332 8.08233877 9.21180764 9.261414579 10.29342994
19 5.707512593 5.940824859 6.074635792 7.193622175 7.196596418 8.263237864
52 2.849122672 3.081103698 3.208644574 4.326176141 4.357751714 5.429742167
59 2.29658442 2.437457692 2.507468843 3.676492894 3.710606419 4.937296831
61 2.172464039 2.328282629 2.286853734 3.496355245 3.560210668 4.783764208
64 1.869197689 2.08719908 2.199136194 3.330555509 3.37372198 4.488685776
73 1.369890507 1.493619764 1.476787053 2.673854895 2.74457647 3.972908255
74 1.73781472 1.810938983 1.881249585 2.973835907 2.856588875 4.114948359
78 1.723571873 1.842118346 1.684280262 2.911940933 2.88925596 4.022623522
86 1.068456831 1.281288414 1.506817839 2.289432244 2.317433926 3.342274675
88 1.282692481 1.427795504 1.510099334 2.358686075 2.321723498 3.329129015
89 0.999699955 0.88391176 0.9226592 1.946458322 1.949179314 3.180597428
97 0 0.414125585 0.839464115 1.514958745 1.722411101 2.753870004
103 0.414125585 0 0.68571131 1.319166403 1.397998569 2.576800342
(59)
33
125 1.514958745 1.319166403 1.289340917 0 0.917932459 1.636734554
130 1.722411101 1.397998569 1.476550033 0.917932459 0 1.509668838
139 2.753870004 2.576800342 2.647319399 1.636734554 1.509668838 0
2. Menghitung K-Distance dan Mencari Nearest Neighbors (NN) Tahap ini adalah menentukan tetangga terdekat (NN) dengan asumsi jumlah tetangga terdekat (k) = 7. Caranya adalah dengan mengurutkan jarak masing-masing obyek ke obyek lainya dari nilai terkecil ke terbesar, lalu memilih 7 jarak terdekat, yaitu yang mengandung nilai terkecil. Selanjutnya adalah menghitung
k-distance dari masing-masing obyek tersebut dengan mencari nilai maksimal dari keseluruhan nilai jarak obyek dengan ke-7 tetangga terdekatnya.
Berikut adalah tetangga terdekat (NN) masing-masing obyek dengan jarak antar obyeknya :
Table 3.5 Tabel NN dengan Jarak Antar Obyeknya
3 19 52 59
3 0 19 0 52 0 59 0
19 2.230560468 3 2.230560468 64 1.034021276 61 0.59186147 52 4.923819656 52 2.886381818 59 1.295685147 64 0.860116271 59 5.772139984 59 3.825441151 61 1.415521105 73 1.16965807 64 5.931053869 64 3.893558783 74 1.806682042 52 1.295685147 61 5.990417348 61 3.990501222 73 1.819093181 78 1.38477435 74 6.598371011 74 4.471923523 78 1.922082204 74 1.497297566 73 6.653593014 73 4.633670252 86 2.333302381 89 2.048780125
61 64 73 74
(60)
59 0.59186147 61 0.809382481 74 0.834026378 73 0.834026378 64 0.809382481 59 0.860116271 64 0.860639297 64 1.056267012 73 0.948683298 73 0.860639297 78 0.865621164 88 1.071587607 78 1.015824788 52 1.034021276 61 0.948683298 78 1.078007421 74 1.243462907 74 1.056267012 89 1.067426812 86 1.09945441 52 1.415521105 78 1.061602562 59 1.16965807 61 1.243462907 86 1.896786757 86 1.480844354 86 1.230772115 89 1.471393897
78 86 88 89
78 0 86 0 88 0 89 0
73 0.865621164 88 0.503487835 86 0.503487835 103 0.88391176 61 1.015824788 97 1.068456831 74 1.071587607 104 0.9226592 64 1.061602562 74 1.09945441 97 1.282692481 97 0.999699955 74 1.078007421 73 1.230772115 73 1.282770439 73 1.067426812 59 1.38477435 103 1.281288414 89 1.374881813 88 1.374881813 88 1.40648498 89 1.427094951 78 1.40648498 86 1.427094951 86 1.469387628 78 1.469387628 103 1.427795504 74 1.471393897
97 103 104 125
97 0 103 0 104 0 125 0
103 0.414125585 97 0.414125585 103 0.68571131 130 0.917932459 104 0.839464115 104 0.68571131 97 0.839464115 104 1.289340917 89 0.999699955 89 0.88391176 89 0.9226592 103 1.319166403 86 1.068456831 86 1.281288414 125 1.289340917 97 1.514958745 88 1.282692481 125 1.319166403 130 1.476550033 139 1.636734554 73 1.369890507 130 1.397998569 73 1.476787053 89 1.946458322 125 1.514958745 88 1.427795504 86 1.506817839 86 2.289432244
130 139
130 0 139 0
125 0.917932459 130 1.509668838 103 1.397998569 125 1.636734554 104 1.476550033 103 2.576800342 139 1.509668838 104 2.647319399 97 1.722411101 97 2.753870004 89 1.949179314 89 3.180597428 86 2.317433926 88 3.329129015
(61)
35
Berikut ini adalah ringkasan nilai k-distance obyek :
Table 3.6 Tabel K-Distance K-Distance 3 6.653593014 19 4.633670252 52 2.333302381 59 2.048780125 61 1.896786757 64 1.480844354 73 1.230772115 74 1.471393897 78 1.469387628 86 1.469387628 88 1.427795504 89 1.471393897 97 1.514958745 103 1.427795504 104 1.506817839 125 2.289432244 130 2.317433926 139 3.329129015
3. Mencari Influence Space (IS)
Tahap ini adalah mencari hubungan tetangga simetris dari suatu obyek. IS merupakan gabungan dari NN (Nearest Neighbors) dan RNN (Reverse Nearest Neighbors). RNN merupakan
inverse dari tetangga suatu obyek.
(62)
Table 3.7 Tabel NN NN
3 19 52 59 64 61 74 73
19 3 52 59 64 61 74 73
52 64 59 61 74 73 78 86
59 61 64 73 52 78 74 89
61 59 64 73 78 74 52 86
64 61 59 73 52 74 78 86
73 74 64 78 61 89 59 86
74 73 64 88 78 86 61 89
78 73 61 64 74 59 88 86
86 88 97 74 73 103 89 78
88 86 74 97 73 89 78 103
89 103 104 97 73 88 86 74
97 103 104 89 86 88 73 125
103 97 104 89 86 125 130 88
104 103 97 89 125 130 73 86
125 130 104 103 97 139 89 86
130 125 103 104 139 97 89 86
139 130 125 103 104 97 89 88
Berikut adalah RNN dari masing-masing obyek : Table 3.8 Table RNN RNN
3 19
19 3
52 64 59 61
59 61 64 73 52 78
61 59 64 73 78 74 52
64 61 59 73 52 74 78
73 74 64 78 61 89 59 86
74 73 64 88 78 86 61 89
78 73 61 64 74 59 88 86
86 88 97 74 73 103 89 78
88 86 74 97 89 78 103
(63)
37
97 103 104 89 86 88 125
103 97 104 89 86 125 130 88
104 103 97 89 125 130
125 130 104 103 97 139 130 125 103 104 139
139 130 125
Sehingga menghasilkan IS dari masing-masing obyek adalah sebagai berikut :
Table 3.9 Tabel IS IS
3 19 52 59 64 61 74 73
19 3 52 59 64 61 74 73
52 64 59 61 74 73 78 86
59 61 64 73 52 78 74 89
61 59 64 73 78 74 52 86
64 61 59 73 52 74 78 86
73 74 64 78 61 89 59 86
74 73 64 88 78 86 61 89
78 73 61 64 74 59 88 86
86 88 97 74 73 103 89 78
88 86 74 97 73 89 78 103
89 103 104 97 73 88 86 74
97 103 104 89 86 88 73 125
103 97 104 89 86 125 130 88
104 103 97 89 125 130 73 86
125 130 104 103 97 139 89 86
130 125 103 104 139 97 89 86
(64)
4. Menghitung Local Density
Cara perhitungan Local Density seperti pada Rumus 2.5 :
�
=
�� ... (2.5)
Berikut adalah hasil local density dari semua obyek :
Table 3.10 Tabel Density
Density
3 0.150294735 19 0.215811645 52 0.428577114 59 0.488095325 61 0.527207392 64 0.675290416 73 0.812498096 74 0.679627666 78 0.680555615 86 0.680555615 88 0.70038041 89 0.679627666 97 0.660083981 103 0.70038041 104 0.663650226 125 0.436789515 130 0.431511763 139 0.300378866
(65)
39
Selanjutnya adalah menhitung rata-rata density dari masing-maisng obyek :
Table 3.11 Tabel Rata-rata Density Tiap Obyek
Density Density Density Density
3 0.15029474 19 0.21581165 52 0.42857711 59 0.48809532
19 0.21581165 3 0.15029474 64 0.67529042 61 0.52720739
52 0.42857711 52 0.42857711 59 0.48809532 64 0.67529042
59 0.48809532 59 0.48809532 61 0.52720739 73 0.8124981
64 0.67529042 64 0.67529042 74 0.67962767 52 0.42857711
61 0.52720739 61 0.52720739 73 0.8124981 78 0.68055561
74 0.67962767 74 0.67962767 78 0.68055561 74 0.67962767
73 0.8124981 73 0.8124981 86 0.68055561 89 0.67962767
Rata2 0.54673 Rata2 0.53737 Rata2 0.649119 Rata2 0.640483
Density Density Density Density
61 0.52720739 64 0.67529042 73 0.8124981 74 0.67962767
59 0.48809532 61 0.52720739 74 0.67962767 73 0.8124981
64 0.67529042 59 0.48809532 64 0.67529042 64 0.67529042
73 0.8124981 73 0.8124981 78 0.68055561 88 0.70038041
78 0.68055561 52 0.42857711 61 0.52720739 78 0.68055561
74 0.67962767 74 0.67962767 89 0.67962767 86 0.68055561
52 0.42857711 78 0.68055561 59 0.48809532 61 0.52720739
86 0.68055561 86 0.68055561 86 0.68055561 89 0.67962767
Rata2 0.635029 Rata2 0.613874 Rata2 0.630137 Rata2 0.679445
Density Density Density Density
78 0.68055561 86 0.680556 88 0.70038 89 0.679628
73 0.8124981 88 0.70038 86 0.680556 103 0.70038
61 0.52720739 97 0.660084 74 0.679628 104 0.66365
64 0.67529042 74 0.679628 97 0.660084 97 0.660084
74 0.67962767 73 0.812498 73 0.812498 73 0.812498
59 0.48809532 103 0.70038 89 0.679628 88 0.70038
(66)
86 0.68055561 78 0.680556 103 0.70038 74 0.679628
Rata2 0.651951 Rata2 0.701879 Rata2 0.699047 Rata2 0.699597
Density Density Density Density
97 0.660084 103 0.70038 104 0.66365 125 0.43679 103 0.70038 97 0.660084 103 0.70038 130 0.431512 104 0.66365 104 0.66365 97 0.660084 104 0.66365
89 0.679628 89 0.679628 89 0.679628 103 0.70038 86 0.680556 86 0.680556 125 0.43679 97 0.660084 88 0.70038 125 0.43679 130 0.431512 139 0.300379 73 0.812498 130 0.431512 73 0.812498 89 0.679628
125 0.43679 88 0.70038 86 0.680556 86 0.680556
Rata2 0.667697 Rata2 0.607514 Rata2 0.628778 Rata2 0.588027
Density Density
130 0.431512 139 0.300379 125 0.43679 130 0.431512 103 0.70038 125 0.43679 104 0.66365 103 0.70038 139 0.300379 104 0.66365 97 0.660084 97 0.660084 89 0.679628 89 0.679628 86 0.680556 88 0.70038
Rata2 0.588781 Rata2 0.610346
5. Menghitung Influenced Outlierness (INFLO)
Tahap ini adalah menghitung INFLO dari suatu obyek, yang sudah tertera pada Rumus 2.8 :
� ��
�=
∑ ∈ � � � | � � |
(1)
10 01-011 1.585462563 10 05-023 1.575084208 10 01-017 1.514562189 11 04-077 1.579576323 11 02-008 1.486022459 11 05-002 1.508506898 12 01-041 1.509224498 12 04-077 1.484189012 12 05-023 1.499693728 13 03-003 1.508632552 13 03-003 1.432820404 13 02-002 1.460976784 14 03-005 1.412981924 14 01-041 1.405189577 14 01-042 1.424781115 15 01-023 1.380560794 15 01-023 1.377985994 15 01-039 1.39366335 16 01-058 1.369472081 16 04-004 1.370642406 16 01-041 1.384671693 17 02-008 1.368574873 17 01-054 1.36437045 17 01-046 1.374987019 18 05-033 1.365169243 18 04-076 1.360355564 18 02-008 1.371205589 19 04-024 1.351114745 19 05-033 1.33499914 19 04-077 1.370807878 20 03-006 1.334888799 20 03-019 1.329680813 20 01-023 1.370527638 21 01-051 1.29923477 21 01-017 1.327379621 21 05-014 1.339566421 22 03-024 1.282782315 22 04-024 1.321078923 22 04-076 1.309376288 23 04-013 1.27813686 23 01-014 1.313958822 23 01-028 1.283517093 24 01-029 1.275684207 24 01-027 1.310250974 24 01-054 1.276543642 25 02-030 1.273836375 25 01-051 1.284165417 25 01-027 1.258296562 26 04-076 1.273364729 26 05-002 1.274430545 26 02-001 1.234026925 27 05-005 1.267731902 27 03-024 1.27114072 27 01-051 1.232783981 28 02-044 1.267725608 28 01-058 1.27006367 28 05-033 1.228226828 29 01-021 1.263311893 29 02-002 1.261076192 29 01-004 1.217123908 30 03-019 1.261635524 30 03-006 1.255054927 30 02-050 1.215957729 31 02-006 1.257227807 31 05-034 1.249964024 31 04-024 1.19847328 32 05-034 1.253118672 32 01-046 1.243597413 32 03-006 1.198070888 33 01-054 1.237614304 33 01-026 1.231593091 33 04-033 1.190757499 34 03-007 1.228294106 34 05-014 1.228624054 34 01-026 1.186097684 35 05-002 1.227980236 35 01-021 1.225557267 35 03-019 1.174590264 36 01-014 1.224765451 36 02-030 1.224110119 36 02-030 1.171619662 37 02-029 1.222750311 37 02-029 1.212173256 37 03-003 1.170296911 38 04-010 1.218276205 38 04-013 1.20514479 38 01-014 1.164823012 39 01-042 1.216119074 39 01-007 1.199399409 39 01-007 1.164572255 40 01-015 1.213711512 40 01-042 1.197016201 40 04-004 1.164564002 41 01-007 1.207444173 41 03-005 1.190578316 41 01-020 1.161275135 42 01-006 1.206738762 42 03-016 1.177253742 42 03-005 1.157272644 43 01-027 1.205880403 43 05-005 1.176508128 43 03-024 1.153988247 44 01-003 1.203881851 44 02-033 1.1760222 44 05-034 1.14379346 45 05-014 1.194824714 45 03-017 1.174460013 45 04-010 1.141033042 46 02-050 1.191729039 46 04-079 1.168285155 46 04-013 1.139833569 47 01-026 1.190831388 47 01-045 1.165999022 47 01-029 1.136753782 48 04-023 1.180596175 48 02-050 1.157139404 48 04-048 1.133252809 49 04-009 1.178420251 49 01-029 1.1553701 49 05-005 1.132996983 50 01-012 1.177336057 50 01-025 1.137601418 50 01-008 1.125089782
(2)
51 01-025 1.175542173 51 04-010 1.135098884 51 01-025 1.123398956 52 03-016 1.163013356 52 01-009 1.131964548 52 04-009 1.116578148 53 02-033 1.151265859 53 04-025 1.126350323 53 04-046 1.103633192 54 04-073 1.142616753 54 04-060 1.123202853 54 01-045 1.100380299 55 02-003 1.13954669 55 04-039 1.12151106
56 02-025 1.139276942 56 02-004 1.112103386 57 01-045 1.135267419 57 03-014 1.109784063 58 04-055 1.133081384 58 04-055 1.106053464 59 04-028 1.132422704 59 01-055 1.104310577 60 02-013 1.125671741
61 04-039 1.124080313 62 05-012 1.121683039 63 04-061 1.12118123 64 01-028 1.118952509 65 04-079 1.117784511 66 03-012 1.114966399 67 03-001 1.106045976 68 04-017 1.100773144
(3)
LAMPIRAN 12 : DIAGRAM (
BOX AND WHISKER PLOTS
)
1.
2014_UN_IPA
BIN BING MTK FSK KMA BIO
COUNT 141 141 141 141 141 141
MEAN 7.70 5.62 4.99 4.79 4.84 5.88
STANDAR
DEVIASI 0.64003971 1.108534197 1.377811389 1.298571497 1.17790292 1.199077018
MIN 5.30 3.57 2.89 2.65 2.39 3.21
Q1 7.31 4.75 3.92 3.81 3.86 5.07
MEDIAN 7.84 5.53 4.75 4.49 4.74 5.72
Q3 8.14 6.39 5.88 5.74 5.7 6.71
MAX 9.40 8.20 8.35 7.83 7.25 9.00
BOTTOM
(Q1) 7.31 4.75 3.92 3.81 3.86 5.07
2Q BOX
(Q1 – MIN) 0.53 0.78 0.83 0.68 0.88 0.65
3Q BOX
(Q3 – MED) 0.3 0.86 1.13 1.25 0.96 0.99
WHISKER - 2.0100 1.1800 1.0300 1.1600 1.4700 1.8600
WHISKER + 1.2600 1.8100 2.4700 2.0900 1.5500 2.2900
OFFSET 0.5 1.5 2.5 3.5 4.5 5.5
0 1 2 3 4 5 6 7 8 9 10
BIN BING MTK FSK KMA BIO
(4)
2.
2014_UN_IPS
BIN BING MTK EKO SOS GEO
COUNT 159 159 159 159 159 159
MEAN 7.11 5.06 4.50 5.12 6.21 5.98
STANDAR
DEVIASI 0.799531932 1.263108419 1.78697934 1.381177716 0.996178439 1.08597211
MIN 5.17 2.60 2.00 2.42 4.35 3.75
Q1 6.51 3.94 3.05 3.96 5.375 5.11
MEDIAN 7.09 4.94 4.01 4.82 6.14 5.77
Q3 7.72 6 5.58 6.225 7.005 6.8
MAX 8.87 8.31 8.86 8.55 8.23 8.28
BOTTOM
(Q1) 6.51 3.94 3.05 3.96 5.375 5.11
2Q BOX
(Q1 – MIN) 0.58 1 0.96 0.86 0.765 0.66
3Q BOX
(Q3 – MED) 0.63 1.06 1.57 1.405 0.865 1.03
WHISKER - 1.3400 1.3400 1.0500 1.5400 1.0250 1.3600
WHISKER + 1.1500 2.3100 3.2800 2.3250 1.2250 1.4800
OFFSET 0.5 1.5 2.5 3.5 4.5 5.5
0 1 2 3 4 5 6 7 8 9 10
BIN BING MTK EKO SOS GEO
(5)
(6)