1
1. BAB I
PENDAHULUAN
1.1. Latar Belakang
Pada era globalisasi saat ini, pertumbuhan data sudah semakin pesat. Data muncul dari segala jenis bidang. Namun, data yang sangat banyak
tersebut seringkali terlalu luas dan tidak menghasilkan suatu informasi yang jelas, apalagi pengetahuan. Semakin bertambah banyaknya jumlah data,
maka terlalu banyak ruang untuk data yang sebenarnya tidak terpakai dalam analisis tertentu. Untuk itu, dibutuhkan sebuah alat untuk menambang suatu
kumpulan data yang sangat banyak tersebut sehingga menjadi sebuah informasi yang berguna. Suatu alat penambangan data akan mengubah data
yang sangat banyak dan tidak informatif tersebut menjadi sebuah informasi yang berguna ataupun dapat menjadi suatu pengetahuan. Dapat disimpulkan
bahwa penambangan data merupakan serangkaian proses untuk menggali data menjadi output yang tidak hanya sekedar informasi, tetapi juga sebuah
pengetahuan yang tersembunyi untuk membantu pengambilan suatu keputusan Han Kamber, 2006.
Penambangan data sendiri sebenarnya memiliki teknik yang disebut dengan Knowledge Discovery in Database KDD. KDD sendiri masih
memiliki beberapa proses di dalamnya, yaitu data cleaning, data integration, data selection, data transformation, data mining, pattern
evaluation, dan knowledge presentation Han Kamber, 2006.
Dalam penambangan data, sudah banyak teknik ataupun metode yang sering digunakan. Salah satunya adalah teknik untuk mencari data
yang tidak konsisten ataupun data yang berbeda dari data yang lainnya. Teknik ini biasa disebut dengan deteksi anomali data atau outlier detection
Han Kamber, 2006. Outlier sendiri merupakan sebuah observasi yang menyimpang begitu banyak dari pengamatan lain untuk membangkitkan
kecurigaan bahwa objek tersebut dihasilkan oleh mekanisme yang berbeda Hawkins, 1980.
Banyak algoritma penambangan data yang mencoba untuk meminimalkan pengaruh outlier. Masalah deteksi outlier dapat dilihat
sebagai dua submasalah. Pertama, menentukan data yang dapat dianggap tidak konsisten dalam satu set data yang diberikan. Lalu yang kedua
menemukan metode yang efisien untuk menemukan data yang outlier berbeda dengan data yang lain. Dengan demikian, deteksi outlier
merupakan salah satu tugas penambangan data yang menarik Han Kamber, 2006.
Menurut Kriegel et al. 2010, deteksi outlier memiliki 6 macam pendekatan, yaitu statistical test, depth-based approaches, deviation-based
approaches, distance-based approaches, density-based approaches, dan high-dimentional approache. Algoritma klasterisasi sendiri sementara
membuang outlier sebagai suatu noise, namun dapat dimodifikasi untuk menyertakan deteksi outlier sebagai hasil dari eksekusi mereka. Secara
umum, pengguna harus memeriksa bahwa setiap outlier ditemukan oleh
pendekatan ini memang benar-benar outlier. Namun dari sekian banyak algoritma outlier yang ada, tidak semuanya dapat cocok untuk digunakan
dalam menganalisis outlier. Data yang memiliki dimensi tinggi merupakan salah satu hambatan dari algoritma outlier yang ada. Salah satu algoritma
baru yang biasa digunakan untuk mendeteksi outlier adalah algoritma yang bernama Influenced Outlierness INFLO yang dikemukakan oleh Jin et al
pada tahun 2006. Algoritma INFLO ini juga merupakan salah satu algoritma deteksi outlier dengan pendekatan berbasis density-based yang
menggunakan Symmetric Neighborhood Relationship. Teknik deteksi outlier ini dapat digunakan untuk menganalisis
berbagai bidang, salah satunya adalah bidang pendidikan. Salah satu isu tentang pendidikan di Indonesia adalah mengenai Ujian Nasional UN.
Penyelenggara UN adalah Badan Standar Nasional Pendidikan BNSP yang bekerja sama dengan Kementerian Pendidikan dan Kebudayaan,
Kementerian Agama, Kementerian Dalam Negeri, Kepolisian Republik Indonesia, Perguruan Tinggi Negeri, dan Pemerintah Daerah, yang dalam
pelaksanaannya terdiri atas Penyelenggara UN Tingkat Pusat, Penyelenggara UN Tingkat Provinsi, Penyelenggara UN Tingkat
Kabupaten Kota, dan Penyelenggara UN Tingkat Sekolah Madrasah. Menurut Prosedur Operasi Standart Ujian Nasional Tahun 2014 POS UN
2014, kelulusan peserta didik dari UN ditentukan dari Nilai Akhir NA yang merupakan gabungan nilai Ujian Nasional UN dengan Nilai Sekolah
NS dengan bobot 60 nilai UN dan 40 nilai NS. Nilai Sekolah tersebut
juga merupakan gabungan nilai US dengan nilai rata – rata raport semester
3, 4, dan 5 untuk tingkat Sekolah Menengah Atas dengan bobot 60 nilai US dan 40 nilai rata
– rata raport. Sekolah Menengah Atas SMA merupakan salah satu tingkatan
sekolah yang menarik dan memiliki beberapa hal untuk dianalisa. Hal ini karena SMA merupakan jenjang sekolah terakhir sebelum menuju ke
tingkat yang lebih tinggi Perguruan Tinggi. SMA sendiri memiliki beberapa jurusan, seperti Ilmu Pengetahuan Alam IPA, Ilmu Pengetahuan
Sosial IPS, Bahasa, dan Agama. Maka dari itu, penelitian ini akan melakukan deteksi outlier pada
nilai ujian SMA dari salah satu provinsi di Indonesia, yaitu Provinsi Daerah Istimewa Yogyakarta DIY. Pemilihan provinsi-provinsi tersebut dengan
alasan, yaitu berdasarkan provinsi letak Universitas Sanata Dharma Yogyakatya DIY. Nilai ujian yang diteliti adalah nilai ujian nasional, nilai
ujian sekolah, dan nilai akhir SMA dari jurusan IPA dan IPS karena mayoritas SMA di Indonesia adalah jurusan IPA dan IPS. Nilai yang
dipergunakan adalah nilai ujian tahun 2011-2014. Penelitian ini diharapkan dapat menghasilkan suatu informasi atau
bahkan pengetahuan baru dari kejadian langka dari data nilai ujian SMA yang ada. Hasil yang didapatkan nantinya akan menampilkan sekolah mana
dari provinsi tertentu yang outlier atau berbeda dari sekolah – sekolah
lainnya yang ada dalam provinsi tersebut. Selain itu juga dapat terlihat sekolah tertentu apakah unggul dari nilai UN ataukah nilai NS atau bahkan
nilai NA. Selain itu, nantinya diharapkan dari hasil outlier yang didapatkan, akan dapat menganalisa lebih lanjut pemasalahan UN yang terjadi di
Indonesia.
1.2. Rumusan Masalah