BAB I PENDAHULUAN
1.1 Latar Belakang
Dewasa ini, teknologi berkembang dengan begitu pesat. Perkembangan teknologi mengakibatkan data juga ikut semakin berkembang, sehingga
jumlah data semakin banyak. Data dengan ukuran yang sangat banyak muncul dari berbagai bidang, mulai dari bidang kesehatan forensik, bidang
pendidikan, dan bidang-bidang lainnya. Namun, seringkali data yang mempunyai ukuran yang sangat besar biasanya jarang atau bahkan tidak
menghasilkan suatu informasi. Semakin bertambah banyaknya data, kemungkinan besar ada beberapabanyak data yang tidak terpakai dalam suatu
analisis tertentu. Untuk itu diperlukan sebuah alat untuk menambang data yang sangat banyak yang tidak memiliki suatu informasi menjadi sebuah
informasi yang berguna. Maka dari itu,
data mining
atau yang biasa disebut penambangan data mempunyai peran yang sangat tinggi untuk melakukan
proses menambang data yang sangat banyak, sehingga dapat disimpulkan bahwa penambangan data merupakan proses dari menemukan pengetahuan
atau pola yang menarik dari jumlah data yang besarbanyak Han Kamber, 2012.
Penambangan data memiliki beberapa langkah untuk menemukan sebuah pengetahuan dari sebuah data, yang biasa disebut dengan
Knowledge Discovery in Databases KDD
. Langkah-langkah tersebut yaitu
data cleaning, data integration, data selection, data transformation, data mining,
pattern evaluation, dan knowledge presentation
. Langkah 1 sampai dengan langkah 4 merupakan proses untuk mengolah data agar data siap untuk
ditambang. Kemudian, langkah
data mining
merupakan proses yang digunakan untuk mengekstrak pola data Han Kamber, 2012.
Penambangan data memiliki banyak teknik atau metode, salah satu teknik dalam penambangan data yang dikenal adalah mencari data yang tidak sesuai
dengan harapan, yang biasa disebut
outlier detection
Han Kamber, 2012.
Outlier
merupakan sebuah pengamatan yang menyimpang begitu banyak dari pengamatan lainnya untuk membangkitkan kecurigaan bahwa hal tersebut
dihasilkan oleh berbagai mekanisme Hawkins, 1980. Pendeteksian
outlier
mempunyai 5 pendekatan, yaitu
statistical approach, proximity-based approach, clustering-based approach, classification-based
approach,
dan
high-dimensional data
Han Kamber, 2012. Pada setiap pendekatan mempunyai beberapa algoritma yang bisa diterapkan untuk
mengidentifikasi atau pendeteksian
outlier
. Salah satu contoh yaitu algoritma MixCBLOF
Mix Cluster Based Local Outlier Factor
yang merupakan salah satu algoritma dengan pendekatan
clustering-based
. Algoritma MixCBLOF ini merupakan pengembangan dari algoritma CBLOF
Cluster Based Local Outlier Factor
yang hanya dapat menangani
outlier
dengan set data yang seragam yaitu set data numerik Maryono Djunaidy, 2010. Namun,
Maryono Djunaidy pada tahun 2010 mengembangkan algoritma CBLOF menjadi algoritma MixCBLOF yang dapat menangani
outlier
dengan set data campuran atau bisa dikatakan dapat menggunakan set data numerik dan set
data kategorikal. Teknik pendeteksian
outlier
dengan menggunakan algoritma MixCBLOF ini kemungkinan dapat diterapkan pada bidang pendidikan di Sekolah
Menengah Atas SMA. Pendidikan pada jenjang SMA memiliki data Ujian Nasional UN berupa nama sekolah, nilai UN, nilai Indeks Integritas Ujian
Nasional IIUN, dan Akreditasi sekolah. Nilai Ujian Nasional UN merupakan nilai yang dihasilkan dari Ujian Nasional yang diselenggarakan
secara nasional pada sekolah-sekolah sekolah menengah pertama, dan sekolah menengah atas, atribut nilai UN merupakan atribut numerik. Nilai
Indeks Integritas Ujian Nasional IIUN merupakan penilaian kejujuran dalam pelaksanaan Ujian Nasional, atribut nilai IIUN merupakan atribut numerik.
Nilai Akreditasi merupakan pengakuan oleh badan yang berwenang terhadap PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
sekolah-sekolah yang memenuhi syarat kebakuan dan kriteria tertentu, atribut nilai akreditasi sekolah merupakan atribut kategorikal.
Maria Renia Octaviani 2015 sudah pernah melakukan penelitian mengenai
outlier
yang digunakan sebagai topik skripsi yaitu pendeteksian
outlier
pada nilai Ujian Nasional Sekolah Menengah Atas di Provinsi Daerah Istimewa Yogyakarta pada tahun ajaran 2011-2014 dengan menggunakan
algoritma INFLO Influenced
Outlier
nes. Penelitian ini merupakan pengembangan penelitian di atas, karena pendeteksian
outlier
pada penelitian ini dilakukan pada nilai Ujian Nasional, nilai Indeks Integritas Ujian Nasional,
dan nilai Akreditasi seluruh SMA yang ada di DIY pada tahun 2015 dengan menggunakan algoritma MixCBLOF. Pemilihan data UN SMA tahun 2015
karena pada tahun tersebut IIUN baru digunakan. Penelitian ini diharapkan dapat menghasilkan informasi atau suatu
pengetahuan mengenai kejadian langka yang ada pada kasus
outlier
di SMA. Data UN SMA sangat menarik untuk diidentifikasi
outlier
karena bisa saja pada data UN tersebut memiliki karakter yang unik berbeda dengan yang
lainnya. Misalnya seperti nilai UN yang tinggi namun memiliki nilai IIUN akreditasi yang rendah begitu pula sebaliknya. Hasil yang didapatkan dari
penelitian ini yaitu menampilkan suatu SMA dengan data UN yang unik dengan SMA yang lainnya. Hasil dari penelitian ini dapat dianalisa lebih
lanjut oleh pihak yang berwenang untuk kepentingan pendampingan dan pengembangan terhadap sekolah tersebut.
4
1.2 Rumusan Masalah