BAB I PENDAHULUAN
1.1 Latar Belakang
Dewasa ini, teknologi berkembang dengan begitu pesat. Perkembangan teknologi mengakibatkan data juga ikut semakin berkembang, sehingga
jumlah data semakin banyak. Data dengan ukuran yang sangat banyak muncul dari berbagai bidang, mulai dari bidang kesehatan forensik, bidang
pendidikan, dan bidang-bidang lainnya. Namun, seringkali data yang mempunyai ukuran yang sangat besar biasanya jarang atau bahkan tidak
menghasilkan suatu informasi. Semakin bertambah banyaknya data, kemungkinan besar ada beberapabanyak data yang tidak terpakai dalam suatu
analisis tertentu. Untuk itu diperlukan sebuah alat untuk menambang data yang sangat banyak yang tidak memiliki suatu informasi menjadi sebuah
informasi yang berguna. Maka dari itu, data mining atau yang biasa disebut penambangan data mempunyai peran yang sangat tinggi untuk melakukan
proses menambang data yang sangat banyak, sehingga dapat disimpulkan bahwa penambangan data merupakan proses dari menemukan pengetahuan
atau pola yang menarik dari jumlah data yang besarbanyak Han Kamber, 2012.
Penambangan data memiliki beberapa langkah untuk menemukan sebuah pengetahuan dari sebuah data, yang biasa disebut dengan Knowledge
Discovery in Databases KDD. Langkah-langkah tersebut yaitu data cleaning, data integration, data selection, data transformation, data mining,
pattern evaluation, dan knowledge presentation. Langkah 1 sampai dengan langkah 4 merupakan proses untuk mengolah data agar data siap untuk
ditambang. Kemudian, langkah data mining merupakan proses yang digunakan untuk mengekstrak pola data Han Kamber, 2012.
Penambangan data memiliki banyak teknik atau metode, salah satu teknik dalam penambangan data yang dikenal adalah mencari data yang tidak sesuai
dengan harapan, yang biasa disebut outlier detection Han Kamber, 2012. Outlier merupakan sebuah pengamatan yang menyimpang begitu banyak dari
pengamatan lainnya untuk membangkitkan kecurigaan bahwa hal tersebut dihasilkan oleh berbagai mekanisme Hawkins, 1980.
Pendeteksian outlier mempunyai 5 pendekatan, yaitu statistical approach, proximity-based approach, clustering-based approach, classification-based
approach, dan high-dimensional data Han Kamber, 2012. Pada setiap pendekatan mempunyai beberapa algoritma yang bisa diterapkan untuk
mengidentifikasi atau pendeteksian outlier. Salah satu contoh yaitu algoritma MixCBLOF Mix Cluster Based Local Outlier Factor yang merupakan salah
satu algoritma dengan pendekatan clustering-based. Algoritma MixCBLOF ini merupakan pengembangan dari algoritma CBLOF Cluster Based Local
Outlier Factor yang hanya dapat menangani outlier dengan set data yang seragam yaitu set data numerik Maryono Djunaidy, 2010. Namun,
Maryono Djunaidy pada tahun 2010 mengembangkan algoritma CBLOF menjadi algoritma MixCBLOF yang dapat menangani outlier dengan set data
campuran atau bisa dikatakan dapat menggunakan set data numerik dan set data kategorikal.
Teknik pendeteksian outlier dengan menggunakan algoritma MixCBLOF ini kemungkinan dapat diterapkan pada bidang pendidikan di Sekolah
Menengah Atas SMA. Pendidikan pada jenjang SMA memiliki data Ujian Nasional UN berupa nama sekolah, nilai UN, nilai Indeks Integritas Ujian
Nasional IIUN, dan Akreditasi sekolah. Nilai Ujian Nasional UN merupakan nilai yang dihasilkan dari Ujian Nasional yang diselenggarakan
secara nasional pada sekolah-sekolah sekolah menengah pertama, dan sekolah menengah atas, atribut nilai UN merupakan atribut numerik. Nilai
Indeks Integritas Ujian Nasional IIUN merupakan penilaian kejujuran dalam pelaksanaan Ujian Nasional, atribut nilai IIUN merupakan atribut numerik.
Nilai Akreditasi merupakan pengakuan oleh badan yang berwenang terhadap PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
sekolah-sekolah yang memenuhi syarat kebakuan dan kriteria tertentu, atribut nilai akreditasi sekolah merupakan atribut kategorikal.
Maria Renia Octaviani 2015 sudah pernah melakukan penelitian mengenai outlier yang digunakan sebagai topik skripsi yaitu pendeteksian
outlier pada nilai Ujian Nasional Sekolah Menengah Atas di Provinsi Daerah Istimewa Yogyakarta pada tahun ajaran 2011-2014 dengan menggunakan
algoritma INFLO Influenced Outliernes. Penelitian ini merupakan pengembangan penelitian di atas, karena pendeteksian outlier pada penelitian
ini dilakukan pada nilai Ujian Nasional, nilai Indeks Integritas Ujian Nasional, dan nilai Akreditasi seluruh SMA yang ada di DIY pada tahun 2015 dengan
menggunakan algoritma MixCBLOF. Pemilihan data UN SMA tahun 2015 karena pada tahun tersebut IIUN baru digunakan.
Penelitian ini diharapkan dapat menghasilkan informasi atau suatu pengetahuan mengenai kejadian langka yang ada pada kasus outlier di SMA.
Data UN SMA sangat menarik untuk diidentifikasi outlier karena bisa saja pada data UN tersebut memiliki karakter yang unik berbeda dengan yang
lainnya. Misalnya seperti nilai UN yang tinggi namun memiliki nilai IIUN akreditasi yang rendah begitu pula sebaliknya. Hasil yang didapatkan dari
penelitian ini yaitu menampilkan suatu SMA dengan data UN yang unik dengan SMA yang lainnya. Hasil dari penelitian ini dapat dianalisa lebih
lanjut oleh pihak yang berwenang untuk kepentingan pendampingan dan pengembangan terhadap sekolah tersebut.
4
1.2 Rumusan Masalah