2.1.3. Knowledge Discovery in Database KDD
Menurut Han dkk. 2006, penambangan data tidak dapat dipisahkan dari proses Knowledge Discovery in Databese KDD. KDD merupakan sebuah proses
mengubah data mentah menjadi suatu informasi yang berguna. Illustrasi proses KDD dapat dilihat pada gambar 2.1.
Gambar 2. 1 Tahap-tahap proses Knowledge Discovery in Databese HanKamber, 2006.
Knowledge Discovery merupakan suatu proses digambarkan dalam Gambar 2.1 dan terdiri dari langkah-langkah sebagai berikut:
1. Pembersihan Data Data Cleaning
Pembersihan Data dilakukan untuk menghilangkan noise dan data yang tidak konsisten. Sebelum proses data mining dapat dilaksanakan, perlu
dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data
yang inkonsisten dan memperbaiki kesalahan pada data, seperti kesalahan cetak tipografi. Lalu dilakukan juga proses enrichment, yaitu proses
“memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.
2. Integrasi Data Data Integration
Tahap ini berisikan penggabungann dari beberapa sumber data. 3.
Seleksi Data Data Selection Pemilihan seleksi data dari sekumpulan data operasional perlu
dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Seleksi data merupakan proses menganalisi data yang relevan dari dalam database.
4. Transformasi Data Data Transformation
Tahap ini mengubah atau mengkonsolidasi data ke dalam bentuk yang sesuai untuk dilakukan penambangan data.
5. Penambangan Data Data Mining
Data mining adalah proses proses penting di mana metode cerdas yang diterapkan untuk mengekstrak pola data.
6. Evaluasi Pola Pattern Evaluation
Evaluasi pola digunakan untuk mengidentifikasi pola-pola yang benar- benar menarik yang mewakili pengetahuan berdasarkan pada beberapa
langkah penting. 7.
Presentasi Pengetahuan Knowledge Presentation Tahap ini merupakan proses teknik visualisasi dan representasi
pengetahuan digunakan untuk menyajikan pengetahuan hasil penambangan kepada pengguna.
2.2. Ujian Nasional
2.2.1. Definisi Ujian Nasional
Ujian adalah kegiatan yang dilakukan untuk mengukur pencapaian Kompetensi Peserta Didik debagai pengakuan prestasi belajar dan penyelesaian
dari salah satu pendidikan. Ujian Nasional adalah evaluasi tahap Akhir yang
merupakan salah satu proses pengukuran hasil belajar dan mutu pendidikan yang telah dilaksanakan secara nasional di Indonesia sejak tahun 1985. Ujian Nasional
diadakan untuk peningkatan mutu pendidikan dan daya saing sumber daya manusia Indonesia. Pemerintah telah menetapkan standar kelulusan minimal yang
harus dicapai peserta didik. Hasil Ujian Nasional bertujuan untuk pemetakan mutu program dan satuan
pendidikan yaitu; 1 pemetaan mutu pendidikan yaitu memperoleh gambaran perbandingan mutu pendidikan antar sekolahmadrasah, dan antar wilayah dari
tahun ke tahun, 3 pertimbangan seleksi masuk jenjang pendidikan berikutnya, 5 pembinaan dan memberian bantuan kepada satuan pendidikan dalam upaya
meningkatkkan mutu pendidikan di Indonesia. Dalam pelaksanaan UN tahun 2015 mengenai standar nasional pendidikam
pemerintah telah mengatur dalam Peratuaran Pemerinrah Republik Indonesia Nomor 13 Tahun 2015 tentang Perubahan Kedua Atas Peraturan Pemerintah
Nomor 19 Tahun 2005 Tentang Standar Nasional Pendidikan. Disebut dalam pasal 1 ayat 29 Badan Standar Nasional Pendidikan BSNP adalah badan mandiri
dan Independen yang bertugas mengembangkan, memantau, dan mengendalikan Standar Nasional Pendidikan.
Pembinaan sekolah misalnya oleh pengawas sekolah, pelaksanaan pembinaan oleh pengawas untuk SMPMTs, SMAMA, dan SMKMAK paling
sedikit 7 tujuh satuan pendidikan menurut Peraturan Menteri Pendidikan dan Kebudayaan No 143 Tahun 2014.
2.2.2. Tujuan dan Fungsi Ujian Nasional
Berdasarkan Peraturan Menteri Pendidikan dan Kebudayaan Republik Indonesia Nomor 5 Tahun 2015 BSNP Badan Standar Nasional Pendidikan
menyelengarakan Ujian Nasional bekerja sama dengan instansi terkait di PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
lingkungan Pemerintah, Pemerintah provinsi, pemerintah kabupatenkota dan satuan pendidikan sesuai dengan kurikulum yang berlaku.
Penilaian hasil belajar bertujuan untuk menilai pencapaian kompetensi lulusan secara nasional paada mata pelajaran tertentu dan di lakukan dalam bentuk
ujian nasional. ps. 66, peraturan pemerintah republik indonesia nomor 13 tahun 2015. Hasil ujian nasional digunakan sebagai dasar untuk :
a. pemetaan mutu program danatau satuan pendidikan.
b. pertimbangan seleksi jenjang pendidikan berikutnya.
c. pembinaan dan pemberian bantuan kepada satuan pendidikan dalam upaya
untuk meningkatkkan mutu pendidikan.
2.2.3. Peserta Ujian Nasional
Setiap peserta didik jalur pendidikan formal pendidikan dasar dan menengah dan jalur pendidikan nonformal kesetaraan berhak mengikuti Ujian
nasioal dan berhak mengulainya sepanjang belum dinyatakan memenuhi kriteria pencapaian kompetensi lulusan. Peserta didik wajib mengikuti satu kali Ujian
nasional tanpa dipungut biaya. Peserta Didik jalur pendidikan formal pendidikan dikecualikan untuk Peserta Didik SDMISDLB atau bentuk lain yang sederajat.
Peserta Didik pendidikan informal dapat mengikuti Ujian nasional setelah memenuhi syarat yang ditetapkan oleh BSNP. Peserta Ujian nasional memperoleh
surat keterangan hasil Ujian nasional yang diterbitkan oleh satuan pendidikan penyelenggara Ujian nasional. ps.69, Peraturan Pemerintah Republik Indonesia
Nomor 13 Tahun 2015. Dalam Peraturan Menteri Pendidikan dan Kebuyaan Republiik Indonesia No. 15 tahun 2015 Persyaratan peserta didik pada jalur
formal yang mengikuti ujian nasional adalah telah atau pernah berada pada tahun terakhir pada suatu jenjang pendidikan di satuan pendidikan, dan memiliki
laporan lengkap penilaian hasil belajar pada suatu jenjang pendidikan di satuan pendidikan tertentu mulai semester I sampai dengan semester V. Persyaratan
peserta pendidikan kesetaraan yang mengikuti ujian nasional adalah berasal dari PKBM, kelompok belajar pada SKB, Pondok Pesantren penyelenggara Program
Wustha, atau kelompok belajar sejenis dan memiliki laporan lengkap penilaian hasil belajar pada Pendidikan Kesetaraan.
2.2.4. Penyelenggaran Ujian Nasional
Dalam Peraturan Mentri Pendidikan dan Kebudayaan Republik Indonesia No 5 tahun 2015 pasal 14 menyebutkan bahwa BSNP Badan Standar Nasional
Pendidikan menyelenggarakan UN bekerja sama dengan instansi terkait di lingkungan Pemerintah, pemerintah provinsi, pemerintah kabupatenkota, dan
satuan pendidikan. BSNP sebagai penyelengara UN bertugas untuk menelaah dan menetapkan kisi-kisi UN, menyusun dan menetapkan POS pelaksanaan UN,
menelaah dan menetapkan naskah soal UN, memberikan rekomendasi kepada Menteri tentang pembentukan Panitia UN Tingkat Pusat, melakukan koordinasi
persiapan dan pengawasan pelaksanaan UN secara nasional, dan melakukan evaluasi dan menyusun rekomendasi perbaikan pelaksanaan UN.
2.2.5. Strandar Kelulusan
Peserta didik dinyatakan lulus dari suatu pendidikan setelah menyelesaikan seluruh program belajar, memperoleh nilai sikap.perilaku minimal baik, dan lulus
ujian SMPK. Kelulusan peserta didik dari ujian SM ditetapkan oleh satuan pendidikan. Kelulusan peserta didik dari ujian PK ditetapkan oleh Dinas
Pendidikan Provinsi. Dan Kelulusan peserta didik ditetapkan setelah satua pendidikan menerima hasil ujian nasional peserta didik yang bersangkutan. ps.2
Peraturan menteri Pendidikan dan Kebudayaan Republik Indonesia No. 5 tahun 2015.
Kriteria kelulusan peserta didik mencakup minimal rata-rata nilai dan minimal nilai setiap mata pelajaran yang ditetapkan oleh satuan pendidikan. Nilai
SMPK sebagaimana dimaksud pada ayat 1 dan ayat 2 diperoleh dari gabungan:
a. Rata-rata nilai rapor dengan bobot 50 lima puluh persen sampai dengan 70 tujuh puluh persen:
1. Semester I sampai dengan semester V atau yang setara pada SMPMTs, SMPLB, dan Paket BWustha;
2. Semester III sampai dengan semester V atau yang setara pada SMAMASMAKSMTK, SMALB, SMKMAK, dan Paket C;
3. Semester I sampai dengan semester V atau yang setara bagi SMPMTs dan SMAMASMAKSMTK yang menerapkan sistem SKS.
b. Nilai Ujian SMPK dengan bobot 30 sampai dengan 50 lima puluh persen.
ps. 4. Peraturan menteri Pendidikan dan Kebudayaan Republik Indonesia No. 5 tahun 2015.
Kelulusan peserta didik SMPMTs, SMPLB, SMAMASMAKSMTK, SMALB, SMKMAK ditetapkan oleh setiap satuan pendidikan yang
bersangkutan dalam rapat dewan guru. ps. 5. Peraturan menteri Pendidikan dan Kebudayaan Republik Indonesia No. 5 tahun 2015.
2.3. Konsep Data Mining
2.3.1. Clustering
Konsep cluster yaitu menemukan kumpulan objek hingga objek-objek dalam satu kelompok sama punya hubungan dengan yang lain dan berbeda
tidak berhunungan dengan objek-objek dalam kelompok lain. Tujuan dari analisa cluster adalah meminimalkan jarak didalam cluster dan memaksimalkan
jarak antar cluster. Tidak di perlukan label kelas untuk setiap data yang diproses karena label baru dapat diberikan ketika cluster sudah terbentuk.
Ada beberapa pendekatan yang digunakan dalam metode clustering. Dua pendekatan yang utama adalah clustering dengan pendekatan partisi yang biasa
disebut partition-bassed clustering mengelomokan data dengan memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada. Metode yang menggunakan
partisi salah satunya adalah K-Means. Selain itu juga terdapat pendekatan hierarchical clustering yaitu mengelompokan data dengan membuat suatu hirarki
berupa dendogram dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki berjauhan Prasetyo,2014.
2.3.2. K-Means
K-Means merupakan algoritma pengelompokan iteratif yang melakukan partisi set data ke dalam sejumlah K cluster yang sudah diteteepkan diawal.
Algoritma K-Means sederhana untuk diimplementasikan dan dijalankan, relatif cepat dan mudah beradaptasi.
K-Means dapat diterapkan pada data yang direpresentasikan dalam r- dimensi ruang tempat. K-Means mengelompokan set data r-dimensi, X = {x
1
|i=1, ...,N}, dimana x
i
ϵ Ɽ
d
yang mengatakan bahwa data ke- i sebagai “titik data”. Perlu
diperhatikan titik harus berada dalam cluster yang mana, dilakukan dengan cara memberikan setiap titik sebuah ID cluster. Titik dengan ID yang sama berarti
berada dalam satu cluster yang sama, sedangkan titik dengan ID cluster yang berbeda berada dalam cluster yang berbeda. Dapat dinyatakan dengan vektor
keanggotaan cluster m dengan panjang N dimana m
i
bernilai ID cluster titik x
i
. Parameter yang dimasukan ketika menggunakan algoritma K-Means adalah nilai
K. Nilai K digunakan berdasarkan informasi yang diketahui sebelumnya tentang sebenarnya berapa banyak cluster data yang muncul dalam X.
Dalaam K-Means, setiap cluster dari K cluster diwakili oleh titik tunggal dalam Ɽ
d
. Set representatif cluster dinyatakan C= {c
j
|j=1, ..., K}. Pada saat data sudah dihutung ketidakmiripan terhadap centroid, maka dipilih ketidakmiripan
yang paling kecil sebagai cluster yang akan diikuti sebagai relokasi data pada cluster di sebuah iterasi. Relokasi sebuah data dalam cluster yang diikuti dapat
dinyatakan dengan nilai keanggotaan a yang bernilai 0 atau 1. Jika 0 maka tidak menjadi anggota cluster 1, begitupun sebaliknya. K-Means mengelompokan
secara tegas data hanya pada satu cluster, maka dari nilai a sebuah data pada semua cluster, hanya satu yang bernilai 1, sedangkan lainnya 0 seperti dinyatakan
oleh persamaan berkut: {
..............................................2.1 Di mana:
= nilai keanggotaan i = index data
j = cluster ke j = data
yang masuk ke cluster = ketidakmiripan jarak dari data ke-i ke cluster
. Relokasi centroid untuk mendapatkan titik centroid C didapatkan dengan
menghitung rata-rata setiap fitur dari semua data yang tergantung dalam setiap PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
cluster. Rata-rata sebuah fitur dari semua data dalam sebuah cluster dinyatakan oleh persamaan berikut:
∑
Di mana: = cluster
= anggota cluster ke- k = nilai pusat cluster baru
= banyaknya anggota cluster ke- k
Untuk meminimalkan fungsi objektiffungsi biaya non-negatif dinyatakan oleh persamaan berikut:
∑ ∑ = jumlah cluster
= jumlah data = data ke i
= data yang masuk ke cluster
= ketidakmiripan jarak dari data ke-i ke cluster .
Algoritma K-Means untuk mengelompokan suatu data X sebagai berikut: Prasetyo, 2014
1. Inisiasi: tentukaan nilai K sebagai jumlah cluster yang diinginkan
dan metrik ketidakmiripan jarak yang diinginkan. Jika perlu, tetapkan ambang batas perubahan fungsi objektif dan ambang batas
perubahan posisi centroid. 2.
Pilih K data dari set data X sebagai centroid. 3.
Alokasikan semua data ke centroid terdekat dengan metrik jarak yang sudah ditetapkan memperbaharui cluster ID setiap data
4. Hitung kembali centroid C berdasarkan data yang mengikuti cluster
masing-masing. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5. Ulangi langkah 3 dan 4 hingga kondisi konvergen tercapai, yaitu
a perubahan fungsi objektif sudah dibawah ambang batas yang diinginkan; atau b tidak ada data yang berpindah cluster; atau c
perubahan posisi centroid sudah dibawah ambang batas yang ditetapkan.
2.3.3. Distance Space
Distance space adalah proses penghitungan jarak antara suatu dokumen dengan dokumen lainnya. Euclidean distance adalah salah satu cara untuk
menghitung Distance space. Rumus Euclidean distance dinyatakan pada persamaan berikut:
√ ........2.4
Di mana: = data ke
= data ke j jarak antara data ke i dan data ke j
= nilai atribut ke satu dari data ke i = nilai atribut ke satu dari data ke j
= jumlah atribut yang digunakan Handoyo dkk, 2014.
2.4. Validitas Cluster
2.4.1. Analisis Cluster
Analisis cluster merupakan pemrosesan data secara alami dengan algoritma yang berjalan sendiri sehingga didapatkan kelompok-kelompok yang terbentuk
secara alami pula. Selain parameter-parameter diawal algoritma yang berjalan, tidak ada lagi yang diberikan kepada sistem setelah alggoritma selesai dilakukan.
Pada dasarnya analisis cluster adalah proses penggalian informasi yang sebelumnya tidak ada sehingga seolah-olah menjadi pertanyaan mengapa harus
harus dilakukan evaluasi. Dalam evaluasi cluster terdapat dua metode yaitu metode unsupervised dan
metode supervided. Metode unsupervised untuk mengukur kebagusan struktur cluster tanpa membutuhkan eksternal. Metode unsupervised untuk mengukur
sejauh mana struktur cluster yang ditemukan olehh algoritma clustering cocok dengan struktur eksternal. Metode relatif melakukan perbandingan cluster
menggunakan ukuran evaluasi unsupervised dan supervided. Prasetyo, 2014.
2.4.2. Validitas Internal
Banyak matrik internal yang mengukur validitas cluster pada metode pengelompokan berbasis partisi didasarkan pada nilai kohesi dan separasi. Kohesi
dalam pengelompokan berbasis partisi didefinisikan sebagai jumalh dari kedekatan data terhadap centroid dari cluster yang diikutinya. Sedangkan separasi
di antara dua sluster dapat diukur dengan kedekatan dua prototipe centroid cluster. Prasetyo, 2014..
2.4.3. Silhouette
Ketepatan sebuah pengelompokan menunjukan seberapa baik proses pengelompokan dan kualitas kelompok yang terbentuk. Salah satu ukuran
ketepatan yang dapat digunakan dalam menentukan ketepatan pengelompkan adalah Silhouette Coeficient Muhammad.
Silhouette dapat digunakan untuk memvalidasi baik sebuah data, cluster tunggal satu cluster dari sejumlah cluster, atau keseluruhan cluster. Metode ini
paling banyak digunakan untuk memvalidasi cluster yang menggabungkan nilai kohesi dan separasi. Untuk menghitung nilai SI dari sebuah data ke-i, ada 2
komponen yaitu dan
. adalah rata-rata jarak
data ke- terhadap semua data
lainnya dalam satu cluster, sedangkan b
i
didapatkan dengan menghitung rata-rata jarak data ke-
terhadap semua data dari cluster yang lain tidak dalam satu cluster dengan data ke-
, kemudian diambil yang terkecil. Prasetyo, 2014. Berikut formula untuk menghitung
∑ Di mana:
= cluster = index data
= rata-rata jarak data ke – terhadap semua data lainnya dalam satu
cluster. = jumlah data dalam cluster ke-
. adalah jarak data ke- dengan data ke- dalam suatu cluster .
Berikut adalah formula untuk menghitung {
∑ }
Di mana: = cluster
n = cluster
= index data = jumlah data dalam cluster ke-
. = Nilai terkecil dari rata-rata jarak data ke-
terhadap semua data dari cluster yang lain tidak dalam satu cluster dengan data ke-
. = jarak data ke- dalam cluster j dengan data ke- dalam suatu
cluster .
Prasetyo, 2014. Untuk mendapatkan nilai jumlah Silhouette data ke-
menggunakan persamaan berikut:
{ }
Di mana: = Silhouette data ke i dalam 1 cluster
= Nilai terkecil dari rata-rata jarak data ke- terhadap semua data dari
cluster yang lain tidak dalam satu cluster dengan data ke- .