Knowledge Discovery in Database KDD

b. Nilai Ujian SMPK dengan bobot 30 sampai dengan 50 lima puluh persen. ps. 4. Peraturan menteri Pendidikan dan Kebudayaan Republik Indonesia No. 5 tahun 2015. Kelulusan peserta didik SMPMTs, SMPLB, SMAMASMAKSMTK, SMALB, SMKMAK ditetapkan oleh setiap satuan pendidikan yang bersangkutan dalam rapat dewan guru. ps. 5. Peraturan menteri Pendidikan dan Kebudayaan Republik Indonesia No. 5 tahun 2015.

2.3. Konsep Data Mining

2.3.1. Clustering

Konsep cluster yaitu menemukan kumpulan objek hingga objek-objek dalam satu kelompok sama punya hubungan dengan yang lain dan berbeda tidak berhunungan dengan objek-objek dalam kelompok lain. Tujuan dari analisa cluster adalah meminimalkan jarak didalam cluster dan memaksimalkan jarak antar cluster. Tidak di perlukan label kelas untuk setiap data yang diproses karena label baru dapat diberikan ketika cluster sudah terbentuk. Ada beberapa pendekatan yang digunakan dalam metode clustering. Dua pendekatan yang utama adalah clustering dengan pendekatan partisi yang biasa disebut partition-bassed clustering mengelomokan data dengan memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada. Metode yang menggunakan partisi salah satunya adalah K-Means. Selain itu juga terdapat pendekatan hierarchical clustering yaitu mengelompokan data dengan membuat suatu hirarki berupa dendogram dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki berjauhan Prasetyo,2014.

2.3.2. K-Means

K-Means merupakan algoritma pengelompokan iteratif yang melakukan partisi set data ke dalam sejumlah K cluster yang sudah diteteepkan diawal. Algoritma K-Means sederhana untuk diimplementasikan dan dijalankan, relatif cepat dan mudah beradaptasi. K-Means dapat diterapkan pada data yang direpresentasikan dalam r- dimensi ruang tempat. K-Means mengelompokan set data r-dimensi, X = {x 1 |i=1, ...,N}, dimana x i ϵ Ɽ d yang mengatakan bahwa data ke- i sebagai “titik data”. Perlu diperhatikan titik harus berada dalam cluster yang mana, dilakukan dengan cara memberikan setiap titik sebuah ID cluster. Titik dengan ID yang sama berarti berada dalam satu cluster yang sama, sedangkan titik dengan ID cluster yang berbeda berada dalam cluster yang berbeda. Dapat dinyatakan dengan vektor keanggotaan cluster m dengan panjang N dimana m i bernilai ID cluster titik x i . Parameter yang dimasukan ketika menggunakan algoritma K-Means adalah nilai K. Nilai K digunakan berdasarkan informasi yang diketahui sebelumnya tentang sebenarnya berapa banyak cluster data yang muncul dalam X. Dalaam K-Means, setiap cluster dari K cluster diwakili oleh titik tunggal dalam Ɽ d . Set representatif cluster dinyatakan C= {c j |j=1, ..., K}. Pada saat data sudah dihutung ketidakmiripan terhadap centroid, maka dipilih ketidakmiripan yang paling kecil sebagai cluster yang akan diikuti sebagai relokasi data pada cluster di sebuah iterasi. Relokasi sebuah data dalam cluster yang diikuti dapat dinyatakan dengan nilai keanggotaan a yang bernilai 0 atau 1. Jika 0 maka tidak menjadi anggota cluster 1, begitupun sebaliknya. K-Means mengelompokan secara tegas data hanya pada satu cluster, maka dari nilai a sebuah data pada semua cluster, hanya satu yang bernilai 1, sedangkan lainnya 0 seperti dinyatakan oleh persamaan berkut: { ..............................................2.1 Di mana: = nilai keanggotaan i = index data j = cluster ke j = data yang masuk ke cluster = ketidakmiripan jarak dari data ke-i ke cluster . Relokasi centroid untuk mendapatkan titik centroid C didapatkan dengan menghitung rata-rata setiap fitur dari semua data yang tergantung dalam setiap PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI cluster. Rata-rata sebuah fitur dari semua data dalam sebuah cluster dinyatakan oleh persamaan berikut: ∑ Di mana: = cluster = anggota cluster ke- k = nilai pusat cluster baru = banyaknya anggota cluster ke- k Untuk meminimalkan fungsi objektiffungsi biaya non-negatif dinyatakan oleh persamaan berikut: ∑ ∑ = jumlah cluster = jumlah data = data ke i = data yang masuk ke cluster = ketidakmiripan jarak dari data ke-i ke cluster . Algoritma K-Means untuk mengelompokan suatu data X sebagai berikut: Prasetyo, 2014 1. Inisiasi: tentukaan nilai K sebagai jumlah cluster yang diinginkan dan metrik ketidakmiripan jarak yang diinginkan. Jika perlu, tetapkan ambang batas perubahan fungsi objektif dan ambang batas perubahan posisi centroid. 2. Pilih K data dari set data X sebagai centroid. 3. Alokasikan semua data ke centroid terdekat dengan metrik jarak yang sudah ditetapkan memperbaharui cluster ID setiap data 4. Hitung kembali centroid C berdasarkan data yang mengikuti cluster masing-masing. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI