Contoh Penerapan Algoritma TINJAUAN PUSTAKA

Tabel 2.9 Boolean matriks dengan maksimal b dan c atribut a b c d X 4 X 1 1 X 4 X 2 1 1 X 4 X 7 1 1 X 4 X 3 1 1 X 4 X 5 1 1 1 1 X 4 X 6 1 1 1 1 X 1 X 3 1 1 1 X 1 X 5 1 1 1 1 X 1 X 6 1 1 1 1 X 2 X 3 1 1 X 2 X 5 1 1 1 X 2 X 6 1 1 1 X 7 X 3 1 1 1 1 X 7 X 5 1 1 X 7 X 6 1 1 SUM 8 12 12 10 {b, c} Selanjutnya setiap atribut „b‟ dan „c‟ yang bernila satu akan dihapus, sehingga hasilnya menjadi seperti tabel 2.10 dan 2.11 dibawah ini. Tabel 2.10 Boolean matrix yang nilai atribut b dan c adalah 1 dihapus a b c d X 4 X 1 1 X 4 X 2 1 1 X 4 X 7 1 1 X 4 X 3 1 1 X 4 X 5 1 1 1 1 x X 4 X 6 1 1 1 1 x X 1 X 3 1 1 1 x X 1 X 5 1 1 1 1 x X 1 X 6 1 1 1 1 x X 2 X 3 1 1 x X 2 X 5 1 1 1 x X 2 X 6 1 1 1 x X 7 X 3 1 1 1 1 x X 7 X 5 1 1 X 7 X 6 1 1 Mencari lagi atribut yang paling maksimal untuk ditambahkan kedalam SPA nya. Tabel 2.11 Boolean matriks hasil penghapusan a b c d X 4 X 1 1 X 4 X 2 1 1 X 4 X 7 1 1 X 4 X 3 1 1 X 7 X 5 1 1 X 7 X 6 1 1 SUM 1 3 3 4 {d} Lakukan lagi penghapusan, pada atribut maksimal yang nilainya adalah „1‟. Pada table 2.12 dibawah ini, hapus matrik Boolean yang nilai atribut “d” nya adalah satu. Baris yang harus dihapus adalah pasangan objek X4X2,X4X3,X7X5 dan X7X6. Hasil penghapusan baris ini bias dilihat pada table 2.13. Tabel 2.12 Boolean matriks hapus nilai atribut d adalah 1 a b c d X 4 X 1 1 X 4 X 2 1 1 x X 4 X 7 1 1 X 4 X 3 1 1 x X 7 X 5 1 1 x X 7 X 6 1 1 x Tabel 2.13 Boolean matriks hasil penghapusan dan maksimal nya menjadi 2 a b c d X 4 X 1 1 X 4 X 7 1 1 SUM 1 2 {b} Masih pada table 2.13, setelah baris dihapus pada table 2.12, hitung kembali nilai maksimal dari matrik boolean. Tabel 2.14 Boolean matriks hapus yang nilai b adalah 1 a b c d X 4 X 1 1 x X 4 X 7 1 1 x Reduct : {b,c}, {d}, {b} Jadi reduct atau SPA yang didapatkan dari tabel 2.2 diatas adalah {b,c}, {d}, {b}. Core nya adalah ‘b’. Ada beberapa algoritmanpohon keputusan, salah satunya adalah C4.5. C4.5 merupakan pengembangan dari dari algoritma ID3 Iterative Dichotomiser 3 , oleh karena itu C4.5 membuat pohon keputusan mempunyai langkah-langkah yang sama seperti pada ID3. ID3 sendiri dikembangkan oleh J. Ross Quinlan. Sedangkan pada perangkat lunak open source WEKA mempunyai versi sendiri yang dikenal sebagai J48. Gambar 2.5 Algoritma C4.5 Sumber : Said, 2006 Untuk memilih atribut sebagai akar, dipilih atribut yang menghasilkan simpul yang paling “purest” paling bersih. Kalau dalam satu cabang anggotanya berasal dari satu kelas maka cabang ini disebut pure. Semakin pure suatu cabang semakin baik. Ukuran purity dinyatakan dengan tingkat impurity. Salah satu criteria impurity adalah information gain. Jadi dalam memilih atribut untuk untuk memecah obyek dalam beberapa kelas harus dipilih atibut yang menghasilkan information gain paling besar. Pohon dibangun dengan cara membagi data secara rekursif hingga tiap bagian terdiri dari data yang berasal dari kelas yang sama. Bentuk pemecahan split yang digunakan untuk membagi data tergantung dari jenis atribut yang digunakan dalam split. Algoritma C4.5 dapat menangani data numerik kontinyu dan diskret. Split untuk atribut numerik yaitu mengurutkan contoh berdasarkan atribut kontiyu A, kemudian membentuk ambang batas threshold M dari contoh- contoh yang ada dari kelas mayoritas pada setiap partisi yang bersebelahan, lalu menggabungkan partisi-partisi yang bersebelahan tersebut dengan kelas mayoritas yang sama. Split untuk atribut diskret A mempunyai bentuk value A ε X, dimana X ⊂ domainA. Untuk melakukan pemisahan obyek split dilakukan tes terhadap atribut dengan mengukur tingkat ketidakmurnian pada sebuah simpul node. Pada algoritma C4.5 digunakan rasio perolehan gain ratio. Sebelum menghitung rasio perolehan, perlu menghitung dulu nilai informasi dalam satuan bits dari suatu kumpulan objek. Cara menghitungnya dilakukan dengan menggunakan konsep entropi. …………2.3 S : ruang data sampel yang digunakan untuk pelatihan p + : jumlah yang bersolusi positif mendukung pada data sampel untuk kriteria tertentu p - : jumlah yang bersolusi negatif tidak mendukung pada data sampel untuk kriteria tertentu. Catatan : 1. EntropiS = 0, jika semua contoh pada S berada dalam kelas yang sama. 2. EntropiS = 1, jika jumlah contoh positif dan negatif dalam S adalah sama. 3. 0 EntropiS 1, jika jumlah contoh positif dan negatif dalam S tidak sama. Entropi split yang membagi S dengan n record menjadi himpunan- himpunan S 1 dengan n 1 baris dan S 2 dengan n 2 baris adalah : …………2.4 Kemudian menghitung perolehan informasi dari output data atau variabel dependent y yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain y,A. Perolehan informasi, gain y,A, dari atribut A relatif terhadap output data y adalah: …2.5 Nilai A adalah semua nilai yang mungkin dari atribut A, dan yc adalah subset dari y dimana A mempunyai nilai c. Term pertama dalam persamaan di atas adalah entropi total y dan term kedua adalah entropi sesudah dilakukan pemisahan data berdasarkan atribut A. Untuk menghitung rasio perolehan perlu diketahui suatu term baru yang disebut pemisahan informasi Split Info. Pemisahan informasi dihitung dengan cara : …2.6 bahwa S1 sampai Sc adalah c subset yang dihasilkan dari pemecahan S dengan menggunakan atribut A yang mempunyai sebanyak c nilai. Selanjutnya rasio perolehan gain ratio dihitung dengan cara : …2.7

2.8 Cross Validation

Dalam k-fold Cross Validation, data akan dipartisi secara acak ke dalam k subset yang saling eksklusif satu sama lain atau disebut “folds,” D 1 , D 2 , …D k , setiap folds mempunyai jumlah yang sama. Pelatihan dan pengujian dilakukan sebanyak k kali. Pada iterasi ke – i partisi D i digunakan sebagai data uji, sedangkan sisa partisi lainnya digunakan sebagai data pelatihan. Maka dari itu pada iterasi pertama, D1 digunakan sebagai data uji dan D 2 , D 3 , ….D k digunakan sebagai data pelatihan. Pada iterasi kedua, D 2 digunakan sebagai data uji, sedangakan D 1 , D 3 , ….D k digunakan sebagai data pelatihan. Pada iterasi ketiga,D 3 digunakan sebagai data uji, sedangkan D 1 , D 2 , …D k digunakan sebagai data pelatihan dan seterusnya.

BAB III ANALISIS DAN DESAIN

3.1 Identifikasi Sistem

Setiap pergantian tahun akademik baru, Universitas Sanata Dharma selalu melakukan Penerimaan Mahasiswa baru PMB. Setiap calon mahasiswa baru ini yang bukan melewati jalur prestasi harus melakukan serangkaian test tertulis terlebih dahulu. Calon mahasiswa yang diterima belum tentu semuanya melakukan daftar ulang. Untuk kasus seperti itulah Ketua Program Studi perlu mengenali pola status registrasi calon mahasiswa dan melakukan prediksi status registrasi calon mahasiswa yang telah diterima dan menghitung jumlah calon mahasiswa yang diprediksi akan mendaftar ulang. Masalah tersebut dapat diatasi dengan menggunakan metode penambangan data, karena dengan penambangan data bisa dikenali karakteristik mahasiswa yang tidak melakukan daftar ulang. Sistem yang akan dibangun dalam penelitian ini adalah sistem yang mampu mengenali karakteristik status registrasi atau daftar ulang calon mahasiswa dari data yang tersedia. Data-data mahasiswa diambil dari data pendaftaran mahasiswa baru mulai dari angkatan tahun 2007 sampai dengan 2010. Data masukan berupa file dengan format .csv, yang nantinya akan disimpan di database . Selanjutnya sistem akan memproses masukan tersebut dengan menggunakan algoritma RDT yang nantinya akan menghasilkan suatu pola klasifikasi. Dengan ditemukannya pola tersebut, maka sistem akan mampu melakukan prediksi dari masukan data mahasiswa baru, mahasiswa mana yang mungkin tidak melakukan daftar ulang sehingga bisa menjadi pertimbangan bagi kaprodi. Data-data yang dipergunakan dalam penelitian ini adalah data-data calon mahasiswa baru dari angkatan tahun 2007 sampai dengan angkatan tahun 2010. Data ini mencakup seluruh program studi yang ada di Universitas Sanata Dharma, yang diperoleh dari Biro Administrasi dan Perencanaan Sistem Informasi BAPSI Universitas Sanata Dharma Yogyakarta. 30 3.2 Analisis Sistem 3.2.1 Analisis Data Awal Data pendaftaran calon mahasiswa yang diperoleh dari BAPSI terdiri dari empat data file dengan eksistensi .xml. Jumlah record dari keseluruhan data tersebut adalah 8589, dengan atribut-atribut yang dimiliki seperti pada table 3.1 berikut : Tabel 3.1 Data Awal Nama atribut Keterangan Nilai atribut Nama_Gelombang Kategori gelombang saat calon mahasiswa melakukan pendaftaran Gelombang_1 Gelombang_2 Gelombang_3 Pilihan_1 Jurusan pertama atau program studi yang dipilih mahasiswa saat melakukan pendaftaran Semua program studi di Universitas Sanata Dharma Pilihan_2 Jurusan pertama atau program studi yang dipilih mahasiswa saat melakukan pendaftaran Semua program studi di Universitas Sanata Dharma Pilihan_3 Jurusan pertama atau program studi yang dipilih mahasiswa saat melakukan pendaftaran Semua program studi di Universitas Sanata Dharma Jenis_Kelamin Jenis Kelamin calon mahasiswa Laki-laki Perempuan KabAsal Kabupaten tempat calon mahasiswa berasal Kabupaten Asal Indonesia KabSek Kabupaten tempat calon sekola mahasiswa berasal Kabupaten Asal Indonesia Jenis_SMU Jurusan yang dipilih oleh calon mahasiswa pada waktu SMASMKSederajat IPA IPS SMF SMEA STM BUDAYA SPG_SGO Diterima_Di Program studi tempat calon mahasiswa diterima Semua program studi di Universitas Sanata Dharma Penalaran_Verbal Hasil test penalaran verbal mahasiswa 1-4 Penalaran_Numerik Hasil test penalaran mekanik mahasiswa 1-4 Penalaran_Mekanik Hasil test penalaran mekanik 1-4

Dokumen yang terkait

Implementasi algoritma reduct based decision tree untuk mengenali pola klasifikasi mahasiswa yang terkena sisip program.

0 1 229

Pencarian karakteristik calon mahasiswa baru Universitas Sanata Dharma yang tidak mendaftar ulang dengan menggunakan algoritma pohon.

0 0 125

MANAJEMEN WAKTU MAHASISWA TERHADAP KURIK

0 1 17

Pencarian karakteristik calon mahasiswa baru Universitas Sanata Dharma yang tidak mendaftar ulang dengan menggunakan algoritma pohon - USD Repository

0 0 123

Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi akademik mahasiswa Jurusan Teknik Informatika Universitas Sanata Dharma dengan menggunakan algoritma naive bayesian - USD Repository

0 1 145

Pencarian pola klasifikasi mahasiswa yang tidak memenuhi sisip program berdasarkan nilai tes masuk penerimaan mahasiswa baru dan latar belakang mahasiswa Universitas Sanata Dharma dengan menggunakan algoritma C4.5 - USD Repository

0 0 175

Prediksi calon mahasiswa baru Universitas Sanata Dharma yang tidak mendaftar ulang menggunakan algoritma Naive Bayessian - USD Repository

0 0 119

Pengenalan pola klasifikasi status registrasi calon mahasiswa baru Universitas Sanata Dharma dengan algoritma Reduct Based Decision Tree (RDT) - USD Repository

0 1 151

Pencarian pola klasifikasi karya pengembangan profesi guru berdasarkan data sertifikasi guru dengan algoritma Reduct Based Decision Tree (RDT) - USD Repository

0 0 231

Implementasi algoritma reduct based decision tree untuk mengenali pola klasifikasi mahasiswa yang terkena sisip program - USD Repository

0 0 227