Pendahuluan Reduct Computation dan Pembentukan Pohon Keputusan

Tabel 2.13 Hasil Proses Hapus MB Untuk Tabel 2.12 a b c d X 4 X 1 1 X 4 X 2 1 1 X 4 X 7 1 1 X 4 X 3 1 1 X 7 X 5 1 1 X 7 X 6 1 1 SUM 2 3 3 4 Reduct 2 : {d} Tabel 2.14 Proses Menghapus Matrik Boolean MB Untuk Tabel 2.13 a b c d X 4 X 1 1 X 4 X 2 1 1 x X 4 X 7 1 1 X 4 X 3 1 1 x X 7 X 5 1 1 x X 7 X 6 1 1 x Tabel 2.15 Hasil Proses Hapus MB Untuk Tabel 2.14 a b c d X 4 X 1 1 X 4 X 7 1 1 SUM 1 2 Reduct 3 : {b} Tabel 2.16 Proses Menghapus Matrik Boolean MB Untuk Tabel 2.15 a b c d X 4 X 1 1 x X 4 X 7 1 1 x Tabel 2.16 Matrik Boolean MB Null a b c d Reduct 1 : {b,c} , Reduct 2: {d} , Reduct 3 :{ b}, HAP= b,c,d 9. Jika MB tidak null, kemudian cetak, HAP secara kasar menjelaskan tentang atribut keputusan. 10. Himpunan Atribut Predominan dikelompokkan dan ditetapkan sebagai hasil reduct. Dalam Reduct Based Decision Tree RDT setelah data melewati proses RCA maka diperoleh dataset yang telah direduksi. Dataset yang telah direduksi merupakan data yang memiliki atribut sesuai dengan anggota dari Himpunan Atribut Predominan HAP. Dataset yang telah direduksi tersebut kemudian dibentuk pohon keputusan. Menurut Ramadevi 2008 langkah-langkah dalam membuat pohon keputusan adalah sebagai berikut. Algoritma RDT input : Data Pelatihan T1; output : Aturan Keputusan: 1. Masukkan data pelatihan T1. 2. Diskretkan atribut yang kontinyu jika ada dan beri nama dataset baru sebagai T2. 3. Hitung reduct dari T2, yaitu R menggunakan RCA. 4. Reduksi T2 berdasarkan reduct R dan beri nama dataset yang telah direduksi sebagai T3. 5. Buat pohon keputusan dari T3 dengan menggunakan reduct R, ambil satu atribut dalam satu waktu dan gunakan atribut tersebut untuk memecah splitting secara breadth first semua nodes dalam level yang sama. 6. Buat aturan keputusan dengan menelusuri semua path dari akar sampai node daun dalam pohon keputusan.

II.6. K-Fold Cross Validation

Dalam penelitian ini metode yang akan digunakan untuk menguji pola klasifikasi yang diperoleh menggunakan metode k-fold cross validation. K-fold cross validation merupakan teknik yang membagi data kedalam k bagian untuk kemudian masing bagian data akan dilakukan proses klasifikasi topik. Dengan menggunakan k-fold cross validation kita dapat melakukan percobaan sebanyak k buah. Tiap percobaan tersebut akan menggunakan satu buah data testing dan k-1 bagian menjadi data training,dan kemudian data testing tersebut akan ditukar dengan satu buah data training sehingga untuk setiap percobaan akan didapatkan testing yang berbeda-beda. Data training yaitu data yang akan dipakai dalam melakukan pembelajaran untuk memperoleh pola klasifikasi. Sedangkan data testing yaitu data yang akan digunakan untuk pengujian akurasi dari hasil pembelajaran tersebut. Pada k-fold cross validation untuk pengukuran keakurasian dapat dihitung dengan cara seluruh jumlah klasifikasi yang benar dari k iterasi, dibagi dengan seluruh data.

II.7. Mengukur Tingkat Keakuratan Penggolong Classifier

Keakuratan penggolong dapat diukur dari data uji. Keakuratan penggolong jika diberikan data uji adalah persentasi dari dari tuple data uji yang telah diprediksi dengan benar oleh penggolong. Confusion matrix adalah alat yang berguna untuk menganalisis sebagus apa sebuah penggolong dapat mengenal tuple dari kelas-kelas yang berbeda. Jika ada m kelas, maka confusion matrix adalah tabel yang berukuran m x m. CMi, j adalah inputan pada baris m yang pertama dan kolom m yang pertama. CMi, j menunjukkan jumlah tuple dari kelas i yang sudah dilabeli oleh penggolong sebagai kelas j. Tabel 2.19 confusion matrix Jika diberikan dua kelas, ada terminologi tuple positif dan tuple negatif. Benar positif merujuk pada tuple positif yang dilabeli oleh penggolong secara benar. Benar negatif merujuk pada tuple negatif yang dilabeli oleh penggolong secara benar. Salah positif merujuk pada tuple negatif yang dilabeli dengan tidak benar. Maka, Salah negatif merujuk pada tuple positif yang dilebeli dengan tidak benar. Sensitivitas sensitivity juga merujuk pada angka benar positif. Angka benar positif adalah ukuran dari tuple positif yang diidentifikasi dengan benar. Spesifikasi specificity merujuk pada angka benar negatif. Angka benar negatif adalah ukuran dari tuple negatif yang diidentifikasi dengan benar. Sebagai tambahan, diperlukan perhitungan ketelitian precision untuk mendapatkan persentasi dari tuple yang dilabeli sebagai „a‟ yang sebenarnya adalah „a‟. .....................................................2.10 .....................................................2.11 .....................................................2.12 Dimana : t_pos adalah jumlah benar positif. pos adalah jumlah tuple positif. t_neg adalah jumlah benar negatif. neg adalah jumlah tuple negatif. f_pos adalah jumlah salah positif. Dengan demikian untuk menghitung keakuratan sebuah penggolong adalah .. ….2.13

II.8. Perkiraan Interval

Dalam penelitian ini sebelum data melalui proses penambangan data diperlukan proses transformasi terhadap data nilai tes Penerimaan Mahasiswa Baru PMB jalur reguler agar mudah mudah dikelola. Transformasi data untuk setiap nilai tes PMB jalur reguler menggunakan aturan perkiraan interval dengan rumus sebagai berikut Supranto, 1992 : n σ Z X n σ Z X α α 2 2      Keterangan : X = rata – rata dari nilai tiap atribut σ = nilai standard deviasi 2 α Z = nilai galat standar koefisien reliabilitas n = jumlah data Dalam penelitian ini diasumsikan selang kepercayaannya adalah 95 jadi didapatkan untuk nilai  adalah 5 didapatkan dari : 100 - selang kepercayaan. Jadi didapatkan nilai 2 α Z adalah 1,96. Nilai tersebut didapatkan dari tabel normal Z negative z. Setelah nilai galat standar didapatkan maka dapat dibentuk aturan empat interval, masing - masing dinyatakan dalam huruf D, C, B dan A : 1. Interval D jika nilai X - 1.96 σ n 2. Interval C jika X - 1.96 σ n ≤ nilai X 3. Interval B jika X ≤ nilai X + 1.96 σ n 4. Interval A jika nilai ≥ X + 1.96 σ n ...............…2.14 32

BAB III ANALISIS DAN PERANCANGAN

III.1. Identifikasi Sistem Dalam penelitian ini akan dibangun sistem yang mampu mengenali pola klasifikasi mahasiswa yang terkena sisip program dan mampu menghitung kinerja akurasi dan kecepatan komputasi dalam membangun pola klasifikasi tersebut berdasarkan data Penerimaan Mahasiswa Baru PMB jalur reguler. Algoritma yang akan digunakan dalam membangun sistem ini adalah Reduct Based Decision Tree RDT. Masukan dari sistem ini berupa data PMB Universitas Sanata Dharma USD jalur reguler dengan format File berupa .csv. Sistem akan memproses masukan tersebut menggunakan algoritma RDT untuk menghasilkan suatu pola klasifikasi. III.2. Analisis Sistem III.2.1 Analisis Data Awal Dalam penelitian ini data yang akan digunakan adalah data PMB jalur reguler USD tahun 2007 – 2009. Data PMB didapat dari BAPSI Universitas Sanata Dhrama. Data tersebut berupa file dengan format .xml Document yang terdiri dari 2506 record dengan atribut seperti pada tabel 3.1 berikut ini: Tabel 3.1 Daftar atribut data PMB jalur reguler. Nama atribut Keterangan Tahun Tahun angkatan mahasiswa ProgramStudi Program studi mahasiswa JenisKelamin JK Jenis kelamin mahasiswa AsalKabupaten AK Asal kabupaten mahasiswa pv Nilai penalaran verbal kn Nilai kemampuan numerik pm Nilai penalaran mekanik hr Nilai hubungan ruang bi Nilai bahasa inggris pilihan P Pilihan program studi yang diterima dari hasil tes PMB Gelombang G Gelombang pendaftaran saat tes PMB JenisSMA JS Jenis jurusan SMA mahasiswa AsalSMA AS Asal SMA mahasiswa KeteranganSMA KS Keterangan SMA negeriswasta AsalKabupatenSMA AKS Asal kabupaten SMA mahasiswa Contoh data PMB jalur reguler USD tahun 2007 – 2009 yang akan digunakan dalam penelitian ini akan dijabarkan pada tabel 3.2.