Tabel 2.13 Hasil Proses Hapus MB Untuk Tabel 2.12 a
b c
d X
4
X
1
1
X
4
X
2
1 1
X
4
X
7
1 1
X
4
X
3
1 1
X
7
X
5
1 1
X
7
X
6
1 1
SUM
2 3
3 4
Reduct 2 : {d}
Tabel 2.14 Proses Menghapus Matrik Boolean MB Untuk Tabel 2.13 a
b c
d X
4
X
1
1
X
4
X
2
1 1
x
X
4
X
7
1 1
X
4
X
3
1 1
x
X
7
X
5
1 1
x
X
7
X
6
1 1
x
Tabel 2.15 Hasil Proses Hapus MB Untuk Tabel 2.14 a
b c
d X
4
X
1
1
X
4
X
7
1 1
SUM
1 2
Reduct 3 : {b}
Tabel 2.16 Proses Menghapus Matrik Boolean MB Untuk Tabel 2.15 a
b c
d X
4
X
1
1 x
X
4
X
7
1 1
x
Tabel 2.16 Matrik Boolean MB Null
a b
c d
Reduct 1 : {b,c} , Reduct 2: {d} , Reduct 3 :{ b}, HAP= b,c,d
9. Jika MB tidak null, kemudian cetak, HAP secara kasar
menjelaskan tentang atribut keputusan. 10.
Himpunan Atribut Predominan dikelompokkan dan ditetapkan sebagai hasil reduct.
Dalam Reduct Based Decision Tree RDT setelah data melewati proses RCA maka diperoleh dataset yang telah direduksi. Dataset yang telah direduksi
merupakan data yang memiliki atribut sesuai dengan anggota dari Himpunan Atribut Predominan HAP. Dataset yang telah direduksi tersebut kemudian
dibentuk pohon keputusan. Menurut Ramadevi 2008 langkah-langkah dalam membuat pohon keputusan adalah sebagai berikut.
Algoritma RDT input : Data Pelatihan T1; output : Aturan Keputusan: 1.
Masukkan data pelatihan T1. 2.
Diskretkan atribut yang kontinyu jika ada dan beri nama dataset baru sebagai T2.
3. Hitung reduct dari T2, yaitu R menggunakan RCA.
4. Reduksi T2 berdasarkan reduct R dan beri nama dataset yang telah
direduksi sebagai T3.
5. Buat pohon keputusan dari T3 dengan menggunakan reduct R, ambil satu
atribut dalam satu waktu dan gunakan atribut tersebut untuk memecah splitting secara breadth first semua nodes dalam level yang sama.
6. Buat aturan keputusan dengan menelusuri semua path dari akar sampai
node daun dalam pohon keputusan.
II.6. K-Fold Cross Validation
Dalam penelitian ini metode yang akan digunakan untuk menguji pola klasifikasi yang diperoleh menggunakan metode k-fold cross validation. K-fold
cross validation merupakan teknik yang membagi data kedalam k bagian untuk kemudian masing bagian data akan dilakukan proses klasifikasi topik. Dengan
menggunakan k-fold cross validation kita dapat melakukan percobaan sebanyak k buah. Tiap percobaan tersebut akan menggunakan satu buah data testing dan k-1
bagian menjadi data training,dan kemudian data testing tersebut akan ditukar dengan satu buah data training sehingga untuk setiap percobaan akan didapatkan
testing yang berbeda-beda. Data training yaitu data yang akan dipakai dalam melakukan pembelajaran untuk memperoleh pola klasifikasi. Sedangkan data
testing yaitu data yang akan digunakan untuk pengujian akurasi dari hasil pembelajaran tersebut. Pada k-fold cross validation untuk pengukuran keakurasian
dapat dihitung dengan cara seluruh jumlah klasifikasi yang benar dari k iterasi, dibagi dengan seluruh data.
II.7. Mengukur Tingkat Keakuratan Penggolong Classifier
Keakuratan penggolong dapat diukur dari data uji. Keakuratan penggolong jika diberikan data uji adalah persentasi dari dari tuple data uji yang telah
diprediksi dengan benar oleh penggolong. Confusion matrix adalah alat yang berguna untuk menganalisis sebagus apa sebuah penggolong dapat mengenal
tuple dari kelas-kelas yang berbeda. Jika ada m kelas, maka confusion matrix adalah tabel yang berukuran m x m. CMi, j adalah inputan pada baris m yang
pertama dan kolom m yang pertama. CMi, j menunjukkan jumlah tuple dari kelas i yang sudah dilabeli oleh penggolong sebagai kelas j.
Tabel 2.19 confusion matrix
Jika diberikan dua kelas, ada terminologi tuple positif dan tuple negatif. Benar positif merujuk pada tuple positif yang dilabeli oleh penggolong secara
benar. Benar negatif merujuk pada tuple negatif yang dilabeli oleh penggolong secara benar. Salah positif merujuk pada tuple negatif yang dilabeli dengan tidak
benar. Maka, Salah negatif merujuk pada tuple positif yang dilebeli dengan tidak benar. Sensitivitas sensitivity juga merujuk pada angka benar positif. Angka
benar positif adalah ukuran dari tuple positif yang diidentifikasi dengan benar. Spesifikasi specificity merujuk pada angka benar negatif. Angka benar negatif
adalah ukuran dari tuple negatif yang diidentifikasi dengan benar. Sebagai tambahan, diperlukan perhitungan ketelitian precision untuk mendapatkan
persentasi dari tuple yang dilabeli sebagai „a‟ yang sebenarnya adalah „a‟.
.....................................................2.10 .....................................................2.11
.....................................................2.12
Dimana : t_pos adalah jumlah benar positif.
pos adalah jumlah tuple positif. t_neg adalah jumlah benar negatif.
neg adalah jumlah tuple negatif. f_pos adalah jumlah salah positif.
Dengan demikian untuk menghitung keakuratan sebuah penggolong adalah
.. ….2.13
II.8. Perkiraan Interval
Dalam penelitian ini sebelum data melalui proses penambangan data diperlukan proses transformasi terhadap data nilai tes Penerimaan Mahasiswa
Baru PMB jalur reguler agar mudah mudah dikelola. Transformasi data untuk setiap nilai tes PMB jalur reguler menggunakan aturan perkiraan interval dengan
rumus sebagai berikut Supranto, 1992 : n
σ Z
X n
σ Z
X
α α
2 2
Keterangan : X
= rata – rata dari nilai tiap atribut
σ = nilai standard deviasi
2 α
Z
= nilai galat standar koefisien reliabilitas n
= jumlah data
Dalam penelitian ini diasumsikan selang kepercayaannya adalah 95 jadi didapatkan untuk nilai
adalah 5 didapatkan dari : 100 - selang kepercayaan. Jadi didapatkan nilai
2 α
Z
adalah 1,96. Nilai tersebut didapatkan dari tabel normal Z negative z. Setelah nilai galat standar didapatkan maka dapat
dibentuk aturan empat interval, masing - masing dinyatakan dalam huruf D, C, B dan A :
1. Interval D jika nilai X -
1.96 σ n 2.
Interval C jika X - 1.96 σ n
≤ nilai X 3.
Interval B jika X ≤ nilai X + 1.96 σ n 4.
Interval A jika nilai ≥ X + 1.96 σ n
...............…2.14
32
BAB III ANALISIS DAN PERANCANGAN
III.1. Identifikasi Sistem
Dalam penelitian ini akan dibangun sistem yang mampu mengenali pola klasifikasi mahasiswa yang terkena sisip program dan mampu menghitung kinerja
akurasi dan kecepatan komputasi dalam membangun pola klasifikasi tersebut berdasarkan data Penerimaan Mahasiswa Baru PMB jalur reguler. Algoritma
yang akan digunakan dalam membangun sistem ini adalah Reduct Based Decision Tree RDT. Masukan dari sistem ini berupa data PMB Universitas Sanata
Dharma USD jalur reguler dengan format File berupa .csv. Sistem akan memproses masukan tersebut menggunakan algoritma RDT untuk menghasilkan
suatu pola klasifikasi.
III.2. Analisis Sistem
III.2.1 Analisis Data Awal
Dalam penelitian ini data yang akan digunakan adalah data PMB jalur reguler USD tahun 2007
– 2009. Data PMB didapat dari BAPSI Universitas Sanata Dhrama. Data tersebut berupa file dengan format .xml Document yang
terdiri dari 2506 record dengan atribut seperti pada tabel 3.1 berikut ini:
Tabel 3.1 Daftar atribut data PMB jalur reguler.
Nama atribut Keterangan
Tahun Tahun angkatan mahasiswa
ProgramStudi Program studi mahasiswa
JenisKelamin JK Jenis kelamin mahasiswa
AsalKabupaten AK Asal kabupaten mahasiswa
pv Nilai penalaran verbal
kn Nilai kemampuan numerik
pm Nilai penalaran mekanik
hr Nilai hubungan ruang
bi Nilai bahasa inggris
pilihan P Pilihan program studi yang diterima
dari hasil tes PMB Gelombang G
Gelombang pendaftaran saat tes PMB JenisSMA JS
Jenis jurusan SMA mahasiswa AsalSMA AS
Asal SMA mahasiswa KeteranganSMA KS
Keterangan SMA negeriswasta AsalKabupatenSMA AKS
Asal kabupaten SMA mahasiswa
Contoh data PMB jalur reguler USD tahun 2007 – 2009 yang akan
digunakan dalam penelitian ini akan dijabarkan pada tabel 3.2.