Implementasi algoritma reduct based decision tree untuk mengenali pola klasifikasi mahasiswa yang terkena sisip program - USD Repository

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

IMPLEMENTASI ALGORITMA REDUCT BASED DECISION TREE UNTUK
MENGENALI POLA KLASIFIKASI MAHASISWA YANG TERKENA SISIP
PROGRAM

Skripsi

Diajukan untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika

Oleh:
Hariyo Koco
NIM : 075314005

PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2012


i

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

IMPLEMENTATION OF REDUCT BASED DECISION TREE ALGORITHM TO
IDENTIFY DROP OUT STUDENTS
A Thesis
Presented as Partial Fullfillment of the Requirements
To Obtain the Sarjana Komputer Degree
In Informatics Engineering Study Program

By:
Hariyo Koco
NIM : 075314005

INFORMATICS ENGINEERING STUDY PROGRAM
DEPARTMENTS OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA

2012

ii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

HALAMAN PERSEMBAHAN

“ KEGAGALAN BUKANLAH HAL YANG MEMBUAT SAYA
MENYERAH UNTUK MERAIH MIMPI TETAPI
MERUPAKAN SEBUAH MOTIVASI UNTUK DAPAT
BANGKIT KEMBALI MERAIH MIMPI “

SEMANGAT !!!!!

KEBERHASILAN Skripsi ini aku persembahkan untuk ....


Tuhan Yesus Kristus , atas Bantuan, Persetujuan dan berkatNya
Bunda Maria, atas rahmatNya yang diberikan berlimpah kepadaku
Semua Keluargaku , Sahabat , dan Teman-teman, atas dukungan dan
doa yang telah mereka berikan kepadaku.

--- Terimakasih Untuk Semuanya --v

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ABSTRAK

Algoritma Reduct Based Decision Tree (RDT) adalah salah satu algoritma
penambangan data yang dapat digunakan untuk menemukan pola klasifikasi dari
data yang berjumlah besar. Algoritma ini mengkombinasikan teori himpunan
kasar dan algoritma pohon keputusan. Tujuan dari penelitian ini adalah mengenali
pola klasifikasi mahasiswa yang terkena sisip program. Pada penelitian ini
algoritma RDT digunakan untuk menemukan pola klasifikasi mahasiswa yang

diperkirakan terkena sisip program. Data yang digunakan dalam penelitian ini
adalah data PMB Universitas Sanata Dharma (USD) Yogyakarta jalur reguler
tahun 2007- 2009 dengan jumlah data sebanyak 2436 record. Komponen data
PMB tersebut meliputi jenis kelamin, asal kabupaten, asal sekolah, asal kabupaten
sekolah, nilai penaralan verbal, nilai kemampuan numerik, nilai penalaran
mekanik, nilai hubungan ruang, nilai bahasa inggris, prioritas pilihan program
studi, dan gelombang masuk. Penelitian ini menghasilkan 1258 pola klasifikasi.
Dari pola yang dihasilkan ternyata mahasiswa yang berasal dari Mimika lebih
banyak mengalami sisip program. Sistem yang dibangun telah diuji dengan
menggunakan teknik 10-fold cross validation dan menghasilkan akurasi sebesar
56.527096 %.

Kata kunci : Penambangan data , Sisip program, Reduct Based Decision Tree

vii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ABSTRACT


Reduct algorithm Based Decision Tree (RDT) is one of data mining
algorithms that can be used to discover the pattern classification of large amounts
of data. This algorithm combines the rough set theory and decision tree
algorithm. The purpose of this study is to identify drop out student in Sanata
Dharma University by implementing the RDT algorithm. The data used in this
research is the student admission data of Sanata Dharma University (SDU)
Yogyakarta through regular line which consist of 2436 records. The data
components include sex, home district, high school, school districts, the score of
verbal reasoning test, numerical ability test, mechanical reasoning test, space
relations test, English language test, chosen study program, and registration
periods. The results of this study are 1258 classification pattern. From the
resulting pattern turned out to students from Mimika more likely to "Sisip
Program". The system has been tested by using 10-fold cross validation and
produces an accuracy of 56,527096 %.

Keywords: data mining, drop out student, Reduct Based Decision Tree.

viii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI


PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

KATA PENGANTAR

Puji dan syukur kehadirat Tuhan Yang Maha Esa, karena pada akhirnya
penulis dapat menyelesaikan penelitian tugas akhir ini yang berjudul
“Implementasi Algoritma Reduct Based Decision Tree Untuk Mengenali Pola
Klasifikasi Mahasiswa Yang Terkena Sisip Program”.
Penelitian ini tidak akan selesai dengan baik tanpa adanya dukungan,
semangat, dan motivasi yang telah diberikan oleh banyak pihak. Untuk itu,
penulis ingin mengucapkan terima kasih kepada:
1. Ibu P.H. Prima Rosa, S.Si., M.Sc. selaku dosen pembimbing serta dekan
Fakultas Sains dan Teknologi yang telah membantu dan membimbing
dalam penulisan tugas akhir.
2. Ibu Ridowati Gunawan, S.Kom., M.T. selaku ketua program studi Teknik
Informatika yang bertindak sebagai dosen penguji yang telah berkenan
memberikan motivasi, kritik, dan saran yang telah diberikan kepada
penulis.
3. Ibu Sri Hartati Wijono, S.Si., M.Kom. selaku dosen penguji atas motivasi,

kritik dan saran yang telah diberikan kepada penulis.
4. Kedua orang tua, bapak Yakobus Poniyo Ratmo dan ibu Sri Mustani atas
perhatian, kasih sayang, semangat dan dukungan yang tak henti-hentinya
diberikan kepada penulis.
5. Kakak, Hendrikus Adven Wicaksono yang telah memberikan doa,
semangat dan dukungan sehingga penulis dapat menyelesaikan tugas akhir
ini.
6. Para sahabat Atanasius Tendy, Ana Suryaningsih, Thomas Tri Ardianto,
Yudy Pratama, Dionisius Wahyu, Alfa Suryo Utomo, Yohanes Christian
Aji, Iip Yulianto, A.M Sarwinda, Andrias Pratiwi, Juventus Robing,
Ignatius Adhitya, Ryan Herdianto, Dominikus Adi, Deny Kuswantoro,
Krisna Ridyan, Kristi Wisnu Aji, Deoshi Yuda dan seluruh teman-teman

x

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

TI angkatan 2007. Terima kasih atas segala bantuan, semangat, dan
kesedianaan untuk berbagi solusi dalam penyelesaian tugas akhir ini.
7. Para sahabat Edo Barata, Feby Dwi Septiono, Nur Fikri Pratama, Rhidky

Oktavian, Benzario Khaula, Indra Prasetyo, Sunar Wibowo, Adhit, Topan,
Arip, Gilang Prasetyo (almarhum) dan seluruh teman-teman. Terimakasih
atas semangat dan doa yang telah diberikan.
8. Serta semua pihak yang tidak dapat disebutkan satu persatu yang telah
membantu penulis dalam menyelesaikan tugas akhir ini.
Penelitian tugas akhir ini masih memiliki banyak kekurangan. Untuk itu,
penulis sangat membutuhkan saran dan kritik untuk perbaikan di masa yang akan
datang. Semoga penelitian tugas akhir ini dapat membawa manfaat bagi semua
pihak.

xi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR ISI
HALAMAN JUDUL ...............................................................................................i
HALAMAN JUDUL (INGGRIS) ......................................................................... ii
HALAMAN PERSETUJUAN .............................................................................. iii
HALAMAN PENGESAHAN ..............................................................................iv
HALAMAN PERSEMBAHAN ............................................................................. v

PERNYATAAN KEASLIAN KARYA .................................................................vi
ABSTRAK ........................................................................................................... vii
ABSTRACT .......................................................................................................... viii
LEMBAR PERSETUJUAN PUBLIKASI ............................................................ix
KATA PENGANTAR ........................................................................................... x
DAFTAR ISI ........................................................................................................ xii
DAFTAR TABEL ................................................................................................. xv
DAFTAR GAMBAR ......................................................................................... xvii
BAB I PENDAHULUAN ........................................................................................ 1
I.1 Latar Belakang ................................................................................................ 1
I.2 Rumusan Masalah ........................................................................................... 2
I.3 Tujuan ............................................................................................................. 2
I.4 Batasan Masalah ............................................................................................. 2
I.5 Metodologi Penelitian ..................................................................................... 3
I.6 Sistematika Penulisan ..................................................................................... 4
BAB II LANDASAN TEORI .................................................................................. 6
II.1 Penambangan Data (Data Mining) ................................................................ 6
II.2 Himpunan Kasar (Rough Sets)....................................................................... 8
II.2.1 Pendahuluan ............................................................................................ 9
II.2.2 Pengertian Dasar ..................................................................................... 9

II.2.3 Relasi Ekuivalensi ................................................................................. 11
II.2.4 Kelas Ekuivalensi.................................................................................. 12
II.2.5 Ruang Hampiran Dan Himpunan Kasar ............................................... 13
II.2.6 Discernibilty Matrik .............................................................................. 16
xii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

II.3 Pohon Keputusan (Decision Tree) ............................................................... 18
II.3.1 Pengertian Pohon Keputusan ............................................................... 18
II.3.2 Kelebihan Pohon Keputusan ................................................................ 18
II.3.3 Kekurangan Pohon Keputusan ............................................................. 19
II.3.4 Jenis-jenis Pohon Keputusan ............................................................... 20
II.4 Algoritma C4.5 ............................................................................................ 20
II.5 Algoritma Reduct Based Decision Tree (RDT) ........................................... 23
II.5.1 Pendahuluan ......................................................................................... 23
II.5.2 Reduct Computation dan Pembentukan Pohon Keputusan .................. 23
II.6 K-fold Cross Validation ............................................................................... 29
II.7 Mengukur Tingkat Keakuratan Penggolong (Classifier) ............................ 29
II.8 Perkiraan Interval......................................................................................... 31

BAB III ANALISIS DAN PERANCANGAN ...................................................... 32
III.1 Identifikasi Sistem ...................................................................................... 32
III.2 Analisis Sistem ........................................................................................... 32
III.2.1 Analisis Data Awal .............................................................................. 32
III.2.2 Pemrosesan Awal ................................................................................ 38
III.2.2.1 Pembersihan Data (Data Cleaning) ......................................... 38
III.2.2.2 Integrasi Data (Data Integration) ............................................. 38
III.2.2.3 Seleksi Data (Data Selection)................................................... 43
III.2.2.4 Transformasi Data (Data Transformation) .............................. 43
III.3 Analisis Kebutuhan Sistem ........................................................................ 44
III.3.1 Diagram Use Case ............................................................................... 44
III.3.2 Narasi Use Case................................................................................... 44
III.4 Perancangan Umum Sistem........................................................................ 47
III.4.1 Masukan Sistem................................................................................... 47
III.4.2 Proses Sistem ....................................................................................... 51
III.4.3 Keluaran Sistem ................................................................................... 59
III.4.4 Diagram Aktivitas................................................................................ 60
III.5 Perancangan Basis Data ............................................................................. 63

xiii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

III.6 Diagram Kelas Analisis dan Diagram Sekuen ........................................... 64
III.7 Diagram Kelas Disain ................................................................................ 74
III.8 Perancangan Struktur Data ........................................................................ 76
III.9 Perancangan Antarmuka ............................................................................ 78
BAB IV IMPLEMENTASI SISTEM .................................................................... 80
IV.1 Spesifikasi Perangkat Lunak dan Perangkat Keras .................................... 80
IV.2 Uji Validasi Sistem ................................................................................... 80
IV.3 Implementasi Antar Muka Dengan Pengguna ........................................... 81
IV.4 Implementasi Diagram Kelas..................................................................... 88
BAB V ANALISIS HASIL ................................................................................... 98
V.1 Evaluasi Pola ............................................................................................... 98
V.3 Presentasi Pengetahuan ............................................................................. 108
BAB VI PENUTUP ............................................................................................. 109
VI.1 Kesimpulan .............................................................................................. 109
VI.2 Saran ........................................................................................................ 110
DAFTAR PUSTAKA .......................................................................................... 111
LAMPIRAN ........................................................................................................ 113
LAMPIRAN 1 ...................................................................................................... 114
LAMPIRAN 2 ...................................................................................................... 125
LAMPIRAN 3 ...................................................................................................... 155
LAMPIRAN 4 ...................................................................................................... 161
LAMPIRAN 5 ...................................................................................................... 182
LAMPIRAN 6 ...................................................................................................... 195
LAMPIRAN 7 ...................................................................................................... 205

xiv

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR TABEL
Tabel 2.1 Sistem Informasi (Hvidsten,2006:13).....................................................9
Tabel 2.2 Sistem Keputusan (Hvidsten,2006:13)..................................................10
Tabel 2.3 Kelas ekuivalensi (Hvidsten,2006:15)...................................................12
Tabel 2.4 Data 18 pasien kanker (Hvidsten,2006:15) ...........................................14
Tabel 2.5 Contoh basis data .................................................................................16
Tabel 2.6 Discernibility matrix untuk data dalam Tabel 2.5.................................17
Tabel 2.7 Matriks Boolean untuk data pada Tabel 2.4..........................................17
Tabel 2.8 Data Input Tabel Keputusan T1............................................................24
Tabel 2.9 Tabel Keputusan T1 Diurutkan Secara Ascending...............................24
Tabel 2.10 Tabel Keputusan T1.............................................................................25
Tabel 2.11 Discernibility matrix untuk tabel 2.10.................................................25
Tabel 2.12 Matrik Boolean Untuk Tabel 2.10......................................................26
Tabel 2.13 Proses Menghapus Matrik Boolean (MB) Untuk Tabel 2.12..............26
Tabel 2.14 Hasil Proses Hapus MB Untuk Tabel 2.13.........................................27
Tabel 2.15 Proses Menghapus Matrik Boolean (MB) Untuk Tabel 2.14..............27
Tabel 2.16 Hasil Proses Hapus MB Untuk Tabel 2.15.........................................28
Tabel 2.17 Proses Menghapus Matrik Boolean (MB) Untuk Tabel 2.16..............28
Tabel 2.18 Matrik Boolean (MB) Null..................................................................28
Tabel 2.19 confusion matrix.................................................................................30
Tabel 3.1 Daftar atribut data PMB jalur reguler....................................................32
Tabel 3.2 Contoh data PMB jalur reguler.............................................................34
Tabel 3.3 Daftar atribut data KRS mahasiswa.......................................................36
Tabel 3.4 Contoh data KRS mahasiswa.................................................................36
Tabel 3.5 Contoh data awal setelah proses integrasi dan pembersihan.................40
Tabel 3.6 Aturan Transformasi Data Nilai Tes Potensi Akademik.......................43
Tabel 3.7 Narasi Use Case Transformasi Data......................................................45
Tabel 3.8 Narasi Use Case Reduct Data................................................................45
Tabel 3.9 Narasi Use Case Bentuk Aturan............................................................46
Tabel 3.10 Narasi Use Case Simpan Aturan.........................................................46
Tabel 3.11 Deskripsi data pelatihan.......................................................................47

xv

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Tabel 3.12 Deskripsi uji........................................................................................48
Tabel 3.13 Pembagian data untuk setiap fold........................................................49
Tabel 3.14 Struktur Data Tabel Hasil Transformasi..............................................64
Tabel 3.15 Struktur Data Tabel Hasil Reduct.......................................................65
Tabel 3.16 Struktur Data Tabel Atribut Remove..................................................67
Tabel 3.17 Struktur Data Tabel HAP...................................................................67
Tabel 3.18 Daftar Kelas Use Case Transformasi Data........................................68
Tabel 3.19 Daftar Kelas Use Case Reduct Data..................................................69
Tabel 3.20 Daftar Kelas Use Case Bentuk Aturan...............................................71
Tabel 3.21 Daftar Kelas Use Case Simpan Aturan.............................................73
Tabel 3.22 Bentuk penyimpanan dalam Vector....................................................76
Tabel 5.1 Komposisi Data Asal SMA Mahasiswa..............................................100
Tabel 5.2 Detail Pola Klasifikasi Mahasiswa Sisip Program Untuk Tabel 5.1...101
Tabel 5.3 Hasil Penelusuran Atribut Program Studi Terhadap Data Input.........103
Tabel 5.4 Tabel pengujian cross-validation dengan bervariasi nilai fold...........104
Tabel 5.5 Pembagian data untuk setiap fold.......................................................105
Tabel 5.6 Tabel Confusion Matrix untuk Pengujian pada Fold 1......................106
Tabel 5.7 Pengukuran Akurasi Menggunakan 10-fold Cross Validation............107

xvi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR GAMBAR
Gambar 2.1 Tahapan dalam Penambangan Data (Jiawei Han, 2006:6)...................8
Gambar 2.2 Himpunan kasar dengan hampiran atas dan bawah(Susilo,2006:3)...15
Gambar 2.3 Gambaran Pohon Keputusan..............................................................18
Gambar 2.4 Algoritma C45....................................................................................21
Gambar 3.1 Diagram Use Case..............................................................................44
Gambar 3.2 Proses alur yang terjadi di dalam sistem secara umum......................51
Gambar 3.3 Diagram Konteks...............................................................................59
Gambar 3.4 Diagram Aktifitas Transformasi Data................................................60
Gambar 3.5 Diagram Aktivitas Reduct Data.........................................................61
Gambar 3.6 Diagram Aktifitas Bentuk Aturan......................................................61
Gambar 3.7 Diagram Aktifitas Simpan Aturan.....................................................62
Gambar 3.8 ER Diagram........................................................................................63
Gambar 3.9 Diagram Kelas Analisis Use Case Transformasi Data.....................68
Gambar 3.10 Diagram Sekuen Transformasi Data..............................................69
Gambar 3.11 Diagram Kelas Analisis Use Case Reduct Data............................70
Gambar 3.12 Diagram Sekuen Reduct data........................................................70
Gambar 3.13 Diagram kelas Analisis Use Case Bentuk Aturan..........................72
Gambar 3.14 Diagram Sekuen Bentuk Aturan...................................................72
Gambar 3.15 Diagram Kelas Analisis Use Case Simpan Aturan.......................73
Gambar 3.16 Diagram Sekuen Simpan Aturan..................................................73
Gambar 3.17 Diagram Kelas Keseluruhan.........................................................75
Gambar 3.18 Contoh Pohon Keputusan.............................................................77
Gambar 3.19 Contoh Ilustrasi Bentuk Penyimpanan Dalam Vector.................77
Gambar 3.20 Halaman Utama.............................................................................78
Gambar 3.21 Halaman Transformasi dan Reduct Data......................................78
Gambar 3.22 Halaman Bentuk Aturan...............................................................79
Gambar 3.23 Halaman Hasil Aturan..................................................................79
Gambar 4.1 Implementasi Halaman Utama.......................................................81
Gambar 4.2 Implementasi Halaman Transformasi dan Reduct (1)..................82

xvii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 4.3 File Chooser untuk mengambil data...........................................82
Gambar 4.4 Implementasi Halaman Transformasi dan Reduct (2).................83
Gambar 4.5 Pesan data sudah dimasukkan......................................................84
Gambar 4.6 Implementasi Halaman Transformasi dan Reduct (3).................84
Gambar 4.7 Pesan data berhasil dimasukkan...................................................84
Gambar 4.8 Implementasi Halaman Bentuk Aturan........................................85
Gambar 4.9 Pesan proses reduct berhasil.........................................................85
Gambar 4.10 Implementasi Halaman Hasil Aturan.........................................86
Gambar 4.11 pesan pohon sudah terbentuk.....................................................86
Gambar 4.12 File Chooser untuk memilih letak penyimpanan file.................87
Gambar 4.13 Pesan Data berhasil disimpan....................................................87
Gambar 5.1

Pola Klasifikasi Data PMB 2007-2009 Jalur Reguler...............99

xviii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB I
PENDAHULUAN

I.1. Latar Belakang
Universitas Sanata Dharma (USD) merupakan lembaga akademik yang
setiap tahunnya melakukan proses Penerimaan Mahasiswa Baru (PMB). Proses
seleksi PMB dapat ditempuh melalui berbagai jalur dan salah satunya adalah jalur
reguler. Dalam proses tersebut akan menghasilkan informasi berupa data PMB
yang digunakan untuk melakukan penyeleksian terhadap calon mahasiswa baru.
Komponen yang terdapat dalam data PMB jalur reguler berupa jenis kelamin, asal
kabupaten, asal sekolah, asal kabupaten sekolah, nilai penalaran verbal, nilai
kemampuan numerik, nilai penalaran mekanik, nilai bahasa inggris, nilai
hubungan ruang, prioritas pilihan program studi, dan gelombang masuk.
Mahasiswa yang dinyatakan diterima di jalur reguler adalah mahasiswa
yang lulus penilaian komponen PMB sesuai dengan standar yang ditetapkan USD.
Seluruh mahasiswa yang diterima di jalur reguler diharapkan dapat menjalankan
perkuliahan dengan lancar dan tidak sisip program. Namun kenyataannya tidak
demikian, masih ada mahasiswa yang terkena sisip program. Dari hal tersebut
timbul pertanyaan bagaimana mengetahui pola klasifikasi mahasiswa yang
terkena sisip program?
Penelitian dengan topik serupa pernah dilakukan oleh Kuatra (2011)
Universitas Sanata Dharma Yogyakarta dengan judul “Pencarian Pola Klasifikasi
Mahasiswa yang Tidak Memenuhi Sisip Program Berdasarkan Nilai Tes Masuk
Penerimaan Mahasiswa Baru dan Latar Belakang Mahasiswa Universitas Sanata
Dharma dengan Menggunakan Algoritma C4.5”. Dalam penelitian ini akan
diterapkan algoritma Reduct Based Decision Tree (RDT), sedangkan penelitian
yang dilakukan oleh Kuatra menggunakan algoritma C4.5 dengan akurasi 66,19
%. Dalam penelitian yang dilakukan oleh Kuatra pemilihan komponen (atribut)
pembentukan pola klasifikasi dilakukan secara intuitif sedangkan algoritma RDT
yang akan digunakan dalam penelitian ini memiliki kemampuan untuk memilih

1

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2

atribut yang relevan untuk pembentukan pola dengan demikian diharapkan
akurasi dari pola yang terbentuk dapat ditingkatkan.

I.2. Rumusan Masalah
Berdasarkan latar belakang masalah yang telah dikemukakan diatas maka
perumusan masalah dalam penelitian ini adalah:
1. Bagaimana mengenali pola klasifikasi mahasiswa USD hasil PMB jalur
Reguler yang terkena sisip program menggunakan algoritma RDT ?
2. Berapa kinerja akurasi dalam pembentukan pola klasifikasi mahasiswa
yang terkena sisip program menggunakan algoritma RDT ?

I.3. Tujuan
Tujuan dari penelitian ini yaitu :
1.

mengenali pola klasifikasi mahasiswa yang terkena sisip program
menggunakan algoritma RDT.

2.

Mengukur akurasi dalam pembentukan pola klasifikasi mahasiswa yang
terkena sisip program menggunakan algoritma RDT.

I.4. Batasan Masalah
Dalam penelitian ini ada beberapa batasan masalah yaitu:
1. Penelitian ini hanya menerapkan algoritma Reduct Based Decision Tree
(RDT).
2. Pada penelitian ini pembentukan pola klasifikasi berupa pohon keputusan
dengan menggunakan algoritma C4.5.
3. Data yang digunakan dalam penelitian ini adalah data Penerimaan
Mahasiswa Baru (PMB) tahun 2007 – 2009 jalur reguler.
4. Penelitian ini hanya menganalisis pola klasifikasi mahasiswa yang terkena
sisip program serta kinerja akurasi dalam pembentukan pola tersebut.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3

5. Pada penelitian ini pembentukan dalam pembentukan pola klasifikasi tidak
dikenai metode pemangkasan pohon (pruning).

I.5. Metodologi Penelitian
Metodologi yang digunakan untuk menyelesaikan masalah pada penelitian
tugas akhir ini Knowledge discovery in database (KDD) menurut Han dan
Kamber (2006) :
1. Pembersihan data (Data Cleaning)
Pada proses ini dilakukan penghilangan noise dan data yang tidak
konsisten atau data yang tidak relevan.
2. Integrasi Data (Data Integration)
Pada proses ini dilakukan penggabungan data dari berbagai sumber
agar seluruh data terangkum dalam satu tabel utuh (denormalisasi).
3. Seleksi Data (Data Selection)
Pada proses ini dilakukan penyeleksian data dimana data yang relevan
diambil dari database.
4. Transformasi Data (Data Transformation)
Pada proses ini Data diubah atau digabung ke dalam format yang
sesuai untuk diproses dalam penambangan data.
5. Penambangan Data (Data Mining)
Pada proses ini dilakukan penerapan teknik penambangan data untuk
mengekstrak pola. Dalam penilitian Tugas Akhir ini, teknik yang
digunakan adalah Reduct Based Decision Tree (RDT).

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4

6. Evaluasi Pola (Pattern Evaluation)
Proses ini dilakukan untuk mengidentifikasi pola-pola menarik yang
dalam arti tertentu menyatakan basis pengetahuan.
7. Presentasi Pengetahuan (Knowledge Presentation)
Merupa visualisasi dan teknik representasi pengetahuan untuk
menyajikan pengetahuan yang ditambang kepada pengguna.

I.6. Sistematika Penulisan
Sistematika penulisan penelitian ini adalah sebagai berikut :
BAB I. PENDAHULUAN
Bab ini berisi latar belakang masalah, rumusan masalah, tujuan
penelitian, batasan masalah, metodologi penelitian, dan sistematika
penulisan.

BAB II . LANDASAN TEORI
Bab ini berisi dasar-dasar teori yang digunakan dalam Penelitian.

BAB III . ANALISIS DAN PERANCANGAN
Bab ini berisi analisis dan perancangan aplikasi penambangan data
yang akan dibangun. Dalam tahap analisis terdapat empat proses
KDD meliputi pembersiahan data, integrasi data, seleksi data, dan
transformasi data.

BAB IV. IMPLEMENTASI PROGRAM
Bab ini berisi implementasi penerapan proses penambangan data
menggunakan algoritma RDT kedalam bentuk aplikasi.

BAB V . ANALISIS HASIL
Bab ini berisi tentang analisis dari hasil output proses penambangan
data yang meliputi evaluasi pola dan presentasi pengetahuan.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5

BAB VI. PENUTUP
Bab ini berisi tentang kesimpulan dari hasil penelitian dan saran-saran
yang ditujukan kepada semua pihak yang bersangkutan.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB II
LANDASAN TEORI

Untuk mendukung penelitian ini diperlukan beberapa landasan teori dan
konsep-konsep yang relevan. Landasan teori dalam penelitian ini meliputi
pengertian Penambangan Data (Data Mining), Himpunan Kasar (Rough Sets),
Pohon Keputusan(Decision Tree), Algoritma C.45, Algoritma Reduct Based
Decision Tree (RDT), dan k-fold Cross Validation.

II.1. Penambangan Data(Data Mining)
Definisi tentang penambangan data menurut beberapa penulis adalah
sebagai berikut:
1. Definisi penambangan data menurut Yudho (2003:1) adalah “ekstraksi
informasi atau pola yang penting atau menarik dari data yang ada di
database yang besar”.
2. Penambangan data menurut Mitra dan Acharya (2003:1) adalah “suatu
data percobaan untuk memperoleh informasi yang berguna yang
tersimpan dalam basisdata yang sangat besar”.
3. Penambangan data menurut Lee dan Santana (2010:17) adalah “metoda
yang digunakan untuk mengekstraksi informasi prediktif tersembunyi pada
database”.
Dari definisi diatas maka penambangan data dapat diartikan sebagai proses
mencari atau mengekstrasi pengetahuan yang berasal dari sejumlah data yang
besar. Pengetahuan yang diperoleh dari proses ekstrasi sejumlah data besar
tersebut berupa pola tersembunyi yang penting atau menarik yang biasanya tidak
dapat kita ketahui secara manual. Penambangan data (Data Mining) muncul
ketika pemilik data baik perorangan maupun organisasi memiliki data yang cukup
besar dalam kurun waktu tertentu sehingga mengakibatkan penumpukan.
Contohnya: data akademik, data pembelian, data penjualan, data nasabah, data
transaksi dan sebagainya. Kemudian muncul pertanyaan dari pemilik tersebut,apa
6

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7

yang harus dilakukan terhadap tumpukan data tersebut? Salah satu solusinya
adalah dilakukannya teknik Penambangan Data (Data Mining) agar data yang
sedemikian banyak tersebut tidak menjadi sampah atau kuburan data.
Penambangan data merupakan proses yang tidak dapat dipisahkan dengan
dengan Knowledge Discovery in Database (KDD), karena penambangan data
adalah salah satu tahap dari proses KDD yang menggunakan analisa data serta
penggunaan algoritma, sehingga menghasilkan pola-pola khusus dalam data yang
besar. Berikut ini merupakan urutan langkah-langkah dalam membangun
penambangan data menurut Han dan Kamber (2006):
1. Pembersihan Data (Data Cleaning)
Pembersihan data merupakan proses untuk menghilangkan noise dan
data yang tidak konsisten atau data yang tidak relevan.
2. Integrasi Data (Data Integration)
Integrasi data merupakan proses penggabungan data dari berbagai
sumber.
3. Seleksi Data (Data Selection)
Seleksi data merupakan proses menyeleksi data dimana data yang
relevan diambil dari database.
4. Transformasi Data (Data Transformation)
Data diubah atau digabung ke dalam format yang sesuai untuk diproses
dalam penambangan data.
5. Penambangan Data (Data Mining)
Penambangan data merupakan suatu proses utama saat metode
diterapkan untuk menemukan pengetahuan berharga dan tersembunyi
dari data.
6. Evaluasi Pola (Pattern Evaluation)
Proses ini dilakukan untuk mengidentifikasi pola-pola menarik yang
dalam arti tertentu menyatakan basis pengetahuan.
7. Presentasi Pengetahuan (Knowledge Presentation)
Merupakan visualisasi dan penyajian pengetahuan mengenai metode
yang digunakan untuk memperoleh pengetahuan yang diperoleh
pengguna.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8

Tahapan atau urutan langkah-langkah dalam membangun penambangan data
dapat diilustrasikan kedalam gambar berikut :

Gambar 2.1 Tahapan dalam Penambangan Data (Han, 2006:6)
Ada banyak teknik algoritma dalam penambangan data. Pada penelitian ini
teknik algoritma penambangan data yang digunakan adalah Reduct Based
Decision Tree (RDT). Teknik RDT mengkombinasikan teori himpunan kasar
(Rough Set) dan induksi algorima pohon keputusan (Ramadevi,2008).

II.2. Himpunan Kasar (Rough Set)
II.2.1 Pendahuluan
Himpunan kasar (Rough Set) pertama kali diperkenalkan oleh Zdzislaw
Pawlak dari Warsaw University of Technology di Polandia pada tahun 1982.
Pawlak, Z. (1982) menyatakan bahwa himpunan kasar merupakan metode
matematis yang digunakan untuk mendeskripsikan himpunan tidak tegas.
Himpunan tidak tegas dalam teori himpunan kasar yaitu himpunan yang elemen-

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9

elemen tertentu dalam semestanya tidak dapat dibedakan satu sama lain karena
keterbatasan atau ketidaklengkapan pengetahuan atau informasi dalam elemenelemen tersebut.
II.2.2 Pengertian dasar
Himpunan kasar (Rough set) adalah teknik matematika yang biasanya
digunakan untuk menangani masalah Uncertainty, (Mising data, Incompleted
Data dan Inconsistency Data, Imprecision dan Vagueness) dalam apliksi Artificial
Intelligence (AI). Selain itu teknik himpunan kasar (Rough set) merupakan teknik
yang efisien dalam Database (KDD) proses dan Data Mining. Didalam Rough Set
data dapat direpresentasikan kedalam 2 bentuk yaitu:
1. SI (Sistem Informasi)
SI = {U,A}
dimana : U adalah object dengan U= {e1,e2,…em}
A adalah Atribut dengan A = {a1,a2,…an)
Sistem Informasi hanya memiliki atribut kondisional saja. Berikut ini
merupakan sebuah Sistem Informasi sederhana yang digambarkan
dalam tabel 2.1.

Tabel 2.1 Sistem Informasi (Hvidsten,2006:13)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10

Tiap-tiap baris pada tabel diatas merepresentasikan objek sedangkan
tiap-tiap kolom merepresentasikan atribut. Tabel Sistem Informasi diatas
hanya terdiri dari m obyek,seperti P1, P2, P3..., Pm dan n atribut seperti
Patients, Gene1, Gene2, Gene3, moking.
2. SK (Sistem Keputusan)
SK = {U, (A,C)}
dimana : A = Atribut Kondisional
U = Objek.
C = Atribut Keputusan
SK mempunyai Atribut Kondisional dan Atribut Keputusan. Berikut ini
merupakan sebuah Sistem Keputusan sederhana yang digambarkan
dalam tabel 2.2.

Tabel 2.2 Sistem Keputusan (Hvidsten,2006:13)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11

Tabel 2.2 memperlihatkan sebuah sistem keputusan yang terdiri dari m
objek, seperti P1, P2 , …, Pm, dan n attribute, seperti Patients, Gene1,
Gene2, Gene3, Smoking dan Site of Origin. Dalam tabel ini, n-1 atribut
Patients, Gene1, Gene2, Gene3, Smoking adalah attribute kondisi,
sedangkan Site of Origin adalah atribut keputusan.
Awalnya himpunan kasar dikembangkan untuk menangani keridakpastian
dan ketidaktegasan dalam analisis

data.

Asumsi

yang menjadi

dasar

pengembangan teori himpunan kasar yaitu bahwa setiap elemen dalam semesta
wacananya terkait dengan informasi elemen itu, dan elemen-elemen dengan
informasi yang takterbedakan. Pendekatan terhadap himpunan kasar adalah suatu
hampiran dari suatu himpunan tak tegas berdasarkan suatu partisi pada semesta
himpunan tersebut. Partisi pada semesta himpunan tak tegas tersebut diambil dari
partisi yang terimbas relasi ekuivalensi “takterbedakan” antara elemen-elemen
semesta tersebut. Dengan demikian kelas-kelas ekivalensi dalam partisi itu
memuat elemen-elemen semesta yang takterbedakan satu sama lain. Relasi
ekivalensi adalah model matematik paling sederhana yang dapat dipergunakan
untuk merepresentasikan keadaan di mana elemen-elemen tertentu dalam suatu
semesta tidak dapat dibedakan satu sama lain, dengan mengingat bahwa relasi
“takterbedakan” itu pada dasarnya adalah suatu relasi ekivalensi, yaitu bersifat
refleksif, simetrik, dan transitif. Sehingga konsep himpunan kasar adalah
perampatan konsep himpunan tegas, dalam arti bahwa himpunan tegas adalah
kejadian khusus dari himpunan kasar.

II.2.3 Relasi Ekuivalensi
Suatu relasi R pada himpunan S dikatan ekuivalen jika memenuhi ketiga hal
berikut ini :
1. Reflektif , xRx
2. Simetris, jika xRy maka yRx
3. Transitif, Jika xRy dan xRz maka xRz

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12

Misalkan Diberikan himpunan S={1,2,3....,20}dan relasi R pada S didefinisikan
4|( x – y ). Akan ditunjukan R merupakan relasi ekivalensi ( a | b artinya a
membagi b ).
1. Refleksif. Untuk sebarang x  S diperoleh x – x = 0, Jelas s | 0 ,
terbukti R bersifat Refleksif.
2. Simetris. Diketahui xRy maka 4 | ( x – y ), yang artinya x – y = 4n.
Diperoleh y – x = - 4n maka 4 | ( y – x = - 4n ). Dapat disimpulkan yRx
3. Transitif. Diketaui xRy dan yRz yang artinya x– y = 4n dan y– z = 4m
Diperoleh x – ( z + 4m ) = 4n kemudian x – z = 4n + 4m = 4( n + m ).
Itu artinya xRz. Maka terbukti bahwa R Transitif.
II.2.4 Kelas Ekuivalensi
Dalam relasi ekuivalensi pasti terdapat kelas ekuivalensi. Misalkan
diberikan R relasi ekuivalen pada S maka untuk semua a  S terdapat suatu
himpunan yang berisikan semua anggota S yang berelasi ke a , dinotasikan [ a ] = {

a  S | a R x}. Berikut ini merupakan contoh sebuah tabel dengan objectnya
adalah kelas ekuivalensi.
Tabel 2.3 Kelas ekuivalensi (Hvidsten,2006:15)
Equivalence classes

Gene1

Gene2

Gene 3

sm

Site of Origin (Decision)

E1={P1,P6}





0

yes

{ L}

E2={P2,P4}

0

0

0

Yes

{L}

E3={P3,P13,P18}

0





no

{C,L}

E4={P5,P11,P12,P17}

0



0

yes

{L}

E5={P7,P8,P15}





0

No

{C}

E6={P9}

0



0

yes

{C}

E7={P10,P16}







No

{C,L}

E8={P14}

0





No

{C}

Pada tabel diatas object E1, E2, E3, E4, E5, E6, E7, dan E8 merupakan kelas
ekuivalensi dari tabel 2.2 Sistem Keputusan.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13

II.2.5 Ruang Hampiran dan Himpunan Kasar
Dimisalkan X adalah suatu semesta yang takkosong, R adalah suatu relasi
ekivalensi pada X, [ x]R  { y  X | ( x, y)  R} adalah kelas ekivalensi yang memuat

x  X , dan X / R  {[ x]R | x  X } adalah himpunan hasil-bagi pada X yang
terimbas oleh relasi ekivalensi R, yaitu keluarga semua kelas ekivalensi yang
terimbas oleh R pada himpunan tersusun X. Pasangan K  ( X , R) disebut ruang
hampiran, masing-masing kelas ekivalensi dalam X/R disebut himpunan elementer
atau atom dalam K, dan elemen-elemen dalam suatu himpunan elementer disebut
elemen-elemen yang takterbedakan dalam K. Dalam setiap ruang hampiran K,
himpunan kosong juga dianggap sebagai himpunan elementer. Setiap gabungan
berhingga banyak himpunan elementer dalam K disebut himpunan tersusun
dalam K.
Jika A adalah suatu himpunan bagian dari semesta X, maka hampiran
bawah dari A dalam K, dengan lambang K (A), adalah
K ( A) 

{[ x]

R

 X / R | [ x] R  A}

xX

 {x  X | [ x] R  A}

..................... (2.1)

yaitu gabungan semua himpunan elementer yang termuat dalam A.
Sedangkan hampiran atas dari A dalam K, dengan lambang K ( A), adalah
K ( A) 

{[ x]

R

 X / R | [ x] R  A  }

xX

 {x  X | [ x ] R  A   }

..................... (2.2)

yaitu gabungan semua himpunan elementer yang beririsan dengan A.
Hampiran bawah dari A menyajikan himpunan elemen-elemen semesta yang pasti
merupakan anggota himpunan A, sedangkan hampiran atas dari A menyajikan
himpunan elemen-elemen semesta yang mungkin merupakan anggota himpunan
A. Perhatikan bahwa K ( A)  A  K ( A). Elemen-elemen semesta yang tidak
berada dalam hampiran atas dari A adalah elemen-elemen yang pasti tidak
merupakan anggota A.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14

Selisih hampiran atas dan hampiran bawah dari himpunan A dalam K,
yaitu BK ( A)  K ( A)  K ( A), disebut daerah batas dari himpunan A dalam K. Jika

BK ( A)   , yaitu K ( A)  K ( A)  A , maka A merupakan gabungan himpunan
elementer dalam K dan disebut himpunan yang dapat dideskripsikan secara tepat
dalam K (atau himpunan tegas dalam K). Jika BK ( A)   , maka A tidak dapat
dideskripsikan secara tepat dalam K dan disebut himpunan kasar dalam K. Dengan
perkataan lain, himpunan kasar adalah himpunan bagian dari semesta yang
mempunyai daerah batas yang tak kosong. Berikut ini akan diberikan ilustrasi
pengimplementasian himpunan kasar dan ruang hampiran menggunakan data 18
pasien yang terkena kanker yang digamabarkan pada tabel 2.4.
Tabel 2.4 Data 18 pasien kanker (Hvidsten,2006:15)
Equivalence classes

Gene1

Gene2

Gene3

sm

Site of Origin (Decision)

E1={P1,P6}





0

yes

{ L}

E2={P2,P4}

0

0

0

yes

{L}

E3={P3,P13,P18}

0





no

{C,L}

E4={P5,P11,P12,P17}

0



0

yes

{L}

E5={P7,P8,P15}





0

no

{C}

E6={P9}

0



0

yes

{C}

E7={P10,P16}







no

{C,L}

E8={P14}

0





no

{C}

Tabel 2.4 adalah contoh dari sistem keputusan SK = {E, (A, D)} 18 pasien kanker
yang dibagi kedalam 2 bagian sesuai dengan lokasi asli tumornya yaitu lung (L)
atau colon C). Pada tabel 2.4 diatas E={p1, p2, p3, p4, p5..., p18} merupakan
himpunan pasien yang didiagnosa terkena penyakit kanker dengan empat buah
atribut A={Gene1, Gene2, Gene3, sm} yang merupakan faktor yang
mempengaruhi penyakit kanker. Pada data tersebut relasi ekuivalensi R pada E
dapat didefinisikan sebagai berikut ( x, y)  R jika dan hanya jika nilai semua
atribut dari x dan y sama. Maka dari data tersebut dapat diperoleh ruang hampiran
K=(E, R), dengan partisi E / R ={E1, E2, E3, E4, E5, E6, E7, E8} dimana
E1={P1, P6}, E2={P2,P4}, E3={P3, P13, P18}, E4={P5, P11, P12, P17},

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15

E5={P7, P8, P15}, E6={P9}, E7={P10, P16} dan E8={P14} adalah himpunan
elementer yaitu himpunan pasien-pasien yang tak terbedakan dalam K karena
menunjukkan faktor penyebab penyebab penyakit yang sama. Pasien dengan
Decision class lung(L) dan colon(C) {C,L} merupakan himpunan kasar karena
tidak dapat didefinisikan secara unik

menggunakan

kelas ekuivalensi. Data

Pasien tersebut hanya dapat didefinisikan dengan hampiran atas K dan hampiran
bawah K . Dalam kasus ini A = {E1, E2, E3, E4, E7} merupakan himpunan kelas
ekuivalensi pasien yang didiagnosa menderita penyakit kanker paru-paru (lung).
Maka hampiran bawah dari A, yaitu himpunan pasien yang pasti menderita kanker
paru-paru, adalah

K (A)  E1  E 2  E 4 = {P1, P2, P4, P5, P6, P11, P12, P17}
Hampiran atas dari A, yaitu himpunan kelas ekuivalensi pasien yang
mungkin menederita kanker paru-paru adalah
K (A) = E1  E 2  E3  E 4  E7 = {P1, P2, P4, P5, P6, P11, P12, P17}

Sedangkan himpunan E - K (A) = E5  E 6  E8 = {P7, P8, P9, P14, P15} adalah
himpunan pasien yang pasti tidak terkena kanker paru-paru melainkan pasien
yang terkena kanker usus (colon). Suatu ilustrasi himpunan kasar A dengan
hampiran bawah dan hampiran atasnya dalam suatu ruang hampiran K  ( X , R)
disajikan dalam Gambar 2.2 berikut ini.
K(A)

A
K (A)

BK (A)
K = (X,R)

X/R

Gambar 2.2 Himpunan kasar dengan hampiran atas dan bawah (Susilo,2006:3)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16

Kualitas hampiran dalam suatu ruang hampiran dinyatakan dengan suatu
ukuran ketepatan. Bila K  ( X , R) adalah suatu ruang hampiran dan A suatu
himpunan bagian dari X, maka banyaknya atom dalam K (A) dan K ( A), yang
disajikan dengan  (A) dan  ( A), berturut-turut disebut ukuran dalam dan ukuran
luar dari A dalam K. Jika  ( A)   ( A), maka A dikatakan terukur dalam K.
Ketepatan hampiran dari A dalam K didefinisikan sebagai bilangan real

 K ( A) 

 ( A)
 ( A)

....................…(2.3)

di mana  ( A)  0. Jelas bahwa 0   K ( A)  1 dan  K ( A)  1 jika A terukur dalam
K. Dalam kasus ini ketepatan hampiran dari A1 dalam ruang hampiran K tersebut
adalah

 K ( A) 

 ( A) 3
  0.6
 ( A) 5

....................…(2.4)

II.2.6 Discernibilty Matrix
Pada himpunan kasar discernibilty matrix digunakan untuk mengekstrak
minimal reduct . Hasil dari reduct tersebut berupa atribut yang dapat digunakan
untuk membuat sebuah decision rules. Discernibility matrix yang sesuai dengan
contoh basis data dalam Tabel 2.5 dengan U = {X1, X2, …, X7}, C = {a, b, c, d},
D = {E} dimana U adalah himpunan Objek, C himpunan atribut kondisional dan
E himpunan atribut keputusan ditunjukkan dalam Tabel 2.6.
Tabel 2.5 Contoh basis data
ID

a

b

c

d

E

X1

1

0

2

1

1

X2

1

0

2

0

1

X3

1

2

0

0

2

X4

1

2

2

1

0

X5

2

1

0

0

2

X6

2

1

1

0

2

X7

2

1

2

1

1

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17

M(X1,X3) = {b, c, d}, X1 dan X3 mempunyai nilai keputusan yang berbeda,
perbedaannya di atribut b, c dan d.
Tabel 2.6 Discernibility matrix untuk data dalam Tabel 2.5
X1

X2

X3

X4

X5

X2

-

X3

b, c, d

b, c

X4

b

b, d

c, d

X5

a, b, c, d

a, b, c

-

a, b, c, d

X6

a, b, c, d

a, b, c

-

a, b, c, d

-

X7

-

-

a, b, c, d

a, b

c, d

X6

c, d

Reduct untuk data dari tabel 2.4 adalah {b, c} dan {b, d}. Matriks Boolean
(MB) untuk data pada Tabel 2.4 ditunjukkan pada Tabel 2.6 di bawah ini :
Tabel 2.7 Matriks Boolean untuk data pada Tabel 2.5
a

b

c

d

X1X3

0

1

1

1

X1X4

0

1

0

0

X1X5

1

1

1

1

X1X6

1

1

1

1

X2X3

0

1

1

0

X2X4

0

1

0

1

X2 X5

1

1

1

0

X2 X6

1

1

1

0

X3X4

0

0

1

1

X3X7

1

1

1

1

X4X5

1

1

1

1

X4X6

1

1

1

1

X4X7

1

1

0

0

X5X7

0

0

1

1

X6X7

0

0

1

1

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18

II.3. Pohon Keputusan (Decision Tree)
II.3.1 Pengertian Pohon Keputusan
Pohon keputusan (Decision Tree) merupakan metode penambangan data
model klasifikasi. Menurut Jiawei Han dan Micheline Kamber (2006), salah satu
metode data mining yang umum digunakan adalah decision tree. Konsep decision
tree adalah suatu struktur flowchart yang menyerupai tree (pohon), dimana setiap
simpul

internal

menandakan

suatu

tes

pada

atribut,

setiap

cabang

merepresentasikan hasil tes, dan simpul daun merepresentasikan kelas atau
distribusi kelas. Alur pada decision tree di telusuri dari simpul akar ke simpul
daun yang memegang prediksi kelas untuk contoh tersebut. Gambar 2.3 berikut
ini merupakan bentuk gambaran dari pohon keputusan.

Gambar 2.3 Gambaran Pohon Keputusan.
Pohon keputusan memiliki merupakan model keputusan yang banyak
digunakan dalam proses penambangan data kerena memiliki beberapa kelebihan

II.3.2 Kelebihan Pohon Keputusan
Menurut Said, Fairuz. El. (2009) kelebihan dari metode pohon keputusan
adalah :
1. Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat
global, dapat diubah menjadi lebih simpel dan spesifik.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19

2. Eliminasi perhitungan-perhitungan yang tidak diperlukan, karena ketika
menggunakan metode pohon keputusan maka sample diuji hanya
berdasarkan kriteria atau kelas tertentu.
3. Fleksibel untuk memilih fitur dari node internal yang berbeda, fitur yang
terpilih akan membedakan suatu kriteria dibandingkan kriteria yang lain
dalam node yang sama. Kefleksibelan metode pohon keputusan ini
meningkatkan kualitas keputusan yang dihasilkan jika dibandingkan ketika
menggunakan metode penghitungan satu tahap yang lebih konvensional
4. Dalam analisis multivariat, dengan kriteria dan kelas yang jumlahnya
sangat banyak, seorang penguji biasanya perlu untuk mengestimasikan
baik itu distribusi dimensi tinggi ataupun parameter tertentu dari distribusi
kelas tersebut. Metode pohon keputusan dapat menghindari munculnya
permasalahan ini dengan menggunakan criteria yang jumlahnya lebih
sedikit pada setiap node internal tanpa banyak mengurangi kualitas
keputusan yang dihasilkan.
Pohon keputusan bukanlah satu-satunya model penambangan data yang
paling baik karena selain memiliki kelebihan pohon keputusan juga memiliki
kekurangan.

II.3.3 Kekurangan Pohon Keputusan
Menurut Said, Fairuz. El. (2009) kekurangan dari metode pohon keputusan
adalah :
1. Terjadi overlap terutama ketika kelas-kelas dan criteria yang digunakan
jumlahnya sangat banyak. Hal tersebut juga dapat menyebabkan
meningkatnya waktu pengambilan keputusan dan jumlah memori yang
diperlukan.
2. Pengakumulasian jumlah eror dari setiap tingkat dalam sebuah pohon
keputusan yang besar.
3. Kesulitan dalam mende