Pencarian karakteristik calon mahasiswa baru Universitas Sanata Dharma yang tidak mendaftar ulang dengan menggunakan algoritma pohon - USD Repository

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PENCARIAN KARAKTERISTIK CALON MAHASISWA
BARU UNIVERSITAS SANATA DHARMA YANG TIDAK
MENDAFTAR ULANG DENGAN MENGGUNAKAN
ALGORITMA POHON KEPUTUSAN
Skripsi
Diajukan untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Sains
Program Studi Ilmu Komputer

Oleh:
Lilik Haryanto
NIM: 033124010

PROGRAM STUDI ILMU KOMPUTER
JURUSAN MATEMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2008


i

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

FINDING CHARACTERISTICS OF SANATA DHARMA
UNIVERSITY NOT-ENROLLING-APPLICANTS USING
DECISION TREE ALGORITHM
A Final Thesis
Presented as Partial Fulfillment of The Requirements
for the Degree of Sarjana Sains
in Computer Science

By:
Lilik Haryanto
Student Number: 033124010

COMPUTER SCIENCE STUDY PROGRAM
DEPARTMENT OF MATHEMATICS
FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY
YOGYAKARTA
2008

i

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

iii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

“ Akirametakunai, Fuan ni naru to te wo nigiri, Issho ni ayunde kita “
-Kiroro-

Kupersembahkan untuk:

Jesus Christ
Ibu, Bapak (Alm), Budhe, mas Hari, Pam-Pam
Sahabat-Sahabatku...

iv

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

v

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ABSTRAK
Penambangan data merupakan suatu teknik untuk mengestraksi pola yang
penting atau informasi yang menarik dari basis data yang berukuran besar.
Penambangan data memberikan informasi yang digunakan sebagai penunjang
dalam melakukan pengambilan keputusan. Teknik yang digunakan dalam
melakukan penambangan data diantaranya adalah klasifikasi, yaitu teknik yang
menentukan kelas-kelas ataupun kategori dari suatu objek berdasarkan
sifat/atribut yang dimilikinya. Salah satu metode klasifikasi adalah algoritma

pohon keputusan.
Dalam

penulisan

tugas

akhir

ini,

algoritma

pohon

keputusan

diimplementasikan untuk mengenali karakteristik calon mahasiswa yang tidak
melakukan daftar ulang. Data-data yang digunakan merupakan data penerimaan
mahasiswa baru Universitas Sanata Dharma dari tahun 2005 sampai dengan 2006.

Seluruh data yang digunakan berisi informasi tentang gelombang masuk, prioritas
pilihan program studi di mana calon mahasiswa tersebut diterima, jenis_kelamin,
jenis sma, program studi tempat calon mahasiswa diterima dan status daftar ulang
yang dilakukan serta nilai finalnya. Data-data ini digunakan sebagai himpunan
data pelatihan dan himpunan data tes dalam proses penambangan data. Pengujian
dilakukan terhadap himpunan data pelatihan dan himpunan data tes. Hasil
pengujian menggunakan fivefold cross-validation dengan sampel data sebanyak
1400 record adalah 61.64 %.

vi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ABSTRACT
Data mining is a way to extract important pattern or interesting
information from large databases. Data mining gives information that is used to
make a decision. Classification is one of technique that can be applied on data
mining. The technique will define classes or categories of an object based on its
characteristics. One of classification technique is decision tree algorithm.
On this undergraduate thesis, the decision tree algorithm is applied to

recognize characteristics of new student candidates of Sanata Dharma University
that do not perform her-registration. The data that is used is new student
candidates of 2005 to 2006 academic year, which consists of registration periods,
the priority of applied study program, sex, the type of their high school, the study
program where the new student are accepted, her-registration status and the final
score of acceptance test. The data’s are used as training set and test set on data
mining process. The experiment is done to test training set and test set. The result
of experiment with 1400 records using fivefold cross-validation method is 61.64
%.

vii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

viii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

KATA PENGANTAR
Dalam nama Bapa Putera dan Roh Kudus, penulis selalu diberi kekuatan

untuk berkembang dan menjadi lebih. Puji dan syukur penulis panjatkan kepadaNya atas segala kesehatan, keselamatan, keberuntungan, berkat, rahmat, kasih dan
bimbingan-Nya sehingga dapat menyelesaikan penyusunan skripsi yang berjudul
“ Penambangan Data Penerimaan Mahasiswa Baru Universitas Sanata Dharma
untuk Mencari Pola Karakteristik Calon Mahasiswa yang tidak Mendaftar Ulang
dengan Menggunakan Algoritma Pohon Keputusan”.
Dalam kesempatan ini, penulis ingin mengucapkan terima kasih yang
sebesar-besarnya kepada semua pihak yang turut memberikan dukungan,
semangat dan bantuan hingga selesainya skripsi ini :
1. Jesus Christ….Makasih untuk selalu mendampingi dan menuntunku di
saat apapun….Engkau selalu ada di saat tak seorangpun menemani setiap
langkahku….Bersama-Mu segalanya menjadi lebih mudah dan begitu
indah….
2. Keluargaku….Ibu Th. Kasyati, Bpk. Marjuki (Alm), Budhe, Masku Hari,
adikku Pam-Pam. Terima kasih atas semua cinta, kasih dan semangat yang
diberikan sehingga aku dapat lebih baik….Bu… akhirnya lulus…
3. Ibu P.H Prima Rosa, S.Si., M.Sc. selaku dosen pembimbing dan Kaprodi,
atas segala kesabaran, waktu, bimbingan dan saran yang diberikan.
4. Staf BAPSI USD atas data-data mahasiswa yang diberikan.
5. Romo Dr. C. Kuntoro Adi SJ., MA., M.Sc. selaku dosen penguji
6. Bapak St. Eko Hari Parmadi, S.Si., M.Kom. selaku dosen penguji


ix

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

7. Bapak Drs. H. Haris Sriwindono, M.Kom selaku dosen pembimbing
akademik atas bimbingannya selama kuliah.
8. Pak Tukijo dan mbak Linda, maaf telah banyak merepotkan
9. Mas Susilo selaku pegawai laboran
10. Anak-anak program studi Ilmu Komputer: Oneng, Ina, Teguh, Iin, Toto,
Elis, Frans, Citra, Josephine, Vika, Ika, Kelik, Gondez, Suryo, Rey, Vitri,
Kadek, Henry, Doni, Teteh, Dimas, Andi, Anjar, Clara, Hendro, Beni Aji,
Iyus, Guritno, Wiwid, Rano, Aris, Wawan, Kornel, Beni, Ferry, Puguh,
Bayu, Fatso, Fani, Prity
11. Teman-teman, yang selalu ada dan tidak dapat penulis sebutkan satu
persatu, yang telah memberikan semangat dalam penulisan skripsi ini.
Penulis menyadari bahwa penyusunan skripsi ini masih jauh dari
sempurna karena keterbatasan kemampuan dan pengetahuan yang dimiliki serta
terbatasnya waktu yang ada. Oleh karena itu, dengan kerendahan hati, penulis
mengharapkan segala kritik maupun saran yang berguna dan membangun bagi

perbaikan skripsi ini.
Akhir kata, penulis berharap semoga skripsi ini dapat bermanfaat bagi
pembaca dan pihak lain yang membutuhkannya.

Penulis

Lilik Haryanto

x

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR ISI

HALAMAN JUDUL ..........................................................................................

i

HALAMAN PERSETUJUAN PEMBIMBING ..............................................


ii

HALAMAN PENGESAHAN ............................................................................

iii

HALAMAN PERSEMBAHAN

iv

PERNYATAAN KEASLIAN KARYA ............................................................

v

ABSTRAK ..........................................................................................................

vi

ABSTRACT ........................................................................................................


vii

LEMBAR PERNYATAAN PERSETUJUAN

viii

KATA PENGANTAR ........................................................................................

ix

DAFTAR ISI .......................................................................................................

xi

DAFTAR TABEL ..............................................................................................

xiii

DAFTAR GAMBAR ..........................................................................................

xiv

BAB I

BAB II

PENDAHULUAN ...........................................................................

1

A. Latar Belakang .....................................................................

1

B. Perumusan Masalah ..............................................................

3

C. Batasan Masalah ...................................................................

3

D. Tujuan ...................................................................................

4

E. Manfaat .................................................................................

4

F. Metodologi ...........................................................................

4

G. Sistematika Pembahasan ......................................................

5

LANDASAN TEORI ......................................................................

6

xi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

A. Penambangan Data ...............................................................

6

B. Proses Penambangan Data ...................................................

6

C. Teknik Klasifikasi ................................................................

10

D. Pohon Keputusan ..................................................................

11

E. Contoh Penerapan Algoritma Pohon Keputusan …..............

20

PERANCANGAN SISTEM ..........................................................

40

A. Identifikasi Sistem ................................................................

40

B. Pembersihan Data .................................................................

41

C. Integrasi Data .......................................................................

41

D. Transformasi Data ................................................................

42

E. Perancangan Umum Sistem .................................................

42

1. Masukan Sistem .........................................................

42

2. Proses Sistem .............................................................

44

3. Keluaran Sistem .........................................................

48

4. Perancangan Struktur Data .........................................

50

5. Perancangan Antarmuka ............................................

51

IMPLEMENTASI SISTEM ..........................................................

63

A. Jalannya Program dan Pembahasannya ................................

63

B. Analisa Hasil Program..........................................................

84

KESIMPULAN DAN SARAN ......................................................

89

A. Kesimpulan ...........................................................................

89

B. Saran .....................................................................................

89

DAFTAR PUSTAKA .........................................................................................

91

LAMPIRAN ........................................................................................................

93

BAB III

BAB IV

BAB V

xii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR TABEL

Tabel 2.1

Tabel Kontingensi 2 x 2...........................................................

16

Tabel 2.2

Data Nasabah...........................................................................

20

Tabel 2.3

Nilai information gain data nasabah 1.....................................

27

Tabel 2.4

Nilai information gain data nasabah 2.....................................

31

Tabel 2.5

Aturan Klasifikasi yang diperoleh............................................ 32

Tabel 2.6

Tabel Kotingensi Untuk Kekayaan..........................................

33

Tabel 2.7

Tabel Nilai Frekuensi Harapan Untuk Kekayaan....................

34

Tabel 2.8

Tabel Kotingensi Untuk abungan............................................. 36

Tabel 2.9

Tabel Nilai Frekuensi Harapan Untuk Tabungan....................

37

Tabel 2.10

Aturan Yang Paling Sederhana................................................

38

Tabel 2.11

Hasil Prediksi...........................................................................

39

Tabel 3.1

Deskripsi Atribut-Atribut Tabel Data Pelatihan....................... 34

Tabel 3.2

Deskripsi Atribut-Atribut Tabel Data Tes................................ 34

Tabel 3.3

Keluaran Contoh ArrayList……………..................................

51

Tabel 4.1

Confusion Matrix Pengujian I…..............................................

85

Tabel 4.2

Confusion Matrix Pengujian II.................................................

85

Tabel 4.3

Confusion Matrix Pengujian III................................................ 86

Tabel 4.4

Confusion Matrix Pengujian IV...............................................

Tabel 4.5

Confusion Matrix Pengujian V................................................. 86

Tabel 4.6

Pengujian Cross-validation......................................................

xiii

86

87

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR GAMBAR

Gambar 2.1

Langkah-langkah dalam Penambangan Data...........................

Gambar 2.2

Penambangan data dan teknologi database lainnya................. 9

Gambar 2.3

Pohon Keputusan...................................................................... 11

Gambar 2.4

Contoh Pohon Keputusan......................................................... 12

Gambar 2.5

Nilai positif dan negatif kejadian atribut tabungan..................

Gambar 2.6

Nilai positif dan negatif kejadian atribut kekayaan.................. 23

Gambar 2.7

Nilai positif dan negatif kejadian atribut pendapatan............... 25

Gambar 2.8

Pohon Awal..............................................................................

27

Gambar 2.9

Nilai positif dan negatif kejadian atribut tabungan..................

28

Gambar 2.10

Nilai positif dan negatif kejadian atribut pendapatan............... 30

Gambar 2.11

Pohon Percabangan..................................................................

Gambar 3.1

Desain Antarmuka Form Input Data Tabel.............................. 51

Gambar 3.2

Desain Antarmuka Form Detail Tabel.....................................

52

Gambar 3.3

Desain Antarmuka Form Penentuan Node Awal.....................

53

Gambar 3.4

Desain Antarmuka Form Pembuatan Pohon............................

54

Gambar 3.5

Desain Antarmuka Form Unpruned Aturan............................. 55

Gambar 3.6

Desain Antarmuka Form Aturan Default................................. 56

Gambar 3.7

Desain Antarmuka Form Simulasi...........................................

Gambar 3.8

Desain Antarmuka Form Pengujian Aturan............................. 58

Gambar 3.9

Desain Antarmuka Form Detail Sampel..................................

xiv

8

22

32

57

60

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 3.10

Desain Antarmuka Form Aturan-Aturan.................................

Gambar 3.11

Desain Antarmuka Form Aturan-Aturan Sederhana................ 61

Gambar 3.12

Desain Antarmuka Form Prediksi Sampel............................... 61

Gambar 4.1

Form Menu dan Form Input Data Tabel.................................

63

Gambar 4.2

Form Aturan Himpunan Tabel Pelatihan dan Tes...................

64

Gambar 4.3

Form Tentang Program Penambangan Data............................

64

Gambar 4.4

Kotak Peringatan 1...................................................................

65

Gambar 4.5

Kotak Peringatan 2...................................................................

65

Gambar 4.6

Form Data Tabel (Tabel Pelatihan) ......................................... 66

Gambar 4.7

Form Data Tabel (Tabel Tes) .................................................. 66

Gambar 4.8

Form Penentuan Node Awal....................................................

67

Gambar 4.9

Form Pembuatan Pohon..........................................................

70

Gambar 4.10

Progress Bar Proses Pembuatan Pohon...................................

71

Gambar 4.11

Gambar 4.11 Kotak Pesan 1................................................... 72

Gambar 4.12

Form Unpruned Aturan............................................................ 72

Gambar 4.13

Status Progress Bar Unpruned Aturan....................................

Gambar 4.14

Form Aturan Default................................................................ 75

Gambar 4.15

Kotak Pesan 2........................................................................... 76

Gambar 4.16

Kotak Pesan 3........................................................................... 76

Gambar 4.17

Form Simulasi..........................................................................

Gambar 4.18

Form Simulasi Setelah Tombol Buat Simulasi diklik.............. 78

Gambar 4.19

Form Detail Sampel.................................................................

Gambar 4.20

Kotak Pesan 4........................................................................... 78

xv

60

75

77

78

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 4.21

Form Pengujian Aturan............................................................

79

Gambar 4.22

Form Pengujian Aturan Setelah Tombol Uji Aturan diklik.....

80

Gambar 4.23

Form Detail Simulasi Aturan...................................................

81

Gambar 4.24

Kotak Pesan 5........................................................................... 81

Gambar 4.25

Kotak Pesan 6........................................................................... 82

Gambar 4.26

Form Aturan-Aturan Sederhana............................................... 82

Gambar 4.27

Form Prediksi Sampel..............................................................

Gambar 4.28

Form Prediksi Sampel Setelah Proses Prediksi........................ 84

xvi

83

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB I
PENDAHULUAN

A. Latar Belakang
Dalam proses Penerimaan Mahasiswa Baru (PMB), calon
mahasiswa harus menjalani serangkaian tes tertulis terlebih dahulu
sebelum mereka dinyatakan diterima sebagai mahasiswa Universitas
Sanata Dharma. Setelah mengikuti tes dan dinyatakan lulus, maka data
calon mahasiswa yang bersangkutan disimpan dalam suatu basis data
tersendiri. Untuk melengkapi persyaratan dan bukti bahwa calon
mahasiswa yang telah dinyatakan lulus tes tersebut benar-benar terdaftar
sebagai mahasiswa Universitas Sanata Dharma, maka calon mahasiswa
diwajibkan untuk melakukan daftar ulang. Setelah melakukan daftar ulang,
seorang mahasiswa secara resmi menjadi civitas academica di Universitas
Sanata Dharma. Yang menjadi masalah disini adalah bagaimana jika
mahasiswa yang telah dinyatakan lulus tersebut tidak melakukan daftar
ulang. Hal ini akan sangat merugikan bagi Universitas Sanata Dharma.
Suatu program studi pasti mempunyai jumlah kuota tertentu dalam
setiap periode penerimaan mahasiswa baru. Kuota ditentukan sebagai hasil
kesepakatan antara Ketua program studi (Kaprodi) dengan pimpinan
universitas. Untuk memenuhi kuota tersebut, Kaprodi menerima sejumlah
mahasiswa berdasar kuota yang ditetapkan. Pada kenyataannya tidak

1

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2

seluruh mahasiswa yang diterima, mendaftar ulang kembali sehingga
kuota tidak terpenuhi. Namun, ketika ditetapkan jumlah mahasiswa yang
diterima lebih dari kuota agar mahasiswa yang tidak mendaftar ulang
dapat terantisipasi, ada akibat jumlah pendaftar ulang melebihi kuota.
Masalah yang muncul adalah bagaimana menetapkan jumlah mahasiswa
yang diterima agar kuota yang ditetapkan bisa terpenuhi secara relatif
tetap.
Sebenarnya ada banyak solusi untuk mengatasi hal tersebut. Salah
satu caranya dengan penambangan data (data mining). Penambangan data
merupakan teknik untuk mengekstraksi informasi atau menemukan pola
yang penting atau menarik dari data yang ada dalam basis data yang besar.
Pendekatannya memakai algoritma pohon keputusan (decision trees).
Algoritma ini merupakan salah satu pendekatan klasifikasi, yaitu proses
pengelompokan data yang dipergunakan sebagai tujuan penambangan
data.
Dengan mempergunakan penambangan data ini diharapkan
Kaprodi

bisa

memprediksi

kuota

secara

lebih

tepat

dengan

memperhitungkan mahasiswa-mahasiswa yang diperkirakan tidak akan
melakukan daftar ulang. Kerugian akibat melesetnya prediksi jumlah
mahasiswa pendaftar ulang dan kesulitan dalam menangani masalah
inipun dapat dikurangi.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3

B. Perumusan Masalah
Berangkat dari latar belakang masalah yang telah dikemukakan di
atas, maka perumusan masalah dalam penelitian ini adalah bagaimana
mengimplementasikan
Universitas Sanata

penambangan
Dharma

untuk

data

pada

mengenali

basis

data

PMB

karakteristik

calon

mahasiswa yang tidak melakukan daftar ulang dengan mempergunakan
algoritma pohon keputusan ?

C. Batasan Masalah
Berdasarkan rumusan masalah yang akan diteliti, diperlukan
adanya pembatasan masalah. Hal ini dilakukan supaya penelitian lebih
terfokus pada inti dari permasalah yang akan diteliti. Oleh karena itu,
penulis memberi batasan penelitian sebagai berikut:
1. Pendekatan yang digunakan berupa pendekatan klasifikasi dengan
hanya memakai algoritma pohon keputusan (ID3 Quinland).
2. Input adalah data PMB yang diperoleh dari Biro Administrasi dan
Perencanaan Sistem Informasi (BAPSI). Universitas Sanata Dharma
dari tahun 2005 sampai 2006.
3. Program diimplementasikan menggunakan bahasa Visual Basic.net
dan MySQL
4. Outputnya berupa perkiraan atau prediksi siapa saja mahasiswa yang
tidak melakukan daftar ulang serta tingkat keberhasilan prediksi.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4

D. Tujuan
Dapat mengenali karakteristik calon mahasiswa yang tidak
melakukan daftar ulang.

E. Manfaat
Hasil klasifikasi dari penambangan data dapat digunakan oleh
Kaprodi

untuk

memprediksi

kuota

secara

lebih

tepat

dengan

memperhitungkan mahasiswa-mahasiswa yang diperkirakan tidak akan
melakukan daftar ulang.

F. Metodologi
1. Mencari data PMB Universitas Sanata Dharma dari tahun 2005
sampai 2006.
2. Melakukan pembersihan data terhadap data yang tidak konsisten
ataupun data yang kosong.
3. Implementasi teknik pohon keputusan pada data PMB dengan cara:
a.

Mengubah bentuk data menjadi model pohon.

b.

Mengubah node pohon menjadi aturan.

c.

Menyederhanakan aturan.

4. Uji coba Program

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5

G. Sistematika Pembahasan
BAB I. PENDAHULUAN
Pada bab ini akan dibahas mengenai latar belakang masalah,
rumusan masalah, batasan masalah, tujuan, manfaat, metodologi, dan
sistematika laporan.
BAB II. LANDASAN TEORI
Pada

bab

ini

disajikan

landasan

teori

yang

berisi

konsep/teori/temuan penelitian terdahulu/yang direplikasi yang berkaitan
dengan implementasi penambangan data. Secara khusus akan dibahas
algoritma pohon keputusan.
BAB III. PERANCANGAN SISTEM
Bab ini berisi tentang identifikasi sistem, pembersihan data,
integrasi data, transformasi data dan perancangan sistem secara umum.
BAB IV. IMPLEMENTASI PROGRAM
Bab ini berisi implementasi program penambangan data dan
analisis terhadap hasil penelitian yang telah dilakukan.
BAB V. KESIMPULAN DAN SARAN
Pada bab ini penulis memaparkan kesimpulan terhadap hasil
penelitian yang dilakukan serta memberikan saran-saran.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB II
LANDASAN TEORI

A. Penambangan Data
Beberapa pengertian penambangan data menurut sejumlah penulis
adalah sebagai berikut :
1. Definisi sederhana dari penambangan data adalah ekstraksi
informasi atau pola yang penting atau menarik dari data yang
berada di basis data yang besar (Yudho, 2003:1).
2. Penambangan data adalah suatu percobaan untuk memperoleh
informasi yang berguna yang tersimpan di dalam basis data yang
sangat besar (Mitra & Acharya, 2003:1).
3. Suatu proses yang mengidentifikasi hubungan dan pola-pola
tersembunyi dalam suatu data (Groth, 1998:4).
Dari pengertian-pengertian diatas, penambangan data dapat diartikan
sebagai suatu proses untuk mencari pola-pola yang tersembunyi dari basis
data yang besar sehingga didapatkan informasi yang menarik.

B. Proses Penambangan Data
Proses penambangan data tidak dapat dipisahkan dengan
Knowledge Discovery in Databases (KDD), karena penambangan data
merupakan salah satu tahap dari proses KDD yang mempergunakan
analisa data dan penggunaan algoritma, sehingga menghasilkan pola-pola

6

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7

khusus dalam basis data yang besar (Fayyad, Piatetsky-shapiro & Smyth,
1996: 40).
Berikut ini merupakan langkah-langkah dalam membangun
penambangan data :
1. Pembersihan Data. Proses ini dilakukan untuk membuang data
yang tidak konsisten dan derau yang ada dalam data tersebut,
seperti data yang tidak relevan, data yang salah ketik maupun data
kosong yang tidak diperlukan.
2. Integrasi data merupakan penggabungan tabel dari beberapa
sumber agar seluruh data terangkum dalam satu tabel utuh
(denormalisasi).
3. Seleksi dan transformasi data. Pada proses ini data yang ada dipilih
untuk selanjutnya diubah menjadi bentuk yang sesuai untuk
ditambang.
4. Penerapan teknik penambangan data adalah menerapkan algoritma
untuk mencari pola yang menarik
5. Evaluasi pola. Pola yang sudah didapat direpresentasikan kepada
pengguna akhir ke dalam bentuk yang menarik ataupun bentuk
yang mudah dipahami.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8

Tahap-tahap tersebut diilustrasikan ke dalam gambar berikut ini :

Pengetahuan
Evaluasi Pola

Data Mining
Tugas Data yang Relevan
Seleksi dan
Transformasi
Data Warehouse
Pembersihan
Data
Integrasi Data

Databases

Gambar 2.1 Langkah-langkah dalam Penambangan Data
Sumber: Jiawei Han and Micheline Kamber
http://www.cs.sfu.ca/~han/dmbook

Tidak dapat dipungkiri bahwa penambangan data

berkaitan erat

dengan data warehouse dan OLAP (Online Analytical Processing). Hal ini
dikarenakan teknologi yang ada pada data warehouse dan OLAP
digunakan

sepenuhnya

untuk

melakukan

penambangan

data

(Yudho,2003:2). Data warehouse merupakan sistem gudang data
sedangkan OLAP merupakan basis data khusus yang digunakan untuk
menunjang proses pengambilan keputusan. Berikut ini merupakan gambar
yang menunjukkan posisi masing-masing teknologi :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9

Increasing potential
to support
business decisions

End User

Making
Decisions
Data Presentation
Visualization Techniques
Data Mining
Information Discovery

Business
Analyst
Data
Analyst

Data Exploration
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
OLAP, MDA
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP

DBA

Gambar 2.2 Penambangan data dan teknologi database lainnya
Sumber: Jiawei Han and Micheline Kamber
http://www.cs.sfu.ca/~han/dmbook

Dari gambar di atas terlihat

bahwa teknologi data warehouse

digunakan untuk melakukan OLAP sedangkan penambangan data
digunakan untuk melakukan information discovery yang informasinya
lebih ditujukan untuk seorang Data Analysist dan Business Analysist.
Menurut Iko(2003;3) data warehouse merupakan data mentah untuk
penambangan data. Data warehouse sendiri secara periodik diisi data dari
OLTP(Online Transaction Processing) setelah menjalani pembersihan dan
integrasi data. OLTP merupakan basis data yang dipakai perusahaanperusahaan dalam melakukan operasi sehari-harinya seperti pencatatan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10

transaksi jual-beli, administrasi pengiriman barang, inventori, penggajian,
dan lain sebagainya.

C. Teknik Klasifikasi
Salah

satu

metode

yang

digunakan

dalam

membangun

penambangan data adalah teknik klasifikasi. Klasifikasi merupakan suatu
teknik yang menentukan kelas-kelas ataupun kategori dari suatu objek
berdasarkan sifat/atribut yang dimilikinya.
Algoritma teknik klasifikasi terdiri dari dua langkah, yaitu :
1. Membangun model
Tahap ini menggambarkan satu himpunan data dari kelas-kelas yang
telah ditentukan sebelumnya. Masing-masing sampel diasumsikan
sebagai kepunyaan suatu kelas yang sudah diketahui berdasarkan nilainilai

atributnya.

membangun

Sampel-sampel

model

disebut

data

himpunan

yang

digunakan

untuk

data

pelatihan.

Model

direpresentasikan sebagai clasification rules, pohon keputusan, atau
formula matematis.
2. Penggunaan model
Tujuan dari penggunaan model ini adalah untuk melakukan klasifikasi
suatu objek yang akan datang atau yang tidak dikenal. Penilaian
tingkat akurasi model menggunakan himpunan data tes. Label yang
sudah diketahui dari contoh himpunan data tes dibandingkan dengan
hasil klasifikasi dari model. Tingkat akurasi merupakan persentase dari

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11

contoh himpunan data tes yang diklasifikasikan secara benar oleh
model.

D. Pohon Keputusan
Ada beberapa model yang dapat dibangun pada teknik klasifikasi,
salah satunya adalah pohon keputusan. Pohon keputusan adalah suatu
diagram alir seperti struktur pohon, yang mana setiap titik (node) bagian
dalam merupakan sebuah atribut, setiap cabang (branch) menggambarkan
keluaran dari suatu logikal tes dan daun-daun (leaf node) menggambarkan
kelas-kelas atau suatu kelas distribusi. Node yang paling atas disebut akar
(root node). Untuk lebih jelasnya dapat dilihat pada gambar di bawah ini.

Gambar 2.3 Pohon Keputusan
Sumber:http://www2.cs.uregina.ca/~hamilton/courses/831/notes/ml/dtrees/
4_dtrees1.html

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12

Di bawah ini merupakan contoh dari suatu pohon keputusan yang
mempunyai konsep tentang pembelian komputer dari suatu toko
elektronik, yang mengindikasikan kemungkinan seorang pelanggan
membeli komputer atau tidak.

umur?
40

credit_rating?

ya
ya

tidak

baik sekali

ya

tidak

cukup

ya

Gambar 2.4 Contoh Pohon Keputusan
Sumber: Jiawei Han and Micheline Kamber
http://www.cs.sfu.ca/~han/dmbook

Ada banyak algoritma yang dapat digunakan dalam membuat pohon
keputusan. Salah satu algoritma yang dapat digunakan untuk membuat
pohon keputusan adalah algoritma ID3 Quinland (Hamilton,2000).
Langkah–langkah untuk melakukan prediksi dalam pohon keputusan
dengan menggunakan algoritma ID3 Quinland adalah sebagai berikut :
1. Mengubah bentuk data menjadi bentuk model pohon
Langkah-langkah dalam mengubah model data menjadi model pohon
adalah sebagai berikut :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13

a. Menentukan node terpilih/node awal
Atribut mana yang harus dipilih sebagai node awal adalah atribut
yang memungkinkan untuk mendapatkan pohon keputusan yang
paling kecil ukurannya atau atribut yang bisa memisahkan objek
menurut

kelasnya.

Secara

heuristik

dipilih

atribut

yang

menghasilkan node yang paling ”purest” (paling bersih). Jika
dalam satu cabang anggotanya berasal dari satu kelas maka cabang
ini disebut pure. Semakin pure suatu cabang semakin baik. Ukuran
purity dinyatakan dengan tingkat impurity. Salah satu kriteria
impurity adalah information gain. Jadi dalam memilih atribut untuk
memecah objek dalam beberapa kelas harus dipilih atribut yang
menghasilkan information gain paling besar.
Untuk menghitung information gain perlu dihitung dahulu nilai
informasi dalam satuan bits dari suatu kumpulan obyek. Cara
penghitungan dilakukan dengan menggunakan konsep entropi.
Entropi menyatakan impurity suatu kumpulan obyek. Berikut ini
merupakan definisi dari entropi suatu ruang sampel data (S) :
entropi(S) = − P+ log2 P+ − P- log2 P- .......................2.1
dimana :
S = ruang sampel data yang digunakan untuk data pelatihan
P+ = jumlah yang bersolusi positif (mendukung) pada sampel data
P- = jumlah yang bersolusi negatif (tidak mendukung) pada sampel
data

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14

Nilai rata-rata terbobot entropi suatu atribut dapat dirumuskan
sebagai berikut :
inst

E(A)=

⎛ ⎛ ni ⎞



∑ ⎜⎜ ⎜⎝ n ⎟⎠ × e ⎟⎟ ............................................................2.2
i =1



t

i



dimana :
inst = jumlah kejadian
ni

= jumlah data kejadian ke-i

nt = jumlah total data keseluruhan
ei

= nilai entropi kejadian ke-i

Sehingga information gain dapat di hitung dengan rumus:
Gain(A) = entropi(S) – E(A).......................................2.3
dimana :
entropi(S) = nilai entropi total dari atribut keputusan dalam ruang
sampel data S.
E(A)

= nilai rata-rata terbobot entropi suatu atribut

b. Menyusun Pohon
Penyusunan pohon dimulai dari node yang terpilih. Node yang
terpilih tersebut menjadi akar (root leaf) dari pohon yang akan
disusun. Langkah selanjutnya adalah memilih node daun (leaf
node) selanjutnya. Langkah yang dilakukan adalah :
1) Memilih node dari sampel data yang tidak homogen
2) Mencari nilai gain dari setiap atribut kecuali atribut yang telah
menjadi node diatasnya

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15

3) Pilih atribut yang mempunyai nilai gain paling besar sebagai
node daun selanjutnya.
Proses ini dilakukan secara terus menerus sampai setiap node daun
mempunyai sampel data yang homogen atau sampel data yang ada
kosong atau jika sampel masih tidak homogen (heterogen) tetapi
tidak ada lagi atribut yang tersisa.
2. Mengubah node pohon menjadi aturan
Pada tahap ini pohon yang telah selesai dibangun diubah menjadi
aturan if...then. Menurut Han dan Kamber (1998), node-node yang ada
merupakan anteseden pada suatu aturan, sedangkan nilai anteseden
merupakan

cabang-cabang

yang

terbentuk

pada

node.

Nilai

konsekuennya adalah :
ƒ

Jika sampel sudah homogen, maka nilai konsekuennya adalah
kejadian atribut target/keputusan pada sampel data tersebut.

ƒ

Jika sampel kosong, maka nilai konsekuennya merupakan kejadian
paling banyak dari atribut target pada keseluruhan sampel.

ƒ

Jika sampel masih heterogen tetapi atribut kondisi sudah habis,
maka nilai konsekuennya adalah kejadian pada atribut target yang
mempunyai jumlah kejadian paling banyak pada sampel yang
tersisa (Han dan Kamber, 1998)

3. Menyederhanakan aturan (pruning)
Tahap ini bertujuan untuk mengidentifikasi dan menghilangkan
anteseden atau aturan yang tidak diperlukan atau yang tidak

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16

meningkatkan akurasi klasifikasi. Aturan yang terbentuk menjadi lebih
sederhana dan lebih akurat. Menurut Hamilton (2000), langkahlangkah dalam penyederhanaan aturan adalah :
a. Menyederhanakan aturan dengan menghilangkan anteseden yang
tidak perlu. Langkah-langkah untuk menghilangkan anteseden
adalah sebagai berikut :
1) Membangun tabel kontingensi untuk setiap aturan yang
mengandung lebih dari satu anteseden. Aturan yang hanya
memiliki satu anteseden tidak dapat disederhanakan lebih
lanjut, jadi hanya aturan yang terdiri dari dua atau lebih
anteseden yang dapat disederhanakan. Tabel kontingensi
merupakan nilai frekuensi yang teramati. Tabel kontingensi
terdiri dari r baris dan c kolom. Total r baris dan c kolom dalam
tabel kontingensi disebut frekuensi marjinal. Untuk lebih
jelasnya, dapat dilihat pada tabel berikut ini :
Tabel 2.1 Tabel Kontingensi 2 x 2

R1
R2
Jumlah
Marjinal

C1
x11
x21
CT1 = x11+ x21

C2
x12
x22
CT2 = x1+x22

Jumlah Marjinal
R1T = x11 + x12
R2T = x21 + x22
T = x11+x12+x21+x22

Keterangan :
R1, R2, C1, C2 : nilai-nilai dari salah satu anteseden atau
kejadian pada atribut target

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17

x11, x12, x21, x22 : merepresentasikan frekuensi dari setiap
pasangan anteseden dengan konsekuen
R1T, R2T : jumlah marjinal dari baris
CT1, CT2 : jumlah marjinal dari kolom
T : jumlah keseluruhan frekuensi marjinal

2) Menguji data-data dari kriteria tertentu dengan menggunakan
uji kebaikan suai. Uji kebaikan suai ini berguna untuk
menentukan tingkat independensi pada suatu kriteria. Uji ini
didasarkan pada seberapa baik kesesuaian antara frekuensi
yang teramati dalam data dengan frekuensi harapan yang
didasarkan pada sebaran yang dihipotesiskan. Berikut ini
merupakan rumus untuk menghitung frekuensi harapan bagi
sembarang sel :
eij =

RiT • CTj
...........................................................2.4
T

dimana :
eij = nilai frekuensi harapan baris ke-i kolom ke-j
RiT = total baris ke-i
CTj = total kolom ke-j
T = jumlah keseluruhan frekuensi marjinal

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18

Uji kebaikan suai yang teramati dengan frekuensi harapan
didasarkan pada besaran :
baris kolom

χ =∑
2

i


j

(oij − eij )
..........................................2.5
eij
2

dimana :

χ 2 = nilai bagi peubah acak χ 2 yang sebaran penarikan
contohnya sangat menghampiri sebaran chi-square
i = baris
j = kolom
oij = nilai frekuensi teramati baris ke-i kolom ke-j
eij = nilai frekuensi harapan baris ke-i kolom ke-j

Jika frekuensi yang teramati sangat dekat dengan frekuensi
harapannya, nilai χ 2

akan kecil, hal ini menunjukkan

kesesuaian yang baik. Namun bila frekuensi yang teramati
berbeda cukup besar dari frekuensi harapannya, nilai χ 2 akan
besar sehingga kesesuaiannya buruk. Kesesuaian yang terjadi
akan mempengaruhi penerimaan atau penolakan hipotesis nol
atau Ho. Hipotesis nol atau Ho merupakan pernyataan atau
dugaan mengenai satu atau lebih populasi yang dirumuskan
dengan harapan akan ditolak. Kesesuaian yang baik akan
membawa pada penerimaan Ho, sedangkan kesesuaian yang

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

19

buruk akan membawa pada penolakan Ho. Penolakan Ho
mengakibatkan

penerimaan

hipotesis

alternatif,

yang

dilambangkan dengan H1 (Walpole, 1995).
3) Menghitung derajat kebebasan
Untuk menghitung derajat kebebasan digunakan rumus :
dk = (baris - 1)(kolom - 1)........................................2.6
4) Gunakan tabel chi-square dengan χ 2 dan derajat kebebasan
untuk

menentukan

apakah

anteseden

secara

individual

independen dengan konsekuennya. Untuk kepercayaan sebesar

α , jika :
ƒ

χ 2 > χ 2α dengan derajat kebebasan dk : tolak hipotesis
nol dan menerima alternatif hipotesis yaitu anteseden
secara individual dependen dengan konsekuen.

ƒ

χ 2 ≤ χ 2α dengan derajat kebebasan dk : terima hipotesis
nol yaitu anteseden yang secara individual independen
dengan konsekuen. χ 2α dapat diperoleh pada tabel chisquare.

b. Menyederhanakan aturan dengan membuang aturan-aturan yang
tidak perlu
Penyederhanaan aturan dilakukan untuk menghapus aturan yang
memiliki anteseden-anteseden yang sama dimana konsekuennya
sama dan untuk membuang aturan yang tidak perlu. Sebagai

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

20

contoh penyederhanaan aturan adalah dengan membuat aturan
default. Aturan default ini dibentuk dengan mencari konsekuen
paling banyak pada aturan tersebut. Aturan-aturan yang memiliki
konsekuen inilah yang nanti dijadikan aturan default.

E. Contoh Penerapan Algoritma Pohon Keputusan

Berikut ini merupakan contoh penyelesaian suatu kasus dengan
menggunakan algoritma pohon keputusan. Pada kasus ini data yang
digunakan adalah data nasabah (Daniel, 2005). Permasalahan yang ada
disini adalah bagaimana mengklasifikasi resiko kredit seorang nasabah.
Data nasabah ini terdiri dari empat kategori atribut, yaitu tabungan,
kekayaan,

pendapatan

dan

atribut

resiko

kredit

sebagai

atribut

keputusannya. Di bawah ini adalah data nasabah tersebut :
Tabel 2.2 Data Nasabah
Nasabah

1
2
3
4
5
6
7
8

Tabungan

Sedang
Rendah
Tinggi
Sedang
Rendah
Tinggi
Rendah
Sedang

Langkah-langkah

yang

Kekayaan

Tinggi
Rendah
Sedang
Sedang
Sedang
Tinggi
Rendah
Sedang

harus

Pendapatan
($ 1000s)
75
50
25
50
100
25
25
75

dilakukan

untuk

Resiko kredit

Baik
Buruk
Buruk
Baik
Baik
Baik
Buruk
Baik

menyelesaikan

permasalahan tersebut menggunakan algoritma pohon keputusan adalah :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

21

Langkah 1 : mengubah bentuk data menjadi bentuk model pohon

1. Menentukan node terpilih
Hal yang harus dilakukan pada tahap ini adalah menghitung nilai
entropi atribut keputusan yaitu atribut resiko kredit dan nilai entropi
setiap kejadian dengan rumus 2.1, selanjutnya menghitung nilai ratarata terbobot entropi setiap atribut menggunakan rumus 2.2 dan
selanjutnya menghitung nilai information gain dengan rumus 2.3.
Pilihlah atribut yang mempunyai nilai information gain paling besar,
atribut inilah yang akan menjadi node awal. Berikut ini merupakan
penghitungan information gain dari setiap atribut.
Langkah awal adalah menghitung nilai entropi total dari atribut
keputusan, yaitu :
Pada data nasabah terdapat dua keputusan yaitu baik atau buruk. Ada 5
keputusan resiko kredit baik dan ada 3 keputusan resiko kredit buruk.
Dimisalkan bahwa keputusan resiko kredit baik adalah positif
sedangkan keputusan resiko kredit buruk adalah negatif, maka dapat
dihitung entropinya :
entropi(S) = − P+ log2 P+ − P- log2 P-

3
5 3
5
= − log 2 − log 2
8
8 8
8
= 0.423795 + 0.530639
= 0.954

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

22

a. Atribut tabungan
1) Cari jumlah nilai positif dan negatif dari setiap kejadian pada
atribut tabungan, berikut ini penggambarannya :

Tabungan

Tinggi

1 positif
1 negatif

Sedang

3 positif

Rendah

1 positif
2 negatif

Gambar 2.5 Nilai positif dan negatif kejadian atribut tabungan

2) Hitung nilai entropi dari setiap kejadian, yaitu:
ƒ

Tabungan = Tinggi (e1)
e1 = − P+ log2 P+ − P- log2 P1
1 1
1
e1 = − log 2 − log 2
2
2 2
2
e1 = 0.5 + 0.5
e1 = 1

ƒ

Tabungan = Sedang (e2)
e2 = − P+ log2 P+ − P- log2 P3
3
e2 = − log 2 − 0
3
3
e2 = 0

ƒ

Tabungan = Rendah (e3)
e3 = − P+ log2 P+ − P- log2 P-

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

23

2
1 2
1
e3 = − log 2 − log 2
3
3 3
3
e3 = 0.528321 + 0.389975
e3 = 0.918
3) Hitung nilai rata-rata terbobot entropi atribut tabungan, yaitu:
inst

E=

⎛ ⎛ ni ⎞



∑ ⎜⎜ ⎜⎝ n ⎟⎠ × e ⎟⎟
i =1



t

i



⎛2
⎞ ⎛3
⎞ ⎛3

E = ⎜ × e1⎟ + ⎜ × e2 ⎟ + ⎜ × e3 ⎟
⎝8
⎠ ⎝8
⎠ ⎝8

E = 0.25 + 0 + 0.3444
E = 0.594
4) Hitung information gain dari atribut tabungan, yaitu:
Gain(A) = entropi(S) – E(A)
= 0.954 – 0.594
= 0.36
b. Atribut kekayaan
1) Cari jumlah nilai positif dan negatif dari setiap kejadian pada
atribut kekayaan, berikut ini penggambarannya :

Tinggi

Kekayaan

Sedang
Rendah

2 positif
3 positif
1 negatif
2 negatif

Gambar 2.6 Nilai positif dan negatif kejadian atribut kekayaan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

24

2) Hitung nilai entropi dari setiap kejadian, yaitu:
ƒ

Kekayaan = Tinggi (e1)
e1 = − P+ log2 P+ − P- log2 P2
2
e1 = − log 2 − 0
2
2
e1 = 0

ƒ

Kekayaan = Sedang (e2)
e2 = − P+ log2 P+ − P- log2 P-

3
3 1
1
e2 = − log 2 − log 2
4
4 4
4
e2 = 0.311278 + 0.5
e2 = 0.811
ƒ

Kekayaan = Rendah (e3)
e3 = − P+ log2 P+ − P- log2 P2
2
e3 = 0 − log 2
2
2
e3 = 0

3) Hitung nilai rata-rata terbobot entropi atribut kekayaan, yaitu:
inst

E=

⎛ ⎛ ni ⎞



∑ ⎜⎜ ⎜⎝ n ⎟⎠ × e ⎟⎟
i =1



t

i




⎞ ⎛2
⎞ ⎛4
⎛2
E = ⎜ × e1⎟ + ⎜ × e2 ⎟ + ⎜ × e3 ⎟

⎠ ⎝8
⎠ ⎝8
⎝8
E = 0 + 0.3934 + 0
E = 0.406

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

25

4) Hitung information gain dari atribut kekayaan, yaitu:
Gain(A) = entropi(S) – E(A)
= 0.954 – 0.406
= 0.548
c. Atribut pendapatan
1) Cari jumlah nilai positif dan negatif dari setiap kejadian pada
atribut pendapatan, berikut ini penggambarannya :

Pendapatan

25

1 positif
2 negatif

50

1 positif
1 negatif

75
100

2 positif

1 positif

Gambar 2.7 Nilai positif dan negatif kejadian atribut pendapatan

2) Hitung nilai entropi dari setiap kejadian, yaitu:
ƒ

Pendapatan = 25 (e1)
e1 = − P+ log2 P+ − P- log2 P1
1 2
2
e1 = − log 2 − log 2
3
3 3
3
e1 = 0.528321 + 0.389975
e1 = 0.918

ƒ

Pendapatan = 50 (e2)
e2 = − P+ log2 P+ − P- log2 P1
1 1
1
e2 = − log 2 − log 2
2
2 2
2

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

26

e2 = 0.5 + 0.5
e2 = 1
ƒ

Pendapatan = 75 (e3)
e3 = − P+ log2 P+ − P- log2 P2
2
e3 = − log 2 − 0
2
2
e3 = 0

ƒ

Pendapatan = 100 (e4)
e4 = − P+ log2 P+ − P- log2 P1
1
e4 = − log 2 − 0
1
1
e4 = 0

3) Hitung nilai rata-rata terbobot entropi atribut pendapatan, yaitu:
inst

E=

⎛ ⎛ ni ⎞



∑ ⎜⎜ ⎜⎝ n ⎟⎠ × e ⎟⎟
i =1



t

i




⎞ ⎛1
⎞ ⎛2
⎛3
⎞ ⎛2
E = ⎜ × e1⎟ + ⎜ × e2 ⎟ + ⎜ × e3 ⎟ + ⎜ × e4 ⎟

⎠ ⎝8
⎠ ⎝8
⎝8
⎠ ⎝8
E = 0.34425 + 0.25 + 0 + 0
E = 0.594
4) Hitung information gain dari atribut pendapatan, yaitu:
Gain(A) = entropi(S) – E(A)
= 0.954 – 0.594
= 0.36

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

27

Dari penghitungan nilai information gain setiap atribut tersebut,
didapatkan tabel information gain sebagai berikut :
Tabel 2.3 Nilai information gain data nasabah 1
Atribut
Tabungan
Kekayaan
Pendapatan

Nilai information gain
0.360
0.548
0.360

Pada tabel tersebut terlihat bahwa nilai information gain paling besar
dimiliki oleh atribut kekayaan sebesar 0.548. Atribut kekayaan inilah
yang menjadi node awal dalam penyusunan pohon keputusan.
2. Menyusun pohon
Untuk menyusun suatu pohon ditentukan suatu atribut sebagai node
awal. Dalam kasus ini, didapatkan node awal yaitu atribut kekayaan.
Berikut ini merupakan pohon awal yang terbentuk :

Kekayaan

Tinggi

Sedang

Rendah

baik
baik

baik
baik
baik
buruk

buruk
buruk

Gambar 2.8 Pohon Awal

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

28

Langkah selanjutnya adalah mencari atribut lain untuk menjadi node
selanjutnya. Dari pohon awal tersebut, terdapat sampel data yang tidak
homogen yaitu atribut kekayaan dengan kejadian sedang. Maka yang
menjadi node percabangan adalah node pada kejadian ini. Untuk
mencari node selanjutnya, dilakukan penghitungan untuk mencari nilai
information gain setiap atribut kecuali atribut yang menjadi node
diatasnya.
Berikut ini penghitungannya :
a. Atribut tabungan
1) Cari jumlah nilai positif dan negatif dari setiap kejadian pada
atribut tabungan, berikut ini penggambarannya :

Tinggi
1 negatif

Tabungan

Sedang
Rendah

2 positif

1 positif

Gambar 2.9 Nilai positif dan negatif kejadian atribut tabungan

2) Hitung nilai entropi dari setiap kejadian, yaitu:
ƒ

Tabungan = Tinggi (e1)
e1 = − P+ log2 P+ − P- log2 P1
1
e1 = 0 − log 2
1
1
e1 = 0

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

29

ƒ

Tabungan = Sedang (e2)
e2 = − P+ log2 P+ − P- log2 P2
2
e2 = − log 2 − 0
2
2
e2 = 0

ƒ

Tabungan = Rendah (e3)
e3 = − P+ log2 P+ − P- log2 P1
1
e3 = − log 2 − 0
1
1
e3 = 0

3) Hitung nilai rata-rata terbobot entropi atribut tabungan, yaitu:
inst

E=

⎛ ⎛ ni ⎞



∑ ⎜⎜ ⎜⎝ n ⎟⎠ × e ⎟⎟
i =1



i

t



⎛1
⎞ ⎛2
⎞ ⎛1

E = ⎜ × e1⎟ + ⎜ × e2 ⎟ + ⎜ × e3 ⎟
⎝4
⎠ ⎝4
⎠ ⎝4

E=0+0+0
E=0
4) Hitung information gain dari atribut tabungan, yaitu:
Gain(A) = entropi(S) – E(A)
= 0.954 – 0
= 0.954
b. Atribut pendapatan
1) Cari jumlah nilai positif dan negatif dari setiap kejadian pada
atribut pendapatan, berikut ini penggambarannya :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

30

25
50
Pendapatan

75
100

1 negatif

1 positif

1 positif

1 positif

Gambar 2.10 Nilai positif dan negatif kejadian atribut pendapatan

2) Hitung nilai entropi dari setiap kejadian, yaitu:
ƒ

Pendapatan = 25 (e1)
e1 = − P+ log2 P+ − P- log2 P1
1
e1 = 0 − log 2
1
1
e1 = 0

ƒ

Pendapatan = 50 (e2)
e2 = − P+ log2 P+ − P- log2 P1
1
e2 = − log 2 − 0
1
1
e2 = 0

ƒ

Pendapatan = 75 (e3)
e3 = − P+ log2 P+ − P- log2 P1
1
e3 = − log 2 − 0
1
1
e3 = 0

ƒ

Pendapatan = 100 (e4)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

31

e4 = − P+ log2 P+ − P- log2 P1
1
e4 = − log 2 − 0
1
1
e4 = 0
3) Hitung nilai rata-rata terbobot entropi atribut pendapatan, yaitu:
inst

E=

⎛ ⎛ ni ⎞



∑ ⎜⎜ ⎜⎝ n ⎟⎠ × e ⎟⎟
i =1



i

t




⎞ ⎛1
⎞ ⎛1
⎞ ⎛1
⎛1
E = ⎜ × e1⎟ + ⎜ × e2 ⎟ + ⎜ × e3 ⎟ + ⎜ × e4 ⎟

⎠ ⎝4
⎠ ⎝4
⎠ ⎝4
⎝4
E=0+0+0+0
E=0
4) Hitung information gain dari atribut pendapatan, yaitu:
Gain(A) = entropi(S) – E(A)
= 0.954 – 0
= 0.954
Dari penghitungan nilai information gain tersebut didapat suatu tabel
sebagai berikut :
Tabel 2.4 Nilai information gain data nasabah 2
Atribut
Tabungan
Pendapatan

Nilai information gain
0.954
0.954

Pada tabel tersebut terlihat bahwa nilai information gain paling besar
dimiliki oleh atribut yaitu sebesar 0.954, dipilih salah satu atribut yaitu
tabungan sebagai node berikutnya, sehingga pohon keputusannya
menjadi sebagai berikut:

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

32

Kekayaan

Tinggi

Sedang

baik
baik

Rendah

buruk
buruk

Tabungan

Tinggi

Sedang

buruk

baik
baik

Rendah
baik

Gambar 2.11 Pohon Percabangan

Langkah 2 : mengubah node pohon menjadi aturan

Pada tahap ini, node pohon yang terbentuk di ubah ke dalam aturan
if...then, yaitu :
Tabel 2.5 Aturan Klasifikasi yang diperoleh
Aturan
1
2
3
4
5

If

Kekayaan = Tinggi
Kekayaan = Rendah
Kekayaan = Sedang ^ Tabungan = Tinggi
Kekayaan = Sedang ^ Tabungan = Sedang
Kekayaan = Sedang ^ Tabungan = Rendah

Then
Baik
Buruk
Buruk
Baik
Baik

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

33

Langkah 3 : menyederhanakan aturan

1. Menyederhanakan aturan dengan menghilangkan anteseden yang tidak
perlu
Aturan yang perlu disederhanakan adalah aturan yang memiliki
anteseden lebih dari satu yaitu aturan nomor 3 sampai dengan nomor 5
yang melibatkan anteseden kekayaan dan tabungan. Pada tahap ini,
tabel Chi-Square digunakan untuk melakukan uji hipotesis. Data yang
ada telah dikalikan dengan nilai lima (5) agar data dapat digunakan
pada

uji

tabel

Chi-Square

dan

diasumsikan

nilai

tingkat

kepercayaannya ( α ) sebesar 0.05.
a. Hipotesis Ho : kekayaan dan resiko kredit independen
1) Membuat tabel kotingensi
Tabel 2.6 Tabel Kotingensi Untuk Kekayaan

Tinggi
Sedang
Rendah
Jumlah Marjinal

Resiko kredit Resiko kredit
(Baik)
(Buruk)
10
0
15
5
0
10
25
15

Jumlah
Marjinal
10
20
10
40

2) Nilai Frekuensi Harapan (eij)

Selanjutnya menggunakan rumus 2.4.3 untuk menghitung nilai
frekuensi harapan tiap sel, yaitu :
Frekuensi harapan pada sel X11 :
e11 =

10 × 25
= 6.25
40

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

34

Frekuensi harapan pada sel X12 :
e12 =

10 × 15
= 3.75
40

Frekuensi harapan pada sel X21 :
e21 =

20 × 25
= 12.5
40

Frekuensi harapan pada sel X22 :
e22 =

20 × 15
= 7.5
40

Frekuensi harapan pada sel X31 :
e31 =

10 × 25
= 6.25
40

Frekuensi harapan pada sel X32 :
e32 =

10