Penerapan Data Mining Menggunakan Algoritme C4.5 dalam Penentuan Jurusan Siswa SMA Negeri 2 Surakarta AWAL
perpustakaan.uns.ac.id
digilib.uns.ac.id
PENERAPAN DATA MINING MENGGUNAKAN ALGORITME
C4.5 DALAM PENENTUAN JURUSAN SISWA
SMA NEGERI 2 SURAKARTA
oleh
NADYA AL FITRIANI
M0111060
SKRIPSI
ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar
Sarjana Sains Matematika
PROGRAM STUDI MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
commit to user
SURAKARTA
2016
perpustakaan.uns.ac.id
digilib.uns.ac.id
PENERAPAN DATA MINING MENGGUNAKAN ALGORITME
C4.5 DALAM PENENTUAN JURUSAN SISWA
SMA NEGERI 2 SURAKARTA
oleh
NADYA AL FITRIANI
M0111060
SKRIPSI
ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar
Sarjana Sains Matematika
PROGRAM STUDI MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
commit to user
SURAKARTA
2016
i
perpustakaan.uns.ac.id
digilib.uns.ac.id
commit to user
ii
perpustakaan.uns.ac.id
digilib.uns.ac.id
ABSTRAK
Nadya Al Fitriani. 2016. PENERAPAN DATA MINING MENGGUNAKAN
ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA
SMA NEGERI 2 SURAKARTA. Fakultas Matematika dan Ilmu Pengetahuan
Alam. Universitas Sebelas Maret.
Data mining merupakan proses eksplorasi terhadap data yang berukuran
besar untuk menemukan pola dalam pengambilan keputusan. Salah satu teknik
dalam pengambilan keputusan adalah klasifikasi. Klasifikasi adalah teknik dalam
data mining dengan menerapkan metode pohon keputusan untuk membentuk
data dalam grup atau kelas. Algoritme yang digunakan dalam pohon keputusan
adalah algoritme C4.5.
Pada dunia pendidikan, proses penentuan jurusan siswa adalah hal penting yang perlu diputuskan dengan benar. Tujuan dalam penelitian ini untuk
menentukan penjurusan siswa SMA menggunakan algoritme C4.5. Berdasarkan
pembahasan dapat disimpulkan bahwa algoritme C4.5 dapat digunakan dalam
klasifikasi penjurusan karena memiliki akurasi tinggi.
Dalam penelitian ini, penentuan jurusan diperoleh dengan menghitung jumlah kasus IPA dan IPS tiap atribut, entropy, gain, split info dan gain ratio. Hasil
pengujian terhadap nilai siswa SMA Negeri 2 Surakarta pada data testing yang
dilakukan sebanyak lima kali secara random, diperoleh rata-rata persentase keakuratan sebesar 86,82% dengan recall 92,19% dan presisi 88,17%. Sedangkan
hasil pengujian secara keseluruhan presentase keakuratan sebesar 89,78%.
Kata kunci: data mining, klasifikasi, algoritme C4.5
commit to user
iii
perpustakaan.uns.ac.id
digilib.uns.ac.id
ABSTRACT
Nadya Al Fitriani. 2016. APLICATION OF C4.5 ALGORITHM USING
DATA MINING IN DETERMINING MAJORS OF STUDENTS
HIGH SCHOOL 2 SURAKARTA. Faculty of Mathematics and Natural Sciences,
Sebelas Maret University.
Data mining is the process of exploration of the large-sized data to determine
patterns in decision-making. One techniques in decision making is classification.
Classification is a technique in data mining by applying decision tree method for
forming into groups or classes. Algorithm C4.5 is used in the algorithm decision
tree.
In education areas, the process of determining the student major is the
important thing to be decided correctly. The purpose of this research is to determine the placement of students SMA using algorithms C4.5. Based on the
discussion it can be concluded that the algorithm is C4.5 can be used in the
classification of majors because it has high accuracy.
In this study, the determination of the majors is obtained by counting the
number of cases of each attribute science and social studies, entropy, gain, split
info, and gain ratio. The test results of students at SMA Negeri 2 Surakarta
on testing data is performed five times randomly, which is obtained an average
percentage of 86.82% accuracy with recall 92.19%, and precision 88.17% . While
the test results overall percentage accuracy of 89.78%.
Keywords: data mining, classification, algorithm c4.5
commit to user
iv
perpustakaan.uns.ac.id
digilib.uns.ac.id
MOTTO
Jika engkau berat untuk menjalani ujian yang berat, ingatlah Allah tidak
membebani seseorang melainkan sesuai dengan kesanggupannya.
(QS. Al-Baqarah[2] : 286)
commit to user
v
perpustakaan.uns.ac.id
digilib.uns.ac.id
PERSEMBAHAN
Saya persembahkan karya ini untuk Kedua Orangtua Saya
commit to user
vi
perpustakaan.uns.ac.id
digilib.uns.ac.id
KATA PENGANTAR
Segala puji dan syukur penulis panjatkan kepada Allah SWT yang telah
melimpahkan rahmat dan hidayah-Nya sehingga penulis berhasil menyelesaikan
skripsi ini. Dalam penyusunan skripsi ini penulis telah mendapatkan bantuan
dari banyak pihak. Oleh karena itu penulis mengucapkan terima kasih kepada
1. Bapak Drs. Isnandar Slamet, M.Sc., Ph.D. sebagai Pembimbing I yang
telah memberikan bimbingan materi dan memberikan arahan dalam menyelesaikan skripsi.
2. Prof. Drs. Tri Atmojo K, M.Sc., Ph.D. sebagai Pembimbing II yang telah
memberi bimbingan, motivasi dan arahan dalam penulisan skripsi.
3. Teman-teman yang telah memberikan saran dan semangat.
Penulis berharap semoga laporan ini bermanfaat.
Surakarta, Agustus 2016
Penulis
commit to user
vii
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR ISI
HALAMAN JUDUL . . . . . . . . . . . . . . . . . . . . . . . . . . . .
i
ABSTRAK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iv
MOTTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
v
PERSEMBAHAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vi
KATA PENGANTAR . . . . . . . . . . . . . . . . . . . . . . . . . . .
vii
DAFTAR ISI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ix
DAFTAR TABEL . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
x
DAFTAR GAMBAR . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xi
PENDAHULUAN
1
1.1
Latar Belakang . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Perumusan Masalah
. . . . . . . . . . . . . . . . . . . . . . . . .
3
1.3
Batasan Masalah . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4
Tujuan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.5
Manfaat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
ABSTRACT
I
II LANDASAN TEORI
4
2.1
Tinjauan Pustaka . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2.2
Teori Penunjang . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2.1
Data Mining
. . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2.2
Klasifikasi . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.2.3
Pohon Keputusan .commit
. . . .to. user
. . . . . . . . . . . . . . . . .
7
2.2.4
Algoritme C4.5 . . . . . . . . . . . . . . . . . . . . . . . .
8
viii
perpustakaan.uns.ac.id
2.3
digilib.uns.ac.id
2.2.5
Pengujian . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.2.6
Software Tanagra . . . . . . . . . . . . . . . . . . . . . . .
11
Kerangka Pemikiran . . . . . . . . . . . . . . . . . . . . . . . . .
12
III METODE PENELITIAN
14
IV PEMBAHASAN
16
4.1
Deskripsi Atribut Data . . . . . . . . . . . . . . . . . . . . . . . .
16
4.2
Analisis Algoritme C4.5 . . . . . . . . . . . . . . . . . . . . . . .
16
4.3
Interpretasi Pohon Klasifikasi . . . . . . . . . . . . . . . . . . . .
25
4.4
Pengujian dan Evaluasi . . . . . . . . . . . . . . . . . . . . . . . .
26
V PENUTUP
30
5.1
Kesimpulan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
5.2
Saran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
DAFTAR PUSTAKA
31
LAMPIRAN
32
Lampiran 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
Lampiran 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
commit to user
ix
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR TABEL
2.1
Confusion Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
4.1
Atribut Nilai Siswa . . . . . . . . . . . . . . . . . . . . . . . . . .
16
4.2
Perhitungan Node 1
. . . . . . . . . . . . . . . . . . . . . . . . .
17
4.3
Perhitungan Node 2 Biologi C . . . . . . . . . . . . . . . . . . . .
19
4.4
Perhitungan Node 3 Biologi C Kimia B . . . . . . . . . . . . . . .
21
4.5
Perhitungan Node 4.1 Biologi C Kimia B Ekonomi C . . . . . . .
22
4.6
Perhitungan Node 4.2 Biologi C Kimia B Ekonomi B . . . . . . .
24
4.7
Hasil Pengujian Data Training secara Keseluruhan . . . . . . . .
26
4.8
Hasil Testing 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
4.9
Hasil Testing 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
4.10 Hasil Testing 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
4.11 Hasil Testing 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
4.12 Hasil Testing 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
4.13 Hasil Evaluasi . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
commit to user
x
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR GAMBAR
2.1
Menu dalam Tanagra . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.2
Diagram Alur Algoritme C4.5 . . . . . . . . . . . . . . . . . . . .
13
4.1
Pohon Keputusan Perhitungan Biologi C Kimia B . . . . . . . . .
25
commit to user
xi
digilib.uns.ac.id
PENERAPAN DATA MINING MENGGUNAKAN ALGORITME
C4.5 DALAM PENENTUAN JURUSAN SISWA
SMA NEGERI 2 SURAKARTA
oleh
NADYA AL FITRIANI
M0111060
SKRIPSI
ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar
Sarjana Sains Matematika
PROGRAM STUDI MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
commit to user
SURAKARTA
2016
perpustakaan.uns.ac.id
digilib.uns.ac.id
PENERAPAN DATA MINING MENGGUNAKAN ALGORITME
C4.5 DALAM PENENTUAN JURUSAN SISWA
SMA NEGERI 2 SURAKARTA
oleh
NADYA AL FITRIANI
M0111060
SKRIPSI
ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar
Sarjana Sains Matematika
PROGRAM STUDI MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
commit to user
SURAKARTA
2016
i
perpustakaan.uns.ac.id
digilib.uns.ac.id
commit to user
ii
perpustakaan.uns.ac.id
digilib.uns.ac.id
ABSTRAK
Nadya Al Fitriani. 2016. PENERAPAN DATA MINING MENGGUNAKAN
ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA
SMA NEGERI 2 SURAKARTA. Fakultas Matematika dan Ilmu Pengetahuan
Alam. Universitas Sebelas Maret.
Data mining merupakan proses eksplorasi terhadap data yang berukuran
besar untuk menemukan pola dalam pengambilan keputusan. Salah satu teknik
dalam pengambilan keputusan adalah klasifikasi. Klasifikasi adalah teknik dalam
data mining dengan menerapkan metode pohon keputusan untuk membentuk
data dalam grup atau kelas. Algoritme yang digunakan dalam pohon keputusan
adalah algoritme C4.5.
Pada dunia pendidikan, proses penentuan jurusan siswa adalah hal penting yang perlu diputuskan dengan benar. Tujuan dalam penelitian ini untuk
menentukan penjurusan siswa SMA menggunakan algoritme C4.5. Berdasarkan
pembahasan dapat disimpulkan bahwa algoritme C4.5 dapat digunakan dalam
klasifikasi penjurusan karena memiliki akurasi tinggi.
Dalam penelitian ini, penentuan jurusan diperoleh dengan menghitung jumlah kasus IPA dan IPS tiap atribut, entropy, gain, split info dan gain ratio. Hasil
pengujian terhadap nilai siswa SMA Negeri 2 Surakarta pada data testing yang
dilakukan sebanyak lima kali secara random, diperoleh rata-rata persentase keakuratan sebesar 86,82% dengan recall 92,19% dan presisi 88,17%. Sedangkan
hasil pengujian secara keseluruhan presentase keakuratan sebesar 89,78%.
Kata kunci: data mining, klasifikasi, algoritme C4.5
commit to user
iii
perpustakaan.uns.ac.id
digilib.uns.ac.id
ABSTRACT
Nadya Al Fitriani. 2016. APLICATION OF C4.5 ALGORITHM USING
DATA MINING IN DETERMINING MAJORS OF STUDENTS
HIGH SCHOOL 2 SURAKARTA. Faculty of Mathematics and Natural Sciences,
Sebelas Maret University.
Data mining is the process of exploration of the large-sized data to determine
patterns in decision-making. One techniques in decision making is classification.
Classification is a technique in data mining by applying decision tree method for
forming into groups or classes. Algorithm C4.5 is used in the algorithm decision
tree.
In education areas, the process of determining the student major is the
important thing to be decided correctly. The purpose of this research is to determine the placement of students SMA using algorithms C4.5. Based on the
discussion it can be concluded that the algorithm is C4.5 can be used in the
classification of majors because it has high accuracy.
In this study, the determination of the majors is obtained by counting the
number of cases of each attribute science and social studies, entropy, gain, split
info, and gain ratio. The test results of students at SMA Negeri 2 Surakarta
on testing data is performed five times randomly, which is obtained an average
percentage of 86.82% accuracy with recall 92.19%, and precision 88.17% . While
the test results overall percentage accuracy of 89.78%.
Keywords: data mining, classification, algorithm c4.5
commit to user
iv
perpustakaan.uns.ac.id
digilib.uns.ac.id
MOTTO
Jika engkau berat untuk menjalani ujian yang berat, ingatlah Allah tidak
membebani seseorang melainkan sesuai dengan kesanggupannya.
(QS. Al-Baqarah[2] : 286)
commit to user
v
perpustakaan.uns.ac.id
digilib.uns.ac.id
PERSEMBAHAN
Saya persembahkan karya ini untuk Kedua Orangtua Saya
commit to user
vi
perpustakaan.uns.ac.id
digilib.uns.ac.id
KATA PENGANTAR
Segala puji dan syukur penulis panjatkan kepada Allah SWT yang telah
melimpahkan rahmat dan hidayah-Nya sehingga penulis berhasil menyelesaikan
skripsi ini. Dalam penyusunan skripsi ini penulis telah mendapatkan bantuan
dari banyak pihak. Oleh karena itu penulis mengucapkan terima kasih kepada
1. Bapak Drs. Isnandar Slamet, M.Sc., Ph.D. sebagai Pembimbing I yang
telah memberikan bimbingan materi dan memberikan arahan dalam menyelesaikan skripsi.
2. Prof. Drs. Tri Atmojo K, M.Sc., Ph.D. sebagai Pembimbing II yang telah
memberi bimbingan, motivasi dan arahan dalam penulisan skripsi.
3. Teman-teman yang telah memberikan saran dan semangat.
Penulis berharap semoga laporan ini bermanfaat.
Surakarta, Agustus 2016
Penulis
commit to user
vii
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR ISI
HALAMAN JUDUL . . . . . . . . . . . . . . . . . . . . . . . . . . . .
i
ABSTRAK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iv
MOTTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
v
PERSEMBAHAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vi
KATA PENGANTAR . . . . . . . . . . . . . . . . . . . . . . . . . . .
vii
DAFTAR ISI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ix
DAFTAR TABEL . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
x
DAFTAR GAMBAR . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xi
PENDAHULUAN
1
1.1
Latar Belakang . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Perumusan Masalah
. . . . . . . . . . . . . . . . . . . . . . . . .
3
1.3
Batasan Masalah . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4
Tujuan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.5
Manfaat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
ABSTRACT
I
II LANDASAN TEORI
4
2.1
Tinjauan Pustaka . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2.2
Teori Penunjang . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2.1
Data Mining
. . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2.2
Klasifikasi . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.2.3
Pohon Keputusan .commit
. . . .to. user
. . . . . . . . . . . . . . . . .
7
2.2.4
Algoritme C4.5 . . . . . . . . . . . . . . . . . . . . . . . .
8
viii
perpustakaan.uns.ac.id
2.3
digilib.uns.ac.id
2.2.5
Pengujian . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.2.6
Software Tanagra . . . . . . . . . . . . . . . . . . . . . . .
11
Kerangka Pemikiran . . . . . . . . . . . . . . . . . . . . . . . . .
12
III METODE PENELITIAN
14
IV PEMBAHASAN
16
4.1
Deskripsi Atribut Data . . . . . . . . . . . . . . . . . . . . . . . .
16
4.2
Analisis Algoritme C4.5 . . . . . . . . . . . . . . . . . . . . . . .
16
4.3
Interpretasi Pohon Klasifikasi . . . . . . . . . . . . . . . . . . . .
25
4.4
Pengujian dan Evaluasi . . . . . . . . . . . . . . . . . . . . . . . .
26
V PENUTUP
30
5.1
Kesimpulan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
5.2
Saran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
DAFTAR PUSTAKA
31
LAMPIRAN
32
Lampiran 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
Lampiran 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
commit to user
ix
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR TABEL
2.1
Confusion Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
4.1
Atribut Nilai Siswa . . . . . . . . . . . . . . . . . . . . . . . . . .
16
4.2
Perhitungan Node 1
. . . . . . . . . . . . . . . . . . . . . . . . .
17
4.3
Perhitungan Node 2 Biologi C . . . . . . . . . . . . . . . . . . . .
19
4.4
Perhitungan Node 3 Biologi C Kimia B . . . . . . . . . . . . . . .
21
4.5
Perhitungan Node 4.1 Biologi C Kimia B Ekonomi C . . . . . . .
22
4.6
Perhitungan Node 4.2 Biologi C Kimia B Ekonomi B . . . . . . .
24
4.7
Hasil Pengujian Data Training secara Keseluruhan . . . . . . . .
26
4.8
Hasil Testing 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
4.9
Hasil Testing 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
4.10 Hasil Testing 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
4.11 Hasil Testing 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
4.12 Hasil Testing 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
4.13 Hasil Evaluasi . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
commit to user
x
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR GAMBAR
2.1
Menu dalam Tanagra . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.2
Diagram Alur Algoritme C4.5 . . . . . . . . . . . . . . . . . . . .
13
4.1
Pohon Keputusan Perhitungan Biologi C Kimia B . . . . . . . . .
25
commit to user
xi