ANALISIS KOMPARASI ALGORITMA KLASIFIKASI (1)

ANALISIS KOMPARASI ALGORITMA KLASIFIKASI DATA MINING
UNTUK PREDIKSI PENJURUSAN SISWA
SEKOLAH MENENGAH ATAS (SMA)
Dwi Prasetyo
Universitas Dian Nuswantoro, Semarang
Email : dwiprasetyo919@gmail.com

ABSTRAK
Penjurusan merupakan salah satu faktor penting di Sekolah Menengah Atas (SMA). Dikarenakan
akan mempengaruhi hasil belajar dan menyangkut karir dari peserta didik dimasa depan. Oleh
karena itu dibutuhkan metode untuk menangani permasalahan tersebut. Data mining merupakan
metode untuk mengolah data dari data yang tidak mempunyai arti menjadi sebuah informasi yang
berguna. Salah satu algoritma data mining adalah algoritma klasifikasi. Berbagai algoritma
klasifikasi yang ada bisa digunakan untuk mengukur tingkat akurasi. Penelitian ini menggunakan
algoritma decision tree dan naïve bayes. Data yang digunakan sebanyak 365 peserta didik di SMA
Kesatrian 1 Semarang. Hasil dari penelitian untuk mengetahui algoritma klasifikasi yang paling
akurat untuk menentukan penjurusan peserta didik SMA.
Kata kunci : peserta didik, decision tree, naïve bayes, akurasi
I. PENDAHULUAN
Penjurusan peserta didik merupakan salah


oleh sarana dan prasarana yang tersedia.

satu faktor penting dalam kegiatan belajar di

Penjurusan tersebut antara lain jurusan

Sekolah Menengah Atas (SMA). Salah

Matematika dan Ilmu Pengetahuan Alam

penjurusan akan menyebabkan peserta didik

(MIPA), Ilmu Bahasa, dan Ilmu Pengetahuan

kurang semangat dalam mengikuti kegiatan

Sosial (IPS)[1]. Untuk MIPA mempunyai

belajar akibatnya mempengaruhi hasil belajar


mata pelajaran inti antara lain: Matematika,

dan karir di masa depan. Pihak akademik

Bilogi, Fisika dan Kimia. Mata pelajaran

perlu cermat dan perlu penanganan khusus

untuk Ilmu Bahasa adalah: Bahasa Indonesia

untuk menentukan penjurusan peserta didik

dan Bahasa Inggris. Sedangkan IPS adalah

yang terarah dan tepat sasaran. Penjurusan di

Sejarah, Ekonomi, Geografi dan Sosiologi.

Sekolah


Menengah

Atas

memiliki

penjurusan yang berbeda beda tergantung
dari pihak sekolah. Biasanya dipengaruhi

Mengingat pentingnya penjurusan untuk
meminimalisir dampak yang timbul dari
kesalahan penjurusan diperlukan sebuah

metode

untuk

tersebut.

menangani


Salah

satu

permasalah

metode

melibatkan dua algoritma klasifikasi naïve

untuk

bayes dan decision tree, seperti penelitian

menanganinya adalah Data Mining. Data

yang dilakukan oleh Sa’diyah Noor Novita

Mining merupakan sebuah metode untuk


Alfisahrin [7], mengoptimalisasi klasifikasi

pengolahan data. Data diolah sehingga

penyakit hati. Dalam penelitian ini, dilakukan

menghasilkan

analisis

informasi

[2].

Berbagai

dari

kedua


algoritma

algoritma data mining yang ada seperti

mengetahui tingkat

algoritma klasifikasi sangat cocok untuk

sehingga bisa digunakan untuk penentuan

diterapkan pada permasalahan penentuan

penjurusan siswa tingkat Sekolah Menengah

penjurusan peserta didik tingkat Sekolah

Atas.

Menengah


Atas.

Algoritma

Alasan peneliti menggunakan naïve bayes
dan decision tree dikarena banyak peneliti
menerapkannya diberbagai bidang. Seperti
yang

dilakukan

oleh

Shiju

Sathyadevan [3] menerapkan naïve bayes
untuk meningkatkan dokumen klasifikasi.
Jitendra Agrawal [4] menerapkan naïve
bayes


untuk

berdasarkan

memodifikasi
spasial

yang baik

Klasifikasi

diantaranya Naïve Bayes dan Decision Tree.

penelitian

akurasi

untuk


kepadatan

pengelompokan

II. LANDASAN TEORI
2.1 DECISION TREE / C4.5
Decision Tree adalah salah satu

teknik yang paling banyak digunakan
untuk

klasifikasi.

Dikarenakan

mempunyai akurasi yang kompetitif
dan sangat efisien. Ciri khas dari
decision

tree


direfresentasikan

adalah

model

sebagai

pohon

(pohon keputusan)

algoritma yang mempunyai database besar.
Sedangkan untuk decision tree diantaranya
penelitian

yang

dilakukan


oleh

Thangaparvathi [5] menghasilkan sebuah
keputusan

dalam

Gambar 2.1 Contoh Pohon Keputusan

mengimplementasikan decision tree untuk

Aturan yang sering digunakan dalam

mengolah dataset besar / database besar.

Decision

Kwather Aldhaln [6], menerapkan decision

Entropy (D) memiliki persamaan

tree

sebagai berikut.

untuk

yang

Cepat

meningkatkan

pengetahuan

extraksi hadis. Adapula penelitian yang

Tree

adalah

Entropy.

Keterangan :
H : Hipotesis data X merupakan suatu
class spesifik
Dimana:

X : Data dengan class yang belum

D : Himpunan kasus

diketahui

A : Atribut

P(H) : Probabilitas hipotesis H (prior

n : jumlah partisi D

probability)

pi : proporsi dari Di terhadap D

P(H|X): Probabilitas hipotesis H
berdasar

2.2 NAÏVE BAYES

kondisi

X

(posteriori

probability)

Naïve Bayes merupakan salah satu

P(X|H): Probabilitas X berdasarkan

algoritma klasifikasi yang banyak

kondisi pada hipotesis H

digunakan

P(X) : Probabilitas X

untuk

mengklasifikasi

text. Secara fundamental naïve bayes
menggunakan metode probabilitas

III. DATASET

dan statistika. Metode ini digunakan

Data penelitian diperoleh dari SMA

untuk memprediksi kemungkinan /

Kesatrian

probabilitas di masa yang akan datang

mempunyai 365 data peserta didik

dengan

kelas X pada tahun ajaran 2014/2015

berpedoman

pada

masa

1

Semarang

yang

sebelumnya.

dengan berbagai atribut antara lain

Naïve Bayes menghasilkan model

sebagai berikut.
Table 3.1 : Tabel Atribut

yang sangat akurat. Model seketika
dapat

diperbarui

dengan

mudah

ketika adanya tambahan data baru.
Hal itu tidak terlepas dari peranan
probabilitas. Adapun rumus naïve
bayes dapat dirumuskan sebagai

berikut :
� �|� . � �
� H|X =
� �

No

Nama Atribut

1

Nomor Pendaftaran

2

NISN

3

Nama

4

Jenis Kelamin

5

Tempat Lahir

6

Tanggal Lahir

7

Agama

8

Asal Sekolah

IV METODE PENELITIAN

9

Alamat

10

Nama Orang Tua

11

Nomor Telepon Rumah

12

Nomor Handphone

13

Pekerjaan Orang Tua

klasifikasi dan evaluasi dari algoritma yang

14

Nilai Bahasa Indonesia

digunakan untuk penelitian.

15

Nilai Bahasa Inggris

16

Nilai Matematika

17

Nilai IPA

18

Total Nilai

19

Minat

20

PL

21

Keterangan

22

Seragam

23

Jurusan

Metode yang digunakan pada penelitian ini
menggunakan berbagai proses. Mulai dari
pengumpulan data, pre-processing proses

1. Pengumpulan data.
Pada tahapan ini proses pengumpulan
data. Dan sebagai data objek peserta
didik SMA Kesatrian 1 Semarang.
Peneliti melakukan pemilihan data
terlebih dahulu sebelum ke tahapan
berikutnya. Data diperoleh nantinya
digunakan
penjurusan

Data diolah sudah pengalami pre-processing
dan tidak adanya missing value sehingga bisa
dilakukan komprasi data.

untuk
dengan

penentuan
menggunakan

algoritma klasifikasi.
2. Pre-Processing( Integrasi, Selection,
Cleansing),

Pada kurikulum 2013, skala penilaian tidak

Setelah data dirasa cocok, tahapan

lagi pada rentang nilai 0-100 melainkan

berikutnya melakukan pemrosesan

dikonversikan antara

aspek

data apakah ada data yang kosong

psikomotor dan kognitif, sedangkan aspek

atau data yang cocok. Hasil dari

afektif menggunakan SB=’Sangat baik’,

tahapan ini data bisa digunakan ke

B=’Baik’, C=’Cukup’, K=’Kurang’.

tahap klasifikasi.

1-4 untuk

Tabel 3.2 : Konversi Nilai

3. Proses Klasifikasi
Proses

Nilai
3,33 – 4
2,33 – 3,32
1,33 – 2,32
0 – 1,32

Predikat
1
2
3
4

berbagai

mengolah
algoritma

data

dengan

antara

lain

decision tree dan naïve bayes. Data

diolah dengan data training dan

testing yang berbeda agar bisa di

Tabel 5.1 Tabel Hasil Decision Tree

evaluasi dan dianalisis.
4. Evaluasi
Tahapan ini melakukan proses analisa
atau evaluasi dari algoritma decision
tree dan naïve bayes dari segi
accuracy, precision, recall, mean

Accur
acy
Preci
sion
Recal
l
MSE

square error.

A
86,1
1%
61,6
2%
53,3
3%
0.37
7

B
83,5
6%
60,9
5%
45,8
3%
0.40
4

C
80,0
0%
59,6
8%
47,2
2%
0.42
9

D
78,7
7%
59,2
3%
47,9
2%
0.43
7

Avg
82,1
1%
60,3
7%
48.5
8%
0.41
2

V. HASIL PENELITIAN

DECISION TREE
Hasil penelitian dibedakan menjadi 3 jenis
yaitu hasil pengujian Decision Tree, Naïve
Bayes, dan Analisis dari kedua algoritma

tersebut. Penelitian ini menggunakan teknik

100
83.56
80
78.77
50 86.11
61.62
53.33
0.377 60.95
45.83
0.404 59.68
47.22
0.429 59.23
47.92
0.437
0
A
B
C
D
accuracy

split validation dengan membagi data dalam
dua kelompok yaitu Data Training dan Data
Testing. Data Traning dan Data Testing

precision

recall

MSE

Gambar 5.1 Diagram Accuracy, Precision,
Recall Decision Tree

dengan besaran atau perbandingan 90%:10
%, 80%:20%, 70%:30, 60%:40%.

5.2 NAÏVE BAYES

A: Testing 90% : Training 10%

Berdasarkan hasil penelitian dengan 4 kali

B: Testing 80% : Training 20%

prosentasi data traning dan testing yang

C: Testing 70% : Training 30%

berbeda didapatkan hasil sebagai berikut.

D: Testing 60% : Training 40%

Tabel 5.2 Tabel Hasil Algoritma Naïve Bayes

5.1 Decision Tree
Berdasarkan hasil penelitian dengan 4 kali
prosentasi data traning dan testing yang
berbeda didapatkan hasil sebagai berikut.

Accur
acy
Precis
ion
Recall
MSE

A
88,8
9%
85,5
6%
74,4
7%
0.33
5

B
86,3
0%
84,7
2%
63,7
3%
0.35
8

C
87,2
7%
92,1
1%
66,8
2%
0.35
0

D
86,3
0%
92,4
1%
65,7
9%
0.36
3

Avg
87,1
9%
88,7
%
67.7
0%
0.35
2

dibandingkan dengan algoritma decision tree.

NAIVE BAYES

Sehingga

92.41
92.11
87.27
86.3
86.3
84.72
66.82
65.79
63.73
0.335
0.358
0.35
0.363

88.89
85.56
74.47

A

B

Accuracy

Precison

C
Recall

Naïve

bayes

sangat

cocok

diterapkan untuk periksi penjurusan siswa
pada jenjang sekolah menengah keatas.
Adapun saran untuk penelitian kedepannya

D
Mean Square error

dengan

membandingkan

algoritma

klasifikasi lainnya dan menambahkan atribut
Gambar 5.2 Diagram Accuracy, Precision,
Recall, dan MSE Naïve Bayes

seperti penghasilan orang tua, lingkungan
sekitar dan sebagainya.

5.3 ANALISIS PENGUJIAN
Berdasarkan hasil penelitian Decision Tree
dan Naïve Bayes diperoleh perbandingan
sebagai berikut.
Tabel 5.3 Perbandingan Decision Tree dan
Naïve Bayes

Decisi
on
Tree
Naïve
Bayes

Accura Precisi Recal
cy
on
l
82,11% 60,37% 48.58
%

MS
E
0.41
2

87,19% 88,7%

0.35
2

Dari tabel diatas Naïve

67.70
%

Bayes memiliki

tingkat akurasi yang baik dibanding dengan
decision tree dengan 87,19%

: 82,11 %.

Begitu pula untuk Precision , Recall dan
MSE. Dengan kata lain Naïve Bayes lebih
baik dibandingkan dengan decision tree.
6. KESIMPULAN DAN SARAN
Dari ujicoba dengan berbagai komposisi data
training dan testing dapat disimpulkan bahwa
algoritma Naïve Bayes menghasilkan tingkat
akurasi sangat baik yaitu mencapai 82,11 %

DAFTAR PUSTAKA
[1] Departemen Pendidikan Nasional,
Panduan Penyusunan Laporan Hasil Belajar
Peserta Didik Sekolah Menengah Atas
(SMA). Jakarta, Indonesia, 2006.
[2] Witten Ian H., Eibe Frank, and Hall Mark
A., Data Mining : Practical Machine
Learning Tools and Techniques 3rd Edition.
Elsevier, 2011.
[3] Shiju Sathyadevan, “Improved Document
Classification
Through”,International
Conference on Data Science & Engineering
(JCDSE), 2014
[4] Jitendra Agrawal,”Modification of
Density Based Spatial Clustering Algoritn for
Large Database Using Naive's Baye's
Theorem”,Fourth International Conference
on Communication Systems and Network
Technologies, 2014
[5] Thangaparvathi,”A High Speed Decision
Tree Classifier Algorithm for Huge Dataset”,
IEEE-International Conference on Recent
Trends in Information Technology, 2011

[6] Kawther Aldhaln,”Improving Knowledge
Extraction of Hadith Classifier Using
Decision Tree Algoritm”,IEEE, 2012
[7] Sa'diyah Noor Novita Alfisahrin,”Data
Mining Techniques For Optimatization of
Liver Disease Clasification”,International
Conference on Advanced Computer Science
Application and Technologies, 2013