ANALISIS KOMPARASI ALGORITMA KLASIFIKASI (1)
ANALISIS KOMPARASI ALGORITMA KLASIFIKASI DATA MINING
UNTUK PREDIKSI PENJURUSAN SISWA
SEKOLAH MENENGAH ATAS (SMA)
Dwi Prasetyo
Universitas Dian Nuswantoro, Semarang
Email : dwiprasetyo919@gmail.com
ABSTRAK
Penjurusan merupakan salah satu faktor penting di Sekolah Menengah Atas (SMA). Dikarenakan
akan mempengaruhi hasil belajar dan menyangkut karir dari peserta didik dimasa depan. Oleh
karena itu dibutuhkan metode untuk menangani permasalahan tersebut. Data mining merupakan
metode untuk mengolah data dari data yang tidak mempunyai arti menjadi sebuah informasi yang
berguna. Salah satu algoritma data mining adalah algoritma klasifikasi. Berbagai algoritma
klasifikasi yang ada bisa digunakan untuk mengukur tingkat akurasi. Penelitian ini menggunakan
algoritma decision tree dan naïve bayes. Data yang digunakan sebanyak 365 peserta didik di SMA
Kesatrian 1 Semarang. Hasil dari penelitian untuk mengetahui algoritma klasifikasi yang paling
akurat untuk menentukan penjurusan peserta didik SMA.
Kata kunci : peserta didik, decision tree, naïve bayes, akurasi
I. PENDAHULUAN
Penjurusan peserta didik merupakan salah
oleh sarana dan prasarana yang tersedia.
satu faktor penting dalam kegiatan belajar di
Penjurusan tersebut antara lain jurusan
Sekolah Menengah Atas (SMA). Salah
Matematika dan Ilmu Pengetahuan Alam
penjurusan akan menyebabkan peserta didik
(MIPA), Ilmu Bahasa, dan Ilmu Pengetahuan
kurang semangat dalam mengikuti kegiatan
Sosial (IPS)[1]. Untuk MIPA mempunyai
belajar akibatnya mempengaruhi hasil belajar
mata pelajaran inti antara lain: Matematika,
dan karir di masa depan. Pihak akademik
Bilogi, Fisika dan Kimia. Mata pelajaran
perlu cermat dan perlu penanganan khusus
untuk Ilmu Bahasa adalah: Bahasa Indonesia
untuk menentukan penjurusan peserta didik
dan Bahasa Inggris. Sedangkan IPS adalah
yang terarah dan tepat sasaran. Penjurusan di
Sejarah, Ekonomi, Geografi dan Sosiologi.
Sekolah
Menengah
Atas
memiliki
penjurusan yang berbeda beda tergantung
dari pihak sekolah. Biasanya dipengaruhi
Mengingat pentingnya penjurusan untuk
meminimalisir dampak yang timbul dari
kesalahan penjurusan diperlukan sebuah
metode
untuk
tersebut.
menangani
Salah
satu
permasalah
metode
melibatkan dua algoritma klasifikasi naïve
untuk
bayes dan decision tree, seperti penelitian
menanganinya adalah Data Mining. Data
yang dilakukan oleh Sa’diyah Noor Novita
Mining merupakan sebuah metode untuk
Alfisahrin [7], mengoptimalisasi klasifikasi
pengolahan data. Data diolah sehingga
penyakit hati. Dalam penelitian ini, dilakukan
menghasilkan
analisis
informasi
[2].
Berbagai
dari
kedua
algoritma
algoritma data mining yang ada seperti
mengetahui tingkat
algoritma klasifikasi sangat cocok untuk
sehingga bisa digunakan untuk penentuan
diterapkan pada permasalahan penentuan
penjurusan siswa tingkat Sekolah Menengah
penjurusan peserta didik tingkat Sekolah
Atas.
Menengah
Atas.
Algoritma
Alasan peneliti menggunakan naïve bayes
dan decision tree dikarena banyak peneliti
menerapkannya diberbagai bidang. Seperti
yang
dilakukan
oleh
Shiju
Sathyadevan [3] menerapkan naïve bayes
untuk meningkatkan dokumen klasifikasi.
Jitendra Agrawal [4] menerapkan naïve
bayes
untuk
berdasarkan
memodifikasi
spasial
yang baik
Klasifikasi
diantaranya Naïve Bayes dan Decision Tree.
penelitian
akurasi
untuk
kepadatan
pengelompokan
II. LANDASAN TEORI
2.1 DECISION TREE / C4.5
Decision Tree adalah salah satu
teknik yang paling banyak digunakan
untuk
klasifikasi.
Dikarenakan
mempunyai akurasi yang kompetitif
dan sangat efisien. Ciri khas dari
decision
tree
direfresentasikan
adalah
model
sebagai
pohon
(pohon keputusan)
algoritma yang mempunyai database besar.
Sedangkan untuk decision tree diantaranya
penelitian
yang
dilakukan
oleh
Thangaparvathi [5] menghasilkan sebuah
keputusan
dalam
Gambar 2.1 Contoh Pohon Keputusan
mengimplementasikan decision tree untuk
Aturan yang sering digunakan dalam
mengolah dataset besar / database besar.
Decision
Kwather Aldhaln [6], menerapkan decision
Entropy (D) memiliki persamaan
tree
sebagai berikut.
untuk
yang
Cepat
meningkatkan
pengetahuan
extraksi hadis. Adapula penelitian yang
Tree
adalah
Entropy.
Keterangan :
H : Hipotesis data X merupakan suatu
class spesifik
Dimana:
X : Data dengan class yang belum
D : Himpunan kasus
diketahui
A : Atribut
P(H) : Probabilitas hipotesis H (prior
n : jumlah partisi D
probability)
pi : proporsi dari Di terhadap D
P(H|X): Probabilitas hipotesis H
berdasar
2.2 NAÏVE BAYES
kondisi
X
(posteriori
probability)
Naïve Bayes merupakan salah satu
P(X|H): Probabilitas X berdasarkan
algoritma klasifikasi yang banyak
kondisi pada hipotesis H
digunakan
P(X) : Probabilitas X
untuk
mengklasifikasi
text. Secara fundamental naïve bayes
menggunakan metode probabilitas
III. DATASET
dan statistika. Metode ini digunakan
Data penelitian diperoleh dari SMA
untuk memprediksi kemungkinan /
Kesatrian
probabilitas di masa yang akan datang
mempunyai 365 data peserta didik
dengan
kelas X pada tahun ajaran 2014/2015
berpedoman
pada
masa
1
Semarang
yang
sebelumnya.
dengan berbagai atribut antara lain
Naïve Bayes menghasilkan model
sebagai berikut.
Table 3.1 : Tabel Atribut
yang sangat akurat. Model seketika
dapat
diperbarui
dengan
mudah
ketika adanya tambahan data baru.
Hal itu tidak terlepas dari peranan
probabilitas. Adapun rumus naïve
bayes dapat dirumuskan sebagai
berikut :
� �|� . � �
� H|X =
� �
No
Nama Atribut
1
Nomor Pendaftaran
2
NISN
3
Nama
4
Jenis Kelamin
5
Tempat Lahir
6
Tanggal Lahir
7
Agama
8
Asal Sekolah
IV METODE PENELITIAN
9
Alamat
10
Nama Orang Tua
11
Nomor Telepon Rumah
12
Nomor Handphone
13
Pekerjaan Orang Tua
klasifikasi dan evaluasi dari algoritma yang
14
Nilai Bahasa Indonesia
digunakan untuk penelitian.
15
Nilai Bahasa Inggris
16
Nilai Matematika
17
Nilai IPA
18
Total Nilai
19
Minat
20
PL
21
Keterangan
22
Seragam
23
Jurusan
Metode yang digunakan pada penelitian ini
menggunakan berbagai proses. Mulai dari
pengumpulan data, pre-processing proses
1. Pengumpulan data.
Pada tahapan ini proses pengumpulan
data. Dan sebagai data objek peserta
didik SMA Kesatrian 1 Semarang.
Peneliti melakukan pemilihan data
terlebih dahulu sebelum ke tahapan
berikutnya. Data diperoleh nantinya
digunakan
penjurusan
Data diolah sudah pengalami pre-processing
dan tidak adanya missing value sehingga bisa
dilakukan komprasi data.
untuk
dengan
penentuan
menggunakan
algoritma klasifikasi.
2. Pre-Processing( Integrasi, Selection,
Cleansing),
Pada kurikulum 2013, skala penilaian tidak
Setelah data dirasa cocok, tahapan
lagi pada rentang nilai 0-100 melainkan
berikutnya melakukan pemrosesan
dikonversikan antara
aspek
data apakah ada data yang kosong
psikomotor dan kognitif, sedangkan aspek
atau data yang cocok. Hasil dari
afektif menggunakan SB=’Sangat baik’,
tahapan ini data bisa digunakan ke
B=’Baik’, C=’Cukup’, K=’Kurang’.
tahap klasifikasi.
1-4 untuk
Tabel 3.2 : Konversi Nilai
3. Proses Klasifikasi
Proses
Nilai
3,33 – 4
2,33 – 3,32
1,33 – 2,32
0 – 1,32
Predikat
1
2
3
4
berbagai
mengolah
algoritma
data
dengan
antara
lain
decision tree dan naïve bayes. Data
diolah dengan data training dan
testing yang berbeda agar bisa di
Tabel 5.1 Tabel Hasil Decision Tree
evaluasi dan dianalisis.
4. Evaluasi
Tahapan ini melakukan proses analisa
atau evaluasi dari algoritma decision
tree dan naïve bayes dari segi
accuracy, precision, recall, mean
Accur
acy
Preci
sion
Recal
l
MSE
square error.
A
86,1
1%
61,6
2%
53,3
3%
0.37
7
B
83,5
6%
60,9
5%
45,8
3%
0.40
4
C
80,0
0%
59,6
8%
47,2
2%
0.42
9
D
78,7
7%
59,2
3%
47,9
2%
0.43
7
Avg
82,1
1%
60,3
7%
48.5
8%
0.41
2
V. HASIL PENELITIAN
DECISION TREE
Hasil penelitian dibedakan menjadi 3 jenis
yaitu hasil pengujian Decision Tree, Naïve
Bayes, dan Analisis dari kedua algoritma
tersebut. Penelitian ini menggunakan teknik
100
83.56
80
78.77
50 86.11
61.62
53.33
0.377 60.95
45.83
0.404 59.68
47.22
0.429 59.23
47.92
0.437
0
A
B
C
D
accuracy
split validation dengan membagi data dalam
dua kelompok yaitu Data Training dan Data
Testing. Data Traning dan Data Testing
precision
recall
MSE
Gambar 5.1 Diagram Accuracy, Precision,
Recall Decision Tree
dengan besaran atau perbandingan 90%:10
%, 80%:20%, 70%:30, 60%:40%.
5.2 NAÏVE BAYES
A: Testing 90% : Training 10%
Berdasarkan hasil penelitian dengan 4 kali
B: Testing 80% : Training 20%
prosentasi data traning dan testing yang
C: Testing 70% : Training 30%
berbeda didapatkan hasil sebagai berikut.
D: Testing 60% : Training 40%
Tabel 5.2 Tabel Hasil Algoritma Naïve Bayes
5.1 Decision Tree
Berdasarkan hasil penelitian dengan 4 kali
prosentasi data traning dan testing yang
berbeda didapatkan hasil sebagai berikut.
Accur
acy
Precis
ion
Recall
MSE
A
88,8
9%
85,5
6%
74,4
7%
0.33
5
B
86,3
0%
84,7
2%
63,7
3%
0.35
8
C
87,2
7%
92,1
1%
66,8
2%
0.35
0
D
86,3
0%
92,4
1%
65,7
9%
0.36
3
Avg
87,1
9%
88,7
%
67.7
0%
0.35
2
dibandingkan dengan algoritma decision tree.
NAIVE BAYES
Sehingga
92.41
92.11
87.27
86.3
86.3
84.72
66.82
65.79
63.73
0.335
0.358
0.35
0.363
88.89
85.56
74.47
A
B
Accuracy
Precison
C
Recall
Naïve
bayes
sangat
cocok
diterapkan untuk periksi penjurusan siswa
pada jenjang sekolah menengah keatas.
Adapun saran untuk penelitian kedepannya
D
Mean Square error
dengan
membandingkan
algoritma
klasifikasi lainnya dan menambahkan atribut
Gambar 5.2 Diagram Accuracy, Precision,
Recall, dan MSE Naïve Bayes
seperti penghasilan orang tua, lingkungan
sekitar dan sebagainya.
5.3 ANALISIS PENGUJIAN
Berdasarkan hasil penelitian Decision Tree
dan Naïve Bayes diperoleh perbandingan
sebagai berikut.
Tabel 5.3 Perbandingan Decision Tree dan
Naïve Bayes
Decisi
on
Tree
Naïve
Bayes
Accura Precisi Recal
cy
on
l
82,11% 60,37% 48.58
%
MS
E
0.41
2
87,19% 88,7%
0.35
2
Dari tabel diatas Naïve
67.70
%
Bayes memiliki
tingkat akurasi yang baik dibanding dengan
decision tree dengan 87,19%
: 82,11 %.
Begitu pula untuk Precision , Recall dan
MSE. Dengan kata lain Naïve Bayes lebih
baik dibandingkan dengan decision tree.
6. KESIMPULAN DAN SARAN
Dari ujicoba dengan berbagai komposisi data
training dan testing dapat disimpulkan bahwa
algoritma Naïve Bayes menghasilkan tingkat
akurasi sangat baik yaitu mencapai 82,11 %
DAFTAR PUSTAKA
[1] Departemen Pendidikan Nasional,
Panduan Penyusunan Laporan Hasil Belajar
Peserta Didik Sekolah Menengah Atas
(SMA). Jakarta, Indonesia, 2006.
[2] Witten Ian H., Eibe Frank, and Hall Mark
A., Data Mining : Practical Machine
Learning Tools and Techniques 3rd Edition.
Elsevier, 2011.
[3] Shiju Sathyadevan, “Improved Document
Classification
Through”,International
Conference on Data Science & Engineering
(JCDSE), 2014
[4] Jitendra Agrawal,”Modification of
Density Based Spatial Clustering Algoritn for
Large Database Using Naive's Baye's
Theorem”,Fourth International Conference
on Communication Systems and Network
Technologies, 2014
[5] Thangaparvathi,”A High Speed Decision
Tree Classifier Algorithm for Huge Dataset”,
IEEE-International Conference on Recent
Trends in Information Technology, 2011
[6] Kawther Aldhaln,”Improving Knowledge
Extraction of Hadith Classifier Using
Decision Tree Algoritm”,IEEE, 2012
[7] Sa'diyah Noor Novita Alfisahrin,”Data
Mining Techniques For Optimatization of
Liver Disease Clasification”,International
Conference on Advanced Computer Science
Application and Technologies, 2013
UNTUK PREDIKSI PENJURUSAN SISWA
SEKOLAH MENENGAH ATAS (SMA)
Dwi Prasetyo
Universitas Dian Nuswantoro, Semarang
Email : dwiprasetyo919@gmail.com
ABSTRAK
Penjurusan merupakan salah satu faktor penting di Sekolah Menengah Atas (SMA). Dikarenakan
akan mempengaruhi hasil belajar dan menyangkut karir dari peserta didik dimasa depan. Oleh
karena itu dibutuhkan metode untuk menangani permasalahan tersebut. Data mining merupakan
metode untuk mengolah data dari data yang tidak mempunyai arti menjadi sebuah informasi yang
berguna. Salah satu algoritma data mining adalah algoritma klasifikasi. Berbagai algoritma
klasifikasi yang ada bisa digunakan untuk mengukur tingkat akurasi. Penelitian ini menggunakan
algoritma decision tree dan naïve bayes. Data yang digunakan sebanyak 365 peserta didik di SMA
Kesatrian 1 Semarang. Hasil dari penelitian untuk mengetahui algoritma klasifikasi yang paling
akurat untuk menentukan penjurusan peserta didik SMA.
Kata kunci : peserta didik, decision tree, naïve bayes, akurasi
I. PENDAHULUAN
Penjurusan peserta didik merupakan salah
oleh sarana dan prasarana yang tersedia.
satu faktor penting dalam kegiatan belajar di
Penjurusan tersebut antara lain jurusan
Sekolah Menengah Atas (SMA). Salah
Matematika dan Ilmu Pengetahuan Alam
penjurusan akan menyebabkan peserta didik
(MIPA), Ilmu Bahasa, dan Ilmu Pengetahuan
kurang semangat dalam mengikuti kegiatan
Sosial (IPS)[1]. Untuk MIPA mempunyai
belajar akibatnya mempengaruhi hasil belajar
mata pelajaran inti antara lain: Matematika,
dan karir di masa depan. Pihak akademik
Bilogi, Fisika dan Kimia. Mata pelajaran
perlu cermat dan perlu penanganan khusus
untuk Ilmu Bahasa adalah: Bahasa Indonesia
untuk menentukan penjurusan peserta didik
dan Bahasa Inggris. Sedangkan IPS adalah
yang terarah dan tepat sasaran. Penjurusan di
Sejarah, Ekonomi, Geografi dan Sosiologi.
Sekolah
Menengah
Atas
memiliki
penjurusan yang berbeda beda tergantung
dari pihak sekolah. Biasanya dipengaruhi
Mengingat pentingnya penjurusan untuk
meminimalisir dampak yang timbul dari
kesalahan penjurusan diperlukan sebuah
metode
untuk
tersebut.
menangani
Salah
satu
permasalah
metode
melibatkan dua algoritma klasifikasi naïve
untuk
bayes dan decision tree, seperti penelitian
menanganinya adalah Data Mining. Data
yang dilakukan oleh Sa’diyah Noor Novita
Mining merupakan sebuah metode untuk
Alfisahrin [7], mengoptimalisasi klasifikasi
pengolahan data. Data diolah sehingga
penyakit hati. Dalam penelitian ini, dilakukan
menghasilkan
analisis
informasi
[2].
Berbagai
dari
kedua
algoritma
algoritma data mining yang ada seperti
mengetahui tingkat
algoritma klasifikasi sangat cocok untuk
sehingga bisa digunakan untuk penentuan
diterapkan pada permasalahan penentuan
penjurusan siswa tingkat Sekolah Menengah
penjurusan peserta didik tingkat Sekolah
Atas.
Menengah
Atas.
Algoritma
Alasan peneliti menggunakan naïve bayes
dan decision tree dikarena banyak peneliti
menerapkannya diberbagai bidang. Seperti
yang
dilakukan
oleh
Shiju
Sathyadevan [3] menerapkan naïve bayes
untuk meningkatkan dokumen klasifikasi.
Jitendra Agrawal [4] menerapkan naïve
bayes
untuk
berdasarkan
memodifikasi
spasial
yang baik
Klasifikasi
diantaranya Naïve Bayes dan Decision Tree.
penelitian
akurasi
untuk
kepadatan
pengelompokan
II. LANDASAN TEORI
2.1 DECISION TREE / C4.5
Decision Tree adalah salah satu
teknik yang paling banyak digunakan
untuk
klasifikasi.
Dikarenakan
mempunyai akurasi yang kompetitif
dan sangat efisien. Ciri khas dari
decision
tree
direfresentasikan
adalah
model
sebagai
pohon
(pohon keputusan)
algoritma yang mempunyai database besar.
Sedangkan untuk decision tree diantaranya
penelitian
yang
dilakukan
oleh
Thangaparvathi [5] menghasilkan sebuah
keputusan
dalam
Gambar 2.1 Contoh Pohon Keputusan
mengimplementasikan decision tree untuk
Aturan yang sering digunakan dalam
mengolah dataset besar / database besar.
Decision
Kwather Aldhaln [6], menerapkan decision
Entropy (D) memiliki persamaan
tree
sebagai berikut.
untuk
yang
Cepat
meningkatkan
pengetahuan
extraksi hadis. Adapula penelitian yang
Tree
adalah
Entropy.
Keterangan :
H : Hipotesis data X merupakan suatu
class spesifik
Dimana:
X : Data dengan class yang belum
D : Himpunan kasus
diketahui
A : Atribut
P(H) : Probabilitas hipotesis H (prior
n : jumlah partisi D
probability)
pi : proporsi dari Di terhadap D
P(H|X): Probabilitas hipotesis H
berdasar
2.2 NAÏVE BAYES
kondisi
X
(posteriori
probability)
Naïve Bayes merupakan salah satu
P(X|H): Probabilitas X berdasarkan
algoritma klasifikasi yang banyak
kondisi pada hipotesis H
digunakan
P(X) : Probabilitas X
untuk
mengklasifikasi
text. Secara fundamental naïve bayes
menggunakan metode probabilitas
III. DATASET
dan statistika. Metode ini digunakan
Data penelitian diperoleh dari SMA
untuk memprediksi kemungkinan /
Kesatrian
probabilitas di masa yang akan datang
mempunyai 365 data peserta didik
dengan
kelas X pada tahun ajaran 2014/2015
berpedoman
pada
masa
1
Semarang
yang
sebelumnya.
dengan berbagai atribut antara lain
Naïve Bayes menghasilkan model
sebagai berikut.
Table 3.1 : Tabel Atribut
yang sangat akurat. Model seketika
dapat
diperbarui
dengan
mudah
ketika adanya tambahan data baru.
Hal itu tidak terlepas dari peranan
probabilitas. Adapun rumus naïve
bayes dapat dirumuskan sebagai
berikut :
� �|� . � �
� H|X =
� �
No
Nama Atribut
1
Nomor Pendaftaran
2
NISN
3
Nama
4
Jenis Kelamin
5
Tempat Lahir
6
Tanggal Lahir
7
Agama
8
Asal Sekolah
IV METODE PENELITIAN
9
Alamat
10
Nama Orang Tua
11
Nomor Telepon Rumah
12
Nomor Handphone
13
Pekerjaan Orang Tua
klasifikasi dan evaluasi dari algoritma yang
14
Nilai Bahasa Indonesia
digunakan untuk penelitian.
15
Nilai Bahasa Inggris
16
Nilai Matematika
17
Nilai IPA
18
Total Nilai
19
Minat
20
PL
21
Keterangan
22
Seragam
23
Jurusan
Metode yang digunakan pada penelitian ini
menggunakan berbagai proses. Mulai dari
pengumpulan data, pre-processing proses
1. Pengumpulan data.
Pada tahapan ini proses pengumpulan
data. Dan sebagai data objek peserta
didik SMA Kesatrian 1 Semarang.
Peneliti melakukan pemilihan data
terlebih dahulu sebelum ke tahapan
berikutnya. Data diperoleh nantinya
digunakan
penjurusan
Data diolah sudah pengalami pre-processing
dan tidak adanya missing value sehingga bisa
dilakukan komprasi data.
untuk
dengan
penentuan
menggunakan
algoritma klasifikasi.
2. Pre-Processing( Integrasi, Selection,
Cleansing),
Pada kurikulum 2013, skala penilaian tidak
Setelah data dirasa cocok, tahapan
lagi pada rentang nilai 0-100 melainkan
berikutnya melakukan pemrosesan
dikonversikan antara
aspek
data apakah ada data yang kosong
psikomotor dan kognitif, sedangkan aspek
atau data yang cocok. Hasil dari
afektif menggunakan SB=’Sangat baik’,
tahapan ini data bisa digunakan ke
B=’Baik’, C=’Cukup’, K=’Kurang’.
tahap klasifikasi.
1-4 untuk
Tabel 3.2 : Konversi Nilai
3. Proses Klasifikasi
Proses
Nilai
3,33 – 4
2,33 – 3,32
1,33 – 2,32
0 – 1,32
Predikat
1
2
3
4
berbagai
mengolah
algoritma
data
dengan
antara
lain
decision tree dan naïve bayes. Data
diolah dengan data training dan
testing yang berbeda agar bisa di
Tabel 5.1 Tabel Hasil Decision Tree
evaluasi dan dianalisis.
4. Evaluasi
Tahapan ini melakukan proses analisa
atau evaluasi dari algoritma decision
tree dan naïve bayes dari segi
accuracy, precision, recall, mean
Accur
acy
Preci
sion
Recal
l
MSE
square error.
A
86,1
1%
61,6
2%
53,3
3%
0.37
7
B
83,5
6%
60,9
5%
45,8
3%
0.40
4
C
80,0
0%
59,6
8%
47,2
2%
0.42
9
D
78,7
7%
59,2
3%
47,9
2%
0.43
7
Avg
82,1
1%
60,3
7%
48.5
8%
0.41
2
V. HASIL PENELITIAN
DECISION TREE
Hasil penelitian dibedakan menjadi 3 jenis
yaitu hasil pengujian Decision Tree, Naïve
Bayes, dan Analisis dari kedua algoritma
tersebut. Penelitian ini menggunakan teknik
100
83.56
80
78.77
50 86.11
61.62
53.33
0.377 60.95
45.83
0.404 59.68
47.22
0.429 59.23
47.92
0.437
0
A
B
C
D
accuracy
split validation dengan membagi data dalam
dua kelompok yaitu Data Training dan Data
Testing. Data Traning dan Data Testing
precision
recall
MSE
Gambar 5.1 Diagram Accuracy, Precision,
Recall Decision Tree
dengan besaran atau perbandingan 90%:10
%, 80%:20%, 70%:30, 60%:40%.
5.2 NAÏVE BAYES
A: Testing 90% : Training 10%
Berdasarkan hasil penelitian dengan 4 kali
B: Testing 80% : Training 20%
prosentasi data traning dan testing yang
C: Testing 70% : Training 30%
berbeda didapatkan hasil sebagai berikut.
D: Testing 60% : Training 40%
Tabel 5.2 Tabel Hasil Algoritma Naïve Bayes
5.1 Decision Tree
Berdasarkan hasil penelitian dengan 4 kali
prosentasi data traning dan testing yang
berbeda didapatkan hasil sebagai berikut.
Accur
acy
Precis
ion
Recall
MSE
A
88,8
9%
85,5
6%
74,4
7%
0.33
5
B
86,3
0%
84,7
2%
63,7
3%
0.35
8
C
87,2
7%
92,1
1%
66,8
2%
0.35
0
D
86,3
0%
92,4
1%
65,7
9%
0.36
3
Avg
87,1
9%
88,7
%
67.7
0%
0.35
2
dibandingkan dengan algoritma decision tree.
NAIVE BAYES
Sehingga
92.41
92.11
87.27
86.3
86.3
84.72
66.82
65.79
63.73
0.335
0.358
0.35
0.363
88.89
85.56
74.47
A
B
Accuracy
Precison
C
Recall
Naïve
bayes
sangat
cocok
diterapkan untuk periksi penjurusan siswa
pada jenjang sekolah menengah keatas.
Adapun saran untuk penelitian kedepannya
D
Mean Square error
dengan
membandingkan
algoritma
klasifikasi lainnya dan menambahkan atribut
Gambar 5.2 Diagram Accuracy, Precision,
Recall, dan MSE Naïve Bayes
seperti penghasilan orang tua, lingkungan
sekitar dan sebagainya.
5.3 ANALISIS PENGUJIAN
Berdasarkan hasil penelitian Decision Tree
dan Naïve Bayes diperoleh perbandingan
sebagai berikut.
Tabel 5.3 Perbandingan Decision Tree dan
Naïve Bayes
Decisi
on
Tree
Naïve
Bayes
Accura Precisi Recal
cy
on
l
82,11% 60,37% 48.58
%
MS
E
0.41
2
87,19% 88,7%
0.35
2
Dari tabel diatas Naïve
67.70
%
Bayes memiliki
tingkat akurasi yang baik dibanding dengan
decision tree dengan 87,19%
: 82,11 %.
Begitu pula untuk Precision , Recall dan
MSE. Dengan kata lain Naïve Bayes lebih
baik dibandingkan dengan decision tree.
6. KESIMPULAN DAN SARAN
Dari ujicoba dengan berbagai komposisi data
training dan testing dapat disimpulkan bahwa
algoritma Naïve Bayes menghasilkan tingkat
akurasi sangat baik yaitu mencapai 82,11 %
DAFTAR PUSTAKA
[1] Departemen Pendidikan Nasional,
Panduan Penyusunan Laporan Hasil Belajar
Peserta Didik Sekolah Menengah Atas
(SMA). Jakarta, Indonesia, 2006.
[2] Witten Ian H., Eibe Frank, and Hall Mark
A., Data Mining : Practical Machine
Learning Tools and Techniques 3rd Edition.
Elsevier, 2011.
[3] Shiju Sathyadevan, “Improved Document
Classification
Through”,International
Conference on Data Science & Engineering
(JCDSE), 2014
[4] Jitendra Agrawal,”Modification of
Density Based Spatial Clustering Algoritn for
Large Database Using Naive's Baye's
Theorem”,Fourth International Conference
on Communication Systems and Network
Technologies, 2014
[5] Thangaparvathi,”A High Speed Decision
Tree Classifier Algorithm for Huge Dataset”,
IEEE-International Conference on Recent
Trends in Information Technology, 2011
[6] Kawther Aldhaln,”Improving Knowledge
Extraction of Hadith Classifier Using
Decision Tree Algoritm”,IEEE, 2012
[7] Sa'diyah Noor Novita Alfisahrin,”Data
Mining Techniques For Optimatization of
Liver Disease Clasification”,International
Conference on Advanced Computer Science
Application and Technologies, 2013