Analisis Algoritma k NN dan Naive Bayes

ANALISIS ALGORITMA K-NN DAN NAÏVE BAYES UNTUK
KLASIFIKASI PEMBELIAN MOBIL
Yoga Religia
Magister Teknik Informatika
Universitas Dian Nuswantoro Semarang
religia19@gmail.com
Abstrak

Klasifikasi merupakan salah satu teknik yang terdapat pada data mining. Dalam teknik
klasifikasi terdapat beberapa algoritma yang dapat digunakan, dua diantaranya yaitu K-NN
dan Naïve Bayes. Isi dari paper adalah tentang analisis perbandingan penggunaan algoritma
K-NN dan Naïve Bayes untuk klasifikasi pembelian mobil. Dataset yang digunakan merupakan
dataset global yang terdiri dari enam atribut dependent dan satu atribut independent. Akurasi
yang dihasilkan menunjukkan untuk k-NN 87.81% sedangkan untuk Naïve Bayes menunjukkan
presentase 93.99%.
Kata kunci : K-NN, Naïve Bayes, Klasifikasi, Pembelian Mobil

I.

PENDAHULUAN
Data mining merupakan proses
pengiriman informasi dari suatu algoritma
(algoritma data mining) yang memiliki
akses ke dalam data [1]. Dalam data mining
terdapat beberapa teknik yaitu klasifikasi
dan regresi. Klasifikasi merupakan teknik
data mining yang digunakan untuk
menentukan item dari dataset kedalam
suatu kategori atau kelas. Tujuan dari
klasifikasi adalah untuk memprediksi kelas
target secara akurat pada setiap kasus dalam
data [2]. K-NN dan Naïve Bayes adalah
algoritma data mining yang dapat
digunakan untuk melakukan klasifikasi.
K-NN adalah algoritma data mining
yang dapat digunakan untuk melakukan
regresi dan juga klasifikasi. K-NN pernah
digunakan untuk menguji hubungan antara
berat badan sebelum kehamilan, berat
badan selama kehamilan dan dan juga indek
massa tubuh (IBM) yang kaitannya dengan
keguguran
kehamilan.
Dengan
menggunakan K-NN dapat ditentukan

mana kehamilan yang baik dan mana yang
akan mengalami keguguran. Hasil dari
penelitian tersebut memperoleh akurasi
sekitar 95% [3].
Naïve Bayes merupakan algoritma
data mining yang dapat digunakan untuk
melakukan klasifikasi. Naïve Bayes pernah
diterapakan untuk mengklasifikasikan data
berdimensi tinggi. Data berdimensi tinggi
yang dimaksud adalah data yang memiliki
proporsi atribut yang tidak relevan.
Percobaan dilakukan dengan menggunakan
document corpora dan gene micro-array
datasets yang menunjukkan efisiensi yang
sangat memuaskan dengan presentase
sekitar 98% [4].
Berdasarkan penelitian dari kasuskasus sebelumnya, penelitian ini akan
menggunakan algoritma K-NN dan Naïve
Bayes untuk melakukan klasifikasi
pembelian mobil. Dataset yang digunakan
merupakan dataset global yang memiliki
enam atribut dependent dan satu atribut
independent [5].
1

Artikel Ilmiah Data mining 27/09/2015
Universitas Dian Nuswantoro Semarang

II. LANDASAN TEORI
2.1. K-NN / K-Nearest Neighbor
Algoritma K-Nearest Network (K-NN)
merupakan
algoritma
klasifikasi
berdasarkan K instances paling dekat
denagn query instances yang diberikan dan
kemudian melakukan pemilihan antara K
tetangga yang terdekat untuk menghasilkan
keluaran label dari query instances [7].
Algoritma K-NN mengansumsikan bahwa
semua instances disimpan pada tempat
yang sama dimana n merupakn fitur
instances yang telah didefinisikan. Matrik
distances yang digunakan adalah untuk
mengukur jaran antara instances. Pada
pengukuran jarak dapat menggunakan
Manhattan distance dan Euclidean
distance. Misalkan x dan y merupakan 2
instances yang didefinisikan sebagai maka menggunakan Manhattan
dan Euclidean
jaraknya didefinisikan
sebagai d1(x,y) dan d2(x,y), sehingga dapat
ditulis :



,
,

=∑



= √∑

=



=

|�

−�

|

|�

−�

|

Bagian yang paling berpengaruh pada
algoritma ini adalah nilai K. Nilai K yang
terbaik pada algoritma ini dipengaruhi oleh
data yang digunakan. Dengan menggunakan optimasi parameter dapat diperoleh
nilai K yang sesuai. Pada tahapan training
algoritma
ini
hanya
melakukan
penyimpanan vector-vektor fitur dan
klasifikasi dari data training. Algoritma ini
dapat menghasilkan data yang kuat (jelas)
dan efektif apabila digunakan pada data
yang berukuran besar.

2.2. Naïve Bayes
Teorema bayes yang dikenal juga
sebagai Naïve Bayes dikemukakan oleh
seorang pendeta presbyterian Inggris pada
tahun 1763 yang bernama Thomas Bayes .
Naïve Bayes ini kemudian disepurnakan
oleh Laplace. Naïve Bayes merupakan
sebuah algoritma yang memanfaatkan
metode probabilitas dan statistik dengan
memprediksi probabilitas dimasa depan
berdasarkan pada masa sebelumnya. Pada
dasarnya teorema bayes dapat dirumuskan
sebagai berikut :


|

=

P B|A ∗ P A
P B

Pada rumus diatas dapat dilihat bahwa
peluang kejadian A sebagai B ditentukan
dari peluang B saat A, peluang A dan
peluang B. pada pengaplikasiannya rumus
tersebut akan dirubah menjadi [6] :
P

|D =

P D|

∗P
P D

Jika Xt sebagai sample pengujian dan
P(k|Xt) merupakan probabilitas dari Xt
yang ditugaskan kedalam kelas k, maka
dalam model Naïve bayes dapat dihitung
dengan:
� � ∏� � � |�
P k | �� =
� ��

Proses klasifikasi biasanya dibagi
kedalah 2 tahap yaitu training dan testing.
Pada tahap training sebagian dari data
yang sudah diketahui kelas datanya
digunakan untuk membentuk model
prediksi. Sedangkan pada tahap testing,
model yang sudah terbentuk diuji dengan
sebagian data yang lain untuk mengetahui
akurasi dari model tersebut.
2

Artikel Ilmiah Data mining 27/09/2015
Universitas Dian Nuswantoro Semarang

III. DATASET
Dataset yang digunakan dalam
penelitian ini merupakan dataset global
yang diambil dari situs Knowledge
Extractionbased on Evolutionary Learning
(Keel-Dataset). Data yang diambil
merupakan data “Car” yang mana dari data
Car tersebut memiliki 1.728 data yang
terdiri dari 6 atribut dependent dan satu
atribut independent.
Adapun atribut dependent yang
dimiliki yaitu:
1. Buying dengan value: vhigh, high,
medium, low.
2. Maint dengan value: vhigh, high,
medium, low.
3. Doors dengan value: 2, 3, 4, 5more
4. Persons dengan value: 2, 4, more.
5. Lug_boot dengan value: small,
medium, big.
6. Safety dengan value: low, medium,
high.
Sedangkan untuk atribut independent yaitu
Acceptability dengan value unacc, acc.
IV. METODE PENELITIAN
Pada penelitian ini akan dilakukan
tahapan-tahapan yang meliputi:
1. Penggunaan dataset yang mana dataset
tersebut berasal dari Keel-Dataset,
berupa dataset “Car”.
2. Penentuan algoritma yang digunakan.
Adapun algoritma yang akan digunakan
dalam penelitian ini yaitu algoritma
K-NN dan Naïve Bayes.
3. Implementasi,
implementasi
pada
penelitian ini akan menggunakan
software RapidMiner 5.3.
4. Pengujian, untuk pengujian pada
algoritma K-NN akan dilakukan 5 kali
dengan memberikan nilai K yang
berbeda pada setiap pengujian yaitu 1, 3,
5, 7 dan 9. Sedangkan untuk Naïve

Bayes akan menggunakan teknik split
validation dan pengujian akan dilakukan
sebanyak 5 kali dengan setiap pengujian
dibagi menjadi data training dan data
testing yaitu 90% & 10%, 80% &20%,
70% & 30%, 60% & 40%, 50% & 50%.
5. Analisis pengujian, yang akan dianalisis
pada penelitian ini adalah accuracy,
precision, recall dan AUC dari masingmasing algoritma.
6. Hasil pengujian, dalam penelitian ini
akan dapat diketahui algoritma mana
yang memiliki akurasi paling tinggi
untuk dataset Car.
Adapun tahapan pada penelitian ini
dapat dilihat pada gambar 3.1 :

Gambar 3.1 Tahapan Penelitian

V. HASIL PENGUJIAN
5.1. Hasil Pengujian K-NN
Berdasarkan
hasil
menggunakan RapidMiner

pengujian
5.3, maka
3

Artikel Ilmiah Data mining 27/09/2015
Universitas Dian Nuswantoro Semarang

diperoleh accuracy, precision, dan recall
k-NN sebagai berikut :
Tabel 5.1 Hasil Pengujian k-NN

Gambar 5.1 Diagram Accuracy, Precision,
Recall k-NN

Pada gambar 5.1 menunjukkan hasil
accuracy untuk k=1 sebesar 81.66%, k=3
sebesar 86.75%, k=5 sebesar 89.12%, k=7
sebesar 89.47%, dan k=9 sebesar 92.07%.
Hasil untuk precision diperoleh k=1
sebesar 98.60%, k=3 sebesar 99.01%, k=5
sebesar 99.13%, k=7 sebesar 99.14%, dan
k=9 sebesar 98.99%. Hasil untuk recall
diperoleh k=1 sebesar 40.30%, k=3 sebesar
57.03%, k=5 sebesar 64.83%, k=7 sebesar
65.97%, dan k=9 sebesar 74.71%.
Sedangkan untuk AUC k-NN hasilnya
adalah sebagai berikut:

Nilai K

Akurasi

Precision

Recall

AUC

1
3
5
7
9

81.66
86.75
89.12
89.47
92.07

98.60
99.01
99.13
99.14
98.99

40.30
57.03
64.83
65.97
74.71

0.500
0.923
0.977
0.990
0.996

Apabila hasil yang diperoleh diambil ratarata maka diperoleh accuracy sebesar
87.814%, precision sebesar 98.974%,
recall sebesar 60.568%, dan AUC sebesar
0.8772.
5.2. Hasil Pengujian Naïve Bayes
Berdasarkan
hasil
pengujian
menggunakan RapidMiner 5.3, maka
diperoleh accuracy, precision, dan recall
Naïve Bayes sebagai berikut :

Gambar 5.3 Diagram Accuracy, Precision,
Recall Naïve Bayes

Gambar 5.2 Diagram AUC k-NN

Pada gambar 5.2 menunjukkan hasil
AUC untuk k=1 sebesar 0.500, k=3 sebesar
0.923, k=5 sebesar 0.977, k=7 sebesar
0.990, dan k=9 sebesar 0.996. Adapun
secara keseluruhan hasil pengujian k-NN
dapat dilihat pada tabel 5.1.

Pada gambar 5.1 menunjukkan hasil
accuracy untuk training = 90% dan testing
= 10% sebesar 93.06%, training = 80% dan
testing = 20% sebesar 94.51%, training =
70% dan testing = 30% sebesar 94.21%,
training = 60% dan testing = 40% sebesar
93.63%, dan training = 50% dan testing =
50% sebesar 94.56%. Hasil precision untuk
training = 90% dan testing = 10% sebesar
86.96%, training = 80% dan testing = 20%
4

Artikel Ilmiah Data mining 27/09/2015
Universitas Dian Nuswantoro Semarang

sebesar 88.54%, training = 70% dan testing
= 30% sebesar 90.26%, training = 60% dan
testing = 40% sebesar 90%, dan training =
50% dan testing = 50% sebesar 90.42%.
Hasil recall untuk training = 90% dan
testing = 10% sebesar 86.96%, training =
80% dan testing = 20% sebesar 95.65%,
training = 70% dan testing = 30% sebesar
90.26%, training = 60% dan testing = 40%
sebesar 89.15%, dan training = 50% dan
testing = 50% sebesar 91.47%. Sedangkan
untuk AUC Naïve Bayes hasilnya adalah
sebagai berikut:

Gambar 5.4 Diagram AUC Naïve Bayes

Pada gambar 5.4 menunjukkan hasil
AUC pada training = 90% dan testing =
10% sebesar 0.986, training = 80% dan
testing = 20% sebesar 0.989, training =
70% dan testing = 30% sebesar 0.989,
training = 60% dan testing = 40% sebesar
0.989, dan training = 50% dan testing =
50% sebesar 0.990. Adapun secara
keseluruhan hasil pengujian Naïve Bayes
dapat dilihat pada tabel 5.2.
Tabel 5.2 Hasil Pengujian Naïve Bayes
Training
& Testing

Akurasi

Precision

Recall

AUC

90%&10 %

93.06
94.51
94.21
93.63
94.56

86.96
88.54
90.26
90
90.42

86.96
95.65
90.26
89.15
91.47

0.986
0.989
0.989
0.989
0.990

80%&20 %
70%&30 %
60%&40 %
50%&50 %

Apabila hasil yang diperoleh diambil ratarata maka diperoleh accuracy sebesar
93.994%, precision sebesar 89.236%,
recall sebesar 90.698%, dan AUC sebesar
0.9886.
5.3. Analisi Pengujian
Dari pengujian pada algoritma k-NN
dan Naïve Bayes menggunakan dataset Car
yang sudah dilakukan maka diperoleh
perbandingan antara algoritma k-NN dan
Naïve Bayes (NB) yang dapat dilihat pada
tabel 5.3.
Tabel 5.3 Analisis Pengujian k-NN dan
Naïve Bayes
k-NN
NB
Unggul
Accuracy 87.81% 93.99% NB
Precision 98.97% 89.24% k-NN
Recall
60.56% 90.70% NB
AUC
0.877
0.988
NB
Dari tabel 5.3 dapat dilihat bahwa algoritma
k-NN hanya unggul pada bagian precision
saja. Sedangkan untuk Naïve Bayes unggul
pada bagian accuracy, recall, dan AUC.
VI. KESIMPULAN
Hasil pengujian menunjukkan bahwa
pada penelitian ini diperoleh accuracy
Naïve Bayes lebih tinggi dari pada
accuracy k-NN dengan perbandingan
87.81% (k-NN) dan 93.99% (Naïve Bayes).
Sedangkan
pada
bagian
precision
menunjukkan hasil k-NN yang lebih tinggi
dari
pada
Naïve
Bayes
dengan
perbandingan 98.97% (k-NN) dan 89.24%
(Naïve Bayes). Pada bagian recall, Naïve
Bayes kembali memperoleh hasil yang
lebih tinggi dari pada k-NN dengan
perbandingan 60.56% (k-NN) dan 90.70%
(Naïve Bayes). Terakhir pada bagian AUC
Naïve Bayes juga memperoleh hasil yang
lebih tinggi dari pada k-NN dengan
5

Artikel Ilmiah Data mining 27/09/2015
Universitas Dian Nuswantoro Semarang

perbandingan 0.877 (k-NN) dan 0.988
(Naïve Bayes).
VII. SARAN
Dalam penelitian analisis algoritma kNN dan Naïve Bayes untuk klasifikasi
pembelian mobil ini terdapat beberapa hal
yang perlu diperhatikan supaya menjadi
lebih baik kedepannya, diantaranya yaitu
untuk dataset dan atribut didalamnya dapat
menggunakan jumlah data dan atribut yang
lebih banyak dan komplek.
DAFTAR PUSTAKA
[1] T. D. Bei, "An Information Theoretic
Framework for Data Mining," pp. 564572, 24 Agustus 2011.
[2] G. Kesavaraj and S. Sukumaran, "A
Study On Classification Techniques in
Data Mining," 6 July 2013.
[3] H. Qureshi, M. Khan, S. M. Aser and
R. Hafiz, "Association of Prepregnancy Weight and Weight Gain
with Perinatal Mortality," 23 Desember
2010.
[4] S. Wang and L. Chen, "Automated
Feature Weighting in Naive Bayes for
High-dimensional Data Classification,"
ACM 978-1-4503-1156-4/12/10, pp.
1243-1252, 2012.
[5] Keel-Dataset, http://sci2s.ugr.es/keel/
dataset/data/classification/car.zip,2015.
[6] A. Rane, N. Naik and J.
Laxminarayana,
"Performance
Enhancement of K Nearest Neighbor
Classification Algorithm Using 8-Bin
Hashing and Feature Weighting," ACM
978-1-4503-2908-8/14/08, 2014.
[7] S. Mukherjee and N. Sharma, "Layered
Approach for Intrusion Detection
Using Naïve Bayes Classifier," ACM
978-1-4503-1196-0/12/08, pp. 639644, 2012.
6
Artikel Ilmiah Data mining 27/09/2015
Universitas Dian Nuswantoro Semarang

Dokumen yang terkait

Dokumen baru