Machine Learning Naïve Bayes

Machine Learning
Naïve Bayes
Semester Genap 2017/2018

Dr. Suyanto, S.T., M.Sc.
Web: http://suyanto.staff.telkomuniversity.ac.id
Email: suyanto@telkomuniversity.ac.id atau
suyanto2008@gmail.com
HP/WA: +62 812 84512345

22-08-2017

Naïve Bayes?
• Metode pembelajaran menggunakan teorema Bayes, yang
ditemukan oleh Thomas Bayes pada abad ke-18.
• Dalam teorema Bayes, probabilitas bersyarat dinyatakan sebagai:

P( H X ) 

P( X H ) P( H )
P( X )


Naïve Bayes?

P( H X ) 

P( X H ) P( H )
P( X )

• X = bukti, H = hipotesis
• P(H|X) = probabilitas posterior H dengan syarat X
• P(X|H) = probabilitas posterior X dengan syarat H
• P(H) = probabilitas prior hipotesis H
• P(X) = probabilitas prior bukti X

Naïve Bayes?
1. Misalkan D adalah himpunan data latih (training set) yang berisi sejumlah
tuple beserta label kelasnya. Setiap tuple berdimensi n yang dinyatakan
sebagai X = (x1, x2, . . . , xn) yang didapat dari n atribut A1, A2, . . . , An
2. Misalkan terdapat m kelas, yaitu C1, C2, . . . , Cm. Untuk sebuah tuple
masukan X, Naïve Bayes classifier memprediksi bahwa tuple X termasuk ke

1  j  m, j  i
dalam kelas Ci jika dan hanya jika P(Ci X )  P(C j X ) untuk
.
Dengan kata lain, Naïve Bayes classifier bekerja dengan cara
memaksimalkan P(Ci|X). Kelas Ci yang membuat P(Ci|X) bernilai maksimum
disebut maximum posteriori hypothesis. Dengan teorema Bayes, P(Ci|X)
diestimasi menggunakan formula: P(C X )  P( X Ci ) P(Ci )
i

P( X )

Naïve Bayes?
3. Mengingat P(X) bernilai sama untuk semua kelas (artinya, tuple X memiliki
probabilitas yang sama untuk masuk ke dalam kelas manapun), maka hanya
P(X|Ci) P(Ci) yang perlu dimaksimalkan.Jika probabilitas prior untuk setiap
kelas tidak diketahui, maka probabilitas setiap kelas biasanya diasumsikan
sama, P(C1) = P(C2) = ... = P(Cm). Dengan demikian, Naïve Bayes classifier
hanya memaksimalkan P(X|Ci)
4. Jika Anda berhadapan dengan himpunan data yang memiliki sangat banyak
atribut, Anda dapat mereduksi kompleksitas penghitungan dengan asumsi

naif tentang independensi bersyarat kelas, yaitu: nilai-nilai atribut saling
independen (tidak ada ketergantungan). Jadi, Naïve Bayes memaksimalkan
P (Ci X )   nk 1 P ( xk Ci )  P ( x1 Ci )  P ( x2 Ci )  ...  P( xn Ci )

Naïve Bayes?
4. Untuk atribut yang bernilai kategorial, P(Xk|Ci) didefinisikan sebagai jumlah
tuple di kelas Ci dalam himpunan data D yang memiliki nilai xk pada atribut Ak
dibagi dengan jumlah semua tuple di kelas Ci dalam D yang disimbolkan
sebagai |Ci,D|.
Untuk atribut yang bernilai kontinu, yang umumnya diasumsikan memiliki
distribusi Gaussian, P(Xk|Ci) didefinisikan sebagai

P( xk Ci ) 

i,k

 i,k

1


 i , k 2



e

xk i ,k 2
2 i ,k 2

di mana
dan
adalah rata-rata dan deviasi standar dari nilai-nilai pada
atribut Ak untuk kelas Ci.

Naïve Bayes?
5. Untuk memprediksi label kelas dari tuple X, Anda harus menghitung
probabilitas P(X|Ci) P(Ci) untuk setiap kelas Ci. Selanjutnya, Anda hanya
perlu memaksimalkan probabilitas tersebut, yaitu mencari kelas Ci yang
menghasilkan probabilitas P(X|Ci) P(Ci) maksimum sebagai kelas keputusan.
Secara matematis, tuple X diberi label kelas Ci jika dan hanya jika


P ( X Ci ) P (Ci )  P( X C j ) P(C j ) untuk 1  j  m, j  i

Naïve Bayes untuk data kategorial

Handphone
H1
H2
H3
H4
H5
H6
H7
H8
H9
H10
H11
H12
H13
H14


Baterai
Kuat
Kuat
Kuat
Kuat
Cukup
Cukup
Cukup
Cukup
Cukup
Lemah
Lemah
Lemah
Lemah
Lemah

Kamera
Tinggi
Tinggi

Sedang
Rendah
Tinggi
Sedang
Sedang
Tinggi
Rendah
Tinggi
Tinggi
Sedang
Sedang
Rendah

Harga
Sangat Murah
Sangat Mahal
Mahal
Mahal
Sangat Murah
Mahal

Sangat Mahal
Murah
Mahal
Sangat Murah
Sangat Mahal
Mahal
Murah
Sangat Mahal

Layak
(Direkomendasikan)
Ya
Ya
Ya
Tidak
Ya
Ya
Ya
Ya
Tidak

Ya
Tidak
Tidak
Tidak
Tidak

H15

Kuat

Sedang

Murah

?

Langkah Pertama

H15


Kuat

Sedang

Murah

?

Misalkan tuple X = (Baterai = ‘Kuat’, Kamera = ‘Sedang’, dan Harga “Murah”)

Langkah Kedua

P( Direkomendasikan  Ya)  8 / 14  0,5714

P( Direkomendasikan  Tidak )  6 / 14  0,4286

Langkah Ketiga
P ( Baterai  Kuat | Direkomendasikan  Ya)  3 / 8
P( Baterai  Kuat | Direkomendasikan  Tidak )  1 / 6
P( Kamera  Sedang | Direkomendasikan  Ya)  3 / 8

P( Kamera  Sedang | Direkomendasikan  Tidak )  2 / 6
P (Harga  Murah | Direkomendasikan  Ya)  1 / 8
P (Harga  Murah | Direkomendasikan  Tidak )  1 / 6

Langkah Keempat
P( X | Direkomendasikan  Ya)  P( Baterai  Kuat | Direkomendasikan  Ya)
 P( Kamera  Sedang | Direkomendasikan  Ya)
 P(Harga  Murah | Direkomendasikan  Ya)
3 3 1
  
8 8 8
 0,0175
P( X | Direkomendasikan  Tidak )  P( Baterai  Kuat | Direkomendasikan  Tidak )

 P( Kamera  Sedang | Direkomendasikan  Tidak )
 P( H arg a  Murah | Direkomendasikan  Tidak )
1 2 1
  
6 6 6
 0,0093

Langkah Kelima
P ( X | Layak  Ya)  P ( Layak  Ya)  0,0175  0,5714  0,0099
P ( X | Layak  Tidak )  P ( Layak  Tidak )  0,0093 0,4286  0,0039

H15

Kuat

Sedang

Murah

Ya
?

Hasil Pembelajaran Naive Bayes?

Hasil Pembelajaran Naive Bayes?
Layak
Ya
Tidak

Probabilitas
8/14
6/14

Baterai
Kuat
Cukup
Lemah

Probabilitas Layak =
Ya
Tidak
3/8
1/6
4/8
1/6
1/8
4/6

Hasil pembelajaran Naive Bayes adalah (n + 1) matriks
yang dapat mengklasifikasikan tuple-tuple data baru yang
belum pernah dipelajari oleh Naive Bayes.

H16

Lemah Tinggi

Mahal

?

Kamera
Tinggi
Sedang
Rendah
Harga

Sangat Murah
Murah
Mahal
Sangat Mahal

Probabilitas Layak =
Ya
Tidak
5/8
1/6
3/8
2/6
0/8
3/6
Probabilitas Layak =
Ya
Tidak
3/8
0/6
1/8
1/6
2/8
3/6
2/8
2/6

P ( Layak  Ya | X )  P ( X | Layak  Ya)  P ( Layak  Ya)
 P ( Baterai  Lemah | Layak  Ya) 
P ( Kamera  Tinggi | Layak  Ya) 

H16

Lema Tinggi

Mahal

P (Harga  Mahal | Layak  Ya) 
P ( Layak  Ya)
1 5 2 8
   
8 8 8 14
 0,0111
P ( Layak  Tidak | X )  P ( X | Layak  Tidak )  P( Layak  Tidak )
 P( Baterai  Lemah | Layak  Tidak ) 
P( Kamera  Tinggi | Layak  Tidak ) 
P(Harga  Mahal | Layak  Tidak ) 
P( Layak  Tidak )
4 1 3 6
   
6 6 6 14
 0,0238
Tidak

Hasil Pembelajaran Naive Bayes?
Layak
Ya
Tidak

Probabilitas
8/14
6/14

Baterai
Kuat
Cukup
Lemah

Probabilitas Layak =
Ya
Tidak
3/8
1/6
4/8
1/6
1/8
4/6

Kamera
Tinggi
Sedang
Rendah
Harga

H16

Lemah Tinggi

H17

Kuat

Mahal

Rendah Sangat Murah

Tidak
?

Sangat Murah
Murah
Mahal
Sangat Mahal

Probabilitas Layak =
Ya
Tidak
5/8
1/6
3/8
2/6
0/8
3/6
Probabilitas Layak =
Ya
Tidak
3/8
0/6
1/8
1/6
2/8
3/6
2/8
2/6

P ( Layak  Ya | X )  P ( X | Layak  Ya)  P ( Layak  Ya)
 P ( Baterai  Kuat | Layak  Ya) 
P ( Kamera  Rendah | Layak  Ya) 
P (Harga  SangatMura h | Layak  Ya) 
P ( Layak  Ya)
3 0 3 8
   
8 8 8 14
0
P ( Layak  Tidak | X )  P ( X | Layak  Tidak )  P ( Layak  Tidak )
 P ( Baterai  Kuat | Layak  Tidak ) 
P( Kamera  Rendah | Layak  Tidak ) 
P(Harga  Sangat Murah | Layak  Tidak ) 
P( Layak  Tidak )
1 3 0 6
   
6 6 6 14
0

Hasil Pembelajaran Naive Bayes
Layak
Ya
Tidak

Probabilitas
8/14
6/14

Baterai
Kuat
Cukup
Lemah

Probabilitas Layak =
Ya
Tidak
3/8
1/6
4/8
1/6
1/8
4/6

Gunakan Laplacian correction. Caranya? Anda bisa
menambahkan satu tuple pura-pura untuk setiap atribut
yang ada. Saya ulangi, satu tuple pura-pura untuk
setiap atribut. Perhatikan slide berikutnya.
H17

Kuat

Rendah Sangat Murah

?

Kamera
Tinggi
Sedang
Rendah
Harga

Sangat Murah
Murah
Mahal
Sangat Mahal

Probabilitas Layak =
Ya
Tidak
5/8
1/6
3/8
2/6
0/8
3/6
Probabilitas Layak =
Ya
Tidak
3/8
0/6
1/8
1/6
2/8
3/6
2/8
2/6

Hasil Pembelajaran Naive Bayes
Layak
Ya
Tidak

Probabilitas
9/16
7/16

Baterai
Kuat
Cukup
Lemah

Probabilitas Layak =
Ya
Tidak
4/11
2/9
5/11
2/9
2/11
5/9

Matriks probabilitas setelah penambahan satu
tuple pura-pura untuk setiap atribut.

H17

Kuat

Rendah Sangat Murah

Kamera
Tinggi
Sedang
Rendah
Harga

?

Sangat Murah
Murah
Mahal
Sangat Mahal

Probabilitas Layak =
Ya
Tidak
6/11
2/9
4/11
3/9
1/11
4/9
Probabilitas Layak =
Ya
Tidak
4/12
1/10
2/12
2/10
3/12
4/10
3/12
3/10

P ( Layak  Ya | X )  P ( X | Layak  Ya)  P ( Layak  Ya)
 P ( Baterai  Kuat | Layak  Ya) 
P ( Kamera  Rendah | Layak  Ya) 
P (Harga  Sangat Murah | Layak  Ya) 
P ( Layak  Ya)
4 1 4 9
  
11 11 12 16
 0,0062


P ( Layak  Tidak | X )  P ( X | Layak  Tidak )  P ( Layak  Tidak )
 P ( Baterai  Kuat | Layak  Tidak ) 
P ( Kamera  Rendah | Layak  Tidak ) 
P (Harga  Sangat Murah | Layak  Tidak ) 
P ( Layak  Tidak )
2 4 1 7
   
9 9 10 16
 0,0043

Naïve Bayes untuk data Kontinu

Handphone

Baterai

Kamera

Harga

H1
H2
H3
H4
H5
H6
H7
H8
H9
H10
H11
H12
H13
H14

26
27
28
25
23
20
22
24
21
16
12
14
18
15

8
13
5
2
10
7
7
8
3
13
10
5
5
3

1,2
15
6
5
1
3,5
10
2
4
0,8
12
5
3
14

Layak
(Direkomendasikan)
Ya
Ya
Ya
Tidak
Ya
Ya
Ya
Ya
Tidak
Ya
Tidak
Tidak
Tidak
Tidak

H15

28

4

2

?

2

P( xk Ci ) 

1

 ik 2

  3,1416

e


xk ik 

2 ik

e  2,7183

2

Handphone

Baterai

Kamera

Harga

H1
H2
H3
H4
H5
H6
H7
H8
H9
H10
H11
H12
H13
H14

26
27
28
25
23
20
22
24
21
16
12
14
18
15

8
13
5
2
10
7
7
8
3
13
10
5
5
3

1,2
15
6
5
1
3,5
10
2
4
0,8
12
5
3
14

P( xk Ci ) 

1

 ik 2

e


xk ik 2

2 ik 2

Layak
(Direkomendasikan)
Ya
Ya
Ya
Tidak
Ya
Ya
Ya
Ya
Tidak
Ya
Tidak
Tidak
Tidak
Tidak

Handphone

Baterai

Kamera

Harga

H1
H2
H3
H4
H5
H6
H7
H8
H9
H10
H11
H12
H13
H14
Rata-rata C1

26
27
28
25
23
20
22
24
21
16
12
14
18
15
?

8
13
5
2
10
7
7
8
3
13
10
5
5
3
?

1,2
15
6
5
1
3,5
10
2
4
0,8
12
5
3
14
?

STD C1

?

?

?

Rata-rata C2

?

?

?

Layak
(Direkomendasikan)
Ya
Ya
Ya
Tidak
Ya
Ya
Ya
Ya
Tidak
Ya
Tidak
Tidak
Tidak
Tidak

Hasil Pembelajaran Naive Bayes?

Hasil Pembelajaran Naive Bayes?
Handphone
H1
H2
H3
H5
H6
H7
H8
H10
Rata-rata C1
STD C1

Baterai
26
27
28
23
20
22
24
16
23.2500
3.9551

Kamera
8
13
5
10
7
7
8
13
8.8750
2.9001

Harga
1,2
15
6
1
3,5
10
2
0,8
6.8000
5.8052

Layak (Direkomendasikan)
Ya
Ya
Ya
Ya
Ya
Ya
Ya
Ya

Hasil Pembelajaran Naive Bayes?
Handphone
H4
H9
H11
H12
H13
H14
Rata-rata C2

Baterai
25
21
12
14
18
15
17.5000

Kamera
2
3
10
5
5
3
4.6667

Harga
5
4
12
5
3
14
7.1667

STD C2

4.8477

2.8752

4.6224

Layak (Direkomendasikan)
Tidak
Tidak
Tidak
Tidak
Tidak
Tidak

H15

28

4

P ( X Layak  Ya)  P ( Layak  Ya) 
1
e
3,9551 2

2

P( X Layak  Tidak )  P( Layak  Tidak ) 


2823, 25002


1
e
2,9001 2

2 (3,9551) 2




4 8,87502

2 ( 2,9001) 2


2 6,80002


?
Ya



1
2 ( 5,8052) 2
e
5,8052 2
8 0,4862 0,2435 0,7105
 


14 9,9139 7,2695 14,5513
 0,5714  0,0490  0,0335  0,0488
 0,000046

1
e
4,8477 2
1
e
2,8752 2


2817,50002

2 ( 4,8477) 2




4 4, 66672

2 ( 2,8752) 2


2 7 ,16672




1
2 ( 4, 6224) 2
e
4,6224 2
6 0,0958 0,9735 0,5354
 


14 12,1512 7,2069 11,5865
 0,4286  0,0079  0,1351  0,4621
 0,000021

10-1325

Tuple
T0000000000
1
T0000000000
2
T0000000000
3
T0000000000
4
T0000000000
5
T0000000000
6
T0000000000
7
T0000000000
8
T0000000000
9
T0000000001
0
T0000000001

x1
26

X2
523

...
...

x1000000
1,2

Kelas
1

27

715

...

15

1

28

546

...

6

-1325

1

25

235

...

5

0

P(X | C1 )  1,0110

P(X | C 2 )  1,02 10

-1325

23

321

...

1

20

350

...

3,5

810
...
10
Di22dalam bahasa
pemrograman
komputer,
24
tipe
632 data real
... atau floating
2
point
tidak 408
dapat merepresentasian
21
...
4
-1325
bilangan 10 . Bagaimana solusinya?

1
1
1
1
0

16

108

...

0,8

1

12

912

...

12

0

1

P   log( P ) 

1

 log( P )

1
1


0
,
000
754719
-1325
1324,9957
 log 1,0110





1
1


0,00075472
1
-1325
1324,9913
 log 1,02 10





THANK YOU

Dokumen yang terkait

The Effectiveness of Computer-Assisted Language Learning in Teaching Past Tense to the Tenth Grade Students of SMAN 5 Tangerang Selatan

4 116 138

The Relationship between Students’ Motivation and Their English Learning Achievement (A Correlational Study at the Second Grade of SMAN 3 TANGSEL)

4 42 71

Analysis On The Difficulties Faced By The Students In Learning Gerund At The First Grade Of MTS Darul Amal Bekasi

1 12 64

Peningkatan Aktivitas Belajar Matematika Melalui Penerapan Pendekatan Contextual Teaching and Learning (CTL) Pada Siswa Kelas IV MI Mathlaul Anwar

0 15 174

Pictures Application On Si Dupan Poster To Help Beginners Learning English

0 15 1

Laporan Praktek Kerja Lapangan Di PT. Telkom Learning Center Area Di Jabar Dan Banten

1 15 56

Learning of Facts but the Training of th

0 21 2

“Pembelajaran apresiasi prosa fiksi melalui pendekatan Cooperative Learning tipe Cooperative Integrated Reading and Composition (CIRC) untuk meningkatkan aktivitas dan hasil belajar pada siswa kelas VB SDN 08 Metro Timur TP 2012/2013”.

11 75 55

BAB IV HASIL PENELITIAN A. Deskripsi Data 1. Peningkatan Hasil Belajar Siswa Pada Kelas Eksperimen - Pengaruh Model Learning Cycle Terhadap Hasil Belajar Siswa pada Materi Pencemaran Lingkungan Kelas VII di SMP Muhammadiyah Palangka Raya Tahun Ajaran 2013

0 0 9

Pemanfaatan Permainan Tradisional sebagai Media Pembelajaran Anak Usia Dini untuk Mengembangkan Aspek Moral dan Bahasa Anak Utilization of Traditional Games as Media Learning Early Childhood to Develop Aspects of Moral and Language Children Irfan Haris

0 0 11