4 Model Linear untuk Klasifikasi

(1)

Model Linear untuk Klasifikasi

Departemen Matematika, Universitas Indonesia – Depok 16424

Dr. rer. nat. Hendri Murfi

Intelligent Data Analysis (IDA) Group

Telp. +62-21-7862719/7863439, Fax. +62-21-7863439, Email. hendri@ui.ac.id

MMA10991 Topik Khusus - Machine Learning

Machine Learning

y(

x

,

w

)

t

x

₁

x

₂

:

x

Input Model/Metode Output

Diberikan data pelatihan (training data), yaitu x_idan/atau t_i, i = 1 sd N

• Preprocessing: pemilihan/ekstraksi fitur dari data, misal x_i = (x₁, x₂, .., x_D)T

• _Learning_{: penentuan parameter metode, misal}_w_{, berdasarkan data}

pelatihan

• Testing: pengujian metode dengan data baru. Data penguji (testing data) tersebut harus dilakukan preprocessing yang sama dengan data

(2)

Diberikan data pelatihan

x

, i = 1 sd N,

dan/atau

t

, i = 1 as N

• _{Supervised Learning}

_{. Data pelatihan disertai target, yaitu {}

x

,

t

}, i = 1 sd

N. Tujuan pembelajaran adalah membangun model yang dapat

menghasilkan output yang benar untuk suatu data input, misal untuk

regresi, klasifikasian, regresi ordinal, ranking, dll

• _{Unsupervised Learning}

_{. Data pelatihan tidak disertai target, yaitu}

x

, i = 1

sd N. Tujuan pembelajaran adalah membagun model yang dapat

menemukan komponen/variabel/fitur tersembunyi pada data pelatihan,

yang dapat digunakan untuk: pengelompokan (

clustering

), reduksi

dimensi (

dimension reduction

), rekomendasi, dll

Learning

Supervised Learning

• _Regresi

–

Nilai output

t

bernilai kontinu (riil)

–

Bertujuan memprediksi output dari

data baru dengan akurat

• _Klasifikasi

–

Nilai output

t

bernilai diskrit (kelas)

–

Bertujuan mengklasifikasi data baru

(3)

Masalah Dua Kelas

Klasifikasi

Decision Boundary / Decision Surface

Kelas 1 Kelas 2

• _{Diberikan vektor input}_x

berdimensi D, bagaimana

mengklasifikasikannya pada salah satu kelas

• Salah satu cara adalah mencari batas (decision boundary/decision surface) antara area kelas (decision region) bedasarkan data

pembelajaran

• Misal dengan menggunakan fungsi linear (model linear) yang dikenal juga dengan istilah fungsi

diskriminan (discriminant function)

Model Linear

Klasifikasi

• _{Model linear adalah kombinasi linear dari fungsi nonlinear dari variabel input:}

Dimana x = (x₁, x₂, ..., x_D)T_{adalah variabel input, dan}_w_{= (}_w

0, w1, ..., wD)

adalah parameter, φφφφ(x) adalah fungsi basis, M adalah jumlah total parameter dari model

• Biasanya, φ₀(x) = 1, sehingga w₀ berfungsi sebagai bias

• _{Ada banyak pilihan yang mungkin untuk fungsi basis}_φ_φ_φ_φ₍_x_),_{misal fungsi linear,}

(4)

Hyperplane

Klasifikasi

• _{Bentuk model linear yang paling}

sederhana untuk fungsi diskriminan linear:

y(x) = wT_x_{+ w} 0

Dimana x adalah vektor input, w

adalah vektor bobot dan w₀ adalah bias.

• _Sehingga,_{decision boundary}_adalah

y(x)=0, yaitu suatu hyperplane berdimensi (D-1)

• _{Suatu vektor input}_x_akan

diklasifikasikan ke kelas 1 (R₁) jika y(x)≥0, dan kelas 2 (R₂) jika y(x)<0

Sifat-Sifat Hyperplane

Klasifikasi

• Jika x_A dan x_B terletak pada decision boundary (DS), maka y(x_A)=y(x_B)=0 atau wT₍_x

A-xB)=0, sehingga w tegak

lurus terhadap semua vektor di DS. Dengan kata lain w menentukan orientasi dari DS

• _{Jarak titik awal ke DS adalah}

-w₀/||w||. Dengan kata lain w₀ menentukan lokasi DS.

• _{Jarak sembarang vektor}_x_{ke DS}

(5)

Bentuk Umum

Perceptron

• Asumsikan kita memiliki data pembelajaran {x_n, t_n}, n = 1 sd N. Suatu vektor input x pertama-tama ditransformasi menggunakan suatu transformasi nonlinear φ(.)untuk membentuk vektor fitur φ(x) yang digunakan untuk membentuk model linear dengan bentuk:

y(x) = f(wT_φ_φ_φ_φ₍_x₎₎

dimana fungsi aktifasi nonlinear f(.) diberikan oleh fungsi tangga dengan bentuk:

f(a)=+1 jika a≥0 f(a)=-1 jika a<0.

• Vektor φφ(φφx)biasanya mengandung komponen bias φ₀(x)=1

Kriteria Perceptron

Perceptron

• Diberikan data pembelajaran x_n

dan t_n, dimana t_n = +1 untuk kelas C₁ dan t_n = -1 untuk kelas C₂

• Untuk setiap vektor x_n di kelas C₁ akan membuat wT_φ_φ_φ_φ₍_x

n) > 0, dan

untuk setiap vektor x_n di kelas C₂ akan membuat wT_φ_φ_φ_φ₍_x

n) < 0

• Sehingga, semua vektor x_n akan diklasifikasi dengan benar jika

wT_φ_φ_φ_φ₍_x n) tn > 0

wT_φ φ φ φ(x_n) < 0 (kelas C₂ atau t = -1)

wT_φ φ φ φ(x_n) > 0 (kelas C₁ atau t = +1) wT_φ_φ_φ_φ₍_x

(6)

Fungsi Error

Perceptron

• _{Untuk setiap vektor}

_x

_{yang tidak diklasifikasikan dengan benar,}

maka metode perceptron akan meminimumkan fungsi error,

disebut juga kriteria perceptron (

perceptron criterion

), sbb:

Dimana

M

adalah himpunan indeks vektor

x

yang tidak

diklasifikasikan dengan benar

• _{Sehingga, bobot diperbarui secara berulang sbb:}

w

(τ+1)

_{= w}

(τ)

_{- η}

_∇

_E

(w) = w

(τ)

_{+ η}

_φ(

_x

)t

dimana

η

adalah parameter

learning rate,

dan

τ

ada langkah

dari iterasi algoritma

E_pw=−

∑

n∈M

wTx_nt_n

Algoritma

Perceptron

1)

{(

x

₁

,t

₁

), ..., (

x

,t

)} adalah data pembelajaran

2)

Inisialisasi w

(0)

_{dengan bilangan random}

3)

Untuk setiap data pembelajan (x

,t

), Jika data

diklasifikasikan dengan benar maka tidak ada perubahan

terhadap

w

4)

Untuk setiap data pembelajan (x

,t

), Jika data pembelajaran

tidak diklasifikasikan dengan benar maka

w

diperbarui sbb:

w

(τ+1)

_{= w}

(τ)

_{- η}

_∇

_E

(w) = w

(τ)

_{+ η}

_φ(

_x

)t

(7)

Contoh

Perceptron

Diberikan data sebagai berikut

Tentukan

hyperplane

yang menjadi batas (

decision

boundary

) dari ke dua kelas dari data tersebut dengan

menggunakan metode perceptron!

No x₁ x₂ Kelas (t)

1 1 1 +1

2 1 -1 -1

3 -1 1 -1

4 -1 -1 -1

Contoh

Perceptron

Misal

ɳ

= 1,

ɸ

(

x

) =

x

,

ɸ

₀

(

x

) = 1,

w

(0)

_{= (0, 0, 0)}

1)

Ambil

x

₁

= (1,1)

_{dan t}

= +1

sebagai data pembelajaran:

w(1) ₌_w(0)₊_{ɳ ɸ}_(x

1) t1

= w(0)₊_ɳ_{(1, x}

1, x2) t1

= (0, 0, 0)T₊_{1 . (1, 1, 1)}T_{. 1}

= (1, 1, 1)T

sehingga

decision boundary

(8)

Contoh

Perceptron

2)

Ambil

x

₂

= (1,-1)

_{dan t}

= -1

sebagai data pembelajaran:

w(2) ₌_w(1)₊_{ɳ ɸ}_(x

2) t2

= w(1)₊_ɳ_{(1, x}

1, x2) t2

= (1, 1, 1)T₊_{1 . (1, 1, -1)}T_{. -1}

= (0, 0, 2)T

sehingga

decision boundary

adalah 2x

₂

= 0

Contoh

Perceptron

3)

Ambil

x

₃

= (-1,1)

_{dan t}

= -1

sebagai data pembelajaran:

w(3) ₌_w(2)₊_{ɳ ɸ}_(x

3) t3

= w(2)₊_ɳ_{(1, x}

1, x2) T_t

= (0, 0, 2)T₊_{1 . (1, -1, 1)}T_{. -1}

= (-1, 1, 1)T

sehingga

decision boundary

(9)

Beberapa Catatan

Perceptron

• _{Pada tahun 1962, Novikoff telah mebuktikan teorema pertama}

tentang perceptron. Teorema ini memulai teori tentang

pembelajaran (

learning

) yang menyatakan bahwa jika

–

Norm dari vektor input

x

dibatasi oleh konstanta

R (|

x

|

≤

R)

–

Data pembelajaran dapat dipisahkan dengan margin

ρ

:

Maka setelah paling banyak

K

≤ [

R

_/ρ

_]

_koreksi,

_hyperplane

yang memisahkan data pembelajaran akan dibentuk

• _{Perceptron telah menunjukkan kapabilitas generalisasi pada}

contoh kasus sederhana

Referensi

• _{Bishop, C. H.,}

_{Pattern Recognition and Machine Learning}

_,

(1)

Hyperplane

• _{Bentuk model linear yang paling}

sederhana untuk fungsi diskriminan linear:

y(x) = wT_x_{+ w} 0

Dimana x adalah vektor input, w

adalah vektor bobot dan w₀ adalah bias.

• _Sehingga,_{decision boundary}_adalah

y(x)=0, yaitu suatu hyperplane

berdimensi (D-1)

• _{Suatu vektor input}_x_akan

diklasifikasikan ke kelas 1 (R₁) jika

y(x)≥0, dan kelas 2 (R₂) jika y(x)<0

Sifat-Sifat Hyperplane

Klasifikasi

• Jika x_A dan x_B terletak pada decision boundary (DS), maka y(x_A)=y(x_B)=0

atau wT₍_x

A-xB)=0, sehingga w tegak

lurus terhadap semua vektor di DS.

Dengan kata lain w menentukan orientasi dari DS

• _{Jarak titik awal ke DS adalah}

-w₀/||w||. Dengan kata lain w₀

menentukan lokasi DS.

• _{Jarak sembarang vektor}_x_{ke DS}

(2)

Bentuk Umum

y(x) = f(wT_φ_φ_φ_φ₍_x₎₎

dimana fungsi aktifasi nonlinear f(.) diberikan oleh fungsi tangga dengan bentuk:

f(a)=+1 jika a≥0

f(a)=-1 jika a<0.

• Vektor φφ(x)φφ biasanya mengandung komponen bias φ₀(x)=1

Kriteria Perceptron

Perceptron

• Diberikan data pembelajaran x_n

dan t_n, dimana t_n = +1 untuk kelas

C₁ dan t_n = -1 untuk kelas C₂

• Untuk setiap vektor x_n di kelas C₁

akan membuat wT_φ_φ_φ_φ₍_x

n) > 0, dan

untuk setiap vektor x_n di kelas C₂ akan membuat wT_φ_φ_φ_φ₍_x

n) < 0

• Sehingga, semua vektor x_n akan diklasifikasi dengan benar jika

wT_φ_φ_φ_φ₍_x n) tn > 0 wT_φ

φ φ φ(x_n) < 0 (kelas C₂ atau t = -1)

wT_φ φ φ φ(x_n) > 0

(kelas C₁ atau t = +1) wT_φ_φ_φ_φ₍_x

(3)

Fungsi Error

• _{Untuk setiap vektor}_x_{yang tidak diklasifikasikan dengan benar,} maka metode perceptron akan meminimumkan fungsi error, disebut juga kriteria perceptron (perceptron criterion), sbb:

Dimana M adalah himpunan indeks vektor x yang tidak diklasifikasikan dengan benar

• _{Sehingga, bobot diperbarui secara berulang sbb:} w(τ+1)_{= w}(τ)_{- η∇E}

P(w) = w

(τ)_{+ ηφ(x} n)tn

dimana η adalah parameter learning rate, dan τ ada langkah dari iterasi algoritma

E_pw=−

∑

n∈M

wTx_nt_n

Algoritma

Perceptron

1) {(x₁,t₁), ..., (x_N,t_N)} adalah data pembelajaran 2) Inisialisasi w(0)_{dengan bilangan random}

3) Untuk setiap data pembelajan (x_n,t_n), Jika data

diklasifikasikan dengan benar maka tidak ada perubahan terhadap w

4) Untuk setiap data pembelajan (x_n,t_n), Jika data pembelajaran tidak diklasifikasikan dengan benar maka w diperbarui sbb:

w(τ+1)_{= w}(τ)_{- η∇E}

P(w) = w

(τ)_{+ ηφ(x} n)tn

(4)

Contoh

Diberikan data sebagai berikut

Tentukan hyperplane yang menjadi batas (decision

boundary) dari ke dua kelas dari data tersebut dengan

menggunakan metode perceptron!

No x₁ x₂ Kelas (t)

1 1 1 +1

2 1 -1 -1

3 -1 1 -1

4 -1 -1 -1

Contoh

Perceptron

Misalɳ = 1, ɸ(x) = x, ɸ₀(x) = 1, w(0)_{= (0, 0, 0)}

1) Ambil x₁= (1,1)T _{dan t}

1 = +1

sebagai data pembelajaran:

w(1) _{= w}(0)₊_{ɳ ɸ}_(x 1) t1

= w(0)₊_ɳ_{(1, x}

1, x2) t1

= (0, 0, 0)T₊_{1 . (1, 1, 1)}T_{. 1}

= (1, 1, 1)T

sehingga decision boundary

(5)

Contoh

2) Ambil x₂= (1,-1)T _{dan t} 2 = -1

sebagai data pembelajaran:

w(2) _{= w}(1)₊_{ɳ ɸ}_(x 2) t2

= w(1)₊_ɳ_{(1, x}

1, x2) t2

= (1, 1, 1)T₊_{1 . (1, 1, -1)}T_{. -1}

= (0, 0, 2)T

sehingga decision boundary

adalah 2x₂ = 0

Contoh

Perceptron

3) Ambil x₃= (-1,1)T _{dan t} 3 = -1

sebagai data pembelajaran:

w(3) _{= w}(2)₊_{ɳ ɸ}_(x 3) t3

= w(2)₊_ɳ_{(1, x}

1, x2) T_t

= (0, 0, 2)T₊_{1 . (1, -1, 1)}T_{. -1}

= (-1, 1, 1)T

sehingga decision boundary

(6)

Beberapa Catatan

• _{Pada tahun 1962, Novikoff telah mebuktikan teorema pertama} tentang perceptron. Teorema ini memulai teori tentang

pembelajaran (learning) yang menyatakan bahwa jika

– Norm dari vektor input x dibatasi oleh konstanta R (|x|≤R) – Data pembelajaran dapat dipisahkan dengan margin ρ:

Maka setelah paling banyak K ≤ [R2_/ρ2_]_koreksi,_hyperplane

yang memisahkan data pembelajaran akan dibentuk

• _{Perceptron telah menunjukkan kapabilitas generalisasi pada} contoh kasus sederhana

Referensi

• _{Bishop, C. H.,}_{Pattern Recognition and Machine Learning}_, Springer, 2006 (Bab 4.1.1, Bab 4.1.7)