6 Analitik Data Tingkat Lanjut Regresi Big Data L1617 v5

  10 Oktober 2016 Analitik Data Tingkat Lanjut (Regresi) Imam Cholissodin | imam.cholissodin@gmail.com

  Pokok Bahasan

  1. Konsep Regresi

  2. Analisis Teknikal dan Fundamental

  

3. Regresi Linear & Regresi Logistic (Optional)

  4. Regresi Non-Linear o

  Extreme Learning Machine (ELM) untuk Big Data o

  Support Vector Machine (SVM) untuk Regresi (Support Vector Regression (SVR))

  5. Studi Kasus

  6. Tugas

  

Konsep Regresi (Just Review)

  • Regresi adalah membangun model untuk memprediksi

    nilai (satu target atau multi-target) dari data masukan (dengan dimensi tertentu) yang telah ada.
  • • Goal : Membangun model regresi untuk mencari

    hubungan antara satu atau lebih variabel independen atau prediktor (X atau X

  1 , X

  2 , .., X n

  ) dengan variabel dependen atau respon single atau multi-target (Y atau Y

  1 , Y

  2 , .., Y n ).

  13500 13450 13400 13350 13300 13200 13250 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Visualisasi Hasil Peramalan Iterasi SVR 100000 aktual ramalan

  

Konsep Regresi (Just Review)

  • Prediksi berbeda dengan klasifikasi (dalam machine

  learning, klasifikasi dianggap sebagai salah satu jenis dari prediksi).

  • Klasifikasi digunakan untuk memprediksi label

    kelas/kategori.
  • Klasifikasi dapat dibagi lagi menjadi dua macam, yaitu:
    • supervised classification (Klasifikasi) dan
    • unsupervised classification (Clustering  sudah dibahas pada pertemuan sebelumya)

  • • Prediksi versus Peramalan (Jangka waktu merupakan

    kata kunci untuk membedakan antara prediksi dan peramalan)

  Analisis Teknikal dan Fundamental

   Ada beberapa jenis pendekatan yang dilakukan untuk meramalkan, misal pada nilai tukar uang diantaranya (Madura, 2011): o

  Analisis Teknikal  Melibatkan data historis nilai tukar untuk meramalkan nilai di masa yang akan datang.

   Prinsip yang biasanya dianut oleh para teknikalis, bahwa nilai kurs sudah menjadi nilai yang representatif dari seluruh informasi yang relevan mempengaruhi kurs tersebut, kurs akan bertahan pada trend tertentu, dan nilai kurs merupakan nilai yang repetitif berulang dari pola sebelumnya (Neely et al., 2011).

   Namun terkadang peramalan secara teknis tidak terlalu membantu untuk jangka waktu yang cukup lama. Banyak peneliti yang berselisih pendapat mengenai peramalan teknis, meskipun secara umum peramalan teknis memberikan konsistensi yang baik. o

  Analisis Fundamental

   Ada beberapa jenis pendekatan yang dilakukan untuk meramalkan, misal pada nilai tukar uang diantaranya (Madura, 2011): o

  Analisis Fundamental  Didasari hubungan fundamental antara variabel

  • variabel ekonomi

  terhadap nilai tukar tersebut, seperti faktor

  • – faktor yang mempengaruhi nilai tukar. Misalnya saja:
    • Tingkat inflasi
    • Suku bunga
    • Neraca Perdagangan (log pembayaran dari hasil jual beli barang dan

  jasa antara negara)

  • Hutang Publik (Public Debt),
  • Rasio Harga Ekspor dan Harga Impor, dan
  • Kestabilan Politik dan Ekonomi.

   Dari uraian sebelumnya, apakah bisa dilakukan penggabungan Analisis Teknikal dan Fundamental? Analisis Teknikal dan Fundamental

   Perhatikan dataset berikut:

   Bagaimana Membangun model regresi yaitu dengan mencari hubungan antara satu atau lebih variabel independen atau explanatory variable atau prediktor (X) dengan variabel dependen atau respon (Y)?

Regresi Linear & Regresi Logistik

  No (X) (Y)

  1

  10

  15

  2

  6

  20

  3

  3

  12

  4

  4

  10

   Regresi Linear:

Regresi Linear & Regresi Logistik

  • x b y x b y b
  • x xy n b

           

   

  2

  2

  1 x x n

  y   n

  1

  1  

     x b b y

  1 ˆ  

  

Extreme Learning Machine (ELM)

untuk Big Data

   Metode ELM ini pertama kali diperkenalkan oleh Huang (2004) (Huang, Zhu, & Siew, 2004).

   ELM merupakan jaringan syaraf tiruan (JST) feedforward dengan single hidden layer atau disebut dengan Single Hidden Layer Feedforward Neural Networks (SLFNs) (Sun, Choi, Au, & Yu, 2008).

  fitur ke-1 fitur ke-2 Hasil

  Prediksi fitur ke-k

  

j

i k

  Output Layer Input Layer Hidden Layer

  Arsitektur ELM

  

Extreme Learning Machine (ELM)

untuk Big Data

   Metode pembelajaran ELM dibuat untuk mengatasi beberapa kelemahan dari jaringan syaraf tiruan feedforward, terutama dalam hal learning speed.

   Menurut Huang (2004), JST masih feedforward memiliki kelemahan dalam learning speed karena semua parameter pada jaringan ditentukan secara iterative dengan menggunakan metode pembelajaran satu persatu untuk setiap data.

2. Hitung matrik keluaran hidden layer H = 1/(1+exp(-X.W

  • 1
    • =(H

  Y H .

  ˆ H Y

   ˆ .

   ˆ

  Hitung 4. Hitung nilai evaluasi, misal dengan MAPE.

  T )) 3.

  test .W

  Diketahu W jk , dan .

   Langkah testing ELM: 1.

   

  ˆ 

   ˆ . ˆ H Y

  

Langkah-langkah training algoritma Extreme Learning

Machine (ELM): 1.

  W ji y

  Hasil Prediksi jk

  i j k

  Output fitur ke-1 fitur ke-2 fitur ke-k

  Input Hidden

  Hitung Extreme Learning Machine (ELM) untuk Big Data

  .H T 4.

  T .H)

  Hitung output weight dimana H

  T )) 3.

  Buat random W jk

sebagai bobot masukan.

2. Hitung H = 1/(1+exp(-X

  • + ones(N
    • 1

  • =(H

  YY H .

  bias

   ˆ . ˆ H Y

   ˆ

  Hitung 4. Hitung nilai evaluasi, misal dengan MAPE.

  test ,1)*b))) 3.

  T

  test .W

  , nilai bias b jika ada, dan .

  Diketahu W jk

   Langkah testing ELM: 1.

   

  ˆ 

   ˆ . ˆ H

  W ji y

  Hasil Prediksi jk

  • + ones(N

  i j k

  Output fitur ke-1 fitur ke-2 fitur ke-k

  Input Hidden

  Hitung Extreme Learning Machine (ELM) untuk Big Data

  .H T 4.

  T .H)

  3. Hitung output weight dimana H

  train ,1)*b))). Dan N train adalah banyaknya data training.

  2. Hitung matrik keluaran hidden layer H = 1/(1+exp(-(X.W T

  1. Buat random W jk sebagai bobot masukan dan nilai bias b jika ada. Ukuran matrik bias b adalah [1 x j]

   Langkah-langkah training ELM dengan bias:

2. Hitung H = 1/(1+exp(-(X

  ELM vs ANN

  

Arsitektur Artificial Neural Network Backpropagation

(ANN):

  1

  7

  1

  1

  2

  5

  2

  6

  2

  1

  1

  3

  8

  1

  1

  3

  9

  N : Banyaknya data training = 9 k : Banyaknya dimensi input layer = 3

  Misal diset, j : Banyaknya dimensi hidden layer= 3

  4

  1

  Penyelesaian:

  1

  

Studi Kasus Sederhana dengan ELM

   Misalkan diketahui, data training (terdapat 3 fitur dan single target) sebagai berikut:

  Data Fitur

  Target

  1

  2

  3

  1

  1

  1

  1

  1

  2

  1

  1

  1

  3

i : Banyaknya dimensi output layer = 1

3 Diketahui,

   i y

1. Men-generate bobot input (W

  i j k

  Hasil Prediksi

  j x k ) antara input layer dan hidden layer. Ukuran W adalah [j x k], yang nilainya di-generate antara [-0.5,0.5].

  • 0.4

  Output fitur ke-1 fitur ke-2 fitur ke-k

  0.2

  0.1

  • 0.2

  0.4

  W = jk W j

  • 0.3 0.3 -0.1

  Input Hidden

1. Men-generate bobot input (W

  1

     

       

  ) Penyelesaian:

  = X.W T

  2. Hitung matrik inisialisasi output hidden layer (H init

  j x k ) antara input layer dan hidden layer. Ukuran W adalah [j x k], yang nilainya di-generate antara [-0.5,0.5].

  4 . 2 .

  1 . 2 . 4 .

  W H init

  1 Input Hidden

  1

  1

  1 . 3 . 3 .

  1 X =

  1

  1

  1

  1

  1

  1

  1

  1

   Misalkan diketahui, data training (terdapat 3 fitur dan single target) sebagai berikut:

  

Studi Kasus Sederhana dengan ELM

      

  • 0.1 0.2 -0.1
  • 0.3 0.2 -0.4
  • 0.2 -0.2
  • 0.2 -0.2

  Hasil Prediksi

  • 0.2 -0.2

  Output fitur ke-1 fitur ke-2 fitur ke-k

  =

  0.2

  0.3

  0.2

  0.3

  i j k

  • 0.1 0.2 -0.1
  • 0.3 0.2 -0.4
  • 0.2 -0.2
  • 0.2 -0.2

  0.50

  0.55

  0.48

  0.43

  0.55

  0.40

  0.45

  0.45

  0.50

  0.45

  0.45

  0.50

  0.55

  0.57

  H =

  0.50

  0.50

  0.50

  0.55

  0.50

  0.57

  0.45

  0.45

  0.50

  0.50

  0.50

  0.50

  0.48

  0.3

  1

  1

  1

  1

  1

  1

  1 X =

  1

  1

  0.2

  1 Input Hidden

  1

  1

   Misalkan diketahui, data training (terdapat 3 fitur dan single target) sebagai berikut:

  2. Hitung matrik inisialisasi output hidden layer (H init

  = X.W T

  )

  

Studi Kasus Sederhana dengan ELM

  Penyelesaian: H init

  =

  0.2

  0.3

  1

  • 0.2 -0.2

3. Htung matrik H = 1/(1+exp(-H

  Output fitur ke-1 fitur ke-2 fitur ke-k

  i j k

  Hasil Prediksi

  init ))

  Y =

  0.50

  0.43

  0.55

  0.40

  0.45

  0.45

  0.50

  0.45

  0.45

  0.50

  0.55

  0.50

  0.57

  0.50

  0.50

  0.55

  0.55

  6.69

  7.33 7.33 -3.13 -5.35 -3.13 7.33 -5.35 H

  1.68 1.68 -3.13 -1.74 -3.13 1.68 -1.74

  3.98

  2.58

  7.57

  7.57 6.69 -9.11

  0.50

  0.50

  0.50

  0.50

  0.50

  0.45

  0.45

  0.57

  0.48

  0.48

  2

  1

  1

  1

  1

  1

  1

  1

  1

  2 X =

  1

  Penyelesaian: H =

  2

  3

  1

  1

  1

  3

  3 Input Hidden

  1

  1

  1

  3. Htung matrik H = 1/(1+exp(-H init

  ))

   Misalkan diketahui, data training (terdapat 3 fitur dan single target) sebagai berikut:

  T .H)

  

Studi Kasus Sederhana dengan ELM

  1

  • 1
    • =(H

  Output fitur ke-1 fitur ke-2 fitur ke-k

  i j k

  Hasil Prediksi

  4. Hitung matrik H

  .H T

  • 2.18 -1.37 -9.11 -9.11
    • + =

  • 0.21 -2.38

  • 1
    • =(H

  • 2.18 -1.37 -9.11 -9.11

   ˆ  

  .H T

  5. Hitung beta topi atau hasil nilai beta yang diestimasi

  • 7.74
  • 0.98

  6. Menghitung Y prediksi Penyelesaian:

  6.69

  7.57 6.69 -9.11

  7.57

  2.58

  3.98

  1.68 1.68 -3.13 -1.74 -3.13 1.68 -1.74

  • + =
    • 0.21 -2.38

  7.33 7.33 -3.13 -5.35 -3.13 7.33 -5.35 H

  Y =

  ˆ 

   Y H .

  13.06

   ˆ . ˆ H Y

  1.48

  0.91

  1.90

  1.90

  2.75

  2.17

  2.75

  1.90

  2.17

  T .H)

  Hasil Prediksi

  4. Hitung matrik H

  1

  

Studi Kasus Sederhana dengan ELM

   Misalkan diketahui, data training (terdapat 3 fitur dan single target) sebagai berikut:

  1

  1

  1

  1

  1

  1

  1

  1

  1

  1

  i j k

  1

  2 X =

  1

  2

  2

  1

  3

  1

  1

  3

  3 Input Hidden

  Output fitur ke-1 fitur ke-2 fitur ke-k

   Yˆ

  

Studi Kasus Sederhana dengan ELM

  2.75

  7. Hitung MAPE Pada proses training, didapatkan hasil testing menggunakan data training sendiri masih memiliki error MAPE sebesar 30.11

  Penyelesaian:

  Y =

   ˆ .

  ˆ H Y

  1.48

  0.91

  1.90

  1.90

  2.17

  Hasil Prediksi

  2.75

  1.90

  2.17

   Yˆ 

    

   N i i i i y y y

  N MAPE

  1 | 100 ˆ

  |

  1 11 .

  6. Menghitung Y prediksi

  i j k

   Misalkan diketahui, data training (terdapat 3 fitur dan single target) sebagai berikut:

  1

  1

  1

  1

  1

  1

  1

  1

  1

  1

  1

  1

  Output fitur ke-1 fitur ke-2 fitur ke-k

  2 X =

  1

  2

  2

  1

  3

  1

  1

  3

  3 Input Hidden

  30 

  

Studi Kasus Sederhana dengan ELM

  2.75

  Penyelesaian:

  Y =

   ˆ .

  ˆ H Y

  1.48

  0.91

  1.90

  1.90

  2.75

  2.17

  1.90

  6. Menghitung Y prediksi

  2.17

   Yˆ 

     

   

  9

  1 | 100 ˆ

  |

  9

  1 N i i i i y y y

  N MAPE 11 .

  7. Hitung MAPE Pada proses training, didapatkan hasil testing menggunakan data training sendiri masih memiliki error MAPE sebesar 30.11

  Hasil Prediksi

   Misalkan diketahui, data training (terdapat 3 fitur dan single target) sebagai berikut:

  1

  1

  1

  1

  1

  1

  1

  1

  1

  1

  1

  1

  i j k

  2 X =

  1

  2

  2

  1

  3

  1

  1

  3

  3 Input Hidden

  Output fitur ke-1 fitur ke-2 fitur ke-k

  30 

  

Studi Kasus Sederhana dengan ELM

   Misalkan diketahui, data testing sebagai berikut: Data training:

  Diketahui, N : Banyaknya data training = 9

  1

  1

  1

  1

  1

  1 1 k : Banyaknya input layer = 3

  1

  1

  1

i : Banyaknya output layer = 1

  1

  1

  2 X =

  1

  2 Y =

  Misal diset,

  2

  1

  3

  j : Banyaknya hidden layer = 3

  1

  1

  3

  3

  • 0.4

  0.2

  0.1

  13.06

  • 0.2

  0.4

  • 7.74

  ˆ W =

   

  • 0.3 0.3 -0.1
  • 0.98

  Data testing:

  1

  1 Xtest =

  1

  1 Penyelesaian:

  1

1. Hitung matrik inisialisasi output hidden layer

  1 T

  (H = Xtest.W ) init

  Ytest =

  1

  3

  • 0.3 0.2 -0.4
  • 0.2 -0.2

  H = init

  0.2

  0.3

  

Studi Kasus Sederhana dengan ELM

   Misalkan diketahui, data testing sebagai berikut: Data training:

  Penyelesaian:

  2. Htung matrik output hidden H = 1/(1+exp(-H ))

  1

  1

  1

  1

  init

  1

  1

  1

  0.43

  0.55

  0.40

  1

  1

  1

  1

  1

  2

  0.45

  0.45

  0.50 H = X =

  1

  2

  0.55

  0.50

  0.57 Y =

  2

  1

  3

  3. Menghitung Y prediksi

  1

  1

  3

  13.06

  3

  • 7.74

  ˆ ˆ , diketahui   , maka

  ˆ H Y  . 

  • 0.98

  0.91 Data testing:

  

  1.90 Yˆ

  1

  1

  2.75 Xtest =

  1

  1

  1

  4. Hitung MAPE N

  3 yy

  1 ˆ

  1

  i i MAPE   

  | 100 | 36 . 0048

  Ytest =

  1

   Ny

  3 i

  1 i

3 Pada proses testing, didapatkan hasil prediksi

  dengan error MAPE sebesar 36.0048

  

Algoritma Support Vector Regression

(SVR)

3. Untuk tiap training point lakukan:

   Konsep SVR didasarkan pada l risk minimization, yaitu untuk

  • Ey    

  R ( ) i i j j ij

   j

  1 mengestimasi suatu fungsi

  • i i i i

  dengan cara meminimalkan  E   C

   min max     ,   ,    

  batas dari generalization error, sehingga SVR mampu   E   C

       min max    ,  , mengatasi overfitting. ii i i

   Fungsi regresi dari metode SVR

       i i i adalah sebagai berikut (Sethu Vijayakumar & Si Wu, 1999)

       i i i

  ALGORITMA SEKUENSIAL TRAINING SVR :

  4. Kembali ke langkah ketiga, sampai pada kondisi iterasi maksimum atau

1. Inisialisasi parameter SVR yang

  • dan

        i

  digunakan max   max i   2.

  Rumus memperoleh Matrik Hessian

5. Dengan mengunakan fungsi peramalan

  2 R K x x berikut:  ( ( , )   ) ij i j l

  • i i i i

  2    f ( x ) ( ) ( K ( x , x ) )   

  

  

  1

  

Tugas Kelompok

1. Diketahui data berikut:

  a a    

  1

  2 xx

  1

  2     b b

  1

  2    

  1 Φ(x

  Tentukan hasil ) dan ) dengan menggunakan kernel Polynomial Φ(x

  2 dengan c = 1 dan d = 2.

  

2. Pada Studi Kasus Sederhana proses training dengan ELM, jika

diketahui hasil random W adalah sebagai berikut:

  • 0.1 -0.2

  0.4

  0.4

  0.3

0.2 W =

  • 0.2 -0.1 -0.2

  Tentukan nilai MAPE dari data testing berikut

  0.7

  1.5

  0.5

  1 Ytest =

  1.8 Xtest =

  1

  1

  0.2

  3

  0.6

  2

  10 Oktober 2016 Terimakasih Imam Cholissodin | imam.cholissodin@gmail.com