course 8 model validation

MODEL SELECTION
AND VALIDATION

Model Selection and Validation


Ketika bekerja dengan model-model machine learning, maka terdapat dua problem
yang timbul:


Memilih model




Bagaimana memilih parameter model yang optimal?

Validasi


Ketika kita sudah memilih suatu model, maka bagaimana menentukan tingkat kesalahan

sebenarnya (true error rate)?
• Apabila kita memiliki data yang tidak terbatas, maka pilih model yang memiliki tingkat kesalahan
terkecil (yang merupakan tingkat kesalahan sebenarnya)
• Namun, bagaimana jika data yang kita miliki terbatas?

The Holdout Method


Membagi data menjadi dua:





Problem:






Data training
Data testing

Bagaimana jika pembagian data training (atau testing) mendapatkan yang data lebih
mudah/sulit? (unfortunate split)
Akibatnya prediksi error menjadi tidak valid

Metode lain yang dapat digunakan:


Cross Validation (CV): k-fold CV, LOOCV

Cross Validation (CV): k-fold CV


Prosedur k-fold CV:
1.
2.











Membagi data menjadi � grup secara random
Untuk setiap grup: � = , , … , �

Gunakan grup, selain grup ke-�, untuk membentuk model
Ujikan model yang terbentuk pada grup ke-� yang berguna sebagai data
testing
Hitung error untuk uji model pada data testing ��
Drop semua model (�) yang terbentuk

1
Estimasi error diperoleh: �෠ = � σ��=1 ��


Umumnya, digunakan � = 5 atau

The advantage of K-Fold Cross validation is that all the examples
in the dataset
are eventually used for both training and testing

Bagian bewarna
abu merupakan
data testing

Leave-One-Out CV (LOOCV)


Untuk data dengan � data, maka:








Data training menggunakan sebanyak
� − data, sementara untuk uji
digunakan hanya satu data saja
Akan terdapat sebanyak � model
Hitung error untuk setiap percobaan ��

Estimasi error:
�෠ =





෍ ��
�=1