course 8 model validation
MODEL SELECTION
AND VALIDATION
Model Selection and Validation
•
Ketika bekerja dengan model-model machine learning, maka terdapat dua problem
yang timbul:
•
Memilih model
•
•
Bagaimana memilih parameter model yang optimal?
Validasi
•
Ketika kita sudah memilih suatu model, maka bagaimana menentukan tingkat kesalahan
sebenarnya (true error rate)?
• Apabila kita memiliki data yang tidak terbatas, maka pilih model yang memiliki tingkat kesalahan
terkecil (yang merupakan tingkat kesalahan sebenarnya)
• Namun, bagaimana jika data yang kita miliki terbatas?
The Holdout Method
•
Membagi data menjadi dua:
•
•
•
Problem:
•
•
•
Data training
Data testing
Bagaimana jika pembagian data training (atau testing) mendapatkan yang data lebih
mudah/sulit? (unfortunate split)
Akibatnya prediksi error menjadi tidak valid
Metode lain yang dapat digunakan:
•
Cross Validation (CV): k-fold CV, LOOCV
Cross Validation (CV): k-fold CV
•
Prosedur k-fold CV:
1.
2.
•
•
•
•
•
•
•
Membagi data menjadi � grup secara random
Untuk setiap grup: � = , , … , �
Gunakan grup, selain grup ke-�, untuk membentuk model
Ujikan model yang terbentuk pada grup ke-� yang berguna sebagai data
testing
Hitung error untuk uji model pada data testing ��
Drop semua model (�) yang terbentuk
1
Estimasi error diperoleh: � = � σ��=1 ��
Umumnya, digunakan � = 5 atau
The advantage of K-Fold Cross validation is that all the examples
in the dataset
are eventually used for both training and testing
Bagian bewarna
abu merupakan
data testing
Leave-One-Out CV (LOOCV)
•
Untuk data dengan � data, maka:
•
•
•
•
Data training menggunakan sebanyak
� − data, sementara untuk uji
digunakan hanya satu data saja
Akan terdapat sebanyak � model
Hitung error untuk setiap percobaan ��
Estimasi error:
� =
�
�
��
�=1
AND VALIDATION
Model Selection and Validation
•
Ketika bekerja dengan model-model machine learning, maka terdapat dua problem
yang timbul:
•
Memilih model
•
•
Bagaimana memilih parameter model yang optimal?
Validasi
•
Ketika kita sudah memilih suatu model, maka bagaimana menentukan tingkat kesalahan
sebenarnya (true error rate)?
• Apabila kita memiliki data yang tidak terbatas, maka pilih model yang memiliki tingkat kesalahan
terkecil (yang merupakan tingkat kesalahan sebenarnya)
• Namun, bagaimana jika data yang kita miliki terbatas?
The Holdout Method
•
Membagi data menjadi dua:
•
•
•
Problem:
•
•
•
Data training
Data testing
Bagaimana jika pembagian data training (atau testing) mendapatkan yang data lebih
mudah/sulit? (unfortunate split)
Akibatnya prediksi error menjadi tidak valid
Metode lain yang dapat digunakan:
•
Cross Validation (CV): k-fold CV, LOOCV
Cross Validation (CV): k-fold CV
•
Prosedur k-fold CV:
1.
2.
•
•
•
•
•
•
•
Membagi data menjadi � grup secara random
Untuk setiap grup: � = , , … , �
Gunakan grup, selain grup ke-�, untuk membentuk model
Ujikan model yang terbentuk pada grup ke-� yang berguna sebagai data
testing
Hitung error untuk uji model pada data testing ��
Drop semua model (�) yang terbentuk
1
Estimasi error diperoleh: � = � σ��=1 ��
Umumnya, digunakan � = 5 atau
The advantage of K-Fold Cross validation is that all the examples
in the dataset
are eventually used for both training and testing
Bagian bewarna
abu merupakan
data testing
Leave-One-Out CV (LOOCV)
•
Untuk data dengan � data, maka:
•
•
•
•
Data training menggunakan sebanyak
� − data, sementara untuk uji
digunakan hanya satu data saja
Akan terdapat sebanyak � model
Hitung error untuk setiap percobaan ��
Estimasi error:
� =
�
�
��
�=1