commit to user 25
Maka �
1
akan terpilih sebagai pohon optimum, karena nilai resubtitution estimate dari
�
1
pasti paling kecil. Oleh karena itu metode resubtitution estimate merupakan metode yang bias untuk mengestimasi true misclassification cost. Ada dua metode
tak bias untuk mengestimasi nilai true misclassification cost yaitu penduga uji sample test sample estimate dan penduga validasi silang lipat V cross validation V-fold
estimate.
1. Test Sample Estimate
Test sample digunakan jika ukuran data besar ℒ besar. Bagilah ℒ menjadi
ℒ
1
dan ℒ
2
. Misal ℒ
1
sebanyak
1
objek dan ℒ
2
sebanyak
2
objek. Buatlah �
menggunakan ℒ
1
dan pangkas hingga diperoleh � = �
1
�
2
�
3
⋯ { } . Gunakan
ℒ
2
pada masing-masing tree dan hitunglah berapa banyak objek yang mengalami kesalahan klasifikasi misclassification. Untuk lebih jelasnya dinotasikan
2
adalah banyaknya objek anggota kelas j dalam ℒ
2
. Untuk setiap T pada �
hitunglah nilai
2
yaitu banyaknya kelas j dalam ℒ
2
yang diklasifikasikan sebagai kelas i oleh T.
Dengan estimasi
∗
| adalah | =
2 2
, jika
2
= 0, maka | = 0, sehingga diperoleh estimasi
∗
adalah = |
| . Jika estimasi probabilitas prior
� maka didapatkan estimasi
∗
, maka � =
� .
Jika probalitas prior diestimasi dari data sampel diperoleh � =
2 2
maka bisa dihitung oleh
� = 1
2
|
2 ,
.
commit to user 26
Test sample estimate dapat digunakan untuk memilih pohon klasifikasi yang optimum dari
� , misal tree optimum adalah � �
= min � .
2. V-Fold Cross Validation Estimates
Cross validation digunakan apabila ukuran sampel kecil. Dalam V-Fold Cross Validation , learning sample
ℒ dibagi secara acak ke dalam V bagian, ℒ , v = 1, 2, ⋯, V. setiap bagian berisi objek dalam jumlah yang sama mendekati sama. Learning
sample ke-v adalah ℒ
= ℒ − ℒ , = 1, 2, ⋯ , �. Dengan demikian ℒ
berisi
�−1 �
dari total objek. Biasanya diambil � = 10, sehingga ℒ
berisi
9 10
objek dari ℒ.
Dalam V-Fold Cross Validation ada V pohon klasifikasi tambahan yang dibuat bersamaan dengan pohon klasifikasi utama yang menggunakan
ℒ. Ke-V pohon klasifikasi tambahan tersebut dibuat dengan learning sample
ℒ . Dimulai dengan
membuat V maksimal tree , �
, = 1, 2,
⋯ , � seperti halnya � . Untuk setiap
nilai complexity parameter atau node complexity �, dibuat �
�
, �
� dibuat oleh ℒ
tanpa melibatkan ℒ sisanya 110 dari ℒ ℒ ini digunakan sebagai test sample
pada masing-masing �
�. Untuk setiap
, , didefinisikan =
dengan : banyaknya objek anggota kelas j dalam
ℒ yang diklasifikasikan
sebagai kelas i oleh �
�. ∶ jumlah keseluruhan dari objek-objek kelas j yang diklasifikasikan
sebagai kelas i.
commit to user 27
Oleh karena setiap objek muncul sekali dan hanya sekali ℒ
maka jumlah keseluruhan objek kelas j di dalam seluruh test sample adalah
sama dengan banyaknya objek kelas j dalam
ℒ, | =
= | |
�
�
= � .
Jika probabilitas prior diestimasi oleh � = , maka menjadi
�
�
= 1
| .
Untuk memilih pohon klasifikasi yang optimum dari � , misal pohon klasifikasi
yang optimum itu adalah �
maka �
= min � .
2.1.8 Predictive Accuracy