Test Sample Estimate V-Fold Cross Validation Estimates

commit to user 25 Maka � 1 akan terpilih sebagai pohon optimum, karena nilai resubtitution estimate dari � 1 pasti paling kecil. Oleh karena itu metode resubtitution estimate merupakan metode yang bias untuk mengestimasi true misclassification cost. Ada dua metode tak bias untuk mengestimasi nilai true misclassification cost yaitu penduga uji sample test sample estimate dan penduga validasi silang lipat V cross validation V-fold estimate.

1. Test Sample Estimate

Test sample digunakan jika ukuran data besar ℒ besar. Bagilah ℒ menjadi ℒ 1 dan ℒ 2 . Misal ℒ 1 sebanyak 1 objek dan ℒ 2 sebanyak 2 objek. Buatlah � menggunakan ℒ 1 dan pangkas hingga diperoleh � = � 1 � 2 � 3 ⋯ { } . Gunakan ℒ 2 pada masing-masing tree dan hitunglah berapa banyak objek yang mengalami kesalahan klasifikasi misclassification. Untuk lebih jelasnya dinotasikan 2 adalah banyaknya objek anggota kelas j dalam ℒ 2 . Untuk setiap T pada � hitunglah nilai 2 yaitu banyaknya kelas j dalam ℒ 2 yang diklasifikasikan sebagai kelas i oleh T. Dengan estimasi ∗ | adalah | = 2 2 , jika 2 = 0, maka | = 0, sehingga diperoleh estimasi ∗ adalah = | | . Jika estimasi probabilitas prior � maka didapatkan estimasi ∗ , maka � = � . Jika probalitas prior diestimasi dari data sampel diperoleh � = 2 2 maka bisa dihitung oleh � = 1 2 | 2 , . commit to user 26 Test sample estimate dapat digunakan untuk memilih pohon klasifikasi yang optimum dari � , misal tree optimum adalah � � = min � .

2. V-Fold Cross Validation Estimates

Cross validation digunakan apabila ukuran sampel kecil. Dalam V-Fold Cross Validation , learning sample ℒ dibagi secara acak ke dalam V bagian, ℒ , v = 1, 2, ⋯, V. setiap bagian berisi objek dalam jumlah yang sama mendekati sama. Learning sample ke-v adalah ℒ = ℒ − ℒ , = 1, 2, ⋯ , �. Dengan demikian ℒ berisi �−1 � dari total objek. Biasanya diambil � = 10, sehingga ℒ berisi 9 10 objek dari ℒ. Dalam V-Fold Cross Validation ada V pohon klasifikasi tambahan yang dibuat bersamaan dengan pohon klasifikasi utama yang menggunakan ℒ. Ke-V pohon klasifikasi tambahan tersebut dibuat dengan learning sample ℒ . Dimulai dengan membuat V maksimal tree , � , = 1, 2, ⋯ , � seperti halnya � . Untuk setiap nilai complexity parameter atau node complexity �, dibuat � � , � � dibuat oleh ℒ tanpa melibatkan ℒ sisanya 110 dari ℒ ℒ ini digunakan sebagai test sample pada masing-masing � �. Untuk setiap , , didefinisikan = dengan : banyaknya objek anggota kelas j dalam ℒ yang diklasifikasikan sebagai kelas i oleh � �. ∶ jumlah keseluruhan dari objek-objek kelas j yang diklasifikasikan sebagai kelas i. commit to user 27 Oleh karena setiap objek muncul sekali dan hanya sekali ℒ maka jumlah keseluruhan objek kelas j di dalam seluruh test sample adalah sama dengan banyaknya objek kelas j dalam ℒ, | = = | | � � = � . Jika probabilitas prior diestimasi oleh � = , maka menjadi � � = 1 | . Untuk memilih pohon klasifikasi yang optimum dari � , misal pohon klasifikasi yang optimum itu adalah � maka � = min � .

2.1.8 Predictive Accuracy