Predictive Accuracy Tinjauan Pustaka

commit to user 27 Oleh karena setiap objek muncul sekali dan hanya sekali ℒ maka jumlah keseluruhan objek kelas j di dalam seluruh test sample adalah sama dengan banyaknya objek kelas j dalam ℒ, | = = | | � � = � . Jika probabilitas prior diestimasi oleh � = , maka menjadi � � = 1 | . Untuk memilih pohon klasifikasi yang optimum dari � , misal pohon klasifikasi yang optimum itu adalah � maka � = min � .

2.1.8 Predictive Accuracy

Konsep misclassification yang telah dijelaskan pada bagian terdahulu, membawa kepada konsep yang lebih penting lagi dalam membangun sebuah pohon klasifikasi dengan menggunakan algoritma CART ini. Predictive accuracy merupakan metode yang digunakan dalam CART untuk menguji tingkat keakurasian atau kehandalan validitas dari pohon klasifikasi yang terbentuk dalam melakukan tugas prediksinya yaitu untuk mengalokasikan objek-objek baru ke dalam kelas-kelas tertentu. Algoritma CART tidak menggunakan covariates-nya terhadap probabilitas distribusi tertentu, sehingga tidak dimungkinkan untuk melakukan uji-uji hipotesis. Metode yang digunakan untuk menguji tingkat keakurasian ini yaitu dengan cara menguji langsung pohon klasifikasi yang terbentuk terhadap sekumpulan data yang objek-objeknya sudah diketahui kelasnya masing-masing. Selanjutnya hitunglah commit to user 28 proporsi banyaknya objek yang mengalami kesalahan klasifikasi misclassification. Semakin kecil proporsi misclassification yang terjadi, semakin akurat pohon klasifikasi yang terbentuk dalam melakukan prediksi. Begitu juga sebaliknya, semakin besar proporsi misclassification semakin tidak akurat pohon klasifikasi yang terbentuk dalam melakukan prediksinya. Proporsi misclassification yang sebenarnya populasi adalah ∗ = ≠ dengan ∶ fungsi klasifikasi atau aturan klasifikasi classification rules dari pohon klasifikasi yang terbentuk dengan menggunakan algoritma CART. Objek a termasuk dalam kelas j jika ∈ � maka = . Breiman, et al [1] memperkenalkan tiga prosedur dalam menguji tingkat keakurasian pohon klasifikasi yang terbentuk ini.

1. Resubstitition Estimate, dinotasikan dengan

. Konsep resubstitution estimate yang sudah diperkenalkan pada bagian terdahulu lebih menekankan pada sebuah pohon klasifikasi masih dalam proses pembuatan. Sedangkan konsep resubstitution estimate pada bagian ini lebih menekankan pada saat pohon klasifikasi telah terbentuk, = 1 ≠ . =1 Cara kerja : 1. Buat pohon klasifikasi dari learning sample ℒ dengan aturan klasifikasi yang terbentuk . 2. Operasikan pada learning sample ℒ. 3. Hitung proporsi banyaknya objek yang salah terklasifikasikan misclassified. 4. Nilai proporsi misclassification ini adalah nilai sebagai estimator bagi ∗ . commit to user 29

2. Test Sample Estimate, dinotasikan dengan

dan digunakan apabila ukuran sampel besar, = 1 2 ≠ . , ∈ℒ 2 Cara kerja : 1. Bagi learning sample ℒ menjadi 2 bagian yaitu ℒ 1 dan ℒ 2 . ℒ 1 dan ℒ 2 tidak perlu sama. Sebagai contoh : 23 dari ℒ dipilih secara acak sebagai ℒ 1 sebanyak 1 dan 13 sisanya dipilih secara acak sebagai ℒ 2 sebanyak 2 . 2. Gunakan ℒ 1 untuk membuat pohon klasifikasi dengan aturan klasifikasi yang terbentuk yaitu . 3. Operasikan pada ℒ 2 . 4. Hitung proporsi banyaknya objek pada ℒ 2 yang salah terklasifikasikan misclassified. 5. Nilai proporsi ini adalah nilai sebagai estimator bagi ∗ .

3. V-Fold Cross Validation, dinotasikan dengan

� dan digunakan apabila ukuran sampel kecil. Cara kerja : 1. Bagi learning sample ℒ ke dalam V bagian observasi yang sama banyak : ℒ 1 , ℒ 2 , ⋯ , ℒ � sebagai subsampel. 2. Buat pohon klasifikasi dengan menggunakan V-1 subsampel, sehingga terbentuk aturan klasifikasi . Subsampel yang tersisa ℒ � digunakan sebagai test sample. 3. Operasikan pada subsampel yang tersisa ℒ � sehingga diperoleh nilai � , � = 1 � � ≠ . , ∈ℒ � commit to user 30 4. Ulangi langkah 2 dan 3 dengan menggunakan semua subsampel untuk membuat pohon klasifikasi kedua kecuali subsampel ℒ �−1 . ℒ �−1 sekarang menjadi test sample dan diperoleh �−1 . Proses ini diulang terus sampai tiap-tiap subsample digunakan sebagai test sample. 5. Hitung � � = 1 � � � �=1 � ini digunakan sebagai estimator bagi ∗ . Metode resubstitution estimate merupakan metode yang paling lemah. Hal ini dikarenakan test sample yang digunakan adalah learning sample yang digunakan untuk membuat pohon klasifikasi itu sendiri sehingga menyebabkan nilai proporsi misclassification yang terbentuk selalu rendah underestimate. Dalam penelitian ini digunakan metode Test Sample Estimate dalam menguji tingkat keakurasian pohon klasifikasi yang terbentuk karena jumlah sample yang digunakan besar.

2.1.9 Interpretasi Pohon Klasifikasi