commit to user 27
Oleh karena setiap objek muncul sekali dan hanya sekali ℒ
maka jumlah keseluruhan objek kelas j di dalam seluruh test sample adalah
sama dengan banyaknya objek kelas j dalam
ℒ, | =
= | |
�
�
= � .
Jika probabilitas prior diestimasi oleh � = , maka menjadi
�
�
= 1
| .
Untuk memilih pohon klasifikasi yang optimum dari � , misal pohon klasifikasi
yang optimum itu adalah �
maka �
= min � .
2.1.8 Predictive Accuracy
Konsep misclassification yang telah dijelaskan pada bagian terdahulu, membawa kepada konsep yang lebih penting lagi dalam membangun sebuah pohon
klasifikasi dengan menggunakan algoritma CART ini. Predictive accuracy merupakan metode yang digunakan dalam CART untuk menguji tingkat keakurasian atau
kehandalan validitas dari pohon klasifikasi yang terbentuk dalam melakukan tugas prediksinya yaitu untuk mengalokasikan objek-objek baru ke dalam kelas-kelas
tertentu. Algoritma CART tidak menggunakan covariates-nya terhadap probabilitas
distribusi tertentu, sehingga tidak dimungkinkan untuk melakukan uji-uji hipotesis. Metode yang digunakan untuk menguji tingkat keakurasian ini yaitu dengan cara
menguji langsung pohon klasifikasi yang terbentuk terhadap sekumpulan data yang objek-objeknya sudah diketahui kelasnya masing-masing. Selanjutnya hitunglah
commit to user 28
proporsi banyaknya objek yang mengalami kesalahan klasifikasi misclassification. Semakin kecil proporsi misclassification yang terjadi, semakin akurat pohon
klasifikasi yang terbentuk dalam melakukan prediksi. Begitu juga sebaliknya, semakin besar proporsi misclassification semakin tidak akurat pohon klasifikasi yang
terbentuk dalam melakukan prediksinya. Proporsi misclassification yang sebenarnya populasi adalah
∗
= ≠ dengan
∶ fungsi klasifikasi atau aturan klasifikasi classification rules dari pohon klasifikasi yang terbentuk dengan menggunakan algoritma CART. Objek a
termasuk dalam kelas j jika ∈ � maka = .
Breiman, et al [1] memperkenalkan tiga prosedur dalam menguji tingkat keakurasian pohon klasifikasi yang terbentuk ini.
1. Resubstitition Estimate, dinotasikan dengan
. Konsep resubstitution estimate yang sudah diperkenalkan pada bagian terdahulu lebih menekankan pada
sebuah pohon klasifikasi masih dalam proses pembuatan. Sedangkan konsep resubstitution estimate pada bagian ini lebih menekankan pada saat pohon
klasifikasi telah terbentuk,
= 1
≠ .
=1
Cara kerja : 1. Buat pohon klasifikasi dari learning sample
ℒ dengan aturan klasifikasi yang terbentuk
. 2. Operasikan
pada learning sample ℒ. 3. Hitung proporsi banyaknya objek yang salah terklasifikasikan misclassified.
4. Nilai proporsi misclassification ini adalah nilai sebagai estimator bagi
∗
.
commit to user 29
2. Test Sample Estimate, dinotasikan dengan
dan digunakan apabila ukuran
sampel besar,
= 1
2
≠ .
, ∈ℒ
2
Cara kerja : 1. Bagi learning sample
ℒ menjadi 2 bagian yaitu ℒ
1
dan ℒ
2
. ℒ
1
dan ℒ
2
tidak perlu sama. Sebagai contoh : 23 dari
ℒ dipilih secara acak sebagai ℒ
1
sebanyak
1
dan 13 sisanya dipilih secara acak sebagai ℒ
2
sebanyak
2
. 2. Gunakan
ℒ
1
untuk membuat pohon klasifikasi dengan aturan klasifikasi yang terbentuk yaitu
. 3. Operasikan
pada ℒ
2
. 4. Hitung proporsi banyaknya objek pada
ℒ
2
yang salah terklasifikasikan misclassified.
5. Nilai proporsi ini adalah nilai sebagai estimator bagi
∗
.
3. V-Fold Cross Validation, dinotasikan dengan
�
dan digunakan apabila
ukuran sampel kecil.
Cara kerja : 1. Bagi learning sample
ℒ ke dalam V bagian observasi yang sama banyak : ℒ
1
, ℒ
2
, ⋯ , ℒ
�
sebagai subsampel. 2. Buat pohon klasifikasi dengan menggunakan V-1 subsampel, sehingga
terbentuk aturan klasifikasi . Subsampel yang tersisa ℒ
�
digunakan sebagai test sample.
3. Operasikan pada subsampel yang tersisa ℒ
�
sehingga diperoleh nilai
�
,
�
= 1
� �
≠ .
, ∈ℒ
�
commit to user 30
4. Ulangi langkah 2 dan 3 dengan menggunakan semua subsampel untuk membuat pohon klasifikasi kedua kecuali subsampel
ℒ
�−1
. ℒ
�−1
sekarang menjadi test sample dan diperoleh
�−1
. Proses ini diulang terus sampai tiap-tiap subsample digunakan sebagai test
sample. 5. Hitung
� �
= 1
�
� �
�=1 �
ini digunakan sebagai estimator bagi
∗
. Metode resubstitution estimate merupakan metode yang paling lemah. Hal ini
dikarenakan test sample yang digunakan adalah learning sample yang digunakan untuk membuat pohon klasifikasi itu sendiri sehingga menyebabkan nilai proporsi
misclassification yang terbentuk selalu rendah underestimate.
Dalam penelitian ini digunakan metode Test Sample Estimate dalam menguji tingkat keakurasian pohon klasifikasi yang terbentuk karena jumlah sample yang
digunakan besar.
2.1.9 Interpretasi Pohon Klasifikasi