Masalah Umum Klasifikasi Misclassification, Rebstitution Estimate dan

commit to user 8 1, 2, 3, … , yang selanjutnya disebut dengan variabel independen sedangkan variabel yang memuat kelas-kelas dari objek disebut variabel dependen = { 1 , 2 , ⋯ , } dimana ∶ kelas ke- ; = 1, 2, ⋯ , . Definisi 2.2. Breiman et al, 1993 Classifier adalah partisi dari ke dalam himpunan bagian 1 , ⋯ , dengan = sedemikian sehingga untuk setiap � objek tersebut diprediksikan ke dalam kelas j. = { ∶ = } Classifier dibentuk berdasarkan data terdahulu atau observasi pada masa lampau past experience. Data-data terdahulu ini terhimpun dalam satu bentuk susunan yang disebut dengan Learning Sample atau Training sample. Learning Sample terdiri dari variabel-variabel independen dan variabel dependen pada kolom dan objek-objek cases sebanyak N pada baris. Definisi 2.3. Breiman et al, 1993 Learning sample terdiri dari data 1 , 1 , 2 , 2 , ⋯ , , dengan � dan � 1, ⋯ , , = 1, 2, ⋯ , , dengan N adalah banyaknya objek case. Learning sample dinotasilan dengan ℒ = { 1 , 1 , 2 , 2 , ⋯ , , .

2.1.3 Masalah Umum Klasifikasi Misclassification, Rebstitution Estimate dan

Misclassification Cost Classification rules aturan klasifikasi sebagai hasil akhir dari pohon klasifikasi yang terbentuk, nantinya akan digunakan untuk melakukan prediksi. Aturan klasifikasi ini tidaklah sepenuhnya terhindar dari kesalahan error. Bentuk kesalahannya adalah kesalahan dalam mengklasifikasikan objek baru ke dalam suatu kelas misclassification. Sebagai contoh sebuah objek diklasifikasikan ke dalam commit to user 9 kelas 2 padahal yang sebenarnya objek tersebut termasuk dalam kelas 1 . Begitu pula sebaliknya sebuah objek diklasifikasikan ke dalam kelas 1 , padahal sebenarnya objek itu termasuk dalam kelas 2 . Dalam CART untuk mengidentifikasi misclassification ini digunakan resubstitution estimate. Dalam perhitungannya resubstitution estimate menggunakan semua objek yang terdapat dalam ℒ. Definisi 2.4. Breiman et al, 1993 Resubstitution estimate adalah probabilitas atau peluang terjadinya misclassification di dalam sebuah node t tertentu. = 1 − maks | . Definisi 2.5. Breiman et al, 1993 Resubstitution estimate adalah probabilitas atau peluang terjadinya misclassification yang dialami beberapa objek dalam learning sample jika objek tersebut berada dalam sebuah node t tertentu. = . dengan adalah probabilitas beberapa objek akan berada dalam node t. Definisi 2.6. Breiman et al, 1993 Resubstitution estimate � adalah probabilitas atau peluang terjadinya misclassification yang dialami beberapa objek untuk keseluruhan terminal node t atau peluang terjadinya misclassification yang disebabkan oleh pohon klasifikasi yang terbentuk dengan � = t ∈ � � adalah himpunan semua terminal node. Konsep yang berkaitan dengan misclassification yaitu cost misclassification cost. Konsep misclassification cost muncul karena dalam beberapa masalah klasifikasi tidaklah realistis untuk memberikan besar resiko yang sama terhadap kesalahan klasifikasi ini. Mungkin saja resiko melakukan kesalahan klasifikasi sebuah objek anggota kelas 1 menjadi anggota kelas 2 lebih besar daripada commit to user 10 melakukan kesalahan klasifikasi sebuah objek anggota kelas 2 menjadi anggota kelas 1 atau sebaliknya. Sebagai contoh dalam diagnosis suatu penyakit, menyatakan seorang pasien dalam kategori ”tidak fatal” padahal keadaan sebenarnya “fatal” jelas lebih beresiko daripada menyatakan bahwa ia “fatal” padahal keadaan sebenarnya “tidak fatal”. Definisi 2.7. Breiman et al, 1993 | adalah besar cost untuk terjadinya misclassification sebuah objek kelas j sebagai objek kelas i, dengan | 0, ≠ dan | = 0, = . Besar cost dari misclassification ini biasa dituliskan dalam bentuk cost matriks. Kelas Sebenarnya 1 2 Hasil Prediksi 1 C1|2 2 C2|1 Misal diketahui sebuah node t dengan probabilitas | tertentu, = 1, 2, ⋯ , jika diketahui sebuah objek berada dalam node t tersebut dan diklasifikasikan ke dalam kelas i, maka estimasi rata-rata ongkos kesalahan klasifikasi expected misclassification cost adalah | | . Selanjutnya didefinisikan resubstitution estimate berdasarkan expected misclassification cost ini. Definisi 2.8. Breiman et al, 1993 Resubstitution estimate berdasarkan expected misclassification cost di dalam sebuah node t adalah = min | | . commit to user 11 Dengan mendefinisikan = � = t ∈ � . Jika dipunyai nilai | = 1 ≠ | = 0 untuk = maka diperoleh | | = | . Berdasarkan persamaan 2.3 maka diperoleh | | = 1 − | sehingga = min | | = min 1 − | . Nilai min 1 − | akan diperoleh apabila | maksimum, sehingga dapat dituliskan pula = 1 − max | , yang identik dengan definisi 2.4. Berdasarkan hasil di atas, definisi 2.5 adalah resubstitution estimate dalam sebuah node t apabila semua nilai | = 1 atau sama untuk semua ≠ .

2.1.4 Algoritma CART