commit to user 8
1, 2, 3, … , yang selanjutnya disebut dengan variabel independen sedangkan
variabel yang memuat kelas-kelas dari objek disebut variabel dependen =
{
1
,
2
, ⋯ , } dimana ∶ kelas ke- ; = 1, 2, ⋯ , .
Definisi 2.2. Breiman et al, 1993 Classifier adalah partisi dari ke
dalam himpunan bagian
1
, ⋯ , dengan =
sedemikian sehingga untuk setiap
� objek tersebut diprediksikan ke dalam kelas j. = {
∶ = } Classifier dibentuk berdasarkan data terdahulu atau observasi pada masa
lampau past experience. Data-data terdahulu ini terhimpun dalam satu bentuk susunan yang disebut dengan Learning Sample atau Training sample. Learning
Sample terdiri dari variabel-variabel independen dan variabel dependen pada kolom dan objek-objek cases sebanyak N pada baris.
Definisi 2.3. Breiman et al, 1993 Learning sample terdiri dari data
1
,
1
,
2
,
2
, ⋯ ,
, dengan
� dan � 1, ⋯ , , = 1, 2, ⋯ , , dengan N adalah banyaknya objek case.
Learning sample dinotasilan dengan ℒ = {
1
,
1
,
2
,
2
, ⋯ , ,
.
2.1.3 Masalah Umum Klasifikasi Misclassification, Rebstitution Estimate dan
Misclassification Cost
Classification rules aturan klasifikasi sebagai hasil akhir dari pohon klasifikasi yang terbentuk, nantinya akan digunakan untuk melakukan prediksi.
Aturan klasifikasi ini tidaklah sepenuhnya terhindar dari kesalahan error. Bentuk kesalahannya adalah kesalahan dalam mengklasifikasikan objek baru ke dalam suatu
kelas misclassification. Sebagai contoh sebuah objek diklasifikasikan ke dalam
commit to user 9
kelas
2
padahal yang sebenarnya objek tersebut termasuk dalam kelas
1
. Begitu pula sebaliknya sebuah objek diklasifikasikan ke dalam kelas
1
, padahal sebenarnya objek itu termasuk dalam kelas
2
. Dalam CART untuk mengidentifikasi misclassification ini digunakan
resubstitution estimate. Dalam perhitungannya resubstitution estimate menggunakan semua objek yang terdapat dalam
ℒ.
Definisi 2.4. Breiman et al, 1993 Resubstitution estimate
adalah probabilitas atau peluang terjadinya misclassification di dalam sebuah node t tertentu.
= 1 − maks | .
Definisi 2.5. Breiman et al, 1993 Resubstitution estimate
adalah probabilitas atau peluang terjadinya misclassification yang dialami beberapa objek dalam
learning sample jika objek tersebut berada dalam sebuah node t tertentu. = .
dengan adalah probabilitas beberapa objek akan berada dalam node t.
Definisi 2.6. Breiman et al, 1993 Resubstitution estimate
� adalah probabilitas atau peluang terjadinya misclassification yang dialami beberapa objek untuk
keseluruhan terminal node t atau peluang terjadinya misclassification yang disebabkan oleh pohon klasifikasi yang terbentuk
dengan � =
t ∈ �
� adalah himpunan semua terminal node. Konsep yang berkaitan dengan misclassification yaitu cost misclassification
cost. Konsep misclassification cost muncul karena dalam beberapa masalah klasifikasi tidaklah realistis untuk memberikan besar resiko yang sama terhadap
kesalahan klasifikasi ini. Mungkin saja resiko melakukan kesalahan klasifikasi sebuah objek anggota kelas 1 menjadi anggota kelas 2 lebih besar daripada
commit to user 10
melakukan kesalahan klasifikasi sebuah objek anggota kelas 2 menjadi anggota kelas 1 atau sebaliknya.
Sebagai contoh dalam diagnosis suatu penyakit, menyatakan seorang pasien dalam kategori ”tidak fatal” padahal keadaan sebenarnya “fatal” jelas lebih beresiko
daripada menyatakan bahwa ia “fatal” padahal keadaan sebenarnya “tidak fatal”.
Definisi 2.7. Breiman et al, 1993
| adalah besar cost untuk terjadinya misclassification sebuah objek kelas j sebagai objek kelas i, dengan
| 0, ≠ dan
| = 0, = . Besar cost dari misclassification ini biasa dituliskan dalam bentuk cost matriks.
Kelas Sebenarnya 1
2 Hasil Prediksi
1 C1|2
2 C2|1
Misal diketahui sebuah node t dengan probabilitas | tertentu, = 1, 2, ⋯ , jika
diketahui sebuah objek berada dalam node t tersebut dan diklasifikasikan ke dalam kelas i, maka estimasi rata-rata ongkos kesalahan klasifikasi expected
misclassification cost adalah | | .
Selanjutnya didefinisikan resubstitution estimate berdasarkan expected
misclassification cost ini.
Definisi 2.8. Breiman et al, 1993 Resubstitution estimate
berdasarkan expected misclassification cost di dalam sebuah node t adalah
= min | | .
commit to user 11
Dengan mendefinisikan =
� =
t ∈ �
. Jika dipunyai nilai
| = 1 ≠
| = 0 untuk = maka diperoleh
| | = | . Berdasarkan persamaan 2.3 maka diperoleh
| | = 1 − | sehingga
= min | | = min
1 − | . Nilai
min 1 − | akan diperoleh apabila | maksimum, sehingga dapat
dituliskan pula = 1 − max | , yang identik dengan definisi 2.4.
Berdasarkan hasil di atas, definisi 2.5 adalah resubstitution estimate dalam
sebuah node t apabila semua nilai | = 1 atau sama untuk semua ≠ .
2.1.4 Algoritma CART