commit to user 4
BAB II LANDASAN TEORI
2.1 Tinjauan Pustaka
Pada bagian ini diberikan beberapa definisi, teorema dan pengertian yang mendasari dilakukannya penelitian ini, meliputi teori probabilitas, masalah umum
klasifikasi, algoritma CART, struktur pohon klasifikasi CART, binary recursive partitioning, langkah kerja CART, predictive accuracy, dan interpretasi pohon
klasifikasi.
2.1.1 Teori Probabilitas
Teori probabilitas memberikan peranan yang sangat penting dalam membuat sebuah pohon klasifikasi dengan menggunakan algoritma CART ini.
Definisi 2.1. Wapole dan Myers, 1986 Bila suatu percobaan mempunyai N hasil
percobaan yang berbeda dan masing-masing mempunyai kemungkinan yang sama untuk terjadi, dan bila tepat n diantara hasil percobaan itu menyusun kejadian A,
maka peluang kejadian A adalah =
Menurut Walpole dan Myers [7] kaidah-kaidah probabilitas yang banyak digunakan dalam membuat sebuah pohon klasifikasi, antara lain adalah
1. kaidah penjumlahan a. kaidah penjumlahan dua kejadian yang saling terpisah.
Bila A dan B saling terpisah, maka = +
b. kaidah penjumlahan n buah kejadian yang saling terpisah. Bila
1
,
2
, ⋯ ,
kejadian-kejadian yang saling terpisah, maka
1 2
⋯ =
1
+
2
+ ⋯ +
commit to user 5
c. bila A dan
′
adalah dua kejadian yang satu merupakan komplemen lainnya maka
+
′
= 1 2. kaidah peluang bersyarat
peluang bersyarat B, bila A diketahui dilambangkan dengan | .
didefinisikan sebagai | =
, 3. kaidah penggandaan
a. kaidah penggandaan khusus Bila kejadian A dan B saling bebas maka
= . b. Jika kejadian-kejadian
1
,
2
, ⋯ ,
saling bebas, maka
1 2
3
⋯ =
1 2
3
⋯ . 4. kaidah bayes
Jika kejadian-kejadian
1
,
2
, ⋯ ,
merupakan partisi dari ruang sampel S dengan
≠ 0 untuk = 1, 2, ⋯ , maka untuk sembarang kejadian A yang bersifat
≠ 0 maka untuk = 1, 2, ⋯ , | =
=1
= |
|
=1
Probabilitas dalam CART
Dalam learning sample ℒ dengan banyaknya kelas adalah j, diberikan
N : banyaknya objek atau cases pada learning sample ℒ
N
j
: banyaknya objek atau cases pada kelas j dengan
Probabilitas prior � =
commit to user 6
Probabilitas prior merupakan informasi awal mengenai proporsi atau perbandingan banyaknya objek pada tiap-tiap kelas dalam
ℒ . Nilai probabilitas prior ini diestimasi dari proporsi
yang diperoleh dari data. Menurut Webb dan Yohannes [8] setidaknya ada 2 jenis dari probabilitas prior dalam CART yaitu
1. priors data, mengasumsikan bahwa proporsi banyaknya objek dalam suatu kelas yang terdapat dalam sampel sama dengan yang terdapat dalam
populasinya. Prior data diestimasi oleh � = .
2. priors equal, mengasumsikan bahwa proporsi banyaknya objek tiap-tiap kelas adalah sama. Diestimasikan Pkelas1 = Pkelas 2 =
1 2
.
Dalam sebuah node t, diberikan : ∶ Banyaknya objek atau cases dalam ℒ yang mana
∈ banyaknya objek dalam node t
∶ Banyaknya objek atau cases kelas j yang berada dalam node t ∶ proporsi objek-objek dalam kelas j yang berada di node t
, : probabilitas bahwa sebuah objek adalah anggota kelas j dan berada dalam node t
sehingga , = � .
= .
, = . 2.1
Jika adalah probabilitas beberapa objek akan berada dalam node t, maka
berdasarkan rumusan 2.1, diperoleh
commit to user 7
= , =
1, + 2, + ⋯ + , =
1
+
2
+ ⋯ +
= . 2.2
Jika | adalah probabilitas bahwa sebuah objek adalah anggota kelas j yang
berada dalam node t, maka berdasarkan persamaan 2.2 diperoleh | =
, =
= 2.3
dan | = 1 .
2.1.2 Analisis Klasifikasi