Pembentukan Pohon Regresi Maksimal
4.2.1 Pembentukan Pohon Regresi Maksimal
Pembentukan pohon regresi maksimal dilakukan menurut aturan pemilahan yaitu dimulai dari pemilahan data berat badan bayi saat lahir dari 90 data pelatihan oleh variabel pemilah terbaik dari masing-masing variabel prediktor. Banyaknya kemungkinan pemilahan diperoleh dengan cara sebagai berikut
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
1. jika pada variabel prediktor kontinu terdapat sebanyak nilai pengamatan yang berbeda, maka terdapat sebanyak
pemilahan yang mungkin dilakukan. Dalam hal ini, variabel yang bertipe kontinu adalah
a. variabel usia ibu hamil memiliki 19 – 1 = 18 kemungkinan pemilahan
b. variabel kenaikan berat badan ibu ( ) memiliki 16 – 1 = 15 kemungkinan pemilahan
2. jika pada variabel prediktor kategorik ordinal terdapat kategori, maka terdapat sebanyak
pemilahan yang mungkin dilakukan. Dalam hal ini, variabel yang bertipe kategorik ordinal adalah
a. variabel jarak hamil ( ) memiliki 2 – 1 = 1 kemungkinan pemilahan
b. variabel jumlah anak ( ) memiliki 4 – 1 = 3 kemungkinan pemilahan
c. variabel frekuensi pemeriksaan kehamilan ( ) memiliki 3 – 1 = 2 kemungkinan pemilahan
d. variabel pendidikan ibu ( ) memiliki 4 – 1 = 3 kemungkinan pemilahan
3. jika pada variabel prediktor kategorik nominal terdapat kategori, maka terdapat sebanyak
pemilahan yang mungkin dilakukan. Dalam hal ini, variabel yang bertipe kategorik nominal adalah
a. variabel penyakit saat kehamilan ( ) memiliki kemungkinan pemilahan
b. variabel ibu menderita anemia ( ) memiliki kemungkinan pemilahan
c. variabel status pekerjaan ibu ( ) memiliki kemungkinan pemilahan. Pembentukan pohon regresi maksimal dimulai dengan mencoba 45 kemungkinan pemilahan pada data berat badan bayi saat lahir dari 90 data yang terkumpul dalam suatu himpunan yang disebut simpul akar dan diberi nama simpul 1. Masing-masing kemungkinan pemilahan menghasilkan 2 kelompok data yang dinamakan simpul anak kiri dan simpul anak kanan, kedua simpul anak diberi nama simpul 2 dan simpul 3. Pemilah terbaik dihitung berdasarkan selisih jumlah kuadrat deviasi dari masing-masing simpul dengan simpul pemilahnya. Selisih terbesar akan
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user commit to user
kilogram
Perhitungan selisih jumlah kuadrat deviasi dari kemungkinan pemilahan lainnya dilakukan dengan cara yang sama dan diperoleh hasil seperti pada Tabel 4.2. Pemilah terbaik diperoleh dengan kriteria kenaikan berat badan ibu kilogram. Variabel kenaikan berat badan ibu terpilih karena memiliki selisih jumlah kuadrat deviasi terbesar daripada variabel yang lainnya.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
Tabel 4.2. Selisih Jumlah Kuadrat Deviasi dari Semua Kemungkinan Pemilahan Pemilah
Simpul anak kiri Simpul anak kanan
1 usia ibu hamil ≤ 23,5 thn usia ibu hamil > 23,5 thn 0,038
2 usia ibu hamil ≤ 24,5 thn usia ibu hamil > 24,5 thn 0,014
3 usia ibu hamil ≤ 25,5 thn usia ibu hamil > 25,5 thn 0,078
4 usia ibu hamil ≤ 26,5 thn usia ibu hamil > 26,5 thn 0,098
5 usia ibu hamil ≤ 27,5 thn usia ibu hamil > 27,5 thn 0,173
6 usia ibu hamil ≤ 28,5 thn usia ibu hamil > 28,5 thn 0,875
7 usia ibu hamil ≤ 29,5 thn usia ibu hamil > 29,5 thn 0,56
8 usia ibu hamil ≤ 30,5 thn usia ibu hamil > 30,5 thn 0,624
9 usia ibu hamil ≤ 31,5 thn usia ibu hamil > 31,5 thn 0,377
10 usia ibu hamil ≤ 32,5 thn usia ibu hamil > 32,5 thn 0,188
11 usia ibu hamil ≤ 33,5 thn usia ibu hamil > 33,5 thn 0,014
12 usia ibu hamil ≤ 34,5 thn usia ibu hamil > 34,5 thn 0,078
13 usia ibu hamil ≤ 35,5 thn usia ibu hamil > 35,5 thn 0,03
14 usia ibu hamil ≤ 36,5 thn usia ibu hamil > 36,5 thn 0,000
15 usia ibu hamil ≤ 37,5 thn usia ibu hamil > 37,5 thn 0,087
16 usia ibu hamil ≤ 38,5 thn usia ibu hamil > 38,5 thn 0,008
17 usia ibu hamil ≤ 39,5 thn usia ibu hamil > 39,5 thn 0,001
18 usia ibu hamil ≤ 41,5 thn usia ibu hamil > 41,5 thn 0,009
19 jarak hamil < 2 thn jarak hamil 2 thn atau lbh 0,374
20 jumlah anak = 2 jumlah anak = {3, 4, 5} 0,024
21 jumlah anak = {2, 3} jumlah anak = {4, 5} 0,043
22 jumlah anak = {2, 3, 4}
jumlah anak = 5
23 kenaikan bb ≤ 4,5 kg kenaikan bb > 4,5 kg 0,009
24 kenaikan bb ≤ 5,5 kg kenaikan bb > 5,5 kg 0,016
25 kenaikan bb ≤ 6,5 kg kenaikan bb > 6,5 kg 0,028
26 kenaikan bb ≤ 7,5 kg kenaikan bb > 7,5 kg
27 kenaikan bb ≤ 8,5 kg kenaikan bb > 8,5 kg 1,084
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
28 kenaikan bb ≤ 9,5 kg kenaikan bb > 9,5 kg 0,642
29 kenaikan bb ≤ 10,5 kg kenaikan bb > 10,5 kg 0,81
30 kenaikan bb ≤ 11,5 kg kenaikan bb > 11,5 kg 0,841
31 kenaikan bb ≤ 12,5 kg kenaikan bb > 12,5 kg 0,738
32 kenaikan bb ≤ 13,5 kg kenaikan bb > 13,5 kg 0,366
33 kenaikan bb ≤ 14,5 kg kenaikan bb > 14,5 kg 0,225
34 kenaikan bb ≤ 15,5 kg kenaikan bb > 15,5 kg 0,652
35 kenaikan bb ≤ 18 kg kenaikan bb > 18 kg 0,552
36 kenaikan bb ≤ 22 kg kenaikan bb > 22 kg 0,822
37 kenaikan bb ≤ 24,5 kg kenaikan bb > 24,5 kg 0,076
38 penyakit saat hamil = ya penyakit saat hamil = tidak 0,040
39 ibu anemia = ya ibu anemia = tidak 0,416
40 frekuensi periksa = (1) frekuensi periksa = (2, 3) 0,016
41 frekuensi periksa = (1, 2) frekuensi periksa = (3) 0,760
42 status pekerjaan ibu = bekerja
status pekerjaan ibu = tidak bekerja
0,313
43 pendidikan ibu = (lainnya)
pendidikan ibu = (SMP, SMA, P.T)
0,150
44 pendidikan ibu = (lainnya, SMP) pendidikan ibu = (SMA, P.T) 0,464
45 pendidikan ibu = (lainnya, SMP, SMA) pendidikan ibu = (P.T)
0,028
Setelah terbentuk dan diperoleh pemilah terbaik, maka simpul pertama yang
berisi data dipilah menjadi buah simpul akhir. Simpul akhir terbentuk akibat kriteria variabel kenaikan berat badan ibu
kilogram. Simpul akhir terbentuk akibat kriteria variabel kenaikan berat badan ibu
kilogram. Pemilahan pertama dapat dilihat pada Gambar 4.4. Sebanyak
data berat badan bayi dipilah berdasarkan kriteria kenaikan berat badan ibu, yaitu
data dengan kenaikan berat badan ibu
kilogram masuk ke dalam simpul akhir dan
data dengan kenaikan berat badan ibu
kilogram masuk ke dalam simpul akhir 2.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
Proses pemilahan terus dilakukan pada simpul berikutnya dan berhenti apabila tidak terdapat lagi penurunan keheterogenan atau semua nilai y yang ada pada sebuah simpul adalah sama (homogen), ukuran simpul induk minimum 10 yaitu ukuran minimum dimana simpul tidak akan dipilah (Steinberg and Colla, 1998), atau hanya terdapat satu pengamatan pada tiap simpul anak. Pemilahan yang akan menghasilkan simpul anak yang lebih kecil tidak dipertimbangkan. Pohon regresi yang terbentuk sebagai hasil dari proses ini dinamakan pohon regresi maksimal (T max ) secara umum ditunjukkan pada Gambar 4.5.
Gambar 4.5. Model Pohon Regresi Maksimal
Simpul yang berwarna hijau pada Gambar 4.5 merupakan simpul dalam sedangkan simpul yang berwarna merah merupakan simpul akhir. Pohon regresi
Gambar 4.4. Pemilah Pertama
Terminal Node 1
STD = 0.361 Avg = 2.750
N = 16
Terminal Node 2
STD = 0.450 Avg = 3.062
N = 74
Node 1 X4 <= 7.500 STD = 0.451 Avg = 3.007
N = 90
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user commit to user
Pada pohon regresi yang terbentuk, CART menghitung ringkasan statistik di setiap simpul-simpul akhir yaitu nilai rata-rata dan standar deviasi dari variabel respon. Nilai rata-rata dari simpul akhir merupakan nilai prediksi
dari variabel respon pada kasus simpul terakhir tersebut. Data berat badan bayi dari setiap simpul akhir pada pohon regresi maksimal dapat dilihat pada Tabel 4.3. Nilai yang terdapat pada baris terakhir masing-masing kolom merupakan nilai rata-rata dari setiap simpul akhir. Contoh perhitungan nilai rata-rata dan standar deviasi pada simpul akhir 1 dalam Tabel 4.3 adalah sebagai berikut. Simpul akhir 1:
Rata-rata Variansi
Standar deviasi