Klasifikasi Anak Putus Sekolah dengan Melibatkan Peubah Jaringan Sosial Menggunakan CART di Sulawesi

KLASIFIKASI ANAK PUTUS SEKOLAH
DENGAN MELIBATKAN PEUBAH JARINGAN SOSIAL
MENGGUNAKAN CART DI SULAWESI

DINA SRIKANDI

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa tesis berjudul Klasifikasi Anak Putus
Sekolah dengan Melibatkan Peubah Jaringan Sosial Menggunakan CART di
Sulawesi adalah benar karya saya dengan arahan dari komisi pembimbing dan
belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.

Bogor, Juni 2015

Dina Srikandi
G152130494

RINGKASAN
DINA SRIKANDI. Klasifikasi Anak Putus Sekolah dengan Melibatkan Peubah
Jaringan Sosial Menggunakan CART di Sulawesi. Dibimbing oleh ERFIANI dan
BAGUS SARTONO.
Pendidikan merupakan salah satu hak anak sebagai generasi muda penerus
bangsa yang harus dipenuhi oleh pemerintah. Menurut Undang-Undang No.23
Tahun 2002 pasal 4 tentang perlindungan anak, anak didefenisikan sebagai
seseorang yang belum berusia 18 tahun. Salah satu hak anak yang harus dipenuhi
oleh pemerintah adalah hak mendapatkan pendidikan. Keberhasilan pemerintah
dalam memenuhi kewajibannya dapat dilihat dari seberapa besar angka putus
sekolah di suatu daerah. Pada tahun 2012, seluruh provinsi di Pulau Sulawesi
memiliki angka putus sekolah yang lebih tinggi dibandingkan angka rata-rata
nasional, namun hal ini tidak terjadi untuk pulau besar lainnya di Indonesia.

Masalah putus sekolah di Sulawesi perlu diatasi dengan mengidentifikasi
dan mencari faktor penyebab siswa putus sekolah, baik faktor sosial ekonomi dan
demografi anak maupun faktor lingkungan khususnya pengaruh jaringan sosial
dalam kehidupan anak, sehingga kebijakan yang diambil oleh pemerintah dapat
tepat sasaran. Salah satu cara yang dapat dilakukan untuk mengetahui
karakteristik anak putus sekolah adalah dengan melakukan klasifikasi anak putus
sekolah umur 7-17 tahun dengan menggunakan metode pohon klasifikasi
kemudian menerapkan teknik Bagging pada pohon klasifikasi yang dibangun.
Penelitian ini bertujuan mengetahui karakteristik anak putus sekolah di
Sulawesi dengan melakukan klasifikasi terhadap anak putus sekolah usia 7-17
tahun. Klasifikasi disusun berdasarkan faktor sosial ekonomi dan demografi yang
dimiliki anak kemudian menambahkan faktor jaringan sosial. Selanjutnya, akan
dilihat pengaruh penambahan faktor tersebut kedalam pohon klasifikasi dengan
melihat ketepatan klasifikasi yang dihasilkan.
Penelitian ini menunjukkan bahwa penambahan peubah jaringan sosial
kedalam pohon klasifikasi meningkatkan ketepatan klasifikasi sebesar 23.6% dan
penerapan teknik Bagging pada pohon CART tunggal dapat memperbaiki
ketepatan klasifikasi sebesar 5.3%. Berdasarkan penelusuran klasifikasi yang
terbentuk diperoleh beberapa karakteristik utama anak putus sekolah usia 7-17
tahun di Sulawesi yaitu mereka adalah anak-anak yang tinggal di lingkungan yang

memiliki angka putus sekolah yang cukup tinggi, memiliki kepala rumah tangga
yang tidak muda lagi serta tinggal dengan saudara yang juga putus sekolah.

Kata kunci: Bootstrap aggregating (Bagging), Classification and Regression
Trees (CART), Karakteristik anak putus sekolah, Ketepatan
klasifikasi

SUMMARY
DINA SRIKANDI. Classification of Dropout Students by Involving Social
Network Variables Using CART Method in Sulawesi. Supervised by ERFIANI
and BAGUS SARTONO.
Education is one of the children’s rights as young generation successor to
the nation that must be met by the government. According to Law No. 23 of 2002
Article 4 concerning the protection of children, child is defined as someone who
hasn’t 18 years old. One of the rights of children which must be met by the
government is the right to education. The government's success in meeting its
obligations can be seen from how big the school dropout rate. One factor that can
be measured by the low level of education is high dropout rates. In 2012, dropout
rate for children 7-17 years old in all province at Sulawesi were still higher than
national rate.

To overcome these problems, efforts are required to identify and search
factors that cause of dropouts. The socio-economic and demographic factors or
environmental factors, especially social network effect in children’s live, so that
the measures taken by the government can be precisely targeted. To determine the
characteristics of dropout students require to clasify the children 7-17 year old using
classification and regression tree (CART) method and then apply the Bagging
techniques.
This study aims to determine how the characteristics of dropout students 7-17
years old that more detailed in Sulawesi. Classification is built not only consider
the socio-economic and demographic factors but also adds social network factors.
Furthermore, it will be seen how the effect of these factors into the classification
by looking the classification accuracy.
The results showed that by adding the social network variables into the
classification tree increase of 23.6% classification accuracy and application of
Bagging techniques on single CART can improve the classification accuracy of
5.3%. The classification obtained some of the main characteristics of dropout
students 7-17 years old in Sulawesi ie they are children who live in an
environment that has quite high dropout rate, has a head of household who was
not young anymore, and live with brother who also dropped out of school.


Keywords: accuracy of classification rate, bootstrap aggregating (Bagging),
classification and regression trees (CART), classification of dropout
student

© Hak Cipta Milik IPB, Tahun 2015
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis
ini dalam bentuk apa pun tanpa izin IPB

KLASIFIKASI ANAK PUTUS SEKOLAH
DENGAN MELIBATKAN PEUBAH JARINGAN SOSIAL
MENGGUNAKAN CART DI SULAWESI

DINA SRIKANDI


Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Sains
pada
Program Studi Statistika Terapan

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015

Penguji Luar Komisi pada Ujian Tesis: Prof Dr Ir Khairil Anwar Notodiputro, MS

Judul Tesis : Klasifikasi Anak Putus Sekolah dengan Melibatkan Peubah
Jaringan Sosial Menggunakan CART di Sulawesi
Nama
: Dina Srikandi
NIM
: G152130494


Disetujui oleh
Komisi Pembimbing

Dr Ir Erfiani, MSi
Ketua

Dr Bagus Sartono
Anggota

Diketahui oleh

Ketua Program Studi
Statistika Terapan

Dekan Sekolah Pascasarjana

Dr Ir Indahwati, MSi

Dr Ir Dahrul Syah, MScAgr


Tanggal Ujian:
20 Juni 2015

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga tesis yang berjudul “Klasifikasi Anak Putus Sekolah
dengan Melibatkan Peubah Jaringan Sosial Menggunakan CART di Sulawesi” ini
dapat diselesaikan.
Terima kasih penulis ucapkan kepada Ibu Dr Ir Erfiani, MSi dan Bapak Dr
Bagus Sartono selaku pembimbing, atas kesediaan dan kesabaran untuk
membimbing penulis dalam penyusunan tesis ini. Ucapan terima kasih juga
penulis sampaikan kepada seluruh Dosen Departemen Statistika IPB yang telah
mengasuh dan mendidik penulis selama di bangku kuliah hingga berhasil
menyelesaikan studi, serta seluruh staf Departemen Statistika IPB atas bantuan,
pelayanan, dan kerjasamanya selama ini. Di samping itu, penghargaan penulis
sampaikan kepada rekan-rekan pegawai Badan Pusat Statistik yang telah
membantu dalam pengumpulan data. Ungkapan terima kasih juga disampaikan
kepada ayah, ibu, serta seluruh keluarga, atas segala doa dan kasih sayangnya.

Semoga tesis ini dapat bermanfaat bagi semua pihak yang membutuhkan.

Bogor, Juni 2015
Dina Srikandi

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

v

DAFTAR LAMPIRAN

v

1 PENDAHULUAN
Latar Belakang

Pertanyaan Penelitian
Tujuan Penelitian

1
1
2
3

2 TINJAUAN PUSTAKA
Jaringan Sosial
Classification And Regression Tree (CART)
Prosedur Pembentukan Pohon Klasifikasi
Pemangkasan Pohon Klasifikasi
Pemilihan Pohon Klasifikasi Optimal
Bootstrap Aggregating (Bagging)

3
3
4
4

5
6
6

3 METODE
Data
Unit Analisis
Peubah Penelitian
Metode Analisis

7
7
7
8
9

4 HASIL DAN PEMBAHASAN
11
Gambaran Umum Anak Putus Sekolah
11
Hubungan Peubah Penjelas dan Peubah Respon
16
Pohon Klasifikasi
18
Klasifikasi Tanpa Peubah Jaringan Sosial
19
Klasifikasi Dengan Peubah Jaringan Sosial
20
Perbandingan Pohon Klasifikasi tanpa Peubah Jaringan Sosial dan Pohon
Klasifikasi dengan Peubah Jaringan Sosial
24
Penerapan Teknik Bagging
25
Perbandingan Klasifikasi dengan Metode CART dan Bagging CART
28
5 SIMPULAN

28

DAFTAR PUSTAKA

29

LAMPIRAN

31

RIWAYAT HIDUP

34

DAFTAR TABEL
1. Peubah Penjelas yang Digunakan Dalam Penelitian

8

2. Distribusi Persentase Status Bersekolah Anak Berdasarkan Jumlah
Anggota Rumah Tangga yang Tidak/Belum Bekerja di Sulawesi,
Tahun 2012

13

3. Distribusi Persentase Status Bersekolah Anak Berdasarkan Tingkat
Pendidikan Ibu di Sulawesi, Tahun 2012

14

4. Distribusi Persentase Status Bersekolah Anak Berdasarkan Status
Pekerjaan Kepala Rumah Tangga (KRT) di Sulawesi, Tahun 2012

14

5. Persentase Anak Usia 7-17 Tahun yang Tidak Bersekolah Lagi
Menurut Alasannya

16

6. Nilai Koefisien Asosiasi dan Nilai-p yang diperoleh dari Hasil
Tabulasi Silang antara Peubah Penjelas dan Peubah Respon

17

7. Hasil Uji-t pada Uji Beda Dua Rata-rata antara Peubah Penjelas dan
Peubah Respon

18

8. Tingkat Kepentingan Peubah pada Pohon Klasifikasi Optimal

19

9. Hasil Klasifikasi Data Testing pada Pohon Klasifikasi Optimal tanpa
Peubah Jaringan Sosial

20

10. Tingkat Kepentingan Peubah pada Pohon Klasifikasi Optimal
dengan Peubah Jaringan Sosial

21

11. Hasil Klasifikasi Data Testing pada Pohon Klasifikasi Optimal
dengan Menambahkan Peubah Jaringan Sosial

23

12. Tingkat Ketepatan Klasifikasi Bagging CART
Klasifikasi dengan Peubah Jaringan Sosial

25

pada Pohon

13. Tingkat Ketepatan Klasifikasi Bagging CART pada Pohon
Klasifikasi dengan Keputusan Putus Sekolah Jika Minimal 30% dari
Jumlah Pohon Memilih Kategori Putus Sekolah

27

14. Tingkat Ketepatan Klasifikasi Bagging CART
Klasifikasi dengan Peubah Jaringan Sosial

28

pada Pohon

DAFTAR GAMBAR
1. Diagram Alir Penelitian

10

2. Angka Putus Sekolah (APTS) Menurut Provinsi di Indonesia, Tahun
2012

11

3. Angka Putus Sekolah (APTS) Menurut Kabupaten di Pulau Sulawesi,
Tahun 2012

12

4. Persentase Anak Putus Sekolah Menurut Jenis Kelamin di Sulawesi,
Tahun 2012

13

5. Persentase Anak Putus Sekolah Menurut Status Ekonomi Rumah
Tangga di Sulawesi, Tahun 2012

15

6. Persentase Anak Putus Sekolah Menurut Klasifikasi Tempat Tinggal
di Sulawesi, Tahun 2012

15

7. Plot Biaya Relatif dengan Jumlah Simpul Terminal pada Klasifikasi
tanpa Peubah Jaringan Sosial

19

8. Plot Biaya Relatif dengan Jumlah Simpul Terminal pada Klasifikasi
dengan Peubah Jaringan Sosial

21

9. Pohon Klasifikasi Optimal dengan Peubah Jaringan Sosial

22

10. Perbandingan Ketepatan Klasifikasi antara Pohon Klasifikasi tanpa
Peubah Jaringan Sosial dan dengan Peubah Jaringan Sosial

24

11. Rata-rata Tingkat Kepentingan Peubah pada Pohon Klasifikasi
Gabungan dengan Pengulangan Sebanyak 125 kali

26

DAFTAR LAMPIRAN
1. Angka Putus Sekolah (APTS) di Sulawesi Menurut Kabupaten,
Tahun 2012

31

2. Gambar Pohon Klasifikasi Optimal Tanpa Peubah Jaringan Sosial

33

1 PENDAHULUAN
Latar Belakang
Pendidikan memiliki peran strategis dalam pembangunan nasional.
Indonesia membutuhkan generasi muda yang memiliki kualitas pendidikan yang
baik untuk menjadi bangsa yang maju dan mandiri. Generasi muda yang
dimaksud tak lain adalah anak-anak Indonesia sebagai generasi penerus bangsa,
sehingga sebagai perwujudannya berimplikasi pada perlunya pemberian
perlindungan terhadap anak dan pemenuhan hak-haknya sebagaimana tertuang
dalam Undang-Undang No.23 Tahun 2002 pasal 4 tentang perlindungan anak
(Depdiknas 2009). Undang-undang ini adalah hasil ratifikasi dari konvensi hakhak anak (Convention On The Rights of The Child) yang disahkan oleh
Perserikatan Bangsa-Bangsa (PBB) pada tanggal 20 Nopember 1989. Dalam
undang-undang tersebut anak adalah seseorang yang belum berusia 18 Tahun.
Pendidikan merupakan salah satu hak anak yang harus dipenuhi dan
pemerintah memiliki kewajiban serta tanggung jawab dalam penyelenggaraan
pendidikan, sehingga setiap anak Indonesia memiliki kesempatan yang sama
dalam memperoleh pendidikan. Namun, pada kenyataannya tidak semua anak
mempunyai kesempatan memperoleh pendidikan yang layak dan seluas-luasnya
hingga menyebabkan mereka putus sekolah. Rendahnya tingkat pendidikan akan
mendorong timbulnya berbagai permasalahan sosial (Rojani 2008).
Salah satu faktor yang menjadi indikator rendahnya tingkat pendidikan
adalah tingginya angka putus sekolah. Apabila di suatu wilayah memiliki angka
putus sekolah yang tinggi, maka dapat dikatakan wilayah tersebut memiliki
tingkat pendidikan yang rendah. Seiring perkembangan pengetahuan dan
teknologi, pendidikan dasar sembilan tahun dirasakan masih belum cukup untuk
mendapatkan kualitas sumber daya manusia yang baik sehingga dalam penelitian
ini anak putus sekolah yang diamati adalah anak yang putus pada jenjang
pendidikan sekolah dasar hingga sekolah menengah.
Putus sekolah tidak hanya disebabkan oleh kondisi ekonomi anak namun
juga dapat berasal dari kondisi lingkungan sekitarnya. Faktor lingkungan dapat
berupa pola pikir masyarakat secara umum di sekitar tempat tinggal anak atau pun
dari pengaruh orang-orang terdekat dalam kesehariannya. Interaksi anak dengan
orang-orang disekitarnya atau sering dikenal sebagai jejaring sosial terdiri dari
beberapa tingkatan mulai dari tingkatan terendah yaitu keluarga hingga tingkatan
tertinggi yaitu Negara. Jaringan sosial adalah sebuah pola koneksi dalam
hubungan sosial individu, kelompok dan berbagai bentuk kolektif lain. Sehingga
jaringan sosial memiliki peranan penting dalam keberhasilan seseorang untuk
mencapai tujuannya (Shakya et al. 2013).
Menurut Badan Pusat Statistik (BPS), pada tahun 2012 persentase penduduk
usia 7-17 tahun yang pernah sekolah dengan status putus sekolah di Indonesia
sebesar 2.72%, artinya dari setiap 1000 orang penduduk usia 7-17 tahun terdapat
27 anak yang putus sekolah. Bila sebaran anak putus sekolah dilihat berdasarkan
enam pulau besar di Indonesia yaitu Jawa, Bali-Nusa Tenggara, Kalimantan,
Maluku-Papua, Sulawesi, dan Sumatera. Pada Pulau Sulawesi, terdapat fenomena

2
yang menarik yaitu seluruh provinsi di Sulawesi memiliki angka putus sekolah
lebih tinggi dibandingkan angka rata-rata nasional.
Agar dapat mengatasi masalah anak putus sekolah di Sulawesi, perlu
dilakukan upaya untuk mengidentifikasi dan mencari faktor penyebab siswa putus
sekolah baik faktor sosial ekonomi dan demografi anak maupun faktor lingkungan
khususnya pengaruh jaringan sosial dalam kehidupan anak, sehingga kebijakan
yang diambil oleh pemerintah dapat tepat sasaran. Salah satu cara yang dapat
dilakukan untuk mengetahui karakteristik anak putus sekolah adalah dengan
melakukan klasifikasi anak putus sekolah umur 7-17 tahun.
Dalam literatur statistika tersedia beberapa teknik atau metode untuk
melakukan klasifikasi pada peubah respon biner antara lain regresi logistik
(Agresti 2007), fungsi dikriminan (Johnson and Wichern, 2002) atau
Classification and Regression Tree (Izenman 2008). CART adalah salah satu
metode klasifikasi nonparametrik yang dibangun dari data respon kategorik.
Dibandingkan dengan regresi logistik dan fungsi dikriminan, CART memiliki
kelebihan yaitu CART dapat menggunakan peubah yang sama lebih dari sekali di
berbagai belahan pohon, kemampuan ini dapat mengungkap saling
ketergantungan yang kompleks antar peubah (Timofeev 2004 and Gordon 2013).
Pemanfaatan metode CART dalam pengambilan keputusan telah banyak
dilakukan pada berbagai bidang kehidupan, diantaranya dalam bidang kesehatan
yaitu CART telah digunakan oleh IFPRI (The International Food Policy Research
Institute) untuk mengidentifikasi indikator-indikator kerentanan terhadap kelaparan di
tingkat rumah tangga dan regional di Afrika (Yohannes dan Webb, 1999). Selain itu,
Andriyashin (2005), telah mengaplikasikan CART pada data finansial modern dan
menyimpulkan bahwa CART merupakan suatu metode yang sangat bermanfaat
dalam aplikasi finansial modern.
Menurut Sutton (2005) CART adalah pohon klasifikasi tunggal yang tidak
stabil. Ketidakstabilan ini dikarenakan perubahan-perubahan kecil pada data learning
akan sangat mempengaruhi hasil akurasi prediksi. Pada tahun 1996 Leo Brieman
memperkenalkan tehnik bootstrap aggregating (Bagging) untuk mengatasi masalah
tersebut. Bagging merupakan metode yang diterapkan pada algoritma klasifikasi,
yang bertujuan meningkatkan akurasi pengklasifikasi dengan menggabungkan
pengklasifikasi tunggal (Izenman 2008).
Dalam penelitian ini metode CART akan digunakan untuk membentuk
klasifikasi anak putus sekolah usia 7-17 tahun di Sulawesi dengan melibatkan
karakteristik yang berasal dari faktor lingkungan yaitu jaringan sosial yang
dimiliki oleh anak usia 7-17 tahun. Kemudian menerapkan teknik Bagging pada
pohon klasifikasi CART untuk meningkatkan ketepatan klasifikasi yang
dihasilkan.
Pertanyaan Penelitian
Berdasarkan latar belakang yang telah dijelaskan sebelumnya, maka
masalah yang dibahas dalam penelitian ini adalah:
1. Bagaimana pengaruh jaringan sosial pada pohon klasifikasi karakteristik
anak putus sekolah usia 7-17 tahun dengan menggunakan metode CART?
2. Bagaimana pengaruh penerapan tehnik Bagging pada pohon klasifikasi
CART?
3. Bagaimana karakteristik anak putus sekolah usia 7-17 tahun di Sulawesi?

3

Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1. Menyusun pohon klasifikasi karakteristik anak putus sekolah usia 7-17
tahun di Sulawesi dengan menggunakan metode CART dan melihat
pengaruh peubah jaringan sosial pada pohon klasifikasi yang terbentuk.
2. Melihat pengaruh penerapan tehnik Bagging pada pohon klasifikasi
CART.
3. Mengidentifikasi karakteristik anak putus sekolah usia 7-17 tahun di
Sulawesi.

2 TINJAUAN PUSTAKA
Jaringan Sosial
Jaringan sosial adalah sebuah struktur sosial yang menghubungkan individu
satu dengan individu lainnya melalui dua mekanisme utama yaitu koneksi dan
pengaruh dari koneksi tersebut yang pada akhirnya akan mempengaruhi perilaku
atau keputusan yang diambil oleh individu tersebut (Shakya et al. 2013).
Pemanfaatan jaringan sosial dalam membantu pengambilan keputusan telah
banyak dilakukan oleh peneliti sebelumnya. Mansur and Yusof (2012) dalam
penelitiannya menggunakan Social Network Analysis (SNA) untuk
mengklasifikasikan perilaku siswa. Dalam perspektif sosial, hal utama yang
mempengaruhi perilaku remaja adalah sikap dan perilaku teman-temannya yang
berada di sekitarnya. Lingkungan sekitar memberikan pengaruh yang cukup besar
sehingga didapatkan bahwa angka putus sekolah yang tinggi banyak ditemukan di
lingkungan miskin (Crane 1991). Menurut De Witte et al. (2012), resiko putus
sekolah dipengaruhi oleh faktor komunitas yaitu karakteristik lingkungan,
jaringan antar teman (friends networks), kondisi pekerjaan dalam keluarga dan
diskriminasi sosial.
Selain dalam bidang pendidikan, jaringan sosial juga dimanfaatkan dalam
bidang ekonomi. Provost et al. (2009) menggunakan metode privacy friendly
social network untuk mengetahui kecenderungan konsumen dalam memilih merk
suatu produk melalui iklan yang ditayangkan pada sebuah situs internet.
Kecenderungan seseorang memilih produk dapat dilihat melalui interaksi sosial
yang dilakukan pada situs tersebut dan didapatkan bahwa orang yang memiliki
hubungan kekerabatan dan hubungan sosial yang serupa memiliki kecenderungan
yang sama dalam memilih suatu produk. Dengan demikian perilaku seseorang
dalam mengambil keputusan dapat dipengaruhi oleh perilaku orang lain yang
berada disekitarnya.

4
Classification And Regression Tree (CART)
CART adalah salah satu metode dasar dalam metode pohon keputusan.
Bentuk CART bergantung pada peubah respon yang digunakan. Jika peubah
respon yang digunakan adalah data kategorik maka CART menghasilkan pohon
klasifikasi dan jika peubah responnya berupa data kontinu maka CART
menghasilkan pohon regresi.
Sebelum membangun sebuah pohon keputusan, data terlebih dahulu dipilah
menjadi data learning dan data testing. Pembagian dapat dilakukan dengan
proporsi data learning sebesar 90% dan data testing sebesar 10%. Data learning
akan digunakan untuk membangun pohon keputusan dan data testing akan
digunakan untuk validasi. Validasi dilakukan untuk melihat seberapa besar tingkat
akurasi dari prediksi yang dilakukan oleh CART (Duda et al. 2000).
Prosedur Pembentukan Pohon Klasifikasi
Dalam membentuk sebuah pohon klasifikasi terdapat beberapa hal penting
yang perlu diketahui yaitu peubah yang akan dijadikan pemilah dan nilai mana
dari peubah tersebut yang menjadi pemilahnya serta ukuran pohon yang tepat
sehingga pohon yang terbentuk memiliki kemampuan menduga terbaik. Prosedur
pembentukan pohon klasifikasi terbagi kedalam tiga tahap yaitu:
1. Penentuan pemilah
Tahapan pemilihan pemilah (Izenman 2008) :
a. Menentukan jumlah kemungkinan pemilah yang terbentuk pada satu
peubah.
Setiap simpul akan dipilah menjadi dua bagian. Terdapat beberapa
kemungkinan untuk menentukan nilai atau kriteria yang akan digunakan
sebagai pemilah pada satu peubah. Kemungkinan pemilah yang terbentuk
bergantung pada jenis peubah yang akan menjadi pemilah. Pada peubah
ordinal atau kontinu, jumlah kemungkinan pemilah yang terbentuk adalah
M-1 dengan M adalah banyaknya nilai yang berbeda pada peubah yang
menjadi kandidat pemilah dan untuk peubah nominal atau kategorik,
jumlah kemungkinan pemilah yang terbentuk adalah 2M-1 – 1 dengan M
adalah banyaknya kategori pada suatu peubah.
b. Menentukan fungsi impuritas
Pohon klasifikasi dibentuk dengan memilah setiap simpul menjadi
dua bagian (simpul kanan dan simpul kiri) dengan tujuan agar nilai-nilai
amatan pada peubah respon yang terdapat pada setiap bagian menjadi
lebih homogen dibandingkan sebelum dilakukan pemilahan.
Metode yang digunakan untuk mengukur penurunan tingkat
keheterogenan pada setiap simpul adalah indeks Gini dengan fungsi
sebagai berikut.
( ) =

( | ) ( | )

dengan i(t) adalah fungsi keheterogenan indeks gini, p(i|t) adalah proporsi
kelas i pada simpul t, dan p(j|t) adalah proporsi kelas j pada simpul t.

5
c. Menentukan pemilah terbaik untuk satu peubah
Setelah memilih metode pengukuran tingkat keheterogenan
kemudian memilih pemilah terbaik berdasarkan kriteria goodness of split
yang didefinisikan sebagai ∆ ( , ) = ( ) − . ( ) − . ( )
dengan, ∆ ( , ) = besarnya perubahan dari keheterogenan dalam simpul t
yang disebabkan oleh pemilah s
s
= pemilah
t
= simpul
tL
= simpul kiri
tR
= simpul kanan
= proporsi pengamatan pada simpul kiri
= proporsi pengamatan pada simpul kanan
( ) = nilai indeks gini pada simpul kiri
( ) = nilai indeks gini pada simpul kanan
Nilai ∆ ( , ) dihitung pada seluruh kemungkinan pemilah yang ada.
Pemilah terbaik untuk satu peubah adalah pemilah yang menghasilkan nilai
∆ ( , ) terbesar. Pada masing-masing simpul, langkah a-c dilakukan untuk
seluruh peubah kemudian peubah yang terpilih menjadi pemilah pada suatu
simpul adalah peubah yang memiliki nilai ∆ ( , ) terbesar diantara peubahpeubah penjelas yang ada.

2. Pembentukan simpul terminal
Pemilahan simpul pada pembentukan pohon klasifikasi dilakukan hingga
setiap simpul terpilah menjadi dua anak simpul (binary tree) dan memiliki
tingkat keheterogenan terendah sehingga simpul tersebut tidak dapat dipilah
lagi kemudian menjadi simpul terminal. Pada kasus ekstrim namun jarang
terjadi, pohon klasifikasi dipilah hingga pada setiap simpul hanya terdapat 1
amatan. Metode lain yang dapat digunakan untuk membentuk simpul terminal
adalah dengan menentukan jumlah amatan minimum pada simpul terminal
yaitu 5 amatan atau dengan menetapkan besar persentase dari sejumlah data
training misal 5 persen. (Duda et al. 2000)
3. Penentuan label kelas pada simpul terminal
Pemberian label kelas pada simpul terminal dilakukan berdasarkan aturan
jumlah terbanyak.
Pemangkasan Pohon Klasifikasi
Pohon klasifikasi yang telah dibentuk adalah pohon klasifikasi maksimal
(Tmax). bila pohon yang terbentuk sangat besar maka dapat dilakukan
pemangkasan (Prunning). Pemangkasan dilakukan dengan pendekatan
misclassification rate pada setiap simpul. Ukuran pemangkasan yang digunakan
untuk memperoleh ukuran pohon yang layak adalah Cost complexity pruning
yaitu:
( )=

( )+

dengan,
R(T) = Proporsi kesalahan pada sub pohon (Resubstitusion Estimate)
α = kompleksitas parameter (complexity parameter)

6
= ukuran banyaknya simpul terminal pohon T
Untuk setiap α kita memilih sub pohon T(α) dari Tmax yang dapat
( ) yaitu,
meminimumkan
( ( )) =

min

( )

Jika sub pohon yang terbentuk memenuhi kondisi tersebut maka sub pohon
yang terbentuk disebut pohon klasifikasi optimal.
Nilai α menentukan ukuran pohon yang terbentuk. Jika α=0 maka pohon
yang dibangun adalah Tmax dimana pada setiap simpul hanya terdapat satu amatan
atau dengan kata lain R(Tmax)=0. Jika α sangat besar maka pohon maksimal (Tmax)
akan dipangkas hingga yang tersisa hanya simpul utama (Izenman 2008).
Pemilihan Pohon Klasifikasi Optimal
Berdasarkan Tmax yang diperoleh, kita dapat membangun sebanyak T1, T2,
T3,……, TM sub pohon dimana TM adalah sub pohon yang hanya terdiri atas
simpul utama dan nilai α1