Decision Tree LANDASAN TEORI

11 Diskriminan, decision tree memulai proses analisis dengan mengklasifikasikan pengamatan ke dalam kelompok dan kemudian memperoleh skor untuk setiap kelompok yang diamati [4]. Sebelum membahas lebih jauh mengenai decision tree, berikut akan dijelaskan terlebih dahulu istilah-istilah yang digunakan dalam tree, sebagai berikut :  Learning Sample :himpunan data awal yang digunakan untuk pembentukan model.  Tree Pohon : suatu skema yang menunjukkan pola pengelompokan berdasarkan variabel-variabel pemisah.  Sub-Tree : cabang-cabang kecil dari pohon yang dipisahkan oleh variabel pemisah.  Node : titik yang terdapat pada masing-masing cabang dari tree  Terminal node : cabang akhir dari suatu tree  Parent node : cabang dari suatu tree, namun dapat dipecah kembali berdasarkan nilai dari variabel pemisah  Child node : simpul yang berhubungan langsung dengan parent node yang merupakan hasil pemecahan dari Parent node. Decision tree dipisahkan menjadi dua buah teknik pengerjaan pertama jika variabel terikat atau variabel terikatnya bersifat kontinu maka teknik pengerjaan yang dilakukan adalah Regression tree, kedua apabila variabel 12 terikatnya bersifat diskrit atau kualitatif kategori maka teknik pengerjaannya disebut dengan Classification tree. Decision tree dapat didefinisikan sebagai prosedur rekursif, di mana satu set data statistik n secara progresif dibagi menjadi kelompok-kelompok berdasarkan aturan pembagian yang bertujuan untuk memaksimalkan ukuran homogenitas atau kemurnian variabel respon pada masing-masing kelompok. Pada setiap langkah prosedur pembentukan model tree aturan pembagian ditentukan oleh pilihan variabel penjelas interikat untuk membagi dan memisahkan variabel tersebut, yang menetapkan bagaimana partisi atau pemisahan terhadap pengamatan dilakukan [4]. Hasil yang akan didapat dari sebuah pemodelan tree adalah partisi akhir dari sebuah pengamatan. Untuk mencapai hal itu perlu dilakukan penentuan kriteria pemberhentian yang tepat pada proses pembagian pada setiap pengamatan. Anggap partisi akhir sudah tercapai, yang terdiri dari kelompok g di mana g n. Maka untuk sembarang nilai observasi pada variabel terikat , sebuah regression tree menghasilkan nilai prediksi ̂ yang nilainya sama dengan nilai mean dari untuk setiap i dalam grup tersebut. Misalkan m adalah jumlah kelompok, maka akan didapatkan persamaan : ̂ ∑ Sementara untuk classification tree, nilai yang tepat diberikan dari gabungan probabilitas yang cocok menjadi satu buah kelompok. Jika hanya ada 13 dua kelas yang mungkin klasifikasi biner, maka probabilitas yang cocok adalah : ∑ Pengamatan bernilai 0 atau 1, oleh karena itu, probabilitas koresponden dicocokkan ke perbandingan pengamatan yang sukses dalam grup. Perhatikan bahwa ̂ dan konstan untuk setiap observasi atau pengamatan dalam grup. Ada beberapa macam model dalam decision tree, di antaranya IDS, CART, CHAID, C4.5, dan ID3. Adapun metode yang dipakai dalam penelitian ini adalah model CART metode Classification tree.

2.5 Classification and Regression Tree CART

Breiman, Friedman, Olshen, dan Stone pada tahun 1984 memperkenalkan salah satu metode dalam statistika nonparametrik yakni metode classification and regression tree CART yang dikenal sebagai partisi binary rekursif. Dikatakan partisi binary karena pada proses pembentukan model melibatkan sekumpulan data yang akan menghasilkan dua buah node [6]. Disebut rekursif karena proses pembagian data menjadi dua node dilakukan secara bertingkat dan berulang pada setiap node yang dihasilkan, di mana parent node menghasilkan dua child node dan masing-masing child node memiliki dua grand child node dan seterusnya sampai mencapai terminal 14 node. Tujuan mendasar dari metode tree adalah membangun sebuah model pohon keputusan yang selanjutnya akan digunakan untuk memberikan score atau nilai tertentu pada suatu data baru. Gambar 2.1 Contoh Bagan Klasifikasi Decision tree Keterangan gambar : 1 : Parent node 2 : Child node 3 : Grandchild node 4 : Terminal node simpul akhir CART merupakan alat dari metode decision tree yang dapat dikatakan paling baik untuk memecahkan masalah data mining, pemodelan prediksi, dan pengolahan data. Pada proses pengerjaannya, CART secara otomatis mencari pola-pola dan hubungan yang penting yaitu membuka struktur yang tersembunyi meskipun data yang digunakan memiliki tingkat kompleksitas