Decision Tree LANDASAN TEORI
11
Diskriminan, decision tree memulai proses analisis dengan mengklasifikasikan pengamatan ke dalam kelompok dan kemudian memperoleh skor untuk setiap
kelompok yang diamati [4]. Sebelum membahas lebih jauh mengenai decision tree, berikut akan
dijelaskan terlebih dahulu istilah-istilah yang digunakan dalam tree, sebagai berikut :
Learning Sample :himpunan data awal yang digunakan untuk pembentukan model.
Tree Pohon : suatu skema yang menunjukkan pola pengelompokan
berdasarkan variabel-variabel pemisah. Sub-Tree
: cabang-cabang kecil dari pohon yang dipisahkan oleh variabel pemisah.
Node : titik yang terdapat pada masing-masing cabang dari
tree Terminal node
: cabang akhir dari suatu tree Parent node
: cabang dari suatu tree, namun dapat dipecah kembali berdasarkan nilai dari variabel pemisah
Child node : simpul yang berhubungan langsung dengan parent
node yang merupakan hasil pemecahan dari Parent node.
Decision tree dipisahkan menjadi dua buah teknik pengerjaan pertama jika variabel terikat atau variabel terikatnya bersifat kontinu maka teknik
pengerjaan yang dilakukan adalah Regression tree, kedua apabila variabel
12
terikatnya bersifat diskrit atau kualitatif kategori maka teknik pengerjaannya disebut dengan Classification tree.
Decision tree dapat didefinisikan sebagai prosedur rekursif, di mana satu set data statistik n secara progresif dibagi menjadi kelompok-kelompok
berdasarkan aturan pembagian yang bertujuan untuk memaksimalkan ukuran homogenitas atau kemurnian variabel respon pada masing-masing kelompok.
Pada setiap langkah prosedur pembentukan model tree aturan pembagian ditentukan oleh pilihan variabel penjelas interikat untuk membagi dan
memisahkan variabel tersebut, yang menetapkan bagaimana partisi atau pemisahan terhadap pengamatan dilakukan [4].
Hasil yang akan didapat dari sebuah pemodelan tree adalah partisi akhir dari sebuah pengamatan. Untuk mencapai hal itu perlu dilakukan penentuan
kriteria pemberhentian yang tepat pada proses pembagian pada setiap pengamatan. Anggap partisi akhir sudah tercapai, yang terdiri dari kelompok g
di mana g n. Maka untuk sembarang nilai observasi pada variabel terikat , sebuah regression tree menghasilkan nilai prediksi
̂ yang nilainya sama
dengan nilai mean dari untuk setiap i dalam grup tersebut. Misalkan m
adalah jumlah kelompok, maka akan didapatkan persamaan :
̂ ∑
Sementara untuk classification tree, nilai yang tepat diberikan dari gabungan probabilitas yang cocok menjadi satu buah kelompok. Jika hanya ada
13
dua kelas yang mungkin klasifikasi biner, maka probabilitas yang cocok adalah :
∑
Pengamatan bernilai 0 atau 1, oleh karena itu, probabilitas
koresponden dicocokkan ke perbandingan pengamatan yang sukses dalam grup. Perhatikan bahwa
̂ dan
konstan untuk setiap observasi atau pengamatan dalam grup.
Ada beberapa macam model dalam decision tree, di antaranya IDS, CART, CHAID, C4.5, dan ID3. Adapun metode yang dipakai dalam penelitian
ini adalah model CART metode Classification tree.