Maksimum Tree Classification and Regression Tree CART

20 Pada proses klasifikasi dengan tahapan proses pembentukan model pada CART diperlukan learning sample data percobaan yang merupakan sekumpulan data yang digunakan untuk membentuk sebuah model tree dan biasanya learning sample berukuran besar agar dapat membentuk pengklasifikasian yang baik. Ketika model tree sudah terbentuk maka model itu dapat digunakan untuk mengklasifikasian data yang belum diketahui. Tujuan klasifikasi ini adalah menentukan aturan pada variabel yang lain yang memprediksi variabel kelas. Untuk menguji keakuratan model yang dibuat dapat digunakan test sample data uji di mana test sample tersebut biasanya berukuran lebih kecil dibandingkan dengan data percobaan yang sebenarnya. Pada pembentukan model, data percobaan yang digunakan akan dipisah menjadi dua buah node secara rekursif atau bertingkat hingga mencapai terminal node dengan menggunakan algoritma tertentu. Seperti yang telah dibahas dalam subbab sebelumnya, ada beberapa jenis algoritma yang dapat digunakan sebagai alat pemisah dalam pembentukan model. Seperti yang sudah dijelaskan sebelumnya, pada penelitian kali ini, akan digunakan algoritma pemisah yaitu Twoing Splitting Rule. Pertumbuhan tree dari data percobaan akan menghasilkan level dari suatu node yang paling besar dibandingkan dengan model tree lainnya, serta memiliki jumlah terminal node simpul akhir yang paling banyak. Tree yang paling besar seperti ini disebut dengan maksimum tree. 21

2.5.3 Optimum Tree

Dalam pembentukan model tree perlu dipertimbangkan keakuratan dari model tree tersebut [6]. Tingkat keakuratan sebuah model tree menunjukkan seberapa baik model tersebut dalam memprediksi atau mengklasifikasi data. Sedangkan ketidakakuratan model tersebut dalam memprediksi atau mengklasifikasi data disebut dengan resiko. Seperti yang sudah dibahas sebelumnya bahwa nilai resiko dari sebuah model tree dapat dilihat dari misclassification error yang dihasilkan oleh model tersebut. Jika misclassification yang dihasilkan tinggi maka resiko yang akan timbul dari model tree tersebut juga akan tinggi dan sebaliknya jika nilai misclassification rendah maka resiko dari tree tersebut juga rendah dalam memprediksi atau mengklasifikasi sebuah data. Dengan meningkatnya ukuran pada model tree, misclassification yang dihasilkan akan menurun dan jika ukuran tree tersebut maksimum maka misclassification error akan bernilai nol [6]. Akan tetapi maksimum tree dapat menghasilkan kompleksitas yang sangat tinggi dan berakibat akan melemahkan prediksi atau pengklasifikasian model tree terhadap suatu data. Di sisi lain tree yang memiliki ukuran yang lebih kecil dari maksimum tree memiliki kompleksitas yang rendah, namun akan memiliki nilai misclassification error yang lebih tinggi dibandingkan dengan maksimum tree. Oleh karena itu, perlu dilakukannya optimasi dari sebuah model tree sebelum model tersebut digunakan untuk memprediksi atau mengklasifikasikan sebuah data baru. Pengoptimasian tree mengimplikasikan pemilihan ukuran tree yang benar yaitu 22 memangkas node dan subtree yang tidak memberikan kontribusi yang cukup besar terhadap akurasi dari pengelompokan namun menambah kompleksitas dari tree tersebut.