Pengertian Jenis-Jenis Decision Tree

11 memberikan detail algoritma yang digunakan dalam implementasi program. 5. Pengkodean coding Tahap pengkodean merupakan tahap penerjemahan data atau pemecahan yang telah dirancang kedalam bahasa pemrograman yang telah ditentukan.

2.3 Decision Tree

2.3.1 Pengertian

Decison Tree Decision tree merupakan salah satu teknik yang dapat digunakan untuk melakukan klasifikasi terhadap sekumpulan objek atau record. Teknik ini terdiri dari kumpulan decison node, dihubungkan oleh cabang, bergerak ke bawah dari root node sampai berakhir di leaf node. Pengembangan decision tree dimulai dari root node, berdasarkan konvensi ditempatkan di bagian atas diagram decision tree, semua atribut dievaluasi pada decision node, dengan tiap outcome yang mungkin menghasilkan cabang. Tiap cabang dapat masuk baik ke decision node yang lain ataupun ke leaf node. Yusuf,2007 Decision tree adalah metode diskrimasi nonlinear yang menggunakan sekumpulan variabel independen untuk membagi sampel ke dalam kelompok– kelompok yang lebih kecil secara bertahap. Prosedur tersebut dilakukan secara iterative di setiap cabang pohon, yakni memilih variabel independen yang memiliki asosiasi terkuat dengan variabel dependen menurut kriteria tertentu. Persyaratan yang harus dipenuhi dalam penerapan algoritma decision tree Yusuf,2007: 1. Algoritma decision tree merepresentasikan supervised learning sehingga membutuhkan target preclassified. 12 2. Training data set harus kaya dan bervariasi. 3. Kelas atribut target harus diskrit.

2.3.2 Jenis-Jenis

Decision Tree Algoritma yang bisa digunakan untuk membangun tree antara lain CART, ID3 dan C4.5. Budi:2007,95 1. CART CLASSIFICATION AND REGRESSION TREES CART merupakan metode partisi rekursif yang digunakan baik untuk regresi maupun klasifikasi. CART dibangun dengan melakukan pemecahan subset-subset dari dataset menggunakan variabel prediktor untuk membuat dua child node secara berulang, dimulai dari keseluruhan dataset. Tujuannya adalah menghasilkan subset data yang sehomogen mungkin untuk mengklasifikasikan variabel target. Budi:2007,95 Pada permulaan proses, training set yang terdiri record yang sudah diklasifikasi harus tersedia. Training set digunakan untuk membangun tree yang memungkinkan penempatan suatu kelas ke dalam variabel target dari record baru yang didasarkan pada nilai- nilai variable yang lain atau variable independen. CART membangun binary tree dengan memecah record pada tiap node berdasarkan fungsi variable input tunggal. Tugas pertama yang dijalankan adalah menentukan variable independen yang menjadi splitter terbaik. Splitter terbaik adalah splitter yang menurunkan keanekaragaman node. Node yang tidak dipecah lagi disebut leaf node. 13 Pemecahan record pada tiap node menyebabkan jumlah record yang semakin kecil dari root node ke child node sampai ke leaf node. Semakin sedikit jumlah record, semakin kurang representative node tersebut. Akibatnya adalah model tree hanya dapat memprediksi secara akurat untuk record yang berada pada training set , tetapi tidak dapat memprediksi record baru yang berasal dari luar training set secara akurat atauovertraining. Untuk mengurangi overtraining, pemangkasan pohon atau pruning dapat dilakukan. Pruning menghasilkan beberapa kandidat subtree. Beberapa kandidat subtree dipilih berdasarkan kemampuannya dalam memprediksi record baru. Pemilihan tersebut membutuhkan set data bari yaitu set test set yang berisi record baru yang berbeda dengan record yang ada pada training set . Tiap kandidat subtree digunakan untuk memprediksi record yang ada dalam test set. Subtree yang memberikan error terkecil terpilih sebagai model tree. Langkah terakhir adalah mengevaluasi subtree terpilih dengan menerapkannya pada set data baru yaitu validation set. Nilai error yang diperoleh dari validation set digunakan untuk memprediksi expected performance model prediksi. 2. ID3 dan C4.5 Algoritma ID3 atau Iterative Dichotomiser 3 ID3 merupakan sebuah metode yang digunakan untuk membuat pohon keputusan. ID3 dikembangkan oleh J. Ross Quinlan. Algoritma 14 pada metode ini menggunakan konsep dari entropi informasi. Algoritma C4.5 merupakan pengembangan dari ID3. Oleh karena pengembangan tersebut algoritma C4.5mempunyai prinsip dasar kerja yang sama dengan algoritma ID3.Budi,2007:103 Pohon dibangun dengan cara membagi data secara rekursif hingga tiap bagian terdiri dari data yang berasal dari kelas yang sama. Bentuk pemecahan split yang digunakan untuk membagi data tergantung dari jenis atribut yang digunakan dalam split. Algoritma C4.5 dapat menangani data numerik kontinyu dan diskret. Split untuk atribut numerik yaitu mengurutkan contoh berdasarkan atribut kontiyu A, kemudian membentuk minimum permulaan threshold M dari contoh-contoh yang ada dari kelas mayoritas pada setiap partisi yang bersebelahan, lalu menggabungkan partisi-partisi yang bersebelahan tersebut dengan kelas mayoritas yang sama. Split untuk atribut diskret A mempunyai bentuk value A ε X dimana X ⊂domainA. Jika suatu set data mempunyai beberapa pengamatan dengan missing value yaitu record dengan beberapa nilai variabel tidak ada, Jika jumlah pengamatan terbatas maka atribut dengan missing value dapat diganti dengan nilai rata-rata dari variabel yang bersangkutan. Untuk melakukan pemisahan obyek split dilakukan tes terhadap atribut dengan mengukur tingkat ketidakmurnian pada sebuah simpul node. Pada algoritma C.45 menggunakan rasio perolehan gain ratio. Sebelum menghitung rasio perolehan, perlu 15 menghitung dulu nilai informasi dalam satuan bits dari suatu kumpulan objek. Cara menghitungnya dilakukan dengan menggunakan konsep entropi. E S = -p_log 2 p + - p_log 2 p_ S adalah ruang data sampel yang digunakan untuk pelatihan, p+ adalah jumlah yang bersolusi positif atau mendukung pada data sampel untuk kriteria tertentu dan p- adalah jumlah yang bersolusi negatif atau tidak mendukung pada data sampel untuk kriteria tertentu. EntropiS sama dengan 0, jika semua contoh pada S berada dalam kelas yang sama. EntropiS sama dengan 1, jika jumlah contoh positif dan negatif dalam S adalah sama. EntropiS lebih dari 0 tetapi kurang dari 1, jika jumlah contoh positif dan negatif dalam S tidak sama. Entropi split yang membagi S dengan n record menjadi himpunan-himpunan S1 dengan n1 baris dan S2 dengan n2 baris adalah : 1, 2 = 1 + 2 Kemudian menghitung perolehan informasi dari output data atau variabel dependent y yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain y,A. Perolehan informasi, gain y,A, dari atribut A relatif terhadap output data y adalah: Gain y,A = entropy y – ∑ entropy y c nilai A adalah semua nilai yang mungkin dari atribut A, dan yc adalah subset dari y dimana A mempunyai nilai c. Term pertama dalam persamaan diatas adalah entropy total y dan term kedua 16 adalah entropy sesudah dilakukan pemisahan data berdasarkan atribut A. Untuk menghitung rasio perolehan perlu diketahui suatu term baru yang disebut pemisahan informasi SplitInfo. Pemisahan informasi dihitung dengan cara : bahwa S1 sampai Sc adalah c subset yang dihasilkan dari pemecahan S dengan menggunakan atribut A yang mempunyai sebanyak c nilai. Selanjutnya rasio perolehan gain ratio dihitung dengan cara : GainRatio S,A = , ,

2.4 Konsep Hukum Dalam Islam