11
memberikan detail algoritma yang digunakan dalam implementasi program.
5. Pengkodean coding Tahap pengkodean merupakan tahap penerjemahan data
atau pemecahan yang telah dirancang kedalam bahasa pemrograman yang telah ditentukan.
2.3 Decision Tree
2.3.1 Pengertian
Decison Tree
Decision tree merupakan salah satu teknik yang dapat digunakan untuk
melakukan klasifikasi terhadap sekumpulan objek atau record. Teknik ini terdiri dari kumpulan decison node, dihubungkan oleh cabang, bergerak ke
bawah dari root node sampai berakhir di leaf node. Pengembangan decision tree
dimulai dari root node, berdasarkan konvensi ditempatkan di bagian atas diagram decision tree, semua atribut dievaluasi pada decision node, dengan
tiap outcome yang mungkin menghasilkan cabang. Tiap cabang dapat masuk baik ke decision node yang lain ataupun ke leaf node. Yusuf,2007
Decision tree adalah metode diskrimasi nonlinear yang menggunakan
sekumpulan variabel independen untuk membagi sampel ke dalam kelompok– kelompok yang lebih kecil secara bertahap. Prosedur tersebut dilakukan secara
iterative di setiap cabang pohon, yakni memilih variabel independen yang
memiliki asosiasi terkuat dengan variabel dependen menurut kriteria tertentu. Persyaratan yang harus dipenuhi dalam penerapan algoritma decision
tree Yusuf,2007:
1. Algoritma decision tree merepresentasikan supervised learning sehingga membutuhkan target preclassified.
12
2. Training data set harus kaya dan bervariasi. 3. Kelas atribut target harus diskrit.
2.3.2 Jenis-Jenis
Decision Tree
Algoritma yang bisa digunakan untuk membangun tree antara lain CART, ID3 dan C4.5. Budi:2007,95
1. CART CLASSIFICATION AND REGRESSION TREES
CART merupakan metode partisi rekursif yang digunakan baik untuk regresi maupun klasifikasi. CART dibangun dengan
melakukan pemecahan subset-subset dari dataset menggunakan variabel prediktor untuk membuat dua child node secara berulang,
dimulai dari keseluruhan dataset. Tujuannya adalah menghasilkan subset data yang sehomogen mungkin untuk mengklasifikasikan
variabel target. Budi:2007,95 Pada permulaan proses, training set yang terdiri record yang
sudah diklasifikasi harus tersedia. Training set digunakan untuk membangun tree yang memungkinkan penempatan suatu kelas ke
dalam variabel target dari record baru yang didasarkan pada nilai- nilai variable yang lain atau variable independen.
CART membangun binary tree dengan memecah record pada tiap node berdasarkan fungsi variable input tunggal. Tugas
pertama yang dijalankan adalah menentukan variable independen yang menjadi splitter terbaik. Splitter terbaik adalah splitter yang
menurunkan keanekaragaman node. Node yang tidak dipecah lagi disebut leaf node.
13
Pemecahan record pada tiap node menyebabkan jumlah record
yang semakin kecil dari root node ke child node sampai ke leaf node.
Semakin sedikit jumlah record, semakin kurang representative node tersebut. Akibatnya adalah model tree hanya
dapat memprediksi secara akurat untuk record yang berada pada training set
, tetapi tidak dapat memprediksi record baru yang berasal dari luar training set secara akurat atauovertraining. Untuk
mengurangi overtraining, pemangkasan pohon atau pruning dapat dilakukan. Pruning menghasilkan beberapa kandidat subtree.
Beberapa kandidat
subtree dipilih
berdasarkan kemampuannya dalam memprediksi record baru. Pemilihan
tersebut membutuhkan set data bari yaitu set test set yang berisi record
baru yang berbeda dengan record yang ada pada training set
. Tiap kandidat subtree digunakan untuk memprediksi record yang ada dalam test set. Subtree yang memberikan error terkecil
terpilih sebagai model tree. Langkah terakhir adalah mengevaluasi subtree terpilih
dengan menerapkannya pada set data baru yaitu validation set. Nilai error yang diperoleh dari validation set digunakan untuk
memprediksi expected performance model prediksi.
2. ID3 dan C4.5 Algoritma ID3 atau
Iterative Dichotomiser 3 ID3
merupakan sebuah metode yang digunakan untuk membuat pohon keputusan. ID3 dikembangkan oleh J. Ross Quinlan. Algoritma
14
pada metode ini menggunakan konsep dari entropi informasi. Algoritma C4.5 merupakan pengembangan dari ID3. Oleh karena
pengembangan tersebut algoritma C4.5mempunyai prinsip dasar kerja yang sama dengan algoritma ID3.Budi,2007:103
Pohon dibangun dengan cara membagi data secara rekursif hingga tiap bagian terdiri dari data yang berasal dari kelas yang
sama. Bentuk pemecahan split yang digunakan untuk membagi data tergantung dari jenis atribut yang digunakan dalam split.
Algoritma C4.5 dapat menangani data numerik kontinyu dan diskret. Split untuk atribut numerik yaitu mengurutkan contoh
berdasarkan atribut kontiyu A, kemudian membentuk minimum permulaan threshold M dari contoh-contoh yang ada dari kelas
mayoritas pada
setiap partisi
yang bersebelahan,
lalu menggabungkan partisi-partisi yang bersebelahan tersebut dengan
kelas mayoritas yang sama. Split untuk atribut diskret A mempunyai bentuk value A ε X dimana X ⊂domainA.
Jika suatu set data mempunyai beberapa pengamatan dengan missing value
yaitu record dengan beberapa nilai variabel tidak ada, Jika jumlah pengamatan terbatas maka atribut dengan missing
value dapat diganti dengan nilai rata-rata dari variabel yang
bersangkutan. Untuk melakukan pemisahan obyek split dilakukan tes
terhadap atribut dengan mengukur tingkat ketidakmurnian pada sebuah simpul node. Pada algoritma C.45 menggunakan rasio
perolehan gain ratio. Sebelum menghitung rasio perolehan, perlu
15
menghitung dulu nilai informasi dalam satuan bits dari suatu kumpulan objek. Cara menghitungnya dilakukan dengan
menggunakan konsep entropi. E S = -p_log
2
p
+
- p_log
2
p_ S
adalah ruang data sampel yang digunakan untuk pelatihan, p+ adalah jumlah yang bersolusi positif atau mendukung pada data
sampel untuk kriteria tertentu dan p- adalah jumlah yang bersolusi negatif atau tidak mendukung pada data sampel untuk kriteria
tertentu. EntropiS sama dengan 0, jika semua contoh pada S berada dalam kelas yang sama. EntropiS sama dengan 1, jika
jumlah contoh positif dan negatif dalam S adalah sama. EntropiS lebih dari 0 tetapi kurang dari 1, jika jumlah contoh positif dan
negatif dalam S tidak sama. Entropi split yang membagi S dengan n record
menjadi himpunan-himpunan S1 dengan n1 baris dan S2 dengan n2 baris adalah :
1, 2 = 1 +
2 Kemudian menghitung perolehan informasi dari output data atau
variabel dependent y yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain y,A. Perolehan informasi, gain y,A,
dari atribut A relatif terhadap output data y adalah: Gain
y,A = entropy y – ∑ entropy
y
c
nilai A adalah semua nilai yang mungkin dari atribut A, dan yc adalah subset dari y dimana A mempunyai nilai c. Term pertama
dalam persamaan diatas adalah entropy total y dan term kedua
16
adalah entropy sesudah dilakukan pemisahan data berdasarkan atribut A.
Untuk menghitung rasio perolehan perlu diketahui suatu term baru yang disebut pemisahan informasi SplitInfo. Pemisahan informasi
dihitung dengan cara :
bahwa S1 sampai Sc adalah c subset yang dihasilkan dari pemecahan S dengan menggunakan atribut A yang mempunyai
sebanyak c nilai. Selanjutnya rasio perolehan gain ratio dihitung dengan cara :
GainRatio S,A =
, ,
2.4 Konsep Hukum Dalam Islam