seluruh atribut. Relevance analysis dalam bentuk correlation analysis dan attribute subset selection
dapat digunakan untuk mendeteksi atribut yang tidak atau kurang berkontribusi pada proses classification.
3. Data transformation dan reduction: normalisasi bertujuan untuk menskalakan semua nilai untuk atribut tertentu sehingga jatuh ke dalam rentang yang kecil
seperti -1.0 sampai 1.0 atau 0.0 sampai 1.0. Data juga dapat ditransformasikan dengan mengeneralisasikan ke dalam level konsep yang lebih tinggi. Hirarki
konsep dapat digunakan untuk tujuan ini. Hal ini juga dapat berguna untuk atribut dengan nilai continue. Contoh, atribut numerik untuk pendapatan dapat
digeneralisasikan kedalam nilai discrete seperti rendah, sendang, dan tinggi. Hal yang untuk atribut categorical seperti jalan dapat diganti dengan kota.
Karena generalisasi mereduksi data training asli, operasi inputoutput selama proses learning semakin sedikit. Data juga dapat direduksi dengan berbagai
metode lain seperti binning, atau clustering.
2.1.12 Classification dengan Decision treeinduction
Decision tree induction merupakan pembelajaran Decision tree dari training
set yang telah memiliki label kelas. Decision treeadalah suatu struktur pohon yang menyerupai flowchart, dimana setiap node internal node yang bukan daun
menyatakan suatu tes terhadap sebuah atribut, setiap cabang merepresentasikan hasil dari test, dan setiap node daun atau terminal node menyimpan label kelas.
Node paling atas pada tree adalah root node.
Gambar 2.10
Contoh Decision Tree Gambar 2.10 menunjukkan Decision tree untuk memprediksi apakah
konsumen akan membeli komputer atau tidak berdasarkan vector attributeage, student
, dan credit rating. Node internal dilambangkan dengan persegi, dan node daun dengan oval. Beberapa algoritma Decision tree hanya dapat menghasilkan
pohon binary setiap internal node hanya memiliki 2 cabang sedangkan beberapa algoritma lainnya dapat memproduksi pohon nonbinary.
Dengan decision tree, bila diberikan sebuah record X dimana class label belum diketahui, maka atribut dari record X dites terhadap decision tree. Tes
dilakukan hingga berakhir pada node daun yang menyimpan nilai prediksi class untuk record X.
Beberapa keunggulan dari Decision tree adalah: 1. Decision tree dapat menangani data dengan dimensi yang tinggi
2. Representasi dari pengetahuan yang didapat mudah untuk dipahami oleh manusia
3. Proses learning dan classification dari Decision tree sederhana dan cepat 4. Secara umum Decision tree classifier memilik akurasi yang baik.
Decision tree memiliki beberapa algoritma seperti ID3, C4.5, atau CART.
Kebanyakan algoritma untuk Decision treeinduction menggunakan pendekatan top-down, dimana proses dimulai dari record pada training set dan kelas labelnya.
Training set secara berulang akan dipartisi kedalam subset yang lebih kecil selama
tree dibangun.
Gambar 2.11
Dasar Algoritma Decision Tree Gambar 2.11 meringkas dasar dari algoritma decision tree. Proses
pembuatan tree dilakukan sebagai berikut:
1. Algoritma dipanggil dengan 3 parameter: D, attribute_list, dan
atrribute_selection_method . D merupakan partisi data. Awalanya D merupakan
keseluruhan record pada training set beserta kelas labelnya.Parameter attribute_list
merupakan list atribut yang mendeskripsikan record. Attribute_selection_method
menspesifikasikan prosedur heuristik yang digunakan untuk memilih attribut yang terbaik untuk mendiskriminasikan
record berdasarkan kelas. Prosedur ini menggunakan attribute selection measure
, seperti information gain ,gini index, atau minimum descriptor length MDL. Apakah tree harus binary atau tidak ditentukan oleh attribute selection
measure . Beberapa attribute selection measure, seperti gini index,
mengharuskan tree yang dihasilkan binary. 2. Tree dimulai dengan node tunggal, N, merepresentasikan record dalam training
set D langkah 1 3. Jika record dalam D semua berada dalam class yang sama, maka node N
menjadi daun dan diberi label dengan class tersebut langkah 2 dan 3. Langkah 4 dan 5 merupakan terminating conditions.
4. Jika record dalam D tidak semua berada dalam 1 kelas yang sama. A glortima memanggil attribute_selection_method untuk menentukan splitting criterion.
Splitting criterion merupakan atribut yang digunakan untuk tes pada node N
dengan menentukan cara terbaik untuk memisahkan atau mempartisi record dalam D ke kelas individual langkah 6. Splitting criterion juga menentukan
cabang mana yang harus dibuat dari node N sesuai dari hasil output dari tes. Splitting criterion
ditentukan sehingga, idealnya, partisi yang dihasilkan
semurni mungkin. Partisi disebut murni bila semua record yang berada di dalamnya berada dalam class yang sama.
5. Node N diberi label dengan splitting criterion, yang berfungsi sebagai tes pada node tersebut langkah 7. Cabang dibuat dari node N untuk setiap hasil dari
splitting criterion dan record D dipartisi sesuai dengan splitting tersebut
langkah 10-11. Gambar 2.12 menunjukkan 3 skenario yang mungkin.
Gambar 2.12
Skenario hasil splitting criterion Jika A merupakan spliiting attribute. A memiliki v nilai berbeda, {
, ,…,
}, berdasarkan training data:
• A merupakan nilai discrete categorical: Dalam kasus ini, keluaran dari test pada node N adalah nilai yang diketahui artibute A. Setiap cabang
dibuat untuk setiap nilai yang diketahui, , dari A dan diberi label dengan
nilai tersebut Gambar 2.12a. Partisi Dj adalah subset dari record yang
memiliki label class dalam D yang memiliki nilai dari A. Karena semua record dalam partisi yang dihasilkan memiliki nilai untuk A yang sama,
maka A tidak akan digunakan untuk dalam partisi yang akan datang. Karena itu, atribut A dikeluarkan dari attribute_list langkah 8 dan 9
• A merupakan nilai continue: Dalam kasus ini, tes pada node N dapat memiliki 2 keluaran yang mungkin yaitu konsidi A
≤ split_point dan A ≥ split_point
. Dimana split_point dikembalikan oleh attribute_selection_method
sebagai bagian dari splitting criterion. Dua cabang dibuat dari N dan diberi label gambar 2.12b. Record-record
dipartisi sehingga menampung subset dari record pada D dimana A
≤ split_point
, sedangkan menampung sisanya.
• A merupakan nilai discrete dan binary tree harus dibuat gambar 2.12c: Test pada node N dalam bentuk “A anggota
?”. merupakan splitting
subset dari A, yang dikembalikan oleh attribute_selection_method sebagai
bagian dari splitting criterion. merupakan subset dari nilai atribut A.
6. Algoritma menggunakan proses yang sama secara berulang untuk membentuk Decision tree
untuk record-record pada partisi yang dihasilkan, , dari D
7. Partisi berulang ini berhenti ketika memenuhi termintating condition: • Semua record pada partisi D direpresentasikan pada node N tergabung
dalam kelas yang sama langkah 2 dan 3 • Tidak ada atribut lagi dimana record-record dapat dipartisi lebih lanjut
langkah 4. Pada kasus seperti ini node N diubah menjadi daun dan diberi
label dengan nilai class yang paling banyak di D langkah 5. Alternatif lain distribusi class pada record di node tersebut dapat disimpan.
• Tidak ada record pada cabang yaitu ketika partisi kosong langkah 12. Pada kasus ini, daun dibuat dengan class yang paling banyak muncul di D
langkah 13 8. Hasil dari Decision tree dikembalikan langkah 15.
Han dan Kamber, 2006, pp291-296
2.1.13 Support Vector Machine SVM