Classification dengan Decision treeinduction

seluruh atribut. Relevance analysis dalam bentuk correlation analysis dan attribute subset selection dapat digunakan untuk mendeteksi atribut yang tidak atau kurang berkontribusi pada proses classification. 3. Data transformation dan reduction: normalisasi bertujuan untuk menskalakan semua nilai untuk atribut tertentu sehingga jatuh ke dalam rentang yang kecil seperti -1.0 sampai 1.0 atau 0.0 sampai 1.0. Data juga dapat ditransformasikan dengan mengeneralisasikan ke dalam level konsep yang lebih tinggi. Hirarki konsep dapat digunakan untuk tujuan ini. Hal ini juga dapat berguna untuk atribut dengan nilai continue. Contoh, atribut numerik untuk pendapatan dapat digeneralisasikan kedalam nilai discrete seperti rendah, sendang, dan tinggi. Hal yang untuk atribut categorical seperti jalan dapat diganti dengan kota. Karena generalisasi mereduksi data training asli, operasi inputoutput selama proses learning semakin sedikit. Data juga dapat direduksi dengan berbagai metode lain seperti binning, atau clustering.

2.1.12 Classification dengan Decision treeinduction

Decision tree induction merupakan pembelajaran Decision tree dari training set yang telah memiliki label kelas. Decision treeadalah suatu struktur pohon yang menyerupai flowchart, dimana setiap node internal node yang bukan daun menyatakan suatu tes terhadap sebuah atribut, setiap cabang merepresentasikan hasil dari test, dan setiap node daun atau terminal node menyimpan label kelas. Node paling atas pada tree adalah root node. Gambar 2.10 Contoh Decision Tree Gambar 2.10 menunjukkan Decision tree untuk memprediksi apakah konsumen akan membeli komputer atau tidak berdasarkan vector attributeage, student , dan credit rating. Node internal dilambangkan dengan persegi, dan node daun dengan oval. Beberapa algoritma Decision tree hanya dapat menghasilkan pohon binary setiap internal node hanya memiliki 2 cabang sedangkan beberapa algoritma lainnya dapat memproduksi pohon nonbinary. Dengan decision tree, bila diberikan sebuah record X dimana class label belum diketahui, maka atribut dari record X dites terhadap decision tree. Tes dilakukan hingga berakhir pada node daun yang menyimpan nilai prediksi class untuk record X. Beberapa keunggulan dari Decision tree adalah: 1. Decision tree dapat menangani data dengan dimensi yang tinggi 2. Representasi dari pengetahuan yang didapat mudah untuk dipahami oleh manusia 3. Proses learning dan classification dari Decision tree sederhana dan cepat 4. Secara umum Decision tree classifier memilik akurasi yang baik. Decision tree memiliki beberapa algoritma seperti ID3, C4.5, atau CART. Kebanyakan algoritma untuk Decision treeinduction menggunakan pendekatan top-down, dimana proses dimulai dari record pada training set dan kelas labelnya. Training set secara berulang akan dipartisi kedalam subset yang lebih kecil selama tree dibangun. Gambar 2.11 Dasar Algoritma Decision Tree Gambar 2.11 meringkas dasar dari algoritma decision tree. Proses pembuatan tree dilakukan sebagai berikut: 1. Algoritma dipanggil dengan 3 parameter: D, attribute_list, dan atrribute_selection_method . D merupakan partisi data. Awalanya D merupakan keseluruhan record pada training set beserta kelas labelnya.Parameter attribute_list merupakan list atribut yang mendeskripsikan record. Attribute_selection_method menspesifikasikan prosedur heuristik yang digunakan untuk memilih attribut yang terbaik untuk mendiskriminasikan record berdasarkan kelas. Prosedur ini menggunakan attribute selection measure , seperti information gain ,gini index, atau minimum descriptor length MDL. Apakah tree harus binary atau tidak ditentukan oleh attribute selection measure . Beberapa attribute selection measure, seperti gini index, mengharuskan tree yang dihasilkan binary. 2. Tree dimulai dengan node tunggal, N, merepresentasikan record dalam training set D langkah 1 3. Jika record dalam D semua berada dalam class yang sama, maka node N menjadi daun dan diberi label dengan class tersebut langkah 2 dan 3. Langkah 4 dan 5 merupakan terminating conditions. 4. Jika record dalam D tidak semua berada dalam 1 kelas yang sama. A glortima memanggil attribute_selection_method untuk menentukan splitting criterion. Splitting criterion merupakan atribut yang digunakan untuk tes pada node N dengan menentukan cara terbaik untuk memisahkan atau mempartisi record dalam D ke kelas individual langkah 6. Splitting criterion juga menentukan cabang mana yang harus dibuat dari node N sesuai dari hasil output dari tes. Splitting criterion ditentukan sehingga, idealnya, partisi yang dihasilkan semurni mungkin. Partisi disebut murni bila semua record yang berada di dalamnya berada dalam class yang sama. 5. Node N diberi label dengan splitting criterion, yang berfungsi sebagai tes pada node tersebut langkah 7. Cabang dibuat dari node N untuk setiap hasil dari splitting criterion dan record D dipartisi sesuai dengan splitting tersebut langkah 10-11. Gambar 2.12 menunjukkan 3 skenario yang mungkin. Gambar 2.12 Skenario hasil splitting criterion Jika A merupakan spliiting attribute. A memiliki v nilai berbeda, { , ,…, }, berdasarkan training data: • A merupakan nilai discrete categorical: Dalam kasus ini, keluaran dari test pada node N adalah nilai yang diketahui artibute A. Setiap cabang dibuat untuk setiap nilai yang diketahui, , dari A dan diberi label dengan nilai tersebut Gambar 2.12a. Partisi Dj adalah subset dari record yang memiliki label class dalam D yang memiliki nilai dari A. Karena semua record dalam partisi yang dihasilkan memiliki nilai untuk A yang sama, maka A tidak akan digunakan untuk dalam partisi yang akan datang. Karena itu, atribut A dikeluarkan dari attribute_list langkah 8 dan 9 • A merupakan nilai continue: Dalam kasus ini, tes pada node N dapat memiliki 2 keluaran yang mungkin yaitu konsidi A ≤ split_point dan A ≥ split_point . Dimana split_point dikembalikan oleh attribute_selection_method sebagai bagian dari splitting criterion. Dua cabang dibuat dari N dan diberi label gambar 2.12b. Record-record dipartisi sehingga menampung subset dari record pada D dimana A ≤ split_point , sedangkan menampung sisanya. • A merupakan nilai discrete dan binary tree harus dibuat gambar 2.12c: Test pada node N dalam bentuk “A anggota ?”. merupakan splitting subset dari A, yang dikembalikan oleh attribute_selection_method sebagai bagian dari splitting criterion. merupakan subset dari nilai atribut A. 6. Algoritma menggunakan proses yang sama secara berulang untuk membentuk Decision tree untuk record-record pada partisi yang dihasilkan, , dari D 7. Partisi berulang ini berhenti ketika memenuhi termintating condition: • Semua record pada partisi D direpresentasikan pada node N tergabung dalam kelas yang sama langkah 2 dan 3 • Tidak ada atribut lagi dimana record-record dapat dipartisi lebih lanjut langkah 4. Pada kasus seperti ini node N diubah menjadi daun dan diberi label dengan nilai class yang paling banyak di D langkah 5. Alternatif lain distribusi class pada record di node tersebut dapat disimpan. • Tidak ada record pada cabang yaitu ketika partisi kosong langkah 12. Pada kasus ini, daun dibuat dengan class yang paling banyak muncul di D langkah 13 8. Hasil dari Decision tree dikembalikan langkah 15. Han dan Kamber, 2006, pp291-296

2.1.13 Support Vector Machine SVM