Decision Tree Prof. Dr. Tulus 4. Dr. Erna Budhiarti Nababan, M.IT

5. Fase Evaluasi Evaluation Phase a. Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitas dan efektivitas sebelum disebarkan untuk digunakan. b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal. c. Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik. d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining. 6. Fase Penyebaran Deployment Phase a. Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya proyek. b. Contoh sederhana penyebaran: Pembuatan laporan. c. Contoh kompleks Penyebaran: Penerapan proses data mining secara paralel pada departemen lain. Informasi lebih lanjut mengenai CRISP-DM dapat dilihat di www.crisp-dm.org

2.3. Decision Tree

Decision tree merupakan salah satu metode klasifikasi yang menggunakan representasi struktur pohon tree di mana setiap node merepresentasikan atribut, dimana cabangnya merepresentasikan nilai dari atribut, dan daun merepresentasikan kelas. Node yang paling atas dari decision tree disebut sebagai root. Decision tree merupakan metode klasifikasi yang paling populer digunakan. Selain karena pembangunannya relatif cepat, hasil dari model yang dibangun mudah untuk dipahami. Pada decision tree terdapat 3 jenis node, yaitu: a. Root Node, merupakan node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu. b. Internal Node, merupakan node percabangan, pada node ini hanya terdapat satu input dan mempunyai output minimal dua. Universitas Sumatera Utara c. Leaf node atau terminal node, merupakan node akhir, pada node ini hanya terdapat satu input dan tidak mempunyai output. Menghasilkan Pohon Keputusan untuk klasifikasi dari kedua data nominal dan numerik. Sebuah pohon keputusan adalah seperti grafik atau model. Hal ini lebih seperti pohon terbalik karena memiliki akarnya di atas dan tumbuh ke bawah. Ini representasi dari data memiliki keuntungan dibandingkan dengan pendekatan lain menjadi bermakna dan mudah untuk menafsirkan. Tujuannya adalah untuk menciptakan sebuah model klasifikasi yang memprediksi nilai dari atribut target sering disebut kelas atau label berdasarkan beberapa atribut masukan dari ExampleSet. Dalam RapidMiner atribut dengan peran label diprediksi oleh operator Pohon Keputusan. Setiap node interior pohon sesuai dengan salah satu atribut masukan. Jumlah tepi interior simpul nominal sama dengan jumlah nilai yang mungkin dari atribut input yang sesuai. Tepi luar dari atribut numerik diberi label dengan rentang disjoint. Setiap node daun mewakili nilai atribut label yang diberikan nilai-nilai input atribut diwakili oleh jalan dari akar ke daun. Deskripsi ini dapat dengan mudah dipahami dengan mempelajari terpasang Contoh Proses. Pohon Keputusan yang dihasilkan oleh partisi rekursif. Partisi Rekursif berarti berulang kali membelah pada nilai-nilai atribut. Dalam setiap rekursi algoritma mengikuti langkah-langkah berikut: − Sebuah atribut A dipilih untuk membagi. Membuat pilihan yang baik atribut untuk membagi pada setiap tahap sangat penting untuk generasi pohon yang berguna. Atribut dipilih tergantung pada kriteria seleksi yang dapat dipilih oleh parameter kriteria. − Contoh di ExampleSet diurutkan ke dalam subset, satu untuk setiap nilai atribut A dalam kasus atribut nominal. Dalam kasus atribut numerik, subset dibentuk untuk rentang menguraikan nilai atribut. − Sebuah pohon dikembalikan dengan satu tepi atau cabang untuk masing- masing bagian. Setiap cabang memiliki keturunan subtree atau nilai label yang diproduksi dengan menerapkan algoritma yang sama secara rekursif. Universitas Sumatera Utara Secara umum, rekursi berhenti ketika semua contoh atau contoh memiliki nilai label yang sama. Contohnya: subset murni. Atau rekursi mungkin berhenti jika sebagian besar contoh adalah nilai label yang sama. Ini adalah generalisasi dari pendekatan pertama; dengan beberapa ambang kesalahan. Namun ada kondisi halting lain seperti : − Kurang dari jumlah tertentu dari kasus atau contoh dalam subtree saat ini. − Tidak ada atribut mencapai batas tertentu. Hal ini dapat disesuaikan menggunakan parameter perolehan minimum. − Kedalaman maksimal tercapai. Hal ini dapat disesuaikan menggunakan parameter kedalaman maksimal. Pemangkasan adalah teknik di mana node daun yang tidak menambah kekuatan diskriminatif dari pohon keputusan dikeluarkan. Hal ini dilakukan untuk mengubah sebuah pohon lebih spesifik atau lebih pas untuk bentuk yang lebih umum dalam rangka meningkatkan daya prediksi pada dataset yang tak terlihat. Pra-Pemangkasan adalah jenis pemangkasan paralel dilakukan untuk proses pembuatan pohon. Pasca-pemangkasan, di sisi lain, dilakukan setelah proses pembuatan pohon selesai. Sebuah pohon keputusan adalah keputusan dukungan alat yang menggunakan grafik seperti pohon atau model keputusan dan konsekuensi yang mungkin mereka, termasuk hasil kebetulan acara, biaya sumber daya, dan utilitas. Ini adalah salah satu cara untuk menampilkan sebuah algoritma. Pohon keputusan biasanya digunakan dalam riset operasi, khususnya dalam analisis keputusan, untuk membantu mengidentifikasi strategi yang paling mungkin untuk mencapai tujuan. Sebuah pohon keputusan adalah struktur flowchart seperti di mana simpul internal merupakan tes pada atribut, setiap cabang merupakan hasil pengujian dan setiap simpul daun mewakili label kelas keputusan yang diambil setelah komputasi semua atribut. Sebuah jalan dari akar ke daun merupakan aturan klasifikasi. Dalam analisis keputusan pohon keputusan dan diagram pengaruh terkait erat digunakan sebagai alat pendukung keputusan visual dan analitis, di mana nilai-nilai yang diharapkan atau utilitas yang diharapkan alternatif bersaing Universitas Sumatera Utara dihitung. Pohon keputusan biasanya digunakan dalam riset operasi, khususnya dalam analisis keputusan, untuk membantu mengidentifikasi strategi yang paling mungkin untuk mencapai tujuan. Jika dalam prakteknya keputusan harus diambil secara online tanpa ingat dalam pengetahuan yang tidak lengkap, pohon keputusan harus disejajarkan dengan model probabilitas sebagai model pilihan terbaik atau algoritma pemilihan model online. Penggunaan lain dari pohon keputusan adalah sebagai sarana deskriptif untuk menghitung probabilitas bersyarat. Pohon keputusan, diagram pengaruh, fungsi utilitas, dan alat-alat analisis keputusan lainnya dan metode yang diajarkan kepada mahasiswa di sekolah- sekolah bisnis, ekonomi kesehatan, dan kesehatan masyarakat, dan merupakan contoh operasi metode penelitian atau ilmu manajemen.

2.4. Random Tree