Dari hasil pada Tabel 2.4 dapat diketahui bahwa atribut dengan Gain tertinggi adalah angin yaitu sebesar 1. Dengan demikian angin dapat menjadi node cabang dari
nilai atribut hujan. Ada 2 nilai atribut dari angin yaitu Tidak dan Ya. Dari kedua nilai atribut tersebut, nilai atribut Tidak sudah mengklasifikasikan kasus menjadi 1 yaitu
keputusannya Ya dan nilai atribut Ya sudah mengklasifikasikan kasus menjadi satu dengan keputusan Tidak, sehingga tidak perlu dilakukan perhitungan lebih lanjut
untuk nilai atribut ini. Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada Gambar 2.6
Gambar 2.6 Pohon Keputusan Hasil Perhitungan Node 1.1.2
Dengan memperhatikan pohon keputusan pada Gambar 2.6 diketahui bahwa semua kasus sudah masuk dalam kelas. Dengan demikian, pohon keputusan pada
Gambar 2.6 merupakan pohon keputusan terakhir yang terbentuk.
2.6 Ekstraksi Rule dari Decision Tree
Pengetahuan yang diperoleh dari decision tree dapat direpresentasikan dalam bentuk klasifikasi IF-THEN rules. Nilai suatu atribut akan menjadi bagian anticendent
bagian IF, sedang daun leaf dari sebuah decision tree akan menjadi bagian
Ya Tidak
Tidak Ya
1.
Kelemba
ban
Ya 1.1
Cuaca
Normal Tinggi
Tidak 1.1.2
Angin Ya
Cerah Hujan
Mendung
Universitas Sumatera Utara
consequent THEN. Aturan seperti ini akan menjadi sangat membantu manusia dalam memahami model klasifikasi terutama jika ukuran decision tree terlalu besar.
2.7 Riset-Riset Terkait
Terdapat beberapa riset yang telah dilakukan oleh banyak peneliti berkaitan dengan seperti yang akan dijelaskan di bawah ini:
Kotsiantis 2009 dalam risetnya mengatakan bahwa mahasiswa drop out terjadi cukup sering yang menyelenggarakan pendidikan jarak jauh dan tingkat putus
sekolah lebih tinggi dibandingkan pendidikan konvensional. Membatasi mahasiswa drop out sangat penting dalam pembelajaran jarak jauh dan oleh karena itu
kemampuan untuk memprediksi drop out mahasiswa sangat bermanfaat dengan sejumlah cara yang berbeda. Menggunakan studi eksperimental metodologi yang
diusulkan local cost sensitive tevhnique. Percobaan berlangsung dalam dua tahap yang berbeda. Tahap pertama fase pelatihan algoritma dilatih dengan menggunakan data
yang dikumpulkan dari tahun ajaran sebelumnya. Atribut yang dikumpulkan antara lain gender, age, marital status, number of children, occupation, computer literacy,
job associated with computers, face to face meeting, written assignment. Selanjutnya tutor mengumpulkan sepuluh kelompok data dari tahun ajaran baru. Masing masing
dari sepuluh kelompok digunakan untuk mengukur prediksi akurasi dalam kelompok ini fase pengujian
Kumar dan Vijayalakshmi 2011 dalam risetnya mempelajari data pendidikan dengan metode klasifikasi seperti decision tree untuk memprediksi perilaku siswa dan
kinerja dalam hasil ujian akhir, hasil prediksi akan membantu tutor untuk mengidentifikasi siswa yang lemah dan membantu siswa untuk nilai skor yang lebih
baik. Algoritma decision tree 4.5 diterapkan pada data penilaian internal siswa untuk memprediksi siswa dalam performance ujian akhir. Hasil dari pohon keputusan
memprediksi jumlah siswa yang cenderung gagal atau lulus. Hasilnya diberikan kepada tutor dan mengambil langkah-langkah untuk meningkatkan performance siswa
yang diprediksi akan gagal. Hasil analisis menyatakan bahwa pembuatan prediksi telah membantu siswa yang lebih lemah untuk membawa perbaikan dan meningkatkan
keberhasilannya. Sunjana 2010a hasil risetnya mengenai teknik klasifikasi menggunakan
decision tree yaitu algoritma C 4.5. Teknik klasifikasi yang diterapkan untuk
Universitas Sumatera Utara
menemukan pola yang terjadi pada data mata kuliah mahasiswa. Penerapan algoritma C 4.5 untuk melihat apakah IPK seorang mahasiswa dapat diperkirakan berdasarkan
nilai beberapa mata kuliah yang dianggap paling signifikan dalam menentukan IPK seorang mahasiswa. Matakuliah yang diambil merupakan matakuliah yang wajib
diambil oleh setiap mahasiswa di setiap semesternya dan yang saling berhubungan satu dengan yang lainnya atau matakuliah prasyarat. Hasil uji yang diperoleh
didapatkan prosentase error rate dari data training pada matakuliah. Semakin besar prosentase nilai error rate yang dihasilkan pada data testing, maka rule yang
dihasilkan pun tidak baik. Begitu juga sebaliknya. Sunjana 2010b menjelaskan dalam risetnya tentang klasifikasi data nasabah
sebuah asuransi menggunakan algoritma C 4.5. Dengan algoritma tersebut dapat diketahui data nasabah mana yang dikelompokkan ke kelas lancar dan data nasabah
mana yang dikelompokkan kekelas tidak lancar. Kemudian pola tersebut dapat digunakan untuk memperkirakan nasabah yang bergabung, sehingga perusahaan bisa
mengambil keputusan menerima atau menolak calon nasabah tersebut. Atribut yang digunakan dalam penelitian adalah penghasilan, premi dasar, cara pembayaran, mata
uang dan status sedang. Label yang digunakan untuk pengklasifikasian adalah lancar dan tidak lancar
Quadri dan Kalyankar 2010 juga menjelaskan tentang performance akademik mahasiswa sangat penting untuk lembaga pendidikan dan membuat rencana program
strategis yang dapat direncanakan dalam meningkatkan atau mempertahankan performance siswa selama periode mereka mengikuti pelajaran di perguruan tinggi
tersebut. performance siswa diukur dengan rata-rata IPK setelah lulus. Penelitian ini menyajikan data mining dalam memprediksi siswa drop out. Menggunakan teknik
decision tree untuk memilih analisis dan prediksi yang terbaik. Daftar mahasiswa yang sudah diprediksi kemungkinan untuk drop out dengan data mining diserahkan
kepada guru dan manajemen untuk intervensi langsung atau tidak langsung. Analisis komponen menggabungkan sejumlah metode machine learning secara otomatis
menganalisis data dalam log database. Menggunakan metode decision tree yang bertujuan untuk mengkarakterisasi motivasi siswa.
Al-Radaideh et al. 2006 menjelaskan dalam risetnya tentang performance
siswa menjadi perhatian besar terhadap pendidikan tinggi dimana ada beberapa faktor yang dapat mempengaruhi performance siswa. Dengan menggunakan proses data
Universitas Sumatera Utara
mining khususnya klasifikasi untuk membantu dalam meningkatkan kualitas sistem pendidikan tinggi dengan mengevaluasi data siswa, mempelajari atribut utama yang
dapat mempengaruhi performance siswa dalam program pendidikan. Tiga metode klasifikasi algoritma yang berbeda diuji ID3, C 4.5 dan Naïve Bayes. Proses generasi
didasarkan pada decision tree sebagai metode klasifikasi dimana rule yang dihasilkan dipelajari dan dievaluasi. Rule dibangun yang memungkinkan siswa untuk
memprediksi nilai akhir dalam suatu program studi yang diteliti. Pengetahuan yang didapat digunakan untuk memberikaan pola pemahaman pendaftaran siswa diteliti,
tindakan untuk memberikan kelas keterampilan kursus dasar tambahan, konseling akademis.
Adeyemo dan Kuye 2006 menjelaskan dalam risetnya, menyajikan evaluasi faktor-faktor yang berkontribusi terhadap performance akademik siswa di perguruan
tinggi. Variable kualifikasi untuk masuk dan tipe penerimaan mahasiswa dan bagaimana faktor-faktor yang mempengaruhi performance akademik siswa. Evaluasi
dilakukan menggunakan perangkat lunak komputer yang mengimplementasikan algoritma decision tree.
2.8. Persamaan dengan riset-riset lain