Proses Klasifikasi Menggunakan Decision Tree C4.5

56

D. Proses Klasifikasi Menggunakan Decision Tree C4.5

Setelah data ditransformasi, maka data siap diproses menggunakan metode decision tree pohon keputusan. Langkah-langkah pembentukan pohon keputusan menggunakan algoritma C4.5 sebagai berikut: 1. Tahap pertama adalah menentukan simpul akar yang dilakukan dengan menghitung total kasus untuk kelas KL1, KL2, KL3, dan KL4 serta gain ratio pada setiap atribut. Proses ini dilakukan sama pada setiap nilai atribut pekerjaan, umur, pekerjaan suamiistri, pendapaan keluarga, pengeluaran keluarga, pinjaman, kemampuan angsuran, jangka waktu, status agunan, tujuan, nilai jaminan. Hasil dari perhitungan dapat dilihat pada Tabel 3.15. Berdasarkan Persamaan 2.1 nilai untuk kolom info pada Tabel 3.15 diperoleh dari: � = − − − − = , 57 Tabel 3.15 Proses Pembentukan Simpul Akar KASUS TOTAL KL1 KL2 KL3 KL4 INFO ENTROPY GAIN SPLIT INFO GAIN RATIO 979 668 91 159 61 1.37025 PEKERJAAN 1.33910 0.03116 2.14664 0.01452 PK1 326 227 33 51 15 PK2 61 40 7 12 2 PK3 311 194 27 59 31 PK4 202 139 18 32 13 PK5 42 32 5 5 PK6 37 36 1 UMUR 1.36305 0.00720 2.15745 0.00334 U1 107 65 11 22 9 U2 287 201 21 50 15 U3 313 219 33 43 18 U4 186 120 19 32 15 U5 86 63 7 12 4 PEKERJAAN SUAMIISTRI 1.35385 0.01640 2.23864 0.00733 PS1 275 193 27 47 8 PS2 40 29 4 6 1 PS3 336 215 39 51 31 PS4 163 112 10 29 12 PS5 45 35 4 4 2 PS6 120 84 7 22 7 58 KASUS TOTAL KL1 KL2 KL3 KL4 INFO ENTROPY GAIN SPLIT INFO GAIN RATIO PENDAPATAN KELUARGA 1.34080 0.02946 2.06842 0.01424 D1 9 4 1 3 1 D2 412 255 39 85 33 D3 264 179 25 39 21 D4 107 86 7 11 3 D5 54 39 4 10 1 D6 133 105 15 11 2 PENGELUARAN KELUARGA 1.35420 0.01605 1.69681 0.00946 K1 388 246 40 68 34 K2 407 284 32 69 22 K3 91 64 8 15 4 K4 93 74 11 7 1 PINJAMAN 1.31406 0.05620 2.18116 0.02576 PJ1 229 124 19 61 25 PJ2 265 174 26 47 18 PJ3 158 107 14 23 14 PJ4 59 46 3 8 2 PJ5 268 217 29 20 2 KEMAMPUAN ANGSURAN 1.31982 0.05044 1.55174 0.03250 KA1 253 165 33 49 6 KA2 422 331 29 50 12 KA3 304 172 29 60 43 59 KASUS TOTAL KL1 KL2 KL3 KL4 INFO ENTROPY GAIN SPLIT INFO GAIN RATIO JANGKA WAKTU 1.33619 0.03406 1.34608 0.02530 J1 310 183 28 63 36 J2 557 395 48 90 24 J3 112 90 15 6 1 AGUNAN 1.30049 0.06977 1.57666 0.04425 A1 339 250 35 40 14 A2 279 220 33 22 4 A3 361 198 23 97 43 STATUS AGUNAN 1.36182 0.00844 0.49469 0.01706 SA1 873 601 71 144 57 SA2 106 67 20 15 4 NILAI JAMINAN 1.35466 0.01560 2.19976 0.00709 N1 186 121 23 32 10 N2 266 172 26 49 19 N3 158 102 9 31 16 N4 77 59 4 9 5 N5 292 214 29 38 11 TUJUAN 1.36875 0.00151 0.98323 0.00153 T1 564 378 57 96 33 T2 415 290 34 63 28 60 Sementara itu, berdasarkan persamaan 2.2, nilai entropy untuk atribut pekerjaan pada Tabel 3.15 diperoleh dari: � �� = × − − − − + × − − − − + × − − − − + × − − − − + × − − − + × − − = , Berdasarkan Persamaan 2.3, nilai information gain untuk atribut pekerjaan pada Tabel 3.15 diperoleh dari: �� �� = � − � �� = , − , = , Berdasarkan persamaan 2.4, nilai split information untuk atribut pekerjaan pada Tabel 3.15 diperoleh dari: 61 �� = − log − log − log − log − log − log = , Berdasarkan persamaan 2.5, nilai gain ratio untuk atribut pekerjaan pada Tabel 3.15 diperoleh dari: �� � �� = �� �� �� = , , = , Berdasarkan Tabel 3.15 dapat diketahui bahwa atribut dengan gain ratio tertinggi adalah atribut agunan yaitu sebesar 0,04425, dengan demikian atribut agunan menjadi simpul akar pada pohon keputusan. Ada tiga nilai atribut dari agunan yaitu A1, A2, dan A3. Dari ketiga nilai atribut tersebut belum mengklasifikasikan kasus menjadi satu atau belum menunjukkan sebuah keputusan akhir, sehingga perlu dilakukan perhitungan nilai gain ratio kembali dari setiap atribut dengan penghapusan simpul agunan. Sebagai contoh, akan dicari simpul internal dari percabngan nilai A3 yaitu simpul internal 1,1. Hasil pohon keputusan sementara ditunjukkan pada Gambar 3.1. 62 Gambar 3.1 Pohon Keputusan Sementara Perhitungan Simpul Akar 2. Menentukan simpul internal 1.1 dengan menghitung total kasus untuk kategori kelas KL1, KL2, KL3, KL4 pada simpul internal 1.1 dan menghitung gain ratio pada setiap atribut. Proses perhitungan tersebut sama untuk semua atribut. Atribut yang sudah menjadi akar dihapus dari daftar atribut. Hasil perhitungan secara lengkap dapat dilihat pada lampiran 3. Berdasarkan perhitungan pada lampiran 3 besar gain ratio pada setiap atribut dapat dilihat pada Tabel 3.16. Tabel 3.16 Nilai Gain Ratio pada Pembentukan Simpul Internal 1.1 Nama Atribut Gain Ratio Pekerjaan 0,03603 Umur 0,01145 Pekerjaan suamiistri 0,01045 Pendapatan keluarga 0,02015 Pengeluaran keluarga 0,01871 Pinjaman 0,02471 Kemampuan angsuran 0,07708 Jangka waktu 0,03116 Status agunan 0,01793 Nilai jaminan 0,00692 Tujuan 0,00333 Agunan 1.2? A2 A1 1.1? 1.3? A3 63 Berdasarkan Tabel 3.16 atribut yang mempunyai nilai gain ratio tertinggi adalah kemampuan angsuran yaitu sebesar 0,07708, oleh karena itu atribut kemampuan angsuran dijadikan sebagai simpul internal 1.1. Ada tiga nilai atribut dari kemampuan angsuran, yaitu KA1, KA2, KA3. Dari ketiga nilai tersebut belum menunjukkan keputusan akhir, sehingga dilakukan perhitungan nilai gain ratio kembali dari setiap atribut dengan penghapusan atribut kemampuan angsuran. Sebagai contoh, akan dicari simpul internal dari percabangan nilai KA1 yaitu simpul internal 2.2. Hasil pohon keputusan sementara ditunjukkan pada Gambar 3.2. Gambar 3.2 Pohon Keputusan Sementara Perhitungan Simpul Internal 1.1 3. Menentukan simpul internal 2.2 dengan menghitung total kasus untuk kategori kelas KL1, KL2, KL3, KL4 dan gain ratio pada simpul internal 2.2. Proses perhitungan dilakukan sama pada setiap nilai atribut. Atribut kemampuan angsuran yang sudah menjadi simpul internal dihapus. Hasil perhitungan dapat dilihat pada lampiran 4. 2.3? Agunan 1.2? A2 A1 Kemampuan angsuran 1.3? 2.1? 2.2? KA2 KA1 KA1 A3 64 Berdasarkan perhitungan pada lampiran 4 besar gain ratio pada setiap atribut dapat dilihat pada Tabel 3.17. Tabel 3.17 Nilai Gain Ratio pada Pembentukan Simpul Internal 2.2 Nama Atribut Gain Ratio Pekerjaan 0,03950 Umur 0,07365 Pekerjaan suamiistri 0,05274 Pendapatan keluarga 0,12970 Pengeluaran keluarga 0,10969 Pinjaman 0,04983 Jangka waktu 0,02921 Nilai jaminan 0,07321 Tujuan 0,01334 Berdasarkan Tabel 3.17 atribut yang mempunyai nilai gain ratio tertinggi adalah pendapatan keluarga yaitu sebesar 0,12970, oleh karena itu atribut pendapatan keluarga dijadikan sebagai simpul internal 2.2. Ada enam nilai atribut pada pendapatan keluarga, yaitu D1, D2, D3, D4, D5, D6. Dari keenam nilai tersebut tidak terdapat nilai yang memiliki keputusan akhir, sehingga dilakukan perhitungan nilai gain ratio kembali dari setiap atribut dengan penghapusan atribut pendapatan keluarga. Sebagai contoh, akan dicari simpul internal dari percabngan nilai D3 yaitu simpul internal 3.3. Hasil pohon keputusan sementara yang terbentuk ditunjukkan pada Gambar 3.3. 65 Gambar 3.3 Pohon Keputusan Sementara Perhitungan Simpul Internal 2.2 4. Menghitung total kasus untuk kategori kelas akhir KL1, KL2, KL3, KL4 pada simpul internal 3.3 dan menghitung nilai gain ratio pada setiap atribut. Proses tersebut dilakukan sama pada setiap nilai atribut. Sementara itu atribut pendapatan keluarga dihapus dari daftar atribut. Hasil perhitungan dapat dilihat pada lampiran 5. Berdasarkan perhitungan pada lampiran 5 besar gain ratio pada setiap atribut dapat dilihat pada Tabel 3.18. 3.1? 3.2? 3.3? 3.4? 3.5? 3.6? 2.3? Agunan 1.2? A2 A1 Kemampuan angsuran 1.3? 2.1? Pendapatan keluarga KA2 KA1 KA3 A3 D1 D2 D3 D4 D5 D6 66 Tabel 3.18 Nilai Gain Ratio pada Pembentukan Simpul Internal 3.3 Nama Atribut Gain Ratio Pekerjaan 0,09200 Umur 0,13840 Pekerjaan suamiistri 0,12065 Pengeluaran keluarga 0,16041 Pinjaman 0,27341 Jangka waktu 0,12215 Nilai jaminan 0,17596 Tujuan 0,05895 Berdasarkan Tabel 3.18 atribut yang mempunyai nilai gain ratio tertinggi adalah pinjaman yaitu sebesar 0,27341, sehingga atribut pinjaman dijadikan sebagai simpul internal 3.3. Pada atribut pinjaman, terdapat satu nilai atribut yang telah memiliki keputusan akhir yaitu nilai PJ3 dengan kategori kelas KL3. Masih terdapat tiga nilai lainnya yang belum memiliki keputusan akhir sehingga perlu dilakukan perhitungan nilai gain ratio kembali dari setiap atribut dengan penghapusan atribut pinjaman. Hasil pohon keputusan sementara yang terbentuk ditunjukkan oleh Gambar 3.4 67 Gambar 3.4 Pohon Keputusan Sementara Perhitungan Simpul Internal 3.3 Proses pembentukan pohon pada Gambar 3.4 bukan akhir dari pembentukan pohon keputusan pada kasus ini. Perhitungan yang terdapat pada keempat langkah di atas merupakan contoh perhitungan pada salah satu simpul internal. Pembentukan pohon keputusan akan dilanjutkan dengan menggunakan bantuan software WEKA karena jumlah dataset yang banyak sehingga apabila dihitung manual akan panjang dan membutuhkan waktu yang lama. Setelah menggunakan 3.1? 3.2? Pinjaman 3.4? 3.5? 3.6? 2.3? Agunan 1.2? A2 A1 Kemampuan angsuran 1.3? 2.1? Pendapatan keluarga KA2 KA1 KA3 A3 D1 D2 D3 D4 D5 D6 4.1? 4.2? PJ1 PJ2 PJ3 PJ5 KL2 4.3? 68 bantuan software WEKA akan didapatkan pohon keputusan yang lengkap sebagai hasil akhir. Pembentukan pohon keputusan menggunakan WEKA dimulai dengan menyiapkan data yang telah mengalami preprocessing dengan format file comma separated value csv. Selanjutnya dilakukan classifier dengan trees J48. Algoritma C4.5 di dalam WEKA direpresentasikan oleh trees J48, sehingga dipilih algoritma tersebut. Ilustrasi klasifikasi menggunakan WEKA ditunjukkan oleh Gambar 3.5. Gambar 3.5 Decision tree C4.5 menggunakan WEKA Visualisasi output WEKA menggunakan teknik klasifikasi decision tree C4.5 yang diimplementasikan oleh trees J48 dengan jumlah data 979 ditunjukkan pada Gambar 3.6. Berdasarkan Gambar 3.6 dapat diketahui bahwa model terbentuk dalam waktu 0,27 detik dengan ukuran pohon 53 dan memiliki 41 aturan keputusan. 69 === Classifier model full training set === J48 pruned tree ------------------ Agunan = A1: KL1 339.089.0 Agunan = A2: KL1 279.059.0 Agunan = A3 | Kemampuan Angsuran = KA1 | | Pendapatan Keluarga = D2 | | | Nilai Jaminan = N5: KL3 6.01.0 | | | Nilai Jaminan = N3 | | | | Pengeluaran Keluarga = K2: KL1 2.0 | | | | Pengeluaran Keluarga = K3: KL3 0.0 | | | | Pengeluaran Keluarga = K1: KL3 3.0 | | | | Pengeluaran Keluarga = K4: KL3 0.0 | | | Nilai Jaminan = N1 | | | | Pengeluaran Keluarga = K2: KL3 5.01.0 | | | | Pengeluaran Keluarga = K3: KL3 0.0 | | | | Pengeluaran Keluarga = K1 | | | | | Pekerjaan = PK1: KL2 4.02.0 | | | | | Pekerjaan = PK2: KL1 0.0 | | | | | Pekerjaan = PK3: KL1 8.03.0 | | | | | Pekerjaan = PK4: KL2 5.02.0 | | | | | Pekerjaan = PK6: KL1 0.0 | | | | | Pekerjaan = PK5: KL1 0.0 | | | | Pengeluaran Keluarga = K4: KL3 0.0 | | | Nilai Jaminan = N4: KL1 3.0 | | | Nilai Jaminan = N2: KL1 11.04.0 ………… Number of Leaves : 41 Size of the tree : 53 Time taken to build model: 0.27 seconds Gambar 3.6 Hasil Output WEKA Berupa Model dan Aturan 979 dataset Gambar 3.7 adalah visualisasi pohon keputusan dari kelas akhir KL1, KL2, KL3, dan KL4 yang dihasilkan menggunakan software WEKA. 70 Gambar 3.7 Visualisasi Pohon Keputusan 71 Pohon keputusan tersebut diperoleh dari proses klasifikasi menggunakan algoritma C4.5. Berdasarkan pohon keputusan yang dihasilkan maka diperoleh aturan ekstraksi dari pohon keputusan. Ekstraksi pohon keputusan dilihat pada lampiran 12, dan beberapa diantaranya dapat dituliskan sebagai berikut: 1. IF AGUNAN=A1 THEN KELAS=KL1; 2. IF AGUNAN=A2 THEN KELAS=KL1; 3. IF AGUNAN=A3 AND KEMAMPUAN ANGSURAN=KA1 AND PENDAPATAN KELUARGA=D2 AND NILAI JAMINAN=N5 THEN KELAS=KL3; 4. IF AGUNAN=A3 AND KEMAMPUAN ANGSURAN=KA1 AND PENDAPATAN KELUARGA=D2 AND NILAI JAMINAN=N3 AND PENGELUARAN KELUARGA=K2 THEN KELAS=KL1; 5. IF AGUNAN=A3 AND KEMAMPUAN ANGSURAN=KA1 AND PENDAPATAN KELUARGA=D2 AND NILAI JAMINAN=N3 AND PENGELUARAN KELUARGA=K3 THEN KELAS=KL3; Berdasarkan aturan yang terdapat pada ekstraksi pohon keputusan tersebut, maka aturan-aturan tersebut dapat diartikan sebagai berikut: 1. Jika peminjam memberikan agunan A1 maka status peminjam tersebut termasuk dalam kelas KL1. 2. Jika peminjam memberikan agunan A2 maka status peminjam tersebut termasuk dalam kelas KL1. 72 3. Jika peminjam memberikan agunan A3, dengan besar kemampuan agsuraan pada kelas KA1, pendapatan keluarga D2 , nilai jaminan N5, maka status peminjam tersebut termasuk dalam kelas KL3. 4. Jika peminjam memberikan agunan A3, dengan besar kemampuan agsuraan pada kelas KA1, pendapatan keluarga D2 , nilai jaminan N3, pengeluaran keluarga K2, maka status peminjam tersebut termasuk dalam kelas KL1. 5. Jika peminjam memberikan agunan A3, dengan besar kemampuan agsuraan pada kelas KA1, pendapatan keluarga D2 , nilai jaminan N3, pengeluaran keluarga K3, maka status peminjam tersebut termasuk dalam kelas KL3.

E. Proses Klasifikasi Menggunakan Naïve Bayes