17 209,562 50 25 320,938 50 Optimasi Fuzzy Decision Tree Menggunakan Algoritme Genetika pada Data Diabetes

Lingkup Pengembangan Sistem Perangkat keras yang digunakan berupa notebook dengan spesifikasi: • processor: Intel Core 2 Duo 1.66 GHz, • memori: 1,512 GB, dan • harddisk: 80GB. Perangkat lunak yang digunakan yaitu: • sistem operasi: Window XP, • Matlab 7.0.1 sebagai bahasa pemrograman, dan • Microsoft Excel 2003 sebagai tempat penyimpanan data. HASIL DAN PEMBAHASAN Pemilihan Training Set dan Testing Set Pembagian data menggunakan 10-fold cross validation menghasilkan sepuluh training sets dan 10 testing sets. Untuk percobaan mencari parameter algoritme genetika yang optimal digunakan hanya satu training set saja. Pemilihan training set ini berdasarkan hasil eksekusi program G-DT dengan menggunakan sepuluh training sets dan sepuluh testing sets serta persebaran data pada masing-masing training set dan testing set. Parameter algoritme genetika yang digunakan dalam pemilihan training set yaitu: fitness threshold = 0.05, ukuran populasi = 10, maksimum generasi = 50, tingkat rekombinasi = 50, dan tingkat mutasi = 1. Hasil eksekusi program G-DT menggunakan sepuluh training sets dan sepuluh testing sets dapat dilihat pada Tabel 3. Tabel 3 Hasil eksekusi program G-DT menggunakan 10 training sets dan 10 testing sets Dari total data sebanyak 290 record, terdapat data negatif diabetes sebanyak 273 record dan data positif diabetes sebanyak 17 record. Dengan 10-fold cross validation, data sebanyak 290 record dibagi menjadi training set dan testing set. Training set berjumlah 261 record dan testing set berjumlah 29 record. Persebaran data negatif dan positif diabetes pada setiap training set dan testing set dapat dilihat pada Tabel 4. Tabel 4 Persebaran data negatif dan positif diabetes pada setiap training set dan testing set Dari hasil eksekusi program G-DT menggunakan sepuluh training sets dan sepuluh testing sets terlihat bahwa hanya training set 2 dan 3 yang belum memperoleh akurasi 100. Dengan menggunakan parameter algoritme genetika yang optimal diharapkan akurasi pada training set 2 dan 3 meningkat. Sehingga, training set 2 dan 3 menjadi calon training set yang akan digunakan dalam percobaan mencari parameter algoritme genetika yang optimal. Untuk menentukan satu training set yang akan digunakan dalam percobaan, persebaran data pada training set dan testing set 2 dan 3 dilihat. Pada Tabel 4, dapat dilihat bahwa 13 record data positif diabetes dari total 17 record positif diabetes ada pada testing set 2. Hanya 4 record data positif diabetes yang ada pada training set 2. Sedangkan pada training set 3 terdapat 13 record data positif diabetes dan pada testing set 3 terdapat 4 record data positif diabetes. Hal ini menunjukkan bahwa persebaran data pada training set dan testing set 3 lebih baik daripada training set dan testing set 2. Sehingga, percobaan mencari parameter algoritme genetika yang optimal dilakukan dengan menggunakan training set dan testing set 3. Set Akurasi Jumlah Aturan Waktu Total detik Jumlah Iterasi 1 100.00 20 14,906 1 2

58.62 17 209,562 50

3

89.66 25 320,938 50

4 100.00 20 15,031 1 5 100.00 21 15,109 1 6 100.00 21 14,937 1 7 100.00 22 14,578 1 8 100.00 19 14,985 1 9 100.00 22 14,938 1 10 100.00 21 15,344 1 Rataan 94.83 20.8 Training Set Testing Set Set Negatif Positif Negatif Positif 1 244 17 29 2 257 4 16 13 3 248 13 25 4 4 244 17 29 5 244 17 29 6 244 17 29 7 244 17 29 8 244 17 29 9 244 17 29 10 244 17 29 0 Total 261 29 Percobaan untuk Mencari Parameter Algoritme Genetika yang Optimal Setelah memilih training set yang akan digunakan untuk percobaan, percobaan untuk mencari parameter algoritme genetika yang optimal dapat dilakukan. Pertama, percobaan dengan ukuran populasi sebesar 10 dilakukan. Selanjutnya, percobaan dengan ukuran populasi sebesar 30 dan 50 dilakukan. Parameter algoritme genetika yang optimal ditentukan berdasarkan hasil percobaan. • Ukuran populasi sebesar 10 Pada percobaan dengan ukuran populasi sebesar 10, dilakukan dengan variasi tingkat rekombinasi 50, 60, 70, 80, 90, dan 100, tingkat mutasi 1, 5, dan 10, dan maksimum generasi 50, 100, 150, 200, 250. Total percobaan yang dilakukan adalah 90 percobaan. Hasil dari 90 percobaan ini dapat dilihat pada Lampiran 1. Alur pemilihan parameter yang optimal bagi ukuran populasi sebesar 10 dapat dilihat pada Gambar 10. Gambar 10 Alur pemilihan parameter yang optimal bagi ukuran populasi sebesar 10. Dari 90 percobaan, diperoleh 58 kombinasi parameter dengan nilai fitness yang terbaik sebesar 0.0690. Dari 58 kombinasi parameter, hanya 12 kombinasi parameter yang memiliki waktu eksekusi kurang dari 360 detik. Dua belas kombinasi parameter tersebut adalah nilai yang dicetak tebal pada Lampiran 1. Dua belas kombinasi parameter tersebut merupakan parameter algoritme genetika yang baik. Dua belas kombinasi parameter ini dapat digunakan sebagai parameter algoritme genetika untuk training G-DT. Untuk mencari parameter algoritme genetika yang paling optimal diantara 12 kombinasi parameter tersebut, dilakukan percobaan sebanyak 10 kali untuk masing-masing 12 kombinasi parameter. Total percobaan yang dilakukan adalah 120 percobaan. Hasil percobaan untuk 12 kombinasi parameter dapat dilihat pada Lampiran 2. Dari 12 kombinasi parameter dan masing- masing dilakukan 10 iterasi, hanya tiga kombinasi parameter yang menghasilkan nilai fitness relatif lebih stabil dengan menghasilkan nilai fitness sebesar 0.0690 sebanyak sembilan buah dan nilai fitness sebesar 0.1034 sebanyak satu buah. Tiga kombinasi parameter tersebut yaitu: a. tingkat rekombinasi = 80, tingkat mutasi = 10, dan maksimum generasi = 50, b. tingkat rekombinasi = 90, tingkat mutasi = 10, dan maksimum generasi = 50, dan c. tingkat rekombinasi = 100, tingkat mutasi = 1, dan maksimum generasi = 50. Tiga kombinasi parameter di atas merupakan kombinasi parameter yang terbaik bagi training set dan testing set 3. Untuk memperoleh parameter yang lebih optimal lagi, dilakukan percobaan untuk masing- masing tiga kombinasi parameter itu dengan menggunakan training set dan testing set 2. Training set 2 digunakan karena training set 2 merupakan training set yang memiliki akurasi masih di bawah 100 selain training set 3. Percobaan untuk tiga kombinasi parameter ini juga dilakukan masing-masing 10 kali percobaan. Total percobaan yang dilakukan adalah 30 percobaan. Hasil dari 30 kali percobaan ini dapat dilihat pada Lampiran 3. Dari 30 percobaan, kombinasi parameter yang terdiri dari tingkat rekombinasi sebesar 90, tingkat mutasi sebesar 10, dan maksimum generasi sebesar 50 generasi merupakan kombinasi parameter yang terbaik bagi training set dan testing set 2. Parameter ini menghasilkan nilai fitness yang stabil dengan menghasilkan nilai fitness sebesar 0.3793 pada 10 percobaan yang dilakukan. Sehingga, parameter algoritme yang optimal dengan ukuran populasi sebesar 10 yaitu: a tingkat rekombinasi: 90, b tingkat mutasi: 10, dan c maksimum generasi: 50. • Ukuran populasi sebesar 30 dan 50 Pada percobaan dengan ukuran populasi sebesar 30 dan 50, juga dilakukan dengan variasi tingkat rekombinasi 50, 60, 70, 80, 90, dan 100, tingkat mutasi 1, 5, dan 10, dan maksimum generasi 50, 100, 150, 200, 250. Total percobaan untuk 58 kombinasi parameter dengan nilai fitness terbaik 12 kombinasi parameter dengan nilai fitness terbaik dan waktu eksekusi 360 detik 3 kombinasi parameter yang terbaik untuk training set 3 pengulangan 10 kali 1 kombinasi parameter yang terbaik untuk training set 3 dan 2 Æ parameter AG optimal bagi populasi 10 masing-masing ukuran populasi adalah 90 percobaan. Waktu eksekusi dengan ukuran populasi sebesar 30 dan 50 relatif lama lebih dari 900 detik, sehingga percobaan dengan ukuran populasi sebesar 30 dan 50 ini tidak dilakukan untuk semua kombinasi parameter. Percobaan dilakukan hanya dengan kombinasi parameter yang optimal pada ukuran populasi sebesar 10 yaitu kombinasi parameter yang terdiri dari tingkat rekombinasi sebesar 90 dan tingkat mutasi sebesar 10. Percobaan dilakukan dengan variasi nilai maksimum generasi 50, 100, 150, 200, dan 250. Total percobaan yang dilakukan adalah 10 percobaan. Hasil percobaan ini dapat dilihat pada Lampiran 4. Dari hasil percobaan tersebut, besar nilai fitness dengan maksimum generasi sebesar 250 sama dengan nilai fitness dengan maksimum generasi sebesar 50 yaitu sebesar 0.0690. Sehingga, maksimum generasi sebesar 50 merupakan maksimum generasi yang baik