Hasil Pengujian HASIL DAN PEMBAHASAN

BAB 4 HASIL DAN PEMBAHASAN

Pada bab ini dijelaskan hasil pengujian yang dilakukan dalam melakukan pelatihan dan tugas klasifikasi dalam memprediksi penyakit jantung dengan menggunakan algoritma Naive Bayes dan informasi Gain sebagai parameter untuk seleksi atribut. Pelatihan data dan tugas klasifikasi diuji dengan menggunakan aplikasi yang penulis bangun dengan menggunakan bahasa pemrograman PHP dan MySQL. Berdasarkan pada hasil pengujian pelatihan dan tugas klasifikasi dari data rekam medis nantinya dapat ditarik kesimpulan, apakah algoritma Naive Bayes dengan seleksi atribut dapat meningkatkan nilai akurasi prediksi penyakit jantung dan kecepatan proses dibandingkan dengan pelatihan dan tugas klasifikasi dengan algoritma Naive Bayes secara umum.

4.1. Hasil Pengujian

Hasil pengujian diukur dari seberapa besar nilai akurasi serta kecepatan dari proses training dan testing data. Pengukuran akurasi dilakukan dengan menggunakan tabel klasifikasi yang disebut dengan confusion matrix dan kecepatan proses diukur dari lama waktu yang dibutuhkan dalam proses training dan testing data. Jumlah data training terdiri dari 195 baris data 23 dari jumlah baris data penelitian dan jumlah data testing terdiri dari 101 baris data 13 dari jumlah baris data penelitian. 4.1.1. Hasil Pengujian Tahap Pertama Pengujian pada tahap pertama menggunakan seluruh atribut data rekam medis penyakit jantung dalam pelatihan data dan tugas klasifikasi dalam memprediksi penyakit jantung. Dari data training yang diproses dengan algoritma Naive Bayes diperoleh hasil pelatihan yang disebagai berikut: Universitas Sumatera Utara Tabel 4.1 Hasil Training Data Pada Tahap Pertama Atribut Nilai Hasil Training Data Yes No Age 43 0.920455 0.841121 =43 0.0795455 0.158879 Sex Male 0.840909 0.616822 Female 0.159091 0.383178 Cp typ_angina 0.0227273 0.121495 atyp_angina 0.0568182 0.121495 non_anginal 0.170455 0.420561 Asympt 0.75 0.224299 Trestbps 122 0.738636 0.64486 =122 0.261364 0.35514 Chol 271 0.397727 0.224299 =271 0.602273 0.775701 Fbs T 0.147727 0.186916 F 0.852273 0.813084 Restecg Normal 0.340909 0.523364 left_vent_hyper 0.659091 0.476636 st_t_wave_abnorma Thalach 150 0.340909 0.747664 =150 0.659091 0.252336 Exang Yes 0.545455 0.158879 No 0.454545 0.841121 Oldpeak Zero 0.170455 0.364486 0.829545 0.635514 Slope Flat 0.670455 0.28972 Down 0.102273 0.0747664 Up 0.227273 0.635514 Ca 0.318182 0.794393 1 0.329545 0.130841 2 0.193182 0.046729 3 0.159091 0.0280374 Thal Norm 0.204545 0.775701 fixed_defect 0.0681818 0.0373832 reversable_defect 0.727273 0.186916 Waktu proses pelatihan data dengan melibatkan seluruh atribut yang ditampilkan pada tabel di atas adalah 0,38135 detik. Universitas Sumatera Utara Berdasarkan hasil dari training data dilakukan pengujian terhadap data testing dan diperoleh hasil prediksi yang ditampilkan dalam tabel confusion matrix berikut: Tabel 4.2 Hasil Pengujian Data Testing Pada Tahap Pertama Prediksi Sakit Tidak Sakit Aktual Yang Sebenarnya Sakit 38 10 Tidak Sakit 7 46 Dari tabel di atas diperoleh nilai prediksi yang benar untuk yang sakit ada 38 orang dan untuk yang tidak sakit ada 46 orang. Sementara prediksi yang salah terdiri dari 10 orang diprediksi tidak sakit sebenarnya sakit dan 7 orang diprediksi sakit sebenarnya tidak sakit. Nilai akurasi dan error dapat diperoleh sebagai berikut: Akurasi tahap pertama = ��+�� �+� = 38+46 101 = 0,83168 = 83,17 Error tahap pertama = ��+�� �+� = 10+7 101 = 0,16831 = 16,83 Waktu proses pengujian dari data testing yang melibatkan seluruh atribut dari tabel 4.1 adalah: 0.57582 detik. 4.1.2. Hasil Pengujian Tahap Kedua Pengujian pada tahap kedua menggunakan beberapa atribut data rekam medis penyakit jantung yang dipilih berdasarkan nilai informasi Gain untuk pelatihan data dan tugas klasifikasi dalam memprediksi penyakit jantung. Atribut diurutkan berdasarkan nilai informasi Gain yang paling tinggi ke yang paling rendah. Pada tahap ini atribut dengan nilai terkecil fbs tidak diikutkan dalam proses training dan testing data. Kemudian dilihat nilai akurasi yang dihasilkan dari hasil pengujian. Universitas Sumatera Utara Tabel 4.3 Peringkat Atribut Berdasarkan Nilai Informasi Gain Atribut Nilai Info Gain thal 0.252023 cp 0.213794 ca 0.178469 slope 0.128463 thalach 0.123182 exang 0.123127 sex 0.0460524 oldpeak 0.0346693 chol 0.0254546 restecg 0.0243425 age 0.0107875 trestbps 0.00736819 fbs 0.00196676 Pada percobaan ini untuk hasil data training sama dengan tabel 4.1 namun tanpa atribut fbs. Untuk waktu proses training data yang melibatkan 12 atribut adalah: 0,35456 detik. Berdasarkan hasil dari training data tanpa menggunakan atribut fbs dilakukan pengujian terhadap data testing dan diperoleh hasil prediksi yang ditampilkan dalam tabel confusion matrix berikut: Tabel 4.4 Hasil Pengujian Data Testing Tahap Kedua Prediksi Sakit Tidak Sakit Aktual Yang Sebenarnya Sakit 38 10 Tidak Sakit 6 47 Dari tabel di atas diperoleh nilai prediksi yang benar untuk yang sakit ada 38 orang dan untuk yang tidak sakit ada 47 orang. Sementara prediksi yang salah terdiri dari 10 orang diprediksi tidak sakit sebenarnya sakit dan 6 orang diprediksi sakit sebenarnya tidak sakit. Nilai akurasi dan error dapat diperoleh sebagai berikut: Universitas Sumatera Utara Akurasi tahap kedua = ��+�� �+� = 38+47 101 = 0,84158 = 84,16 Error tahap kedua = ��+�� �+� = 10+6 101 = 0,15841 = 15,84 Waktu proses pengujian dari data testing yang melibatkan 12 atribut dari tabel 4.1 adalah: 0.65077 detik. 4.1.3. Percobaan Tahap Ketiga Pada tahap ketiga ini dua atribut dengan nilai informasi gain terendah tidak diikutsertakan yaitu fbs dan trestbps. Untuk hasil data training sama dengan tabel 4.1, namun tanpa atribut fbs dan trestbps. Untuk waktu proses training data yang melibatkan 11 atribut adalah: 0,24825 detik. Berdasarkan hasil dari training data tanpa menggunakan atribut fbs dan trestbps dilakukan pengujian terhadap data testing dan diperoleh hasil prediksi yang ditampilkan dalam tabel confusion matrix berikut: Tabel 4.5 Hasil Pengujian Data Testing Tahap Ketiga Prediksi Sakit Tidak Sakit Aktual Yang Sebenarnya Sakit 37 11 Tidak Sakit 6 47 Dari tabel di atas diperoleh nilai prediksi yang benar untuk yang sakit ada 37 orang dan untuk yang tidak sakit ada 47 orang. Sementara prediksi yang salah terdiri dari 11 orang diprediksi tidak sakit sebenarnya sakit dan 6 orang diprediksi sakit sebenarnya tidak sakit. Nilai akurasi dan error dapat diperoleh sebagai berikut: Akurasi tahap ketiga = ��+�� �+� = 37+47 101 = 0,83168 = 83,17 Error tahap ketiga = ��+�� �+� = 11+6 101 = 0,16831 = 16,83 Universitas Sumatera Utara Waktu proses pengujian dari data testing yang melibatkan 12 atribut dari tabel 4.1 adalah: 0.55844 detik. 4.1.4. Percobaan Tahap Keempat Pada percobaan di tahap keempat ini tiga atribut dengan nilai informasi gain terendah tidak diikutsertakan yaitu fbs, trestbps dan age. Untuk hasil data training sama dengan tabel 4.1 namun tanpa atribut fbs, trestbps dan age. Untuk waktu proses training data yang melibatkan 10 atribut adalah: 0,25818 detik. Berdasarkan hasil dari training data tanpa menggunakan atribut fbs, trestbps dan age dilakukan pengujian terhadap data testing dan diperoleh hasil prediksi yang ditampilkan dalam tabel confusion matrix berikut: Tabel 4.6 Hasil Pengujian Data Testing Percobaan Tahap Keempat Prediksi Sakit Tidak Sakit Aktual Yang Sebenarnya Sakit 36 12 Tidak Sakit 7 46 Dari tabel di atas diperoleh nilai prediksi yang benar untuk yang sakit ada 36 orang dan untuk yang tidak sakit ada 46 orang. Sementara prediksi yang salah terdiri dari 12 orang diprediksi tidak sakit sebenarnya sakit dan 7 orang diprediksi sakit sebenarnya tidak sakit. Nilai akurasi dan error dapat diperoleh sebagai berikut: Akurasi tahap keempat = ��+�� �+� = 36+46 101 = 0,81188 = 81,19 Error tahap keempat = ��+�� �+� = 12+7 101 = 0,18811 = 18,81 Waktu proses pengujian dari data testing yang melibatkan 10 atribut dari tabel 4.1 adalah: 0.52098 detik. Universitas Sumatera Utara 4.1.5. Percobaan Tahap Kelima Pada percobaan di tahap kelima ini dilakukan percobaan dengan tidak mengikutsertakan satu atribut yang memiliki nilai informasi gain tertinggi yaitu thal. Untuk hasil data training sama dengan tabel 4.1 namun tanpa atribut thal. Untuk waktu proses training data yang melibatkan 12 atribut adalah: 0,29258 detik. Berdasarkan hasil dari training data tanpa menggunakan atribut thal dilakukan pengujian terhadap data testing dan diperoleh hasil prediksi yang ditampilkan dalam tabel confusion matrix berikut: Tabel 4.6 Hasil Pengujian Data Testing Percobaan Tahap Kelima Prediksi Sakit Tidak Sakit Aktual Yang Sebenarnya Sakit 36 12 Tidak Sakit 7 46 Dari tabel di atas diperoleh nilai prediksi yang benar untuk yang sakit ada 36 orang dan untuk yang tidak sakit ada 46 orang. Sementara prediksi yang salah terdiri dari 12 orang diprediksi tidak sakit sebenarnya sakit dan 7 orang diprediksi sakit sebenarnya tidak sakit. Nilai akurasi dan error dapat diperoleh sebagai berikut: Akurasi tahap kelima = ��+�� �+� = 36+46 101 = 0,81188 = 81,19 Error tahap kelima = ��+�� �+� = 12+7 101 = 0,18811 = 18,81 Waktu proses pengujian dari data testing yang melibatkan 10 atribut dari tabel 4.1 adalah: 0.70086 detik. Universitas Sumatera Utara

4.2. Pembahasan