BAB 4 HASIL DAN PEMBAHASAN
Pada bab ini dijelaskan hasil pengujian yang dilakukan dalam melakukan pelatihan dan tugas klasifikasi dalam memprediksi penyakit jantung dengan menggunakan
algoritma Naive Bayes dan informasi Gain sebagai parameter untuk seleksi atribut. Pelatihan data dan tugas klasifikasi diuji dengan menggunakan aplikasi yang penulis
bangun dengan menggunakan bahasa pemrograman PHP dan MySQL. Berdasarkan pada hasil pengujian pelatihan dan tugas klasifikasi dari data rekam medis nantinya
dapat ditarik kesimpulan, apakah algoritma Naive Bayes dengan seleksi atribut dapat meningkatkan nilai akurasi prediksi penyakit jantung dan kecepatan proses
dibandingkan dengan pelatihan dan tugas klasifikasi dengan algoritma Naive Bayes secara umum.
4.1. Hasil Pengujian
Hasil pengujian diukur dari seberapa besar nilai akurasi serta kecepatan dari proses training dan testing data. Pengukuran akurasi dilakukan dengan menggunakan tabel
klasifikasi yang disebut dengan confusion matrix dan kecepatan proses diukur dari lama waktu yang dibutuhkan dalam proses training dan testing data. Jumlah data
training terdiri dari 195 baris data 23 dari jumlah baris data penelitian dan jumlah data testing terdiri dari 101 baris data 13 dari jumlah baris data penelitian.
4.1.1. Hasil Pengujian Tahap Pertama Pengujian pada tahap pertama menggunakan seluruh atribut data rekam medis
penyakit jantung dalam pelatihan data dan tugas klasifikasi dalam memprediksi penyakit jantung. Dari data training yang diproses dengan algoritma Naive Bayes
diperoleh hasil pelatihan yang disebagai berikut:
Universitas Sumatera Utara
Tabel 4.1 Hasil Training Data Pada Tahap Pertama
Atribut Nilai
Hasil Training Data Yes
No
Age 43
0.920455 0.841121
=43 0.0795455
0.158879 Sex
Male 0.840909
0.616822 Female
0.159091 0.383178
Cp typ_angina
0.0227273 0.121495
atyp_angina 0.0568182
0.121495 non_anginal
0.170455 0.420561
Asympt 0.75
0.224299 Trestbps
122 0.738636
0.64486 =122
0.261364 0.35514
Chol 271
0.397727 0.224299
=271 0.602273
0.775701 Fbs
T 0.147727
0.186916 F
0.852273 0.813084
Restecg Normal
0.340909 0.523364
left_vent_hyper 0.659091
0.476636 st_t_wave_abnorma
Thalach 150
0.340909 0.747664
=150 0.659091
0.252336 Exang
Yes 0.545455
0.158879 No
0.454545 0.841121
Oldpeak Zero
0.170455 0.364486
0.829545 0.635514
Slope Flat
0.670455 0.28972
Down 0.102273
0.0747664 Up
0.227273 0.635514
Ca 0.318182
0.794393 1
0.329545 0.130841
2 0.193182
0.046729 3
0.159091 0.0280374
Thal Norm
0.204545 0.775701
fixed_defect 0.0681818
0.0373832 reversable_defect
0.727273 0.186916
Waktu proses pelatihan data dengan melibatkan seluruh atribut yang ditampilkan pada tabel di atas adalah 0,38135 detik.
Universitas Sumatera Utara
Berdasarkan hasil dari training data dilakukan pengujian terhadap data testing dan diperoleh hasil prediksi yang ditampilkan dalam tabel confusion matrix berikut:
Tabel 4.2 Hasil Pengujian Data Testing Pada Tahap Pertama Prediksi
Sakit Tidak Sakit
Aktual Yang Sebenarnya Sakit
38 10
Tidak Sakit 7
46 Dari tabel di atas diperoleh nilai prediksi yang benar untuk yang sakit ada 38 orang
dan untuk yang tidak sakit ada 46 orang. Sementara prediksi yang salah terdiri dari 10 orang diprediksi tidak sakit sebenarnya sakit dan 7 orang diprediksi sakit
sebenarnya tidak sakit. Nilai akurasi dan error dapat diperoleh sebagai berikut: Akurasi tahap pertama =
��+�� �+�
=
38+46 101
= 0,83168 = 83,17 Error tahap pertama =
��+�� �+�
=
10+7 101
= 0,16831 = 16,83 Waktu proses pengujian dari data testing yang melibatkan seluruh atribut dari tabel
4.1 adalah: 0.57582 detik. 4.1.2. Hasil Pengujian Tahap Kedua
Pengujian pada tahap kedua menggunakan beberapa atribut data rekam medis penyakit jantung yang dipilih berdasarkan nilai informasi Gain untuk pelatihan data
dan tugas klasifikasi dalam memprediksi penyakit jantung. Atribut diurutkan berdasarkan nilai informasi Gain yang paling tinggi ke yang paling rendah.
Pada tahap ini atribut dengan nilai terkecil fbs tidak diikutkan dalam proses training dan testing data. Kemudian dilihat nilai akurasi yang dihasilkan dari hasil
pengujian.
Universitas Sumatera Utara
Tabel 4.3 Peringkat Atribut Berdasarkan Nilai Informasi Gain
Atribut Nilai Info Gain thal
0.252023 cp
0.213794 ca
0.178469 slope
0.128463 thalach 0.123182
exang 0.123127 sex
0.0460524 oldpeak 0.0346693
chol 0.0254546
restecg 0.0243425 age
0.0107875 trestbps 0.00736819
fbs 0.00196676
Pada percobaan ini untuk hasil data training sama dengan tabel 4.1 namun tanpa atribut fbs. Untuk waktu proses training data yang melibatkan 12 atribut adalah:
0,35456 detik. Berdasarkan hasil dari training data tanpa menggunakan atribut fbs dilakukan
pengujian terhadap data testing dan diperoleh hasil prediksi yang ditampilkan dalam tabel confusion matrix berikut:
Tabel 4.4 Hasil Pengujian Data Testing Tahap Kedua Prediksi
Sakit Tidak Sakit
Aktual Yang Sebenarnya Sakit
38 10
Tidak Sakit 6
47 Dari tabel di atas diperoleh nilai prediksi yang benar untuk yang sakit ada 38 orang
dan untuk yang tidak sakit ada 47 orang. Sementara prediksi yang salah terdiri dari 10 orang diprediksi tidak sakit sebenarnya sakit dan 6 orang diprediksi sakit
sebenarnya tidak sakit. Nilai akurasi dan error dapat diperoleh sebagai berikut:
Universitas Sumatera Utara
Akurasi tahap kedua =
��+�� �+�
=
38+47 101
= 0,84158 = 84,16 Error tahap kedua =
��+�� �+�
=
10+6 101
= 0,15841 = 15,84
Waktu proses pengujian dari data testing yang melibatkan 12 atribut dari tabel 4.1 adalah: 0.65077 detik.
4.1.3. Percobaan Tahap Ketiga Pada tahap ketiga ini dua atribut dengan nilai informasi gain terendah tidak
diikutsertakan yaitu fbs dan trestbps. Untuk hasil data training sama dengan tabel 4.1, namun tanpa atribut fbs dan trestbps. Untuk waktu proses training data yang
melibatkan 11 atribut adalah: 0,24825 detik. Berdasarkan hasil dari training data tanpa menggunakan atribut fbs dan trestbps
dilakukan pengujian terhadap data testing dan diperoleh hasil prediksi yang ditampilkan dalam tabel confusion matrix berikut:
Tabel 4.5 Hasil Pengujian Data Testing Tahap Ketiga Prediksi
Sakit Tidak Sakit
Aktual Yang Sebenarnya Sakit
37 11
Tidak Sakit 6
47
Dari tabel di atas diperoleh nilai prediksi yang benar untuk yang sakit ada 37 orang dan untuk yang tidak sakit ada 47 orang. Sementara prediksi yang salah terdiri dari 11
orang diprediksi tidak sakit sebenarnya sakit dan 6 orang diprediksi sakit sebenarnya tidak sakit. Nilai akurasi dan error dapat diperoleh sebagai berikut:
Akurasi tahap ketiga =
��+�� �+�
=
37+47 101
= 0,83168 = 83,17 Error tahap ketiga =
��+�� �+�
=
11+6 101
= 0,16831 = 16,83
Universitas Sumatera Utara
Waktu proses pengujian dari data testing yang melibatkan 12 atribut dari tabel 4.1
adalah: 0.55844 detik.
4.1.4. Percobaan Tahap Keempat Pada percobaan di tahap keempat ini tiga atribut dengan nilai informasi gain terendah
tidak diikutsertakan yaitu fbs, trestbps dan age. Untuk hasil data training sama dengan tabel 4.1 namun tanpa atribut fbs, trestbps dan age. Untuk waktu proses training data
yang melibatkan 10 atribut adalah: 0,25818 detik. Berdasarkan hasil dari training data tanpa menggunakan atribut fbs, trestbps dan
age dilakukan pengujian terhadap data testing dan diperoleh hasil prediksi yang ditampilkan dalam tabel confusion matrix berikut:
Tabel 4.6 Hasil Pengujian Data Testing Percobaan Tahap Keempat Prediksi
Sakit Tidak Sakit
Aktual Yang Sebenarnya Sakit
36 12
Tidak Sakit 7
46
Dari tabel di atas diperoleh nilai prediksi yang benar untuk yang sakit ada 36 orang dan untuk yang tidak sakit ada 46 orang. Sementara prediksi yang salah terdiri dari 12
orang diprediksi tidak sakit sebenarnya sakit dan 7 orang diprediksi sakit sebenarnya tidak sakit. Nilai akurasi dan error dapat diperoleh sebagai berikut:
Akurasi tahap keempat =
��+�� �+�
=
36+46 101
= 0,81188 = 81,19
Error tahap keempat =
��+�� �+�
=
12+7 101
= 0,18811 = 18,81
Waktu proses pengujian dari data testing yang melibatkan 10 atribut dari tabel 4.1 adalah: 0.52098 detik.
Universitas Sumatera Utara
4.1.5. Percobaan Tahap Kelima Pada percobaan di tahap kelima ini dilakukan percobaan dengan tidak
mengikutsertakan satu atribut yang memiliki nilai informasi gain tertinggi yaitu thal. Untuk hasil data training sama dengan tabel 4.1 namun tanpa atribut thal. Untuk
waktu proses training data yang melibatkan 12 atribut adalah: 0,29258 detik. Berdasarkan hasil dari training data tanpa menggunakan atribut thal dilakukan
pengujian terhadap data testing dan diperoleh hasil prediksi yang ditampilkan dalam tabel confusion matrix berikut:
Tabel 4.6 Hasil Pengujian Data Testing Percobaan Tahap Kelima Prediksi
Sakit Tidak Sakit
Aktual Yang Sebenarnya Sakit
36 12
Tidak Sakit 7
46
Dari tabel di atas diperoleh nilai prediksi yang benar untuk yang sakit ada 36 orang dan untuk yang tidak sakit ada 46 orang. Sementara prediksi yang salah terdiri dari 12
orang diprediksi tidak sakit sebenarnya sakit dan 7 orang diprediksi sakit sebenarnya tidak sakit. Nilai akurasi dan error dapat diperoleh sebagai berikut:
Akurasi tahap kelima =
��+�� �+�
=
36+46 101
= 0,81188 = 81,19
Error tahap kelima =
��+�� �+�
=
12+7 101
= 0,18811 = 18,81
Waktu proses pengujian dari data testing yang melibatkan 10 atribut dari tabel 4.1 adalah: 0.70086 detik.
Universitas Sumatera Utara
4.2. Pembahasan