3.2.5. Evaluasi Data
Setelah dilakukannya proses modeling, maka akan dilakukan proses menghitung akurasi dari kebenaran data dengan metode
confution matrix , yaitu dengan menjumlahkan data yang benar dan
membaginya dengan semua data yang benar maupun data salah dan dikalikan dengan 100. Berikut ini contoh dari confution matrix-
nya. Tabel 3. 8 Confution Matrix
Kelas
DM DM_Hiper-
glikemia HT_DM
Ulkus_DM DM_Neu-
ropati DM
T F
F F
F
DM_Hiperglike mia
F T
F F
F
HT_DM
F F
T F
F
Ulkus_DM
F F
F T
F
DM_Neuropati
F F
F T
Berdasarkan tabel 3.8 diatas, jumlah akurasi dari tiap percobaan dapat dihitung dengan rumusan berikut :
� � =
∑ ∑ + ∑ ∗
∑ , dapat dicari dengan menjumlahkan semua T yang terdapat pada tabel 3.8. Sementara itu
∑ diperoleh dari semua nilai F pada tabel. Setelah
∑ dihitung, dibagikan dengan ∑ + ∑ dan setelah itu dapat dikalikan dengan 100.
3.3. Desain Pengujian
Langkah ini adalah proses untuk membagi data yang akan diuji pada proses modeling terhadap metode yang dipakai yaitu Naive
Bayesian Clasifier . Berikut ini merupakan tahapan pengujiannya :
Gambar 3. 3 Alur Kerja Desain Pengujian Pengujian ini dilakukan sebanyak k yang dimasukkan jumlah k-
fold . Berikut merupakan tabel pengujian dengan menggunakan data
training dan testing sesuai dengan jumlah masukan k yang ditentukan pengguna.
Tabel 3. 9 Data dengan 3 Fold
Pengujian Training
Testing
1 1,2
3 2
1,3 2
3 2,3
1 Tabel diatas merupakan pembagian data dengan 3 fold, yaitu semua
data akan dibagi menjadi 3 bagian yang sama rata dan data-data tersebut akan secara bergantian digunakan sebagai training dan testing.
Tabel 3. 10 Data dengan 5 Fold
Pengujian Training
Testing
1 1,2,3,4
5 2
1,2,3,5 4
3 1,2,4,5
3 4
1,3,4,5 2
5 2,3,4,5
1 Tabel 3.10 diatas merupakan pembagian data dengan 5 fold, yaitu
semua data akan dibagi menjadi 5 bagian yang sama rata dan data-data tersebut akan secara bergantian digunakan sebagai training dan testing.
Tabel 3. 11 Data dengan 7 Fold
Pengujian Training
Testing
1 1,2,3,4,5,6
7 2
1,2,3,4,5,7 6
3 1,2,3,4,6,7
5 4
1,2,3,5,6,7 4
5 1,2,4,5,6,7
3 6
1,3,4,5,6,7 2
7 2,3,4,5,6,7
1 Tabel 3.11 diatas merupakan pembagian data dengan 7 fold, yaitu
semua data akan dibagi menjadi 7 bagian yang sama rata dan data-data tersebut akan secara bergantian digunakan sebagai training dan testing.
Tabel 3. 12 Data dengan 9 Fold
Pengujian Training
Testing
1 1,2,3,4,5,6,7,8
9 2
1,2,3,4,5,6,7,9 8
3 1,2,3,4,5,6,8,9
7 4
1,2,3,4,5,7,8,9 6
5 1,2,3,4,6,7,8,9
5 6
1,2,3,5,6,7,8,9 4
7 1,2,4,5,6,7,8,9
3 8
1,3,4,5,6,7,8,9 2
9 2,3,4,5,6,7,8,9
1 Tabel 3.12 diatas merupakan pembagian data dengan 9 fold, yaitu
semua data akan dibagi menjadi 9 bagian yang sama rata dan data-data tersebut akan secara bergantian digunakan sebagai training dan testing.
3.4. Spesifikasi Alat
3.4.1. Hardware
Adapun hardware yang digunakan adalah :
Processor Intel Core I3
RAM 4 GB 3.4.2.
Software
Adapun software yang digunakan adalah :
Sistem operasi : Microsoft Windows 10 Pro
Tools Data mining
: Matlab 2012 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB IV
ANALISA HASIL DAN IMPLEMENTASI SISTEM
Pada bab ini akan dibahas berbagai hal yang berkaitan dengan implementasi dari sistem dan hasil yang telah didapat dari beberapa pengujian yang dilakukan,
serta analisa dari hasil penghujian.
4.1. Analisa Hasil Akurasi Klasifikasi
Berdasarkan hasil dari pengujian yang telah dilakukan dengan menggunakan Naive Bayesian Clasifier dan juga menggunakan k-fold
validation , akan diperoleh hasil pada tabel di bawah ini dengan ketentuan
pengaruh besar kecilnya nilai k untuk penentuan interval EWD. Berikut merupakan hasil akurasi dari klasifikasi yang telah dilakukan :
Tabel 4. 1 Hasil Percobaan Klasifikasi
Banyak Fold
Akurasi Perbagia
n Data Grafik akurasi fold
Akurasi Akhir
3 0.6854
0.8000 0.7024
=
.
∗
= . ∗
= .
5 0.6852
0.8491 0.8824
0.8627 0.6531
=
.
∗
= . ∗
= .
0,65 0,7
0,75 0,8
1 2
3
0,65 0,7
0,75 0,8
0,85 0,9
0,95
1 2
3 4
5
7 0.6410
0.9211 0.8378
0.8889 0.8611
0.8611 0.8611
=
.
∗
= . ∗
= .
9 0.5806
0.9000 0.8667
0.9000 0.8621
0.8214 0.8571
0.8462 0.8077
=
.
∗
= . ∗
= .
Dari hasil percobaan tersebut, ditemukan dan dapat diketahui bahwa hasil akurasi terbaik terdapat pada pembagian data dengan 7 fold yaitu
dengan persentase sebesar 83.89.. Hasil akurasi yang hampir sama adalah pada pembagian 9 fold. Nilai akurasi di atas menjadi sangat
bervariatif karena peranan dari pembagian diskretisasi oleh EWD, juga dibentuk karena besarkecilnya nilai k dari EWD-nya.
Gambar 4. 1 Grafik Perbandingan Akurasi
0,64 0,69
0,74 0,79
0,84 0,89
0,94
1 2
3 4
5 6
7
0,55 0,6
0,65 0,7
0,75 0,8
0,85 0,9
0,95
1 2
3 4
5 6
7 8
9
72,93 78,65
83,89 82,69
72 74
76 78
80 82
84 86
3 5
7 9
Pers e
n ta
se
fold
Perbandingan Persentase Akurasi
Gambar 4.1 merupakan grafik perbandingan rata-rata akurasi. Percobaan dilakukan berdasarkan nilai hasil diskretisasi menggunakan
EWD. Hasil diskretisasi akan dilakukan empat kali percobaan yang terdapat pada setiap fold. Hasil dari akurasi di tiap fold akan dirata-rata
untuk mencari nilai akurasi yang paling besarmaksimal dari percobaan berdasarkan hasil klasifikasinya. Berdasarkan hasil beberapa percobaan
yang telah dilakukan rata-rata terbesar terdapat pada hasil dengan nilai fold ke 7. Hal ini terjadi karena pembagian data pada fold ke 7 lebih banyak
data yang
masuk dalam
kategori klasifikasi
benar secara
pembagianpersebaran data, nilai errornya lebih sedikit dibanding dengan nilai fold lainnya.
Hasil klasifikasi dari data diabetes ini sangat berpengaruh dari bagaimana pengolahan data sebelum klasifikasinya preprosesing.
Dengan melakukan diskretisasi terhadap data kontinu, tentu saja akan mendapatkan perhitungan atau menjalankan proses mining dengan lebih
mudah dan hasil klasifikasi lebih jitu.
4.2. Kelebihan dan Kekurangan Sistem