3.3.3 Pemisah Data
Pada tahap ini data testing akan dipisah menjadi 2 bagian. Bagian pertama adalah bagian data yang memiliki isi semua data
gejala, data laboratorium dan hasil rontgen. Bagian kedua adalah label data atau kelas akhir yang berisi TB Paru, TB Ekstra Paru dan
tidak TB. Data bagian pertama akan di uji pada proses modeling dan akan menghasilkan label baru hasil prediksi. Setelah itu, label
testing asli dengan label testing hasil prediksi akan di bandingkan dengan confusion matrix pada proses 5.
3.3.4 Modeling
Pada tahap ini dilakukan proses penambangan data menggunakan algoritma Naïve Bayesian. Data yang sudah diolah
pada tahap sebelumnya akan diolah menggunakan perhitungan algoritma. Data yang akan diolah adalah data testing berdasarkan
data training. Berikut adalah tahap yang akan dilakukan untuk mengolah data TB menggunakan metode Naïve Bayesian. Data
yang akan digunakan adalah data yang sudah melewati proses preprocessing dan proses pembagian data.
1. Data yang digunakan adalah data training dan data testing.
Data testing adalah data yang dicari hasil akhirnya sedangkan data training adalah data yang akan digunakan
untuk menentukan hasil akhir atau label dari data testing. 2.
Data testing yang sudah siap akan dipisahkan dari labelnya, sehingga terdapat 2 kelompok untuk data testing yaitu
kumpulan data gejala, hasil laboratorium dan hasil rontgen sedangkan kelompok yang kedua yaitu kelompok label dari
data training yang asli dengan isian TB paru, TB Ekstra Paru atau tidak TB.
3. Data Testing yang tidak memiliki label akan melakukan
perulangan untuk dihitung nilai probabilitas dari setiap data PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
dengan berdasarkan data training. Di bawah ini merupakan contoh perhitungan untuk mencari nilai probabilitas dari
setiap data, data testing yang akan dihitung dilambangkan dengan X. Tabel 3.3 adalah contoh data training.
TABEL 3.3 CONTOH DATA TRAINING
batuk2 minggu
demam BB
turun sesak
napas batuk
darah A
B C
Rontgen Kelas 2
2 2
2 1
3 3
3 2
2 1
1 1
2 2
2 1
2 1
3 3
3 2
2 2
2 1
1 1
2 1
2 2
1 2
2 1
2 2
2 1
1 1
1 2
1 1
2 1
1 2
1 1
1 1
1 2
1 1
2 1
1 3
2 1
2 1
1 3
Tabel 3.3 memperlihatkan data training dengan atribut batuk 2minggu, demam, berat badan turun, sesak napas, batuk berdarah,
hasil pemeriksaan laboratorium dengan atribut A, B, C, rontgensedangkan atribut kelas adalah pasien memiliki penyakit
TB Paru, TB Ekstra Paru dan tidak TB. Berikut ini adalah penyelesaian contoh kasus menggunakan algoritma Naïve
Bayesian: Terdapat dua kelas dari klasifikasi yang dibentuk yaitu :
Y1 =TB Paru Y2 =TB Ekstra Paru
Y3 = tidak TB PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Data yang akan diklasifikasikan adalah X = batuk 2 minggu = ya, demam = tidak, berat badan turun = tidak, sesak napas = ya,
batuk berdarah = tidak, A = negatif, B = negatif, C = negatif, rontgen = negatif. Langkah-langkah perhitungan sebagai berikut :
a. Mencari PY, sebagai berikut :
PY merupakan prior probability untuk setiap kelas berdasarkan data yaitu :
b. Menghitung probabilitas
Probabilitas untuk TB Paru PTB Paru Pbatuk2 minggu = ya|TB Paru
Pdemam = tidak|TB Paru pberat badan turun = tidak|TB paru Psesak napas = ya|TB paru Pbatuk
berdarah = tidak|TB Paru PA=negatif|TB Paru PB=negatif|TB
Paru PC=negatif|TB
Paru Prontgen=negatif|TB Paru=
0.001536
Probabilitas untuk TB Ekstra Paru PTB Ekstra Paru Pbatuk2 minggu = ya| TB
Ekstra Paru Pdemam = tidak| TB Ekstra Paru Pberat badan turun = tidak|TB Ekstra Paru Psesak
napas = ya| TB Ekstra Paru Pbatuk berdarah = tidak| TB Ekstra Paru PA=negatif| TB EkstraParu
PB=negatif| TB Ekstra Paru PC=negatif| TB PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
EkstraParuProntgen=negatif| TB Ekstra Paru= 0.025
Probabilitas untuk tidak TB Ptidak TB Pbatuk2 minggu = ya| tidak TB
Pdemam = tidak| tidak TB Pberat badan turun = tidak| tidak TB Psesak napas = ya| tidak TB
Pbatuk berdarah = tidak| tidak TB PA=negatif| tidak TB PB=negatif| tidak TB PC=negatif| tidak
TB= 0.6
c. Setelah melakukan perhitungan probabilitas, akan
dibandingkan hasil yang lebih besar antara TB Paru, TB Ekstra Paru dan tidak TB. Berdasarkan perhitungan data X
termasuk data pasien tidak TB dengan nilai probabilitas sebesar 0,6.
Berdasarkan hasil perhitungan probabilitas diatas, maka hasil dari data X adalah tidak TB sehingga label yang akan muncul yaitu
angka 1 untuk data X. 4.
Hasil yang didapat dari langkah 3 akan dimasukkan pada label baru. Setelah semua data testing dihitung dan diprediksi maka akan
terbentuk label baru yang berisi hasil prediksi dari data testing. 5.
Label hasil prediksi akan dibandingkan dengan label asli dari data X.Hasil perbandingan akan masuk ke tahap akurasi dengan
menggunakan confusion matrix.
3.3.5 Akurasi