3.3.1 Preprocessing
Pada tahap
pre-processing akan
dilakukan tahap
pembersihan data, integrasi data,seleksi data dan transformasi data. Data mentah akan diubah menjadi data dalam bentuk angka atau
dalam bentuk label dengan keterangan seperti berikut : 1.
Untuk kolom satu sampai lima a.
Tidak = 1 b.
Ya = 2 2.
Untuk kolom enam sampai delapan a.
Negatif = 0 b.
Jika nilai tidak negatif maka akan tetap diisi dengan angka sesuai dengan data.
3. Untuk kolom sembilan
a. Positif = 1
b. Negatif = 0
4. Untuk kolom 10
a. Tidak = 1
b. Paru = 2
c. Ekstra Paru = 3
Pada tahap pre-processing ini juga dilakukan tahap mengisi data yang tidak diketahui nilainya. Untuk setiap data yang tidak
diketahui nilainya akan diberi label 0. Dan untuk setiap data yang tidak memiliki kelas akan dihapus. Tabel 3.2 adalah contoh data
yang sudah melewati tahap pre-processing. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
TABEL 3.2 CONTOH DATA SETELAH TAHAP PRE-PROCESSING
batuk2 minggu
demam BB
turun sesak
napas batuk
darah A
B C
Rontgen Kelas 2
2 2
2 1
3 3
3 2
2 1
1 1
2 2
2 1
2 1
3 3
3 2
2 1
1 1
1 1
3 2
2 2
1 1
1 2
1 2
2 1
2 2
1 2
2 2
1 1
1 1
2 1
1 1
1 1
2 1
1 1
1 1
2 2
2 2
1 3
3 3
2 2
1 2
2 1
1 1
2 2
1 1
2 1
1 3
2 1
1 1
2 1
1 2
3.3.2 Pembagian Data
Pada tahap ini dilakukan pembagian data yaitu data training dan data testing menggunakan cross validation yaitu k-fold
validation. Percobaan yang dilakukan menggunakan 4 jenis k-fold yaitu 3, 5, 7 dan 9 fold. Data akan dibagi sesuai dengan jumlah k,
dengan jumlah data yang sama rata. Data yang sudah dibagi nanti akan menjadi data testing dan data training. Setiap percobaan akan
mengambil 1 data testing dan data yang lainnya akan digunakan sebagai data training, pada percobaan selanjutnya data testing akan
menjadi data training dan sebaliknya. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3.3.3 Pemisah Data
Pada tahap ini data testing akan dipisah menjadi 2 bagian. Bagian pertama adalah bagian data yang memiliki isi semua data
gejala, data laboratorium dan hasil rontgen. Bagian kedua adalah label data atau kelas akhir yang berisi TB Paru, TB Ekstra Paru dan
tidak TB. Data bagian pertama akan di uji pada proses modeling dan akan menghasilkan label baru hasil prediksi. Setelah itu, label
testing asli dengan label testing hasil prediksi akan di bandingkan dengan confusion matrix pada proses 5.
3.3.4 Modeling