Preprocessing Pembagian Data Pemisah Data

3.3.1 Preprocessing

Pada tahap pre-processing akan dilakukan tahap pembersihan data, integrasi data,seleksi data dan transformasi data. Data mentah akan diubah menjadi data dalam bentuk angka atau dalam bentuk label dengan keterangan seperti berikut : 1. Untuk kolom satu sampai lima a. Tidak = 1 b. Ya = 2 2. Untuk kolom enam sampai delapan a. Negatif = 0 b. Jika nilai tidak negatif maka akan tetap diisi dengan angka sesuai dengan data. 3. Untuk kolom sembilan a. Positif = 1 b. Negatif = 0 4. Untuk kolom 10 a. Tidak = 1 b. Paru = 2 c. Ekstra Paru = 3 Pada tahap pre-processing ini juga dilakukan tahap mengisi data yang tidak diketahui nilainya. Untuk setiap data yang tidak diketahui nilainya akan diberi label 0. Dan untuk setiap data yang tidak memiliki kelas akan dihapus. Tabel 3.2 adalah contoh data yang sudah melewati tahap pre-processing. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI TABEL 3.2 CONTOH DATA SETELAH TAHAP PRE-PROCESSING batuk2 minggu demam BB turun sesak napas batuk darah A B C Rontgen Kelas 2 2 2 2 1 3 3 3 2 2 1 1 1 2 2 2 1 2 1 3 3 3 2 2 1 1 1 1 1 3 2 2 2 1 1 1 2 1 2 2 1 2 2 1 2 2 2 1 1 1 1 2 1 1 1 1 1 2 1 1 1 1 1 2 2 2 2 1 3 3 3 2 2 1 2 2 1 1 1 2 2 1 1 2 1 1 3 2 1 1 1 2 1 1 2

3.3.2 Pembagian Data

Pada tahap ini dilakukan pembagian data yaitu data training dan data testing menggunakan cross validation yaitu k-fold validation. Percobaan yang dilakukan menggunakan 4 jenis k-fold yaitu 3, 5, 7 dan 9 fold. Data akan dibagi sesuai dengan jumlah k, dengan jumlah data yang sama rata. Data yang sudah dibagi nanti akan menjadi data testing dan data training. Setiap percobaan akan mengambil 1 data testing dan data yang lainnya akan digunakan sebagai data training, pada percobaan selanjutnya data testing akan menjadi data training dan sebaliknya. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

3.3.3 Pemisah Data

Pada tahap ini data testing akan dipisah menjadi 2 bagian. Bagian pertama adalah bagian data yang memiliki isi semua data gejala, data laboratorium dan hasil rontgen. Bagian kedua adalah label data atau kelas akhir yang berisi TB Paru, TB Ekstra Paru dan tidak TB. Data bagian pertama akan di uji pada proses modeling dan akan menghasilkan label baru hasil prediksi. Setelah itu, label testing asli dengan label testing hasil prediksi akan di bandingkan dengan confusion matrix pada proses 5.

3.3.4 Modeling