Proses Training Tahap Klasifikasi Decision Tree

Gambar 3. 7 Sinyal stem LPC, delta LPC, delta delta LPC order 12 sekuen protein A2KUC3 Setelah proses ektraksi ciri selasai, maka dilakukan cleaning data dari hasil ekstraksi ciri yang memiliki missing value. Pada penelitian ini missing value berupa nilai NaN akan diberi nilai baru yaitu nilai 0, untuk menormalisasikan nilai data tanpa merubah nilai. Proses ini melooping semua data yang dimiliki nilai NaN pada setiap baris dan kolom. Pada proses ini juga penambahan label data berupa kelas 1 sampai 3. Dimana kelas 1 berupa data sehat, kelas 2 berupa data kanker paru-paru dan kelas 3 berupa data kanker payudara. Pemberian label dilakukan secara otomatis berdasarkan banyaknya data dari folder class sehat, kanker paru- paru, dan kanker payudara. Label ditaruh dibagian kolom pertama dari data dan kolom selanjutnya berupa atribut.

3.2.3 Proses Training

Pada proses training, data dari tahap ekstraksi ciri akan diklasifikasi dengan menggunakan algoritma decision tree. Data sekuen protein yang telah dilakukan ekstraksi ciri akan disimpan dalam format .mat. K-fold cross validation yang digunakan pada penelitian ini adalah dengan menggunakan 3- fold cross-validation. Proses pembagian data mengunakan cv partition milik matlab dimana data akan dipartisi sebanyak k, dimana nilai k adalah 3, data dipartisi menjadi 3 bagian untuk data training dan 3 bagian untuk data data testing. Data sebanyak 417 akan dibagi menjadi 3 bagian masing-masing 278 untuk training 1, 278 untuk training 2, dan 278 untuk training 3. Proses training digunakan untuk mendapatkan model dari klasifikasi dengan menggunakan algoritma decision tree yaitu berupa tree. Berikut ini contoh data training 1 pada feature LPC dengan order 8. Gambar 3. 8 Contoh data training 1 feature LPC dengan order 8

3.2.4 Tahap Klasifikasi Decision Tree

Data sekuen protein yang sudah diekstraksi ciri, selanjutnya masuk dalam proses klasifikasikan menggunakan algoritma decision tree. Data yang telah dipartisi menjadi training 1, training 2, dan training 3, selanjutnya tiap training dan feature LPC dengan order 8 dan 12 akan dibuat model atau tree. Pada penelitian ini menghasilkan 18 tree yang terbentuk berdasarkan kombanasi feature LPC dan training. Algoritma decision tree yang digunakan adalah greedy decision tree. Langkah membuat tree dengan algoritma greedy decision tree: a. Dimulai dari membuat decision tree kosong Gambar 3. 9 decision tree kosong b. Pisahkan pada yang memiliki atribut terbaik. 1. Hitung nilai entropy untuk semua atribut. Entropy S = − ∑ p = ∗ log p 3.1 Lalu cari nilai binari untuk setiap atribut terhadap kelas, nilai binary digunakan untuk perhitungan entropy terhadap komposisi kelas. Entropy S = −p log p − − p log − p 3.2 Dimana nilai p = 0.5 merupakan nilai p terbaik untuk variabel binary. Gambar 3. 10 entropy dari variabel binari 2. Hitung nilai entropy untuk semua data terhadap komposisi kelas Entropy S|A = ∑ |S i | |S| ∗ Entropy S = 3.3 3. Hiitung nilai information gain untuk setiap atribut. Gain S, A = Entropy S − ∑ |S i | |S| ∗ Entropy S = 3.4 Gambar 3. 11 Contoh level pertama decision tree c. Ulangi rekursif langkah 2 untuk setiap daun Gambar 3. 12 Hasil Tree yang terbentuk dari training 3

3.2.5 Pengujian