Gambar 3. 7 Sinyal stem LPC, delta LPC, delta delta LPC order 12 sekuen protein A2KUC3
Setelah proses ektraksi ciri selasai, maka dilakukan cleaning data dari hasil ekstraksi ciri yang memiliki missing value. Pada penelitian ini missing
value berupa nilai NaN akan diberi nilai baru yaitu nilai 0, untuk menormalisasikan nilai data tanpa merubah nilai. Proses ini melooping semua
data yang dimiliki nilai NaN pada setiap baris dan kolom. Pada proses ini juga penambahan label data berupa kelas 1 sampai 3.
Dimana kelas 1 berupa data sehat, kelas 2 berupa data kanker paru-paru dan kelas 3 berupa data kanker payudara. Pemberian label dilakukan secara
otomatis berdasarkan banyaknya data dari folder class sehat, kanker paru- paru, dan kanker payudara. Label ditaruh dibagian kolom pertama dari data
dan kolom selanjutnya berupa atribut.
3.2.3 Proses Training
Pada proses training, data dari tahap ekstraksi ciri akan diklasifikasi dengan menggunakan algoritma decision tree. Data sekuen protein yang telah
dilakukan ekstraksi ciri akan disimpan dalam format .mat. K-fold cross validation yang digunakan pada penelitian ini adalah dengan menggunakan 3-
fold cross-validation. Proses pembagian data mengunakan cv partition milik matlab dimana data akan dipartisi sebanyak k, dimana nilai k adalah 3, data
dipartisi menjadi 3 bagian untuk data training dan 3 bagian untuk data data testing. Data sebanyak 417 akan dibagi menjadi 3 bagian masing-masing 278
untuk training 1, 278 untuk training 2, dan 278 untuk training 3. Proses training digunakan untuk mendapatkan model dari klasifikasi dengan
menggunakan algoritma decision tree yaitu berupa tree. Berikut ini contoh data training 1 pada feature LPC dengan order 8.
Gambar 3. 8 Contoh data training 1 feature LPC dengan order 8
3.2.4 Tahap Klasifikasi Decision Tree
Data sekuen protein yang sudah diekstraksi ciri, selanjutnya masuk dalam proses klasifikasikan menggunakan algoritma decision tree. Data yang telah
dipartisi menjadi training 1, training 2, dan training 3, selanjutnya tiap training dan feature LPC dengan order 8 dan 12 akan dibuat model atau tree. Pada
penelitian ini menghasilkan 18 tree yang terbentuk berdasarkan kombanasi feature LPC dan training. Algoritma decision tree yang digunakan adalah
greedy decision tree. Langkah membuat tree dengan algoritma greedy decision tree:
a. Dimulai dari membuat decision tree kosong
Gambar 3. 9 decision tree kosong
b. Pisahkan pada yang memiliki atribut terbaik.
1. Hitung nilai entropy untuk semua atribut.
Entropy S = − ∑ p
=
∗ log p 3.1
Lalu cari nilai binari untuk setiap atribut terhadap kelas, nilai binary digunakan untuk perhitungan entropy terhadap
komposisi kelas. Entropy S = −p log p − − p log
− p 3.2 Dimana nilai p = 0.5 merupakan nilai p terbaik untuk
variabel binary.
Gambar 3. 10 entropy dari variabel binari
2. Hitung nilai entropy untuk semua data terhadap komposisi
kelas Entropy S|A = ∑
|S
i
| |S|
∗ Entropy S
=
3.3 3.
Hiitung nilai information gain untuk setiap atribut.
Gain S, A = Entropy S − ∑
|S
i
| |S|
∗ Entropy S
=
3.4
Gambar 3. 11 Contoh level pertama decision tree
c. Ulangi rekursif langkah 2 untuk setiap daun
Gambar 3. 12 Hasil Tree yang terbentuk dari training 3
3.2.5 Pengujian