berupa tree. Proses pengujian sistem atau testing bertujuan sebagai pengenalan atau penentuan jenis kanker. Proses training terdiri dari ekstraksi ciri dan
klasifikasi decision tree untuk membentuk model. Proses testing terdiri dari ekstraksi ciri, klasifikasi dan validasi sehingga terbentuk presentase akurasi.
Alur proses dari sistem bisa dilihat pada block diagram pada gambar 3.1 :
Gambar 3. 1 Diagram proses training dan testing
3.2.1 Preprocessing
Tahap pre-processing merupakan tahapan awal dalam mengolahan data inputan sebelum masuk pada proses klasifikasi. Data yang dipre-
processing kemudian akan masuk dalam tahap ekstraksi ciri. Tahap pre- processing pada penelitian ini menggunakan Electron- Ion Interaction
Potential EIIP yang merupakan based protein value. Data Protein
Ekstraksi Ciri Training
Testing
Modeling Decision tree
Model Jenis Kanker
Data Protein
Ekstraksi Ciri
Klasifikasi Decision tree
Validasi
Output Jenis Kanker
Preprocessing Preprocessing
Data Sekuen Protein
Electron- Ion Interaction Potential EIIP based
protein value
Gambar 3. 2 Diagram Preprocessing
Langkah pertama tahap pre-processing adalah data sekuen protein dengan format .fasta memilki dua bagian yaitu header dan sequence, bagian sequence
yang berupa 1-latter code dari asam amino yang akan digunakan dalam tahap pre-processing menggunakan EIIP based protein value. Fungsi dari EIIP
adalah mentransformasikan sequence yang bertipe String menjadi numerik berdasarkan nilai asam amino yang telah ditetapkan pada tabel 2. EIIP value
amino acid. Berikut ini adalah contoh sequence yang telah ditransformasikan, yang divisualisasikan pada grafik seperti gambar 3.3 :
Gambar 3. 3Grafik sekuen protein asam amino A2KUC3 yang telah ditrasformasikan dengan EIIP based protein value
3.2.2 Ekstraksi Ciri
Ekstraksi ciri merupakan proses mendapatkan ciri dari data yang sudah dikumpulkan, tujuan ekstraksi ciri ini adalah mendapatkan ciri penting dari
data sekuen protein.
Data Hasil Preprocessing
FFT LPC
Gambar 3. 4 Diagram ekstraksi ciri
Sekuen protein asam amino yang telah ditransformasikan menjadi numerik menggunakan EIIP based protein value , selanjutnya masuk kedalam
proses ekstraksi ciri dengan menggunakan Fast Fourier Transform FFT yaitu mengubah sinyal time base hasil pre-processing menjadi sinyal
frequency based. Hasil dari proses FFT bisa dilihat pada grafik steam gambar dibawah ini :
Gambar 3. 5 Sinyal stem ekstraksi ciri dengan FFT pada sekuen protein A2KUC3
Data yang telah diubah menjadi sinyal frequency based, selanjutnya ekstraksi ciri lagi dengan LPC. Fungsi LPC adalah untuk mendapatkan ciri
dari setiap data yaitu dengan menghapus redundansi pada sinyal. Order yang digunakan dalam penelitian ini adalah order 8 dan order 12. Pemilihan order
LPC berhubungan dengan pole, dimana pole yang berhubungan pada frekuensi. Pole yang biasa digunakan adalah pole 3 dan 4. Penelitian ini
menggunakan pole 4 dengan order standar order 8 dan order 12 yang
merupakan nilai order pole kedua 8+4. Nilai order yang dipilih pada penelitian ini berpengaruh pada nilai turunan LPC. Jika nilai order semakin
besar, maka nilai ciri pada turuanan dari LPC semakin kecil. Pada penelitian ini, menggunakan 3 feature LPC yaitu LPC, delta LPC dan delta delta LPC.
Delta LPC adalah turunan pertama dari LPC dan delta delta LPC adalah turunan kedua dari LPC. Turunan LPC digunakan untuk mendapatkan
informasi dari ciri yang dinamis dari fitur statis. Pada order 8, setiap feature menghasilkan 8 ciri dan 1 energi. Jika semua
feature LPC, deltaLPC, delta delta LPC digabungkan menjadi satu, maka panjang data yang terbentuk sebanyak 27, dimana panjang data akan menjadi
atribut dari data dalam proses klasifikasi. Hasil dari proses LPC dengan order 8 feature LPC, delta LPC dan delta delta LPC pada gambarr dibawah ini
:
Gambar 3. 6 Sinyal stem LPC, delta LPC, delta delta LPC order 8 sekuen protein A2KUC3
Sedangkan, untuk order 12, setiap feature LPC menghasilkan 12 ciri dan 1 energi. Jika semua feature LPC, deltaLPC, delta delta LPC digabungkan
menjadi satu, maka panjang data yang terbentuk sebanyak 39, dimana panjang data akan menjadi atribut dari data dalam proses klasifikasi. Hasil dari proses
LPC dengan order 12 dengan feature LPC, delta LPC dan delta delta LPC bisa dilihat pada grafik steam gambar 3.7 :
Gambar 3. 7 Sinyal stem LPC, delta LPC, delta delta LPC order 12 sekuen protein A2KUC3
Setelah proses ektraksi ciri selasai, maka dilakukan cleaning data dari hasil ekstraksi ciri yang memiliki missing value. Pada penelitian ini missing
value berupa nilai NaN akan diberi nilai baru yaitu nilai 0, untuk menormalisasikan nilai data tanpa merubah nilai. Proses ini melooping semua
data yang dimiliki nilai NaN pada setiap baris dan kolom. Pada proses ini juga penambahan label data berupa kelas 1 sampai 3.
Dimana kelas 1 berupa data sehat, kelas 2 berupa data kanker paru-paru dan kelas 3 berupa data kanker payudara. Pemberian label dilakukan secara
otomatis berdasarkan banyaknya data dari folder class sehat, kanker paru- paru, dan kanker payudara. Label ditaruh dibagian kolom pertama dari data
dan kolom selanjutnya berupa atribut.
3.2.3 Proses Training