Preprocessing Ekstraksi Ciri Metode Penelitian

berupa tree. Proses pengujian sistem atau testing bertujuan sebagai pengenalan atau penentuan jenis kanker. Proses training terdiri dari ekstraksi ciri dan klasifikasi decision tree untuk membentuk model. Proses testing terdiri dari ekstraksi ciri, klasifikasi dan validasi sehingga terbentuk presentase akurasi. Alur proses dari sistem bisa dilihat pada block diagram pada gambar 3.1 : Gambar 3. 1 Diagram proses training dan testing

3.2.1 Preprocessing

Tahap pre-processing merupakan tahapan awal dalam mengolahan data inputan sebelum masuk pada proses klasifikasi. Data yang dipre- processing kemudian akan masuk dalam tahap ekstraksi ciri. Tahap pre- processing pada penelitian ini menggunakan Electron- Ion Interaction Potential EIIP yang merupakan based protein value. Data Protein Ekstraksi Ciri Training Testing Modeling Decision tree Model Jenis Kanker Data Protein Ekstraksi Ciri Klasifikasi Decision tree Validasi Output Jenis Kanker Preprocessing Preprocessing Data Sekuen Protein Electron- Ion Interaction Potential EIIP based protein value Gambar 3. 2 Diagram Preprocessing Langkah pertama tahap pre-processing adalah data sekuen protein dengan format .fasta memilki dua bagian yaitu header dan sequence, bagian sequence yang berupa 1-latter code dari asam amino yang akan digunakan dalam tahap pre-processing menggunakan EIIP based protein value. Fungsi dari EIIP adalah mentransformasikan sequence yang bertipe String menjadi numerik berdasarkan nilai asam amino yang telah ditetapkan pada tabel 2. EIIP value amino acid. Berikut ini adalah contoh sequence yang telah ditransformasikan, yang divisualisasikan pada grafik seperti gambar 3.3 : Gambar 3. 3Grafik sekuen protein asam amino A2KUC3 yang telah ditrasformasikan dengan EIIP based protein value

3.2.2 Ekstraksi Ciri

Ekstraksi ciri merupakan proses mendapatkan ciri dari data yang sudah dikumpulkan, tujuan ekstraksi ciri ini adalah mendapatkan ciri penting dari data sekuen protein. Data Hasil Preprocessing FFT LPC Gambar 3. 4 Diagram ekstraksi ciri Sekuen protein asam amino yang telah ditransformasikan menjadi numerik menggunakan EIIP based protein value , selanjutnya masuk kedalam proses ekstraksi ciri dengan menggunakan Fast Fourier Transform FFT yaitu mengubah sinyal time base hasil pre-processing menjadi sinyal frequency based. Hasil dari proses FFT bisa dilihat pada grafik steam gambar dibawah ini : Gambar 3. 5 Sinyal stem ekstraksi ciri dengan FFT pada sekuen protein A2KUC3 Data yang telah diubah menjadi sinyal frequency based, selanjutnya ekstraksi ciri lagi dengan LPC. Fungsi LPC adalah untuk mendapatkan ciri dari setiap data yaitu dengan menghapus redundansi pada sinyal. Order yang digunakan dalam penelitian ini adalah order 8 dan order 12. Pemilihan order LPC berhubungan dengan pole, dimana pole yang berhubungan pada frekuensi. Pole yang biasa digunakan adalah pole 3 dan 4. Penelitian ini menggunakan pole 4 dengan order standar order 8 dan order 12 yang merupakan nilai order pole kedua 8+4. Nilai order yang dipilih pada penelitian ini berpengaruh pada nilai turunan LPC. Jika nilai order semakin besar, maka nilai ciri pada turuanan dari LPC semakin kecil. Pada penelitian ini, menggunakan 3 feature LPC yaitu LPC, delta LPC dan delta delta LPC. Delta LPC adalah turunan pertama dari LPC dan delta delta LPC adalah turunan kedua dari LPC. Turunan LPC digunakan untuk mendapatkan informasi dari ciri yang dinamis dari fitur statis. Pada order 8, setiap feature menghasilkan 8 ciri dan 1 energi. Jika semua feature LPC, deltaLPC, delta delta LPC digabungkan menjadi satu, maka panjang data yang terbentuk sebanyak 27, dimana panjang data akan menjadi atribut dari data dalam proses klasifikasi. Hasil dari proses LPC dengan order 8 feature LPC, delta LPC dan delta delta LPC pada gambarr dibawah ini : Gambar 3. 6 Sinyal stem LPC, delta LPC, delta delta LPC order 8 sekuen protein A2KUC3 Sedangkan, untuk order 12, setiap feature LPC menghasilkan 12 ciri dan 1 energi. Jika semua feature LPC, deltaLPC, delta delta LPC digabungkan menjadi satu, maka panjang data yang terbentuk sebanyak 39, dimana panjang data akan menjadi atribut dari data dalam proses klasifikasi. Hasil dari proses LPC dengan order 12 dengan feature LPC, delta LPC dan delta delta LPC bisa dilihat pada grafik steam gambar 3.7 : Gambar 3. 7 Sinyal stem LPC, delta LPC, delta delta LPC order 12 sekuen protein A2KUC3 Setelah proses ektraksi ciri selasai, maka dilakukan cleaning data dari hasil ekstraksi ciri yang memiliki missing value. Pada penelitian ini missing value berupa nilai NaN akan diberi nilai baru yaitu nilai 0, untuk menormalisasikan nilai data tanpa merubah nilai. Proses ini melooping semua data yang dimiliki nilai NaN pada setiap baris dan kolom. Pada proses ini juga penambahan label data berupa kelas 1 sampai 3. Dimana kelas 1 berupa data sehat, kelas 2 berupa data kanker paru-paru dan kelas 3 berupa data kanker payudara. Pemberian label dilakukan secara otomatis berdasarkan banyaknya data dari folder class sehat, kanker paru- paru, dan kanker payudara. Label ditaruh dibagian kolom pertama dari data dan kolom selanjutnya berupa atribut.

3.2.3 Proses Training