Terdapat tiga tahapan dalam pengenalan pola yaitu yaitu pre-processing, ekstraksi ciri atau seleksi fitur dan klasifikasi. Pre-processing merupakan tahapan
awal dalam mengolah data inputan sebelum masuk pada proses klasifiksi. Data pre-processing kemudian masuk pada tahap ekstraksi ciri. Ekstraksi ciri adalah
suatu pengambilan ciri atau fitur dari suatu data, dimana nilai yang didapatkan dianalisis untuk proses klasifikasi. Tahap terakhir adalah klasifikasi, data yang
sudah diekstrak akan digunakan untuk klasifikasi yang mengevaluasi informasi yang masuk dan menghasilkan keputusan akhir.
2.4 Preprocessing dan Ekstraksi Ciri
Ekstraksi ciri merupakan proses mendapatkan ciri tertentu dari data yang sudah dikumpulkan. Tujuan dari proses ekstraksi ciri ini adalah mencari
karakteristik penting yang berguna untuk proses pengenalan dan mengurangi dimesi reduksi dimensi pengukuran ruang sehingga efektif dan algoritma dengan
komputasi yang mudah bisa digunakan untuk klasifikasi yang efektif.
Gambar 2. 3 Blok diagram Proses Preprocessing dan Ekstraksi Ciri
Langkah Pertama untuk mendapatkan ciri dari data sekuen protein adalah tahap pre-processing yaitu mengubah data .fasta yang bertipe String
menjadi bertipe numerik dengan memberikan nilai Electron- Ion Interaction Potential EIIP, lalu diproses menggunakan Fast Fourier Transform FFT
untuk mengubah data dari numerik menjadi data sinyal dan Linier Predictive Coding LPC mendapatkan ciri dari setiap data.
2.4.1. Electron- Ion Interaction Potential EIIP
EIIP adalah salah satu paremeter asam amino yang digunakan untuk mengubah data sekuen asam amino menjadi sekuen numerik dimana setiap
Data Sekuen Protein
EIIP FFT
LPC
asam amino akan diberikan nilai konstanta berdasarkan EIIP value. Perhitungan dalam EIIP value adalah menggunakan energi dari elektron
valensi dan dihitung untuk setiap asam amino menggunakan model umum dari pseudopotensial adalah sebagai berikut.
W = . 5
Z
∗
. 4πZ
∗
π
2.1 Dimana Z
memwakili dari rata-rata nilai equevalensi, dengan rumus
dibawah ini:
Z
∗
=
N
∑ n
=
Z 2.2 Dimana Z
i
adalah nomer valensi dari i-komponen atom, n
i
adalah nomer dari i-komponen atom, m adalah nomer komponen atom di monekul, dan N
adalah total nomer atom. Seperti telah menunjukan bahwa perioditas dari EIIP disepanjang sekuen protein berkorelasi dengan biologis protein,
terutama dengan interaksi spesifik dengan ligan dan protein lainnya. Branislava Gemovic et al . 2013.
Tabel 2. 1EIIP value amino acid Amino Acid
1-Letter code Numerical code
EIIP
Leucine L
0.0000
Isoluecine I
0.0000
Asparagine N
0.0036
Glycine
G 0.0050
Valine
V 0.0057
Glutamic Acid E
0.0058
Proline P
0.0198
Histidine H
0.0242
Lysine
K 0.0371
Alanine
A 0.0373
Tyrosine Y
0.0516
Trytophan W
0.0548
Glutamine
Q 0.0761
Methionine M
0.0823
Serine S
0.0829
Cysteine C
0.0829
Threonine T
0.0941
Phenylalanine
F 0.0954
Arginine R
0.0956
Aspartic Acid D
0.1263
2.4.2. Fast Fourier Transform FFT
Algoritma Alihragam Fourier Cepat atau Fast Fourier Transform FFT merupakan prosedur penghitungan DFT yang efisien sehingga akan
mempercepat proses penghitungan DFT. Bila diterapkan pada kawasan waktu maka algoritma ini disebut juga sebagai FFT penipisan dalam waktu atau
decimation-in-time DIT. Penipisan kemudian mengarah pada pengurangan yang signifikan dalam sejumlah perhitungan yang dilakukan pada data
kawasan waktu. Persamaanya menjadi : H k = ∑
h n W
N
, untuk ≤ k ≤ N −
N− =
2.3 Dimana faktor
�
−�2� �
akan ditulis sebagai : W
N
= e
− π N
⁄
= cos π N ⁄ − j sin π N
⁄ 2.4
Akhiran n pada Persamaan 2.4 diperluas dari n=0 sampai dengan n=N-1, bersesuaian dengan nilai data h0, h1, h2, h3...hN-1. Runtun bernomor
genap adalah h0, h2, h4....hN-2 dan runtun bernomor ganjil adalah h1, h3....hN-1. Kedua runtun berisi N2-titik. Runtun genap dapat ditandakan
h2n dengan n=0 sampai n=N2-1, sedangkan runtun ganjil menjadi h2n-1. Kemudian Persamaan selanjutnya dapat ditulis ulang menjadi :
H k = ∑ h n W
N
+ ∑ h n − W
N +
N −
⁄ =
N −
⁄ =
= ∑ h n W
N
+ W
N
∑ h n − W
N N
− ⁄
= N
− ⁄
=
,
untuk ≤ k ≤ N − 2.5 Selanjutnya dengan menganti
�
� ��
menjadi �
�⁄ ��
maka persamaan selanjutnya menjadi : Nandra Pradipta. 2011
H k = ∑ h n W
N⁄
+ W
N
∑ h n − W
N⁄ N
− ⁄
= N
− ⁄
=
2.6 Untuk melakukan analisis frekuensi di dalam MATLAB, telah tersedia
command “Fast Fourier Transform” FFT sebagai berikut:
y = fft x 2.7
2.4.3. Linier Predictive Coding LPC