hoterosiklik.
2.2.2. Asam Amino
Asam Amino merupakan bagian struktur protein dan menentukan banyak sifatnya yang penting. Gilisin merupakan asam amino pertama yang telah
diisolasi dari hidrolisat protein, sedangkan teronin adalah asam amino pembentuk protein yang paling akhir dapat diisolasi, yaitu dari hidrolisat
fibrin. Ke-20 macam amino berserta simbol kependekannya yaitu Alamin A, Arginin R, Asparagin N, Asam Aspartat D, Sistein C, Glutamin Q,
Asam Glutamat E, Glisin G, Histidin H, Isolesin I, Lesin L, Lisin K, Metionim M, Femilalanim F, Prolin P, Serin S, Treonin T, Triptofan
W, Tirosin Y, Valin V Muhamad Wirawadikusma. 1977.
2.3 Pengenalan Pola
Secara umum pengenalan pola pattern recognition adalah ilmu untuk mengklasifikasikan atau menggambarkan sesuatu berdasarkan kuantitatif fitur
ciri atau sifat utama dari suatu objek. Pola sendiri adalah suatu entitas yang terdefinisi dan didefinisikan serta dapat diberi nama. Sidik jari adalah suatu
contoh pola. Pola biasanya merupakan hasil kumpulan hasil suatu pengukuran atau pemantauan dan bisa dinyatakan dalam notasi vector atau matrik. Putra,
2010.
Gambar 2. 2 Mekanisme Pengenalan Pola
Pengenalan pola berkaitan dengan menemukan algoritma dan metode atau alat yang bisa membuata implementasi komputer yang digunakan untuk berbagai
macam tugas pengenalan yang biasa dilakukan oleh manusia. Tujuan dari mengerjakan apa yang tidak bisa dilakukan oleh manusia seperti membaca
barcode, dan membuat proses pembuatan keputusan menjadi otomatis yang mengarah ke pengenalan klasifikasi. Sankar K. Pal and Pabita Mitra. 2004.
Pra- pengolahan
n Pencarian dan
seleksi fitur Algoritma
klasifikasi
Terdapat tiga tahapan dalam pengenalan pola yaitu yaitu pre-processing, ekstraksi ciri atau seleksi fitur dan klasifikasi. Pre-processing merupakan tahapan
awal dalam mengolah data inputan sebelum masuk pada proses klasifiksi. Data pre-processing kemudian masuk pada tahap ekstraksi ciri. Ekstraksi ciri adalah
suatu pengambilan ciri atau fitur dari suatu data, dimana nilai yang didapatkan dianalisis untuk proses klasifikasi. Tahap terakhir adalah klasifikasi, data yang
sudah diekstrak akan digunakan untuk klasifikasi yang mengevaluasi informasi yang masuk dan menghasilkan keputusan akhir.
2.4 Preprocessing dan Ekstraksi Ciri
Ekstraksi ciri merupakan proses mendapatkan ciri tertentu dari data yang sudah dikumpulkan. Tujuan dari proses ekstraksi ciri ini adalah mencari
karakteristik penting yang berguna untuk proses pengenalan dan mengurangi dimesi reduksi dimensi pengukuran ruang sehingga efektif dan algoritma dengan
komputasi yang mudah bisa digunakan untuk klasifikasi yang efektif.
Gambar 2. 3 Blok diagram Proses Preprocessing dan Ekstraksi Ciri
Langkah Pertama untuk mendapatkan ciri dari data sekuen protein adalah tahap pre-processing yaitu mengubah data .fasta yang bertipe String
menjadi bertipe numerik dengan memberikan nilai Electron- Ion Interaction Potential EIIP, lalu diproses menggunakan Fast Fourier Transform FFT
untuk mengubah data dari numerik menjadi data sinyal dan Linier Predictive Coding LPC mendapatkan ciri dari setiap data.
2.4.1. Electron- Ion Interaction Potential EIIP
EIIP adalah salah satu paremeter asam amino yang digunakan untuk mengubah data sekuen asam amino menjadi sekuen numerik dimana setiap
Data Sekuen Protein
EIIP FFT
LPC
asam amino akan diberikan nilai konstanta berdasarkan EIIP value. Perhitungan dalam EIIP value adalah menggunakan energi dari elektron
valensi dan dihitung untuk setiap asam amino menggunakan model umum dari pseudopotensial adalah sebagai berikut.
W = . 5
Z
∗
. 4πZ
∗
π
2.1 Dimana Z
memwakili dari rata-rata nilai equevalensi, dengan rumus
dibawah ini:
Z
∗
=
N
∑ n
=
Z 2.2 Dimana Z
i
adalah nomer valensi dari i-komponen atom, n
i
adalah nomer dari i-komponen atom, m adalah nomer komponen atom di monekul, dan N
adalah total nomer atom. Seperti telah menunjukan bahwa perioditas dari EIIP disepanjang sekuen protein berkorelasi dengan biologis protein,
terutama dengan interaksi spesifik dengan ligan dan protein lainnya. Branislava Gemovic et al . 2013.
Tabel 2. 1EIIP value amino acid Amino Acid
1-Letter code Numerical code
EIIP
Leucine L
0.0000
Isoluecine I
0.0000
Asparagine N
0.0036
Glycine
G 0.0050
Valine
V 0.0057
Glutamic Acid E
0.0058
Proline P
0.0198
Histidine H
0.0242
Lysine
K 0.0371
Alanine
A 0.0373
Tyrosine Y
0.0516
Trytophan W
0.0548
Glutamine
Q 0.0761
Methionine M
0.0823
Serine S
0.0829
Cysteine C
0.0829
Threonine T
0.0941
Phenylalanine
F 0.0954
Arginine R
0.0956
Aspartic Acid D
0.1263
2.4.2. Fast Fourier Transform FFT
Algoritma Alihragam Fourier Cepat atau Fast Fourier Transform FFT merupakan prosedur penghitungan DFT yang efisien sehingga akan
mempercepat proses penghitungan DFT. Bila diterapkan pada kawasan waktu maka algoritma ini disebut juga sebagai FFT penipisan dalam waktu atau
decimation-in-time DIT. Penipisan kemudian mengarah pada pengurangan yang signifikan dalam sejumlah perhitungan yang dilakukan pada data
kawasan waktu. Persamaanya menjadi : H k = ∑
h n W
N
, untuk ≤ k ≤ N −
N− =
2.3 Dimana faktor
�
−�2� �
akan ditulis sebagai : W
N
= e
− π N
⁄
= cos π N ⁄ − j sin π N
⁄ 2.4
Akhiran n pada Persamaan 2.4 diperluas dari n=0 sampai dengan n=N-1, bersesuaian dengan nilai data h0, h1, h2, h3...hN-1. Runtun bernomor
genap adalah h0, h2, h4....hN-2 dan runtun bernomor ganjil adalah h1, h3....hN-1. Kedua runtun berisi N2-titik. Runtun genap dapat ditandakan
h2n dengan n=0 sampai n=N2-1, sedangkan runtun ganjil menjadi h2n-1. Kemudian Persamaan selanjutnya dapat ditulis ulang menjadi :
H k = ∑ h n W
N
+ ∑ h n − W
N +
N −
⁄ =
N −
⁄ =
= ∑ h n W
N
+ W
N
∑ h n − W
N N
− ⁄
= N
− ⁄
=
,
untuk ≤ k ≤ N − 2.5 Selanjutnya dengan menganti
�
� ��
menjadi �
�⁄ ��
maka persamaan selanjutnya menjadi : Nandra Pradipta. 2011
H k = ∑ h n W
N⁄
+ W
N
∑ h n − W
N⁄ N
− ⁄
= N
− ⁄
=
2.6 Untuk melakukan analisis frekuensi di dalam MATLAB, telah tersedia
command “Fast Fourier Transform” FFT sebagai berikut:
y = fft x 2.7
2.4.3. Linier Predictive Coding LPC
Analisa Linear Predictive Coding LPC adalah salah satu cara untuk mendapatkan sebuah pendekatan mengenai spektrum bunyi. Prinsip dasar dari
pemodelan sinyal dengan menggunakan LPC adalah bahwa pencuplikan sinyal ucapan sn pada waktu ke-n dapat diperkirakan sebagai kombinasi
linear dari p cuplikan sinyal ucapan sebelumnya yaitu : s n ≈ a s n −
+ a s n − + ⋯ + a
p
s n − p , p � 2.8 Dimana koefisien a
1
, a
2
,…,a
p
diasumsikan konstan selama analisi frame suara Novi Aryanto, 2011.
Secara umum metode yang digunakan utuk mendapatkan informasi dari ciri yang dinamis biasa disebut dengan delta-feature. Turunan watu dari ciri
dapat dihitung dengan beberapa metode, hasil dari perhitungan delta akan ditambahkan ke vector ciri, sehingga menghasilkan vector ciri yang lebih
besar. ∆y
=
y
+D
− y
−D
2.9 Dimana D mewakili jumlah dari frame untuk menutup kedua sisi frame
saat ini dan dengan demikian dapat mengontrol window y dengan pembedaan operasi. D diset bernilai 1 atau 2.
∆y adalah koefisien delta yang dihitung dari frame t untuk vektor fitur LPC F.Z. Chelali, etc, 2015.
Nilai dari delta akan diturunkan sekali lagi terhadpa waktu menjadi nilai delta delta pada beberapa kasus delta delta disebut dengan koefisien
percepatan, kerena nilai tersebut turunan dari kuadrat waktu dari koefisien. ∆∆y
=
∆y
+D
− ∆y
−D
2.10 Pengukuran energi merupakan salah satu cara untuk menambah nilai
koefisien yang dihitung dari LPC, nilai tersebut merupakan log energy signal. Ini berarti pada setiap frame tredapat nilai energi yang ditambahkan, berikut
rumus untuk menghitung nilai energi : E
= log ∑ x_windowed
− =
k; m 2.11
Dimana x_windowed adalah sinyal hasil windowing, k adalah jumlah frame dan m adalah panjang frame Muslim Sidiq, etc, 2015.
Analisis LPC pada dasarnya digunakan untuk mendapatkan koefisien LPC yang diperlihatkan pada gambar 2.4.
Gambar 2. 4 Blok diagram analisis LPC
2.5 Algoritma Decision Tree
Pohon keputusan decision tree merupakan metode penambangan data meodel klasifikasi. Salah satu metode data mining yang umum digunakan adalah
decision tree. Konsep decision tree adalah suatu struktur flowcart yang menyerupain tree pohon, dimana setiap simpul internal menandakan suatu tes
pada atribut, setiap cabang mempresentasikan hasil tes dan simpul daun mempresentasikan kelas atau distribusi kelas. Alur pada decision tree di telusuri
dari simpul akar ke simpil daun yang memegang prekdisi kelas untuk untuk contoh tersebut. Jiawei Han dan Micheline Kamber. 2006.
Sinyal ucap diskret
Pembingkian sinyal Frame
Penjendelaan Metode
Autokorelasi Parameter
Keluaran
Gambar 2. 5 Contoh Pohon Keputusan
Decision tree digunakan untuk kasus-kasus yang menghasilkan output bernilai diskrit. Walaupun banyak variasi model decision tree dengan tingkat kemampuan
dan syarat yang berbeda, pada umumnya beberapa ciri khusus yang cocok untuk diterapkan dengan metode decision tree :
1. Data dinyatakan dengan pasangan atribut dan nilainya.
2. Label output data biasanya bernilai diskrit.
3. Data mempunyai missing value.
Dalam decision tree setiap atribut ditanyakan disimpul. Jawaban dari atribut ini dinyatakan dalam cabang sampai akhirnya ditemukan kategorijenis dari suatu
objek disimpul akhir .Untuk membuat decision tree perlu diperhatikan beberapa syarat berikut : Budi Santoso. 2007
1. Atribut mana yang akan dipilih untuk memisahan objek
2. Urutan atribut mana yang akan dipilih terlebih dahulu
3. Struktur tree
4. Kriteria pemberhentian
5. Pruning
Masalah pertama pada decision tree adalah atribut manakah yang digunakan sebagai akar atau root dari tree yang akan dibentuk. Akar yang dimaksud adalah
pemisah pertama dari decision tree. Dikenal dengan istilah Bayesian Score yang menilai suatu atribut atau dalam decision tree disebut dengan entropy. Entropy
dihitung dengan rumus sebagai berikut: Prabowo, Rahmadya dan Herlawati.
Akar
Daun Daun
Kemungkinan Kejadian
Kemungkinan Kejadian
caban g
2013 Entropy S = − ∑
p
=
∗ log p 2.12
Keterangan : S = Himpunan Kasus
n = jumlah partisi atribut S pi = proporsi Si terhadap S
Setelah mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka dapat melakukan pengukuran efektoivitas suatu atribut dalam pengklasifikasikan
data. Ukuran efektivitas ini yang disebut dengan information gain. Information Gain adalah salah satu alat ukur seleksi atribut yang digunakan untuk memilih
data test atribut tiap node pada tree. Atribut dengan information Gain tertinggi dipilih sebagai data test atribut dari suatu node selanjutnya. Rumus untuk
information Gain adalah: Kantardzic. 2003 Gain S, A = Entropy S − ∑
|S
i
| |S|
∗ Entropy S
=
2.10 Keterangan :
S = Himpunan Kasus A = Fiture
n = jumlah partisi atributA │Si│
= proporsi Si terhadap S │S│
= jumlah kasus pada S
2.6 K-Fold Cross Validation