Pengambilan Data Struktur sekunder protein
sebelum digunakan untuk data pelatihan dan data pengujian terlebih dahulu dilakukan proses parsing dan pengkodean. Kedua proses tersebut dilakukan
dengan memudahkan dalam proses komputasi. Hasil dari parsing dan pengkodean adalah pasangan asam amino dan assigment struktur sekunder protein yang telah
dikodekan dalam bentuk bilangan integer. Format data dengan ekstensi .dssp merupakan file teks yang terdiri atas beberapa bagian. Gambar 8 merupakan
contoh format data .dssp
Gambar 8. Contoh Format Data Struktur sekunder protein dari file dengan ekstensi. dssp Define Secondary Structure of Protein
3.6 Pembuatan Model dengan HMM standar
Pada tahap ini dilakukan proses pembentukan model dari data latih baik dengan HMMs standar dan Hidden Semi Markov Model HSMM. Prediksi
struktur sekunder protein ini, model arsitektur HMM dapat diilustrasikan pada Gambar 9.
Gambar 9. Ilustrasi HMM untuk prediksi strukutr protein sekunder Martin et al. 2005
Barisan H-B dan C menunjukkan model hidden state yang merepresentasikan alpha-helix H, betha-sheet B dan coil C, sedangkan
barisan di bawah panah adalah barisan sekuens asam amino sebagai sekuens observasi observable sequence. Hasil dari proses pemodelan ini adalah matriks
transisi dan matriks emisi yang telah memiliki nilai tertentu untuk dijadikan
RESIDUE AA STRUCTURE BP1 … … … X-CA Y-CA Z-CA …
… I
H … … … … … …
… … … …
D H
… … … … … … … …
… …
E H
… … … … … … … …
… … G
C …
… L
C … … … … … …
… …
model dalam proses prediksi. Model tersebut kemudian akan disimpan dalam repositori.