Pengambilan Data Struktur sekunder protein

sebelum digunakan untuk data pelatihan dan data pengujian terlebih dahulu dilakukan proses parsing dan pengkodean. Kedua proses tersebut dilakukan dengan memudahkan dalam proses komputasi. Hasil dari parsing dan pengkodean adalah pasangan asam amino dan assigment struktur sekunder protein yang telah dikodekan dalam bentuk bilangan integer. Format data dengan ekstensi .dssp merupakan file teks yang terdiri atas beberapa bagian. Gambar 8 merupakan contoh format data .dssp Gambar 8. Contoh Format Data Struktur sekunder protein dari file dengan ekstensi. dssp Define Secondary Structure of Protein 3.6 Pembuatan Model dengan HMM standar Pada tahap ini dilakukan proses pembentukan model dari data latih baik dengan HMMs standar dan Hidden Semi Markov Model HSMM. Prediksi struktur sekunder protein ini, model arsitektur HMM dapat diilustrasikan pada Gambar 9. Gambar 9. Ilustrasi HMM untuk prediksi strukutr protein sekunder Martin et al. 2005 Barisan H-B dan C menunjukkan model hidden state yang merepresentasikan alpha-helix H, betha-sheet B dan coil C, sedangkan barisan di bawah panah adalah barisan sekuens asam amino sebagai sekuens observasi observable sequence. Hasil dari proses pemodelan ini adalah matriks transisi dan matriks emisi yang telah memiliki nilai tertentu untuk dijadikan RESIDUE AA STRUCTURE BP1 … … … X-CA Y-CA Z-CA … … I H … … … … … … … … … … D H … … … … … … … … … … E H … … … … … … … … … … G C … … L C … … … … … … … … model dalam proses prediksi. Model tersebut kemudian akan disimpan dalam repositori.

3.7 Pembuatan Model dengan Hidden Semi Markov Model HSMM

Pemodelan prediksi struktur sekunder protein dengan HSMM berbeda dengan HMM standar. Pada pemodelan dengan HSMM, durasi state oleh observasi tertentu sangat dipertimbangkan. Pada HSMM tidak terjadi transisi suatu state terhadap dirinya sendiri. Ilustrasi pemodelan prediksi struktur sekunder protein dengan HSMM dapat dilihat pada Gambar 10. Gambar 10. Pemodelan prediksi struktur sekunder protein dengan menggunakan Hidden Semi Markov Model HSMM

3.8 Pengujian

Tahap pengujian dilakukan untuk melihat akurasi dari prediksi yang dilakukan. Pengujian dilakukan baik dengan menggunakan data uji untuk melihat hasil klasifikasi. Hasil pengujian dilakukan dengan menghitung presentase data yang benar dikelaskan dibandingkan dengan semua data uji. Formula untuk melakukan pengujian dapat dilihat pada persamaan 28. ...............................................28

3.9 Riset Pendahuluan

Riset pendahuluan dilakukan untuk mengetahui distribusi setiap segmen baik alpha-helix H, betha-sheet B dan coil C. Distribusi pada awalnya dilakukan dengan pembangkitan menggunakan pendekatan teoritis. Akan tetapi …….. …….. O T d 1 d 2 1 2 3 4 5 6 ……... H B d n i n observasi waktu durasi state sekuens transisi D E V H A S ……. permasalahannya adalah dengan pembangkitan nilai distribusi ini masih belum merepresentasikan kondisi data yang sebenarnya. Oleh karena itu, dilakukan perhitungan distribusi secara empiris dan secara keseluruhan diperoleh informasi bahwa struktur alpha-helix terdiri atas 1853 segmen, struktur betha-sheet terdiri atas 1805 segmen dan struktur coil terdiri atas 3566 segmen. Harapannya dari data tersebut, didapatkan informasi yang lebih baik sehingga proses prediksi struktur sekunder protein menghasilkan akurasi yang lebih tinggi.