Studi Pustaka Pengembangan hidden semi markov model dengan distribusi durasi state empiris untuk prediksi struktur sekunder protein

untuk komputasi dalam bidang Biologi khususnya melakukan prediksi struktur sekunder protein. Akan tetapi, penggunaan durasi state dan bagaimana pengaruh panjang durasi state atau panjang segmen struktur protein terhadap akurasi proses prediksi masih belum banyak dilakukan.

3.3 Perumusan Masalah dan Hipotesa Awal

Perumusan masalah dilakukan sebagai kerangka untuk melakukan penelitian ini. Berdasar permasalahan tersebut, akan diusulkan suatu pendekatan untuk mencari solusinya. Dalam hal ini, penggunaan panjang durasi state pada Hidden Semi Markov Model HSMM dapat meningkatkan akurasi dibandingkan dengan HMM standar dan penggunaan beberapa nilai panjang segmen atau panjang durasi state akan mempengaruhi nilai akurasi.

3.4 Pendefinisian Metode Penelitian

Setelah dilakukan perumusan masalah, maka dipilih metode penelitian yang sesuai dengan permasalahan yang ditemukan. Metode penelitian yang digunakan dalam penelitian ini dapat dilihat pada Gambar 7.

3.5 Pengambilan Data Struktur sekunder protein

Proses prediksi struktur sekunder protein ini diawali dengan pengambilan data sekuens protein sekunder yaitu DSSP dari alamat webstitehttp:swift.cmbi.ru.nlgvdssp yang merupakan database assignment struktur sekunder protein. Pemilihan ini didasarkan bahwa DSSP mencakup semua data protein yang ada di Protein Data Bank PDB. Data struktur sekunder protein yang diambil terdiri atas 42556 residu yang telah tersegmentasi menjadi 8 segmen struktur sekunder. Namun pada penelitian ini, segmen direduksi menjadi tiga, yaitu alpha-helix H, betha-sheet B dan coil C Aydinet al. 2006. Segmen hasil reduksi adalah {I,H,G} alpha-helixH, {E,B} betha-sheet B , segmen lainnya menjadi coil C. Data yang diperoleh dari alamat tersebut masih memiliki ekstensi format dengan ekstensi .dssp Define Secondary Structure of Protein. Oleh karena itu, sebelum digunakan untuk data pelatihan dan data pengujian terlebih dahulu dilakukan proses parsing dan pengkodean. Kedua proses tersebut dilakukan dengan memudahkan dalam proses komputasi. Hasil dari parsing dan pengkodean adalah pasangan asam amino dan assigment struktur sekunder protein yang telah dikodekan dalam bentuk bilangan integer. Format data dengan ekstensi .dssp merupakan file teks yang terdiri atas beberapa bagian. Gambar 8 merupakan contoh format data .dssp Gambar 8. Contoh Format Data Struktur sekunder protein dari file dengan ekstensi. dssp Define Secondary Structure of Protein 3.6 Pembuatan Model dengan HMM standar Pada tahap ini dilakukan proses pembentukan model dari data latih baik dengan HMMs standar dan Hidden Semi Markov Model HSMM. Prediksi struktur sekunder protein ini, model arsitektur HMM dapat diilustrasikan pada Gambar 9. Gambar 9. Ilustrasi HMM untuk prediksi strukutr protein sekunder Martin et al. 2005 Barisan H-B dan C menunjukkan model hidden state yang merepresentasikan alpha-helix H, betha-sheet B dan coil C, sedangkan barisan di bawah panah adalah barisan sekuens asam amino sebagai sekuens observasi observable sequence. Hasil dari proses pemodelan ini adalah matriks transisi dan matriks emisi yang telah memiliki nilai tertentu untuk dijadikan RESIDUE AA STRUCTURE BP1 … … … X-CA Y-CA Z-CA … … I H … … … … … … … … … … D H … … … … … … … … … … E H … … … … … … … … … … G C … … L C … … … … … … … …