III METODE PENELITIAN
3.1 Kerangka Pemikiran
Protein merupakan aktor utama pada makhluk hidup yang memiliki berbagai fungsi yang sangat penting. Protein terbentuk dari asam amino
pembentuknya dengan karakteristik yang berbeda. Struktur protein dapat dilihat secara hierarki sebagai struktur primer, sekunder dan tersier Polanski dan
Kimmel 2007. Prediksi struktur sekunder protein memiliki peranan yang penting sebelum protein tersebut mengalami pelipatan. Di antara model yang digunakan
untuk melakukan prediksi struktur protein ini adalah Hidden Markov Model HMM.
Umumnya proses pelatihan untuk membuat model pada HMMs dapat dilakukan dengan Algoritme Baum-Welch. Proses pelatihan ini tidak
mempertimbangkan durasi state atau panjang segmen dari setiap struktur baik alpha-helix H, betha-sheet B atau coil C. Aydin et al. 2006 melakukan
penelitian untuk memprediksi struktur sekunder protein dengan mempertimbangkan panjang durasi state atau panjang segmen tiap struktur protein
tersebut yang dikenal dengan Hidden Semi Markov Model HSMM. Namun demikian, pada penelitian tersebut panjang segmen ditetapkan dengan nilai
tertentu dan bagaimana menentukan nilainya tidak disebutkan. Padahal panjang segmen struktur bisa diperoleh secara empiris dari data latih yang digunakan.
Di sisi lain, Hidden Semi Markov Model HSMM yang pertama kali diperkenalkan oleh Ferguson memiliki kompleksitas sebesar OMD
2
+M
2
T dengan M adalah Matriks transisi, T adalah sekuens observasi dan D adalah
panjang durasi state Yu dan Kobayashi 2003. Algoritme ini kemudian diefisienkan sehingga kompleksitasnya menjadi OMD+M
2
T dan kebutuhan alokasi memori memiliki kompleksitas OMT Yu dan Kobayashi 2003.
Penelitian ini mengusulkan untuk membuat model dengan menggunakan Hidden Semi Markov Model HSMM yang telah diefisienkan kompleksitasnya
dan dibandingkan dengan akurasi Hidden Markov Model HMM standar. Model HSMM pada penelitian ini menggunakan distribusi panjang durasi state baik
secara empiris maupun teoritis. Penelitian ini juga akan melihat pengaruh distribusi panjang durasi state terdapat nilai akurasi prediksi struktur sekunder
protein. Diagram alur penelitian ini secara umum dapat dilihat pada Gambar 7.
Gambar 7. Diagram alur penelitian prediksi struktur sekunder protein
3.2 Studi Pustaka
Studi pustaka dilakukan untuk mencari riset-riset terbaru yang terkait dengan penelitian yang akan dilakukan. Dari riset yang telah dilakukan tersebut,
penggunaan Hidden Markov Model HMM memang telah banyak digunakan
perumusan masalah pendefinisian
metode penelitian pengambilan data
data latih
data uji
data latih tanpa panjang
durasi state data latih
dengan beberapa panjang durasi state
Pelatihan Pelatihan
pengujian
perhitungan dan perbandingan
akurasi dokumentasi
selesai Model
HMM Model
HSMM tahap pelatihan
tahap pengujian mulai
untuk komputasi dalam bidang Biologi khususnya melakukan prediksi struktur sekunder protein. Akan tetapi, penggunaan durasi state dan bagaimana pengaruh
panjang durasi state atau panjang segmen struktur protein terhadap akurasi proses prediksi masih belum banyak dilakukan.
3.3 Perumusan Masalah dan Hipotesa Awal
Perumusan masalah dilakukan sebagai kerangka untuk melakukan penelitian ini. Berdasar permasalahan tersebut, akan diusulkan suatu pendekatan
untuk mencari solusinya. Dalam hal ini, penggunaan panjang durasi state pada Hidden Semi Markov Model HSMM dapat meningkatkan akurasi dibandingkan
dengan HMM standar dan penggunaan beberapa nilai panjang segmen atau panjang durasi state akan mempengaruhi nilai akurasi.
3.4 Pendefinisian Metode Penelitian
Setelah dilakukan perumusan masalah, maka dipilih metode penelitian yang sesuai dengan permasalahan yang ditemukan. Metode penelitian yang
digunakan dalam penelitian ini dapat dilihat pada Gambar 7.
3.5 Pengambilan Data Struktur sekunder protein
Proses prediksi struktur sekunder protein ini diawali dengan pengambilan data sekuens protein sekunder yaitu DSSP dari alamat
webstitehttp:swift.cmbi.ru.nlgvdssp yang merupakan database assignment struktur sekunder protein. Pemilihan ini didasarkan bahwa DSSP mencakup
semua data protein yang ada di Protein Data Bank PDB. Data struktur sekunder protein yang diambil terdiri atas 42556 residu yang telah tersegmentasi menjadi 8
segmen struktur sekunder. Namun pada penelitian ini, segmen direduksi menjadi tiga, yaitu alpha-helix H, betha-sheet B dan coil C Aydinet al. 2006.
Segmen hasil reduksi adalah {I,H,G} alpha-helixH, {E,B} betha-sheet B , segmen lainnya menjadi coil C.
Data yang diperoleh dari alamat tersebut masih memiliki ekstensi format dengan ekstensi .dssp Define Secondary Structure of Protein. Oleh karena itu,
sebelum digunakan untuk data pelatihan dan data pengujian terlebih dahulu dilakukan proses parsing dan pengkodean. Kedua proses tersebut dilakukan
dengan memudahkan dalam proses komputasi. Hasil dari parsing dan pengkodean adalah pasangan asam amino dan assigment struktur sekunder protein yang telah
dikodekan dalam bentuk bilangan integer. Format data dengan ekstensi .dssp merupakan file teks yang terdiri atas beberapa bagian. Gambar 8 merupakan
contoh format data .dssp
Gambar 8. Contoh Format Data Struktur sekunder protein dari file dengan ekstensi. dssp Define Secondary Structure of Protein
3.6 Pembuatan Model dengan HMM standar
Pada tahap ini dilakukan proses pembentukan model dari data latih baik dengan HMMs standar dan Hidden Semi Markov Model HSMM. Prediksi
struktur sekunder protein ini, model arsitektur HMM dapat diilustrasikan pada Gambar 9.
Gambar 9. Ilustrasi HMM untuk prediksi strukutr protein sekunder Martin et al. 2005
Barisan H-B dan C menunjukkan model hidden state yang merepresentasikan alpha-helix H, betha-sheet B dan coil C, sedangkan
barisan di bawah panah adalah barisan sekuens asam amino sebagai sekuens observasi observable sequence. Hasil dari proses pemodelan ini adalah matriks
transisi dan matriks emisi yang telah memiliki nilai tertentu untuk dijadikan
RESIDUE AA STRUCTURE BP1 … … … X-CA Y-CA Z-CA …
… I
H … … … … … …
… … … …
D H
… … … … … … … …
… …
E H
… … … … … … … …
… … G
C …
… L
C … … … … … …
… …