Perbandingan Distribusi Teoritis dan Empiris pada Data Pelatihan

Gambar 39. Visualiasi perbandingan distribusi teoritis dan empiris struktur betha- sheet B pada data latih Hal yang sama juga dilakukan pada struktur coil C. Perbandingan distribusi teoritis pada data latih dan data uji secara visual dapat dilihat pada Gambar 40. Selisih distribusi struktur coil C yang dihasilkan sebesar 0.01. Gambar 40. Visualiasi perbandingan distribusi teoritis dan empiris struktur coil C pada data latih Ketiga perbandingan selisih distribusi di atas menunjukkan bahwa selisih distribusi yang besar akan memberikan hasil akurasi struktur protein yang relatif rendah. Perbandingan selisih distribusi teoritis dan empiris data latih dapat dilihat pada Gambar 41. Gambar 41. Perbandingan selisih distribusi durasi state teoritis dan empiris pada data latih untuk struktur alpha-helix H, betha-sheet B dan coil C Perbedaan distribusi antara data empiris dan hasil rekonstruksi secara teoritis dilakukan juga dengan RMSD pada persamaan 30. Hasil perhitungan RMSD dapat dilihat pada Gambar 42. Gambar 42. Perbedaan distribusi durasi state teoritis dan empiris pada data latih untuk struktur alpha-helix H, betha-sheet B dan coil C dengan RMSD Proses prediksi struktur sekunder protein yang dilakukan pada penelitian ini hanya menggunakan informasi distribusi panjang durasi state, sehingga akurasi secara keseluruhan memang lebih kecil apabila dibandingkan dengan penelitian yang dilakukan oleh Schmidler et al. 2000 dan Aydin 2006. Namun untuk prediksi struktur alpha-helix H pada penelitian ini memiliki akurasi yang relatif lebih tinggi bila dibandingkan dengan penelitian keduanya dengan akurasi mencapai 72. Penelitian ini memberikan kontribusi dalam hal bagaimana pengaruh perbedaan distribusi durasi state terhadap hasil akurasi prediksi sehingga akan dijadikan pertimbangan dalam penelitian dengan menggunakan metode Hidden Semi Markov Model HSMM. V SIMPULAN DAN SARAN 5.1 Simpulan Identifikasi struktur sekunder protein dengan menggunakan pendekatan Hidden Semi Markov Model HSMM secara umum memberikan nilai akurasi yang lebih tinggi bila dibandingkan menggunakan model Hidden Markov HMM Standar. Hal ini dikarenakan pada HSMM terdapat informasi panjang durasi state yang digunakan pada proses pelatihan. Pada HSMM, penggunaan distribusi durasi secara empiris memberikan hasil akurasi yang lebih tinggi dibandingkan dengan penggunaan distribusi teoritis. Penggunaan distribusi empiris lebih merepresentasikan kondisi data yang sesungguhnya dibandingkan dengan pembangkitan distribusi secara teoritis. Visualisasi distribusi secara empiris dan teoritis menunjukkan bahwa selisih yang besar antara data latih dan data uji pada distribusi empiris diduga akan menyebabkan hasil prediksi struktur protein yang rendah. Ini terjadi pada kasus prediksi struktur betha-sheet B. Rendahnya akurasi ini juga disebabkan oleh jumlah residu yang diuji pada strkutur betha-sheet B yang kecil dibandingkan dengan jumlah residu alpha-helix H maupun coil C.

5.2 Saran

Baik Hidden Markov Model HMM maupun Hidden Semi Markov Model HSMM belum dapat mengakomodasi data yang tidak seimbang atau imbalance data. Oleh karena itu, pada penelitian berikutnya sebaiknya diusulkan suatu metode yang dapat menangani ketidakseimbangan data baik pada HMM maupun pada HSMM. Proses prediksi struktur sekunder protein sebaiknya juga mempertimbangkan aspek kimiawi dari struktur protein itu sendiri di samping sekuens asam amino dan distribusi panjang durasi. Dengan demikian, akurasi yang diperoleh diharapkan akan lebih tinggi. DAFTAR PUSTAKA Albert B et.al. 1998. Essential Cell Biologi. An Introduction to the Molecular Biology of the Cell. New York. Garland Publishing, Inc. Aydin Z, Altunbasak Y, Borodovsky M. 2006. Protein secondary structure prediction for a single-sequence using hidden semi-Markov models, BMC Bioinformatics 7:178. Available: http:www.biomedcentral.com1471- 21057178. Baldi P dan Brunak S. 2001. Bioinformatics: The Machine Learning Approach. Second Edition.Massachusetts. MIT Press. Bryson et.al. 2005. Protein structure prediction servers atUniversity College London. Nucleic Acids Research. Web Server issue. Vol. 33. CATH Database. 2010. http:www.cathdb.infowikidoku.php?id=data:index. version_v33 . [9 April 2010] Dugad R dan Desai U B, 1996. Tutorial on Hidden Markov Models. Technical Report No. SPANN-96.1 Eddy, S R. 1998. Profile Hidden Markov Model. Bioinformatics Review.14:755- 763. Jones NC, Pevzner PA. 2004. An Introductions to Bioinformatics Algorithms.USA. MIT Press. Lesk Arthur M. 2002. Introduction to Bioinformatics. New York. United States. Oxford University Press. Martin J, Gibrat JF, Rodolphe J. 2005. Hidden Markov Model for protein secondary structure. Martin J,Gibrat JF, Rodolphe J. 2006. Analysis of an optimal hidden Markov model for secondary structure prediction. BMC Bioinformatics. 6:25. Polanski A dan Kimmel M.2007. Bioinformatics. Springer Sciene. Germany.