Saran Pengembangan hidden semi markov model dengan distribusi durasi state empiris untuk prediksi struktur sekunder protein
DAFTAR PUSTAKA
Albert B et.al. 1998. Essential Cell Biologi. An Introduction to the Molecular Biology of the Cell. New York. Garland Publishing, Inc.
Aydin Z, Altunbasak Y, Borodovsky M. 2006. Protein secondary structure prediction for a single-sequence using hidden semi-Markov models, BMC
Bioinformatics 7:178. Available: http:www.biomedcentral.com1471- 21057178.
Baldi P dan Brunak S. 2001. Bioinformatics: The Machine Learning Approach. Second Edition.Massachusetts. MIT Press.
Bryson et.al. 2005. Protein structure prediction servers atUniversity College London. Nucleic Acids Research. Web Server issue. Vol. 33.
CATH Database. 2010. http:www.cathdb.infowikidoku.php?id=data:index. version_v33 . [9 April 2010]
Dugad R dan Desai U B, 1996. Tutorial on Hidden Markov Models. Technical Report No. SPANN-96.1
Eddy, S R. 1998. Profile Hidden Markov Model. Bioinformatics Review.14:755- 763.
Jones NC, Pevzner PA. 2004. An Introductions to Bioinformatics Algorithms.USA. MIT Press.
Lesk Arthur M. 2002. Introduction to Bioinformatics. New York. United States. Oxford University Press.
Martin J, Gibrat JF, Rodolphe J. 2005. Hidden Markov Model for protein secondary structure.
Martin J,Gibrat JF, Rodolphe J. 2006. Analysis of an optimal hidden Markov model for secondary structure prediction. BMC Bioinformatics. 6:25.
Polanski A dan Kimmel M.2007. Bioinformatics. Springer Sciene. Germany.
Rabiner LR. 1989. A Tutorial on Hidden Markov Model and Selected Applications in Speech Recognitions. Proceedings of the IEEE, 77 2,
257-286. Schmidler S C, Liu JS, Brutlag DL. 2000. Bayesian Segmentation of Protein
Secondary Structure. J Comp Biol 2000, 7:233-248. Won KJ,
Hamelryck T
,
Prügel-Bennett A, Krogh A. 2007. An evolutionary method for learning HMM structure: prediction of protein secondary
structure. BMC Bioinformatics 2007. 8:357
Yu SZ, Kobayashi H, 2003. An e fficient forward–backward algorithm for an
explicit duration hidden Markov model, IEEE Signal Processing Letters 10 1 Jan. 2003 11–14.
Yu SZ, Kobayashi H, 2006. Practical Implementation of an Efficient Forward– Backward Algorithm for an Explicit-Duration Hidden Markov Model.
IEEE Transactions on Signal Processing 54 5 January 2006 1947– 1951.
LAMPIRAN
Lampiran 1. Data asli struktur protein sekunder dengan DSSP
==== Secondary Structure Definition by the program DSSP, updated CMBI version by ElmK April 1,2000 ==== DATE=20-MAR-2009 . REFERENCE W. KABSCH AND C.SANDER, BIOPOLYMERS 22 1983 2577-2637 .
HEADER ALU DOMAIN 13-NOV-97 1914 . COMPND 2 MOLECULE: SIGNAL RECOGNITION PARTICLE 914 FUSION PROTEIN; .
SOURCE 2 ORGANISM_SCIENTIFIC: MUS MUSCULUS; . AUTHOR D.BIRSE,U.KAPP,K.STRUB,S.CUSACK,A.ABERG .
171 4 0 0 0 TOTAL NUMBER OF RESIDUES, NUMBER OF CHAINS, NUMBER OF SS-BRIDGESTOTAL,INTRACHAIN,INTERCHAIN . 10532.0 ACCESSIBLE SURFACE OF PROTEIN ANGSTROM2 .
129 75.4 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NJ , SAME NUMBER PER 100 RESIDUES . 5 2.9 TOTAL NUMBER OF HYDROGEN BONDS IN PARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES .
43 25.1 TOTAL NUMBER OF HYDROGEN BONDS IN ANTIPARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES . 1 0.6 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI-5, SAME NUMBER PER 100 RESIDUES .
0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI-4, SAME NUMBER PER 100 RESIDUES . 2 1.2 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI-3, SAME NUMBER PER 100 RESIDUES .
0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI-2, SAME NUMBER PER 100 RESIDUES . 1 0.6 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI-1, SAME NUMBER PER 100 RESIDUES .
0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI+0, SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI+1, SAME NUMBER PER 100 RESIDUES .
14 8.2 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI+2, SAME NUMBER PER 100 RESIDUES . 8 4.7 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI+3, SAME NUMBER PER 100 RESIDUES .
54 31.6 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI+4, SAME NUMBER PER 100 RESIDUES . 1 0.6 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI+5, SAME NUMBER PER 100 RESIDUES .
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 HISTOGRAMS OF . 0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 RESIDUES PER ALPHA HELIX .
1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PARALLEL BRIDGES PER LADDER . 0 0 0 0 2 1 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ANTIPARALLEL BRIDGES PER LADDER .
0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 LADDERS PER SHEET . RESIDUE AA STRUCTURE BP1 BP2 ACC N-H--O O--H-N N-H--O O--H-N TCO KAPPA ALPHA PHI PSI X-CA Y-CA Z-CA
1 2001 A M 0 0 116 0, 0.0 2,-0.5 0, 0.0 55,-0.2 0.000 360.0 360.0 360.0 171.6 49.0 65.1 29.1 2 2002 A V - 0 0 68 53,-0.4 55,-2.6 56,-0.0 2,-0.5 -0.968 360.0-143.0-146.2 117.8 46.7 67.1 31.0
3 2003 A L E -a 57 0A 122 -2,-0.5 2,-0.2 53,-0.2 55,-0.2 -0.712 36.4-179.2 -77.2 125.1 47.1 68.6 34.4 4 2004 A L E -a 58 0A 32 53,-1.8 55,-0.5 -2,-0.5 2,-0.1 -0.725 28.5 -98.5-124.4 174.8 43.7 68.3 36.1
5 2005 A E - 0 0 145 -2,-0.2 4,-2.5 53,-0.1 5,-0.3 -0.402 47.1 -96.7 -84.9 165.3 42.0 69.2 39.3 6 2006 A S H S+ 0 0 18 1,-0.2 4,-1.8 2,-0.2 3,-0.1 0.946 125.2 33.7 -47.8 -59.4 41.4 66.6 42.0
7 2007 A E H S+ 0 0 151 1,-0.2 4,-1.4 2,-0.2 -1,-0.2 0.768 115.4 56.5 -73.7 -28.7 37.9 65.8 40.9
57
2
8 2008 A Q H S+ 0 0 105 1,-0.2 4,-1.3 2,-0.2 -1,-0.2 0.856 109.1 49.2 -71.1 -30.9 38.5 66.3 37.2 9 2009 A F H X S+ 0 0 0 -4,-2.5 4,-1.9 2,-0.2 -2,-0.2 0.914 107.4 53.0 -71.2 -47.9 41.3 63.7 37.4
10 2010 A L H X S+ 0 0 18 -4,-1.8 4,-1.8 -5,-0.3 -1,-0.2 0.808 111.4 46.3 -58.8 -31.9 39.1 61.2 39.3 11 2011 A T H X S+ 0 0 58 -4,-1.4 4,-1.6 2,-0.2 -1,-0.2 0.844 113.9 48.1 -78.5 -32.1 36.4 61.4 36.6
12 2012 A E H X S+ 0 0 26 -4,-1.3 4,-0.5 2,-0.2 -2,-0.2 0.691 111.1 51.4 -76.2 -31.0 39.0 61.1 33.8 13 2013 A L H X S+ 0 0 0 -4,-1.9 4,-2.3 2,-0.2 3,-1.0 0.904 106.9 53.1 -70.9 -49.6 40.6 58.1 35.5
14 2014 A T H 3X S+ 0 0 34 -4,-1.8 4,-2.4 1,-0.3 -2,-0.2 0.898 107.7 52.2 -54.0 -43.6 37.2 56.4 35.8 15 2015 A R H 3X S+ 0 0 145 -4,-1.6 4,-1.6 1,-0.2 -1,-0.3 0.779 106.7 53.2 -64.4 -30.8 36.8 56.9 32.1
16 2016 A L H X S+ 0 0 0 -3,-1.0 4,-0.9 -4,-0.5 -2,-0.2 0.912 109.6 47.5 -68.1 -48.3 40.2 55.3 31.5 17 2017 A F H S+ 0 0 5 -4,-2.3 3,-0.6 1,-0.2 -2,-0.2 0.906 112.2 51.6 -58.8 -40.6 39.3 52.2 33.5
18 2018 A Q H S+ 0 0 117 -4,-2.4 3,-0.6 1,-0.2 -1,-0.2 0.861 107.1 50.9 -66.9 -35.6 36.0 52.1 31.6 19 2019 A K H 3 S+ 0 0 125 -4,-1.6 3,-0.3 1,-0.2 -1,-0.2 0.647 106.0 58.1 -78.8 -14.0 37.6 52.2 28.1
20 2020 A C T S+ 0 0 6 -4,-0.9 106,-0.6 -3,-0.6 107,-0.4 -0.254 75.4 96.1-112.9 47.3 40.0 49.3 28.9 21 2021 A R S S+ 0 0 92 -3,-0.6 -1,-0.2 105,-0.1 3,-0.1 0.772 88.4 40.1-101.9 -37.5 37.6 46.6 29.8
22 2022 A S S S- 0 0 104 1,-0.3 2,-0.3 -3,-0.3 -2,-0.1 0.687 137.6 -18.2 -83.0 -21.3 37.4 44.8 26.5 23 2023 A S S S+ 0 0 69 -4,-0.2 -1,-0.3 104,-0.0 2,-0.1 -0.952 96.9 46.8-177.0 159.9 41.1 45.3 26.2
24 2024 A G - 0 0 19 -2,-0.3 103,-0.4 -3,-0.1 2,-0.3 -0.298 63.4 -95.7 93.7-179.9 44.2 47.2 27.3 25 2025 A S - 0 0 15 26,-0.2 2,-0.5 100,-0.2 100,-0.2 -0.950 16.8-131.8-138.8 155.2 45.6 48.2 30.6
26 2026 A V E -B 124 0A 3 98,-2.1 98,-2.2 -2,-0.3 2,-0.4 -0.950 21.5-162.7-110.4 122.9 45.4 51.2 32.9 27 2027 A F E -BC 123 50A 83 23,-2.6 23,-2.1 -2,-0.5 2,-0.4 -0.906 5.7-173.2-105.6 140.7 48.8 52.4 34.3
28 2028 A I E -BC 122 49A 2 94,-2.4 94,-1.9 -2,-0.4 2,-0.4 -0.995 3.8-166.5-132.5 122.1 48.9 54.8 37.2 29 2029 A T E -BC 121 48A 31 19,-2.6 19,-2.8 -2,-0.4 2,-0.3 -0.922 1.8-169.2-115.7 139.0 52.2 56.3 38.4
30 2030 A L E +BC 120 47A 0 90,-2.3 90,-2.4 -2,-0.4 2,-0.3 -0.932 14.7 158.5-121.9 144.8 52.8 58.1 41.7 31 2031 A K E - C 0 46A 66 15,-1.1 15,-3.1 -2,-0.3 88,-0.1 -0.933 42.9-100.5-167.4 142.9 55.9 60.2 42.7
32 2032 A K E - C 0 45A 39 83,-0.7 2,-0.3 86,-0.5 13,-0.3 -0.344 43.5-164.7 -60.7 148.2 57.1 62.9 45.2 33 2033 A Y E C 0 44A 108 11,-2.2 11,-0.9 133,-0.2 -1,-0.0 -0.993 360.0 360.0-143.3 142.9 57.2 66.3 43.5
34 2034 A D 0 0 177 -2,-0.3 9,-0.1 9,-0.1 11,-0.0 -0.876 360.0 360.0 -97.8 360.0 58.8 69.7 44.4 35 0 0 0 0, 0.0 0, 0.0 0, 0.0 0, 0.0 0.000 360.0 360.0 360.0 360.0 0.0 0.0 0.0
36 2047 A E 0 0 252 0, 0.0 0, 0.0 0, 0.0 0, 0.0 0.000 360.0 360.0 360.0-148.9 54.1 87.5 49.9 37 2048 A G - 0 0 56 1,-0.1 0, 0.0 2,-0.1 0, 0.0 0.770 360.0 -92.2 119.4 -9.0 54.6 86.8 53.9
38 2049 A L - 0 0 166 1,-0.2 -1,-0.1 2,-0.0 0, 0.0 0.887 47.6-172.3 65.9 62.9 56.9 83.6 54.0 39 2050 A E - 0 0 158 1,-0.1 2,-0.7 2,-0.1 -1,-0.2 -0.625 35.0-113.5 -87.9 138.9 54.9 80.3 54.1
40 2051 A P - 0 0 94 0, 0.0 2,-0.9 0, 0.0 -1,-0.1 0.115 55.5-114.6 -62.5 16.6 56.8 77.0 54.7 41 2052 A A - 0 0 65 -2,-0.7 -2,-0.1 1,-0.1 -3,-0.0 -0.417 30.1 -90.5 100.0 -70.2 55.9 75.7 51.2
42 2053 A E - 0 0 137 -2,-0.9 2,-0.2 19,-0.0 -1,-0.1 0.647 27.5-133.2 115.6 94.4 53.6 72.7 50.5 43 2054 A N + 0 0 44 124,-0.3 19,-1.0 -9,-0.1 2,-0.3 -0.551 35.7 172.8 -82.5 138.8 54.6 69.1 50.0
44 2055 A K E -CD 33 61A 56 -11,-0.9 -11,-2.2 -2,-0.2 2,-0.3 -0.889 29.4-146.9-145.4 173.5 53.2 67.2 47.0 45 2056 A C E -CD 32 60A 0 15,-1.7 15,-1.9 -13,-0.3 2,-0.5 -0.997 22.0-130.8-143.7 137.8 53.0 64.1 44.8
46 2057 A L E -CD 31 59A 41 -15,-3.1 -15,-1.1 -2,-0.3 2,-0.5 -0.809 19.0-161.4 -93.4 131.7 52.4 63.8 41.0 47 2058 A L E +CD 30 58A 0 11,-3.1 11,-1.4 -2,-0.5 2,-0.3 -0.955 13.0 177.3-117.5 115.2 49.7 61.3 39.9
48 2059 A R E +CD 29 57A 103 -19,-2.8 -19,-2.6 -2,-0.5 2,-0.3 -0.848 4.4 178.3-117.7 153.8 49.7 60.1 36.3 49 2060 A A E +CD 28 56A 1 7,-2.4 7,-2.8 -2,-0.3 2,-0.3 -0.991 1.5 172.8-152.2 150.5 47.6 57.6 34.4
50 2061 A T E -CD 27 55A 25 -23,-2.1 -23,-2.6 -2,-0.3 5,-0.2 -0.979 32.0-157.8-154.1 161.6 47.3 56.3 30.9
58
3
51 2062 A D S S- 0 0 18 3,-0.9 -26,-0.2 -2,-0.3 4,-0.1 0.033 72.7 -89.3-124.7 16.1 45.5 53.7 28.8 52 2063 A G S S+ 0 0 62 2,-0.2 3,-0.1 1,-0.1 -26,-0.1 0.096 122.2 44.1 96.2 -21.3 48.2 54.0 26.1
53 2064 A K S S+ 0 0 164 1,-0.4 2,-0.5 0, 0.0 -1,-0.1 0.727 107.5 46.6-116.9 -58.1 46.5 56.7 24.2 54 2065 A R - 0 0 67 -38,-0.0 -3,-0.9 -53,-0.0 2,-0.4 -0.884 67.4-162.9-111.7 112.3 45.2 59.4 26.6
55 2066 A K E + D 0 50A 113 -2,-0.5 -53,-0.4 -5,-0.2 2,-0.3 -0.932 11.5 175.9 -89.4 120.4 47.5 60.6 29.4 56 2067 A I E + D 0 49A 0 -7,-2.8 -7,-2.4 -2,-0.4 2,-0.3 -0.911 3.2 178.6-133.1 158.4 46.3 62.5 32.5
57 2068 A S E -aD 3 48A 6 -55,-2.6 -53,-1.8 -2,-0.3 2,-0.3 -0.948 6.7-172.7-152.8 166.2 47.9 63.8 35.7 58 2069 A T E -aD 4 47A 2 -11,-1.4 -11,-3.1 -2,-0.3 2,-0.5 -0.963 21.6-128.9-159.6 156.9 47.1 65.7 38.9
59 2070 A V E - D 0 46A 29 -55,-0.5 2,-0.4 -2,-0.3 -13,-0.2 -0.948 23.6-167.0-118.6 111.7 49.0 67.2 41.8 60 2071 A V E - D 0 45A 0 -15,-1.9 -15,-1.7 -2,-0.5 2,-0.2 -0.770 5.8-169.4-100.4 141.0 47.9 66.2 45.3
61 2072 A S E - D 0 44A 18 -2,-0.4 3,-1.4 -17,-0.2 4,-0.3 -0.658 40.7 -97.7-122.4 176.0 49.0 68.0 48.4 62 2073 A S T 3 S+ 0 0 40 -19,-1.0 4,-0.3 105,-0.3 3,-0.1 0.592 116.4 69.4 -67.3 -13.6 48.8 67.5 52.2
63 2074 A K T 3 S+ 0 0 183 1,-0.2 -1,-0.3 2,-0.1 4,-0.1 0.687 116.1 19.3 -80.4 -16.8 45.8 69.9 52.2 64 2075 A E S S+ 0 0 61 -3,-1.4 4,-2.2 2,-0.1 5,-0.2 0.163 85.6 105.7-140.9 21.8 43.6 67.4 50.4
65 2076 A V H S+ 0 0 10 -4,-0.3 4,-3.6 2,-0.2 5,-0.2 0.927 85.1 52.0 -69.4 -41.7 45.0 63.8 50.7 66 2077 A N H S+ 0 0 117 -4,-0.3 4,-1.2 2,-0.2 -1,-0.2 0.909 116.9 37.8 -59.7 -44.4 42.4 62.7 53.2
67 2078 A K H S+ 0 0 172 2,-0.2 4,-1.2 1,-0.1 -1,-0.2 0.897 120.9 46.5 -73.6 -42.1 39.4 64.0 51.0 68 2079 A F H X S+ 0 0 8 -4,-2.2 4,-3.3 1,-0.2 3,-0.4 0.944 110.1 52.9 -63.8 -52.2 41.1 62.8 47.8
69 2080 A Q H X S+ 0 0 17 -4,-3.6 4,-3.1 1,-0.2 5,-0.3 0.810 101.6 59.8 -56.5 -34.0 42.1 59.4 49.1 70 2081 A M H X S+ 0 0 136 -4,-1.2 4,-1.3 -5,-0.2 -1,-0.2 0.924 115.9 34.2 -63.3 -41.2 38.5 58.6 50.2
71 2082 A A H X S+ 0 0 46 -4,-1.2 4,-2.4 -3,-0.4 -2,-0.2 0.956 120.4 50.0 -73.1 -51.5 37.3 59.0 46.6 72 2083 A Y H X S+ 0 0 0 -4,-3.3 4,-1.5 1,-0.2 -2,-0.2 0.849 109.7 50.5 -55.5 -43.1 40.5 57.6 45.1
73 2084 A S H X S+ 0 0 18 -4,-3.1 4,-2.0 -5,-0.2 3,-0.2 0.955 112.5 47.2 -62.9 -46.1 40.5 54.5 47.3 74 2085 A N H X S+ 0 0 102 -4,-1.3 4,-2.2 -5,-0.3 -2,-0.2 0.875 109.8 53.3 -62.6 -40.8 36.8 53.7 46.4
75 2086 A L H X S+ 0 0 18 -4,-2.4 4,-2.1 2,-0.2 -1,-0.2 0.828 108.6 49.3 -65.3 -35.1 37.4 54.2 42.7 76 2087 A L H X S+ 0 0 0 -4,-1.5 4,-2.1 -3,-0.2 -2,-0.2 0.965 113.8 44.6 -70.4 -48.5 40.3 51.7 42.6
77 2088 A R H S+ 0 0 90 -4,-2.0 -2,-0.2 1,-0.2 -1,-0.2 0.836 117.4 45.5 -62.5 -36.7 38.4 49.0 44.5 78 2089 A A H S+ 0 0 58 -4,-2.2 3,-0.2 -5,-0.2 -1,-0.2 0.916 118.8 39.1 -75.7 -43.9 35.3 49.5 42.4
79 2090 A N H S+ 0 0 25 -4,-2.1 2,-1.1 1,-0.2 3,-0.2 0.716 105.3 64.6 -80.1 -23.7 36.9 49.7 39.0 80 2091 A M S S+ 0 0 5 -4,-2.1 -1,-0.2 -5,-0.2 3,-0.1 -0.526 70.7 119.6 -98.4 63.6 39.5 47.0 39.5
81 2092 A D + 0 0 92 -2,-1.1 2,-0.5 -3,-0.2 -1,-0.2 0.228 35.4 93.6-113.4 9.2 36.9 44.3 39.9 82 2093 A G + 0 0 25 -3,-0.2 2,-0.2 48,-0.1 -1,-0.1 -0.435 62.9 118.7-102.2 59.0 37.5 41.9 37.1
83 2094 A L S S- 0 0 16 -2,-0.5 2,-0.3 -3,-0.1 65,-0.2 -0.761 79.8 -52.8-121.9 166.9 39.7 39.4 39.0 84 2095 A K B -h 148 0B 106 63,-2.1 65,-1.3 45,-0.6 66,-0.3 -0.147 57.6-140.4 -44.9 97.9 39.7 35.8 40.1
85 2096 A K 0 0 191 -2,-0.3 -1,-0.1 63,-0.1 -2,-0.1 0.707 360.0 360.0 -22.9 -82.1 36.1 35.7 41.8 86 2097 A R 0 0 249 63,-0.0 -1,-0.1 62,-0.0 -2,-0.1 0.727 360.0 360.0 67.3 360.0 36.9 33.4 44.9
87 0 0 0 0, 0.0 0, 0.0 0, 0.0 0, 0.0 0.000 360.0 360.0 360.0 360.0 0.0 0.0 0.0 88 3001 A A 0 0 97 0, 0.0 2,-0.3 0, 0.0 60,-0.1 0.000 360.0 360.0 360.0 -67.9 49.9 34.2 39.6
89 3002 A Q + 0 0 92 57,-0.2 57,-0.2 58,-0.1 2,-0.1 -0.708 360.0 92.8 -93.6 146.2 50.6 35.7 42.9 90 3003 A G E -E 145 0A 15 55,-1.3 55,-1.8 -2,-0.3 9,-0.1 -0.269 53.5-110.1 141.1 143.2 54.1 36.8 44.0
91 3004 A G E -E 144 0A 11 7,-0.5 7,-1.0 8,-0.2 2,-0.3 -0.339 20.1-149.7 -90.0 173.4 56.8 39.4 44.3 92 3005 A E E -E 143 0A 100 51,-1.7 51,-1.4 5,-0.2 2,-0.7 -0.998 9.5-154.5-148.0 136.1 60.1 40.0 42.6
93 3006 A Q E +E 142 0A 139 -2,-0.3 49,-0.2 49,-0.2 2,-0.2 -0.804 33.6 171.2-112.0 85.7 63.4 41.6 43.7
59
4
60
94 3007 A K E E 141 0A 143 47,-2.1 47,-2.4 -2,-0.7 45,-0.1 -0.485 360.0 360.0 -97.1 165.3 65.1 42.8 40.5 95 3008 A L 0 0 137 45,-0.2 45,-0.1 -2,-0.2 -1,-0.1 -0.073 360.0 360.0-144.5 360.0 68.1 44.9 39.8
96 0 0 0 0, 0.0 0, 0.0 0, 0.0 0, 0.0 0.000 360.0 360.0 360.0 360.0 0.0 0.0 0.0 97 4004 A F 0 0 34 0, 0.0 2,-0.8 0, 0.0 5,-0.4 0.000 360.0 360.0 360.0 13.4 59.0 37.7 47.2
98 4005 A Q + 0 0 132 -7,-1.0 -7,-0.5 4,-0.1 5,-0.1 -0.176 360.0 73.1 44.9 -93.0 56.5 35.4 47.0 99 4006 A T S S- 0 0 49 -2,-0.8 4,-1.0 -9,-0.1 -8,-0.2 -0.029 76.2-138.9 -48.9 146.5 54.8 36.6 50.1
100 4007 A W H S+ 0 0 39 2,-0.2 4,-2.7 1,-0.2 5,-0.2 0.859 104.7 62.7 -68.3 -41.6 53.0 40.0 49.9 101 4008 A E H S+ 0 0 118 1,-0.2 4,-1.9 2,-0.2 5,-0.2 0.914 103.8 45.0 -52.9 -46.3 54.5 40.6 53.3
102 4009 A E H S+ 0 0 88 -5,-0.4 4,-2.0 2,-0.2 -1,-0.2 0.842 112.7 52.4 -67.6 -37.0 58.1 40.5 52.0 103 4010 A F H X S+ 0 0 0 -4,-1.0 4,-2.9 -6,-0.2 5,-0.3 0.963 108.6 49.2 -62.8 -54.0 57.2 42.6 49.1
104 4011 A S H X S+ 0 0 13 -4,-2.7 4,-2.0 1,-0.2 -2,-0.2 0.886 112.8 46.6 -51.4 -50.2 55.6 45.4 51.2 105 4012 A R H X S+ 0 0 143 -4,-1.9 4,-2.0 -5,-0.2 -1,-0.2 0.919 114.6 47.3 -60.7 -47.5 58.5 45.6 53.6
106 4013 A A H X S+ 0 0 24 -4,-2.0 4,-2.2 1,-0.2 -2,-0.2 0.909 113.3 47.3 -60.2 -48.6 61.1 45.7 50.8 107 4014 A A H X S+ 0 0 0 -4,-2.9 4,-1.6 1,-0.2 -1,-0.2 0.832 110.3 54.6 -62.7 -34.1 59.1 48.3 48.8
108 4015 A E H X S+ 0 0 77 -4,-2.0 4,-2.4 -5,-0.3 -1,-0.2 0.880 109.6 45.0 -69.4 -43.7 58.7 50.4 52.0 109 4016 A K H X S+ 0 0 164 -4,-2.0 4,-1.9 2,-0.2 -2,-0.2 0.885 111.1 54.8 -68.0 -37.6 62.5 50.5 52.7
110 4017 A L H X S+ 0 0 18 -4,-2.2 4,-1.0 -5,-0.2 -2,-0.2 0.880 111.7 45.3 -61.1 -37.2 63.2 51.3 49.0 111 4018 A Y H S+ 0 0 4 -4,-1.6 3,-0.2 1,-0.2 -2,-0.2 0.946 112.5 47.9 -70.9 -52.3 60.8 54.2 49.3
112 4019 A L H S+ 0 0 93 -4,-2.4 -2,-0.2 1,-0.2 -1,-0.2 0.753 101.1 68.5 -59.9 -27.2 62.2 55.6 52.6 113 4020 A A H S- 0 0 79 -4,-1.9 -1,-0.2 1,-0.2 -2,-0.2 0.972 128.1 -6.7 -58.0 -57.0 65.7 55.3 51.3
114 4021 A D X - 0 0 65 -4,-1.0 3,-1.7 -3,-0.2 4,-0.9 -0.640 65.0-176.6-145.3 85.1 65.2 58.1 48.8 115 4022 A P T 34 S+ 0 0 34 0, 0.0 -83,-0.7 0, 0.0 3,-0.1 0.747 83.3 57.9 -50.8 -32.1 61.5 59.4 48.5
116 4023 A M T 34 S+ 0 0 84 1,-0.2 -82,-0.1 -85,-0.1 -5,-0.0 0.693 109.5 42.0 -76.2 -21.9 62.3 61.8 45.6 117 4024 A K T 4 S+ 0 0 119 -3,-1.7 2,-0.3 -6,-0.2 -1,-0.2 0.581 92.4 99.1-101.6 -12.6 63.7 59.1 43.3
118 4025 A V - 0 0 0 -4,-0.9 -86,-0.5 -7,-0.2 2,-0.4 -0.580 51.6-161.1 -85.8 138.4 61.1 56.4 43.8 119 4026 A R E - F 0 136A 60 17,-3.3 17,-2.1 -2,-0.3 2,-0.6 -0.960 6.3-152.6-117.8 131.1 58.2 55.7 41.5
120 4027 A V E -BF 30 135A 0 -90,-2.4 -90,-2.3 -2,-0.4 2,-0.4 -0.917 18.8-167.3-104.3 120.5 55.1 53.7 42.5 121 4028 A V E -BF 29 134A 18 13,-4.0 13,-2.6 -2,-0.6 2,-0.4 -0.908 11.8-171.9-115.8 140.7 53.4 52.0 39.5
122 4029 A L E -BF 28 133A 2 -94,-1.9 -94,-2.4 -2,-0.4 2,-0.4 -0.993 3.7-176.0-127.9 132.0 50.0 50.3 39.2 123 4030 A K E -BF 27 132A 65 9,-2.2 9,-2.1 -2,-0.4 2,-0.5 -0.973 2.2-171.9-134.5 117.4 48.9 48.3 36.2
124 4031 A Y E -BF 26 131A 7 -98,-2.2 -98,-2.1 -2,-0.4 2,-0.5 -0.935 6.1-174.9-113.3 124.0 45.4 46.9 35.9 125 4032 A R E - F 0 130A 64 5,-2.6 5,-1.8 -2,-0.5 4,-1.3 -0.845 1.2-177.7-120.2 93.0 44.5 44.6 33.1
126 4033 A H T 45S+ 0 0 40 -106,-0.6 3,-0.4 -2,-0.5 -1,-0.2 0.909 81.6 51.3 -50.9 -54.7 40.8 43.8 33.3 127 4034 A V T 45S+ 0 0 75 -103,-0.4 -1,-0.2 -107,-0.4 -106,-0.1 0.843 116.0 41.9 -55.4 -38.8 40.6 41.4 30.3
128 4035 A D T 45S- 0 0 88 -3,-0.2 -1,-0.2 2,-0.1 -2,-0.2 0.642 106.3-129.6 -83.4 -18.2 43.5 39.3 31.7 129 4036 A G T 5 + 0 0 11 -4,-1.3 -45,-0.6 -3,-0.4 2,-0.3 0.894 63.1 123.9 70.9 39.8 42.2 39.6 35.3
130 4037 A N E -F 125 0A 56 -5,-1.8 -5,-2.6 -47,-0.1 2,-0.4 -0.980 44.4-160.0-138.3 146.5 45.5 40.7 36.8 131 4038 A L E -FG 124 146A 2 15,-2.1 15,-2.1 -2,-0.3 2,-0.4 -0.947 11.8-167.5-118.5 144.3 46.8 43.6 38.9
132 4039 A C E -FG 123 145A 11 -9,-2.1 -9,-2.2 -2,-0.4 2,-0.5 -0.987 6.2-168.6-138.8 128.2 50.4 44.6 39.2 133 4040 A I E -FG 122 144A 0 11,-2.1 11,-0.8 -2,-0.4 2,-0.4 -0.958 7.2-174.3-117.4 129.4 52.3 47.0 41.5
134 4041 A K E -FG 121 143A 72 -13,-2.6 -13,-4.0 -2,-0.5 2,-0.5 -0.969 10.4-173.0-125.2 131.2 55.8 48.2 41.1 135 4042 A V E +FG 120 142A 0 7,-2.5 7,-1.3 -2,-0.4 2,-0.3 -0.995 27.3 154.5-120.2 116.8 58.0 50.2 43.4
136 4043 A T E -FG 119 141A 7 -17,-2.1 -17,-3.3 -2,-0.5 5,-0.2 -0.969 45.7-161.0-143.8 158.0 61.3 51.3 41.8
5
61
137 4044 A D - 0 0 48 3,-1.4 4,-0.1 -2,-0.3 -19,-0.1 -0.020 67.2 -99.6-119.2 18.1 64.1 53.9 41.9 138 4045 A D S S+ 0 0 108 2,-0.4 3,-0.1 1,-0.2 -20,-0.1 0.493 118.7 57.4 72.9 1.6 65.2 52.9 38.4
139 4046 A L S S+ 0 0 109 1,-0.6 2,-0.3 -45,-0.1 -1,-0.2 0.530 108.0 35.3-117.3 -71.5 68.0 50.8 39.8 140 4047 A V S S- 0 0 43 -45,-0.1 -3,-1.4 -30,-0.1 -1,-0.6 -0.657 76.1-161.7 -85.0 135.8 66.4 48.3 42.2
141 4048 A C E -EG 94 136A 22 -47,-2.4 -47,-2.1 -2,-0.3 2,-0.4 -0.935 11.6-175.2-122.2 139.1 62.9 47.0 41.1 142 4049 A L E +EG 93 135A 7 -7,-1.3 -7,-2.5 -2,-0.4 2,-0.3 -0.973 11.6 175.8-135.2 115.7 60.2 45.4 43.2
143 4050 A V E -EG 92 134A 11 -51,-1.4 -51,-1.7 -2,-0.4 2,-0.3 -0.779 15.3-164.0-116.6 164.3 57.0 44.0 41.5 144 4051 A Y E -EG 91 133A 5 -11,-0.8 -11,-2.1 -2,-0.3 2,-0.3 -0.825 10.0-167.2-152.3 111.7 54.0 42.1 42.8
145 4052 A R E +EG 90 132A 117 -55,-1.8 -55,-1.3 -2,-0.3 2,-0.3 -0.796 13.3 164.5-104.0 141.7 51.6 40.4 40.5 146 4053 A T E - G 0 131A 2 -15,-2.1 -15,-2.1 -2,-0.3 -57,-0.2 -0.966 35.3-172.9-152.7 163.8 48.2 39.0 41.3
147 4054 A D + 0 0 25 -2,-0.3 -63,-2.1 -17,-0.2 2,-0.5 0.227 60.6 111.4-137.5 2.9 45.0 37.7 39.9 148 4055 A Q B -h 84 0B 40 -65,-0.2 3,-2.0 1,-0.1 4,-0.5 -0.697 60.3-149.6 -88.5 125.5 43.2 37.4 43.3
149 4056 A A G 4 S+ 0 0 45 -65,-1.3 3,-0.5 -2,-0.5 4,-0.5 0.723 97.5 67.5 -63.4 -20.3 40.3 39.8 43.9 150 4057 A Q G 34 S+ 0 0 123 -66,-0.3 4,-0.4 1,-0.2 -1,-0.3 0.588 94.1 56.2 -76.6 -13.7 41.3 39.5 47.6
151 4058 A D G S+ 0 0 2 -3,-2.0 4,-2.0 2,-0.1 5,-0.3 0.642 84.9 81.4 -93.2 -16.0 44.7 41.3 46.9 152 4059 A V H X S+ 0 0 7 -4,-0.5 4,-2.1 -3,-0.5 5,-0.2 0.947 89.7 52.8 -53.1 -51.6 43.1 44.5 45.4
153 4060 A K H S+ 0 0 120 -4,-0.5 4,-2.8 1,-0.2 -1,-0.2 0.864 112.9 40.4 -52.1 -52.2 42.4 46.0 48.8 154 4061 A K H S+ 0 0 65 -4,-0.4 4,-1.9 2,-0.2 -1,-0.2 0.835 113.8 53.5 -71.0 -32.9 45.9 45.7 50.3
155 4062 A I H X S+ 0 0 1 -4,-2.0 4,-1.7 2,-0.2 -1,-0.2 0.817 114.1 44.2 -69.4 -32.8 47.6 46.7 47.1 156 4063 A E H X S+ 0 0 6 -4,-2.1 4,-2.9 -5,-0.3 -2,-0.2 0.951 112.1 50.4 -77.2 -49.2 45.5 49.8 47.1
157 4064 A K H X S+ 0 0 105 -4,-2.8 4,-1.3 1,-0.2 -2,-0.2 0.830 114.2 46.8 -56.1 -35.5 45.9 50.6 50.7 158 4065 A F H X S+ 0 0 14 -4,-1.9 4,-2.1 2,-0.2 -1,-0.2 0.921 111.1 47.8 -70.3 -55.1 49.6 50.3 50.4
159 4066 A H H X S+ 0 0 0 -4,-1.7 4,-1.6 1,-0.2 -2,-0.2 0.892 114.2 51.1 -52.2 -42.2 50.0 52.4 47.2 160 4067 A S H X S+ 0 0 2 -4,-2.9 4,-1.5 1,-0.2 -1,-0.2 0.815 105.9 53.3 -68.3 -34.2 47.8 54.9 49.0
161 4068 A Q H X S+ 0 0 82 -4,-1.3 4,-1.4 2,-0.2 -1,-0.2 0.860 105.0 54.1 -69.4 -39.7 49.9 54.9 52.2 162 4069 A L H X S+ 0 0 1 -4,-2.1 4,-2.3 1,-0.2 3,-0.7 0.940 105.2 55.8 -56.2 -38.4 53.0 55.7 50.1
163 4070 A M H 3X S+ 0 0 0 -4,-1.6 4,-1.6 1,-0.3 -2,-0.2 0.888 105.4 51.5 -60.1 -40.0 51.1 58.7 48.7 164 4071 A R H 3X S+ 0 0 93 -4,-1.5 4,-1.9 2,-0.2 -1,-0.3 0.762 107.7 51.2 -68.4 -32.0 50.5 59.9 52.3
165 4072 A L H S+ 0 0 69 -4,-1.4 -2,-0.2 -3,-0.7 -1,-0.2 0.925 109.0 52.0 -71.2 -39.3 54.3 59.7 53.1 166 4073 A M H S+ 0 0 0 -4,-2.3 -2,-0.2 1,-0.2 -133,-0.2 0.850 118.0 37.6 -61.5 -38.8 55.1 61.7 50.0
167 4074 A V H S+ 0 0 3 -4,-1.6 -105,-0.3 -5,-0.2 -124,-0.3 0.734 87.0 115.6 -87.6 -28.8 52.6 64.4 51.0 168 4075 A A - 0 0 55 -4,-1.9 2,-0.3 -5,-0.1 -124,-0.1 -0.149 59.7-134.9 -50.7 136.0 53.1 64.4 54.8
169 4076 A K - 0 0 112 -107,-0.1 2,-0.5 -126,-0.1 -1,-0.1 -0.729 14.0-150.7 -94.9 141.9 54.5 67.7 56.2 170 4077 A E - 0 0 166 -2,-0.3 2,-2.3 2,-0.0 -2,-0.0 -0.922 20.1-122.4-118.2 128.9 57.3 67.7 58.7
171 4078 A S - 0 0 129 -2,-0.5 2,-0.2 2,-0.1 -2,-0.0 -0.398 34.7-167.1 -72.3 86.0 57.9 70.3 61.3 172 4079 A R - 0 0 222 -2,-2.3 2,-0.7 1,-0.1 -3,-0.0 -0.513 18.8-125.9 -70.8 142.3 61.4 71.3 60.4
173 4080 A N 0 0 122 -2,-0.2 -1,-0.1 1,-0.2 -2,-0.1 -0.309 360.0 360.0 -95.7 54.6 63.0 73.5 63.1 174 4081 A V 0 0 201 -2,-0.7 -1,-0.2 0, 0.0 0, 0.0 0.950 360.0 360.0 -70.6 360.0 64.4 76.8 62.1
ABSTRACT
HARYANTO, TOTO. The Development of Hidden Semi Markov Model with Empirical State Duration Distribution for Protein Secondary Structure Predictions.
Under direction of AGUS BUONO and ANTO SATRIYO NUGROHO
This research aimed to develop Hidden Semi Markov Model HSMM with long- duration distribution of state empirically and theoretically to predict protein
secondary structure. Data used in this study are subset data taken from database of secondary protein structure in DSSP program with three secondary protein
structures of alpha-helix H, betha-sheet B, and coil C. Accuracy of the predicted protein structure with HSMM is compared with Hidden Markov Model
HMM standard. The results showed that the HSMM generally provides a prediction accuracy 72. 1 , 35.3 and 63,1 for H, B and C respectively. The
accuracy of standard HMM is 98.4 for B, 1 for B and 6.4 for C. The use of empirical state duration distribution gives better accuracy on average
compared a theoretical state duration distribution. Use of the empirical state duration distribution provides accuracy 71.2 for H, 37.1 for B and 64.0
for C. Use of theoretical state duration distribution provides accuracy 75 for H, 30.2 for B and 60.6 for C. Less accuracy in betha-sheet prediction
with HSMM was caused by high of the dispute between distribution in training data and testing data.
Keyword: Hidden Semi Markov Model HSMM, Hidden Markov Model HMM, protein secondary structure
I PENDAHULUAN 1.1
Latar Belakang
Protein, RNA dan berbagai fitur dalam genome dapat diklasifikasikan menjadi suatu keluarga tertentu sesuai dengan sekuensnya. Protein merupakan
aktor utama pada makhluk hidup yang memiliki berbagai fungsi yang sangat penting. Protein terbentuk dari sekuens asam amino pembentuknya dengan
karakteristik yang berbeda. Struktur protein dapat dilihat secara hierarki sebagai struktur primer, sekunder dan tersier Polanski dan Kimmel 2007. Para ahli di
bidang Biologi mengatakan bahwa protein berasal dari kombinasi tiga huruf triplet dari Asam Deoksiribosa DNA yang disebut dengan codon Jones dan
Pevzner 2004. Struktur primer dari protein adalah urutan sekuens asam amino penyusun
protein yang dihubungkan melalui ikatan peptida. Struktur sekunder adalah sejumlah rangkaian asam amino yang membentuk struktur tiga dimensi lokal baik
struktur alpha-helix H, betha-sheet B maupun coil C. Adapun struktur tersier adalah gabungan dari berbagai struktur sekunder setelah terjadi proses pelipatan
folding. Peranan protein sangat terlihat pada saat telah melakukan pelipatan protein
folding dalam bentuk tiga dimensi 3D sebagai struktur tersier. Namun, struktur tersier 3D tersebut ditentukan oleh struktur sebelumnya baik primer maupun
struktur sekundernya. Oleh karena itu, penentuan struktur sekunder protein ini menjadi bidang kajian yang banyak dilakukan di bidang Bioinformatika.
Menurut Albert et al. 1998 struktur protein dapat ditentukan dengan eksperimen melalui penggunaan X-Ray Crystallography dan Nuclear Magnetic
Resonance NMR spectroscopy. Keduanya mampu menghasilkan struktur protein sampai dengan bentuk tiga dimensinya. Dengan teknik ini, sangat memungkinkan
ditemukannya struktur protein baru. Akan tetapi, penggunaan kedua teknik tersebut membutuhkan biaya yang relatif mahal. Oleh karena itu, berbagai teknik
komputasi digunakan untuk melakukan prediksi struktur sekunder protein berbasis model komputasi, salah satunya adalah Hidden Markov Models HMM.
Di sisi lain, karakteristik dari sekuens asam amino sebagai struktur protein primer sangat cocok dengan tipe data yang digunakan pada pembuatan model
dengan menggunakan Hidden Markov untuk memprediksi struktur sekunder suatu protein. Menurut Eddy 1998, Hidden Markov Model HMM merupakan suatu
kelas dari model probabilistik yang secara umum dapat diaplikasikan untuk permasalahan deret waktu atau sekuens yang bersifat linear. Sejalan dengan itu,
HMMs merupakan metode yang dianggap memiliki kesuksesan dalam menyelesaikan permasalahan di dalam analisis sekuens meskipun dari sisi
kompleksitas masih sulit untuk ditentukan secara manual Won et al. 2007. Martin et al. 2005 mengatakan bahwa di dalam memprediksi struktur
sekunder protein dapat dilakukan dengan dua metode, yaitu: Membandingkan model yang telah ada dengan struktur yang akan
diprediksi atau dikenal dengan comparative modelling Metode de novo, yaitu apabila tidak terdapat model yang tersedia untuk
dibandingkan dengan struktur yang akan diklasifikasikan. Pada penelitian ini yang akan dilakukan adalah membuat model untuk
mengklasifikasikan struktur sekunder protein. Untuk membangkitkan model tersebut, akan digunakan HMM akan yang telah secara luas diimplementasikan
untuk menyelesaikan permasalahan dalam analisis sekuens. Di antara beberapa permasalahan yang terdapat di dalam prediksi struktur sekunder protein ialah
masih terbatasnya model untuk dijadikan acuan dalam memprediksi protein sekunder karena ukuran data sangat besar. Penambahan jumlah data model bisa
saja dilakukan, namun besarnya ukuran data akan membutuhkan waktu yang lama dan sulit untuk mencapai konvergen dari model yang bangkitkan pada saat
melakukan proses pelatihan atau training. Pada prediksi struktur sekunder protein dengan Hidden Markov Model
HMM informasi state hanya diperoleh dari satu observasi yang dalam hal ini
adalah asam amino. Padahal, pada kenyataannya bisa saja suatu state dapat menyimpan informasi lebih dari satu observasi atau bahkan suatu sekuens
observasi sebagai informasi. Oleh karena itu, dalam prediksi struktur sekunder protein terdapat pendekatan yang dikenal dengan Hidden Semi Markov Model
HSMM. Pada HSMM, satu state dapat membangkitkan suatu sekuens observasi. Ciri dari HSMM yang terpenting adalah adanya durasi state sebagai informasi
dalam proses pelatihan dalam membuat model. Hidden Semi Markov Model HSMM diperkenalkan pertama kali oleh
Ferguson 1980 yang diaplikasikan untuk konversi teks ke suara. Yu dan Kobayashi 2003 melakukan penelitian untuk memperbaiki Algoritme pada
HSMM yang dikenalkan oleh Ferguson. Hasilnya adalah kompleksitas algoritme yang diusulkan lebih efisien dibandingkan dengan yang dibuat pertama kali oleh
Ferguson. Awalnya, kompleksitas algoritme pada HSMM yang diperkenalkan oleh Ferguson adalah OMD
2
+M
2
T. Dengan M adalah banyaknya state, D adalah durasi maksimum antar state dan T adalah panjangnya observasi. Yu dan
Kobayashi berhasil mengefisienkan algoritme tersebut sehingga kompleksitasnya menjadi OMD+M
2
T dan mengimplementasikannya untuk menganlisa trafik suatu alamat website. Pada tahun 2006, Yu dan Kobayashi kembali melakukan
penelitian dan mengimplementasikan algoritme yang diusulkannya tersebut pada chipfield-progammable gate-array FPGA.
Prediksi struktur sekunder protein dengan Hidden Semi Markov Model HSMM pertama kali diperkenalkan oleh Schmidler et al. 2000 sebagai metode
baru dalam prediksi struktur sekunder protein. Aydin et al. 2006 juga melakukan penelitian untuk memprediksi struktur sekunder protein dengan distribusi durasi
maksimum sebanyak 50. Namun, keduanya masih menggunakan algoritme dengan kompleksitas sebagaiamana yang dijelaskan oleh Ferguson.
Pada penelitian kali ini, prediksi struktur sekunder protein diimplementasikan dengan algoritme yang telah memiliki kompleksitas
OMD+M
2
T dan menggunakan beberapa jenis distribusi durasi maksimum yang akan diperoleh secara empiris dari data latih yang diambil maupun dengan
menggunakan distribusi secara teoritis. Hasil akurasi yang didapatkan akan dibandingan dengan hasil akurasi HMM standar.