Saran Pengembangan hidden semi markov model dengan distribusi durasi state empiris untuk prediksi struktur sekunder protein

DAFTAR PUSTAKA Albert B et.al. 1998. Essential Cell Biologi. An Introduction to the Molecular Biology of the Cell. New York. Garland Publishing, Inc. Aydin Z, Altunbasak Y, Borodovsky M. 2006. Protein secondary structure prediction for a single-sequence using hidden semi-Markov models, BMC Bioinformatics 7:178. Available: http:www.biomedcentral.com1471- 21057178. Baldi P dan Brunak S. 2001. Bioinformatics: The Machine Learning Approach. Second Edition.Massachusetts. MIT Press. Bryson et.al. 2005. Protein structure prediction servers atUniversity College London. Nucleic Acids Research. Web Server issue. Vol. 33. CATH Database. 2010. http:www.cathdb.infowikidoku.php?id=data:index. version_v33 . [9 April 2010] Dugad R dan Desai U B, 1996. Tutorial on Hidden Markov Models. Technical Report No. SPANN-96.1 Eddy, S R. 1998. Profile Hidden Markov Model. Bioinformatics Review.14:755- 763. Jones NC, Pevzner PA. 2004. An Introductions to Bioinformatics Algorithms.USA. MIT Press. Lesk Arthur M. 2002. Introduction to Bioinformatics. New York. United States. Oxford University Press. Martin J, Gibrat JF, Rodolphe J. 2005. Hidden Markov Model for protein secondary structure. Martin J,Gibrat JF, Rodolphe J. 2006. Analysis of an optimal hidden Markov model for secondary structure prediction. BMC Bioinformatics. 6:25. Polanski A dan Kimmel M.2007. Bioinformatics. Springer Sciene. Germany. Rabiner LR. 1989. A Tutorial on Hidden Markov Model and Selected Applications in Speech Recognitions. Proceedings of the IEEE, 77 2, 257-286. Schmidler S C, Liu JS, Brutlag DL. 2000. Bayesian Segmentation of Protein Secondary Structure. J Comp Biol 2000, 7:233-248. Won KJ, Hamelryck T , Prügel-Bennett A, Krogh A. 2007. An evolutionary method for learning HMM structure: prediction of protein secondary structure. BMC Bioinformatics 2007. 8:357 Yu SZ, Kobayashi H, 2003. An e fficient forward–backward algorithm for an explicit duration hidden Markov model, IEEE Signal Processing Letters 10 1 Jan. 2003 11–14. Yu SZ, Kobayashi H, 2006. Practical Implementation of an Efficient Forward– Backward Algorithm for an Explicit-Duration Hidden Markov Model. IEEE Transactions on Signal Processing 54 5 January 2006 1947– 1951. LAMPIRAN Lampiran 1. Data asli struktur protein sekunder dengan DSSP ==== Secondary Structure Definition by the program DSSP, updated CMBI version by ElmK April 1,2000 ==== DATE=20-MAR-2009 . REFERENCE W. KABSCH AND C.SANDER, BIOPOLYMERS 22 1983 2577-2637 . HEADER ALU DOMAIN 13-NOV-97 1914 . COMPND 2 MOLECULE: SIGNAL RECOGNITION PARTICLE 914 FUSION PROTEIN; . SOURCE 2 ORGANISM_SCIENTIFIC: MUS MUSCULUS; . AUTHOR D.BIRSE,U.KAPP,K.STRUB,S.CUSACK,A.ABERG . 171 4 0 0 0 TOTAL NUMBER OF RESIDUES, NUMBER OF CHAINS, NUMBER OF SS-BRIDGESTOTAL,INTRACHAIN,INTERCHAIN . 10532.0 ACCESSIBLE SURFACE OF PROTEIN ANGSTROM2 . 129 75.4 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NJ , SAME NUMBER PER 100 RESIDUES . 5 2.9 TOTAL NUMBER OF HYDROGEN BONDS IN PARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES . 43 25.1 TOTAL NUMBER OF HYDROGEN BONDS IN ANTIPARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES . 1 0.6 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI-5, SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI-4, SAME NUMBER PER 100 RESIDUES . 2 1.2 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI-3, SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI-2, SAME NUMBER PER 100 RESIDUES . 1 0.6 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI-1, SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI+0, SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI+1, SAME NUMBER PER 100 RESIDUES . 14 8.2 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI+2, SAME NUMBER PER 100 RESIDUES . 8 4.7 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI+3, SAME NUMBER PER 100 RESIDUES . 54 31.6 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI+4, SAME NUMBER PER 100 RESIDUES . 1 0.6 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE OI--H-NI+5, SAME NUMBER PER 100 RESIDUES . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 HISTOGRAMS OF . 0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 RESIDUES PER ALPHA HELIX . 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PARALLEL BRIDGES PER LADDER . 0 0 0 0 2 1 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ANTIPARALLEL BRIDGES PER LADDER . 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 LADDERS PER SHEET . RESIDUE AA STRUCTURE BP1 BP2 ACC N-H--O O--H-N N-H--O O--H-N TCO KAPPA ALPHA PHI PSI X-CA Y-CA Z-CA 1 2001 A M 0 0 116 0, 0.0 2,-0.5 0, 0.0 55,-0.2 0.000 360.0 360.0 360.0 171.6 49.0 65.1 29.1 2 2002 A V - 0 0 68 53,-0.4 55,-2.6 56,-0.0 2,-0.5 -0.968 360.0-143.0-146.2 117.8 46.7 67.1 31.0 3 2003 A L E -a 57 0A 122 -2,-0.5 2,-0.2 53,-0.2 55,-0.2 -0.712 36.4-179.2 -77.2 125.1 47.1 68.6 34.4 4 2004 A L E -a 58 0A 32 53,-1.8 55,-0.5 -2,-0.5 2,-0.1 -0.725 28.5 -98.5-124.4 174.8 43.7 68.3 36.1 5 2005 A E - 0 0 145 -2,-0.2 4,-2.5 53,-0.1 5,-0.3 -0.402 47.1 -96.7 -84.9 165.3 42.0 69.2 39.3 6 2006 A S H S+ 0 0 18 1,-0.2 4,-1.8 2,-0.2 3,-0.1 0.946 125.2 33.7 -47.8 -59.4 41.4 66.6 42.0 7 2007 A E H S+ 0 0 151 1,-0.2 4,-1.4 2,-0.2 -1,-0.2 0.768 115.4 56.5 -73.7 -28.7 37.9 65.8 40.9 57 2 8 2008 A Q H S+ 0 0 105 1,-0.2 4,-1.3 2,-0.2 -1,-0.2 0.856 109.1 49.2 -71.1 -30.9 38.5 66.3 37.2 9 2009 A F H X S+ 0 0 0 -4,-2.5 4,-1.9 2,-0.2 -2,-0.2 0.914 107.4 53.0 -71.2 -47.9 41.3 63.7 37.4 10 2010 A L H X S+ 0 0 18 -4,-1.8 4,-1.8 -5,-0.3 -1,-0.2 0.808 111.4 46.3 -58.8 -31.9 39.1 61.2 39.3 11 2011 A T H X S+ 0 0 58 -4,-1.4 4,-1.6 2,-0.2 -1,-0.2 0.844 113.9 48.1 -78.5 -32.1 36.4 61.4 36.6 12 2012 A E H X S+ 0 0 26 -4,-1.3 4,-0.5 2,-0.2 -2,-0.2 0.691 111.1 51.4 -76.2 -31.0 39.0 61.1 33.8 13 2013 A L H X S+ 0 0 0 -4,-1.9 4,-2.3 2,-0.2 3,-1.0 0.904 106.9 53.1 -70.9 -49.6 40.6 58.1 35.5 14 2014 A T H 3X S+ 0 0 34 -4,-1.8 4,-2.4 1,-0.3 -2,-0.2 0.898 107.7 52.2 -54.0 -43.6 37.2 56.4 35.8 15 2015 A R H 3X S+ 0 0 145 -4,-1.6 4,-1.6 1,-0.2 -1,-0.3 0.779 106.7 53.2 -64.4 -30.8 36.8 56.9 32.1 16 2016 A L H X S+ 0 0 0 -3,-1.0 4,-0.9 -4,-0.5 -2,-0.2 0.912 109.6 47.5 -68.1 -48.3 40.2 55.3 31.5 17 2017 A F H S+ 0 0 5 -4,-2.3 3,-0.6 1,-0.2 -2,-0.2 0.906 112.2 51.6 -58.8 -40.6 39.3 52.2 33.5 18 2018 A Q H S+ 0 0 117 -4,-2.4 3,-0.6 1,-0.2 -1,-0.2 0.861 107.1 50.9 -66.9 -35.6 36.0 52.1 31.6 19 2019 A K H 3 S+ 0 0 125 -4,-1.6 3,-0.3 1,-0.2 -1,-0.2 0.647 106.0 58.1 -78.8 -14.0 37.6 52.2 28.1 20 2020 A C T S+ 0 0 6 -4,-0.9 106,-0.6 -3,-0.6 107,-0.4 -0.254 75.4 96.1-112.9 47.3 40.0 49.3 28.9 21 2021 A R S S+ 0 0 92 -3,-0.6 -1,-0.2 105,-0.1 3,-0.1 0.772 88.4 40.1-101.9 -37.5 37.6 46.6 29.8 22 2022 A S S S- 0 0 104 1,-0.3 2,-0.3 -3,-0.3 -2,-0.1 0.687 137.6 -18.2 -83.0 -21.3 37.4 44.8 26.5 23 2023 A S S S+ 0 0 69 -4,-0.2 -1,-0.3 104,-0.0 2,-0.1 -0.952 96.9 46.8-177.0 159.9 41.1 45.3 26.2 24 2024 A G - 0 0 19 -2,-0.3 103,-0.4 -3,-0.1 2,-0.3 -0.298 63.4 -95.7 93.7-179.9 44.2 47.2 27.3 25 2025 A S - 0 0 15 26,-0.2 2,-0.5 100,-0.2 100,-0.2 -0.950 16.8-131.8-138.8 155.2 45.6 48.2 30.6 26 2026 A V E -B 124 0A 3 98,-2.1 98,-2.2 -2,-0.3 2,-0.4 -0.950 21.5-162.7-110.4 122.9 45.4 51.2 32.9 27 2027 A F E -BC 123 50A 83 23,-2.6 23,-2.1 -2,-0.5 2,-0.4 -0.906 5.7-173.2-105.6 140.7 48.8 52.4 34.3 28 2028 A I E -BC 122 49A 2 94,-2.4 94,-1.9 -2,-0.4 2,-0.4 -0.995 3.8-166.5-132.5 122.1 48.9 54.8 37.2 29 2029 A T E -BC 121 48A 31 19,-2.6 19,-2.8 -2,-0.4 2,-0.3 -0.922 1.8-169.2-115.7 139.0 52.2 56.3 38.4 30 2030 A L E +BC 120 47A 0 90,-2.3 90,-2.4 -2,-0.4 2,-0.3 -0.932 14.7 158.5-121.9 144.8 52.8 58.1 41.7 31 2031 A K E - C 0 46A 66 15,-1.1 15,-3.1 -2,-0.3 88,-0.1 -0.933 42.9-100.5-167.4 142.9 55.9 60.2 42.7 32 2032 A K E - C 0 45A 39 83,-0.7 2,-0.3 86,-0.5 13,-0.3 -0.344 43.5-164.7 -60.7 148.2 57.1 62.9 45.2 33 2033 A Y E C 0 44A 108 11,-2.2 11,-0.9 133,-0.2 -1,-0.0 -0.993 360.0 360.0-143.3 142.9 57.2 66.3 43.5 34 2034 A D 0 0 177 -2,-0.3 9,-0.1 9,-0.1 11,-0.0 -0.876 360.0 360.0 -97.8 360.0 58.8 69.7 44.4 35 0 0 0 0, 0.0 0, 0.0 0, 0.0 0, 0.0 0.000 360.0 360.0 360.0 360.0 0.0 0.0 0.0 36 2047 A E 0 0 252 0, 0.0 0, 0.0 0, 0.0 0, 0.0 0.000 360.0 360.0 360.0-148.9 54.1 87.5 49.9 37 2048 A G - 0 0 56 1,-0.1 0, 0.0 2,-0.1 0, 0.0 0.770 360.0 -92.2 119.4 -9.0 54.6 86.8 53.9 38 2049 A L - 0 0 166 1,-0.2 -1,-0.1 2,-0.0 0, 0.0 0.887 47.6-172.3 65.9 62.9 56.9 83.6 54.0 39 2050 A E - 0 0 158 1,-0.1 2,-0.7 2,-0.1 -1,-0.2 -0.625 35.0-113.5 -87.9 138.9 54.9 80.3 54.1 40 2051 A P - 0 0 94 0, 0.0 2,-0.9 0, 0.0 -1,-0.1 0.115 55.5-114.6 -62.5 16.6 56.8 77.0 54.7 41 2052 A A - 0 0 65 -2,-0.7 -2,-0.1 1,-0.1 -3,-0.0 -0.417 30.1 -90.5 100.0 -70.2 55.9 75.7 51.2 42 2053 A E - 0 0 137 -2,-0.9 2,-0.2 19,-0.0 -1,-0.1 0.647 27.5-133.2 115.6 94.4 53.6 72.7 50.5 43 2054 A N + 0 0 44 124,-0.3 19,-1.0 -9,-0.1 2,-0.3 -0.551 35.7 172.8 -82.5 138.8 54.6 69.1 50.0 44 2055 A K E -CD 33 61A 56 -11,-0.9 -11,-2.2 -2,-0.2 2,-0.3 -0.889 29.4-146.9-145.4 173.5 53.2 67.2 47.0 45 2056 A C E -CD 32 60A 0 15,-1.7 15,-1.9 -13,-0.3 2,-0.5 -0.997 22.0-130.8-143.7 137.8 53.0 64.1 44.8 46 2057 A L E -CD 31 59A 41 -15,-3.1 -15,-1.1 -2,-0.3 2,-0.5 -0.809 19.0-161.4 -93.4 131.7 52.4 63.8 41.0 47 2058 A L E +CD 30 58A 0 11,-3.1 11,-1.4 -2,-0.5 2,-0.3 -0.955 13.0 177.3-117.5 115.2 49.7 61.3 39.9 48 2059 A R E +CD 29 57A 103 -19,-2.8 -19,-2.6 -2,-0.5 2,-0.3 -0.848 4.4 178.3-117.7 153.8 49.7 60.1 36.3 49 2060 A A E +CD 28 56A 1 7,-2.4 7,-2.8 -2,-0.3 2,-0.3 -0.991 1.5 172.8-152.2 150.5 47.6 57.6 34.4 50 2061 A T E -CD 27 55A 25 -23,-2.1 -23,-2.6 -2,-0.3 5,-0.2 -0.979 32.0-157.8-154.1 161.6 47.3 56.3 30.9 58 3 51 2062 A D S S- 0 0 18 3,-0.9 -26,-0.2 -2,-0.3 4,-0.1 0.033 72.7 -89.3-124.7 16.1 45.5 53.7 28.8 52 2063 A G S S+ 0 0 62 2,-0.2 3,-0.1 1,-0.1 -26,-0.1 0.096 122.2 44.1 96.2 -21.3 48.2 54.0 26.1 53 2064 A K S S+ 0 0 164 1,-0.4 2,-0.5 0, 0.0 -1,-0.1 0.727 107.5 46.6-116.9 -58.1 46.5 56.7 24.2 54 2065 A R - 0 0 67 -38,-0.0 -3,-0.9 -53,-0.0 2,-0.4 -0.884 67.4-162.9-111.7 112.3 45.2 59.4 26.6 55 2066 A K E + D 0 50A 113 -2,-0.5 -53,-0.4 -5,-0.2 2,-0.3 -0.932 11.5 175.9 -89.4 120.4 47.5 60.6 29.4 56 2067 A I E + D 0 49A 0 -7,-2.8 -7,-2.4 -2,-0.4 2,-0.3 -0.911 3.2 178.6-133.1 158.4 46.3 62.5 32.5 57 2068 A S E -aD 3 48A 6 -55,-2.6 -53,-1.8 -2,-0.3 2,-0.3 -0.948 6.7-172.7-152.8 166.2 47.9 63.8 35.7 58 2069 A T E -aD 4 47A 2 -11,-1.4 -11,-3.1 -2,-0.3 2,-0.5 -0.963 21.6-128.9-159.6 156.9 47.1 65.7 38.9 59 2070 A V E - D 0 46A 29 -55,-0.5 2,-0.4 -2,-0.3 -13,-0.2 -0.948 23.6-167.0-118.6 111.7 49.0 67.2 41.8 60 2071 A V E - D 0 45A 0 -15,-1.9 -15,-1.7 -2,-0.5 2,-0.2 -0.770 5.8-169.4-100.4 141.0 47.9 66.2 45.3 61 2072 A S E - D 0 44A 18 -2,-0.4 3,-1.4 -17,-0.2 4,-0.3 -0.658 40.7 -97.7-122.4 176.0 49.0 68.0 48.4 62 2073 A S T 3 S+ 0 0 40 -19,-1.0 4,-0.3 105,-0.3 3,-0.1 0.592 116.4 69.4 -67.3 -13.6 48.8 67.5 52.2 63 2074 A K T 3 S+ 0 0 183 1,-0.2 -1,-0.3 2,-0.1 4,-0.1 0.687 116.1 19.3 -80.4 -16.8 45.8 69.9 52.2 64 2075 A E S S+ 0 0 61 -3,-1.4 4,-2.2 2,-0.1 5,-0.2 0.163 85.6 105.7-140.9 21.8 43.6 67.4 50.4 65 2076 A V H S+ 0 0 10 -4,-0.3 4,-3.6 2,-0.2 5,-0.2 0.927 85.1 52.0 -69.4 -41.7 45.0 63.8 50.7 66 2077 A N H S+ 0 0 117 -4,-0.3 4,-1.2 2,-0.2 -1,-0.2 0.909 116.9 37.8 -59.7 -44.4 42.4 62.7 53.2 67 2078 A K H S+ 0 0 172 2,-0.2 4,-1.2 1,-0.1 -1,-0.2 0.897 120.9 46.5 -73.6 -42.1 39.4 64.0 51.0 68 2079 A F H X S+ 0 0 8 -4,-2.2 4,-3.3 1,-0.2 3,-0.4 0.944 110.1 52.9 -63.8 -52.2 41.1 62.8 47.8 69 2080 A Q H X S+ 0 0 17 -4,-3.6 4,-3.1 1,-0.2 5,-0.3 0.810 101.6 59.8 -56.5 -34.0 42.1 59.4 49.1 70 2081 A M H X S+ 0 0 136 -4,-1.2 4,-1.3 -5,-0.2 -1,-0.2 0.924 115.9 34.2 -63.3 -41.2 38.5 58.6 50.2 71 2082 A A H X S+ 0 0 46 -4,-1.2 4,-2.4 -3,-0.4 -2,-0.2 0.956 120.4 50.0 -73.1 -51.5 37.3 59.0 46.6 72 2083 A Y H X S+ 0 0 0 -4,-3.3 4,-1.5 1,-0.2 -2,-0.2 0.849 109.7 50.5 -55.5 -43.1 40.5 57.6 45.1 73 2084 A S H X S+ 0 0 18 -4,-3.1 4,-2.0 -5,-0.2 3,-0.2 0.955 112.5 47.2 -62.9 -46.1 40.5 54.5 47.3 74 2085 A N H X S+ 0 0 102 -4,-1.3 4,-2.2 -5,-0.3 -2,-0.2 0.875 109.8 53.3 -62.6 -40.8 36.8 53.7 46.4 75 2086 A L H X S+ 0 0 18 -4,-2.4 4,-2.1 2,-0.2 -1,-0.2 0.828 108.6 49.3 -65.3 -35.1 37.4 54.2 42.7 76 2087 A L H X S+ 0 0 0 -4,-1.5 4,-2.1 -3,-0.2 -2,-0.2 0.965 113.8 44.6 -70.4 -48.5 40.3 51.7 42.6 77 2088 A R H S+ 0 0 90 -4,-2.0 -2,-0.2 1,-0.2 -1,-0.2 0.836 117.4 45.5 -62.5 -36.7 38.4 49.0 44.5 78 2089 A A H S+ 0 0 58 -4,-2.2 3,-0.2 -5,-0.2 -1,-0.2 0.916 118.8 39.1 -75.7 -43.9 35.3 49.5 42.4 79 2090 A N H S+ 0 0 25 -4,-2.1 2,-1.1 1,-0.2 3,-0.2 0.716 105.3 64.6 -80.1 -23.7 36.9 49.7 39.0 80 2091 A M S S+ 0 0 5 -4,-2.1 -1,-0.2 -5,-0.2 3,-0.1 -0.526 70.7 119.6 -98.4 63.6 39.5 47.0 39.5 81 2092 A D + 0 0 92 -2,-1.1 2,-0.5 -3,-0.2 -1,-0.2 0.228 35.4 93.6-113.4 9.2 36.9 44.3 39.9 82 2093 A G + 0 0 25 -3,-0.2 2,-0.2 48,-0.1 -1,-0.1 -0.435 62.9 118.7-102.2 59.0 37.5 41.9 37.1 83 2094 A L S S- 0 0 16 -2,-0.5 2,-0.3 -3,-0.1 65,-0.2 -0.761 79.8 -52.8-121.9 166.9 39.7 39.4 39.0 84 2095 A K B -h 148 0B 106 63,-2.1 65,-1.3 45,-0.6 66,-0.3 -0.147 57.6-140.4 -44.9 97.9 39.7 35.8 40.1 85 2096 A K 0 0 191 -2,-0.3 -1,-0.1 63,-0.1 -2,-0.1 0.707 360.0 360.0 -22.9 -82.1 36.1 35.7 41.8 86 2097 A R 0 0 249 63,-0.0 -1,-0.1 62,-0.0 -2,-0.1 0.727 360.0 360.0 67.3 360.0 36.9 33.4 44.9 87 0 0 0 0, 0.0 0, 0.0 0, 0.0 0, 0.0 0.000 360.0 360.0 360.0 360.0 0.0 0.0 0.0 88 3001 A A 0 0 97 0, 0.0 2,-0.3 0, 0.0 60,-0.1 0.000 360.0 360.0 360.0 -67.9 49.9 34.2 39.6 89 3002 A Q + 0 0 92 57,-0.2 57,-0.2 58,-0.1 2,-0.1 -0.708 360.0 92.8 -93.6 146.2 50.6 35.7 42.9 90 3003 A G E -E 145 0A 15 55,-1.3 55,-1.8 -2,-0.3 9,-0.1 -0.269 53.5-110.1 141.1 143.2 54.1 36.8 44.0 91 3004 A G E -E 144 0A 11 7,-0.5 7,-1.0 8,-0.2 2,-0.3 -0.339 20.1-149.7 -90.0 173.4 56.8 39.4 44.3 92 3005 A E E -E 143 0A 100 51,-1.7 51,-1.4 5,-0.2 2,-0.7 -0.998 9.5-154.5-148.0 136.1 60.1 40.0 42.6 93 3006 A Q E +E 142 0A 139 -2,-0.3 49,-0.2 49,-0.2 2,-0.2 -0.804 33.6 171.2-112.0 85.7 63.4 41.6 43.7 59 4 60 94 3007 A K E E 141 0A 143 47,-2.1 47,-2.4 -2,-0.7 45,-0.1 -0.485 360.0 360.0 -97.1 165.3 65.1 42.8 40.5 95 3008 A L 0 0 137 45,-0.2 45,-0.1 -2,-0.2 -1,-0.1 -0.073 360.0 360.0-144.5 360.0 68.1 44.9 39.8 96 0 0 0 0, 0.0 0, 0.0 0, 0.0 0, 0.0 0.000 360.0 360.0 360.0 360.0 0.0 0.0 0.0 97 4004 A F 0 0 34 0, 0.0 2,-0.8 0, 0.0 5,-0.4 0.000 360.0 360.0 360.0 13.4 59.0 37.7 47.2 98 4005 A Q + 0 0 132 -7,-1.0 -7,-0.5 4,-0.1 5,-0.1 -0.176 360.0 73.1 44.9 -93.0 56.5 35.4 47.0 99 4006 A T S S- 0 0 49 -2,-0.8 4,-1.0 -9,-0.1 -8,-0.2 -0.029 76.2-138.9 -48.9 146.5 54.8 36.6 50.1 100 4007 A W H S+ 0 0 39 2,-0.2 4,-2.7 1,-0.2 5,-0.2 0.859 104.7 62.7 -68.3 -41.6 53.0 40.0 49.9 101 4008 A E H S+ 0 0 118 1,-0.2 4,-1.9 2,-0.2 5,-0.2 0.914 103.8 45.0 -52.9 -46.3 54.5 40.6 53.3 102 4009 A E H S+ 0 0 88 -5,-0.4 4,-2.0 2,-0.2 -1,-0.2 0.842 112.7 52.4 -67.6 -37.0 58.1 40.5 52.0 103 4010 A F H X S+ 0 0 0 -4,-1.0 4,-2.9 -6,-0.2 5,-0.3 0.963 108.6 49.2 -62.8 -54.0 57.2 42.6 49.1 104 4011 A S H X S+ 0 0 13 -4,-2.7 4,-2.0 1,-0.2 -2,-0.2 0.886 112.8 46.6 -51.4 -50.2 55.6 45.4 51.2 105 4012 A R H X S+ 0 0 143 -4,-1.9 4,-2.0 -5,-0.2 -1,-0.2 0.919 114.6 47.3 -60.7 -47.5 58.5 45.6 53.6 106 4013 A A H X S+ 0 0 24 -4,-2.0 4,-2.2 1,-0.2 -2,-0.2 0.909 113.3 47.3 -60.2 -48.6 61.1 45.7 50.8 107 4014 A A H X S+ 0 0 0 -4,-2.9 4,-1.6 1,-0.2 -1,-0.2 0.832 110.3 54.6 -62.7 -34.1 59.1 48.3 48.8 108 4015 A E H X S+ 0 0 77 -4,-2.0 4,-2.4 -5,-0.3 -1,-0.2 0.880 109.6 45.0 -69.4 -43.7 58.7 50.4 52.0 109 4016 A K H X S+ 0 0 164 -4,-2.0 4,-1.9 2,-0.2 -2,-0.2 0.885 111.1 54.8 -68.0 -37.6 62.5 50.5 52.7 110 4017 A L H X S+ 0 0 18 -4,-2.2 4,-1.0 -5,-0.2 -2,-0.2 0.880 111.7 45.3 -61.1 -37.2 63.2 51.3 49.0 111 4018 A Y H S+ 0 0 4 -4,-1.6 3,-0.2 1,-0.2 -2,-0.2 0.946 112.5 47.9 -70.9 -52.3 60.8 54.2 49.3 112 4019 A L H S+ 0 0 93 -4,-2.4 -2,-0.2 1,-0.2 -1,-0.2 0.753 101.1 68.5 -59.9 -27.2 62.2 55.6 52.6 113 4020 A A H S- 0 0 79 -4,-1.9 -1,-0.2 1,-0.2 -2,-0.2 0.972 128.1 -6.7 -58.0 -57.0 65.7 55.3 51.3 114 4021 A D X - 0 0 65 -4,-1.0 3,-1.7 -3,-0.2 4,-0.9 -0.640 65.0-176.6-145.3 85.1 65.2 58.1 48.8 115 4022 A P T 34 S+ 0 0 34 0, 0.0 -83,-0.7 0, 0.0 3,-0.1 0.747 83.3 57.9 -50.8 -32.1 61.5 59.4 48.5 116 4023 A M T 34 S+ 0 0 84 1,-0.2 -82,-0.1 -85,-0.1 -5,-0.0 0.693 109.5 42.0 -76.2 -21.9 62.3 61.8 45.6 117 4024 A K T 4 S+ 0 0 119 -3,-1.7 2,-0.3 -6,-0.2 -1,-0.2 0.581 92.4 99.1-101.6 -12.6 63.7 59.1 43.3 118 4025 A V - 0 0 0 -4,-0.9 -86,-0.5 -7,-0.2 2,-0.4 -0.580 51.6-161.1 -85.8 138.4 61.1 56.4 43.8 119 4026 A R E - F 0 136A 60 17,-3.3 17,-2.1 -2,-0.3 2,-0.6 -0.960 6.3-152.6-117.8 131.1 58.2 55.7 41.5 120 4027 A V E -BF 30 135A 0 -90,-2.4 -90,-2.3 -2,-0.4 2,-0.4 -0.917 18.8-167.3-104.3 120.5 55.1 53.7 42.5 121 4028 A V E -BF 29 134A 18 13,-4.0 13,-2.6 -2,-0.6 2,-0.4 -0.908 11.8-171.9-115.8 140.7 53.4 52.0 39.5 122 4029 A L E -BF 28 133A 2 -94,-1.9 -94,-2.4 -2,-0.4 2,-0.4 -0.993 3.7-176.0-127.9 132.0 50.0 50.3 39.2 123 4030 A K E -BF 27 132A 65 9,-2.2 9,-2.1 -2,-0.4 2,-0.5 -0.973 2.2-171.9-134.5 117.4 48.9 48.3 36.2 124 4031 A Y E -BF 26 131A 7 -98,-2.2 -98,-2.1 -2,-0.4 2,-0.5 -0.935 6.1-174.9-113.3 124.0 45.4 46.9 35.9 125 4032 A R E - F 0 130A 64 5,-2.6 5,-1.8 -2,-0.5 4,-1.3 -0.845 1.2-177.7-120.2 93.0 44.5 44.6 33.1 126 4033 A H T 45S+ 0 0 40 -106,-0.6 3,-0.4 -2,-0.5 -1,-0.2 0.909 81.6 51.3 -50.9 -54.7 40.8 43.8 33.3 127 4034 A V T 45S+ 0 0 75 -103,-0.4 -1,-0.2 -107,-0.4 -106,-0.1 0.843 116.0 41.9 -55.4 -38.8 40.6 41.4 30.3 128 4035 A D T 45S- 0 0 88 -3,-0.2 -1,-0.2 2,-0.1 -2,-0.2 0.642 106.3-129.6 -83.4 -18.2 43.5 39.3 31.7 129 4036 A G T 5 + 0 0 11 -4,-1.3 -45,-0.6 -3,-0.4 2,-0.3 0.894 63.1 123.9 70.9 39.8 42.2 39.6 35.3 130 4037 A N E -F 125 0A 56 -5,-1.8 -5,-2.6 -47,-0.1 2,-0.4 -0.980 44.4-160.0-138.3 146.5 45.5 40.7 36.8 131 4038 A L E -FG 124 146A 2 15,-2.1 15,-2.1 -2,-0.3 2,-0.4 -0.947 11.8-167.5-118.5 144.3 46.8 43.6 38.9 132 4039 A C E -FG 123 145A 11 -9,-2.1 -9,-2.2 -2,-0.4 2,-0.5 -0.987 6.2-168.6-138.8 128.2 50.4 44.6 39.2 133 4040 A I E -FG 122 144A 0 11,-2.1 11,-0.8 -2,-0.4 2,-0.4 -0.958 7.2-174.3-117.4 129.4 52.3 47.0 41.5 134 4041 A K E -FG 121 143A 72 -13,-2.6 -13,-4.0 -2,-0.5 2,-0.5 -0.969 10.4-173.0-125.2 131.2 55.8 48.2 41.1 135 4042 A V E +FG 120 142A 0 7,-2.5 7,-1.3 -2,-0.4 2,-0.3 -0.995 27.3 154.5-120.2 116.8 58.0 50.2 43.4 136 4043 A T E -FG 119 141A 7 -17,-2.1 -17,-3.3 -2,-0.5 5,-0.2 -0.969 45.7-161.0-143.8 158.0 61.3 51.3 41.8 5 61 137 4044 A D - 0 0 48 3,-1.4 4,-0.1 -2,-0.3 -19,-0.1 -0.020 67.2 -99.6-119.2 18.1 64.1 53.9 41.9 138 4045 A D S S+ 0 0 108 2,-0.4 3,-0.1 1,-0.2 -20,-0.1 0.493 118.7 57.4 72.9 1.6 65.2 52.9 38.4 139 4046 A L S S+ 0 0 109 1,-0.6 2,-0.3 -45,-0.1 -1,-0.2 0.530 108.0 35.3-117.3 -71.5 68.0 50.8 39.8 140 4047 A V S S- 0 0 43 -45,-0.1 -3,-1.4 -30,-0.1 -1,-0.6 -0.657 76.1-161.7 -85.0 135.8 66.4 48.3 42.2 141 4048 A C E -EG 94 136A 22 -47,-2.4 -47,-2.1 -2,-0.3 2,-0.4 -0.935 11.6-175.2-122.2 139.1 62.9 47.0 41.1 142 4049 A L E +EG 93 135A 7 -7,-1.3 -7,-2.5 -2,-0.4 2,-0.3 -0.973 11.6 175.8-135.2 115.7 60.2 45.4 43.2 143 4050 A V E -EG 92 134A 11 -51,-1.4 -51,-1.7 -2,-0.4 2,-0.3 -0.779 15.3-164.0-116.6 164.3 57.0 44.0 41.5 144 4051 A Y E -EG 91 133A 5 -11,-0.8 -11,-2.1 -2,-0.3 2,-0.3 -0.825 10.0-167.2-152.3 111.7 54.0 42.1 42.8 145 4052 A R E +EG 90 132A 117 -55,-1.8 -55,-1.3 -2,-0.3 2,-0.3 -0.796 13.3 164.5-104.0 141.7 51.6 40.4 40.5 146 4053 A T E - G 0 131A 2 -15,-2.1 -15,-2.1 -2,-0.3 -57,-0.2 -0.966 35.3-172.9-152.7 163.8 48.2 39.0 41.3 147 4054 A D + 0 0 25 -2,-0.3 -63,-2.1 -17,-0.2 2,-0.5 0.227 60.6 111.4-137.5 2.9 45.0 37.7 39.9 148 4055 A Q B -h 84 0B 40 -65,-0.2 3,-2.0 1,-0.1 4,-0.5 -0.697 60.3-149.6 -88.5 125.5 43.2 37.4 43.3 149 4056 A A G 4 S+ 0 0 45 -65,-1.3 3,-0.5 -2,-0.5 4,-0.5 0.723 97.5 67.5 -63.4 -20.3 40.3 39.8 43.9 150 4057 A Q G 34 S+ 0 0 123 -66,-0.3 4,-0.4 1,-0.2 -1,-0.3 0.588 94.1 56.2 -76.6 -13.7 41.3 39.5 47.6 151 4058 A D G S+ 0 0 2 -3,-2.0 4,-2.0 2,-0.1 5,-0.3 0.642 84.9 81.4 -93.2 -16.0 44.7 41.3 46.9 152 4059 A V H X S+ 0 0 7 -4,-0.5 4,-2.1 -3,-0.5 5,-0.2 0.947 89.7 52.8 -53.1 -51.6 43.1 44.5 45.4 153 4060 A K H S+ 0 0 120 -4,-0.5 4,-2.8 1,-0.2 -1,-0.2 0.864 112.9 40.4 -52.1 -52.2 42.4 46.0 48.8 154 4061 A K H S+ 0 0 65 -4,-0.4 4,-1.9 2,-0.2 -1,-0.2 0.835 113.8 53.5 -71.0 -32.9 45.9 45.7 50.3 155 4062 A I H X S+ 0 0 1 -4,-2.0 4,-1.7 2,-0.2 -1,-0.2 0.817 114.1 44.2 -69.4 -32.8 47.6 46.7 47.1 156 4063 A E H X S+ 0 0 6 -4,-2.1 4,-2.9 -5,-0.3 -2,-0.2 0.951 112.1 50.4 -77.2 -49.2 45.5 49.8 47.1 157 4064 A K H X S+ 0 0 105 -4,-2.8 4,-1.3 1,-0.2 -2,-0.2 0.830 114.2 46.8 -56.1 -35.5 45.9 50.6 50.7 158 4065 A F H X S+ 0 0 14 -4,-1.9 4,-2.1 2,-0.2 -1,-0.2 0.921 111.1 47.8 -70.3 -55.1 49.6 50.3 50.4 159 4066 A H H X S+ 0 0 0 -4,-1.7 4,-1.6 1,-0.2 -2,-0.2 0.892 114.2 51.1 -52.2 -42.2 50.0 52.4 47.2 160 4067 A S H X S+ 0 0 2 -4,-2.9 4,-1.5 1,-0.2 -1,-0.2 0.815 105.9 53.3 -68.3 -34.2 47.8 54.9 49.0 161 4068 A Q H X S+ 0 0 82 -4,-1.3 4,-1.4 2,-0.2 -1,-0.2 0.860 105.0 54.1 -69.4 -39.7 49.9 54.9 52.2 162 4069 A L H X S+ 0 0 1 -4,-2.1 4,-2.3 1,-0.2 3,-0.7 0.940 105.2 55.8 -56.2 -38.4 53.0 55.7 50.1 163 4070 A M H 3X S+ 0 0 0 -4,-1.6 4,-1.6 1,-0.3 -2,-0.2 0.888 105.4 51.5 -60.1 -40.0 51.1 58.7 48.7 164 4071 A R H 3X S+ 0 0 93 -4,-1.5 4,-1.9 2,-0.2 -1,-0.3 0.762 107.7 51.2 -68.4 -32.0 50.5 59.9 52.3 165 4072 A L H S+ 0 0 69 -4,-1.4 -2,-0.2 -3,-0.7 -1,-0.2 0.925 109.0 52.0 -71.2 -39.3 54.3 59.7 53.1 166 4073 A M H S+ 0 0 0 -4,-2.3 -2,-0.2 1,-0.2 -133,-0.2 0.850 118.0 37.6 -61.5 -38.8 55.1 61.7 50.0 167 4074 A V H S+ 0 0 3 -4,-1.6 -105,-0.3 -5,-0.2 -124,-0.3 0.734 87.0 115.6 -87.6 -28.8 52.6 64.4 51.0 168 4075 A A - 0 0 55 -4,-1.9 2,-0.3 -5,-0.1 -124,-0.1 -0.149 59.7-134.9 -50.7 136.0 53.1 64.4 54.8 169 4076 A K - 0 0 112 -107,-0.1 2,-0.5 -126,-0.1 -1,-0.1 -0.729 14.0-150.7 -94.9 141.9 54.5 67.7 56.2 170 4077 A E - 0 0 166 -2,-0.3 2,-2.3 2,-0.0 -2,-0.0 -0.922 20.1-122.4-118.2 128.9 57.3 67.7 58.7 171 4078 A S - 0 0 129 -2,-0.5 2,-0.2 2,-0.1 -2,-0.0 -0.398 34.7-167.1 -72.3 86.0 57.9 70.3 61.3 172 4079 A R - 0 0 222 -2,-2.3 2,-0.7 1,-0.1 -3,-0.0 -0.513 18.8-125.9 -70.8 142.3 61.4 71.3 60.4 173 4080 A N 0 0 122 -2,-0.2 -1,-0.1 1,-0.2 -2,-0.1 -0.309 360.0 360.0 -95.7 54.6 63.0 73.5 63.1 174 4081 A V 0 0 201 -2,-0.7 -1,-0.2 0, 0.0 0, 0.0 0.950 360.0 360.0 -70.6 360.0 64.4 76.8 62.1 ABSTRACT HARYANTO, TOTO. The Development of Hidden Semi Markov Model with Empirical State Duration Distribution for Protein Secondary Structure Predictions. Under direction of AGUS BUONO and ANTO SATRIYO NUGROHO This research aimed to develop Hidden Semi Markov Model HSMM with long- duration distribution of state empirically and theoretically to predict protein secondary structure. Data used in this study are subset data taken from database of secondary protein structure in DSSP program with three secondary protein structures of alpha-helix H, betha-sheet B, and coil C. Accuracy of the predicted protein structure with HSMM is compared with Hidden Markov Model HMM standard. The results showed that the HSMM generally provides a prediction accuracy 72. 1 , 35.3 and 63,1 for H, B and C respectively. The accuracy of standard HMM is 98.4 for B, 1 for B and 6.4 for C. The use of empirical state duration distribution gives better accuracy on average compared a theoretical state duration distribution. Use of the empirical state duration distribution provides accuracy 71.2 for H, 37.1 for B and 64.0 for C. Use of theoretical state duration distribution provides accuracy 75 for H, 30.2 for B and 60.6 for C. Less accuracy in betha-sheet prediction with HSMM was caused by high of the dispute between distribution in training data and testing data. Keyword: Hidden Semi Markov Model HSMM, Hidden Markov Model HMM, protein secondary structure I PENDAHULUAN 1.1 Latar Belakang Protein, RNA dan berbagai fitur dalam genome dapat diklasifikasikan menjadi suatu keluarga tertentu sesuai dengan sekuensnya. Protein merupakan aktor utama pada makhluk hidup yang memiliki berbagai fungsi yang sangat penting. Protein terbentuk dari sekuens asam amino pembentuknya dengan karakteristik yang berbeda. Struktur protein dapat dilihat secara hierarki sebagai struktur primer, sekunder dan tersier Polanski dan Kimmel 2007. Para ahli di bidang Biologi mengatakan bahwa protein berasal dari kombinasi tiga huruf triplet dari Asam Deoksiribosa DNA yang disebut dengan codon Jones dan Pevzner 2004. Struktur primer dari protein adalah urutan sekuens asam amino penyusun protein yang dihubungkan melalui ikatan peptida. Struktur sekunder adalah sejumlah rangkaian asam amino yang membentuk struktur tiga dimensi lokal baik struktur alpha-helix H, betha-sheet B maupun coil C. Adapun struktur tersier adalah gabungan dari berbagai struktur sekunder setelah terjadi proses pelipatan folding. Peranan protein sangat terlihat pada saat telah melakukan pelipatan protein folding dalam bentuk tiga dimensi 3D sebagai struktur tersier. Namun, struktur tersier 3D tersebut ditentukan oleh struktur sebelumnya baik primer maupun struktur sekundernya. Oleh karena itu, penentuan struktur sekunder protein ini menjadi bidang kajian yang banyak dilakukan di bidang Bioinformatika. Menurut Albert et al. 1998 struktur protein dapat ditentukan dengan eksperimen melalui penggunaan X-Ray Crystallography dan Nuclear Magnetic Resonance NMR spectroscopy. Keduanya mampu menghasilkan struktur protein sampai dengan bentuk tiga dimensinya. Dengan teknik ini, sangat memungkinkan ditemukannya struktur protein baru. Akan tetapi, penggunaan kedua teknik tersebut membutuhkan biaya yang relatif mahal. Oleh karena itu, berbagai teknik komputasi digunakan untuk melakukan prediksi struktur sekunder protein berbasis model komputasi, salah satunya adalah Hidden Markov Models HMM. Di sisi lain, karakteristik dari sekuens asam amino sebagai struktur protein primer sangat cocok dengan tipe data yang digunakan pada pembuatan model dengan menggunakan Hidden Markov untuk memprediksi struktur sekunder suatu protein. Menurut Eddy 1998, Hidden Markov Model HMM merupakan suatu kelas dari model probabilistik yang secara umum dapat diaplikasikan untuk permasalahan deret waktu atau sekuens yang bersifat linear. Sejalan dengan itu, HMMs merupakan metode yang dianggap memiliki kesuksesan dalam menyelesaikan permasalahan di dalam analisis sekuens meskipun dari sisi kompleksitas masih sulit untuk ditentukan secara manual Won et al. 2007. Martin et al. 2005 mengatakan bahwa di dalam memprediksi struktur sekunder protein dapat dilakukan dengan dua metode, yaitu:  Membandingkan model yang telah ada dengan struktur yang akan diprediksi atau dikenal dengan comparative modelling  Metode de novo, yaitu apabila tidak terdapat model yang tersedia untuk dibandingkan dengan struktur yang akan diklasifikasikan. Pada penelitian ini yang akan dilakukan adalah membuat model untuk mengklasifikasikan struktur sekunder protein. Untuk membangkitkan model tersebut, akan digunakan HMM akan yang telah secara luas diimplementasikan untuk menyelesaikan permasalahan dalam analisis sekuens. Di antara beberapa permasalahan yang terdapat di dalam prediksi struktur sekunder protein ialah masih terbatasnya model untuk dijadikan acuan dalam memprediksi protein sekunder karena ukuran data sangat besar. Penambahan jumlah data model bisa saja dilakukan, namun besarnya ukuran data akan membutuhkan waktu yang lama dan sulit untuk mencapai konvergen dari model yang bangkitkan pada saat melakukan proses pelatihan atau training. Pada prediksi struktur sekunder protein dengan Hidden Markov Model HMM informasi state hanya diperoleh dari satu observasi yang dalam hal ini adalah asam amino. Padahal, pada kenyataannya bisa saja suatu state dapat menyimpan informasi lebih dari satu observasi atau bahkan suatu sekuens observasi sebagai informasi. Oleh karena itu, dalam prediksi struktur sekunder protein terdapat pendekatan yang dikenal dengan Hidden Semi Markov Model HSMM. Pada HSMM, satu state dapat membangkitkan suatu sekuens observasi. Ciri dari HSMM yang terpenting adalah adanya durasi state sebagai informasi dalam proses pelatihan dalam membuat model. Hidden Semi Markov Model HSMM diperkenalkan pertama kali oleh Ferguson 1980 yang diaplikasikan untuk konversi teks ke suara. Yu dan Kobayashi 2003 melakukan penelitian untuk memperbaiki Algoritme pada HSMM yang dikenalkan oleh Ferguson. Hasilnya adalah kompleksitas algoritme yang diusulkan lebih efisien dibandingkan dengan yang dibuat pertama kali oleh Ferguson. Awalnya, kompleksitas algoritme pada HSMM yang diperkenalkan oleh Ferguson adalah OMD 2 +M 2 T. Dengan M adalah banyaknya state, D adalah durasi maksimum antar state dan T adalah panjangnya observasi. Yu dan Kobayashi berhasil mengefisienkan algoritme tersebut sehingga kompleksitasnya menjadi OMD+M 2 T dan mengimplementasikannya untuk menganlisa trafik suatu alamat website. Pada tahun 2006, Yu dan Kobayashi kembali melakukan penelitian dan mengimplementasikan algoritme yang diusulkannya tersebut pada chipfield-progammable gate-array FPGA. Prediksi struktur sekunder protein dengan Hidden Semi Markov Model HSMM pertama kali diperkenalkan oleh Schmidler et al. 2000 sebagai metode baru dalam prediksi struktur sekunder protein. Aydin et al. 2006 juga melakukan penelitian untuk memprediksi struktur sekunder protein dengan distribusi durasi maksimum sebanyak 50. Namun, keduanya masih menggunakan algoritme dengan kompleksitas sebagaiamana yang dijelaskan oleh Ferguson. Pada penelitian kali ini, prediksi struktur sekunder protein diimplementasikan dengan algoritme yang telah memiliki kompleksitas OMD+M 2 T dan menggunakan beberapa jenis distribusi durasi maksimum yang akan diperoleh secara empiris dari data latih yang diambil maupun dengan menggunakan distribusi secara teoritis. Hasil akurasi yang didapatkan akan dibandingan dengan hasil akurasi HMM standar.

1.2 Penelitian Terkait

Prediksi struktur sekunder protein dengan Hidden Semi Markov Model HSMM pertama kali diperkenalkan oleh Schmidler et al. 2000. Hasil akurasi prediksi struktur sekunder protein adalah 61,8 untuk alpha-helixH dan 61,3 untuk betha-sheet B dan 65,9 untuk coil C. Pada penelitian tersebut panjang durasi yang digunakan adalah 30 dengan kompleksitasnya adalah OMD 2 +M 2 T. Aydin et al. 2006 melakukan penelitian untuk melakukan prediksi struktur sekunder protein pada sekuens tunggal. Hasil akurasi yang diperoleh adalah 65, 9 untuk alpha-helixH, 45,4 untuk betha-sheetB dan 81,3 untuk coil C.

1.3 Tujuan Penelitian

Penelitian ini bertujuan untuk mengembangkan Hidden Semi Markov Model HSMM yang telah memiliki kompleksitas lebih efisien untuk memprediksi struktur sekunder protein kemudian membandingkan hasil akurasi tersebut dengan penggunaan Hidden Markov Models HMM standar. Di samping itu, penelitian ini juga bertujuan untuk melihat pengaruh distribusi panjang durasi state sebagai informasi biologi dalam proses pelatihan model HSMM yang dilakukan terhadap hasil akurasi yang diperoleh.

1.4 Ruang Lingkup Penelitian

Penelitian ini hanya dibatasai pada proses identifikasi struktur sekunder protein dengan menggunakan sekuens tunggal pada proses pengujiannya. Penelitian ini juga dikembangkan sampai dengan pembuatan aplikasi untuk melakukan prediksi struktur sekunder protein. Penentuan struktur sekunder pada penelitian ini dibatasi menggunakan Define Secondary Structure of Protein DSSP. II TINJAUAN PUSTAKA

2.1 Struktur Protein

Protein merupakan bagian yang sangat penting pada setiap makhluk hidup. Proses untuk mendapatkan protein dinamakan dengan translasi. Setiap makhluk hidup memiliki kode genetik yaitu DNA deoxyribonucleic acid yang tersusun dari basa nitrogen adenin A, guanin G, thymine T dan cytosine C. Melalui proses transkripsi, DNA tersebut ditranskripsikan menjadi RNA ribonucleic acid. RNA mengalami proses translasi untuk kemudian menghasilkan protein Jones dan Pevzner 2004. Secara ringkas proses terbentuknya protein dapat dilihat pada Gambar 1. Gambar 1. Proses pembentukan protein Protein merupakan elemen dasar dari suatu organisme yang dibentuk dari asam amino. Terdapat 20 asam amino dengan struktur kimia yang berbeda Polanski dan Kimmel 2007. Susunan asam amino pembentuk protein dapat dilihat pada Tabel 1. Asam amino tersebut terbentuk dari tiga huruf triplet dari kombinasi Asam Deoksirobosa DNA yang disebut dengan codon. Codon triplet pembentuk protein dapat dilihat pada Tabel 2. Satu protein protein terdiri atas sejumlah sekuens asam amino. Ilustrasi dari pembentukan satu protein berdasarkan sekuensnya dapat dilihat pada Gambar 2. translasi transkripsi DNA RNA PROTEIN DNA : TAC CGC GGC TAT TAC TGC CAG GAA GGA ACT RNA : AUG GCG CCG AUA AUG ACG GUC CUU CCU UGA Protein : Met Ala Pro Ile Met Thr Val Leu Pro Stop Gambar 2. Contoh urutan asam amino pembentuk suatu protein Gambar 2 merupakan ilustrasi proses pembentukan protein mulai dari urutan sekuens DNA sampai dengan proses translasi yang dapat menghasilkan suatu protein. Tabel 1. Asam amino, singkatan, simbol dan karakteristik Asam Amino Singkatan Simbol Karakteristik Alanine Ala A Nonpolar, hydrophobic Arginine Arg R Polar, hydrophilic Asparagine Asn N Polar, hydrophilic Aspartic acid Asp D Polar, hydrophilic Cystein Cys C Polar, hydrophilic Glutamine Gln Q Polar, hydrophilic Glutamic acid Glu E Polar, hydrophilic Glycine Gly G Polar, hydrophilic Histidine His H Polar, hydrophilic Isoleucine Ile I Nonpolar, hydrophobic Leucine Leu L Nonpolar, hydrophobic Lysine Lys K Polar, hydrophilic Methionine Met M Nonpolar, hydrophobic Phenylalanine Phe F Nonpolar, hydrophobic Proline Pro P Nonpolar, hydrophobic Serine Ser S Polar, hydrophilic Threonine Thr T Polar, hydrophilic Tryptophan Trp W Nonpolar, hydrophobic Tyrosine Tyr Y Polar, hydrophilic Valine Val V Nonpolar, hydrophobic Tabel 2. Codon pembentuk protein U C A G U UUU Phe UUC Phe UUA Leu UUG Leu UCU Ser UCC Ser UCA Ser UCG Ser UAU Tyr UAC Tyr UAA Stop UAG Stop UGU Cys UGC Cys UGA Stop UGG Trp C CUU Leu CUC Leu CUA Leu CUG Leu CCU Pro CCC Pro CCA Pro CCG Pro CAU His CAC His CAA Gln CAG Gln CGU Arg CGC Arg CGA Arg CGG Arg A AUU Ile AUC Ile AUA Ile AUG Met ACU Thr ACC Thr ACA Thr ACG Thr AAU Asn AAC Asn AAA Lys AAG Lys AGU Ser AGC Ser AGA Arg AGG Arg G GUU Val GUC Val GUA Val GUG Val GCU Ala GCC Ala GCA Ala GCG Ala GAU Asp GAC Asp GAA Glu GAG Glu GGU Gly GGC Gly GGA Gly GGG Gly Struktur protein terdiri atas struktur primer, struktur sekunder dan struktur tersier Polanski dan Kimmel 2007. Struktur primer dari suatu protein adalah rangkaian asam amino pembentuknya di sekitar rantai polipeptida. Database Bioinformatics memiliki 3 x 10 6 atau 3.000.000 sekuens asam amino dari protein. Struktur primer ini yang dibentuk dari hasil translasi DNA sampai menjadi codon. Hormon merupakan contoh protein yang dapat dilihat dari susunan asam aminonya. Sebagai contoh, prolaktin adalah salah satu hormon pertumbuhan yang dimiliki setiap makhluk hidup. Gambar 3 adalah contoh asam amino dari hormon prolaktin pada manusia.