Pengembangan hidden semi markov model dengan distribusi durasi state empiris untuk prediksi struktur sekunder protein

(1)

PENGEMBANGAN HIDDEN SEMI MARKOV MODEL

DENGAN DISTRIBUSI DURASI STATE EMPIRIS UNTUK

PREDIKSI STRUKTUR SEKUNDER PROTEIN

TOTO HARYANTO

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

BOGOR

2011


(2)

PERNYATAAN MENGENAI TESIS DAN SUMBER

INFORMASI

Dengan ini saya menyatakan bahwa tesis : Pengembangan Hidden Semi

Markov Model dengan Distribusi Durasi State Empiris untuk Prediksi Struktur Protein Sekunder adalah karya saya dengan arahan dari komisi pembimbing dan

belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.

Bogor, Januari 2011

Toto Haryanto


(3)

ABSTRACT

HARYANTO, TOTO. The Development of Hidden Semi Markov Model with Empirical State Duration Distribution for Protein Secondary Structure Predictions. Under direction of AGUS BUONO and ANTO SATRIYO NUGROHO

This research aimed to develop Hidden Semi Markov Model (HSMM) with long-duration distribution of state empirically and theoretically to predict protein secondary structure. Data used in this study are subset data taken from database of secondary protein structure in DSSP program with three secondary protein structures of alpha-helix (H), betha-sheet (B), and coil (C). Accuracy of the predicted protein structure with HSMM is compared with Hidden Markov Model (HMM) standard. The results showed that the HSMM generally provides a prediction accuracy 72. 1% , 35.3% and 63,1% for H, B and C respectively. The accuracy of standard HMM is 98.4% for (B), 1% for (B) and 6.4% for (C). The use of empirical state duration distribution gives better accuracy on average compared a theoretical state duration distribution. Use of the empirical state duration distribution provides accuracy 71.2% for (H), 37.1% for (B) and 64.0% for (C). Use of theoretical state duration distribution provides accuracy 75% for (H), 30.2 % for (B) and 60.6% for (C). Less accuracy in betha-sheet prediction with HSMM was caused by high of the dispute between distribution in training data and testing data.

Keyword: Hidden Semi Markov Model (HSMM), Hidden Markov Model (HMM), protein secondary structure


(4)

RINGKASAN

HARYANTO, TOTO. Pengembangan Hidden Semi Markov Model dengan Distribusi Durasi State Empiris untuk Prediksi Struktur Sekunder Protein. Dibimbing oleh AGUS BUONO dan ANTO SATRIYO NUGROHO.

Protein merupakan unsur yang sangat esensial dalam makhluk hidup. Secara hierarki, struktur protein dapat dikelompokkan menjadi protein primer, protein sekunder dan protein tersier. Struktur primer berupa untaian asam amino pembentuk protein, sedangkan struktur sekunder adalah segmentasi asam amino berupa alpha-helix (H), betha-sheet (B) dan coil (C). Adapun struktur protein tersier adalah struktur sekunder yang telah mengalami proses pelipatan atau

folding. Fungsi protein akan terlihat, apabila telah membentuk struktur tersiernya. Pembentukan struktur protein dari primer sampai tersier dapat dilakukan dengan menggunakan X-Ray Crystallography dan Nuclear Magnetic Resonance (NMR) spectroscopy. Meskipun kedua teknik tersebut mampu mendapatkan struktur baru, akan tetapi membutuhkan biaya yang relatif mahal. Oleh karena itu, berbagai teknik komputasi banyak digunakan untuk menentukan struktur suatu protein terutama struktur sekunder.

Di sisi lain, karakteristik dari sekuens asam amino sebagai struktur protein primer sangat cocok dengan tipe data yang digunakan pada pembuatan model dengan menggunakan Hidden Markov (HMM) untuk memprediksi struktur sekunder suatu protein. Pada prediksi struktur sekunder protein dengan Hidden Markov Model (HMM) informasi state hanya diperoleh dari satu observasi yang dalam hal ini adalah asam amino. Padahal, pada kenyataannya bisa saja suatu

state dapat menyimpan informasi lebih dari satu observasi atau bahkan suatu

sekuens observasi sebagai informasi. Oleh karena itu, dalam prediksi struktur sekunder protein terdapat pendekatan yang dikenal dengan Hidden Semi Markov Model (HSMM). Pada HSMM, satu state dapat membangkitkan suatu sekuens observasi. Ciri dari HSMM yang terpenting adalah adanya durasi state sebagai informasi dalam proses pelatihan dalam membuat model.

Pada penelitian kali ini, prediksi struktur sekunder protein diimplementasikan dengan algoritme yang telah memiliki kompleksitas

O((MD+M2)T) dan menggunakan beberapa jenis distribusi durasi maksimum

yang akan diperoleh secara empiris dari data latih yang diambil maupun dengan menggunakan distribusi teoritis. Hasil akurasi yang didapatkan akan dibandingkan dengan hasil akurasi HMM standar. Di samping itu, penelitian ini akan mengkaji pengaruh selisih distribusi durasi terhadap nilai akurasi yang dihasilkan pada model Hidden Semi Markov Model (HSMM).

Metode yang digunakan pada penelitian dilakukan melalui tiga tahap utama, yaitu tahap pengumpulan data, tahap pembuatan model dan tahap pengujian. Data yang digunakan pada penelitian ini adalah subset dari dari DSSP (Define Secondary Structure of Protein) pada alamat http://swift.cmbi.ru.nl/gv/dssp/ .


(5)

Data untuk proses pelatihan terdiri atas 42556 residu asam amino, sedangkan data pengujian sebanyak 14057 residu. Dari data latih tersebut dibuat beberapa model baik dengan model HMM maupun model HSMM dengan delapan distribusi durasi yang digunakan. Enam dari delapan menggunakan distribusi empiris dan dua menggunakan distribusi teoritis dengan fungsi kepekatan peluang. Selanjutnya model yang telah didapatkan tersebut divalidasi dengan melakukan pengujian.

Pengujian HSMM dilakukan dengan 8 skenario pengujian dengan menggunakan 100% , 90%, 75% dan 50% panjang durasi. Pengujian HSMM juga dilakukan dengan menggunakan durasi yang ditetapkan yaitu 21 dan 15. Pada HSMM dengan menggunakan distribusi teoritis yaitu distribusi dengan fungsi kepekatan peluang eksponensial negatif dan fungsi kepekatan peluang dengan distribusi normal.

Hasil penelitian menunjukkan bahwa secara umum prediksi dengan menggunakan model HSMM memberikan akurasi yang lebih tinggi bila dibandingkan dengan akurasi prediksi menggunakan HMM standar. Ini terlihat dari nilai akurasi prediksi untuk HSMM sebesar 56,9% sedangkan pada prediksi struktur sekunder protein menggunakan HMM menghasilkan akurasi sebesar 35,3%. Penggunaan distribusi durasi secara empiris mampu merepresentasikan kondisi data yang sebenarnya sehingga dalam prediksi akurasi struktur sekunder protein menghasilkan akurasi sebesar 57,4% sementara penggunaan distribusi teoritis menghasilkan akurasi sebesar 55,2%. Secara detail akurasi masing-masing struktur protein dengan distribusi empiris adalah 71,2% , 37,1% dan 64,0% untuk alpha-helix (H), betha-sheet (B) dan coil (C). Adapun prediksi dengan distribusi teoritis menghasilkan akurasi 75,0% untuk struktur alpha-helix(H), 30,2% untuk betha-sheet(B) dan 60,6% untuk coil (C). Pada hasil prediksi, struktur betha-sheet memberikan nilai akurasi yang paling rendah. Setelah dilakukan perbandingan selisih distribusi data latih dan data uji diperoleh bahwa struktur betha-sheet memiliki selisih yang paling besar dibandingkan dengan selisih distribusi alpha-helix dan coil. Hal ini juga didukung oleh besarnya perbedaan distribusi empiris dan teoritis yang dimiliki oleh struktur betha-sheet.

Prediksi struktur sekunder protein dengan Hidden Markov Model dan Hidden Semi Markov Model (HSMM) belum dapat mengakomodasi kondisi data yang tidak seimbang. Dengan demikian, jumlah data uji yang paling sedikit akan menyebabkan akurasi yang rendah. Oleh karena itu, penelitan berikutnya sebaiknya dilakukan metode pada HSMM yang dapat menanggulangi ketidakseimbangan data ini.

Kata Kunci : Hidden Markov Model, Hidden Semi Markov Model, struktur sekunder protein


(6)

©

Hak Cipta Milik IPB, tahun 2011 Hak Cipta dilindungi Undang-Undang

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan yang wajar IPB. Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis dalam bentuk apapun tanpa izin IPB.


(7)

PENGEMBANGAN HIDDEN SEMI MARKOV MODEL

DENGAN DISTRIBUSI DURASI STATE EMPIRIS UNTUK

PREDIKSI STRUKTUR SEKUNDER PROTEIN

TOTO HARYANTO

Tesis

sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada

Program Studi Ilmu Komputer

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

BOGOR

2011


(8)

(9)

Judul Penelitian : Pengembangan Hidden Semi Markov Model dengan Distribusi Durasi State Empiris untuk Prediksi Struktur Sekunder Protein

Nama : Toto Haryanto

NIM : G651080091

Disetujui Komisi Pembimbing

Dr. Ir. Agus Buono, M.Si, M.Kom. Dr. Eng Anto Satriyo Nugroho

Ketua Anggota

Diketahui

Ketua Program Studi Dekan Sekolah Pascasarjana

Ilmu Komputer

Dr. Ir. Agus Buono, M.Si, M.Kom Prof. Dr. Ir. Khairil A. Notodiputro, M.S.


(10)

PRAKATA

Alhamdulillah segala puji penulis panjatkan ke hadirat Allah Subhanahu wa ta‘ala atas segala rahmat, kasih sayang dan cinta-Nya sehingga tesis ini berhasil diselesaikan. Shalawat dan salam semoga senantiasa tercurah pada teladan kita Nabi Muhammad Shallallahu alaihi wasallam, kerabat, sahabat dan umatnya. Judul yang dipilih dalam karya ilmiah ini ialah Pengembangan Hidden Semi Markov Model dengan Distribusi Durasi State Empiris untuk Prediksi Struktur Sekunder Protein.

Terima kasih penulis ucapkan kepada Bapak Dr. Ir. Agus Buono, M.Si, M.Kom dan Bapak Dr. Eng Anto Satriyo Nugroho selaku pembimbing atas arahan dan masukannya. Ucapan terima kasih juga penulis sampaikan kepada Bapak Dr. Ir. Iman Rusmana, M.Si selaku penguji pada sidang tesis kali ini. Penulis mengucapkan terima kasih kepada Departemen Ilmu Komputer IPB yang telah memberikan beasiswa selama melaksanakan studi S2. Penulis juga mengucapkan terima kasih kepada dosen dan seluruh staf Departemen Ilmu Komputer IPB atas dukungan dan bantuan yang telah diberikansertarekan-rekan S2 (Pak Aziz, Pak Defiana, Pak Altien, Pak Aristoteles dan Pak Rossy) atas kebersamaannya selama penulis menyelesaikan studi.

Di samping itu, penulis mengucapkan terima kasih kepada keluarga khususnya istri dan anakku tercinta atas kesabaran dan kasih sayang selama penulis melakukan studi S2. Ucapan terima kasih juga penulis ucapkan kepada Ibunda tercinta atas Do’a dan segala perhatiannya. Penulis juga mengucapkan terima kasih kepada semua pihak yang telah membantu proses penelitian ini. Semoga karya ilmiah ini bermanfaat.

Bogor, Januari 2011


(11)

RIWAYAT HIDUP

Penulis lahir di Kota Mangga, Indramayu pada tanggal 17 November 1982, anak dari pasangan Caca Goembira (alm) dan Iyus Rusyati. Penulis merupakan anak kedua dari empat bersaudara.

Tahun 2001 penulis lulus dari SMU Negeri 1 Cirebon dan pada tahun yang sama melanjutkan program sarjana ke Institut Pertanian Bogor (IPB), Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) melalui jalur Undangan Seleksi Masuk IPB (USMI) dan lulus pada tahun 2006. Pada Tahun 2008, penulis meneruskan studi S2 dan diterima di Program Studi Ilmu Komputer Pascasarjana IPB.

Selama mengikuti studi S2, penulis berkerja sebagai staf pengajar di Departemen Ilmu Komputer IPB. Di Departemen Ilmu Komputer, penulis masuk pada Bagian Kecerdasan Komputasional. Selama studi, penulis pernah mempublikasikan karya ilmiah dengan judul Penggunaan Hidden Markov Model (HMM) untuk klasifikasi Asam Ribonuleat (RNA) Family yang dipresentasikan pada Acara Seminar Nasional Teknologi Informasi 2010 di Universitas Tarumanegara.


(12)

DAFTAR ISI

DAFTAR TABEL ………...iv

DAFTAR GAMBAR ……...v

I PENDAHULUAN ... viii

1.1 Latar Belakang ... 1

1.2 Penelitian Terkait ... 4

1.3 Tujuan Penelitian ... 4

1.4 Ruang Lingkup Penelitian ... 4

II TINJAUAN PUSTAKA ... 5

2.1 Struktur Protein ... 5

2.2 Prediksi Struktur Sekunder Protein ... 9

2.3 Hidden Markov Model (HMM) ... 10

2.4 Algoritme Baum-Welch ... 11

2.5 Algoritme Viterbi ... 13

2.6 Hidden Semi Markov Model ... 14

III METODE PENELITIAN ... 17

3.1 Kerangka Pemikiran ... 17

3.2 Studi Pustaka ... 18

3.3 Perumusan Masalah dan Hipotesa Awal ... 19

3.4 Pendefinisian Metode Penelitian ... 19

3.5 Pengambilan Data Struktur Sekunder Protein ... 19

3.6 Pembuatan Model dengan HMM Standar ... 20

3.7 Pembuatan Model dengan Hidden Semi Markov Model (HSMM) ... 21

3.8 Pengujian ... 21


(13)

IV HASIL DAN PEMBAHASAN ... 23

4.1 Praproses dan Pengkodean Data ... 23

4.2 Skenario Pengujian ... 23

4.2.1Pengujian skenario 1 dengan panjang durasi state 100% dari total panjang dengan alpha = 54, betha = 15 dan coil = 35 ... 25

4.2.2Pengujian skenario 2 dengan panjang durasi state 90% dari total panjang dengan alpha = 48, betha = 14 dan coil = 31 ... 25

4.2.3Pengujian skenario 3 dengan panjang durasi state 75 % dari total panjang dengan alpha = 40, betha = 11 dan coil = 26 ... 26

4.2.4Pengujian skenario 4 dengan panjang durasi state 50 persen dari total panjang dengan alpha = 27, betha = 8 dan coil = 18 ... 27

4.2.5Pengujian skenario 5 dengan panjang durasi state maksimum 21 ... 28

4.2.6Pengujian skenario 6 dengan panjang durasi state maksimum 15 ... 28

4.2.7Pengujian skenario 7 dengan panjang durasi state menggunakan distribusi fungsi kepekatan peluang eksponensial negatif ... 29

4.2.8Pengujian skenario 8 dengan panjang durasi state menggunakan distribusi fungsi kepekatan peluang normal dengan rataan geometrik . 30 4.3 Perbandingan akurasi Hidden Semi Markov Model (HSMM) ... 31

4.4 Analisis Error Identifikasi Struktur sekunder protein ... 32

4.4.1Matriks Konfusi Skenario 1 ... 32

4.4.2Matriks Konfusi Skenario 2 ... 33

4.4.3Matriks Konfusi Skenario 3 ... 34

4.4.4Matriks Konfusi Skenario 4 ... 35

4.4.5Matriks Konfusi Skenario 5 ... 36

4.4.6Matriks Konfusi Skenario 6 ... 37

4.4.7Matriks Konfusi Skenario 7 ... 38


(14)

4.6 Matriks Konfusi Hidden Markov Model (HMM) Standar ... 42

4.7 Perbandingan Akurasi Prediksi HSMM dan HMM Standar ... 43

4.8 Pengaruh Distribusi Empiris Durasi State terhadap Akurasi HSMM ... 43

4.9 Perbandingan Distribusi Teoritis dan Empiris pada Data Pelatihan ... 47

V SIMPULAN DAN SARAN ... 51

5.1 Simpulan ... 51

5.2 Saran ... 51

DAFTAR PUSTAKA ... 53


(15)

DAFTAR TABEL

Halaman

1. Asam amino, singkatan, simbol dan karakteristik ... 6

2. Codon pembentuk protein ... 7

3. Skenario pengujian struktur sekunder protein ... 24

4. Perbandingan akurasi tertinggi setiap skenario pengujian ... 31

5. Matriks konfusi pengujian skenario 1 ... 32

6. Matriks konfusi pengujian skenario 2 ... 33

7. Matriks konfusi pengujian skenario 3 ... 34

8. Matriks konfusi pengujian skenario 4 ... 35

9. Matriks Konfusi Skenario 5 ... 36

10. Matriks Konfusi Skenario 6 ... 37

11. Matriks Konfusi Skenario 7 ... 38

12. Matriks Konfusi Skenario 8 ... 39


(16)

DAFTAR GAMBAR

Halaman

1. Proses pembentukan protein ... 5

2. Contoh urutan asam amino pembentuk suatu protein ... 6

3. Contoh susuan asam amino hormon prolaktin pada manusia ... 8

4. Gambar struktur sekunder protein : (a). alpha-helix (H), (b). betha-sheet (B) dan (c). coil (C) ... 8

5. Struktur tersier protein ... 9

6. Bentuk umum HSMM (Yu 2009) ... 15

7. Diagram alur penelitian prediksi struktur sekunder protein ... 18

8. Contoh Format Data Struktur sekunder protein dari file dengan ekstensi. dssp (Define Secondary Structure of Protein) ... 20

9. Ilustrasi HMM untuk prediksi strukutr protein sekunder (Martin et al. 2005) ... 20

10. Pemodelan prediksi struktur sekunder protein dengan menggunakan Hidden Semi Markov Model (HSMM) ... 21

11. Visualisasi hasil praproses dan pengkodean ... 23

12. Perbandingan akurasi prediksi struktur protein total pada skenario1 model HSMM dan HMM standar ... 25

13. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 2 model HSMM dan HMM standar ... 26

14. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 3 model HSMM dan HMM standar ... 27

15. Perbandingan akurasi prediksi struktur protein total pada skenario 4 model HSMM dan HMM standar ... 27


(17)

16. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 5 model HSMM dan HMM standar ... 28 17. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 6 model HSMM dan HMM standar ... 29 18. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 7 model HSMM dan HMM standar ... 30 19. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 8 model HSMM dan HMM standar ... 30 20. Perbandingan akurasi setiap skenario model HSMM ... 31 21. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix,

betha-sheet dan coil model HSMM skenario 1 ... 33 22. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix,

betha-sheet dan coil model HSMM skenario 2 ... 34 23. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix,

betha-sheet dan coil model HSMM skenario 3 ... 35 24. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix,

betha-sheet dan coil model HSMM skenario 4 ... 36 25. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix,

betha-sheet dan coil model HSMM skenario 5 ... 37 26. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix,

betha-sheet dan coil model HSMM skenario 6 ... 38 27. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix,

betha-sheet dan coil model HSMM skenario 7 ... 39 28. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix,

betha-sheet dan coil model HSMM skenario 8 ... 40 29. Perbandingan akurasi prediksi struktur sekunder protein model HSMM

dengan durasi empiris dan teoritis ... 41 30. Perbandingan rata-rata akurasi prediksi struktur alpha-helix, betha-sheet dan


(18)

31. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix, betha-sheet dan coil model HMM standar ... 42 32. Perbandingan Akurasi prediksi struktur sekunder protein model HSMM dan

HMM standar ... 43 33. Visualiasi distribusi empiris struktur alpha-helix (H) pada data latih dan data

uji ... 44 34. Visualiasi distribusi empiris struktur betha-sheet (B) pada data latih dan data

uji ... 44 35. Visualiasi distribusi empiris struktur coil (C) pada data latih dan data uji ... 45 36. Selisih distribusi durasi state empiris antara data pelatihan dan data pengujian

untuk model HSMM ... 46 37. Selisih distribusi durasi state empiris antara data pelatihan dan data pengujian

untuk model HSMM dengan RMSD ... 46 38. Visualiasi perbandingan distribusi teoritis dan empiris struktur alpha-helix (H)

pada data latih ... 47 39. Visualiasi perbandingan distribusi teoritis dan empiris struktur betha-sheet (B) pada data latih ... 48 40. Visualiasi perbandingan distribusi teoritis dan empiris struktur coil (C) pada

data latih ... 48 41. Perbandingan selisih distribusi durasi state teoritis dan empiris pada data latih

untuk struktur alpha-helix (H), betha-sheet (B) dan coil (C) ... 49 42. Perbedaan distribusi durasi state teoritis dan empiris pada data latih untuk


(19)

(20)

I PENDAHULUAN

1.1 Latar Belakang

Protein, RNA dan berbagai fitur dalam genome dapat diklasifikasikan menjadi suatu keluarga tertentu sesuai dengan sekuensnya. Protein merupakan aktor utama pada makhluk hidup yang memiliki berbagai fungsi yang sangat penting. Protein terbentuk dari sekuens asam amino pembentuknya dengan karakteristik yang berbeda. Struktur protein dapat dilihat secara hierarki sebagai struktur primer, sekunder dan tersier (Polanski dan Kimmel 2007). Para ahli di bidang Biologi mengatakan bahwa protein berasal dari kombinasi tiga huruf (triplet) dari Asam Deoksiribosa (DNA) yang disebut dengan codon (Jones dan Pevzner 2004).

Struktur primer dari protein adalah urutan sekuens asam amino penyusun protein yang dihubungkan melalui ikatan peptida. Struktur sekunder adalah sejumlah rangkaian asam amino yang membentuk struktur tiga dimensi lokal baik struktur alpha-helix (H), betha-sheet (B) maupun coil (C). Adapun struktur tersier adalah gabungan dari berbagai struktur sekunder setelah terjadi proses pelipatan (folding).

Peranan protein sangat terlihat pada saat telah melakukan pelipatan (protein folding) dalam bentuk tiga dimensi (3D) sebagai struktur tersier. Namun, struktur tersier (3D) tersebut ditentukan oleh struktur sebelumnya baik primer maupun struktur sekundernya. Oleh karena itu, penentuan struktur sekunder protein ini menjadi bidang kajian yang banyak dilakukan di bidang Bioinformatika.

Menurut Albert et al. (1998) struktur protein dapat ditentukan dengan eksperimen melalui penggunaan X-Ray Crystallography dan Nuclear Magnetic Resonance (NMR) spectroscopy. Keduanya mampu menghasilkan struktur protein sampai dengan bentuk tiga dimensinya. Dengan teknik ini, sangat memungkinkan ditemukannya struktur protein baru. Akan tetapi, penggunaan kedua teknik tersebut membutuhkan biaya yang relatif mahal. Oleh karena itu, berbagai teknik


(21)

komputasi digunakan untuk melakukan prediksi struktur sekunder protein berbasis model komputasi, salah satunya adalah Hidden Markov Models (HMM).

Di sisi lain, karakteristik dari sekuens asam amino sebagai struktur protein primer sangat cocok dengan tipe data yang digunakan pada pembuatan model dengan menggunakan Hidden Markov untuk memprediksi struktur sekunder suatu protein. Menurut Eddy (1998), Hidden Markov Model (HMM) merupakan suatu kelas dari model probabilistik yang secara umum dapat diaplikasikan untuk permasalahan deret waktu atau sekuens yang bersifat linear. Sejalan dengan itu, HMMs merupakan metode yang dianggap memiliki kesuksesan dalam menyelesaikan permasalahan di dalam analisis sekuens meskipun dari sisi kompleksitas masih sulit untuk ditentukan secara manual (Won et al. 2007).

Martin et al. (2005) mengatakan bahwa di dalam memprediksi struktur sekunder protein dapat dilakukan dengan dua metode, yaitu:

 Membandingkan model yang telah ada dengan struktur yang akan diprediksi atau dikenal dengan comparative modelling

 Metode de novo, yaitu apabila tidak terdapat model yang tersedia untuk dibandingkan dengan struktur yang akan diklasifikasikan.

Pada penelitian ini yang akan dilakukan adalah membuat model untuk mengklasifikasikan struktur sekunder protein. Untuk membangkitkan model tersebut, akan digunakan HMM akan yang telah secara luas diimplementasikan untuk menyelesaikan permasalahan dalam analisis sekuens. Di antara beberapa permasalahan yang terdapat di dalam prediksi struktur sekunder protein ialah masih terbatasnya model untuk dijadikan acuan dalam memprediksi protein sekunder karena ukuran data sangat besar. Penambahan jumlah data model bisa saja dilakukan, namun besarnya ukuran data akan membutuhkan waktu yang lama dan sulit untuk mencapai konvergen dari model yang bangkitkan pada saat melakukan proses pelatihan atau training.

Pada prediksi struktur sekunder protein dengan Hidden Markov Model (HMM) informasi state hanya diperoleh dari satu observasi yang dalam hal ini


(22)

adalah asam amino. Padahal, pada kenyataannya bisa saja suatu state dapat menyimpan informasi lebih dari satu observasi atau bahkan suatu sekuens observasi sebagai informasi. Oleh karena itu, dalam prediksi struktur sekunder protein terdapat pendekatan yang dikenal dengan Hidden Semi Markov Model (HSMM). Pada HSMM, satu state dapat membangkitkan suatu sekuens observasi. Ciri dari HSMM yang terpenting adalah adanya durasi state sebagai informasi dalam proses pelatihan dalam membuat model.

Hidden Semi Markov Model (HSMM) diperkenalkan pertama kali oleh Ferguson (1980) yang diaplikasikan untuk konversi teks ke suara. Yu dan Kobayashi (2003) melakukan penelitian untuk memperbaiki Algoritme pada HSMM yang dikenalkan oleh Ferguson. Hasilnya adalah kompleksitas algoritme yang diusulkan lebih efisien dibandingkan dengan yang dibuat pertama kali oleh Ferguson. Awalnya, kompleksitas algoritme pada HSMM yang diperkenalkan oleh Ferguson adalah O((MD2+M2)T). Dengan M adalah banyaknya state, D adalah durasi maksimum antar state dan T adalah panjangnya observasi. Yu dan Kobayashi berhasil mengefisienkan algoritme tersebut sehingga kompleksitasnya menjadi O((MD+M2)T) dan mengimplementasikannya untuk menganlisa trafik suatu alamat website. Pada tahun 2006, Yu dan Kobayashi kembali melakukan penelitian dan mengimplementasikan algoritme yang diusulkannya tersebut pada

chipfield-progammable gate-array (FPGA).

Prediksi struktur sekunder protein dengan Hidden Semi Markov Model (HSMM) pertama kali diperkenalkan oleh Schmidler et al. (2000) sebagai metode baru dalam prediksi struktur sekunder protein. Aydin et al. (2006) juga melakukan penelitian untuk memprediksi struktur sekunder protein dengan distribusi durasi maksimum sebanyak 50. Namun, keduanya masih menggunakan algoritme dengan kompleksitas sebagaiamana yang dijelaskan oleh Ferguson.

Pada penelitian kali ini, prediksi struktur sekunder protein diimplementasikan dengan algoritme yang telah memiliki kompleksitas

O((MD+M2)T) dan menggunakan beberapa jenis distribusi durasi maksimum


(23)

menggunakan distribusi secara teoritis. Hasil akurasi yang didapatkan akan dibandingan dengan hasil akurasi HMM standar.

1.2 Penelitian Terkait

Prediksi struktur sekunder protein dengan Hidden Semi Markov Model (HSMM) pertama kali diperkenalkan oleh Schmidler et al. (2000). Hasil akurasi prediksi struktur sekunder protein adalah 61,8 % untuk alpha-helix(H) dan 61,3 % untuk betha-sheet (B) dan 65,9 % untuk coil (C). Pada penelitian tersebut panjang durasi yang digunakan adalah 30 dengan kompleksitasnya adalah

O((MD2+M2)T). Aydin et al. (2006) melakukan penelitian untuk melakukan

prediksi struktur sekunder protein pada sekuens tunggal. Hasil akurasi yang diperoleh adalah 65, 9 % untuk alpha-helix(H), 45,4 % untuk betha-sheet(B) dan 81,3 % untuk coil (C).

1.3 Tujuan Penelitian

Penelitian ini bertujuan untuk mengembangkan Hidden Semi Markov Model (HSMM) yang telah memiliki kompleksitas lebih efisien untuk memprediksi struktur sekunder protein kemudian membandingkan hasil akurasi tersebut dengan penggunaan Hidden Markov Models (HMM) standar. Di samping itu, penelitian ini juga bertujuan untuk melihat pengaruh distribusi panjang durasi

state sebagai informasi biologi dalam proses pelatihan model HSMM yang

dilakukan terhadap hasil akurasi yang diperoleh.

1.4 Ruang Lingkup Penelitian

Penelitian ini hanya dibatasai pada proses identifikasi struktur sekunder protein dengan menggunakan sekuens tunggal pada proses pengujiannya. Penelitian ini juga dikembangkan sampai dengan pembuatan aplikasi untuk melakukan prediksi struktur sekunder protein. Penentuan struktur sekunder pada penelitian ini dibatasi menggunakan Define Secondary Structure of Protein (DSSP).


(24)

II TINJAUAN PUSTAKA

2.1 Struktur Protein

Protein merupakan bagian yang sangat penting pada setiap makhluk hidup. Proses untuk mendapatkan protein dinamakan dengan translasi. Setiap makhluk hidup memiliki kode genetik yaitu DNA (deoxyribonucleic acid) yang tersusun dari basa nitrogen adenin (A), guanin (G), thymine (T) dan cytosine (C). Melalui proses transkripsi, DNA tersebut ditranskripsikan menjadi RNA (ribonucleic acid). RNA mengalami proses translasi untuk kemudian menghasilkan protein (Jones dan Pevzner 2004). Secara ringkas proses terbentuknya protein dapat dilihat pada Gambar 1.

Gambar 1. Proses pembentukan protein

Protein merupakan elemen dasar dari suatu organisme yang dibentuk dari asam amino. Terdapat 20 asam amino dengan struktur kimia yang berbeda (Polanski dan Kimmel 2007). Susunan asam amino pembentuk protein dapat dilihat pada Tabel 1.

Asam amino tersebut terbentuk dari tiga huruf (triplet) dari kombinasi Asam Deoksirobosa (DNA) yang disebut dengan codon. Codon triplet pembentuk protein dapat dilihat pada Tabel 2. Satu protein protein terdiri atas sejumlah sekuens asam amino. Ilustrasi dari pembentukan satu protein berdasarkan sekuensnya dapat dilihat pada Gambar 2.

translasi transkripsi


(25)

DNA : TAC CGC GGC TAT TAC TGC CAG GAA GGA ACT

RNA : AUG GCG CCG AUA AUG ACG GUC CUU CCU UGA

Protein : Met Ala Pro Ile Met Thr Val Leu Pro Stop Gambar 2. Contoh urutan asam amino pembentuk suatu protein

Gambar 2 merupakan ilustrasi proses pembentukan protein mulai dari urutan sekuens DNA sampai dengan proses translasi yang dapat menghasilkan suatu protein.

Tabel 1. Asam amino, singkatan, simbol dan karakteristik Asam Amino Singkatan Simbol Karakteristik

Alanine Ala A Nonpolar, hydrophobic

Arginine Arg R Polar, hydrophilic

Asparagine Asn N Polar, hydrophilic Aspartic acid Asp D Polar, hydrophilic

Cystein Cys C Polar, hydrophilic

Glutamine Gln Q Polar, hydrophilic

Glutamic acid Glu E Polar, hydrophilic

Glycine Gly G Polar, hydrophilic

Histidine His H Polar, hydrophilic

Isoleucine Ile I Nonpolar, hydrophobic

Leucine Leu L Nonpolar, hydrophobic

Lysine Lys K Polar, hydrophilic

Methionine Met M Nonpolar, hydrophobic Phenylalanine Phe F Nonpolar, hydrophobic

Proline Pro P Nonpolar, hydrophobic

Serine Ser S Polar, hydrophilic

Threonine Thr T Polar, hydrophilic

Tryptophan Trp W Nonpolar, hydrophobic

Tyrosine Tyr Y Polar, hydrophilic


(26)

Tabel 2. Codon pembentuk protein

U C A G

U

UUU Phe UUC Phe UUA Leu UUG Leu

UCU Ser UCC Ser UCA Ser UCG Ser

UAU Tyr UAC Tyr UAA Stop UAG Stop

UGU Cys UGC Cys UGA Stop UGG Trp

C

CUU Leu CUC Leu CUA Leu CUG Leu

CCU Pro CCC Pro CCA Pro CCG Pro

CAU His CAC His CAA Gln CAG Gln

CGU Arg CGC Arg CGA Arg CGG Arg

A

AUU Ile AUC Ile AUA Ile AUG Met

ACU Thr ACC Thr ACA Thr ACG Thr

AAU Asn AAC Asn AAA Lys AAG Lys

AGU Ser AGC Ser AGA Arg AGG Arg

G

GUU Val GUC Val GUA Val GUG Val

GCU Ala GCC Ala GCA Ala GCG Ala

GAU Asp GAC Asp GAA Glu GAG Glu

GGU Gly GGC Gly GGA Gly GGG Gly

Struktur protein terdiri atas struktur primer, struktur sekunder dan struktur tersier ( Polanski dan Kimmel 2007). Struktur primer dari suatu protein adalah rangkaian asam amino pembentuknya di sekitar rantai polipeptida. Database

Bioinformatics memiliki 3 x 106 atau 3.000.000 sekuens asam amino dari protein. Struktur primer ini yang dibentuk dari hasil translasi DNA sampai menjadi codon. Hormon merupakan contoh protein yang dapat dilihat dari susunan asam aminonya. Sebagai contoh, prolaktin adalah salah satu hormon pertumbuhan yang dimiliki setiap makhluk hidup. Gambar 3 adalah contoh asam amino dari hormon prolaktin pada manusia.


(27)

(b)

(a) (c) 

Gambar 3. Contoh susunan asam amino hormon prolaktin pada manusia

Struktur sekunder adalah struktur protein yang ditentukan oleh bentuk alpha-helix (H), betha-sheet (B) dan coil (C) penyusunnya. Struktur sekunder diperoleh dari sekuens asam amino, yang terikat dengan ikatan péptida. Dari sekuens asam amino tersebut, akan membentuk tiga kemungkinan segmen yaitu alpha-helix (H) yang bentuknya berpilin, betha-sheet (B) yang bentuknya lurus atau coil (C). Contoh bentuk ketiganya dapat dilihat pada Gambar 4. Gambar struktur sekunder protein tersebut didapatkan dengan menggunakan perangkat lunak RasMol Versi 2.7.4.2 sebagai perangkat lunak untuk memodelkan struktur protein yang bersifat free software.

Gambar 4. Gambar struktur sekunder protein : (a). alpha-helix (H), (b). betha-sheet (b) dan (c). coil (c)

Struktur tersier protein adalah struktur sekunder protein yang mengalami pelipatan atau dikenal dengan istilah melakukan folding protein. Struktur tersier protein terjadi dengan adanya interaksi untaian rantai alpha-helix, betha-sheet dan coil yang kemudian melakukan proses pelipatan (Lesk 2002). Bentuk struktur


(28)

tersier protein seperti dilihat pada Gambar 5 dengan menggunakan perangkat lunak RasMol Versi 2.7.4.2 .

Gambar 5. Struktur tersier protein

Data struktur tersier protein dapat diperoleh dari suatu database yang bernama Protein Data Bank (PDB). Dari data ini protein dapat divisualisasikan dalam bentuk tiga dimensi. Fungsi protein akan terlihat apabila sudah melakukan pelipatan atau protein folding. Protein merupakan molekul kompleks dengan struktur tiga dimensi (3D) yang dikenal dengan struktur tersier. Namun, demikian struktur kompleks tersebut dibangun dari struktur primer yang terdiri atas sekuens asam amino pembentuknya ( Polanski dan Kimmel 2007).

2.2 Prediksi Struktur sekunder protein

Struktur sekunder protein merupakan tahap awal dari proses prediksi struktur tiga dimensi (3D) suatu protein. Prediksi struktur sekunder protein bertujuan untuk mendapatkan informasi segmen alpha-helix (H), betha-sheet (B) atau coil (C) dari untaian asam amino primer yang membentuknya.

Struktur Protein dapat diprediksi dengan beberapa cara. Cara pertama adalah dengan melakukan eksperimen secara kimiawi menggunakan X-Ray


(29)

Crystallography dan Nuclear Magnetic Resonance (NMR) spectroscopy. (Albert

et al. 2007). Cara ini akan menghasilkan struktur protein secara tepat dan sangat memungkinkan menghasilkan struktur baru. Cara kedua adalah dengan pendekatan heuristic yaitu dengan comparative modelling yang hasilnya berupa prediksi. Prediksi struktur protein dengan menggunakan pendekatan heuristik ini, tidak akan menghasilkan penemuan struktur protein baru karena pendekatan ini hanya melakukan perbandingan antara data yang kita miliki dengan model yang sudah ada.

2.3 Hidden Markov Model (HMM)

Hidden Markov Model (HMM) merupakan model probabilistik yang dapat diaplikasikan untuk menganalisis model deret waktu atau sekuens linear (Eddy 1998). Pada sekitar tahun 1990, untuk membandingkan dua buah sekuens data biologi baik DNA atau RNA digunakan perbandingan pasangan antara dua sekuens yang akan disamakan. Namun, terdapat kendala yang ada apabila dua sekuens tersebut tidak sama di samping kesulitan apabila adanya sekuens baru (Baldi dan Brunak 2001). HMMs adalah salah satu pendekatan yang digunakan untuk memodelkan kumpulan sekuens tersebut. HMMs telah banyak dikembangkan pada banyak permasalahan seperti speech recognition (Rabiner 1989).

Menurut Rabiner (1989), aplikasi pada HMMs pada akhirnya akan direduksi untuk menyelesaikan tiga jenis permasalahan, yaitu :

1. Jika diberikan suatu model λ=(A,B,π), bagaimana menghitung peluang dari sukuens observasi O = O1,O2,...OT yang dinotasikan dengan P(O|λ)

2. Jika diberikan suatu model λ=(A,B,π), bagaimana memilih state

sekuens I = I1,I2,...IT sehingga P(O,I|λ) sebagai peluang bersama dari sekuens observasi O = O1,O2,...OT dan state sekuens tersebut memiliki nilai maksimum

3. Mendapatkan parameter model HMM yang optimal sehingga peluang suatu observasi memiliki nilai maksimum,


(30)

dengan

λ

adalah model HMM

A adalah Matriks peluang transisi,

B adalah Matriks peluang emisi dan

π

adalah Matriks peluang awal / Matriks priority O = O1,O2,...OT adalah variabel observasi

λ) |

P(O adalah peluang variabel observasi jika diberikan model

Hidden Markov Model (HMMs) menggambarkan distribusi peluang dari sejumlah sekuens yang tidak terbatas (Eddy 1998). Nama "Hidden Markov Model" berawal dari fakta bahwasannya state dari sekuens merupakan orde pertama dari rantai Markov sebagai variabel yang tidak teramati. Adapun sekuens dari simbol (seperti A,C,G,T/U) merupakan variabel yang secara langsung dapat diobservasi. Pada kasus analisis sekuens dari data biologi, state sekuens akan berasosiasi dengan label biologis yang bermakna (seperti: struktur pada posisi lokus 42) (Eddy 1998).

2.4 Algoritme Baum-Welch

Algoritme Baum-Welch merupakan salah satu algoritme yang digunakan untuk melakukan pelatihan dalam melakukan estimasi parameter model dari HMMs yang dinotasikan sebagai . Algoritme ini mampu melakukan perbaruan nilai Matrikss peluang transisi A, Matriks peluang emisi B dan Matriks prioritas

π . Algoritme ini disebut juga dengan nama forward-backward algorithm. Berikut adalah prosedur Algoritme Baum-Welch (Dugad dan Desai 1996)

Inisialisasi : set nilai λ=(A,B,π). Algoritme ini akan memperbaiki

nilai λsecara iteratif sampai konvergen.

prosedur forward : definisikan αt(i)= p(O1=O1,O2,...Ot,it=i|,λ)sebagai peluang observasi parsial dari sekuens O1,O2,...Ot sampai dengan state ke-i pada saat t. Secara rekursif,

t(i) dapat dihitung sebagai berikut :


(31)

) (o b π = (i)

αt i i 1 ………...……….………...……….………..(1)

   

 

N

= i ij t + t j +

t (j)=b (o ) α(i)a α

1 1

1 . ………...….…....……(2)

prosedur backward :definisikan t(i)= P(Ot+1,Ot+2,...,OT |it = i,λ)adalah

peluang observasi parsial sekuens dari t + 1 sampai T dengan state i pada saat t dan model λ. Secara efisien dapat dihitung :

1

= (i)

T , 1iN ………...………...…...(3)

N = j + t + t j ij

t(i) = a b (o ) (j) 1

1

1 ...(4)

Dengan menggunakan α dan , akan ditentukan dua variabel, yaitu t(i) dan

j) (i,

ξt dengan persamaan sebagai berikut:

           

N = i t t t t t (i) (i) α (i) (i) α = (i) 1 ...(5)

 

N = i N = j + t j + t ij t + t j + t ij t t ) (o (j)b (i)a α ) (o (j)b (i)a α = j) (i, ξ 1 1 1 1 1 1 ...(6)

Dengan mengasumsikan model saat inisialisasi adalah λ=(A,B,π), maka, update

nilai baru untuk mereestimasi parameter adalah:

(i) =

πi 1 , 1 iN …...(7)

  1 1 1 1 T = t t T = t t ij

(i)

j)

(i,

ξ

=


(32)

   T = t t T vk O t t j (i) (i) k b t 1 1 )

( 1 jN , 1kM …...(9)

dengan

λ

adalah model HMM

A adalah matriks peluang transisi, B adalah matriks peluang emisi dan

π

adalah matriks peluang awal / matrik priority O = O1,O2,...OT adalah variabel observasi

λ) |

P(O adalah peluang variabel observasi jika diberikan model

λ

) (i

t

adalah peluang parsial dari sekuens observasi O1, O2,… Ot sampai dengan state ke-i pada saat ke-t

(i)

T adalah peluang parsial dari sekuen dari t + 1 sampai dengan T (dimana T

= t-1) pada state ke-i pada saat t

2.5 Algoritme Viterbi

Algoritme Viterbi digunakan untuk mendapatkan state yang optimal sehingga peluang suatu observasi adalah yang paling maksimal. Berikut adalah langkah-langkah algoritme Viterbi.

Inisialisasi

……… ………...………..(10)

Proses rekusif

untuk dan


(33)

Terminasi

………(12)

Proses menemukan kemungkinan nilai peluang paling besar dari suatu observasi yang berakhir pada saat t = T

Backtracking

sehingga , …….(13)

Membaca (decoding) path sekuens terbaik dari vektor

2.6 Hidden Semi Markov Model

Hidden Semi Markov Model (HSMM) adalah bentuk perluasan dari Hidden Markov Model (HMM) yang mempertimbangkan durasi suatu observas terhadap state yang dimiliki. Pada HSMM, panjang durasi D pada suatu state

secara eksplisit dinyatakan sehingga dinamakan juga dengan HMM dengan durasi variabel (Yu 2009). State durasi atau D merupakan varibel acak yang memiliki nilai integer D = {1, 2, 3… D}. Peluang panjang durasi P(d) adalah peluang panjang durasi suatu state dengan panjang tertentu. Bentuk umum dari Hidden Semi Markov Model seperti yang dilihat pada Gambar 6 (Yu 2009)


(34)

Gambar 6. Bentuk umum HSMM (Yu 2009)

Pada HSMM terlihat bahwa suatu state dapat membangitkan lebih dari satu observasi atau bahkan sejumlah sekuens observasi. Sepanjang observasi T, setiap state pada HSMM akan memiliki panjang durasi state dengan nilai tertentu. Pada prediksi struktu protein sekunder observasi ini merupakan sekuens dari asam amino yang membentuk protein sedangkan state adalah struktur protein yang akan diidentifikasi atau diprediksi. Berikut ini adalah tahap algoritme pada HSMM (Yu dan Kobayashi 2006)

Proses Forward


(35)

Proses Backward

Penentuan State Optimal


(36)

III METODE PENELITIAN

3.1 Kerangka Pemikiran

Protein merupakan aktor utama pada makhluk hidup yang memiliki berbagai fungsi yang sangat penting. Protein terbentuk dari asam amino pembentuknya dengan karakteristik yang berbeda. Struktur protein dapat dilihat secara hierarki sebagai struktur primer, sekunder dan tersier (Polanski dan Kimmel 2007). Prediksi struktur sekunder protein memiliki peranan yang penting sebelum protein tersebut mengalami pelipatan. Di antara model yang digunakan untuk melakukan prediksi struktur protein ini adalah Hidden Markov Model (HMM).

Umumnya proses pelatihan untuk membuat model pada HMMs dapat dilakukan dengan Algoritme Baum-Welch. Proses pelatihan ini tidak mempertimbangkan durasi state atau panjang segmen dari setiap struktur baik alpha-helix (H), betha-sheet (B) atau coil (C). Aydin et al. (2006) melakukan penelitian untuk memprediksi struktur sekunder protein dengan mempertimbangkan panjang durasi state atau panjang segmen tiap struktur protein tersebut yang dikenal dengan Hidden Semi Markov Model (HSMM). Namun demikian, pada penelitian tersebut panjang segmen ditetapkan dengan nilai tertentu dan bagaimana menentukan nilainya tidak disebutkan. Padahal panjang segmen struktur bisa diperoleh secara empiris dari data latih yang digunakan.

Di sisi lain, Hidden Semi Markov Model (HSMM) yang pertama kali diperkenalkan oleh Ferguson memiliki kompleksitas sebesar O((MD2+M2)T)

dengan M adalah Matriks transisi, T adalah sekuens observasi dan D adalah panjang durasi state (Yu dan Kobayashi 2003). Algoritme ini kemudian diefisienkan sehingga kompleksitasnya menjadi O((MD+M2)T dan kebutuhan alokasi memori memiliki kompleksitas O(MT) (Yu dan Kobayashi 2003).

Penelitian ini mengusulkan untuk membuat model dengan menggunakan Hidden Semi Markov Model (HSMM) yang telah diefisienkan kompleksitasnya


(37)

dan dibandingkan dengan akurasi Hidden Markov Model (HMM) standar. Model HSMM pada penelitian ini menggunakan distribusi panjang durasi state baik secara empiris maupun teoritis. Penelitian ini juga akan melihat pengaruh distribusi panjang durasi state terdapat nilai akurasi prediksi struktur sekunder protein. Diagram alur penelitian ini secara umum dapat dilihat pada Gambar 7.

Gambar 7. Diagram alur penelitian prediksi struktur sekunder protein 3.2 Studi Pustaka

Studi pustaka dilakukan untuk mencari riset-riset terbaru yang terkait dengan penelitian yang akan dilakukan. Dari riset yang telah dilakukan tersebut, penggunaan Hidden Markov Model (HMM) memang telah banyak digunakan

perumusan masalah

pendefinisian metode penelitian

pengambilan data

data latih

data uji 

data latih  tanpa panjang

durasi state

data latih dengan beberapa panjang durasi state

Pelatihan  Pelatihan

pengujian

perhitungan dan perbandingan

akurasi dokumentasi

selesai

Model HMM 

Model HSMM

tahap pelatihan

tahap pengujian  mulai


(38)

untuk komputasi dalam bidang Biologi khususnya melakukan prediksi struktur sekunder protein. Akan tetapi, penggunaan durasi state dan bagaimana pengaruh panjang durasi state atau panjang segmen struktur protein terhadap akurasi proses prediksi masih belum banyak dilakukan.

3.3 Perumusan Masalah dan Hipotesa Awal

Perumusan masalah dilakukan sebagai kerangka untuk melakukan penelitian ini. Berdasar permasalahan tersebut, akan diusulkan suatu pendekatan untuk mencari solusinya. Dalam hal ini, penggunaan panjang durasi state pada Hidden Semi Markov Model (HSMM) dapat meningkatkan akurasi dibandingkan dengan HMM standar dan penggunaan beberapa nilai panjang segmen atau panjang durasi state akan mempengaruhi nilai akurasi.

3.4 Pendefinisian Metode Penelitian

Setelah dilakukan perumusan masalah, maka dipilih metode penelitian yang sesuai dengan permasalahan yang ditemukan. Metode penelitian yang digunakan dalam penelitian ini dapat dilihat pada Gambar 7.

3.5 Pengambilan Data Struktur sekunder protein

Proses prediksi struktur sekunder protein ini diawali dengan pengambilan data sekuens protein sekunder yaitu DSSP dari alamat

webstitehttp://swift.cmbi.ru.nl/gv/dssp/ yang merupakan database assignment

struktur sekunder protein. Pemilihan ini didasarkan bahwa DSSP mencakup semua data protein yang ada di Protein Data Bank (PDB). Data struktur sekunder protein yang diambil terdiri atas 42556 residu yang telah tersegmentasi menjadi 8 segmen struktur sekunder. Namun pada penelitian ini, segmen direduksi menjadi tiga, yaitu alpha-helix (H), betha-sheet (B) dan coil (C) (Aydinet al. 2006). Segmen hasil reduksi adalah {I,H,G} alpha-helix(H), {E,B} betha-sheet (B) , segmen lainnya menjadi coil (C).

Data yang diperoleh dari alamat tersebut masih memiliki ekstensi format dengan ekstensi .dssp (Define Secondary Structure of Protein). Oleh karena itu,


(39)

sebelum digunakan untuk data pelatihan dan data pengujian terlebih dahulu dilakukan proses parsing dan pengkodean. Kedua proses tersebut dilakukan dengan memudahkan dalam proses komputasi. Hasil dari parsing dan pengkodean adalah pasangan asam amino dan assigment struktur sekunder protein yang telah dikodekan dalam bentuk bilangan integer. Format data dengan ekstensi .dssp merupakan file teks yang terdiri atas beberapa bagian. Gambar 8 merupakan contoh format data .dssp

Gambar 8. Contoh Format Data Struktur sekunder protein dari file dengan ekstensi. dssp (Define Secondary Structure of Protein)

3.6 Pembuatan Model dengan HMM standar

Pada tahap ini dilakukan proses pembentukan model dari data latih baik dengan HMMs standar dan Hidden Semi Markov Model (HSMM). Prediksi struktur sekunder protein ini, model arsitektur HMM dapat diilustrasikan pada Gambar 9.

Gambar 9. Ilustrasi HMM untuk prediksi strukutr protein sekunder (Martin et al. 2005)

Barisan H-B dan C menunjukkan model hidden state yang merepresentasikan alpha-helix (H), betha-sheet (B) dan coil (C), sedangkan barisan di bawah panah adalah barisan sekuens asam amino sebagai sekuens observasi (observable sequence). Hasil dari proses pemodelan ini adalah matriks transisi dan matriks emisi yang telah memiliki nilai tertentu untuk dijadikan

# RESIDUE AA STRUCTURE BP1 … … … X-CA Y-CA Z-CA

… … I H … … … … … …

… … D H … … … … … …

… … E H … … … … … …

… … G C


(40)

model dalam proses prediksi. Model tersebut kemudian akan disimpan dalam repositori.

3.7 Pembuatan Model dengan Hidden Semi Markov Model (HSMM)

Pemodelan prediksi struktur sekunder protein dengan HSMM berbeda dengan HMM standar. Pada pemodelan dengan HSMM, durasi state oleh observasi tertentu sangat dipertimbangkan. Pada HSMM tidak terjadi transisi suatu state terhadap dirinya sendiri. Ilustrasi pemodelan prediksi struktur sekunder protein dengan HSMM dapat dilihat pada Gambar 10.

Gambar 10. Pemodelan prediksi struktur sekunder protein dengan menggunakan Hidden Semi Markov Model (HSMM)

3.8 Pengujian

Tahap pengujian dilakukan untuk melihat akurasi dari prediksi yang dilakukan. Pengujian dilakukan baik dengan menggunakan data uji untuk melihat hasil klasifikasi. Hasil pengujian dilakukan dengan menghitung presentase data yang benar dikelaskan dibandingkan dengan semua data uji. Formula untuk melakukan pengujian dapat dilihat pada persamaan (28).

...(28)

3.9 Riset Pendahuluan

Riset pendahuluan dilakukan untuk mengetahui distribusi setiap segmen baik alpha-helix (H), betha-sheet (B) dan coil (C). Distribusi pada awalnya dilakukan dengan pembangkitan menggunakan pendekatan teoritis. Akan tetapi

…….. ……..

OT

d1 d2

1 2 3 4 5 6 ……...

H B

dn in

observasi

waktu durasi

state sekuens transisi


(41)

permasalahannya adalah dengan pembangkitan nilai distribusi ini masih belum merepresentasikan kondisi data yang sebenarnya.

Oleh karena itu, dilakukan perhitungan distribusi secara empiris dan secara keseluruhan diperoleh informasi bahwa struktur alpha-helix terdiri atas 1853 segmen, struktur betha-sheet terdiri atas 1805 segmen dan struktur coil terdiri atas 3566 segmen. Harapannya dari data tersebut, didapatkan informasi yang lebih baik sehingga proses prediksi struktur sekunder protein menghasilkan akurasi yang lebih tinggi.


(42)

IV HASIL DAN PEMBAHASAN

4.1 Praproses dan Pengkodean Data

Data struktur sekunder protein yang diperoleh dari database masih memiliki format tertentu berekstensi (.dssp) sehingga harus dilakukan praproses dan pengkodean terlebih dahulu. Setiap satu file berekstensi .dssp akan diambil sekuens asam amino dan struktur sekundernya. Praproses dan pengkodean dilakukan agar data tersebut dilakukan untuk memudahkan proses komputasi pada tahap berikutnya. Adapun data tersebut pada memiliki format sebagai berikut:

# RESIDUE AA STRUCTURE BP1 … … … X-CA Y-CA Z-CA.

Header pada kolom ketiga dan keempat yaitu {AA} dan {STRUCTURE}

yang akan diambil sebagai pasangan data asam amino dan struktur sekunder protein . Baik {AA} maupun {STRUCTURE} akan dikodekan ke dalam suatu bilangan integer. Gambar 11 adalah visualisasi praproses dan pengkodean data.

Gambar 11. Visualisasi hasil praproses dan pengkodean

Hasil dari praproses dan pengkodean adalah pasangan sekuens asam amino dan struktur sekunder protein dari setiap residu asam amino. Format data lengkap struktur sekunder protein dapat dilihat pada Lampiran 1.

4.2 Skenario Pengujian

Skenario pengujian dilakukan untuk melakukan kombinasi pengujian sehingga dapat diketahui model Hidden Markov untuk mendapatkan hasil akurasi yang terbaik. Dengan demikian, model tersebut yang nantinya akan diambil untuk melakukan proses prediksi struktur sekunder protein .

# RESIDUE AA STRUCTURE BP1 … … … X-CA Y-CA Z-C … … D H … … … … … … … … E H … … … … … … … … G C … … … … … … … … L C … … … … … …

AA = [ D E G L ... ... ... ... ] ST = [ H H C C ... ... ... ... ]

AA = [ 4 7 8 11 ... ... ... ... ] ST = [ 1 1 3 3 ... ... ... ... ]


(43)

Pada penelitian ini, skenario pengujiannya adalah melakukan pengujian dengan mempertimbangkan persentase beberapa distribusi panjang durasi state

yang diperoleh secara empiris dari data pelatihan dan pengujian dengan distribusi secara teoritis. Panjang durasi state yang didapatkan dari hasil pelatihan atautraining yaitu segmen alpha-helix (H) dengan panjang durasi maksimal adalah 54 residu, betha-sheet (B) dengan panjang durasi maksimum 15 residu dan coil dengan panjang durasi maksimum adalah 35 residu. Dari panjang masing-masing segmen ini kemudian diujikan dengan kombinasi mulai 100% panjang segmen, 90% , 75% dan 50%.

Di samping menggunakan persentase distribusi durasi state, skenario pengujian juga dilakukan dengan pengunaan panjang durasi state tertentu. Dalam hal ini pengujian dilakukan dengan panjang durasi state adalah 21 dengan mengasumsikan frekuensi state yang berjumlah kurang dari 10 diabaikan. Adapun pada Hidden Markov Model standar pengujian dilakukan dengan menggunakan Algoritme Viterbi. Hasil akurasi baik dengan HMM standar dan HSMM kemudian akan dibandingkan.

Data uji yang dilakukan pada pengujian ini sebanyak 43 sekuens yang merupakan 23,5 persen dari data secara keseluruhan. Adapun sebanyak 76,5 persen digunakan sebagai data latih. Skenario pengujian detail dapat dilihat pada Tabel 3. Jumlah residu dalam pengujian struktur alpha-helix (H) sebanyak 6053 residu, betha-sheet (B) sebanyak 2834 dan coil (C) sebanyak 5153 residu.

Tabel 3. Skenario pengujian struktur sekunder protein

Skenario Panjang durasi state Distribusi durasi state

1 100 %

Empiris

2 90 %

3 75 %

4 50 %

5 21

6 15

7 fungsi kepekatan peluang eksponensial negatif

teoritis 8 fungsi kepekatan peluang normal rataan geometrik


(44)

4.2.1 Pengujian skenario 1 dengan panjang durasi state 100% dari total panjang dengan alpha = 54, betha = 15 dan coil = 35

Pengujian pada skenario 1 ini bertujuan untuk membandingkan akurasi prediksi struktur sekunder protein dengan menggunakan panjang durasi maksimum dari setiap segmen baik alpha, betha maupuan coil. Panjang maksimum segmen alpha pada skenario ini adalah 54 residu, segmen betha 15 residu dan segmen coil 35 residu yang diperoleh secara empiris dari data latih. Prediksi pada skenario 1 ini membandingkan hasil akurasi berdasarkan model yang diperoleh pada HMM standar dan model setelah dilakukan perbaikan parameter dengan menggunakan Hidden Semi Markov Model (HSMM). Akurasi pada HSMM ditentukan dengan membandingkan seluruh struktur yang diidentifikasi dengan struktur pada data sebenarnya tanpa melihat akurasi tiap segmen. Akurasi prediksi yang diperoleh dengan HSMM adalah 64,2% sedangkan dengan HMM standar menghasilkan akurasi 53,8%. Perbandingan akurasi tersebut dapat dilihat pada grafik Gambar 12.

Gambar 12. Perbandingan akurasi prediksi struktur protein total pada skenario1 model HSMM dan HMM standar

4.2.2 Pengujian skenario 2 dengan panjang durasi state 90% dari total panjang dengan alpha = 48, betha = 14 dan coil = 31

Pengujian skenario dua menggunakan 90% panjang durasi state dari masing-masing segmen. Pada skenario 2 ini, didapatkan masing-masing panjang durasi state untuk segmen alpha adalah 48, segmen betha adalah 14 dan segmen


(45)

coil adalah 31. Perbandingan akurasi untuk HMM standar dan Hidden Semi Markov Model (HSMM) skenario 2 dapat dilihat pada grafik Gambar 13.

Gambar 13. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 2 model HSMM dan HMM standar

Berdasar hasil percobaan, terlihat bahwa model yang diperoleh dengan menggunakan HSMM lebih baik dibandingkan dengan HMM standar. Hal ini terlihat dari rata – rata akurasi proses prediksi struktur sekunder protein yang secara umum menghasilkan nilai lebih tinggi bila dibandingkan dengan rata-rata akurasi HMM standar. Gambar 12, dapat dilihat bahwa akurasi prediksi struktur sekunder protein dengan HSMM memiliki akurasi 64,1%, sedangkan akurasi dengan HMM standar menghasilkan akurasi 53, 8%.

4.2.3 Pengujian skenario 3 dengan panjang durasi state 75 % dari total panjang dengan alpha = 40, betha = 11 dan coil = 26

Pengujian pada skenario 3 dilakukan dengan menggunakan 75% dari panjang state masing-masing segmen baik alpha-helix, betha-sheet dan coil. Masing-masing panjang segmen tersebut adalah 40 residu alpha-helix, 11 residu betha-sheet dan 26 residu coil. Perbandingan hasil pengujian skenario 3 dapat dilihat pada Gambar 14.

Gambar 14 menunjukkan hasil akurasi prediksi struktur sekunder protein secara total dengan HSMM sebesar 63,8% yang mengalami penurunan. Hal ini disebabkan informasi yang semakin berkurang dengan penggunaan 75% panjang durasi.


(46)

Gambar 14. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 3 model HSMM dan HMM standar

4.2.4 Pengujian skenario 4 dengan panjang durasi state 50 persen dari total panjang dengan alpha = 27, betha = 8 dan coil = 18

Pengujian pada skenario 4 dilakukan dengan menggunakan panjang durasi

state 50 persen dari panjang total dengan durasi alpha-helix adalah 27 residu, betha-sheet 8 residu dan coil 18 residu. Hasil akurasi prediksi struktur sekunder protein model HSMM pada skenario adalah 63,8% sedangkan akurasi dengan model HMM standar sebesar 53,8%. Perbandingan hasil akurasi model HSMM dan HMM standar untuk skenario 4 dapat dilihat pada Gambar 15.

Gambar 15. Perbandingan akurasi prediksi struktur protein total pada skenario 4 model HSMM dan HMM standar


(47)

4.2.5 Pengujian skenario 5 dengan panjang durasi state maksimum 21 Berbeda dengan keempat skenario sebelumnya, pada skenario 5 ini, pengujian dilakukan dengan menggunakan panjang durasi state tertentu dengan mengasumsikan bahwa segmen/state yang memiliki frekuensi kurang dari 10 tidak diperhitungkan. Dalam skenario ini, pengujian dilakukan dengan menggunakan durasi state maksimum 21. Artinya untuk semua segmen baik alpha-helix, betha-sheet maupun coil akan diambil distribusi panjang durasi maksimumnya sama dengan 21. Hasil akurasi prediksi struktur sekunder protein dengan model HSMM sebesar 63,4% sedangkan akurasi prediksi dengan HMM standar sebesar 53,8%. Bila dibandingkan dengan empat skenario sebelumnya hasil prediksi dengan HSMM di skenario 5 ini relatif lebih kecil. Hal ini dikarenakan dengan ditetapkannya distribusi panjang durasi state ada kemungkinan hilangnya informasi dari setiap segmen tersebut. Grafik Gambar 16 memperlihatkan hasil perbandingan akurasi skenario 5.

Gambar 16. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 5 model HSMM dan HMM standar

4.2.6 Pengujian skenario 6 dengan panjang durasi state maksimum 15 Pengujian pada skenario 6 menggunakan distribusi panjang durasi state 15 dengan menggunakan asumsi seperti yang terdapat pada pengujian dengan skenario 5. Perbandingan hasil akurasi prediksi struktur sekunder protein skenario 6 dapat dilihat pada Grafik Gambar 17. Hasil prediksi yang pada Gambar 17 memperlihatkan bahwa akurasi prediksi model HSMM dengan distribusi


(48)

panjang durasi 15 sebesar 63,3%. Hasil ini masih sama dengan pengujian dengan skenario 5. Adapun hasil akurasi dengan model HMM standar menghasilkan akurasi sebesar 53,8%.

Gambar 17. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 6 model HSMM dan HMM standar

Hasil prediksi yang pada Gambar 17 memperlihatkan bahwa akurasi prediksi model HSMM dengan distribusi panjang durasi 15 sebesar 63,3%. Hasil ini masih sama dengan pengujian dengan skenario 5. Adapun hasil akurasi dengan model HMM standar menghasilkan akurasi sebesar 53,8%.

4.2.7 Pengujian skenario 7 dengan panjang durasi state menggunakan distribusi fungsi kepekatan peluang eksponensial negatif

Pengujian pada skenario 7 ini distribusi panjang state dibangkitkan dengan menggunakan distribusi teoritis. Distribusi yang digunakan adalah fungsi kepekatan peluang eksponensial negatif. Hasil pembangkitan ini kemudian digunakan pada proses pelatihan untuk melakukan reestimasi parameter pada HSMM. Akurasi hasil prediksi struktur sekunder protein pada pengujian skenario 7 dapat dilihat pada grafik Gambar 18.

Berdasar Gambar 18, dapat dilihat bahwa prediksi struktur sekunder protein model HSMM dengan distribusi panjang durasi secara teoritis menggunakan fungsi kepekatan peluang eksponensial negatif menghasilkan akurasi sebesar 64%.


(49)

Gambar 18. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 7 model HSMM dan HMM standar

4.2.8 Pengujian skenario 8 dengan panjang durasi state menggunakan distribusi fungsi kepekatan peluang normal dengan rataan geometrik Pada skenario 8, nilai peluang dari panjang durasi state menggunakan distribusi peluang normal, akan tetapi rataan panjang segmen yang digunakan dihitung dengan rataan geometrik. Hal ini disebabkan karena panjang segmen yang diperoleh dari data latih memang tidak menyebar secara merata. Hasil prediksi pada pengujian dari model HSMM pada skenario 8 dapat dilihat pada grafik Gambar 19.

Gambar 19. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 8 model HSMM dan HMM standar


(1)

56 

 


(2)

Lampiran 1. Data asli struktur protein sekunder dengan DSSP

==== Secondary Structure Definition by the program DSSP, updated CMBI version by ElmK / April 1,2000 ==== DATE=20-MAR-2009 . REFERENCE W. KABSCH AND C.SANDER, BIOPOLYMERS 22 (1983) 2577-2637 . HEADER ALU DOMAIN 13-NOV-97 1914 . COMPND 2 MOLECULE: SIGNAL RECOGNITION PARTICLE 9/14 FUSION PROTEIN; . SOURCE 2 ORGANISM_SCIENTIFIC: MUS MUSCULUS; . AUTHOR D.BIRSE,U.KAPP,K.STRUB,S.CUSACK,A.ABERG . 171 4 0 0 0 TOTAL NUMBER OF RESIDUES, NUMBER OF CHAINS, NUMBER OF SS-BRIDGES(TOTAL,INTRACHAIN,INTERCHAIN) . 10532.0 ACCESSIBLE SURFACE OF PROTEIN (ANGSTROM**2) . 129 75.4 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(J) , SAME NUMBER PER 100 RESIDUES . 5 2.9 TOTAL NUMBER OF HYDROGEN BONDS IN PARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES . 43 25.1 TOTAL NUMBER OF HYDROGEN BONDS IN ANTIPARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES . 1 0.6 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I-5), SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I-4), SAME NUMBER PER 100 RESIDUES . 2 1.2 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I-3), SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I-2), SAME NUMBER PER 100 RESIDUES . 1 0.6 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I-1), SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+0), SAME NUMBER PER 100 RESIDUES . 0 0.0 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+1), SAME NUMBER PER 100 RESIDUES . 14 8.2 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+2), SAME NUMBER PER 100 RESIDUES . 8 4.7 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+3), SAME NUMBER PER 100 RESIDUES . 54 31.6 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+4), SAME NUMBER PER 100 RESIDUES . 1 0.6 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(I+5), SAME NUMBER PER 100 RESIDUES . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 *** HISTOGRAMS OF *** . 0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 RESIDUES PER ALPHA HELIX . 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PARALLEL BRIDGES PER LADDER . 0 0 0 0 2 1 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ANTIPARALLEL BRIDGES PER LADDER . 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 LADDERS PER SHEET .

# RESIDUE AA STRUCTURE BP1 BP2 ACC N-H-->O O-->H-N N-H-->O O-->H-N TCO KAPPA ALPHA PHI PSI X-CA Y-CA Z-CA 1 2001 A M 0 0 116 0, 0.0 2,-0.5 0, 0.0 55,-0.2 0.000 360.0 360.0 360.0 171.6 49.0 65.1 29.1 2 2002 A V - 0 0 68 53,-0.4 55,-2.6 56,-0.0 2,-0.5 -0.968 360.0-143.0-146.2 117.8 46.7 67.1 31.0 3 2003 A L E -a 57 0A 122 -2,-0.5 2,-0.2 53,-0.2 55,-0.2 -0.712 36.4-179.2 -77.2 125.1 47.1 68.6 34.4 4 2004 A L E -a 58 0A 32 53,-1.8 55,-0.5 -2,-0.5 2,-0.1 -0.725 28.5 -98.5-124.4 174.8 43.7 68.3 36.1 5 2005 A E > - 0 0 145 -2,-0.2 4,-2.5 53,-0.1 5,-0.3 -0.402 47.1 -96.7 -84.9 165.3 42.0 69.2 39.3 6 2006 A S H > S+ 0 0 18 1,-0.2 4,-1.8 2,-0.2 3,-0.1 0.946 125.2 33.7 -47.8 -59.4 41.4 66.6 42.0 7 2007 A E H > S+ 0 0 151 1,-0.2 4,-1.4 2,-0.2 -1,-0.2 0.768 115.4 56.5 -73.7 -28.7 37.9 65.8 40.9


(3)

 

8 2008 A Q H > S+ 0 0 105 1,-0.2 4,-1.3 2,-0.2 -1,-0.2 0.856 109.1 49.2 -71.1 -30.9 38.5 66.3 37.2 9 2009 A F H X S+ 0 0 0 -4,-2.5 4,-1.9 2,-0.2 -2,-0.2 0.914 107.4 53.0 -71.2 -47.9 41.3 63.7 37.4 10 2010 A L H X S+ 0 0 18 -4,-1.8 4,-1.8 -5,-0.3 -1,-0.2 0.808 111.4 46.3 -58.8 -31.9 39.1 61.2 39.3 11 2011 A T H X S+ 0 0 58 -4,-1.4 4,-1.6 2,-0.2 -1,-0.2 0.844 113.9 48.1 -78.5 -32.1 36.4 61.4 36.6 12 2012 A E H X S+ 0 0 26 -4,-1.3 4,-0.5 2,-0.2 -2,-0.2 0.691 111.1 51.4 -76.2 -31.0 39.0 61.1 33.8 13 2013 A L H >X S+ 0 0 0 -4,-1.9 4,-2.3 2,-0.2 3,-1.0 0.904 106.9 53.1 -70.9 -49.6 40.6 58.1 35.5 14 2014 A T H 3X S+ 0 0 34 -4,-1.8 4,-2.4 1,-0.3 -2,-0.2 0.898 107.7 52.2 -54.0 -43.6 37.2 56.4 35.8 15 2015 A R H 3X S+ 0 0 145 -4,-1.6 4,-1.6 1,-0.2 -1,-0.3 0.779 106.7 53.2 -64.4 -30.8 36.8 56.9 32.1 16 2016 A L H <X S+ 0 0 0 -3,-1.0 4,-0.9 -4,-0.5 -2,-0.2 0.912 109.6 47.5 -68.1 -48.3 40.2 55.3 31.5 17 2017 A F H >< S+ 0 0 5 -4,-2.3 3,-0.6 1,-0.2 -2,-0.2 0.906 112.2 51.6 -58.8 -40.6 39.3 52.2 33.5 18 2018 A Q H >< S+ 0 0 117 -4,-2.4 3,-0.6 1,-0.2 -1,-0.2 0.861 107.1 50.9 -66.9 -35.6 36.0 52.1 31.6 19 2019 A K H 3< S+ 0 0 125 -4,-1.6 3,-0.3 1,-0.2 -1,-0.2 0.647 106.0 58.1 -78.8 -14.0 37.6 52.2 28.1 20 2020 A C T << S+ 0 0 6 -4,-0.9 106,-0.6 -3,-0.6 107,-0.4 -0.254 75.4 96.1-112.9 47.3 40.0 49.3 28.9 21 2021 A R S < S+ 0 0 92 -3,-0.6 -1,-0.2 105,-0.1 3,-0.1 0.772 88.4 40.1-101.9 -37.5 37.6 46.6 29.8 22 2022 A S S S- 0 0 104 1,-0.3 2,-0.3 -3,-0.3 -2,-0.1 0.687 137.6 -18.2 -83.0 -21.3 37.4 44.8 26.5 23 2023 A S S S+ 0 0 69 -4,-0.2 -1,-0.3 104,-0.0 2,-0.1 -0.952 96.9 46.8-177.0 159.9 41.1 45.3 26.2 24 2024 A G - 0 0 19 -2,-0.3 103,-0.4 -3,-0.1 2,-0.3 -0.298 63.4 -95.7 93.7-179.9 44.2 47.2 27.3 25 2025 A S - 0 0 15 26,-0.2 2,-0.5 100,-0.2 100,-0.2 -0.950 16.8-131.8-138.8 155.2 45.6 48.2 30.6 26 2026 A V E -B 124 0A 3 98,-2.1 98,-2.2 -2,-0.3 2,-0.4 -0.950 21.5-162.7-110.4 122.9 45.4 51.2 32.9 27 2027 A F E -BC 123 50A 83 23,-2.6 23,-2.1 -2,-0.5 2,-0.4 -0.906 5.7-173.2-105.6 140.7 48.8 52.4 34.3 28 2028 A I E -BC 122 49A 2 94,-2.4 94,-1.9 -2,-0.4 2,-0.4 -0.995 3.8-166.5-132.5 122.1 48.9 54.8 37.2 29 2029 A T E -BC 121 48A 31 19,-2.6 19,-2.8 -2,-0.4 2,-0.3 -0.922 1.8-169.2-115.7 139.0 52.2 56.3 38.4 30 2030 A L E +BC 120 47A 0 90,-2.3 90,-2.4 -2,-0.4 2,-0.3 -0.932 14.7 158.5-121.9 144.8 52.8 58.1 41.7 31 2031 A K E - C 0 46A 66 15,-1.1 15,-3.1 -2,-0.3 88,-0.1 -0.933 42.9-100.5-167.4 142.9 55.9 60.2 42.7 32 2032 A K E - C 0 45A 39 83,-0.7 2,-0.3 86,-0.5 13,-0.3 -0.344 43.5-164.7 -60.7 148.2 57.1 62.9 45.2 33 2033 A Y E C 0 44A 108 11,-2.2 11,-0.9 133,-0.2 -1,-0.0 -0.993 360.0 360.0-143.3 142.9 57.2 66.3 43.5 34 2034 A D 0 0 177 -2,-0.3 9,-0.1 9,-0.1 11,-0.0 -0.876 360.0 360.0 -97.8 360.0 58.8 69.7 44.4 35 ! 0 0 0 0, 0.0 0, 0.0 0, 0.0 0, 0.0 0.000 360.0 360.0 360.0 360.0 0.0 0.0 0.0 36 2047 A E 0 0 252 0, 0.0 0, 0.0 0, 0.0 0, 0.0 0.000 360.0 360.0 360.0-148.9 54.1 87.5 49.9 37 2048 A G - 0 0 56 1,-0.1 0, 0.0 2,-0.1 0, 0.0 0.770 360.0 -92.2 119.4 -9.0 54.6 86.8 53.9 38 2049 A L - 0 0 166 1,-0.2 -1,-0.1 2,-0.0 0, 0.0 0.887 47.6-172.3 65.9 62.9 56.9 83.6 54.0 39 2050 A E - 0 0 158 1,-0.1 2,-0.7 2,-0.1 -1,-0.2 -0.625 35.0-113.5 -87.9 138.9 54.9 80.3 54.1 40 2051 A P - 0 0 94 0, 0.0 2,-0.9 0, 0.0 -1,-0.1 0.115 55.5-114.6 -62.5 16.6 56.8 77.0 54.7 41 2052 A A - 0 0 65 -2,-0.7 -2,-0.1 1,-0.1 -3,-0.0 -0.417 30.1 -90.5 100.0 -70.2 55.9 75.7 51.2 42 2053 A E - 0 0 137 -2,-0.9 2,-0.2 19,-0.0 -1,-0.1 0.647 27.5-133.2 115.6 94.4 53.6 72.7 50.5 43 2054 A N + 0 0 44 124,-0.3 19,-1.0 -9,-0.1 2,-0.3 -0.551 35.7 172.8 -82.5 138.8 54.6 69.1 50.0 44 2055 A K E -CD 33 61A 56 -11,-0.9 -11,-2.2 -2,-0.2 2,-0.3 -0.889 29.4-146.9-145.4 173.5 53.2 67.2 47.0 45 2056 A C E -CD 32 60A 0 15,-1.7 15,-1.9 -13,-0.3 2,-0.5 -0.997 22.0-130.8-143.7 137.8 53.0 64.1 44.8 46 2057 A L E -CD 31 59A 41 -15,-3.1 -15,-1.1 -2,-0.3 2,-0.5 -0.809 19.0-161.4 -93.4 131.7 52.4 63.8 41.0 47 2058 A L E +CD 30 58A 0 11,-3.1 11,-1.4 -2,-0.5 2,-0.3 -0.955 13.0 177.3-117.5 115.2 49.7 61.3 39.9 48 2059 A R E +CD 29 57A 103 -19,-2.8 -19,-2.6 -2,-0.5 2,-0.3 -0.848 4.4 178.3-117.7 153.8 49.7 60.1 36.3 49 2060 A A E +CD 28 56A 1 7,-2.4 7,-2.8 -2,-0.3 2,-0.3 -0.991 1.5 172.8-152.2 150.5 47.6 57.6 34.4 50 2061 A T E -CD 27 55A 25 -23,-2.1 -23,-2.6 -2,-0.3 5,-0.2 -0.979 32.0-157.8-154.1 161.6 47.3 56.3 30.9


(4)

 

51 2062 A D S S- 0 0 18 3,-0.9 -26,-0.2 -2,-0.3 4,-0.1 0.033 72.7 -89.3-124.7 16.1 45.5 53.7 28.8 52 2063 A G S S+ 0 0 62 2,-0.2 3,-0.1 1,-0.1 -26,-0.1 0.096 122.2 44.1 96.2 -21.3 48.2 54.0 26.1 53 2064 A K S S+ 0 0 164 1,-0.4 2,-0.5 0, 0.0 -1,-0.1 0.727 107.5 46.6-116.9 -58.1 46.5 56.7 24.2 54 2065 A R - 0 0 67 -38,-0.0 -3,-0.9 -53,-0.0 2,-0.4 -0.884 67.4-162.9-111.7 112.3 45.2 59.4 26.6 55 2066 A K E + D 0 50A 113 -2,-0.5 -53,-0.4 -5,-0.2 2,-0.3 -0.932 11.5 175.9 -89.4 120.4 47.5 60.6 29.4 56 2067 A I E + D 0 49A 0 -7,-2.8 -7,-2.4 -2,-0.4 2,-0.3 -0.911 3.2 178.6-133.1 158.4 46.3 62.5 32.5 57 2068 A S E -aD 3 48A 6 -55,-2.6 -53,-1.8 -2,-0.3 2,-0.3 -0.948 6.7-172.7-152.8 166.2 47.9 63.8 35.7 58 2069 A T E -aD 4 47A 2 -11,-1.4 -11,-3.1 -2,-0.3 2,-0.5 -0.963 21.6-128.9-159.6 156.9 47.1 65.7 38.9 59 2070 A V E - D 0 46A 29 -55,-0.5 2,-0.4 -2,-0.3 -13,-0.2 -0.948 23.6-167.0-118.6 111.7 49.0 67.2 41.8 60 2071 A V E - D 0 45A 0 -15,-1.9 -15,-1.7 -2,-0.5 2,-0.2 -0.770 5.8-169.4-100.4 141.0 47.9 66.2 45.3 61 2072 A S E > - D 0 44A 18 -2,-0.4 3,-1.4 -17,-0.2 4,-0.3 -0.658 40.7 -97.7-122.4 176.0 49.0 68.0 48.4 62 2073 A S T 3 S+ 0 0 40 -19,-1.0 4,-0.3 105,-0.3 3,-0.1 0.592 116.4 69.4 -67.3 -13.6 48.8 67.5 52.2 63 2074 A K T 3 S+ 0 0 183 1,-0.2 -1,-0.3 2,-0.1 4,-0.1 0.687 116.1 19.3 -80.4 -16.8 45.8 69.9 52.2 64 2075 A E S <> S+ 0 0 61 -3,-1.4 4,-2.2 2,-0.1 5,-0.2 0.163 85.6 105.7-140.9 21.8 43.6 67.4 50.4 65 2076 A V H > S+ 0 0 10 -4,-0.3 4,-3.6 2,-0.2 5,-0.2 0.927 85.1 52.0 -69.4 -41.7 45.0 63.8 50.7 66 2077 A N H > S+ 0 0 117 -4,-0.3 4,-1.2 2,-0.2 -1,-0.2 0.909 116.9 37.8 -59.7 -44.4 42.4 62.7 53.2 67 2078 A K H > S+ 0 0 172 2,-0.2 4,-1.2 1,-0.1 -1,-0.2 0.897 120.9 46.5 -73.6 -42.1 39.4 64.0 51.0 68 2079 A F H X S+ 0 0 8 -4,-2.2 4,-3.3 1,-0.2 3,-0.4 0.944 110.1 52.9 -63.8 -52.2 41.1 62.8 47.8 69 2080 A Q H X S+ 0 0 17 -4,-3.6 4,-3.1 1,-0.2 5,-0.3 0.810 101.6 59.8 -56.5 -34.0 42.1 59.4 49.1 70 2081 A M H X S+ 0 0 136 -4,-1.2 4,-1.3 -5,-0.2 -1,-0.2 0.924 115.9 34.2 -63.3 -41.2 38.5 58.6 50.2 71 2082 A A H X S+ 0 0 46 -4,-1.2 4,-2.4 -3,-0.4 -2,-0.2 0.956 120.4 50.0 -73.1 -51.5 37.3 59.0 46.6 72 2083 A Y H X S+ 0 0 0 -4,-3.3 4,-1.5 1,-0.2 -2,-0.2 0.849 109.7 50.5 -55.5 -43.1 40.5 57.6 45.1 73 2084 A S H X S+ 0 0 18 -4,-3.1 4,-2.0 -5,-0.2 3,-0.2 0.955 112.5 47.2 -62.9 -46.1 40.5 54.5 47.3 74 2085 A N H X S+ 0 0 102 -4,-1.3 4,-2.2 -5,-0.3 -2,-0.2 0.875 109.8 53.3 -62.6 -40.8 36.8 53.7 46.4 75 2086 A L H X S+ 0 0 18 -4,-2.4 4,-2.1 2,-0.2 -1,-0.2 0.828 108.6 49.3 -65.3 -35.1 37.4 54.2 42.7 76 2087 A L H X S+ 0 0 0 -4,-1.5 4,-2.1 -3,-0.2 -2,-0.2 0.965 113.8 44.6 -70.4 -48.5 40.3 51.7 42.6 77 2088 A R H < S+ 0 0 90 -4,-2.0 -2,-0.2 1,-0.2 -1,-0.2 0.836 117.4 45.5 -62.5 -36.7 38.4 49.0 44.5 78 2089 A A H < S+ 0 0 58 -4,-2.2 3,-0.2 -5,-0.2 -1,-0.2 0.916 118.8 39.1 -75.7 -43.9 35.3 49.5 42.4 79 2090 A N H < S+ 0 0 25 -4,-2.1 2,-1.1 1,-0.2 3,-0.2 0.716 105.3 64.6 -80.1 -23.7 36.9 49.7 39.0 80 2091 A M S < S+ 0 0 5 -4,-2.1 -1,-0.2 -5,-0.2 3,-0.1 -0.526 70.7 119.6 -98.4 63.6 39.5 47.0 39.5 81 2092 A D + 0 0 92 -2,-1.1 2,-0.5 -3,-0.2 -1,-0.2 0.228 35.4 93.6-113.4 9.2 36.9 44.3 39.9 82 2093 A G + 0 0 25 -3,-0.2 2,-0.2 48,-0.1 -1,-0.1 -0.435 62.9 118.7-102.2 59.0 37.5 41.9 37.1 83 2094 A L S S- 0 0 16 -2,-0.5 2,-0.3 -3,-0.1 65,-0.2 -0.761 79.8 -52.8-121.9 166.9 39.7 39.4 39.0 84 2095 A K B -h 148 0B 106 63,-2.1 65,-1.3 45,-0.6 66,-0.3 -0.147 57.6-140.4 -44.9 97.9 39.7 35.8 40.1 85 2096 A K 0 0 191 -2,-0.3 -1,-0.1 63,-0.1 -2,-0.1 0.707 360.0 360.0 -22.9 -82.1 36.1 35.7 41.8 86 2097 A R 0 0 249 63,-0.0 -1,-0.1 62,-0.0 -2,-0.1 0.727 360.0 360.0 67.3 360.0 36.9 33.4 44.9 87 ! 0 0 0 0, 0.0 0, 0.0 0, 0.0 0, 0.0 0.000 360.0 360.0 360.0 360.0 0.0 0.0 0.0 88 3001 A A 0 0 97 0, 0.0 2,-0.3 0, 0.0 60,-0.1 0.000 360.0 360.0 360.0 -67.9 49.9 34.2 39.6 89 3002 A Q + 0 0 92 57,-0.2 57,-0.2 58,-0.1 2,-0.1 -0.708 360.0 92.8 -93.6 146.2 50.6 35.7 42.9 90 3003 A G E -E 145 0A 15 55,-1.3 55,-1.8 -2,-0.3 9,-0.1 -0.269 53.5-110.1 141.1 143.2 54.1 36.8 44.0 91 3004 A G E -E 144 0A 11 7,-0.5 7,-1.0 8,-0.2 2,-0.3 -0.339 20.1-149.7 -90.0 173.4 56.8 39.4 44.3 92 3005 A E E -E 143 0A 100 51,-1.7 51,-1.4 5,-0.2 2,-0.7 -0.998 9.5-154.5-148.0 136.1 60.1 40.0 42.6 93 3006 A Q E +E 142 0A 139 -2,-0.3 49,-0.2 49,-0.2 2,-0.2 -0.804 33.6 171.2-112.0 85.7 63.4 41.6 43.7


(5)

 

60

94 3007 A K E E 141 0A 143 47,-2.1 47,-2.4 -2,-0.7 45,-0.1 -0.485 360.0 360.0 -97.1 165.3 65.1 42.8 40.5 95 3008 A L 0 0 137 45,-0.2 45,-0.1 -2,-0.2 -1,-0.1 -0.073 360.0 360.0-144.5 360.0 68.1 44.9 39.8 96 ! 0 0 0 0, 0.0 0, 0.0 0, 0.0 0, 0.0 0.000 360.0 360.0 360.0 360.0 0.0 0.0 0.0 97 4004 A F 0 0 34 0, 0.0 2,-0.8 0, 0.0 5,-0.4 0.000 360.0 360.0 360.0 13.4 59.0 37.7 47.2 98 4005 A Q + 0 0 132 -7,-1.0 -7,-0.5 4,-0.1 5,-0.1 -0.176 360.0 73.1 44.9 -93.0 56.5 35.4 47.0 99 4006 A T S > S- 0 0 49 -2,-0.8 4,-1.0 -9,-0.1 -8,-0.2 -0.029 76.2-138.9 -48.9 146.5 54.8 36.6 50.1 100 4007 A W H > S+ 0 0 39 2,-0.2 4,-2.7 1,-0.2 5,-0.2 0.859 104.7 62.7 -68.3 -41.6 53.0 40.0 49.9 101 4008 A E H > S+ 0 0 118 1,-0.2 4,-1.9 2,-0.2 5,-0.2 0.914 103.8 45.0 -52.9 -46.3 54.5 40.6 53.3 102 4009 A E H > S+ 0 0 88 -5,-0.4 4,-2.0 2,-0.2 -1,-0.2 0.842 112.7 52.4 -67.6 -37.0 58.1 40.5 52.0 103 4010 A F H X S+ 0 0 0 -4,-1.0 4,-2.9 -6,-0.2 5,-0.3 0.963 108.6 49.2 -62.8 -54.0 57.2 42.6 49.1 104 4011 A S H X S+ 0 0 13 -4,-2.7 4,-2.0 1,-0.2 -2,-0.2 0.886 112.8 46.6 -51.4 -50.2 55.6 45.4 51.2 105 4012 A R H X S+ 0 0 143 -4,-1.9 4,-2.0 -5,-0.2 -1,-0.2 0.919 114.6 47.3 -60.7 -47.5 58.5 45.6 53.6 106 4013 A A H X S+ 0 0 24 -4,-2.0 4,-2.2 1,-0.2 -2,-0.2 0.909 113.3 47.3 -60.2 -48.6 61.1 45.7 50.8 107 4014 A A H X S+ 0 0 0 -4,-2.9 4,-1.6 1,-0.2 -1,-0.2 0.832 110.3 54.6 -62.7 -34.1 59.1 48.3 48.8 108 4015 A E H X S+ 0 0 77 -4,-2.0 4,-2.4 -5,-0.3 -1,-0.2 0.880 109.6 45.0 -69.4 -43.7 58.7 50.4 52.0 109 4016 A K H X S+ 0 0 164 -4,-2.0 4,-1.9 2,-0.2 -2,-0.2 0.885 111.1 54.8 -68.0 -37.6 62.5 50.5 52.7 110 4017 A L H X S+ 0 0 18 -4,-2.2 4,-1.0 -5,-0.2 -2,-0.2 0.880 111.7 45.3 -61.1 -37.2 63.2 51.3 49.0 111 4018 A Y H < S+ 0 0 4 -4,-1.6 3,-0.2 1,-0.2 -2,-0.2 0.946 112.5 47.9 -70.9 -52.3 60.8 54.2 49.3 112 4019 A L H < S+ 0 0 93 -4,-2.4 -2,-0.2 1,-0.2 -1,-0.2 0.753 101.1 68.5 -59.9 -27.2 62.2 55.6 52.6 113 4020 A A H < S- 0 0 79 -4,-1.9 -1,-0.2 1,-0.2 -2,-0.2 0.972 128.1 -6.7 -58.0 -57.0 65.7 55.3 51.3 114 4021 A D >X - 0 0 65 -4,-1.0 3,-1.7 -3,-0.2 4,-0.9 -0.640 65.0-176.6-145.3 85.1 65.2 58.1 48.8 115 4022 A P T 34 S+ 0 0 34 0, 0.0 -83,-0.7 0, 0.0 3,-0.1 0.747 83.3 57.9 -50.8 -32.1 61.5 59.4 48.5 116 4023 A M T 34 S+ 0 0 84 1,-0.2 -82,-0.1 -85,-0.1 -5,-0.0 0.693 109.5 42.0 -76.2 -21.9 62.3 61.8 45.6 117 4024 A K T <4 S+ 0 0 119 -3,-1.7 2,-0.3 -6,-0.2 -1,-0.2 0.581 92.4 99.1-101.6 -12.6 63.7 59.1 43.3 118 4025 A V < - 0 0 0 -4,-0.9 -86,-0.5 -7,-0.2 2,-0.4 -0.580 51.6-161.1 -85.8 138.4 61.1 56.4 43.8 119 4026 A R E - F 0 136A 60 17,-3.3 17,-2.1 -2,-0.3 2,-0.6 -0.960 6.3-152.6-117.8 131.1 58.2 55.7 41.5 120 4027 A V E -BF 30 135A 0 -90,-2.4 -90,-2.3 -2,-0.4 2,-0.4 -0.917 18.8-167.3-104.3 120.5 55.1 53.7 42.5 121 4028 A V E -BF 29 134A 18 13,-4.0 13,-2.6 -2,-0.6 2,-0.4 -0.908 11.8-171.9-115.8 140.7 53.4 52.0 39.5 122 4029 A L E -BF 28 133A 2 -94,-1.9 -94,-2.4 -2,-0.4 2,-0.4 -0.993 3.7-176.0-127.9 132.0 50.0 50.3 39.2 123 4030 A K E -BF 27 132A 65 9,-2.2 9,-2.1 -2,-0.4 2,-0.5 -0.973 2.2-171.9-134.5 117.4 48.9 48.3 36.2 124 4031 A Y E -BF 26 131A 7 -98,-2.2 -98,-2.1 -2,-0.4 2,-0.5 -0.935 6.1-174.9-113.3 124.0 45.4 46.9 35.9 125 4032 A R E >> - F 0 130A 64 5,-2.6 5,-1.8 -2,-0.5 4,-1.3 -0.845 1.2-177.7-120.2 93.0 44.5 44.6 33.1 126 4033 A H T 45S+ 0 0 40 -106,-0.6 3,-0.4 -2,-0.5 -1,-0.2 0.909 81.6 51.3 -50.9 -54.7 40.8 43.8 33.3 127 4034 A V T 45S+ 0 0 75 -103,-0.4 -1,-0.2 -107,-0.4 -106,-0.1 0.843 116.0 41.9 -55.4 -38.8 40.6 41.4 30.3 128 4035 A D T 45S- 0 0 88 -3,-0.2 -1,-0.2 2,-0.1 -2,-0.2 0.642 106.3-129.6 -83.4 -18.2 43.5 39.3 31.7 129 4036 A G T <5 + 0 0 11 -4,-1.3 -45,-0.6 -3,-0.4 2,-0.3 0.894 63.1 123.9 70.9 39.8 42.2 39.6 35.3 130 4037 A N E < -F 125 0A 56 -5,-1.8 -5,-2.6 -47,-0.1 2,-0.4 -0.980 44.4-160.0-138.3 146.5 45.5 40.7 36.8 131 4038 A L E -FG 124 146A 2 15,-2.1 15,-2.1 -2,-0.3 2,-0.4 -0.947 11.8-167.5-118.5 144.3 46.8 43.6 38.9 132 4039 A C E -FG 123 145A 11 -9,-2.1 -9,-2.2 -2,-0.4 2,-0.5 -0.987 6.2-168.6-138.8 128.2 50.4 44.6 39.2 133 4040 A I E -FG 122 144A 0 11,-2.1 11,-0.8 -2,-0.4 2,-0.4 -0.958 7.2-174.3-117.4 129.4 52.3 47.0 41.5 134 4041 A K E -FG 121 143A 72 -13,-2.6 -13,-4.0 -2,-0.5 2,-0.5 -0.969 10.4-173.0-125.2 131.2 55.8 48.2 41.1 135 4042 A V E +FG 120 142A 0 7,-2.5 7,-1.3 -2,-0.4 2,-0.3 -0.995 27.3 154.5-120.2 116.8 58.0 50.2 43.4 136 4043 A T E -FG 119 141A 7 -17,-2.1 -17,-3.3 -2,-0.5 5,-0.2 -0.969 45.7-161.0-143.8 158.0 61.3 51.3 41.8


(6)

 

61

137 4044 A D - 0 0 48 3,-1.4 4,-0.1 -2,-0.3 -19,-0.1 -0.020 67.2 -99.6-119.2 18.1 64.1 53.9 41.9

138 4045 A D S S+ 0 0 108 2,-0.4 3,-0.1 1,-0.2 -20,-0.1 0.493 118.7 57.4 72.9 1.6 65.2 52.9 38.4 139 4046 A L S S+ 0 0 109 1,-0.6 2,-0.3 -45,-0.1 -1,-0.2 0.530 108.0 35.3-117.3 -71.5 68.0 50.8 39.8 140 4047 A V S S- 0 0 43 -45,-0.1 -3,-1.4 -30,-0.1 -1,-0.6 -0.657 76.1-161.7 -85.0 135.8 66.4 48.3 42.2 141 4048 A C E -EG 94 136A 22 -47,-2.4 -47,-2.1 -2,-0.3 2,-0.4 -0.935 11.6-175.2-122.2 139.1 62.9 47.0 41.1 142 4049 A L E +EG 93 135A 7 -7,-1.3 -7,-2.5 -2,-0.4 2,-0.3 -0.973 11.6 175.8-135.2 115.7 60.2 45.4 43.2 143 4050 A V E -EG 92 134A 11 -51,-1.4 -51,-1.7 -2,-0.4 2,-0.3 -0.779 15.3-164.0-116.6 164.3 57.0 44.0 41.5 144 4051 A Y E -EG 91 133A 5 -11,-0.8 -11,-2.1 -2,-0.3 2,-0.3 -0.825 10.0-167.2-152.3 111.7 54.0 42.1 42.8 145 4052 A R E +EG 90 132A 117 -55,-1.8 -55,-1.3 -2,-0.3 2,-0.3 -0.796 13.3 164.5-104.0 141.7 51.6 40.4 40.5 146 4053 A T E - G 0 131A 2 -15,-2.1 -15,-2.1 -2,-0.3 -57,-0.2 -0.966 35.3-172.9-152.7 163.8 48.2 39.0 41.3 147 4054 A D + 0 0 25 -2,-0.3 -63,-2.1 -17,-0.2 2,-0.5 0.227 60.6 111.4-137.5 2.9 45.0 37.7 39.9 148 4055 A Q B >> -h 84 0B 40 -65,-0.2 3,-2.0 1,-0.1 4,-0.5 -0.697 60.3-149.6 -88.5 125.5 43.2 37.4 43.3 149 4056 A A G >4 S+ 0 0 45 -65,-1.3 3,-0.5 -2,-0.5 4,-0.5 0.723 97.5 67.5 -63.4 -20.3 40.3 39.8 43.9 150 4057 A Q G 34 S+ 0 0 123 -66,-0.3 4,-0.4 1,-0.2 -1,-0.3 0.588 94.1 56.2 -76.6 -13.7 41.3 39.5 47.6 151 4058 A D G <> S+ 0 0 2 -3,-2.0 4,-2.0 2,-0.1 5,-0.3 0.642 84.9 81.4 -93.2 -16.0 44.7 41.3 46.9 152 4059 A V H <X S+ 0 0 7 -4,-0.5 4,-2.1 -3,-0.5 5,-0.2 0.947 89.7 52.8 -53.1 -51.6 43.1 44.5 45.4 153 4060 A K H > S+ 0 0 120 -4,-0.5 4,-2.8 1,-0.2 -1,-0.2 0.864 112.9 40.4 -52.1 -52.2 42.4 46.0 48.8 154 4061 A K H > S+ 0 0 65 -4,-0.4 4,-1.9 2,-0.2 -1,-0.2 0.835 113.8 53.5 -71.0 -32.9 45.9 45.7 50.3 155 4062 A I H X S+ 0 0 1 -4,-2.0 4,-1.7 2,-0.2 -1,-0.2 0.817 114.1 44.2 -69.4 -32.8 47.6 46.7 47.1 156 4063 A E H X S+ 0 0 6 -4,-2.1 4,-2.9 -5,-0.3 -2,-0.2 0.951 112.1 50.4 -77.2 -49.2 45.5 49.8 47.1 157 4064 A K H X S+ 0 0 105 -4,-2.8 4,-1.3 1,-0.2 -2,-0.2 0.830 114.2 46.8 -56.1 -35.5 45.9 50.6 50.7 158 4065 A F H X S+ 0 0 14 -4,-1.9 4,-2.1 2,-0.2 -1,-0.2 0.921 111.1 47.8 -70.3 -55.1 49.6 50.3 50.4 159 4066 A H H X S+ 0 0 0 -4,-1.7 4,-1.6 1,-0.2 -2,-0.2 0.892 114.2 51.1 -52.2 -42.2 50.0 52.4 47.2 160 4067 A S H X S+ 0 0 2 -4,-2.9 4,-1.5 1,-0.2 -1,-0.2 0.815 105.9 53.3 -68.3 -34.2 47.8 54.9 49.0 161 4068 A Q H X S+ 0 0 82 -4,-1.3 4,-1.4 2,-0.2 -1,-0.2 0.860 105.0 54.1 -69.4 -39.7 49.9 54.9 52.2 162 4069 A L H >X S+ 0 0 1 -4,-2.1 4,-2.3 1,-0.2 3,-0.7 0.940 105.2 55.8 -56.2 -38.4 53.0 55.7 50.1 163 4070 A M H 3X S+ 0 0 0 -4,-1.6 4,-1.6 1,-0.3 -2,-0.2 0.888 105.4 51.5 -60.1 -40.0 51.1 58.7 48.7 164 4071 A R H 3X S+ 0 0 93 -4,-1.5 4,-1.9 2,-0.2 -1,-0.3 0.762 107.7 51.2 -68.4 -32.0 50.5 59.9 52.3 165 4072 A L H << S+ 0 0 69 -4,-1.4 -2,-0.2 -3,-0.7 -1,-0.2 0.925 109.0 52.0 -71.2 -39.3 54.3 59.7 53.1 166 4073 A M H < S+ 0 0 0 -4,-2.3 -2,-0.2 1,-0.2 -133,-0.2 0.850 118.0 37.6 -61.5 -38.8 55.1 61.7 50.0 167 4074 A V H < S+ 0 0 3 -4,-1.6 -105,-0.3 -5,-0.2 -124,-0.3 0.734 87.0 115.6 -87.6 -28.8 52.6 64.4 51.0 168 4075 A A < - 0 0 55 -4,-1.9 2,-0.3 -5,-0.1 -124,-0.1 -0.149 59.7-134.9 -50.7 136.0 53.1 64.4 54.8 169 4076 A K - 0 0 112 -107,-0.1 2,-0.5 -126,-0.1 -1,-0.1 -0.729 14.0-150.7 -94.9 141.9 54.5 67.7 56.2 170 4077 A E - 0 0 166 -2,-0.3 2,-2.3 2,-0.0 -2,-0.0 -0.922 20.1-122.4-118.2 128.9 57.3 67.7 58.7 171 4078 A S - 0 0 129 -2,-0.5 2,-0.2 2,-0.1 -2,-0.0 -0.398 34.7-167.1 -72.3 86.0 57.9 70.3 61.3 172 4079 A R - 0 0 222 -2,-2.3 2,-0.7 1,-0.1 -3,-0.0 -0.513 18.8-125.9 -70.8 142.3 61.4 71.3 60.4 173 4080 A N 0 0 122 -2,-0.2 -1,-0.1 1,-0.2 -2,-0.1 -0.309 360.0 360.0 -95.7 54.6 63.0 73.5 63.1 174 4081 A V 0 0 201 -2,-0.7 -1,-0.2 0, 0.0 0, 0.0 0.950 360.0 360.0 -70.6 360.0 64.4 76.8 62.1