Pembuatan Model dengan Hidden Semi Markov Model HSMM Pengujian Perbandingan akurasi Hidden Semi Markov Model HSMM

permasalahannya adalah dengan pembangkitan nilai distribusi ini masih belum merepresentasikan kondisi data yang sebenarnya. Oleh karena itu, dilakukan perhitungan distribusi secara empiris dan secara keseluruhan diperoleh informasi bahwa struktur alpha-helix terdiri atas 1853 segmen, struktur betha-sheet terdiri atas 1805 segmen dan struktur coil terdiri atas 3566 segmen. Harapannya dari data tersebut, didapatkan informasi yang lebih baik sehingga proses prediksi struktur sekunder protein menghasilkan akurasi yang lebih tinggi. IV HASIL DAN PEMBAHASAN 4.1 Praproses dan Pengkodean Data Data struktur sekunder protein yang diperoleh dari database masih memiliki format tertentu berekstensi .dssp sehingga harus dilakukan praproses dan pengkodean terlebih dahulu. Setiap satu file berekstensi .dssp akan diambil sekuens asam amino dan struktur sekundernya. Praproses dan pengkodean dilakukan agar data tersebut dilakukan untuk memudahkan proses komputasi pada tahap berikutnya. Adapun data tersebut pada memiliki format sebagai berikut: RESIDUE AA STRUCTURE BP1 … … … X-CA Y-CA Z-CA. Header pada kolom ketiga dan keempat yaitu {AA} dan {STRUCTURE} yang akan diambil sebagai pasangan data asam amino dan struktur sekunder protein . Baik {AA} maupun {STRUCTURE} akan dikodekan ke dalam suatu bilangan integer. Gambar 11 adalah visualisasi praproses dan pengkodean data. Gambar 11. Visualisasi hasil praproses dan pengkodean Hasil dari praproses dan pengkodean adalah pasangan sekuens asam amino dan struktur sekunder protein dari setiap residu asam amino. Format data lengkap struktur sekunder protein dapat dilihat pada Lampiran 1. 4.2 Skenario Pengujian Skenario pengujian dilakukan untuk melakukan kombinasi pengujian sehingga dapat diketahui model Hidden Markov untuk mendapatkan hasil akurasi yang terbaik. Dengan demikian, model tersebut yang nantinya akan diambil untuk melakukan proses prediksi struktur sekunder protein . RESIDUE AA STRUCTURE BP1 … … … X-CA Y-CA Z-C … … D H … … … … … … … … … … E H … … … … … … … … … … G C … … … … … … … … … … L C … … … … … … … … AA = [ D E G L ... ... ... ... ] ST = [ H H C C ... ... ... ... ] AA = [ 4 7 8 11 ... ... ... ... ] ST = [ 1 1 3 3 ... ... ... ... ] Pada penelitian ini, skenario pengujiannya adalah melakukan pengujian dengan mempertimbangkan persentase beberapa distribusi panjang durasi state yang diperoleh secara empiris dari data pelatihan dan pengujian dengan distribusi secara teoritis. Panjang durasi state yang didapatkan dari hasil pelatihan atautraining yaitu segmen alpha-helix H dengan panjang durasi maksimal adalah 54 residu, betha-sheet B dengan panjang durasi maksimum 15 residu dan coil dengan panjang durasi maksimum adalah 35 residu. Dari panjang masing-masing segmen ini kemudian diujikan dengan kombinasi mulai 100 panjang segmen, 90 , 75 dan 50. Di samping menggunakan persentase distribusi durasi state, skenario pengujian juga dilakukan dengan pengunaan panjang durasi state tertentu. Dalam hal ini pengujian dilakukan dengan panjang durasi state adalah 21 dengan mengasumsikan frekuensi state yang berjumlah kurang dari 10 diabaikan. Adapun pada Hidden Markov Model standar pengujian dilakukan dengan menggunakan Algoritme Viterbi. Hasil akurasi baik dengan HMM standar dan HSMM kemudian akan dibandingkan. Data uji yang dilakukan pada pengujian ini sebanyak 43 sekuens yang merupakan 23,5 persen dari data secara keseluruhan. Adapun sebanyak 76,5 persen digunakan sebagai data latih. Skenario pengujian detail dapat dilihat pada Tabel 3. Jumlah residu dalam pengujian struktur alpha-helix H sebanyak 6053 residu, betha-sheet B sebanyak 2834 dan coil C sebanyak 5153 residu. Tabel 3. Skenario pengujian struktur sekunder protein Skenario Panjang durasi state Distribusi durasi state 1 100 Empiris 2 90 3 75 4 50 5 21 6 15 7 fungsi kepekatan peluang eksponensial negatif teoritis 8 fungsi kepekatan peluang normal rataan geometrik

4.2.1 Pengujian skenario 1 dengan panjang durasi state 100 dari total

panjang dengan alpha = 54, betha = 15 dan coil = 35 Pengujian pada skenario 1 ini bertujuan untuk membandingkan akurasi prediksi struktur sekunder protein dengan menggunakan panjang durasi maksimum dari setiap segmen baik alpha, betha maupuan coil. Panjang maksimum segmen alpha pada skenario ini adalah 54 residu, segmen betha 15 residu dan segmen coil 35 residu yang diperoleh secara empiris dari data latih. Prediksi pada skenario 1 ini membandingkan hasil akurasi berdasarkan model yang diperoleh pada HMM standar dan model setelah dilakukan perbaikan parameter dengan menggunakan Hidden Semi Markov Model HSMM. Akurasi pada HSMM ditentukan dengan membandingkan seluruh struktur yang diidentifikasi dengan struktur pada data sebenarnya tanpa melihat akurasi tiap segmen. Akurasi prediksi yang diperoleh dengan HSMM adalah 64,2 sedangkan dengan HMM standar menghasilkan akurasi 53,8. Perbandingan akurasi tersebut dapat dilihat pada grafik Gambar 12. Gambar 12. Perbandingan akurasi prediksi struktur protein total pada skenario1 model HSMM dan HMM standar

4.2.2 Pengujian skenario 2 dengan panjang durasi state 90 dari total

panjang dengan alpha = 48, betha = 14 dan coil = 31 Pengujian skenario dua menggunakan 90 panjang durasi state dari masing-masing segmen. Pada skenario 2 ini, didapatkan masing-masing panjang durasi state untuk segmen alpha adalah 48, segmen betha adalah 14 dan segmen coil adalah 31. Perbandingan akurasi untuk HMM standar dan Hidden Semi Markov Model HSMM skenario 2 dapat dilihat pada grafik Gambar 13. Gambar 13. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 2 model HSMM dan HMM standar Berdasar hasil percobaan, terlihat bahwa model yang diperoleh dengan menggunakan HSMM lebih baik dibandingkan dengan HMM standar. Hal ini terlihat dari rata – rata akurasi proses prediksi struktur sekunder protein yang secara umum menghasilkan nilai lebih tinggi bila dibandingkan dengan rata-rata akurasi HMM standar. Gambar 12, dapat dilihat bahwa akurasi prediksi struktur sekunder protein dengan HSMM memiliki akurasi 64,1, sedangkan akurasi dengan HMM standar menghasilkan akurasi 53, 8.

4.2.3 Pengujian skenario 3 dengan panjang durasi state 75 dari total

panjang dengan alpha = 40, betha = 11 dan coil = 26 Pengujian pada skenario 3 dilakukan dengan menggunakan 75 dari panjang state masing-masing segmen baik alpha-helix, betha-sheet dan coil. Masing-masing panjang segmen tersebut adalah 40 residu alpha-helix, 11 residu betha-sheet dan 26 residu coil. Perbandingan hasil pengujian skenario 3 dapat dilihat pada Gambar 14. Gambar 14 menunjukkan hasil akurasi prediksi struktur sekunder protein secara total dengan HSMM sebesar 63,8 yang mengalami penurunan. Hal ini disebabkan informasi yang semakin berkurang dengan penggunaan 75 panjang durasi. Gambar 14. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 3 model HSMM dan HMM standar

4.2.4 Pengujian skenario 4 dengan panjang durasi state 50 persen dari total

panjang dengan alpha = 27, betha = 8 dan coil = 18 Pengujian pada skenario 4 dilakukan dengan menggunakan panjang durasi state 50 persen dari panjang total dengan durasi alpha-helix adalah 27 residu, betha-sheet 8 residu dan coil 18 residu. Hasil akurasi prediksi struktur sekunder protein model HSMM pada skenario adalah 63,8 sedangkan akurasi dengan model HMM standar sebesar 53,8. Perbandingan hasil akurasi model HSMM dan HMM standar untuk skenario 4 dapat dilihat pada Gambar 15. Gambar 15. Perbandingan akurasi prediksi struktur protein total pada skenario 4 model HSMM dan HMM standar

4.2.5 Pengujian skenario 5 dengan panjang durasi state maksimum 21

Berbeda dengan keempat skenario sebelumnya, pada skenario 5 ini, pengujian dilakukan dengan menggunakan panjang durasi state tertentu dengan mengasumsikan bahwa segmenstate yang memiliki frekuensi kurang dari 10 tidak diperhitungkan. Dalam skenario ini, pengujian dilakukan dengan menggunakan durasi state maksimum 21. Artinya untuk semua segmen baik alpha-helix, betha-sheet maupun coil akan diambil distribusi panjang durasi maksimumnya sama dengan 21. Hasil akurasi prediksi struktur sekunder protein dengan model HSMM sebesar 63,4 sedangkan akurasi prediksi dengan HMM standar sebesar 53,8. Bila dibandingkan dengan empat skenario sebelumnya hasil prediksi dengan HSMM di skenario 5 ini relatif lebih kecil. Hal ini dikarenakan dengan ditetapkannya distribusi panjang durasi state ada kemungkinan hilangnya informasi dari setiap segmen tersebut. Grafik Gambar 16 memperlihatkan hasil perbandingan akurasi skenario 5. Gambar 16. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 5 model HSMM dan HMM standar

4.2.6 Pengujian skenario 6 dengan panjang durasi state maksimum 15

Pengujian pada skenario 6 menggunakan distribusi panjang durasi state 15 dengan menggunakan asumsi seperti yang terdapat pada pengujian dengan skenario 5. Perbandingan hasil akurasi prediksi struktur sekunder protein skenario 6 dapat dilihat pada Grafik Gambar 17. Hasil prediksi yang pada Gambar 17 memperlihatkan bahwa akurasi prediksi model HSMM dengan distribusi panjang durasi 15 sebesar 63,3. Hasil ini masih sama dengan pengujian dengan skenario 5. Adapun hasil akurasi dengan model HMM standar menghasilkan akurasi sebesar 53,8. Gambar 17. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 6 model HSMM dan HMM standar Hasil prediksi yang pada Gambar 17 memperlihatkan bahwa akurasi prediksi model HSMM dengan distribusi panjang durasi 15 sebesar 63,3. Hasil ini masih sama dengan pengujian dengan skenario 5. Adapun hasil akurasi dengan model HMM standar menghasilkan akurasi sebesar 53,8.

4.2.7 Pengujian skenario 7 dengan panjang durasi state menggunakan

distribusi fungsi kepekatan peluang eksponensial negatif Pengujian pada skenario 7 ini distribusi panjang state dibangkitkan dengan menggunakan distribusi teoritis. Distribusi yang digunakan adalah fungsi kepekatan peluang eksponensial negatif. Hasil pembangkitan ini kemudian digunakan pada proses pelatihan untuk melakukan reestimasi parameter pada HSMM. Akurasi hasil prediksi struktur sekunder protein pada pengujian skenario 7 dapat dilihat pada grafik Gambar 18. Berdasar Gambar 18, dapat dilihat bahwa prediksi struktur sekunder protein model HSMM dengan distribusi panjang durasi secara teoritis menggunakan fungsi kepekatan peluang eksponensial negatif menghasilkan akurasi sebesar 64. Gambar 18. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 7 model HSMM dan HMM standar

4.2.8 Pengujian skenario 8 dengan panjang durasi state menggunakan

distribusi fungsi kepekatan peluang normal dengan rataan geometrik Pada skenario 8, nilai peluang dari panjang durasi state menggunakan distribusi peluang normal, akan tetapi rataan panjang segmen yang digunakan dihitung dengan rataan geometrik. Hal ini disebabkan karena panjang segmen yang diperoleh dari data latih memang tidak menyebar secara merata. Hasil prediksi pada pengujian dari model HSMM pada skenario 8 dapat dilihat pada grafik Gambar 19. Gambar 19. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 8 model HSMM dan HMM standar Hasil prediksi dengan model HSMM dengan distribusi teoritis dengan fungsi kepekatan peluang normal adalah 61,7. Hasil ini relatif kecil diantara skenario yang digunakan dalam proses prediksi struktur sekunder protein .

4.3 Perbandingan akurasi Hidden Semi Markov Model HSMM

Secara umum, dari seluruh skenario pengujian yang dilakukan, terlihat bahwa model yang dihasilkan dengan menggunakan Hidden Semi Markov Model dapat menambah tingkat akurasi bila dibandingkan dengan Hidden Markov Model Standar. Namun demikian, rataan tingkat akurasi yang dihasilkan dari tujuh skenario pengujian tersebut masih relatif rendah. Perbandingan akurasi tertinggi setiap skenario pengujian dapat dilihat pada Tabel 4 berikut: Tabel 4. Perbandingan akurasi tertinggi setiap skenario pengujian Skenario 1 2 3 4 5 6 7 8 Akurasi tertinggi 64,4 64,1 63,8 63,8 63,4 63,3 64 61,7 Pada Tabel 3 terlihat bahwa akurasi yang paling tinggi berada pada skenario 1. Pada skenario tersebut panjang durasi state yang digunakan adalah distribusi empiris dengan presentase 100 distribusi panjang segmen alpha, betha dan coil. Hal ini beralasan karena dengan mengambil 100 panjang durasi ini informasi dari setiap segmen terwakili. Gambar 20. Perbandingan akurasi setiap skenario model HSMM

4.4 Analisis Error Identifikasi Struktur Sekunder Protein

Analisis error dilakukan untuk mengetahui bagaimana akurasi dari setiap segmen kelasstruktur yang dihasilkan dan mengetahui distribusi kelas yang salah diprediksi. Akurasi setiap segmen kelasstruktur yang dihasilkan pada proses identifikasi struktur sekunder protein dibuat dalam bentuk matriks konfusi. Matriks konfusi memperlihatkan persentasi struktur alpha-helix H , betha-sheet B dan coil C yang dikenali sesuai dengan kelasnya.

4.4.1 Matriks Konfusi Skenario 1

Matriks konfusi hasil pengujian skenario 1 memperlihatkan persentasi akurasi setiap kelas baik H, B maupun C dengan Hidden Semi Markov Model HSMM. Pada skenario ini durasi state yang digunakan adalah distribusi empiris dengan menggunakan 100 panjang maksimum durasi setiap state. Hasil Matriks konfusi dapat dilihat pada Tabel 5. Tabel 5. Matriks konfusi pengujian skenario 1 kelas hasil prediksi akurasi prediksi H B C k el as as al H 4401 295 1357 72, 7 B 978 1040 816 36,7 C 1495 417 3241 62,9 Berdasar hasil prediksi dari Matriks konfusi, terlihat bahwa dari 6053 residu asam amino yang memiliki struktur alpha-helix, ternyata 4401 residu yang terprediksi dengan benar, sedangkan sisanya terprediksi di kelas betha-sheet B sebanyak 295 residu dan coil sebanyak 1357 residu. Adapun struktur betha-sheet B dan coil C masing-masing diprediksi sesuai dengan kelasnya sebanyak 1040 residu dan 3241 residu. Akurasi prediksi setiap segmen struktur dapat dilihat pada grafik Gambar 21. Hasil akurasi prediksi pada Gambar 21 memperlihatkan bahwa akurasi struktur alpha-helix H relatif lebih tinggi dibandingkan dengan akurasi struktur betha-sheet B dan coil dengan nilai 72, 7. Adapun akurasi betha-sheet B dan coil C masing-masing sebesar 36,6 dan 62,9. Gambar 21. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha- helix, betha-sheet dan coil model HSMM skenario 1

4.4.2 Matriks Konfusi Skenario 2

Prediksi tiap segmen struktur alpha-helix H, betha-sheet B dan coil C pada skenario 2 ini menggunakan 90 panjang durasi state. Matriks konfusi pada pengujian skenario 2 dapat dilihat pada Tabel 6 untuk menggambarkan sebaran hasil identifikasi struktur sekunder protein baik alpha-helix H, betha-sheet B maupun coil C. Tabel 6. Matriks konfusi pengujian skenario 2 kelas hasil prediksi akurasi prediksi H B C kela s asal H 4396 295 1362 72,6 B 973 1043 818 36,6 C 1491 420 3242 62,9 Pada pengujian dengan 90 durasi state, terlihat bahwa dari sebanyak 4396 residu asam amino yang memiliki struktur alpha-helix H, mampu diprediksi sesuai dengan strukturnya. Adapun struktur betha-sheet B dan coil masing- masing diprediksi dengan benar sebanyak 1043 residu dan 3242 residu. Hasil akurasi prediksi Gambar 22 memperlihatkan bahwa akurasi struktur alpha-helix H relatif lebih tinggi dibandingkan dengan akurasi struktur