Perbandingan Distribusi Teoritis dan Empiris pada Data Pelatihan
Gambar 39. Visualiasi perbandingan distribusi teoritis dan empiris struktur betha- sheet B pada data latih
Hal yang sama juga dilakukan pada struktur coil C. Perbandingan distribusi teoritis pada data latih dan data uji secara visual dapat dilihat pada
Gambar 40. Selisih distribusi struktur coil C yang dihasilkan sebesar 0.01.
Gambar 40. Visualiasi perbandingan distribusi teoritis dan empiris struktur coil C pada data latih
Ketiga perbandingan selisih distribusi di atas menunjukkan bahwa selisih distribusi yang besar akan memberikan hasil akurasi struktur protein yang relatif
rendah. Perbandingan selisih distribusi teoritis dan empiris data latih dapat dilihat pada Gambar 41.
Gambar 41. Perbandingan selisih distribusi durasi state teoritis dan empiris pada data latih untuk struktur alpha-helix H, betha-sheet B dan coil C
Perbedaan distribusi antara data empiris dan hasil rekonstruksi secara teoritis dilakukan juga dengan RMSD pada persamaan 30. Hasil perhitungan RMSD
dapat dilihat pada Gambar 42.
Gambar 42. Perbedaan distribusi durasi state teoritis dan empiris pada data latih untuk struktur alpha-helix H, betha-sheet B dan coil C dengan RMSD
Proses prediksi struktur sekunder protein yang dilakukan pada penelitian ini hanya menggunakan informasi distribusi panjang durasi state, sehingga akurasi
secara keseluruhan memang lebih kecil apabila dibandingkan dengan penelitian yang dilakukan oleh Schmidler et al. 2000 dan Aydin 2006. Namun untuk
prediksi struktur alpha-helix H pada penelitian ini memiliki akurasi yang relatif lebih tinggi bila dibandingkan dengan penelitian keduanya dengan akurasi
mencapai 72. Penelitian ini memberikan kontribusi dalam hal bagaimana pengaruh
perbedaan distribusi durasi state terhadap hasil akurasi prediksi sehingga akan dijadikan pertimbangan dalam penelitian dengan menggunakan metode Hidden
Semi Markov Model HSMM.
V SIMPULAN DAN SARAN 5.1 Simpulan
Identifikasi struktur sekunder protein dengan menggunakan pendekatan Hidden Semi Markov Model HSMM secara umum memberikan nilai akurasi
yang lebih tinggi bila dibandingkan menggunakan model Hidden Markov HMM Standar. Hal ini dikarenakan pada HSMM terdapat informasi panjang durasi state
yang digunakan pada proses pelatihan. Pada HSMM, penggunaan distribusi durasi secara empiris memberikan
hasil akurasi yang lebih tinggi dibandingkan dengan penggunaan distribusi teoritis. Penggunaan distribusi empiris lebih merepresentasikan kondisi data yang
sesungguhnya dibandingkan dengan pembangkitan distribusi secara teoritis. Visualisasi distribusi secara empiris dan teoritis menunjukkan bahwa
selisih yang besar antara data latih dan data uji pada distribusi empiris diduga akan menyebabkan hasil prediksi struktur protein yang rendah. Ini terjadi pada
kasus prediksi struktur betha-sheet B. Rendahnya akurasi ini juga disebabkan oleh jumlah residu yang diuji pada strkutur betha-sheet B yang kecil
dibandingkan dengan jumlah residu alpha-helix H maupun coil C.