Pendefinisian Metode Penelitian Pengambilan Data Struktur sekunder protein

permasalahannya adalah dengan pembangkitan nilai distribusi ini masih belum merepresentasikan kondisi data yang sebenarnya. Oleh karena itu, dilakukan perhitungan distribusi secara empiris dan secara keseluruhan diperoleh informasi bahwa struktur alpha-helix terdiri atas 1853 segmen, struktur betha-sheet terdiri atas 1805 segmen dan struktur coil terdiri atas 3566 segmen. Harapannya dari data tersebut, didapatkan informasi yang lebih baik sehingga proses prediksi struktur sekunder protein menghasilkan akurasi yang lebih tinggi. IV HASIL DAN PEMBAHASAN 4.1 Praproses dan Pengkodean Data Data struktur sekunder protein yang diperoleh dari database masih memiliki format tertentu berekstensi .dssp sehingga harus dilakukan praproses dan pengkodean terlebih dahulu. Setiap satu file berekstensi .dssp akan diambil sekuens asam amino dan struktur sekundernya. Praproses dan pengkodean dilakukan agar data tersebut dilakukan untuk memudahkan proses komputasi pada tahap berikutnya. Adapun data tersebut pada memiliki format sebagai berikut: RESIDUE AA STRUCTURE BP1 … … … X-CA Y-CA Z-CA. Header pada kolom ketiga dan keempat yaitu {AA} dan {STRUCTURE} yang akan diambil sebagai pasangan data asam amino dan struktur sekunder protein . Baik {AA} maupun {STRUCTURE} akan dikodekan ke dalam suatu bilangan integer. Gambar 11 adalah visualisasi praproses dan pengkodean data. Gambar 11. Visualisasi hasil praproses dan pengkodean Hasil dari praproses dan pengkodean adalah pasangan sekuens asam amino dan struktur sekunder protein dari setiap residu asam amino. Format data lengkap struktur sekunder protein dapat dilihat pada Lampiran 1. 4.2 Skenario Pengujian Skenario pengujian dilakukan untuk melakukan kombinasi pengujian sehingga dapat diketahui model Hidden Markov untuk mendapatkan hasil akurasi yang terbaik. Dengan demikian, model tersebut yang nantinya akan diambil untuk melakukan proses prediksi struktur sekunder protein . RESIDUE AA STRUCTURE BP1 … … … X-CA Y-CA Z-C … … D H … … … … … … … … … … E H … … … … … … … … … … G C … … … … … … … … … … L C … … … … … … … … AA = [ D E G L ... ... ... ... ] ST = [ H H C C ... ... ... ... ] AA = [ 4 7 8 11 ... ... ... ... ] ST = [ 1 1 3 3 ... ... ... ... ] Pada penelitian ini, skenario pengujiannya adalah melakukan pengujian dengan mempertimbangkan persentase beberapa distribusi panjang durasi state yang diperoleh secara empiris dari data pelatihan dan pengujian dengan distribusi secara teoritis. Panjang durasi state yang didapatkan dari hasil pelatihan atautraining yaitu segmen alpha-helix H dengan panjang durasi maksimal adalah 54 residu, betha-sheet B dengan panjang durasi maksimum 15 residu dan coil dengan panjang durasi maksimum adalah 35 residu. Dari panjang masing-masing segmen ini kemudian diujikan dengan kombinasi mulai 100 panjang segmen, 90 , 75 dan 50. Di samping menggunakan persentase distribusi durasi state, skenario pengujian juga dilakukan dengan pengunaan panjang durasi state tertentu. Dalam hal ini pengujian dilakukan dengan panjang durasi state adalah 21 dengan mengasumsikan frekuensi state yang berjumlah kurang dari 10 diabaikan. Adapun pada Hidden Markov Model standar pengujian dilakukan dengan menggunakan Algoritme Viterbi. Hasil akurasi baik dengan HMM standar dan HSMM kemudian akan dibandingkan. Data uji yang dilakukan pada pengujian ini sebanyak 43 sekuens yang merupakan 23,5 persen dari data secara keseluruhan. Adapun sebanyak 76,5 persen digunakan sebagai data latih. Skenario pengujian detail dapat dilihat pada Tabel 3. Jumlah residu dalam pengujian struktur alpha-helix H sebanyak 6053 residu, betha-sheet B sebanyak 2834 dan coil C sebanyak 5153 residu. Tabel 3. Skenario pengujian struktur sekunder protein Skenario Panjang durasi state Distribusi durasi state 1 100 Empiris 2 90 3 75 4 50 5 21 6 15 7 fungsi kepekatan peluang eksponensial negatif teoritis 8 fungsi kepekatan peluang normal rataan geometrik