APLIKASI METODE UPGMA UNTUK IDENTIFIKASI KEKERABATAN JENIS VIRUS DAN PENYEBARAN EPIDEMI EBOLA MELALUI PEMBENTUKAN POHON FILOGENETIK - ITS Repository

  TESIS

  • – SM 142501

APLIKASI METODE UPGMA UNTUK IDENTIFIKASI

  

KEKERABATAN JENIS VIRUS DAN PENYEBARAN EPIDEMI

EBOLA MELALUI PEMBENTUKAN POHON FILOGENETIK

  TRI ANDRIANI NRP 1213 201 045 DOSEN PEMBIMBING Prof. Dr. MOHAMMAD ISA IRAWAN, M.T.

  PROGRAM MAGISTER JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

  INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2016

  TESIS

  • – SM 142501

APPLICATION OF UPGMA METHOD FOR THE IDENTIFICATION

  

TYPE VIRUS TYPE AND EBOLA EPIDEMIC SPREADING THROUGH

ESTABLISHMENT PHYLOGENETIC TREES

  TRI ANDRIANI NRP 1213 201 045 SUPERVISOR Prof. Dr. MOHAMMAD ISA IRAWAN, M.T.

  MASTER’S DEGREE MATHEMATICS DEPARTMENT FACULTY OF MATHEMATICS AND NATURAL SCIENCES SEPULUH NOPEMBER INSTITUTE OF TECHNOLOGY SURABAYA 2016

  

ix

DAFTAR ISI

  7

  2.6 Algoritma Needleman Wunsch . ............................................................... 18

  2.5.2 Matriks Penskoran ........................................................................ 16

  2.5.1 Matriks Penalti ............................................................................. 15

  2.5 Alignment .................................................................................................. 14

  Sekuens Protein ............................................................................ 12 2.4.2. Sekuens DNA ............................................................................... 13

  2.4 Sekuens ..................................................................................................... 10 2.4.1.

  2.3 Bioinformatika ......................................................................................... 10

  8

  2.2 Penyakit Virus Ebola (EVD) .....................................................................

  7

  2.1 Penelitian Terdahulu .................................................................................

  5 BAB II KAJIAN PUSTAKA DAN DASAR TEORI ...........................................

  HALAMAN JUDUL LEMBAR PENGESAHAN .................................................................................. i ABSTRAK ............................................................................................................ iii ABSTRACT .......................................................................................................... v KATA PENGANTAR . ........................................................................................ vii DAFTAR ISI ......................................................................................................... ix DAFTAR TABEL ................................................................................................. xi DAFTAR GAMBAR . .......................................................................................... xiii BAB I PENDAHULUAN .....................................................................................

  1.6 Kontribusi Hasil Penelitian ......................................................................

  5

  1.5 Manfaat Penelitian ....................................................................................

  5

  1.4 Tujuan Penelitian ......................................................................................

  4

  1.3 Batasan Masalah........................................................................................

  4

  1.2 Rumusan Masalah .....................................................................................

  4

  1.1 Latar Belakang ..........................................................................................

  1

  2.7 Multiple Alignment .................................................................................... 23

  2.7.1 Metode Progressive ..................................................................... 24

  2.8 Filogenetik Molekuler ............................................................................. 25 Pohon ............................................................................................ 25 2.8.2.

  Pohon Filogenetik (Phylogenetic tree) ........................................ 29 2.8.3. Metode-metode Pembentukan Pohon .......................................... 31

  2.9 Metode Berbasis Jarak (Distance Based Method) .................................... 33

  2.10 Metode UPGMA ................................................................................... 35 BAB III METODOLOGI PENELITIAN .............................................................

  41

  3.1 Tahapan Penelitian ................................................................................... 41

  3.1.1 Studi Literatur ............................................................................... 42

  3.1.2 Pengambilan Data ......................................................................... 42

  3.1.3 Pembuatan Program Pensejajaran ................................................ 42

  3.1.4 Pembuatan Pohon Filogenetik Metode UPGMA ......................... 43

  3.1.5 Hasil Pembentukan Pohon Filogenetik ........................................ 45

  3.1.6 Analisis dan Pembahasan ............................................................. 45 BAB IV HASIL DAN PEMBAHASAN ..............................................................

  47

  4.1 Identifikasi Kekerabatan Jenis-jenis Virus Ebola ..................................... 47

  4.1.1 Pengumpulan Data ....................................................................... 47 4.1.2 Pensejajaran Sekuens ...................................................................

  50

  4.1.3 Matriks Jarak .................................................................................. 60

  4.1.4 Pohon Filogenetik Metode UPGMA untuk Identifikasi Kekerabatan Jenis-jenis Virus Ebola ...........................................

  67 4.2 Penyebaran Epidemi Virus Ebola ...........................................................

  73

  4.1.1 Data Epidemi ................................................................................ 73

  4.1.2 Pohon Filogenetik untuk Penyebaran Epidemi Ebola .................. 74 4.3 Pembahasan ............................................................................................

  76 4.4 Validasi Pohon Filogenetik ....................................................................

  80 BAB IV KESIMPULAN DAN SARAN ..............................................................

  81 DAFTAR PUSTAKA ..........................................................................................

  83

  

x

  

DAFTAR TABEL

Tabel 2.1. Kasus Ebola di Afrika .......................................................................... 9Tabel 2.2. Asam Amino dan Kode resmi .............................................................. 12Tabel 2.3. Kode Standart Genetik ......................................................................... 13Tabel 2.4. Tabel Dua Dimensi Sekuens ............................................................... 18Tabel 4.1. Hasil Jarak Evolusi Pasangan Sekuens Data Uji ................................. 61Tabel 4.2. Hasil Jarak Evolusi Pasangan Sekuens Protein .................................... 62Tabel 4.3. Matriks Jarak Pasangan Sekuens Data Uji ........................................... 67Tabel 4.4. Matriks Jarak Pasangan Sekuens Protein ............................................. 67Tabel 4.5. Data sekuens DNA penyebaran virus ebola ......................................... 73

  

xi

DAFTAR LAMPIRAN

  LAMPIRAN A: Sekuens Beberapa Jenis Virus Ebola ......................................... 85 LAMPIRAN B: Sekuens DNA Virus Ebola ......................................................... 87 LAMPIRAN C: Listing Program .......................................................................... 93

  xv

  

DAFTAR GAMBAR

Gambar 2.1 (a) Pohon berakar dan (b) Pohon tidak berakar ................................ 27Gambar 2.2 Pohon berakar dengan empat spesies mamalia ................................ 28Gambar 2.3 Pohon tidak .berakar dengan empat spesies mamalia ....................... 28Gambar 2.4 Pohon dengan panjang pohon ........................................................... 29Gambar 2.5 (a) Pohon Filogenetik berakar dan (b) Pohon Filogenetik tidak

  Berakar ............................................................................................ 30

Gambar 2.6 Struktur dari Pohon Filogenetik berakar .......................................... 31Gambar 2.7 Pohon filogenetik dibangun oleh Metode UPGMA ......................... 39Gambar 3.1. Diagram Alir Penelitian ................................................................... 41Gambar 3.2. Multiple Alignment oleh Metode Progressive ................................. 43Gambar 3.3. Diagram Alir Proses Pensejajaran hingga Pohon Filogenetik ......... 44Gambar 3.3. Diagram Alir Proses Pensejajaran hingga Pohon Filogenetik ......... 44

  Gambar 4.1Pohon untk Proses Pensejajaran ........................................................ 58

Gambar 4.2 Pensejajaran sekuens matriks protein ................................................ 60Gambar 4.3 Pohon Filogenetik Metode UPGMA data uji .................................... 71Gambar 4.4 Pohon Filogenetik identifikasi kekerabatan jenis-jenis virus ebola simulasi MATLAB ............................................................................. 72Gambar 4.5 Hasil Pensejajaran sekuens DNA ...................................................... 74Gambar 4.6 Pohon filogenetik Metode UPGMA untuk penyebaran epidemi ebola .................................................................................... 75Gambar 4.7 Peta Benua Afrika ............................................................................. 79

  

xiii

KATA PENGANTAR

  Segala puji syukur dan kemuliaan hanya kepada Tuhan atas segala limpahan kasih karunia, sehingga penulis dapat menyelesaikan tesis yang berjudul “Aplikasi Metode UPGMA untuk Identifikasi Kekerabatan Jenis Virus dan Penyebaran Epidemi Ebola Melalui Pembentukan Pohon Filogenetik”

  Tesis ini disusun sebagai salah satu prasyarat kelulusan Program Magister Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Teknologi Sepuluh Nopember Surabaya. Penulis menyadari bahwa tulisan Tesis ini masih ada kekurangan, sehingga kritik dan saran dari pembaca sangat penulis harapkan untuk kedepannya.

  Penyusunan Tesis ini tidak terlepas dari bantuan dan dukungan dari banyak pihak. Oleh karena itu, penulis mengucapkan terima kasih kepada:

  1. Prof. Ir. Joni Hermana, M.Sc.ES., Ph.D., selaku Rektor Institut Teknologi Sepuluh Nopember (ITS) Surabaya yang telah memberikan fasilitas kepada penulis selama menempuh pendidikan sehingga dapat menyelesaikan Tesis ini.

  2. Direktorat Jenderal Pendidikan Tinggi (DIKTI) selaku penyandang dana yang telah memberikan beasiswa BPPDN.

  3. Prof. Dr. Ir. Adi Soeprijanto, M.T., selaku Direktur Program Pascasarjana ITS.

  4. Dr. Imam Mukhlash, S.Si, M.T. selaku Ketua Jurusan Matematika ITS.

  5. Dr. Subiono, MS., selaku Ketua Program Studi Pascasarjana Matematika ITS.

  6. Prof. Dr. Mohammad Isa Irawan, M.T.,selaku dosen pembimbing yang telah meluangkan waktu untuk memberikan arahan, nasehat, dan motivasi kepada penulis sehingga dapat menyelesaikan Tesis ini dengan baik.

  7. Dr. Drs. Haiyanto, M.Si., Dr. Budi Setiyono, S.Si., MT. dan Dr. Dwi Ratna Sulistyaningrum, S.Si., MT. selaku dosen penguji yang telah memberikan masukan kritik dan saran yang membantu penulis untuk memperbaiki tulisan Tesis ini.

  

vii

  8. Dr. Mahmud Yunus, M.Si selaku dosen wali yang selama ini sudah banyak mendidik dan membantu selama penulis menempuh studi S2.

  Seluruh dosen Jurusan Matematika, yang selama ini sudah banyak mendidik dan membekali penulis dengan berbagai ilmu pengetahuan selama penulis mengikuti proses perkuliahan dan seluruh staf dan karyawan Jurusan Matematika ITS yang telah memberikan bantuan, kemudahan, dan kelancaran.

  10. Ayah dan Ibu, kedua kakak dan adik tercinta serta seluruh keluarga atas perhatian, doa dan segala dukungannya selama ini.

  11. Teman-teman seperjuangan Program Magister Matematika ITS angkatan 2013 yang telah menemani, memotivasi, dan segala bantuannya.

  12. Keluarga Besar Pascasarjana Matematika ITS dan semua pihak yang telah membantu proses penulisan Tesis ini.

  Penulis berharap semoga tulisan Tesis ini dapat bermanfaat untuk kemajuan dan perkembangan ilmu pengetahuan, khususnya disiplin ilmu Komputasi dan dapat memberikan kontribusi bagi kemajuan ITS.

  Surabaya, Januari 2016 Penulis

  

viii

  

Aplikasi Metode UPGMA untuk Identifikasi Kekerabatan Jenis

Virus dan Penyebaran Epidemi Ebola Melalui Pembentukan Pohon

Filogenetik

  Nama : Tri Andriani NRP : 1213201045 Dosen Pembimbing : Prof. Dr. M. Isa Irawan, MT.

  

ABSTRAK

  Penyakit ebola atau dalam bahasa medis Ebola Virus Disease (EVD) adalah penyakit yang disebabkan oleh sejenis virus dari genus Ebolavirus (EBOV), famili Filoviridae. Virus ebola diklasifikasikan ke dalam 5 jenis, yaitu Zaire ebolavirus (ZEBOV),

  (SEBOV), Bundibugyo ebolavirus (BEBOV), Tai Forest ebolavirus

  Sudan ebolavirus

  yang juga dikenal sebagai

  Cote d’Ivoire ebolavirus (CIEBOV), dan Reston

  (REBOV). Identifikasi kekerabatan jenis virus ebola dan penyebarannya

  ebolavirus

  dapat dilakukan dengan menggunakan pohon filogenetik. Pada penelitian ini, pohon filogenetik dibangun dengan Metode UPGMA yang didalamnya terdapat Multiple

  

Alignment. Multiple Alignment menggunakan Metode Progressive yang didalamnya

terdapat pensejajaran berpasangan menggunakan Algoritma Needleman Wunsch.

  Hasil pembentukan pohon fillogenetik disimpulkan bahwa hubungan kekerabatan jenis virus ebola tidak dapat disimpulkan secara umum, sebab tergantung pada type protein yang dibandingkan.. Misal pada type minor nucleoprotein jenis Zaire dekat dengan Sudan ebolavirus. Pada type membrane associated protein

  ebolavirus

  VP 24 jenis Zaire ebolavirus dekat dengan Bundibugyo ebolavirus. Berdasarkan pohon filogenetik data DNA, jenis Tai Forest ebolavirus dekat dengan Bundibugyo tetapi letak negara penyebaran epidemi ebola berjauhan. Jarak genetik

  ebolavirus untuk jenis Bundibugyo ebolavirus dengan Tai Forest ebolavirus adalah 0.3725.

  Jenis Tai Forest ebolavirus mirip dengan Bundibugyo ebolavirus tidak dipengaruhi oleh kedekatan daerah penyebaran epidemi ebola.

  Kata kunci : metode upgma, multiple alignment, pohon filogenetik, virus ebola.

iii

  

Aplication of UPGMA Method for the Kinship Identification Type

Virus Types and Ebola Epidemic Spreading Through Establishment

of Phylogenetic Trees

  Name : Tri Andriani NRP : 1213201045 Supervisor : Prof. Dr. M. Isa Irawan, MT.

  

ABSTRACT

  Ebola disease or in medical language Ebola Virus Disease (EVD) is a disease caused by a virus of the genus Ebolavirus (EBOV), family Filoviridae. Ebola virus is classified into five types, namely Zaire ebolavirus (ZEBOV) Sudan ebolavirus (SEBOV), Bundibugyo ebolavirus (BEBOV), Tai Forest ebolavirus also known as Cote d'Ivoire ebolavirus (CIEBOV), and Reston ebolavirus (REBOV). Identification of kinship types of Ebola virus and its spread can be performed using phylogenetic tree. In this study, the phylogenetic tree constructed by UPGMA method in which there are Multiple Alignment. Progressive Multiple Alignment using a method in which there are pairwise alignments using the Needleman Wunsch algorithm. Results fillogenetik tree formation was concluded that kinship types of Ebola virus can not be inferred in general, because depending on the type of protein compared .. Eg the minor type nucleoprotein Zaire ebolavirus species close to Sudan ebolavirus. On the type of membrane associated protein VP 24 types Zaire ebolavirus close to Bundibugyo ebolavirus. Based on phylogenetic trees DNA data, the type of Tai Forest ebolavirus close to Bundibugyo ebolavirus but the layout state ebola epidemic spread far apart. Genetic distance for this type of Bundibugyo ebolavirus with Tai Forest ebolavirus is 0.3725. Tai Forest ebolavirus type similar to Bundibugyo ebolavirus not influenced by the proximity of ebola epidemic spreading area.

  Keywords : upgma method, multiple alignment, phylogenetic tree, ebola virus.

v

BAB 1 PENDAHULUAN Pada bagian ini diberikan ulasan mengenai hal-hal yang melatarbelakangi

  usulan penelitian, rumusan masalah yang akan diselesaikan dalam penelitian, batasan masalah, tujuan penelitian, dan manfaat penelitian.

1.1 Latar Belakang

  Penyakit ebola atau dalam bahasa medis Ebola Virus Disease (EVD) adalah penyakit yang disebabkan oleh sejenis virus dari genus Ebolavirus (EBOV), dari keluarga Filoviridae. Ebola yang dikenal juga sebagai demam berdarah ebola atau Ebola Haemorrhagic Fever (EHF) telah ada sebagai epidemi

  .

  menular sejak tahun 1976 di Afrika Tengah Epidemi ialah mewabahnya penyakit dalam daerah tertentu dengan jumlah yang melebihi batas jumlah normal atau yang biasa. Virus ebola dapat ditularkan melalui kontak langsung oleh cairan tubuh seperti darah, keringat, air liur, lendir, sperma, dan air mata dari pasien EVD. Selain ditularkan manusia, EVD dapat menular melalui binatang seperti gorila, simpanse, monyet, dan kelelawar buah. Masa inkubasi biasanya dimulai dua hari hingga tiga minggu. Pada tahap awal, pasien EVD biasanya menunjukkan gejala seperti demam, sakit tenggorokan, nyeri otot, sakit kepala dan tubuh lemah. Gejala lanjut dari EVD adalah pendarahan serta menurunnya fungsi hati dan ginjal. Menurut analisa sejarah wabah ebola, tingkat kematian dari pasien EVD adalah 40% sampai 90%. Meskipun EVD dianggap ancaman potensial bagi kesehatan masyarakat, sampai saat ini belum tersedia obat atau vaksin berlisensi untuk penyakit ini (Li dkk, 2014).

  Penyakit ebola (EVD) pertama kali ditemukan di Afrika, daerah selatan Sudan dan Zaire pada tahun 1976 pada tubuh seekor monyet. Pada tanggal 23 Maret 2014, Organisasi Kesehatan Dunia (WHO) melaporkan wabah baru infeksi virus Ebola (EBOV) yang dimulai pada bulan Desember 2013 di Republik Guinea dan menyebar ke negara-negara Afrika Barat lainnya, yaitu Sierra Leone dan Liberia. Sejak ditemukannya EVD pada tahun 1976 hingga 2014, dilaporkan terdapat sebanyak 3.354 kasus dan 2.120 diantaranya meninggal. Jumlah kasus yang dilaporkan di Guinea, Liberia dan Sierra Leone untuk periode Januari (Clercq, 2014).

  Virus ebola diklasifikasikan ke dalam 5 jenis, yaitu Zaire ebolavirus (ZEBOV), Sudan ebolavirus (SEBOV), Bundibugyo ebolavirus (BEBOV), Tai

  Forest ebolavirus yang juga dikenal sebagai Cote d’Ivoire ebolavirus (CIEBOV),

  dan Reston ebolavirus (REBOV). Reston ebolavirus (REBOV) adalah satu- satunya virus yang tidak menyerang manusia, namun menyerang monyet (Bovendo dkk, 2012). Untuk mengetahui seberapa mirip lima jenis virus ebola yang ada, sangat perlu melakukan identifikasi kekerabatan kelima jenis virus ebola tersebut. Selama ini belum ada penelitian mengenai kekerabatan jenis virus ebola. Salah satu cara identifikasi kekerabatan adalah dengan membangun pohon filogenetik.

  Konstruksi pohon filogenetik baru-baru ini menjadi perhatian banyak peneliti karena ketersediaan data biologis yang luas. Untuk mengkonstruksi pohon filogenetik, terdapat beberapa metode yang dapat digunakan, yaitu Metode Berbasis Jarak (misalnya, neighbor-joining dan unwight pair group method with

  ), Metode Berbasis Fitur (misalnya, maximum parsimony), dan

  arithmetic average Metode Berbasis Probabilitas (misalnya, maximum likelihood) (Shen dkk, 2008).

  Irawan dan Amiroch (2014) melakukan konstruksi pohon filogenetik menggunakan Metode Berbasis Jarak untuk identifikasi host dan penyebaran epidemi SARS. Dalam penelitiannya, Algoritma Neighbor Joining digunakan untuk mengkonstruksi pohon filogenetik yang disimulasikan dalam Matlab. Input untuk mengkonstruksi sebuah pohon filogenetik dengan Metode Berbasis Jarak berupa matriks jarak. Matriks jarak diperoleh dari penyejajaran antar sequence dengan menggunakan Metode Super Pairwise Alignment (SPA). Output dari pensejajaran ini berupa jumlah perbedaan antar sequence yang menentukan jarak genetiknya. Dari matriks jarak tersebut, jarak genetik diubah menjadi jarak

  

evolutioner menggunakan Model Jukes Cantor yang selanjutnya dibentuk pohon

  filogenetik menggunakan Algoritma Neighbor Joining. Akan tetapi, algoritma tersebut tidak disarankan untuk digunakan dalam mengkonstruksi pohon filogenetik dari data sekuens yang similaritasnya sangat tinggi. Apabila Algoritma tetap digunakan untuk membentuk pohon filogenetik dari data

  Neighbor Joining pohon yang berbeda. Dengan kata lain, pohon yang dihasilkan tidak stabil.

  Dalam membangun pohon filogenetik menggunakan Metode UPGMA langkah awal adalah mendapatkan multiple alignment (MA) dari multiple sekuens yang diberikan. Hasil dari MA berupa suatu himpunan sekuens yang panjangnya sama. MA dapat menunjukkan multiple sequence berada pada keluarga yang sama atau tidak. Selain itu, MA dapat menunjukkan semua hubungan atau relasi antar famili dari multiple sequence yang ada. Berdasarkan pembagian keluarga, dapat ditentukan keadaan evolusi masing-masing sekuens dalam keluarga. Secara umum digunakan pohon topologi untuk menggambarkan hubungan di antara multiple

  

sequence , pohon topologi tersebut selanjutnya dikenal dengan pohon filogenetik

(Shen dkk, 2008).

  UPGMA (Unwight Pair Group Method with Arithmetic Average) atau metode kelompok pasangan unweight dengan rataan aritmatika adalah metode paling sederhana dari semua metode clustering yang digunakan untuk membangun pohon filogenetik. Metode clustering yang paling intuitif digunakan untuk membangun pohon filogenetik adalah metode UPGMA. Metode ini merakit dua kelas terdekat untuk menjadi kelas yang baru, ke dalam sebuah cluster setiap waktu sampai semua kelas dirakit menjadi satu kelas. UPGMA digunakan untuk membangun pohon filogenetik dengan cara yang mirip dengan Metode sistem clustering, perbedaan utamanya adalah formula yang digunakan untuk menghitung jarak kelas (Shen dkk, 2008).

  Dengan memanfaatkan clustering, Metode UPGMA digunakan untuk membangun pohon filogenetik. Kelebihan Metode UPGMA adalah metode ini paling sederhana dari semua metode clustering yang digunakan untuk membangun pohon filogenetik. Metode ini membutuhkan kecepatan substitusi dari nukleotida atau asam amino menjadi seragam dan tidak berubah melalui proses evolusi secara keseluruhan. Dengan kata lain, hipotesis mengukur waktu molekuler dipenuhi. Pada setiap node induk, panjang cabang dari node induk ke dua simpul anak adalah sama (Shen dkk, 2008). Oleh karena itu, akan dilakukan penelitian mengenai konstruksi filogenetik menggunakan Metode UPGMA untuk identifikasi kekerabatan beberapa jenis virus ebola dan asal penyebaran epidemi

  1.2 Rumusan Masalah

  Berdasarkan uraian latar belakang yang ada, permasalahan yang akan dibahas dalam penelitian ini adalah

  1. Bagaimana membentuk pohon filogenetik epidemi ebola berdasarkan jenis virus menggunakan Metode UPGMA?

  2. Bagaimana identifikasi kekerabatan beberapa jenis virus ebola dan asal penyebaran epidemi ebola menggunakan pohon filogenetik?

  1.3 Batasan Masalah

  Permasalahan yang akan dibahas dalam penelitian ini dibatasi sebagai berikut:

  1. Sekuens yang disejajarkan adalah sekuens protein lima jenis virus ebola baik yang menyerang manusia maupun binatang, sekuens DNA host dan individu lain yang terinfeksi berdasarkan data lokasi dan tanggal pengambilan sample.

  2. Data sekuens protein yang digunakan diambil dari database Uniprot

  

  3. Data sekuens DNA yang digunakan diambil dari database National Center for Biotechnologi Information .

  4. Data sekuens DNA yang digunakan untuk penyebaran epidemi ebola di negara-negara Afrika.

  5. Pensejajaran sekuens menggunakan Metode Progressive dengan bantuan MATLAB.

  6. Pohon filogenetik disimulasikan menggunakan Metode UPGMA dengan bantuan MATLAB.

  1.4 Tujuan Penelitian

  Dari perumusan masalah yang ada, maka tujuan dari penelitian ini adalah dengan obyek virus ebola.

  2. Mengetahui kekerabatan jenis virus dan asal penyebaran epidemi ebola dengan menggunakan pohon filogenetik.

  1.5 Manfaat Penelitian

  Hasil penelitian ini diharapkan dapat memberikan manfaat sebagai berikut:

  1. Sebagai tambahan referensi untuk penelitian berikutnya mengenai proses kontruksi pohon filogenetik dengan menggunakan Metode Berbasis Jarak, yaitu Metode UPGMA.

  2. Mengetahui penerapan pohon filogenetik untuk menyelesaikan masalah dalam bidang kesehatan, terutama untuk mengetahui kekerabatan dan asal penyebaran epidemi ebola.

  3. Mengetahui tingkat kemiripan jenis-jenis virus ebola sehingga dapat membantu peneliti bidang kesehatan dalam pembuatan vaksin.

  1.6 Kontribusi Hasil Penelitian

  Kontribusi hasil penelitian ini terhadap pengembangan ilmu adalah dapat membantu peneliti dalam bidang kesehatan untuk mengambil tindakan lebih lanjut setelah diketahui kekerabatan jenis virus dan penyebaran virus ebola.

BAB 2 KAJIAN PUSTAKA DAN DASAR TEORI Pada bagian ini diberikan ulasan mengenai penelitian terdahulu dan teori-

  teori yang diperlukan dalam proses penelitian. Penelitian terdahulu yang diulas dalam bab ini adalah penelitian mengenai konstruksi pohon filogenetik yang dilakukan Irawan dan Amiroch (2014). Adapun beberapa teori yang diberikan meliputi penyakit virus ebola (EVD), sekuens, protein, DNA, pensejajaran sekuens, multiple alignment, Metode Progressive, Algoritma Needleman Wunsch, matriks penalti dan matriks penskoran, filogenetik molekuler, pohon, pohon filogenetik, metode berbasis jarak dan Metode UPGMA.

2.1 Penelitian Terdahulu

  Penelitian pertama berkaitan dengan identifikasi host dan penyebaran epidemi SARS oleh Irawan dan Amiroch (2014). Irawan dan Amiroch melakukan konstruksi pohon filogenetik menggunakan Metode Berbasis Jarak untuk identifikasi host dan penyebaran SARS. Dalam penelitiannya, Algoritma digunakan untuk mengkonstruksi pohon filogenetik yang

  Neighbor Joining

  disimulasikan dalam Matlab. Input untuk mengkonstruksi sebuah pohon filogenetik Metode Berbasis Jarak berupa matriks jarak. Matriks jarak diperoleh dari pensejajaran antar sekuen dengan menggunakan Metode Super Pairwise

  (SPA). Output dari penyejajaran ini berupa jumlah perbedaan antar

  Alignment

  sekuens yang menentukan jarak genetiknya. Dari matriks jarak tersebut, jarak genetik diubah menjadi jarak evolutioner menggunakan model Jukes Cantor yang selanjutnya dibentuk pohon filogenetik menggunakan Algoritma Neighbor

  

Joining . Hasil penelitian menunjukkan, dengan menggunakan pohon filogenetik

  dapat dibuktikan data sekuens protein berbagai binatang yang dicurigai sebagai dari SARS Coronavirus dan data sekuens DNA pasien yang terinfeksi SARS.

  host

  Dari hasil pembentukan pohon filogenetik diketahui epidemi berawal pada tanggal

  16 Desember 2002 di Guangzhou China Selatan yang kemudian menyebar ke Zhongshan. Titik kumpul epidemi di RS Guangzho seu dan hotel Metropole yang selanjutnya menyebar ke Hanoi, Toronto, Singapura, Taiwan dan HongKong sehingga kasus SARS menjadi wabah internasional. Penerapan pensejajaran super

  

human SARS Coronavirus dengan coronavirus lain yang dibawa oleh binatang

(Irawan dkk, 2014).

2.2 Penyakit Virus Ebola (EVD)

  Penyakit ebola atau dalam bahasa medis Ebola Virus Disease (EVD) adalah penyakit yang disebabkan oleh sejenis virus dari genus Ebolavirus (EBOV), famili Filoviridae. Ebola yang dikenal juga sebagai demam berdarah ebola atau Ebola Haemorrhagic Fever (EHF) telah ada sebagai epidemi menular sejak tahun 1976 di Afrika Tengah. Virus ebola diklasifikasikan ke dalam 5 jenis, yaitu Zaire ebolavirus (ZEBOV), Sudan ebolavirus (SEBOV), Bundibugyo

  ebolavirus (BEBOV), Tai Forest ebolavirus juga dikenal sebagai Cote d’Ivoire

  (CIEBOV), dan Reston ebolavirus (REBOV). Reston ebolavirus

  ebolavirus

  (REBOV) adalah satu-satunya virus yang tidak menyerang manusia, namun menyerang monyet (Bovendo dkk, 2012). Selama ini belum ada penelitian mengenai kekerabatan jenis-jenis virus ebola tersebut.

  Penyakit ebola (EVD) pertama kali ditemukan di Afrika, daerah selatan Sudan dan Zaire pada tubuh seekor monyet. Pada tanggal 23 Maret 2014, Organisasi Kesehatan Dunia (WHO) melaporkan jumlah kasus EVD yang terjadi di Afrika pada tahun 1976 hingga tahun 2014. Sejak ditemukannya EVD pada tahun 1976 hingga tahun 2014, dilaporkan terdapat sebanyak 3.354 kasus dan 2.120 diantaranya meninggal. Jumlah kasus yang dilaporkan di Guinea, Liberia dan Sierra Leone untuk periode Januari sampai September 2014 adalah 1009 kasus dan 574 diantaranya meninggal (Clercq, 2014). Adapun data kasus ebola yang terjadi di Afrika tahun 1976 sampai 2014 disajikan pada tabel 2.1.

  Tabel 2.1: Kasus ebola di Afrika

  29

  22

  31 250

  21

  45

  1 224

  53

  43 128

  7 187

  6 1009 280 151

  37

  15

  1

  4

  13

  3 574 EBOV SUDV EBOV SUDV EBOV TAFV EBOV EBOV EBOV EBOV EBOV EBOV EBOV EBOV EBOV EBOV EBOV BDBV EBOV SUDV SUDV BDBV SUDV EBOV

  Sumber: Clercq, E.D. (2014)

  1

  36

  

Tahun Negara Kota Kasus Meninggal Spesies

1976 1976 1977 1979 1994 1994 1995 1996 1996 1996 2000 2001 2001 2002 2003 2004 2007 2007 2008 2011 2012 2012 2012 2014

  37

  Republik Demokrat Kongo Sudan Selatan Republik Demokrat Kongo Sudan Selatan Gabon Ivory Coast Republik Demokrat Kongo Gabon Gabon Afrika Selatan Uganda Gabon Republik Demokrat Kongo Republik Demokrat Kongo Republik Demokrat Kongo Sudan Selatan Republik Demokrat Kongo Uganda Republik Demokrat Kongo Uganda Uganda Republik Demokrat Kongo Uganda Guinea, Sierra Leone, Liberia, Nigeria

Yambuku

  Nzara Tandala Nzara

Mekouka

Tai Forest

Kikwit

Maybout

Booue Johannes Burg Gulu

Libreville

Not Specified

Mbomo Mbomo Yambio Luebo

Bundibugyo

Luebo Luwero District Kibale District Isiro Health Zone Luwero District

Multiple

318

  284

  1

  34

  52

  1 315

  60

  11

  2 425

  65

  57 143

  35

  17 264 149

  32

  1

  Secara umum virus ebola ada yang menyerang manusia dan menyerang hewan primata (misalnya, monyet, gorila dan simpanse). Masa inkubasi biasanya dimulai dua hari hingga tiga minggu setelah terjangkit virus. Pada tahap awal, pasien EVD biasanya menunjukkan gejala seperti demam, sakit tenggorokan, nyeri otot, sakit kepala dan tubuh lemah. Gejala lanjut dari EVD adalah muntah, diare, pendarahan serta menurunnya fungsi hati dan ginjal. Menurut analisa sejarah wabah ebola, tingkat kematian dari pasien EVD adalah 40% sampai 90% (Li dkk, 2014). Virus ebola mudah menyebar dengan cepat. Pertama kali infeksi dimulai dari penularan hewan yang terinfeksi ke manusia. Dari situ nantinya manusia antar manusia bisa melalui berbagai macam cara antara lain melalui makanan, jarum suntik, berpegangan tangan, dan kontak langsung oleh cairan tubuh penderita, seperti darah, keringat, air liur, lendir, sperma, dan air mata dari pasien EVD atau melalui binatang yang rawan terinfeksi.

  2.3 Bioinformatika

  Bioinformatika (bioinformatics) telah dikembangkan dalam ruang, yang telah diduduki oleh sejumlah disiplin ilmu terkait. Bioinformatika adalah ilmu yang mempelajari penerapan teknik komputasi untuk mengelola dan menganalisis informasi biologis. Bidang ini mencakup penerapan metode-metode matematika, statistika dan informatika untuk memecahkan masalah-masalah biologis, terutama dengan menggunakan sekuens DNA dan asam amino serta informasi yang berkaitan dengannya. Contoh topik utama bidang ini meliputi basis data untuk mengelola informasi biologis, pensejajaran sekuens (sequence alignment), prediksi struktur untuk meramalkan bentuk struktur protein maupun struktur sekunder RNA, analisis filogenetik, dan analisis ekspresi gen. Ini termasuk ilmu kuantitatif seperti matematika dan biologi komputasi, biometri dan biostatistik, ilmu komputer, sibernetika. Serta ilmu biologi seperti evolusi molekuler, genomics dan proteomik, genetika dan biologi sel. Bioinformatika merupakan perluasan langsung dari biologi, matematika dan komputasi ke dalam bidang baru dalam data set yang besar (Polanski dkk, 2007).

  2.4 Sekuens

  Istilah sekuens biologis pada umumnya digunakan untuk menyatakan sekuens DNA, sekuens RNA dan sekuens protein. Dalam pengertian biologi molekuler, sekuens biologi terdiri dari banyak makromolekul, dimana semua makromolekul memiliki fungsi-fungsi yang spesifik dalam kondisi tertentu. Makromolekul tersebut dapat dibagi ke dalam sejumlah besa mikromolekul dengan fungsi-fungsi tertentu. Pada umumnya sekuens DNA atau sekuens RNA didasarkan pada empat nukleotida, sedangkan sekuens pada protein didasarkan pada 20 asam amino. Jika diperhatikan nukleotida sekuens DNA atau asam amino dari unit-unit dasar (Shen dkk, 2008).

  Banyak cara yang dapat dilakukan untuk merepresentasikan struktur dari

sekuens biologis. Cara yang paling sering digunakan adalah dengan mendeskripsikan

sekuens tersebut ke dalam bentuk struktur primer, sekunder dan tersier (struktur tiga

dimensi). Untuk sekuens protein, struktur primernya mendeskripsikan kombinasi

asam amino penyusun protein. Sedangkan untuk sekuens DNA/RNA, struktur

primernya mendeskripsikan komponen-komponen nukleotida. Struktur primer

sekuens biologi menentukan komponen nukleotida atau asam aminonya. Struktur

tersier atau 3D dari sekuens biologi menggambarkan susunan 3D (posisi koordinat)

dari atom konstituen dalam molekul. Struktur sekunder dari sekuens protein

menunjukkan struktur khusus dari masing-masing segmen protein, bisa berupa

struktur helix, untai atau struktur lainnya. Super struktur sekunder juga sering

digunakan untuk mendeskripsikan suatu keadaan antara struktur sekunder dan tesier,

yang terdiri dari sebagian besar kelompok molekul kompak (domain).

  Menurut Shen (Shen dkk, 2008), digunakan deskripsi untuk sekuens biologi sebagai berikut. A =

  (2.3) )

  ( ) B = ( ) C = ( dengan huruf capital A, B dan C merepresentasikan sekuens, merepresentasikan unit-unit dasar sekuens pada posisi ke-

  , yang elemen- elemennya diperoleh dari himpunan

  • . Pada persamaan (2.3), adalah panjang sekuens A, B dan C. Jika A, B dan C merupakan sekuens DNA/RNA maka dan * + atau * +. jika A, B dan C merupakan sekuens protein maka dan * +.

  Multiple sequence (group sekuens) adalah kumpulan dari sekuens yang

  dinotasikan sebagai

  (2.4) Untuk setiap merupakan sekuens terpisah yang didefinisikan pada dan dinotasikan sebagai

  (2.5) ( ) dengan adalah panjang sekuens dan adalah banyaknya sekuens pada masing-masing kelompok.

  Sekuens yang homolog adalah jika sekuens merupakan mutasi dari sekuens dan keduanya memiliki makna yang sama secara biologi. Dalam analisis sekuens, dapat diketahui bahwa sekuens merupakan mutasi dari sekuens

  , namun tidak dapat diketahui apakah keduanya memiliki makna yang sama secara biologi, sehingga kedua sekuens tersebut belum bisa dikatakan homolog, namun hanya bisa dikatakan mirip (Shen dkk, 2008).

2.4.1 Sekuens Protein

  Protein adalah salah satu bio-molekuler yang penting peranannya dalam makluk hidup. Untuk sekuens protein, struktur primernya mendeskripsikan kombinasi asam amino penyusun protein. Adapun kode huruf dan nama asam amino dapat dilihat pada tabel 2.2.

Tabel 2.2. Asam Amino dan Kode resmi

  No

  1

  3 Nama – Kode Huruf – Kode Huruf

  1 A Ala Alanine

  2 R Arg Arginine

  3 N Asn Asparagine

  

4 D Asp Aspartic acid

  5 C Cys Cyteine

  6 Q Gln Glutamine

  7 E Glu Glutamic

  8 G Gly Glycine

  9 H His Histidine

  10 I Ile Isoleucine

  11 L Leu Leucine

  12 K Lys Lysine

  13 M Met Methionine

  

14 F Phe Phenylalanine

  15 P Pro Proline

  16 S Ser Serine

  17 T Thr Threonine

  18 W Trp Tryptophan

  19 Y Tyr Tyrosine

  20 V Val Valine Sumber : Claverie, J.M, Bioinformatics For Dummies, 2007.

2.4.2 Sekuens DNA

  A ATT ATC ATA ATG Ile (I) Ile (I) Ile (I) Met (M)

  Sumber : Claverie, J.M, Bioinformatics For Dummies, 2007.

  GGT GGC GGA GGG Gly (G) Gly (G) Gly (G) Gly (G)

  GAT GAC GAA GAG Asp (D) Asp (D) Glu (E) Glu (E)

  GCT GCC GCA GCG

Ala (A)

Ala (A)

Ala (A)

Ala (A)

  G GTT GTC GTA GTG Val (V) Val (V) Val (V) Val (V)

  AGT AGC AGA AGG Ser (S) Ser (S) Arg (R) Arg (R)

  AAT AAC AAA AAG Asn (N) Asn (N) Lys (K) Lys (K)

  ACT ACC ACA ACG

Thr (T)

Thr (T)

Thr (T)

Thr (T)

  Asam deoksiribonukleat (deoxyribonucleid acid) atau disebut DNA nukleotida dan berperan sebagai dasar hereditas. Informasi mengenai hereditas ini digambarkan dalam sebuah sekuens DNA. Sekuens DNA adalah polimer linear berdimensi satu yang disusun oleh empat nukleotida berbeda, yaitu Adenin (A), Cytosin (C), Guanin (G) dan Tymin (T). Dengan kata lain sekuens DNA adalah sekuens yang disusun oleh empat huruf A, C, T dan G selanjutnya empat sekuens basa. Identifikasi sekuens DNA tersebut dapat memberikan informasi mengenai perbedaan spesies yang satu dengan yang lainnya, walaupun mereka mempunyai nukleotida yang sama ( Hochreiter , 2008).

  Kode genetik adalah kumpulan tiga nukleotida yang disebut kodon dan setiap kombinasi tiga nukleotida menunjukkan asam amino, misalnya ATG (Adenin-Timin-Guanin) adalah kode untuk metionin. Kode standar genetik lainnya bisa dilihat pada tabel 2.3.

  CAT CAC CAA CAG His (H) His (H) Gln (Q) Gln (Q)

  CCT CCC CCA CCG

Pro (P)

Pro (P)

Pro (P)

Pro (P)

  C CTT CTC CTA CTG Leu (L) Leu (L) Leu (L) Leu (L)

  TGT TGC TGA TGG C (Cys) C (Cys) Stop (*) Trp (W)

  TAT TAC TAA TAG Tyr (Y) Tyr (Y) Stop (*) Stop (*)

  TCT TCC TCA TCG

Ser (S)

Ser (S)

Ser (S)

Ser (S)

  T C A G T TTT TTC TTA TTG Phe (F) Phe (F) Leu (L) Leu (L)

Tabel 2.3 Kode standart genetik

  GGT CGC CGA CGG Arg (R) Arg (R) Arg (R) Arg (R)

2.5 Alignment

  Untuk mengkonfirmasi hubungan antar mutasi, pendekatan umum adalah yang dapat dilihat sebagai operasi dalam aritmatika. Hal ini disebut sebagai

  sequences alignment

  atau alignment. Pensejajaran sekuens atau sequence

  alignment

  adalah proses penyusunan atau pengaturan dua atau lebih sekuens sehingga persamaan sekuens-sekuens tersebut tampak nyata. Kunci pensejajaran sekuens adalah menentukan perpindahan mutasi. Jika dan adalah dua sekuens yang didefinisikan pada per samaan 2.3. Penyisipan simbol ”–“ ke dalam dan bertujuan untuk membentuk dua sekuens baru, yaitu dan . Selanjutnya elemen-elemen dari dan menjadi range dari * +

  • , dengan adalah himpunan quaternary (himpunan yang terdiri dari 4 elemen) dan adalah himpunan yang terdiri dari 5 elemen.

  Definisi 2. Sekuens

  adalah perluasan sekuens , dimana adalah sekuens dengan penambahan gap yang diberi simbol “ – “.

  Pensejajaran sekuens adalah sebuah alat penting dalam analisis posisi dan tipe mutasi tersembunyi dalam sekuens biologi serta mengizinkan sebuah komparasi yang tepat. Pensejajaran sekuens juga penting karena dapat digunakan untuk penelitian penyakit genetik dan epidemi. Sebagai contoh, adalah mungkin untuk menentukan asal, variasi, varians, difusi, dan pengembangan epidemi dan kemudian menemukan virus dan bakteri yang bertanggung jawab dan obat yang sesuai. Jadi pensejajaran sekuens sangat penting dalam bidang bioinformatika dan biomedis karena berfungsi sebagai prediktif kuat yang sangat baik. Dalam rangka untuk mendapatkan algoritma level tinggi yang lebih baik, maka dibutuhkan teori-teori matematika (Shen dkk, 2008).

2.5.1 Matriks Penalti

  Tujuan pensejajaran sekuens adalah untuk menemukan perluasan yang sehingga semua sekuens dalam memiliki tingkat perbedaan yang lebih rendah atau tingkat kemiripan yang lebih tinggi. Dalam bioinformatika, tingkat perbedaan biasanya diukur menggunakan matriks penalti atau matriks penskoran. Matriks penalti dan matriks penskoran digunakan untuk mengoptimalkan hasil pensejajaan (Shen dkk, 2008).