Penjajaran Global Sekuen DNA Menggunakan Algoritme Needleman-Wunsch

PENJAJARAN GLOBAL SEKUEN DNA MENGGUNAKAN
ALGORITME NEEDLEMAN-WUNSCH

AGUNG WIDYO UTOMO

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Penjajaran Global
Sekuen DNA Menggunakan Algoritme Needleman-Wunsch adalah benar karya
saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk
apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau
dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah
disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, Juni 2013
Agung Widyo Utomo
NIM G64104022

ABSTRAK
AGUNG WIDYO UTOMO. Penjajaran Global Sekuen DNA Menggunakan
Algoritme Needleman-Wunsch. Dibimbing oleh WISNU ANANTA KUSUMA.
Tujuan penjajaran global sekuen DNA adalah mencari kemiripan dua buah
sekuen DNA dengan memeriksa kecocokan seluruh nukleotida dari dua buah
sekuen DNA tersebut. Penelitian ini mengimplementasikan penjajaran global
menggunakan algoritme Needleman-Wunsch pada sekuen genom lengkap dari
mitokondria Ancylostoma duodenale (NC_003415.1) dan sekuen genom lengkap
dari mitokondria Necator americanus (NC_003416.2). Hasil penjajaran
memperlihatkan bahwa kemiripan antara dua sekuen DNA tersebut adalah 83.7 %
dengan gap sebesar 6.5%. Pengujian selanjutnya dilakukan pada sekuen genom
lengkap dari Human papillomavirus type 134 (NC_014956.1) dan sekuen genom
lengkap dari Human papillomavirus type 132 (NC_014955.1). Hasil penjajaran
menunjukkan bahwa kemiripan antara dua sekuen tersebut adalah 62.9% dengan
gap sebesar 23.5%. Kedua hasil penjajaran tersebut menunjukkan bahwa

penjajaran dengan menggunakan algoritme Needleman-Wunsch menghasilkan
nilai kemiripan yang lebih tinggi dibandingkan dengan menggunakan algoritme
penjajaran global GSA tree dan super pairwise alignment.
Kata kunci: penjajaran global, penjajaran sekuen, Needleman-Wunsch

ABSTRACT
AGUNG WIDYO UTOMO. Global Alignment of DNA Sequence Using
Needleman-Wunsch Algorithm. Supervised by WISNU ANANTA KUSUMA.
Global alignment of DNA sequence aims to determine similarity between
two DNA sequences by measuring the matching region which involves the overall
nucleotides of two DNA sequences. This research implements the global
alignment using Needleman-Wunsch algorithm on the sequence of Ancylostoma
duodenale mitochondrion, complete genome (NC_003415.1) and the sequence of
Necator americanus mitochondrion, complete genome (NC_003416.2). The result
shows that the similarity of these sequences is 83.7% with 6.5% gaps . The second
experiment is performed using the sequence of Human papillomavirus type 134,
complete genome (NC_014956.1 ) and the sequence of Human papillomavirus
type 132, complete genome (NC_014955.1). The result shows that the similarity is
62.9% and gaps of 23.5%. Both results conclude that the Needleman-Wunsch
could obtain higher similarity than those of GSA tree and super pairwise

alignment.
Keywords: global alignment, sequence alignment, Needleman-Wunsch

PENJAJARAN GLOBAL SEKUEN DNA MENGGUNAKAN
ALGORITME NEEDLEMAN-WUNSCH

AGUNG WIDYO UTOMO

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013


Judul Skripsi : Penjajaran Global Sekuen DNA Menggunakan Algoritme
Needleman-Wunsch
Nama
: Agung Widyo Utomo
NIM
: G64104022

Disetujui oleh

Dr Wisnu Ananta Kusuma, ST, MT
Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi, MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA

Puji dan syukur penulis panjatkan ke hadirat Allah subhanahu wata’ala,
yang telah memberikan nikmat yang begitu banyak, sehingga penulis dapat
menyelesaikan penelitian dan tulisan ini. Shalawat dan salam penulis sampaikan
kepada Nabi Muhammad shallallahu ‘alaihi wasallam, keluarganya, sahabatnya,
serta umatnya hingga akhir zaman. Tulisan ini merupakan hasil penelitian yang
penulis lakukan sejak Agustus 2012 hingga Mei 2013. Tulisan ini mengambil
topik Bioinformatika, dan bertujuan menerapkan algoritme Needleman-Wunsch
pada penjajaran global sekuen DNA.
Tak lupa penulis mengucapkan terima kasih kepada seluruh pihak yang
telah berperan dalam penelitian ini, yaitu:
1
Istri tercinta Ida Hayati Sholihah, Ayahanda Budi Wiratno, Ibunda Sulastri,
serta kakak Estiwi Retno Utami atas kasih sayang, doa, semangat, dan
dorongan kepada penulis agar dapat segera menyelesaikan penelitian ini.
2
Bapak Dr Wisnu Ananta Kusuma, ST, MT selaku dosen pembimbing, yang
telah memberikan banyak ide, masukan, dan dukungan kepada penulis.
3
Bapak Irman Hermadi, SKom, MS dan Bapak Toto Haryanto, SKom, MSi,
yang telah bersedia menjadi penguji.

4
Bapak Drs Priyambodo Rahardjo selaku atasan yang telah memberikan izin,
mendukung dan memotivasi dalam menyelesaikan pendidikan di alih jenis
Ilmu Komputer IPB.
5
Para sahabat: Yusrizal Ihya, Rizkina M. Syam, Dedi Kiswanto, Asep
Haryono, Septiandi Wibowo, Alrasyid Trio, Wahyu Dias, Mas Syam,
Achmad Muchlis, Silvia Rahmi, Putri Ayu Pramesti, Sri Rahayu Natasia,
Erni Yusniar serta seluruh rekan-rekan Ilkom Alih Jenis angkatan 5, you
are the best.
6
Rekan satu bimbingan: Fariz Azhar, Bernita Sinurat, Alharis Tamsin, Fitria,
dan Galih yang saling berbagi ide dan saling memotivasi selama pengerjaan
skripsi.
7
Rekan-rekan DKM Alghifari IPB, FOKUS IPB, FRASE, ROHIS 58 dan
ROHIS 9 Jakarta atas doa dan dukungannya.
8
Rekan-rekan BPPT Enjiniring atas perhatian dan motivasinya.
9

Pihak-pihak lain yang tidak dapat penulis sebutkan satu persatu.
Penulis berharap penelitian dan tulisan ini dapat memberikan manfaat untuk
kemajuan masyarakat Indonesia.

Bogor, Juni 2013
Agung Widyo Utomo

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi


PENDAHULUAN

1

Latar Belakang

1

Tujuan Penelitian

2

Manfaat Penelitian

2

Ruang Lingkup Penelitian

2


METODE

2

Penyiapan Data

3

Algoritme Penjajaran Global Needleman-Wunsch

4

Analisis dan Evaluasi

6

Lingkungan Pengembangan

6


HASIL DAN PEMBAHASAN

6

Implementasi Algoritme Penjajaran Global Needleman-Wunsch

6

Analisis dan Evaluasi

7

SIMPULAN DAN SARAN
Simpulan
Saran

9
9
10


DAFTAR PUSTAKA

10

LAMPIRAN

11

RIWAYAT HIDUP

16

DAFTAR TABEL
1 Hasil pengujian pertama
2 Hasil pengujian kedua

7
7

DAFTAR GAMBAR
1
2
3
4
5
6
7

Contoh penjajaran global dan penjajaran lokal
Diagram alur metode penelitian
Contoh data berformat FASTA
Contoh inisialisasi matriks penskoran
Contoh matriks penskoran yang telah terisi
Contoh traceback
Perbandingan pengujian pertama algoritme Needleman-Wunsch
dengan GSA tree, SPA, dan aplikasi EMBOSS
8 Perbandingan pengujian kedua algoritme Needleman-Wunsch dengan
GSA tree, SPA, dan aplikasi EMBOSS
9 Grafik waktu eksekusi terhadap panjang sekuen

1
3
3
4
5
5
8
8
9

DAFTAR LAMPIRAN
1
2
3
4
5

Pseudocode algoritme Needleman-Wunsch
User interface aplikasi penjajaran global
Perbandingan hasil pengujian pertama dengan metode lain
Perbandingan hasil pengujian kedua dengan metode lain
Panjang sekuen terhadap waktu eksekusi

11
12
13
14
15

PENDAHULUAN
Latar Belakang
Salah satu bagian terpenting dari sel yang menentukan karakteristik
makhluk hidup adalah DNA (deoxyribo nucleic acid). DNA merupakan rantai
ganda dari molekul sederhana (nukleotida) yang diikat bersama-sama dalam
struktur helix yang dikenal dengan double helix. Nukleotida-nukleotida tersebut
tersusun atas empat basa nitrogen yaitu adenine, cytosine, guanine dan thymine
yang dinotasikan dalam abjad A, C, G, dan T (Annibal 2003).
Salah satu cara untuk menganalisis DNA adalah melalui penjajaran sekuen
(sequence alignment). Tujuan penjajaran sekuen adalah mencari sebanyak
mungkin kecocokan pada setiap subsekuen yang identik, sehingga dapat dianalisis
dan disimpulkan kemiripan dua sekuen tersebut melalui nilai penjajarannya.
Penjajaran sekuen DNA dapat dilakukan dengan dua cara yaitu penjajaran
global (global alignment) dan penjajaran lokal (local alignment). Penjajaran
global dilakukan dengan melibatkan keseluruhan nukleotida dalam sekuen DNA.
Adapun penjajaran lokal hanya hanya melibatkan daerah tertentu dari sekuen
DNA yang memberikan nilai penjajaran paling tinggi. Perbedaan penjajaran
global dan penjajaran lokal dapat dilihat pada Gambar 1.
Penjajaran Global
A T T G C T C G T T G G A
| . . . |
| | | .
|
A A A A C - C G T A - - A
Penjajaran Lokal
- - - - C T C G T - - - |
| | |
- - - - C - C G T - - - -

Gambar 1 Contoh penjajaran global dan penjajaran lokal
Penelitian penjajaran global sekuen DNA telah banyak dilakukan
sebelumnya, antara lain penelitian yang dilakukan oleh Safi’i (2011) dan Pantua
(2011). Data yang digunakan untuk percobaan pertama adalah sekuen genom
lengkap dari mitokondria Ancylostoma duodenale (NC_003415.1), dan sekuen
genom lengkap dari mitokondria Necator americanus (NC_003416.2). Data yang
digunakan untuk percobaan kedua adalah sekuen genom lengkap dari Human
papillomavirus type 134 (NC_014956.1) dan sekuen genom lengkap dari Human
papillomavirus type 132 (NC_014955.1). Hasil penjajaran dari kedua penelitian
tersebut divalidasi oleh aplikasi EMBOSS (European Molecular Biology Open
Software Suite) dengan tipe Needle yang menggunakan algoritme NeedlemanWunsch (Palmenberg dan Sgro 2008).
Safi’i (2011) menggunakan metode dengan pendekatan heuristic yang
terdiri atas tiga bagian yaitu algoritme penjajaran sederhana, algoritme perluasan
untuk pencarian substring umum terpanjang, dan graphical simple alignment tree
(GSA tree) yang menggunakan penelusuran post-order traversal (Qi et al. 2010).
Simpulan yang diperoleh adalah metode GSA tree tidak selalu memberikan hasil

2
penjajaran global yang optimal karena dipengaruhi oleh inisialisasi awal
penjajaran sekuen dan pemilihan parameter.
Sementara itu, Pantua (2011) menggunakan metode SPA (super pairwise
alignment) yang menggabungkan metode probabilitas dan analisis kombinatorial
(Shen et al. 2002). Simpulan yang diperoleh adalah penggunaan metode SPA
memiliki kelemahan dalam pemilihan parameter yang mengakibatkan hasil
berbeda-beda dan tidak optimal.
Penelitian ini akan menerapkan algoritme klasik penjajaran global yaitu
algoritme Needleman-Wunsch dan membandingkannya dengan metode GSA tree
dan SPA. Diharapkan dengan penilitian ini diperoleh hasil penjajaran yang lebih
optimal.
Tujuan Penelitian
1
2

Tujuan dari penelitian ini adalah untuk :
Menerapkan algoritme Needleman-Wunsch pada penjajaran global sekuen
DNA.
Membandingkan performa algoritme Needleman-Wunsch dengan metode
GSA tree dan SPA.
Manfaat Penelitian

Manfaat dari penelitian ini adalah untuk mendukung penelitian di bidang
Bioinformatika yang memerlukan informasi dari hasil penjajaran global sekuen
DNA seperti perancangan primer, pengidentifikasian single nucleotide
polymorphism (SNP), dan lain-lain.
Ruang Lingkup Penelitian
1
2
3

Pada penelitian ini dilakukan pembatasan masalah antara lain:
Data yang digunakan adalah data penelitian yang digunakan oleh Safi’i
(2011) dan Pantua (2011).
Data yang digunakan berformat FASTA.
Ukuran masing-masing sekuen DNA yang digunakan maksimal 15 000 bp
(base pair).

METODE
Tujuan penelitian ini adalah melakukan penjajaran dua buah sekuen yang
berbeda. Sekuen pertama disebut reference sequence dan yang kedua disebut
query sequence. Tahapan proses penelitian disajikan dalam diagram alur pada
Gambar 2.

3

Gambar 2 Diagram alur metode penelitian
Penyiapan Data
Data yang digunakan pada penelitian ini berasal dari GenBank yang
diunduh dari situs resmi National Centre for Biotechnology Information (NCBI).
Data tersebut berformat FASTA seperti contoh pada Gambar 3. Data berformat
FASTA terdiri atas baris pertama berupa simbol “ > ” yang diikuti identifier dari
sekuen dan baris kedua berupa data sekuen.
>gi|19073878|ref|NC_003415.1| Ancylostoma duodenale
mitochondrion, complete genome
CAGTATATAGTTTAGTTAAAATATAATATTTGGGTTATTAAGAGTTATTACTGA
GGAACTTTAGTTTAATTTAGAATATTTCATTTACAATGAAATGGTTTAAAGTTT
TATGTTTAAATTTTTTTTGGTGATTTCGTTAATTGGGGGTGTAATAAGATATGT
GAATATAGATCCTATAAAAAGTAGTTTTTTTTTAATTTTGAGTATATTAATGTG
TATACCTATATTGTCATTTAGTGGTTATGTTTGGTTTTCTTATTTTATTTGTTT
ATTGTTTTTAAGTGGGATTTTTGTTATTTTAGTGTATTTTTCGAGTTTGTCAAA
AGTTAATATAGTAAAAGGATATTTAGTTTTTATTAGTTTATTATTTAGTTTGAT
GGTTATTGGTTTAAATTAATATAGTGTTATATAATGTTAGATATAGTGTTATAT
AATGTTAGATATAGTGTTATATAATGTTAGTAATATAGTGTTATATAATGTTAG

Gambar 3 Contoh data berformat FASTA
Untuk membaca file berformat FASTA, diperlukan proses parsing. Pada
proses ini, program akan mengidentifikasi keberadaan simbol “>” sebagai tanda
bahwa baris tersebut merupakan baris identifier. Kemudian program akan

4
mengidentifikasi keberadaan baris baru sebagai tanda dimulainya baris data
sekuen. Data sekuen inilah yang akan digunakan untuk penjajaran global sekuen
DNA.
Penelitian ini menggunakan data yang sama dengan penelitian Safi’i (2011)
dan Pantua (2011) yaitu sekuen genom lengkap dari mitokondria Ancylostoma
duodenale (NC_003415.1) dengan panjang sekuen 13 721 bp, mitokondria
Necator americanus (NC_003416.2) dengan panjang sekuen 13 605 bp, Human
papillomavirus type 134 (NC_014956.1) dengan panjang sekuen 7 309 bp, dan
Human papillomavirus type 132 (NC_014955.1) dengan panjang sekuen 7 125 bp.
Algoritme Penjajaran Global Needleman-Wunsch
Algoritme ini ditemukan oleh Needleman dan Wunsch (1970) yang
digunakan untuk menemukan penjajaran global yang memiliki nilai optimal dari
dua buah sekuen. Algoritme Needleman-Wunsch menghitung semua informasi
yang terdapat pada dua sekuen sehingga jika kedua sekuen itu berukuran n, maka
kompleksitas waktunya adalah O(n2). Selain itu algoritme ini menyimpan seluruh
matriks pada memori sehingga kompleksitas ruangnya juga kuadratik (Annibal
2003). Untuk mencari penjajaran global terbaik pada algoritme ini digunakan
matriks penskoran (scoring matrix). Algoritme ini dibagi menjadi 3 tahap, yaitu :
1

Inisialisasi
Pada tahap ini dilakukan pemberian nilai awal pada matriks penskoran
M[i,j]. Jika panjang query sequence adalah m dan panjang reference
sequence adalah n, maka matriks penskoran M[i,j] tersebut berukuran
(m+1)×(n+1). Selanjutnya baris dan kolom pertama disi dengan nilai gap
penalty. Gap penalty adalah nilai yang diperoleh ketika membandingkan
karakter dengan karakter kosong (gap). Pada penelitian ini ditentukan gap
penalty bernilai 0. Contoh inisialisasi awal matriks penskoran dapat dilihat
pada Gambar 4.

Gambar 4 Contoh inisialisasi matriks penskoran
2

Pengisian Matriks
Pada tahap pengisian matriks, dihitung semua nilai matriks dengan
ketentuan sebagai berikut:

5
M[i-1,j] + w
M[i,j] =

Max

M[i,j-1] + w
M[i-1,j-1] + S[i,j]

di mana S[i,j] adalah match/mismatch score, w adalah konstanta gap penalty
dan M[i,j] adalah matriks penskoran yang akan diisi nilai yang diperoleh
dari ketentuan di atas. Nilai penskoran yang digunakan pada penelitian ini
adalah match = 9, mismatch = 1, dan gap = 0. Karena akan dilakukan
perbandingan dengan metode yang digunakan oleh Safi’i (2011) dan Pantua
(2011) maka nilai match dan mismatch yang digunakan sama dengan yang
digunakan pada penelitian Safi’i (2011) dan Pantua (2011). Contoh matriks
penskoran yang telah terisi dapat dilihat pada Gambar 5.

Gambar 5 Contoh matriks penskoran yang telah terisi
3

Traceback
Traceback merupakan tahap menyusun jalur dari matriks penskoran
(scoring matrix) yang telah berisi nilai-nilai pada langkah sebelumnya. Jalur
tersebut disusun dari matriks M(m+1, n+1) sampai dengan M(0,0) sehingga
memiliki nilai penskoran yang maksimum. Contoh traceback dapat dilihat
pada Gambar 6.

Gambar 6 Contoh traceback
Keluaran dari implementasi algoritme Needleman-Wunsch berupa nilai dan
visualisasi hasil penjajaran. Keluaran tersebut ditampilkan pada aplikasi yang
selanjutnya digunakan untuk analisis dan evaluasi. Keluaran tersebut terdiri atas:

6
1
2

3
4
5
6
7

Length, yaitu panjang penjajaran yang terbentuk.
Similaritiy yang merepresentasikan jumlah sekuen yang match dan
persentase kemiripan dua sekuen yang dijajarkan dari panjang penjajaran
yang terbentuk.
Gaps yang mewakili persentase kemunculan gap dari panjang alignment
yang terbentuk.
Score, yaitu total nilai hasil penjajaran.
Execution time, yaitu waktu yang dibutuhkan untuk mengeksekusi algoritme
Needleman-Wunsch.
Visualisasi hasil penjajaran dua sekuen.
Grafik yang menampilkan hubungan match antara reference sequence
dengan query sequence.
Analisis dan Evaluasi

Hasil yang diperoleh dianalisis dan dievaluasi kinerjanya dengan
membandingkan dengan hasil penelitian lain yang menggunakan penjajaran
global yaitu penelitian Safi’i (2011) dan Pantua (2011). Analisis berikutnya
dilakukan pada penjajaran sekuen DNA menggunakan Needleman-Wunsch yang
datanya dibangkitkan secara acak dari karakter A, C, G, dan T. Dari penjajaran
tersebut dibandingkan panjang sekuen dengan waktu eksekusinya untuk melihat
hubungannya dengan kompleksitas algoritme.
Lingkungan Pengembangan
Penelitian ini dibangun dengan menggunakan bahasa pemrograman Visual
Basic .NET dan didukung perangkat lunak dan perangkat keras dengan spesifikasi
sebagai berikut :
Perangkat Lunak :
 Sistem operasi Microsoft Windows 7
 Microsoft Visual Studio 2005
Perangkat Keras :
 Intel Atom Dual-Core N570 @1.67 GHz
 Memory 2 GB RAM
 Harddisk dengan kapasitas sisa 100 GB
 Monitor resolusi 1366 x 768 pixel
 Mouse dan keyboard

HASIL DAN PEMBAHASAN
Implementasi Algoritme Penjajaran Global Needleman-Wunsch
Pada tahap ini algoritme Needleman-Wunsch diimplementasikan ke dalam
bentuk baris program untuk membangun aplikasi penjajaran global. Pseudocode
program penjajaran global menggunakan Needleman-Wunsch disajikan pada

7
Lampiran 1. User interface aplikasi yang telah dibangun dapat dilihat pada
Lampiran 2. Pengujian pada aplikasi dilakukan sebanyak dua kali.
Pengujian pertama dilakukan penjajaran sekuen genom lengkap dari
mitokondria Ancylostoma duodenale (NC_003415.1) sebagai reference sequence
dengan panjang sekuen 13 721 bp dan sekuen genom lengkap dari mitokondria
Necator americanus (NC_003416.2) sebagai query sequence dengan panjang
sekuen 13 605 bp. Hasil dari penjajaran tersebut dapat dilihat pada Tabel 1.
Tabel 1 Hasil pengujian pertama
Nama output

Hasil

Length

14 126 bp

Similarity

11 822 (83.7%)

Gaps

926 (6.5%)

Score

107 776

Execution Time

115 detik

Pengujian kedua dilakukan penjajaran sekuen genom lengkap dari Human
papillomavirus type 134 (NC_014956.1) sebagai reference sequence dengan
panjang 7 309 bp dan sekuen genom lengkap dari Human papillomavirus type 132
(NC_014955.1) sebagai query sequence dengan panjang 7 125 bp. Hasil
pengujian kedua dapat dilihat pada Tabel 2.
Tabel 2 Hasil pengujian kedua
Nama output

Hasil

Length

8 180 bp

Similarity

5 146 (62.9%)

Gaps

1 926 (23.5%)

Score

47 422

Execution Time

29 detik

Analisis dan Evaluasi
Pada tahap ini hasil pengujian dibandingkan dengan hasil penjajaran global
yang telah dilakukan oleh Safi’i (2011) dan Pantua (2011). Safi’i (2011)
menggunakan metode GSA tree dan Pantua (2011) menggunakan metode SPA.
Kedua penelitian tersebut menerapkan dua kombinasi parameter yang berbeda di
setiap pengujian. Kemudian kedua metode tersebut divalidasi oleh aplikasi
EMBOSS Needle. Sayangnya penelitian Safi’i (2011) dan Pantua (2011) hanya
menyajikan hasil similaritas dan gaps saja sehingga hanya kedua hal tersebut yang
dapat dibandingkan. Hasil perbandingan Needleman-Wunsch dengan GSA tree,
SPA, dan aplikasi EMBOSS secara lengkap disajikan pada Lampiran 2 untuk

8

persentase (%)

pengujian pertama dan Lampiran 3 untuk pengujian kedua. Grafik perbandingan
hasil pengujian pertama ditampilkan pada Gambar 7.
100
90
80
70
60
50
40
30
20
10
0

Similarity
Gaps

Needleman - GSA Tree 1 GSA Tree 2
Wunsch

SPA 1

SPA 2

EMBOSS

Metode

Gambar 7 Perbandingan pengujian pertama algoritme Needleman-Wunsch
dengan GSA tree, SPA, dan aplikasi EMBOSS
Pada pengujian pertama nilai similaritas algoritme Needleman-Wunsch
(83.7%) lebih tinggi daripada GSA tree 1 (81.6%), GSA tree 2 (82.05%), SPA 1
(76.6%), SPA 2 (39.3%) dan aplikasi EMBOSS (83.1%) yang juga menggunakan
algoritme Needleman-Wunsch. Grafik perbandingan hasil pengujian kedua
ditampilkan pada Gambar 8. Pada pengujian kedua algoritme Needleman-Wunsch
juga memiliki nilai similaritas yang lebih tinggi yaitu sebesar 62.9% daripada
GSA tree 1 (56.07%), GSA tree 2 (57.9%), SPA 1 (48.6%), SPA 2 (39.2%) dan
aplikasi EMBOSS (56.8%).
100
90

Persentase (%)

80
70
60
50
40

Similarity

30

Gaps

20
10
0
Needleman GSA Tree 1 GSA Tree 2
- Wunsch

SPA 1

SPA 2

EMBOSS

Metode

Gambar 8 Perbandingan pengujian kedua algoritme Needleman-Wunsch dengan
GSA tree, SPA, dan aplikasi EMBOSS

9

Waktu eksekusi (detik)

Kedua pengujian tersebut menunjukkan algoritme Needleman-Wunsch
memiliki similaritas yang lebih unggul dari GSA tree dan SPA. Dengan demikian
dapat dikatakan bahwa algoritme Needleman-Wunsch adalah yang paling optimal
dalam penjajaran global sekuen DNA. Hal ini terjadi karena algoritme
Needleman-Wunsch menggunakan seluruh informasi yang terdapat pada dua
sekuen sehingga hasil penjajaran lebih optimal. Namun karena algoritme ini
melakukan penjajaran dengan melibatkan seluruh nukleotida, maka waktu
eksekusinya menjadi lambat.
Waktu eksekusi algoritme Needleman-Wunsch pada sekuen yang datanya
dibangkitkan secara acak dapat dilihat pada Lampiran 5. Perbandingan antara
banyak sekuen dan waktu eksekusi dapat dilihat pada Gambar 9. Grafik tersebut
menunjukkan bahwa bertambahnya panjang sekuen mengakibatkan waktu
eksekusi meningkat dengan tendensi kuadratik. Hal ini sesuai dengan
kompleksitas waktu algoritme Needleman-Wunsch yaitu O(n2).
140
120
100
80
60
40
20
0

Panjang reference sequence dan query sequence (bp)

Gambar 9 Grafik waktu eksekusi terhadap panjang sekuen

SIMPULAN DAN SARAN
Simpulan
Dari penelitian yang telah dilakukan dalam penjajaran global sekuen DNA
menggunakan algoritme Needleman-Wunsch ini dapat disimpulkan sebagai
berikut :
1
Penerapan algoritme Needleman Wunsch pada penjajaran global sekuen
DNA mendapatkan hasil similaritas yang tertinggi dibandingkan GSA tree,
SPA (super pairwise alignment), dan aplikasi EMBOSS. Dengan demikian
dapat dikatakan algoritme Needleman-Wunsch memiliki hasil penjajaran
paling optimal.
2
Bertambahnya panjang sekuen mengakibatkan waktu eksekusi meningkat
secara kuadratik sesuai dengan kompleksitas waktu algoritme NeedlemanWunsch.

10
Saran
1
2
3

Untuk penelitian selanjutnya disarankan sebagai berikut:
Menggunakan algoritme Needleman-Wunsch yang telah dikembangkan,
menerapkan matriks BLOSUM, parameter gap opening dan gap extension.
Membandingkan waktu eksekusi dengan metode lain.
Membuat phylogenetic tree dari multiple alignment menggunakan algoritme
Needleman-Wunsch dipadukan dengan metode center star.

DAFTAR PUSTAKA
Annibal S. 2003. Sequence alignment algorithms [tesis]. London (GB): School of
Physical Sciences and Engineering King's College.
Needleman SB, Wunsch CD. 1970. A general method applicable to search for
similarities in the amino acid sequence of two proteins. Journal of Molecular
Biology. 48:443-453.
Palmenberg A, Sgro JY. 2008. Biochemistry 711 : EMBOSS Software for
Sequence Analysis. Madison (US) : University of Wisconsin.
Pantua A. 2011. Implementasi super pairwise alignment pada global alignment
[skripsi]. Surabaya (ID): Institut Teknologi Sepuluh November.
Qi ZH, Qi XQ, Liu CC. 2010. New method for global alignment of 2 DNA
sequences by the tree data structure. Journal of Theoretical Biology.
263(2):227-236. doi: 10.1016/j.jtbi.2009.12.012.
Safi’i M. 2011. Implementasi pensejajaran global sekuen DNA menggunakan
GSA tree [skripsi]. Surabaya (ID): Institut Teknologi Sepuluh November.
Shen SY, Adam Y, Hwang PI, Yang J. 2002. Super pairwise alignment (SPA): an
eficient approach to global alignment for homologous sequences. Journal of
Computational Biology. 9(3):477-486.

11
Lampiran 1 Pseudocode algoritme Needleman-Wunsch
/*Inisialisasi
for i=0 to length(seqA)
M(i,0) ← 0
for j=0 to length(seqB)
M(0,j) ← 0
/* Mengisi Matriks
for i=1 to length(seqA)
for j=1 to length(seqB)
{
Match ← M(i-1,j-1) + S(seqA(i),seqB(j))
Delete ← M(i-1, j) + w
Insert ← M(i, j-1) + w
M(i,j) ← max(Match, Insert, Delete)
}
/* Traceback
AlignmentA ← ""
AlignmentB ← ""
i ← length(seqA)
j ← length(seqB)
while (i > 0 or j > 0)
{
if (M(i,j) == M(i-1,j-1) + S(seqA(i),seqB(j))
{
AlignmentA ← seqA(i) + AlignmentA
AlignmentB ← seqB(j) + AlignmentB
i ← i - 1
j ← j - 1
}
else if (M(i,j) == M(i-1,j) + w)
{
AlignmentA ← seqA(i) + AlignmentA
AlignmentB ← "-" + AlignmentB
i ← i - 1
}
else (M(i,j) == M(i,j-1) + w)
{
AlignmentA ← "-" + AlignmentA
AlignmentB ← seqB(j) + AlignmentB
j ← j - 1
}
}
while (i > 0)
{
AlignmentA ← seqA(i) + AlignmentA
AlignmentB ← "-" + AlignmentB
i ← i - 1
}
while (j > 0)
{
AlignmentA ← "-" + AlignmentA
AlignmentB ← seqB(j) + AlignmentB
j ← j - 1
}

12
Lampiran 2 User interface aplikasi penjajaran global

13
Lampiran 3 Perbandingan hasil pengujian pertama dengan metode lain
Metode
Needleman-Wunsch

GSA tree 1

GSA tree 2

SPA 1

SPA 2

EMBOSS

Parameter
Match = 9
Mismatch = 1
Gap = 0
Match = 9
Mismatch = 1
a=15
b=1
Match = 9
Mismatch = 1
a=10
b=0.5
Match = 9
Mismatch = 1
n= 20
θ = 0.4
θ’ = 0.6
Match = 9
Mismatch = 1
n= 15
θ = 0.4
θ’ = 0.6
a=10
b=0.5

Hasil
Similarity: 11 822 (83.7%)
Gaps: 926 (6.5%)
Similarity : 11 312 (81.6) %
Gaps: 398 (2.87) %

Similarity : 11 457 (82.05) %
Gaps: 600 (4.297) %

Similarity : 10 701 (76.6) %
Gaps: 521 (3.73) %

Similarity: 5 443 (39.3) %
Gaps: 209(1.51) %

Similarity: 11 622 (83.1) %
Gaps: 636 (4.5) %

14
Lampiran 4 Perbandingan hasil pengujian kedua dengan metode lain
Metode
Needleman-Wunsch

GSA tree 1

GSA tree 2

SPA 1

SPA 2

EMBOSS

Parameter
Match = 9
Mismatch = 1
Gap = 0
Match = 9
Mismatch = 1
a=15
b=1
Match = 9
Mismatch = 1
a=10
b=0.5
Match = 9,
Mismatch = 1
n=150
θ = 0.5
θ’ = 0.6
Match = 9
Mismatch = 1
n= 50
θ = 0.5
θ’ = 0.6
a=10
b=0.5

Hasil
Similarity : 5146 (62.9%)
Gaps
: 1926 (23.5%)
Similarity : 4220 (56.07) %
Gaps
: 618 (8.21) %

Similarity : 4551 (57.9) %
Gaps
: 1284 (16.337) %

Similarity : 3662 (48.6) %
Gaps
: 364 (1.78) %

Similarity : 3290 (39.2) %
Gaps
: 2124(25.3) %

Similarity : 4695 (56.8) %
Gaps
: 2104 (25.4) %

15
Lampiran 5 Panjang sekuen terhadap waktu eksekusi
Reference
sequence

Query
sequence

Waktu eksekusi
(detik)

1000 bp
2000 bp
3000 bp
4000 bp
5000 bp
6000 bp
7000 bp
8000 bp
9000 bp
10000 bp
11000 bp
12000 bp
13000 bp
14000 bp
15000 bp

1000 bp
2000 bp
3000 bp
4000 bp
5000 bp
6000 bp
7000 bp
8000 bp
9000 bp
10000 bp
11000 bp
12000 bp
13000 bp
14000 bp
15000 bp

0.828
2.25
5.123
9.223
14.152
20.55
27.335
37.135
44.321
57.135
68.421
80.216
90.434
107.434
130.351

16

RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 25 Mei 1989 sebagai anak kedua
dari pasangan Budi Wiratno dan Sulastri. Penulis merupakan lulusan SMA Negeri
58 Jakarta (2004 - 2007), SLTP Negeri 9 Jakarta (2001 - 2004) dan SD Negeri 03
Ciracas Pagi (1995 - 2001).
Pada tahun 2007 penulis diterima sebagai mahasiswa Diploma III Program
Keahlian Manajemen Informatika, Direktorat Program Diploma Institut Pertanian
Bogor angkatan 44 melalui jalur Undangan Seleksi Masuk IPB (USMI). Setelah
menyelesaikan pendidikan Diploma III pada tahun 2010, penulis kembali
melanjutkan pendidikan Strata 1 (S1) melalui jalur Alih Jenis dan diterima sebagai
mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian Bogor.
Selama menjadi mahasiswa program Alih Jenis Ilmu Komputer IPB, penulis
juga bekerja sebagai IT di Pusat Pelayanan Teknologi / BPPT Enjiniring, Badan
Pengkajian dan Penerapan Teknologi (BPPT) Jakarta.