Penjajaran Lokal Sekuen DNA Menggunakan Algoritme Smith-Waterman

PENJAJARAN LOKAL SEKUEN DNA MENGGUNAKAN
ALGORITME SMITH-WATERMAN

FARIZ ASHAR HIMAWAN

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Penjajaran Lokal
Sekuen DNA menggunakan Algoritme Smith-Waterman adalah benar karya saya
dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun
kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip
dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah
disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, 3 September 2013

Fariz Ashar Himawan
NIM G64104007

ABSTRAK
FARIZ ASHAR HIMAWAN. Penjajaran Lokal Sekuen DNA Menggunakan Algoritme
Smith-Waterman. Dibimbing oleh WISNU ANANTA KUSUMA.

Penjajaran lokal sekuen DNA bertujuan untuk mencari kemiripan dua buah
sekuen DNA. Penelitian ini mengimplementasikan penjajaran lokal menggunakan
algoritme Smith-Waterman. Pada data pertama sekuen DNA Ancylostoma
duodenale (NC_003415.1) dan Necator americanus (NC_003416.2), hasil
penjajaran menunjukkan similaritas 84%, dengan gap 3%. Data kedua sekuen
DNA Human papillomavirus type 134 (NC_014956.1) dan Human
papillomavirus type 132 (NC_014955.1), hasil penjajaran menunjukkan
similaritas 62.1%, dengan gap 15.9%. Data ketiga sekuen DNA Chaetoceros
lorenzianus DNA virus (NC_015211.1) dan Chaetoceros tenuissimus DNA virus
(NC_014748.1), hasil penjajaran menunjukkan similaritas 53.2% dengan gap

26.2%. Data terakhir sekuen DNA Thermoproteus tenax spherical virus 1
(NC_006556.1) dan Vesicular stomatitis indiana virus (NC_001560.1), hasil
penjajaran menunjukkan similaritas 40.8%, dengan gap 47.6%. Hal ini
menunjukkan bahwa penjajaran menggunakan algoritme Smith-Waterman
menghasilkan beragam nilai kemiripan yang tergantung dari panjang sekuen, dan
bentuk sekuennya. Smith-Waterman memiliki kompleksitas O(mn).
Kata kunci: penjajaran global, penjajaran sekuen, Smith – Waterman

ABSTRACT
FARIZ ASHAR HIMAWAN. Local Alignment of DNA Sequence Using SmithWaterman Algorithm. Supervised by WISNU ANANTA KUSUMA.
The Local Alignment of DNA sequence objective is to determine similarity
between two DNA sequences. This research implements the local alignment using
Smith–Waterman algorithm. The first data of Sequences from Ancylostoma
duodenale (NC_003415.1) and Necator americanus (NC_003416.2), the result
shows that the similarity is 84%, with 3% gaps, Second data of DNA sequence
from Human papillomavirus type 134 (NC_014956.1) and Human papillomavirus
type 132 (NC_014955.1), the result shows that the similarity is 62.1%, with 15.9%
gaps. Third data of DNA sequence from Chaetoceros lorenzianus DNA virus
(NC_015211.1) and Chaetoceros tenuissimus DNA virus (NC_014748.1), the
result shows that the similarity is 53.2%, with 26.2% gaps. Last data DNA

sequence from Thermoproteus tenax spherical virus 1 (NC_006556.1) and
Vesicular stomatitis indiana virus (NC_001560.1), the result shows that similarity
is 40.8%, with 47.6% gaps. These result shows that alignment using Smith–
Waterman can result in various similarity values, depending on the length and
form of sequences. The complexity of Smith-Waterman is O(mn).
Keywords: local alignment, sequence alignment, Smith - Waterman

PENJAJARAN LOKAL SEKUEN DNA MENGGUNAKAN
ALGORITME SMITH-WATERMAN

FARIZ ASHAR HIMAWAN

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR
BOGOR
2013

Judul Skripsi : Penjajaran Lokal Sekuen DNA Menggunakan Algoritme SmithWaterman
Nama
: Fariz Ashar Himawan
NIM
: G64104007

Disetujui oleh

Dr. Wisnu Ananta Kusuma, ST MT
Pembimbing

Diketahui oleh

Dr. Ir Agus Buono, M Si M Kom
Ketua Departemen


Tanggal Lulus:
Penguji :
1. Dr Irman Hermadi S Kom M S
2. Toto Haryanto, S Kom M Si

PRAKATA

Puji dan syukur penulis panjatkan ke hadirat Allah subhanahu wata’ala,
yang telah memberikan nikmat yang begitu banyak, sehingga penulis dapat
menyelesaikan penelitian dan tulisan ini. Shalawat dan salam penulis sampaikan
kepada Nabi Muhammad shallallahu ‘alaihi wasallam, keluarganya, sahabatnya,
serta umatnya hingga akhir zaman. Tulisan ini merupakan hasil penelitian yang
penulis lakukan sejak Agustus 2012 hingga Agustus 2013. Tulisan ini mengambil
topik bioinformatika, dan bertujuan menerapkan algoritme Smith - Waterman
pada penjajaran lokal sekuen DNA.
Tak lupa penulis mengucapkan terima kasih kepada seluruh pihak yang
telah berperan dalam penelitian ini, yaitu:
1 Ayahanda Subakir Amin, Ibunda Siti Rodiyah, serta adik Resa Rizki Setiawan
atas kasih sayang, doa, semangat, dan dorongan kepada penulis agar dapat
segera menyelesaikan penelitian ini.

2 Bapak Dr. Wisnu Ananta Kusuma, ST, MT selaku dosen pembimbing, yang
telah memberikan banyak ide, masukan, dan dukungan kepada penulis.
3 Bapak Irman Hermadi, S.Kom, MS dan Bapak Toto Haryanto, S.Kom, M.Si,
yang telah bersedia menjadi penguji.
4 Bapak Beni dan Bapak Jamsy selaku atasan yang telah memberikan izin,
mendukung dan memotivasi dalam menyelesaikan pendidikan di alih jenis
Ilmu Komputer IPB.
5 Para sahabat : Yusrizal Ihya, Rizkina M. Syam, Dedi Kiswanto, Asep
Haryono, Septiandi Wibowo, Alrasyid Trio, Wahyu Dias, Mas Syam, Rudi
Rusdi, Silvia Rahmi, Putri Ayu Pramesti, Sri Rahayu Natasia, Yudi Haryanto
serta seluruh rekan - rekan Ilkom Alih Jenis angkatan 5, May the odd return
favor to all of us.
6 Rekan satu bimbingan : Agung Widyo Utomo, Bernita Sinurat, Alharis
Tamsin, Fitria, dan Galih yang saling berbagi ide dan saling memotivasi
selama pengerjaan skripsi.
7 Kakak sepupu Endah Nurhayati beserta suami, Sasmoyo dan keponakan
Lintang Ayu Prameswari yang selalu memberikan doa dan dukungannya.
8 Kakak ipar sepupu Sujadmiko beserta istri Hesti dan keponakan yang telah
memberikan doa dan dukungannya.
9 Rekan - rekan Radar-Bogor Grup atas perhatian dan motivasinya.

10 Pihak-pihak lain yang tidak dapat penulis sebutkan satu persatu.
Penulis berharap penelitian dan tulisan ini dapat memberikan manfaat untuk
kemajuan masyarakat Indonesia.

Bogor, 3 September 2013
Fariz Ashar Himawan

DAFTAR ISI

DAFTAR TABEL

vii

DAFTAR GAMBAR

vii

DAFTAR LAMPIRAN

viii


PENDAHULUAN

1

Latar Belakang

1

Tujuan Penelitian

2

Manfaat Penelitian

2

Ruang Lingkup Penelitian

3


METODE

3

Penyiapan Data

4

Algoritme Penjajaran Lokal Smith-Waterman

4

Analisis dan Evaluasi

7

Lingkungan Pengembangan

8


HASIL DAN PEMBAHASAN

8

Implementasi Algoritme Penjajaran Lokal Smith-Waterman
Analisis dan Evaluasi
SIMPULAN DAN SARAN

8
16
20

Simpulan

20

Saran

20


DAFTAR PUSTAKA

21

RIWAYAT HIDUP

24

DAFTAR TABEL
Tabel 1 Hasil pengujian Ancylostoma duodenale dan Necator americanus
10
Tabel 2 Hasil pengujian Human papillomavirus type 134 dan Human
papillomavirus type 132
12
Tabel 3 Hasil pengujian Thermoproteus tenax spherical virus 1 dan Vesicular
stomatitis indiana virus
13
Tabel 4 Hasil pengujian Chaetoceros lorenzianus dan Chaetoceros tenuissimus 15
Tabel 5 Hasil perbandingan penjajaran Ancylostoma duodenale dan Necator
americanus
16
Tabel 6 Hasil perbandingan penjajaran Human papillomavirus type 134 dan
Human papillomavirus type 132
17
Tabel 7 Hasil Perbandingan Penjajaran Chaetoceros lorenzianus DNA virus dan
Chaetoceros tenuissimus DNA virus
17
Tabel 8 Hasil perbandingan penjajaran Thermoproteus tenax spherical virus 1
dan Vesicular stomatitis indiana virus
18

DAFTAR GAMBAR
Gambar 1
Gambar 2
Gambar 3
Gambar 4
Gambar 5
Gambar 6
Gambar 7
Gambar 8

Contoh penjajaran global dan penjajaran lokal
1
Diagram alur metode penelitian
3
Contoh data berformat FASTA
4
Contoh ilustrasi proses Inisialiasi
5
Contoh ilustrasi proses pengisian matriks
6
Contoh traceback
7
Ilustrasi sekuens yang match dan mismatch
8
Grafik similaritas Ancylostoma duodenale dan Necator americanus
dengan parameter match 5 mismatch -4
9
Gambar 9 Grafik similaritas Ancylostoma duodenale dan Necator americanus
dengan parameter match 9 mismatch -1
10
Gambar 10 Grafik similaritas Human papillomavirus type 134 dan Human
papillomavirus type 132 dengan parameter match 5 mismatch -4 11
Gambar 11 Grafik similaritas Human papillomavirus type 134 dan Human
papillomavirus type 132 dengan parameter match 9 mismatch -1. 11
Gambar 12 Grafik similaritas Thermoproteus tenax spherical virus 1 dan
Vesicular stomatitis indiana virus dengan parameter match 5
mismatch -4
12
Gambar 13 Grafik similaritas Thermoproteus tenax spherical virus 1 dan
Vesicular stomatitis indiana virus dengan parameter match 9
mismatch -1
13
Gambar 14 Grafik similaritas Chaetoceros lorenzianus DNA virus dan
Chaetoceros tenuissimus DNA virus dengan parameter match 5
mismatch -4
14
Gambar 15 Grafik similaritas Chaetoceros lorenzianus DNA virus dan
Chaetoceros tenuissimus DNA virus dengan parameter match 9
mismatch -1
14
Gambar 16 Grafik waktu eksekusi program Lokalsmith
15

DAFTAR LAMPIRAN
1 Pseudocode algoritme Smith-Waterman
2 Screenshot User Interface Program

22
23

1

PENDAHULUAN
Latar Belakang
Deoxyribo nucleic acid (DNA) mengandung informasi genetik dari makhluk
hidup bersel satu hingga bersel banyak. Informasi ini yang menentukan
karakteristik tertentu dari makhluk hidup, mulai dari karakteristik fisik hingga
karakteristik perilaku. DNA terbentuk dari rantai ganda molekul sederhana
(nukleotida) yang diikat bersama-sama dalam struktur double helix, tersusun atas
empat basa nitrogen yaitu adenine, cytosine, guanine, dan thymine yang
dinotasikan sebagai A, C, G, dan T (Annibal 2003).
Ada banyak cara untuk menganalisis struktur DNA, di antaranya penjajaran
sekuen (sequence alignment), yaitu suatu cara untuk mencari sebanyak mungkin
kecocokan dengan menjajarkan sepasang sekuen atau lebih. Dengan penjajaran ini
didapatkan subsekuen yang identik untuk kemudian dilakukan analisis dan
disimpulkan kemiripannya (Annibal 2003). Penjajaran sekuen DNA penting
dilakukan sebagai dasar dari sequence analysis antara lain rekonstruksi sekuen
DNA dari fragmen, pemetaan data fisik dan genetika (Agrawal 2009).
Selain itu basis data DNA yang terus berkembang membutuhkan suatu alat
penganalisa yang dapat mengimbangi perkembangan data yang ada, dan salah satu
alat yang digunakan untuk meneliti basis data genom yang ada di GenBank DNA
adalah melalui penjajaran sekuen (Annibal 2003).
Penjajaran sekuen DNA dapat dilakukan dengan dua metode, yaitu
penjajaran secara utuh (global) dan penjajaran sebagian (lokal). Penjajaran global
dilakukan dengan melibatkan keseluruhan sekuen dan mencari nilai kemiripan
minimal sepanjang sekuen terkecil. Sedangkan penjajaran lokal dilakukan dengan
melibatkan sebagian sekuen yang ditentukan dengan nilai densitas similaritas
maksimum (Chan 2004). Perbedaan penjajaran lokal dan global dapat dilihat pada
Gambar 1.
Penjajaran Global
A T T G C T C G T T G G A
| . . . |
| | | .
|
A A A A C - C G T A - - A
Penjajaran Lokal
- - - - C T C G T - - - |
| | |
- - - - C - C G T - - - -

Gambar 1 Contoh penjajaran global dan penjajaran lokal
Dalam penelitian ini difokuskan kepada penjajaran lokal dengan algoritme
Smith-Waterman yang ditemukan oleh TF Smith dan MS Waterman pada tahun
1981. Algoritme ini mencoba menemukan sebanyak mungkin kesamaan dari
sepasang sekuen, dengan cara memberikan nilai negatif pada base pair yang tidak
sama (mismatch), dan nilai positif pada base pair yang sama (match). Sehingga

2

nantinya akan didapatkan nilai positif maksimum sebagai akhir dari penjajaran,
dan nilai minimum sebagai awal penjajaran (Annibal 2003).
Penelitian mengenai penjajaran sekuen lebih berkembang kepada penjajaran
global di antaranya penelitian yang dilakukan oleh Pantua (2011) dan Utomo
(2013). Data yang digunakan untuk percobaan pertama adalah sekuen genom
lengkap dari mitokondria Ancylostoma duodenale (NC_003415.1), dan sekuen
genom lengkap dari mitokondria Necator americanus (NC_003416.2). Adapun
data yang digunakan untuk percobaan kedua adalah sekuen genom lengkap dari
Human papillomavirus type 134 (NC_014956.1) dan sekuen genom lengkap dari
Human papillomavirus type 132 (NC_014955.1). Pada percobaan ini ditambahkan
dua pasang data baru yaitu, Chaetoceros lorenzianus DNA virus (NC_015211.1)
dan Chaetoceros tenuissimus DNA virus (NC_014748.1), serta yang terakhir
Thermoproteus tenax spherical virus 1 (NC_006556.1) dan Vesicular stomatitis
indiana virus (NC_001560.1). Keempat pasang sekuen DNA itu akan dilakukan
penjajaran lokal menggunakan algoritme Smith-Waterman.
Pantua (2011) menggunakan metode super pairwise alignment yang
menggabungkan metode probabilitas dan analisis kombinatorial. Simpulan yang
diperoleh adalah penggunaan metode super pairwise alignment memiliki
kelemahan dalam pemilihan parameter yang mengakibatkan hasil berbeda – beda
dan tidak optimal. Sementara itu, Utomo (2013) menggunakan metode
Needleman-Wunsch, salah satu algoritme penjajaran klasik yang melakukan
penjajaran secara global. Simpulan yang diperoleh, penggunaan algoritme
Needleman-Wunsch menghasilkan similaritas yang lebih tinggi ketimbang metode
super pairwise alignment yang dilakukan oleh Pantua (2011).
Pada penelitian ini akan diterapkan algoritme Smith-Waterman dan
dibandingkannya dengan hasil penelitian Utomo (2013), Selain itu dilakukan
validasi similaritas dan gaps yang dihasilkan menggunakan EMBOSS-water
sebagai software penjajaran lokal yang berbasis algoritme Smith-Waterman,
sehingga diharapkan akan mendapatkan hasil penjajaran lokal yang optimal.
Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk menerapkan algoritma SmithWaterman pada penjajaran lokal sekuen DNA.
Manfaat Penelitian
Manfaat dari penelitian ini adalah untuk mendukung penelitian-penelitian di
bidang Bioinformatika yang memerlukan informasi dari hasil penjajaran lokal
DNA, seperti
1. Menemukan SNP (Single Nucleotide Polymorphism).
2. Menemukan perbedaan struktur pada gen yang sejenis.
3. Sebagai dasar dari pembentukan phylogenetic tree.

3

Ruang Lingkup Penelitian
1
2

3

4

Pada penelitian ini dilakukan pembatasan masalah antara lain:
Data yang digunakan berasal dari GenBank NCBI berformat FASTA yang
diambil dari data tahun 2010.
Sekuen yang dijajarkan adalah sekuen DNA yang dapat direpresentasikan
sebagai string yang terdiri atas karakter A, C, G, dan T yang mewakili basa
nitrogen dari adenin, sitosin, guanin dan timin.
Menggunakan data 4 pasang sekuen DNA yaitu Ancylostoma duodenale
(NC_003415.1), dan Necator americanus (NC_003416.2), Human
papillomavirus type 134 (NC_014956.1) dan Human papillomavirus type
132 (NC_014955.1), Chaetoceros lorenzianus DNA virus (NC_015211.1)
dan Chaetoceros tenuissimus DNA virus (NC_014748.1), serta yang terakhir
Thermoproteus tenax spherical virus 1 (NC_006556.1) dan Vesicular
stomatitis indiana virus (NC_001560.1). Keempat pasang sekuen DNA akan
dibandingkan dengan software lain berbasis Smith-Waterman, dalam hal ini
EMBOSS.
Ukuran masing - masing sekuen DNA yang digunakan tidak harus sama.

METODE
Tujuan penelitian ini adalah melakukan penjajaran dua buah sekuen yang
berbeda. Sekuen pertama disebut reference sequence dan yang kedua disebut
query sequence. Tahapan proses penelitian disajikan dalam diagram alur pada
Gambar 2.

Penjajajaran Sekuen
menggunakan Algoritme
Smith-Waterman

Gambar 2 Diagram alur metode penelitian

4

Penyiapan Data
Data yang digunakan pada penelitian ini berasal dari GenBank yang
diunduh dari situs resmi National Centre for Biotechnology Information (NCBI).
Data tersebut berformat FASTA seperti contoh pada Gambar 3. Data berformat
FASTA terdiri atas baris pertama berupa simbol “ > ” yang diikuti identifier dari
sekuen dan baris kedua berupa data sekuen yang akan digunakan.
>gi|19073878|ref|NC_003415.1| Ancylostoma duodenale mitochondrion, complete genome
CAGTATATAGTTTAGTTAAAATATAATATTTGGGTTATTAAGAGTTATTACTGAGGAA
CTTTAGTTTAATTTAGAATATTTCATTTACAATGAAATGGTTTAAAGTTTTATGTTTAA
ATTTTTTTTGGTGATTTCGTTAATTGGGGGTGTAATAAGATATGTGAATATAGATCCT
ATAAAAAGTAGTTTTTTTTTAATTTTGAGTATATTAATGTGTATACCTATATTGTCATT
TAGTGGTTATGTTTGGTTTTCTTATTTTATTTGTTTATTGTTTTTATTTTTATTAGTTTAT

Gambar 3 Contoh data berformat FASTA
Untuk membaca fail berformat FASTA, diperlukan proses parsing. Pada
proses ini, program akan mengidentifikasi keberadaan simbol “ > ” sebagai tanda
bahwa baris tersebut merupakan baris identifier. Kemudian program akan
mengidentifikasi keberadaan baris baru sebagai tanda dimulainya baris data
sekuen. Data sekuen inilah yang akan digunakan untuk penjajaran lokal sekuen
DNA, yang berupa urutan string basa nitrogen (A, C, G, T).
Penelitian ini menggunakan data yang sama dengan penelitian Pantua
(2011) dan Utomo (2013) yaitu sekuen genom lengkap dari mitokondria
Ancylostoma duodenale (NC_003415.1), dengan panjang sekuen 13721 bp,
mitokondria Necator americanus mitochondrion (NC_003416.2), dengan panjang
sekuen 13605 bp, ditambah dengan data baru yakni Human papillomavirus type
134 (NC_014956.1) dengan panjang sekuen 7309 bp, dan Human papillomavirus
type 132 (NC_014955.1) dengan panjang sekuen 7125 bp. Sebagai pembanding,
dalam penelitian ini ditambahkan dua pasang sekuen DNA lain dengan panjang
sekuen yang jauh berbeda, yaitu sekuen genom lengkap dari Thermoproteus tenax
spherical virus 1 (NC_006556.1) dengan panjang sekuen 20933bp, dan sekuen
genom lengkap dari virus Vesicular stomatitis indiana virus (NC_001560.1)
dengan panjang sekuen 11161bp, pasangan sekuen ini dipilih, karena terdapat
selisih yang besar dari sekuen, sehingga melalui percobaan akan diteliti apakah
ada pengaruhnya dengan similaritas, gaps dan waktu eksekusi algoritme. Sekuen
terakhir genom lengkap dari Chaetoceros lorenzianus DNA Virus (NC_015211.1)
dengan panjang sekuen 5813bp, dan sekuen genom lengkap dari Chaetoceros
tenuissimus DNA virus (NC_014748.1) dengan panjang sekuen 5639bp, pasangan
ini dipilih karena merupakan sekuen DNA dari family yang sama, namun dengan
genus yang berbeda, sehingga dapat digunakan sebagai pembanding bagi
pasangan sekuen Human papillomavirus type 134 (NC_014956.1) dan Human
papillomavirus type 132 (NC_014955.1).
Algoritme Penjajaran Lokal Smith-Waterman
Algoritme Smith-Waterman ditemukan pada tahun 1981 oleh TF Smith dan
MS Waterman. Algoritme ini digunakan untuk menemukan penjajaran lokal yang
memiliki nilai optimal lokal dari dua buah sekuen. Algoritme Smith-Waterman

5

menghitung semua informasi yang terdapat pada dua sekuen sehingga jika sekuen
query berukuran j, dan sekuen reference berukuran i maka waktu kompleksitas
saat proses inisialisasi adalah O(i+j). Hal ini karena waktu inisialisasi hanya
membutuhkan pengisian vertikal dan horizontal saja. Sedangkan waktu
kompleksitas pengisian matriks adalah O(ij) karena harus mengakses semua
bagian sekuen, dan saat penentuan nilai maksimum adalah O(ij) karena harus
menyimpan informasi sekuen baris sekuen sebelumnya, sehingga perhitungan
waktu kompleksitas Algoritme adalah sebagai berikut :
O(i+j)+ O(ij) + O(ij) = O(ij) (Chan 2004)
Untuk mencari penjajaran lokal terbaik, pada algoritme ini digunakan
matriks penskoran dengan menerapkan gaps sebagai bobot. Gaps adalah proses
terjadinya delesi ataupun insersi, keduanya tidak bisa berjalan dalam base pair
yang sama, sehingga jika terjadi delesi di sekuen reference, maka bisa terjadi
insersi di sekuen query, atau tidak terjadi apa-apa, namun tidak akan bisa terjadi
delesi di sekuen tersebut, begitu juga sebaliknya. Gap diberikan simbol (-) sebagai
tanda terjadi delesi atau insersi di salah satu sekuen. Perhitungan gap ini juga
diperkenalkan oleh Smith-Waterman dalam penelitiannya dengan memberikan
nilai gaps sebagai.
Wk = a + b*k

(1)

Dimana Wk, adalah gap penalty yang akan diberikan kepada sekuen indeks
ke–k yang menyatakan nilai maksimal dari sekuen sebelumnya, a adalah gap
open, dan b adalah gap extend (Smith dan Waterman 1981)
Dalam algoritma Smith-Waterman secara umum terdapat 3 tahap, antara
lain, tahap inisialisasi, pengisian matriks, dan
tahap penyusunan balik
(traceback). Pada tahap kedua akan digunakan metode dynamic programming
untuk menentukan nilai maksimum yang akan menjadi titik dimulainya tahap
ketiga. Adapun tahap tersebut adalah :
1

Inisialisasi
Pada tahap ini dilakukan pemberian nilai awal pada matriks penskoran
M[i,j]. Jika panjang query sequence adalah j dan panjang reference
sequence adalah i, maka matriks penskoran M[i,j] tersebut berukuran (i+1)
* (j+1).
A

C

T

G

T

C

G

T

0

0

0

0

0

0

0

0

0

T

0

0

0

0

0

0

0

0

0

A

0

0

0

0

0

0

0

0

0

T

0

0

0

0

0

0

0

0

0

G

0

0

0

0

0

0

0

0

0

T

0

0

0

0

0

0

0

0

0

G

0

0

0

0

0

0

0

0

0

G

0

0

0

0

0

0

0

0

0

C

0

0

0

0

0

0

0

0

0

T

0

0

0

0

0

0

0

0

0

Gambar 4 Contoh ilustrasi proses Inisialiasi.

6

Selanjutnya baris dan kolom pertama diisi dengan nilai 0, sebagai
pengganti titik awal sekuen. Adanya similaritas di akhir sekuen, sehingga
relasi perulangan sedikit diubah karena string kosong adalah akhir dari tiap
sekuen, yang mengakibatkan nilai 0 sebagai penanda akhir sekuen
menggantikan string yang kosong (Annibal 2003). Contoh inisialisasi awal
matriks penskoran dapat dilihat pada Gambar 4.
2

Pengisian Matriks
Pada tahap pengisian matriks, dihitung semua nilai matriks dengan
ketentuan sebagai berikut:
0
M[i-k,j] + wk
M[i,j] =

M[i,j-k] + wk

Max

(2)

M[i-1,j-1] + S[i,j]
di mana S[i,j] adalah match / mismatch skor yang telah ditentukan.
Pada penelitian ini digunakan dua tipe parameter skor untuk S[i,j], yaitu :
1 Nilai match = 5, nilai mismatch = -4
2 Nilai match = 9, nilai mismatch = -1
Tipe pertama digunakan oleh EMBOSS (European Molecular Biology
Open Software Suite) sebagai software penjajaran sekuen yang berbasis
Smith-Waterman (Palmenberg 2008). Sedangkan tipe kedua digunakan oleh
percobaan sebelumnya yaitu Utomo (2013). Dengan wk adalah konstanta
gap penalty (1), k adalah panjang sekuen sebelum M[i,j], dan M[i,j] sendiri
adalah matriks penskoran yang diisi nilai hasil dari persamaan (2). Contoh
matriks penskoran yang telah terisi dapat dilihat pada Gambar 5.
A

C

T

G

T

C

G

T

0 0

0

0

0

0

0

0

0

T

0 0

0

5

0

5

0

0

0

A

0 5

0

0

1

0

1

0

0

T

0 0

1

5

0

6

0

0

5

G

0 0

0

0

10

0

2

5

0

T

0 0

0

5

0

15

5

4

10

G

0 0

0

0

10

5

11

10

0

G

0 0

0

0

5

6

1

16

5.5

C

0 0

5

0

0

4

11

6

12

T

0 0

0

10 0

5

1

7

11

Gambar 5 Contoh ilustrasi proses pengisian matriks.
3

Penyusunan Balik (Traceback)
Penyusunan balik (Traceback) merupakan tahap menyusun jalur dari
matriks penskoran (scoring matrix) yang telah berisi nilai-nilai pada langkah
sebelumnya. Jalur tersebut disusun dari posisi base pair bernilai maksimum

7

hingga tercapai base pair bernilai 0 atau nilai minimum. Arah panah yang
dihasilkan akan menunjuk nilai terbesar diantara tiga region dengan
mengabaikan apakah base-pair match atau mismatch. Contoh traceback
dapat dilihat pada Gambar 6.

Gambar 6 Contoh traceback
Keluaran dari implementasi algoritme Smith-Waterman berupa nilai dan
visualisasi hasil penjajaran. Keluaran tersebut ditampilkan pada aplikasi yang
selanjutnya digunakan untuk analisis dan evaluasi. Keluaran tersebut terdiri atas :
1 Length, yaitu panjang penjajaran yang terbentuk.
2 Similarity yang merepresentasikan jumlah sekuen yang match dan persentase
kemiripan dua sekuen yang dijajarkan dari hasil panjang penjajaran yang
terbentuk.
3 Gaps yang mewakili persentase kemunculan gaps dari panjang sekuen
penjajaran yang terbentuk.
4 Score, yaitu total nilai hasil penjajaran.
5 Execution time, yaitu waktu yang dibutuhkan untuk mengeksekusi algoritme
Smith-Waterman.
6 Visualisasi hasil penjajaran dua sekuen yang berupa bentuk pasangan
penjajaran sekuen yang dipisahkan dengan simbol (“ | ”) untuk pasangan
sekuen yang match (“ . “) untuk pasangan sekuen yang mismatch dan (“ “)
untuk pasangan sekuen yang muncul gaps.
7 Grafik yang menampilkan hubungan match antara reference sequence dengan
query sequence.
Analisis dan Evaluasi
Hasil yang diperoleh dianalisis dan dievaluasi kinerjanya dengan
membandingkan dengan software lain yang menggunakan penjajaran lokal yaitu
EMBOSS, dan kemudian membandingkan hasil keduanya dengan penelitian
Pantua (2011) dan Utomo (2013).

8

Lingkungan Pengembangan
Penelitian ini dibangun dengan menggunakan bahasa pemrograman
ASP.NET dan C# yang didukung perangkat lunak dan perangkat keras dengan
spesifikasi sebagai berikut :
• Perangkat lunak :
o Sistem operasi Microsoft Windows 7
o Microsoft Visual Studio 2010 X86 (32 Bit)
• Perangkat keras :
o AMD Turion X2 Dual-Core @ 2 Ghz
o Memory 4 GB RAM
o Harddisk dengan kapasitas sisa 100 GB
o Monitor resolusi 1366 * 768 pixel
o Mouse dan keyboard

HASIL DAN PEMBAHASAN
Implementasi Algoritme Penjajaran Lokal Smith-Waterman
Pada tahap ini algoritme Smith-Waterman diimplementasikan ke dalam
bentuk baris program untuk membangun aplikasi penjajaran lokal. Pseudo code
penjajaran lokal menggunakan Smith-Waterman disajikan pada Lampiran 1. User
interface aplikasi yang telah dibangun dapat dilihat pada Lampiran 2. Pengujian
pada aplikasi dilakukan dalam tiga jenis, yaitu pengujian untuk mencari hasil
penjajaran tertinggi, pengujian kapasitas dengan mencoba panjang sekuen
beragam, dan perbandingan hasil penjajaran tertinggi dengan software EMBOSS
dan algoritme Needleman-Wunsch.
Pengujian akurasi juga terdiri dari empat jenis, yang melibatkan sepasang
sekuen DNA. Dari tiap pengujian dibagi lagi menjadi dua percobaan dengan dua
parameter inti yang berbeda, ada beberapa parameter yang digunakan dalam
percobaan, diantaranya:
1. Nilai Match
Nilai match adalah nilai yang digunakan saat sepasang basa nitrogen dari
dua sekuens dinyatakan sama (match), seperti yang terlihat pada Gambar 7.

Reference

A

C

T

G

G

A

C

query

A

G

T

C

C

A

C

Gambar 7 Ilustrasi sekuens yang match dan mismatch.

9

2. Nilai Mismatch
Nilai mismatch adalah nilai yang digunakan saat sepasang basa nitrogen dari
dua sekuen dinyatakan tidak sama (mismatch), dalam Smith-Waterman,
variabel mismatch haruslah negatif, karena berfungsi menjadi salah satu
variabel yang akan mengurangi nilai penjajaran.
3. Gap Penalty
Gap Penalty adalah nilai yang diberikan saat terjadi insertion atau deletion
dalam basa nitrogen, gap penalty dihitung menggunakan persamaan (1).
Dalam pengujian, nilai match dan mismatch merupakan parameter inti, dan
akan digunakan 2 pasang nilai match dan mismatch, pasangan pertama adalah
nilai match = 5, nilai mismatch = -4, sedangkan pasangan kedua nilai match = 9
dan nilai mismatch = -1, pemilihan pasangan parameter pertama merujuk kepada
software EMBOSS yang menggunakan parameter pertama sebagai nilainya.
Sedangkan pasangan parameter kedua, digunakan untuk membandingkan dua
jenis penjajaran, yaitu penjajaran lokal dan global. Kedua pasang parameter
dipilih untuk kemudian dibandingkan mana yang lebih efektif digunakan sebagai
parameter dalam penjajaran lokal Smith-Waterman. Gap penalty yang akan
digunakan adalah enam jenis gap open, yaitu 10, 15, 20, 25, 50, dan 100. Dan
nilai gap extend 0.01,0.05,0.5,1, dan 2. Keduanya akan diuji coba ke empat
pasang DNA sekuen dengan dua pasang parameter inti yang telah ditentukan.
100.0%
90.0%
80.0%

Similaritas

70.0%
60.0%

0.05

50.0%

0.01

40.0%

0.5

30.0%

1

20.0%

2

10.0%
0.0%
10

15

20
25
50
Parameter gap open

100

Gambar 8 Grafik similaritas Ancylostoma duodenale dan Necator americanus
dengan parameter match 5 mismatch -4
Pengujian pertama dilakukan penjajaran sekuen genom lengkap dari sepasang DNA sekuen, yang pertama adalah mitokondria Ancylostoma duodenale
(NC_003415.1) sebagai reference sequence dengan panjang sekuen 13721 bp dan
sekuen genom lengkap dari mitokondria Necator americanus (NC_003416.2)
sebagai query sequence dengan panjang sekuen 13605 bp. Percobaan dilakukan
dengan cara memasangkan semua gap open dan gap extend, sehingga terdapat 60

10

data hasil percobaan, menghasilkan empat keluaran yaitu simmilarity, skor
penjajaran, panjang hasil penjajaran, dan gaps, berikut adalah gambar-gambar
grafik similaritas hasil penjajaran sekuen yang menggunakan parameter match = 5
dan mismatch = -4. Seperti yang terlihat pada Gambar 8.
Setelah menggunakan parameter inti pertama, maka dilakukan percobaan
dengan pasangan sekuen DNA yang sama, namun menggunakan parameter inti
kedua, yaitu nilai match = 9, dan mismatch = -1. Hasil similaritas dapat dilihat
pada Gambar 9.
Gap extend

100.0%
90.0%
80.0%

Similaritas

70.0%

Gap extend

60.0%

0.05

50.0%

0.01

40.0%

0.5

30.0%

1

20.0%

2

10.0%
0.0%
10

15

20

25

50

100

Parameter gap open

Gambar 9 Grafik similaritas Ancylostoma duodenale dan Necator americanus
dengan parameter match 9 mismatch -1
Dari kedua percobaan, dihasilkan kondisi maksimal dengan parameter gap
penalty seperti pada Tabel 1.
Tabel 1 Hasil pengujian Ancylostoma duodenale dan Necator americanus
Nama output

Hasil ke-1

Hasil ke-2

Match

5

9

Mismatch

-4

-1

Gap open

-10

-10

Gap extend

-2

-0.01

Length

13803 bp

13857 bp

Similarity

11455 (83 %)

11653 (84 %)

Gaps

374 (2.1%)

415 (3.0)%

Score

50123

103091.149

Execution time

278 detik

263 detik

11

Pengujian kedua dilakukan penjajaran sekuen genom lengkap dari sepasang
sekuen DNA, Sekuen pertama adalah Human papillomavirus type 134
(NC_014956.1) sebagai reference sequence dengan panjang sekuen 7309 bp dan
sekuen DNA genom lengkap dari Human papillomavirus type 132 (NC_014955.1)
sebagai query sequence dengan panjang sekuen 7125 bp. Pengujian menggunakan
parameter match = 5 dan mismatch = -4. Hasil pengujian dapat dilihat pada
Gambar 10.
100.0%
90.0%

Similaritas

80.0%
70.0%

Gap extend

60.0%

0.05

50.0%

0.01

40.0%

0.5

30.0%

1

20.0%

2

10.0%
0.0%
10

15

20
25
50
Parameter gap open

100

Gambar 10 Grafik similaritas Human papillomavirus type 134 dan Human
papillomavirus type 132 dengan parameter match 5 mismatch -4

Similaritas

Setelah menggunakan parameter inti pertama, maka dilakukan percobaan
dengan pasangan sekuen DNA yang sama, namun menggunakan parameter inti
kedua, yaitu nilai match = 9, dan mismatch = -1. Hasil similaritas pengujian dapat
dilihat pada Gambar 11.
100.0%
90.0%
80.0%
70.0%
60.0%
50.0%
40.0%
30.0%
20.0%
10.0%
0.0%

Gap extend

0.05
0.01
0.5
1
2
10

15

20

25

50

100

Parameter gap open

Gambar 11 Grafik similaritas Human papillomavirus type 134 dan Human
papillomavirus type 132 dengan parameter match 9 mismatch -1.

12

Dari kedua percobaan, dihasilkan kondisi maksimal dengan parameter gap
penalty seperti pada Tabel 2.
Tabel 2 Hasil pengujian Human papillomavirus type 134 dan Human
papillomavirus type 132
Nama output

Hasil ke-1

Hasil ke-2

Match

5

9

Mismatch

-4

-1

Gap open

-10

-10

Gap extend

-0.01

-0.05

Length

8190 bp

7895 bp

Similarity

4676 (57.1 %)

4903 (62.1%)

Gaps

2014 (24.6%)

1255 (15.9%)

Score

17476.69

42451.75

Execution time

73 detik

75 detik

Similaritas

Pengujian ketiga dilakukan penjajaran sekuen genom lengkap dari sepasang DNA sekuen, sekuen ketiga adalah Thermoproteus tenax spherical virus 1
(NC_006556.1) dengan panjang sekuen 20933bp, dan sekuen genom lengkap dari
Vesicular stomatitis indiana virus (NC_001560.1) dengan panjang sekuen
11161bp. Percobaan dilakukan dengan cara memasangkan semua gap open dan
gap extend, sehingga terdapat 60 data hasil percobaan, menghasilkan empat
keluaran yaitu simmilarity, skor penjajaran, panjang hasil penjajaran, dan gaps,
hasil similaritas penjajaran menggunakan parameter match = 5 dan mismatch = -4
dapat dilihat pada Gambar 12.
100.0%
90.0%
80.0%
70.0%
60.0%
50.0%
40.0%
30.0%
20.0%
10.0%
0.0%

Gap extend

0.05
0.01
0.5
1
2
10

15

20

25

50

100

Parameter gap open

Gambar 12 Grafik similaritas Thermoproteus tenax spherical virus 1 dan
Vesicular stomatitis indiana virus dengan parameter match 5
mismatch -4

13

Setelah menggunakan parameter inti pertama, maka dilakukan percobaan
dengan pasangan sekuen DNA yang sama, namun menggunakan parameter inti
kedua, yaitu nilai match = 9, dan mismatch = -1. Hasil similaritas penjajaran dapat
dilihat pada Gambar 13.
100.0%
90.0%
Gap extend

80.0%

Similaritas

70.0%
60.0%

0.05

50.0%

0.01

40.0%

0.5

30.0%

1

20.0%

2

10.0%
0.0%
10

15

20

25

50

100

Parameter gap open

Gambar 13 Grafik similaritas Thermoproteus tenax spherical virus 1 dan
Vesicular stomatitis indiana virus dengan parameter match 9
mismatch -1
Dari kedua percobaan, dihasilkan kondisi maksimal dengan parameter gap
penalty seperti pada Tabel 3.
Tabel 3 Hasil pengujian Thermoproteus tenax spherical virus 1 dan Vesicular
stomatitis indiana virus
Nama output

Hasil ke-1

Hasil ke-2

Match

5

9

Mismatch

-4

-1

Gap open

-100

-10

Gap extend

-0.01

-0.5

Length

1374 bp

21255 bp

Similarity

513 (37.3 %)

8668 (40.8%)

Gaps

793 (57.7%)

10113 (47.6%)

Score

2296.93

80593.5

Execution time

287 detik

323 detik

14

Similaritas

Pengujian keempat dilakukan penjajaran sekuen genom lengkap dari
sepasang sekuen DNA, yang pertama adalah Chaetoceros lorenzianus DNA virus
(NC_015211.1) dengan panjang sekuen 5813 bp sebagai reference, dan sekuen
genom lengkap dari Chaetoceros tenuissimus DNA virus (NC_014748.1) dengan
panjang sekuen 5639 bp sebagai query. berikut adalah gambar grafik hasil
penjajaran sekuen yang menggunakan parameter match = 5 dan mismatch = -4.
Hasil pengujian dapat dilihat pada gambar 14.
100.0%
90.0%
80.0%
70.0%
60.0%
50.0%
40.0%
30.0%
20.0%
10.0%
0.0%

0.05
Gap extend

0.01
0.5
1
2
10

15

20
25
Parameter gap open

50

100

Gambar 14 Grafik similaritas Chaetoceros lorenzianus DNA virus dan
Chaetoceros tenuissimus DNA virus dengan parameter match 5
mismatch -4

Similaritas

Setelah menggunakan parameter inti pertama, maka dilakukan percobaan
dengan pasangan sekuen DNA yang sama, namun menggunakan parameter inti
kedua, yaitu nilai match = 9, dan mismatch = -1. Hasil similaritas penjajaran dapat
dilihat pada Gambar 15.
100.0%
90.0%
80.0%
70.0%
60.0%
50.0%
40.0%
30.0%
20.0%
10.0%
0.0%

Gap extend

0.05
0.01
0.5
1
2

10

15

20

25

50

100

Parameter gap open

Gambar 15 Grafik similaritas Chaetoceros lorenzianus DNA virus dan
Chaetoceros tenuissimus DNA virus dengan parameter match 9
mismatch -1

15

Dari kedua percobaan, dihasilkan kondisi maksimal dengan parameter gap
penalty seperti pada Tabel 4.
Tabel 4 Hasil pengujian Chaetoceros lorenzianus dan Chaetoceros tenuissimus
Nama output

Hasil ke-1

Hasil ke-2

Match

5

9

Mismatch

-4

-1

Gap open

-10

-10

Gap extend

-0.5

-0.5

Length

6454 bp

6178 bp

Similarity

2945 (45.6 %)

3287 (53.2%)

Gaps

2311 (35.8%)

1617 (26.2%)

Score

11084.5

29116.5

Execution time

49 detik

49.8 detik

Waktu Eksekusi Program dalam detik

Setelah melakukan pengujian pada dua pasang sekuen DNA yang berbeda,
dilakukan percobaan ketiga, yaitu pengujian ketahanan implementasi program
dengan cara mencoba kombinasi berbagai jenis panjang base pair. Pengujian
dilakukan dengan melibatkan sekuens diambil dari Azospirillum brasilense Sp245
(NC_016617.1) dan Azospirillum sp. B510 (NC_013854.1), kemudian diambil
5000 hingga 45000 bp dari tiap sekuen DNA, dan diujikan ke sistem yang telah
dibangun. Hasil percobaan berada pada kondisi seperti pada Gambar 16.
3200.0
3100.0
3000.0
2900.0
2800.0
2700.0
2600.0
2500.0
2400.0
2300.0
2200.0
2100.0
2000.0
1900.0
1800.0
1700.0
1600.0
1500.0
1400.0
1300.0
1200.0
1100.0
1000.0
900.0
800.0
700.0
600.0
500.0
400.0
300.0
200.0
100.0
0.0

Panjang
Query
sequences
5000
10000
15000
20000
25000
30000
35000
40000
45000

5000

10000

15000

20000

25000

30000

35000

40000

Panjang Reference sequences
Gambar 16 Grafik waktu eksekusi program Lokalsmith.

45000

16

Analisis dan Evaluasi
Pada tahap ini hasil pengujian yang telah dilakukan dianalisis satu persatu
mulai dari pengujian parameter hingga pengujian waktu eksekusi, hasil yang
didapat akan dibandingkan dengan software EMBOSS-Water dan hasil penelitian
dari Utomo (2013), dari perbandingan Ancylostoma duodenale (NC_003415.1)
dijajarkan dengan Necator americanus (NC_003416.2) menghasilkan nilai
similaritas dan gaps seperti pada Tabel 5 di bawah ini.
Tabel 5 Hasil perbandingan penjajaran Ancylostoma duodenale dan Necator
americanus
Metode
Smith-Waterman
(LOKALSMITH)

Smith-Waterman
(EMBOSS)

Needleman– Wunsch

Needleman – Wunsch
(EMBOSS)

Parameter
Match = 9
Mismatch = -1
Gap open = -10
Gap Extend = -0.01
Match = 5
Mismatch = -4
Gap open = -10
Gap Extend = -0.5
Match = 9
Mismatch = -1
Gap Penalty = -1
Match = 9
Mismatch = -1
Gap open = 10
Gap Extend = -0.5

Hasil
Similarity : 11653 (84)%
Gaps
: 415 (3)%

Similarity : 11622 (83.5) %
Gaps
: 573 (4.1) %

Similarity : 11822 (83.7%)
Gaps
: 926 (6.5%)
Similarity : 11622 (83.1) %
Gaps
: 636 (4.5) %

Dari hasil perbandingan didapatkan hasil yang beragam, namun tidak
berbeda jauh, dengan hanya selisih maksimum 1% dari tiap perbandingannya.
Ancylostoma duodenale (NC_003415.1) dijajarkan dengan Necator americanus
(NC_003416.2), menghasilkan similaritas 84% untuk penggunaan program
Lokalsmith, pada software EMBOSS dihasilkan 83.5% untuk EMBOSS-Water
dan 83.1% untuk EMBOSS-Needle, sedangkan Needleman-Wunsch hasil
percobaan dari Utomo (2013) menghasilkan similaritas 83.7%, selisih 0.3% dari
percobaan menggunakan Lokalsmith, namun dari segi panjang sekuen yang
dihasilkan Needleman-Wunsch lebih unggul, dikarenakan Needleman-Wunsch
tidak memulai penjajaran dari nilai maksimum, akan tetapi dari ujung sekuen.
Similaritas yang tidak jauh berbeda juga disebabkan oleh bentuk sekuen
yang serupa, terlihat dari nilai similaritas yang berada di atas 80%, atau mendekati
100% kemiripan. Namun dari gaps yang dihasilkan terdapat selisih yang cukup
beragam, Lokalsmith menghasilkan gaps 2.99%, EMBOSS-water menghasilkan
gaps 4.1%, EMBOSS-Needle menghasilkan gaps 4.5% dan dari percobaan Utomo
(2013) menghasilkan gaps tertinggi yaitu 6.5%. Gaps yang tinggi pada percobaan
Needleman-Wunsch terjadi karena algoritme Needleman-Wunsch tidak
menggunakan gap penalty seperti persamaan (1) .
Pada percobaan kedua, menjajarkan Human papillomavirus type 134
(NC_014956.1) dan Human papillomavirus type 132 (NC_014955.1), hasil

17

maksimal dari parameter kemudian dibandingkan dan menghasilkan perbandingan
seperti yang tertera pada Tabel 6.
Tabel 6 Hasil perbandingan penjajaran Human papillomavirus type 134 dan
Human papillomavirus type 132
Metode
Smith-Waterman
(LOKALSMITH)

Parameter
Match = 9
Mismatch = 1
Gap open = 10
Gap Extend = -0.05

Hasil
Similarity : 4903 (62.1)%
Gaps
: 1255 (15.9)%

Smith-Waterman
(EMBOSS)

Match = -5
Mismatch = -4
Gap open = 10
Gap Extend = -0.01
Match = -9
Mismatch = -1
Gap open = -1
Gap Extend = -1
Match = -9
Mismatch = -1
Gap open = 10
Gap Extend = -0.5

Similarity : 4700 (57.1) %
Gaps
: 2049 (24.9) %

Needleman– Wunsch

Needleman – Wunsch
(EMBOSS)

Similarity : 5146 (62.9%)
Gaps
: 1926 (23.5%)

Similarity : 4696 (56.8) %
Gaps
: 2098 (25.4) %

Dari hasil perbandingan didapatkan nilai similaritas 62.1% untuk percobaan
menggunakan Lokalsmith, 57.1% untuk percobaan software EMBOSS-water,
56.8% menggunakan EMBOSS-Needle, dan percobaan Utomo (2013)
menghasilkan
62.9%, berbeda tipis dengan hasil menggunakan program
Lokalsmith, yaitu 0.8% selisihnya. Dari panjang penjajaran yang dihasilkan
percobaan Utomo (2013) menghasilkan sekuen yang paling panjang diantara
percobaan lainnya, yaitu 5146 bp. Hal ini dikarenakan algoritme Smith-Waterman
memulai penjajarannya dari nilai maksimum yang telah dibentuk menggunakan
persamaan (2), sedangkan pada algoritme Needleman-Wunsch akan melakukan
penjajaran dari awal sekuen hingga akhir sekuen yang dijajarkan.
Similaritas yang jauh berbeda disebabkan oleh bentuk sekuen yang tidak
serupa, terlihat dari nilai similaritas yang berada di atas 50%, namun berada di
bawah 70%, dengan gaps yang dihasilkan juga beragam, Lokalsmith
menghasilkan gaps 15.9%, EMBOSS-water menghasilkan gaps 24.9%,
EMBOSS-Needle menghasilkan gaps 25.4% dan dari percobaan Utomo (2013)
menghasilkan gaps tertinggi yaitu 23.5%. Gaps yang kecil dihasilkan oleh
Lokalsmith, karena penggunaan parameter yang berbeda dengan EMBOSS-Water,
sehingga mempengaruhi pembentukan gaps dari hasil penjajaran sekuen.
Pada percobaan ketiga, menjajarkan Chaetoceros lorenzianus DNA Virus
(NC_015211.1), dan sekuen genom lengkap dari virus Chaetoceros tenuissimus
DNA virus (NC_014748.1). Hasil maksimal dari parameter kemudian
dibandingkan dan menghasilkan perbandingan seperti yang tertera pada Tabel 7.
Tabel 7 Hasil Perbandingan Penjajaran Chaetoceros lorenzianus DNA virus dan
Chaetoceros tenuissimus DNA virus

18

Metode
Smith-Waterman
(LOKALSMITH)

Parameter
Match = 9
Mismatch = -1
Gap open = 10
Gap Extend = -0.01

Hasil
Similarity : 3287 (53.2)%
Gaps
: 1617 (26.2)%

Smith-Waterman
(EMBOSS)

Match = 5
Mismatch = -4
Gap open = 10
Gap Extend = -0.5
Match = 9
Mismatch = -1
Gap open = -1
Gap Extend = -1
Match = 9
Mismatch = -1
Gap open = 10
Gap Extend = -0.5

Similarity : 3016 (45.5) %
Gaps
: 2706 (40.9) %

Needleman– Wunsch

Needleman – Wunsch
(EMBOSS)

PROGRAM CRASH

Similarity : 3012 (39.9) %
Gaps
: 3628 (48.1) %

Dari hasil perbandingan didapatkan nilai similaritas 53.2% untuk percobaan
menggunakan Lokalsmith, 45.5% untuk percobaan software EMBOSS-water,
39.9% menggunakan EMBOSS-Needle, data dicobakan pada program dari Utomo
(2013) namun terjadi crash pada program sehingga tidak menghasilkan apa-apa.
Karena itu hanya digunakan perbandingan software EMBOSS sebagai
pembanding hasil penjajaran.
Tabel 8 Hasil perbandingan penjajaran Thermoproteus tenax spherical virus
1 dan Vesicular stomatitis indiana virus.
Metode
Smith-Waterman
(LOKALSMITH)

Parameter
Match = 9
Mismatch = 1
Gap open = 10
Gap Extend = -0.01

Hasil
Similarity : 8668 (40.8%)
Gaps
: 10113 (47.6%)

Smith-Waterman
(EMBOSS)

Match = 9
Mismatch = 1
Gap open = 10
Gap Extend = -0.01
Match = 9
Mismatch = 1
Gap open = 0
Gap Extend = 0
Match = 9
Mismatch = 1
Gap open = 0
Gap Extend = 0

Similarity : 7723 (35.7) %
Gaps
: 11906 (55.0) %

Needleman– Wunsch

Needleman – Wunsch
(EMBOSS)

PROGRAM CRASH

Similarity : 7714 (34.5) %
Gaps
: 12666 (56.6) %

Pada percobaan ini terlihat beragam similaritas yang jauh berbeda
disebabkan oleh bentuk sekuen yang tidak serupa. Hal ini terlihat dari nilai
similaritas yang berada di antara 60% hingga 30%, dengan gaps yang dihasilkan

19

Lokalsmith
sebesar 26.2%, EMBOSS-water menghasilkan gaps 40.9%,
EMBOSS-Needle menghasilkan gaps 48.1%. Gaps yang kecil dihasilkan oleh
Lokalsmith, karena penggunaan parameter yang berbeda dengan EMBOSS-water,
sehingga mengakibatkan pengaruh pembentukan gaps dari hasil penjajaran
sekuen, selain itu nilai gaps yang jauh berbeda juga membuktikan adanya
pengaruh yang signifikan dari pemilihan parameter inti yang digunakan dalam
penjajaran. Similaritas yang rendah juga membuktikan bahwa meskipun berasal
dari jenis yang sama, namun sekuennya bisa jauh berbeda, sehingga similaritas
yang rendah mengakibatkan perbedaan struktur dan fungsional antara sekuen.
Pada percobaan terakhir, dijajarkan Thermoproteus tenax spherical virus 1
(NC_006556.1) dan sekuen genom lengkap dari Vesicular stomatitis indiana virus
(NC_001560.1). Hasil maksimal dari parameter kemudian dibandingkan dengan
software EMBOSS dan menghasilkan perbandingan seperti yang tertera pada
Tabel 8.
Dari hasil perbandingan didapatkan nilai similaritas 40.8% untuk percobaan
menggunakan Lokalsmith, 35.7% untuk percobaan software EMBOSS-water,
34.5% menggunakan EMBOSS-Needle, data dicobakan pada program dari Utomo
(2013) namun terjadi crash pada program sehingga tidak menghasilkan apa-apa.
Karena itu hanya digunakan perbandingan software EMBOSS sebagai
pembanding hasil penjajaran.
Pada percobaan ini terlihat beragam similaritas yang jauh berbeda
disebabkan oleh bentuk sekuen yang tidak serupa. Hal ini terlihat dari nilai
similaritas yang berada di antara 40% hingga 30%, dengan gaps yang dihasilkan
Lokalsmith sebesar 47.6%, EMBOSS-water menghasilkan gaps 55%, EMBOSSNeedle menghasilkan gaps 56.6%. Gaps yang kecil dihasilkan oleh Lokalsmith,
karena penggunaan parameter yang berbeda dengan EMBOSS-Water, sehingga
mengakibatkan pengaruh pembentukan gaps dari hasil penjajaran sekuen, pada
percobaan ini terlihat besaran gaps yang besar yaitu antara 50% hingga 40%, hal
ini disebabkan karena besarnya selisih antara panjang sekuen yang dijajarkan
yaitu 9772 bp, sehingga mengakibatkan bertambahnya jumlah gaps, dan
berkurangnya similaritas, karena terpisahkan oleh gaps yang panjang.
Dilihat dari waktu eksekusinya, algoritme Smith-Waterman memiliki waktu
kompleksitas O(mn) atau mendekati kuadratik, hal ini karena adanya dua kali
proses yang melibatkan semua bagian sekuen, yaitu proses penentuan nilai
maksimal, dan penentuan arah jalur traceback. Pada gambar grafik waktu
eksekusi terlihat bahwa pasangan sekuen dengan panjang yang sama akan
memakan waktu yang lebih lama ketimbang panjang pasangan yang berbeda, hal
ini dikarenakan waktu kompleksitas yang menjadi kuadratik saat sekuen query
dan reference memiliki panjang yang sama, sedangkan jika terjadi perbedaan
panjang query dan reference, salah satu sekuen akan menjadi lebih panjang dari
satu lainnya, sehingga m ≠ n, yang mengakibatkan berkurangnya waktu eksekusi
program.
Dari perbandingan grafik waktu eksekusi terlihat grafik yang berjalan linear,
seiring dengan semakin panjang sekuen yang dijajarkan, semakin besar selisih
antara dua sekuen, maka waktu eksekusinya semakin singkat, begitu juga
sebaliknya.

20

SIMPULAN DAN SARAN
Simpulan
Dari penelitian yang telah dilakukan dalam penjajaran lokal sekuen DNA
menggunakan algoritme Smith-Waterman ini dapat disimpulkan sebagai berikut :
1 Pada penjajaran lokal sekuen, algoritme Smith-Waterman dapat diterapkan.
2 Penerapan algoritme Smith-Waterman pada penjajaran lokal sekuen DNA
memiliki hasil penjajaran paling optimal, karena memiliki smilaritas yang
tinggi dibandingkan penggunaan algoritme Needleman-Wunsch.
3 Hasil penjajaran yang sangat beragam, karena perbedaan parameter yang
digunakan, panjang sekuen dan bentuk sekuen yang dijajarkan.
4 Waktu kompleksitas dari algoritme Smith-Waterman adalah O(mn), karena
terjadi dua kali proses yang melibatkan semua bagian sekuen, yaitu proses
menemukan nilai maksimum dan proses penentuan arah traceback.
5 Parameter inti match = 9 dan mismatch = -1 adalah parameter terbaik, hal ini
terbukti dari hasil similaritas yang tinggi, dan gaps yang kecil dihasilkan
menggunakan parameter ini.
Saran
Untuk penelitian selanjutnya disarankan sebagai berikut:
1 Mengaplikasikan Parallel programming, sehingga menambah kemampuan
maksimum panjang sekuen yang dijajarkan serta mempersingkat waktu
eksekusi dari algoritme Smith-Waterman
2 Mencoba penjajaran semi-global yang menggabungkan antara penjajaran lokal
dan global.

21

DAFTAR PUSTAKA
Annibal S. 2003. Sequence alignment algorithms. London (UK): King's College.
Agrawal A. 2009. Sequence-specific sequence comparison using pairwise
statistical significance [tesis] Iowa (US): Iowa State University
Chan, A. 2004. An analysis of pairwise sequence alignment algorithm
complexities: Needleman-Wunsch, Smith-Waterman, FASTA, BLAST and
gapped BLAST. [tesis] California(US) :Stanford University
Palmenberg A, Sgro JY. 2008. Biochemistry
711 : EMBOSS software for
sequence analysis. Madison (US) : University
of
Wisconsin.
Pantua A. 2011. Implementasi super pairwise alignment pada global alignment
[skripsi]. Surabaya (ID): Intstitut Teknologi Sepuluh November.
Smith TF, and Waterman, MS. 1981. Identification of Common Molecular
Subsequences. Journal of Molecular Biology. 147:195-197
Utomo W.A. 2013. Penjajaran Sekuen DNA Global dengan Algoritme Needleman
– Wunsch. [skripsi] Bogor (ID): Institut Pertanian Bogor.

22

Lampiran 1 Pseudocode algoritme Smith - Waterman
Pseudo Code

Initialization:
F(0,j) = 0
F(i,0)= 0

Filling Matrix:
for each i,j = 0 to M,N {
F(i,j) = max(0,
F(i-1,j-1) + s,
F(i-1,j) – d,
F(i,j-1) – d,) }

Traceback:
FOPT = max(F(i,j))
traceback(FOPT)

23

Lampiran 2 Screenshot User Interface Program

24

RIWAYAT HIDUP
Penulis dilahirkan di Malang pada tanggal 02 Mei 1986 sebagai anak
pertama dari pasangan Subakir Amin dan Siti Rodiyah. Penulis merupakan
lulusan SMA Negeri 8 Malang (2000 - 2003), Mts Negeri Malang (1997 - 2000)
dan Madrasah Ibtidaiyah Negeri Malang (1991 - 1997).
Pada tahun 2004 penulis diterima sebagai mahasiswa Diploma III Program
Keahlian Teknik Elektronika, Direktorat Program Diploma Politeknik Negeri
Malang melalui jalur Undangan Seleksi Masuk Politeknik Negeri Malang. Setelah
menyelesaikan pendidikan Diploma III pada tahun 2008, penulis kembali
melanjutkan pendidikan Strata 1 (S1) melalui jalur Alih Jenis dan diterima sebagai
mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian Bogor.
Selama menjadi mahasiswa program Alih Jenis Ilmu Komputer IPB, penulis
juga bekerja sebagai IT di Radar-Bogor grup Bogor.