Pangkalan Data untuk Rangkaian DNA

Pangkalan Data untuk Rangkaian DNA
Mahyuddin K. M. Nasution
Departemen Matematika FMIPA USU dan Program Studi Ilmu Komputer USU,
mahyuddin@usu.ac.id

Al-Khawarizmi: Journal of Computer Science Volume 1, Issue
2: 7-12, June 2005.
Tulisan asal, penulis hanya menggunakan nama: ”Mahyuddin”.

Abstract—Pangkalan data diperlukan untuk merekamkan informasi dari suatu lingkungan tertentu, sedangkan rangkaian DNA
adalah suatu bentuk susunan yang juga merekamkan informasi tentang status dan sejarah suatu kehidupan. Tentunya diperlukan suatu
pengetahuan dasar untuk menghubungkan kedua informasi tersebut
agar informasi kedua menjadi lebih berdayaguna.
Kata kunci – leluhur; RNA; spektroskopi; NMR; de novo; ab initio.

I. P ENDAHULUAN
Bioinformatika (bioinformatic, dalam bahasa Inggris) merupakan penerapan teknik berkomputasi untuk mengelola dan
menganalisis informasi biologis. Bidang ilmu ini berkembanga sejak teknik biologi molekuler dalam mengungkapkan
rangkaian biologis dari protein dimulai tahun 1950-an dan
asam nukleat pada tahun 1960-an, yang memerlukan adanya
pangkalan data rangkaian protein [1].

Pada suatu sisi, penerapan komputer ke dalam biologi
tidak saja sebagai akibat kebutuhan dalam teknik analisis
rangkaian biologis, tetapi juga disebabkan oleh perkembangan dan kemampuan penerapan beberapa bidang matematika
seperti aljabar dan topologi ke dalam biologi, seperti analisis
struktur gen melalui teori grup yang dikembangkan dengan
penambahan beberapa aksioma dalam penerapannya terhadap
anyaman atau simpul yang terdapat dalam budaya manusia
[2], [3]. Pada sisi lain, kemajuan teknologi informasi, terutama
internet juga turut menyumbangkan percepatan pertumbuhan
bidang ini, yang memudahkan ilmuan mengumpulkan hasil
rangkaian ke pangkalan data atau mendapatkan rangkaian
biologis sebagai bahan analisis. Selain itu, juga membantu
penyebaran program-program bantu sebagai aplikasi dalam
bidang bioinformatika, untuk maksud yang sama [4]. Oleh
karena itu, pada bagian ini akan diungkapkan beberapa informasi yang mungkin direkamkan ke dalam dan digali dari
pangkalan data.
II. PANGKALAN DATA
Pangkalan data rangkaian biologis dapat berupa pangkalan
data utama untuk menyimpan rangkaian asam nukleat maupun


protein, pangkalan data sekunder untuk menyimpan motif
rangkaian protein dan pada struktur untuk menyimpan data
struktur protein maupun asam nukleat. Jadi pangkalan data
rangkaian biologis disesuaikan dengan jenis informasi biologis
yang akan disimpannya, sehingga penggunanya dapat menafsirkan, merancang, mengolah dan menyelenggarakannya [4].
Suatu pangkalan data dikembangkan dari lingkungan yang
memerlukan suatu sistem informasi, di mana pangkalan data
tercakup. Suatu pangkalan data untuk keperluan tertentu
dikembangkan berdasarkan suatu arsitektur, dengan alasan
bahwa perbedaan tingkat mengakibatkan setiap pengguna dapat menggapai data yang sama tetapi mempunyai pandangan
berbeda terhadap data yang diinginkan [5]. Pengguna tidak
seharusnya terlibat dengan struktur fisik tempat penyimpanan
data, interaksi pengguna dengan pangkalan data tidak bergantung kepada struktur tempat penyim-panan. Perubahan yang
dilakukan terhadap pangkalan data tidak akan memberikan
sebarang akibat terhadap pandangan pengguna, dan perubahan
aspek tempat penyimpanan secara fisik juga tidak memberikan
pengaruh pada struktur dalaman pangkalan data. Pergantian
sebarang struktur konseptual tidak akan memberikan sebarang
pengaruh terhadap pengguna [6].
1) Tingkat luaran

Pandangan pengguna tentang pangkalan data, yang menerangkan bagian pangkalan data yang berhubungan dengan individu pengguna atau sekumpulan pengguna. Pandangan luaran hanya melibatkan entitas, atribut dan
hubungan di dalam lingkungan sebenarnya yang menjadi
perhatian/keperluan pengguna.
2) Tingkat berkonsep
Mengandungi struktur berlogika tentang suatu pangkalan
data sebagaimana yang digambarkan oleh administrator pangkalan data. Tingkat ini melibatkan pandangan
lengkap keperluan data sesuatu organisasi dan tidak
bergantung kepada segi tempat penyimpanan. Tingkat
ini digunakan untuk menerangkan sesuatu pangkalan
data melalui entitas, hubungan antara entitas, atribut,
kendala data, keamanan dan keterpaduan data. Tingkat
ini mendukung tingkat luaran yang berkaitan dengan
bagian mana saja yang berguna bagi pengguna, semua
itu harus dapat diolah atau terdapat di dalam bagian
berkonsep ini.
3) Tingkat dalaman
Tingkat ini berkaitan dengan bagaimana struktur data
dan organisasi berkas digambarkan secara fisik terhadap
komputer, meliputi implementasi bersifat fisik pangkalan


Gambar 1. Pengertian besarnya jumlah data DNA yang
dihasilkan
data untuk menggapai kinerja larian (run) yang optimum dan penggunaan tempat penyimpanan yang baik.
Tingkatan ini melibatkan alokasi tempat penyimpanan
untuk data dan indeks, penjelasan (deskripsi) rekord,
penggantian rekord dan teknik dalam pemadatan rekord.
Pertukaran dan larian baik yang berasal dari sistem
manual ataupun sistem berkas biasa ke sistem pangkalan
data memerlukan biaya yang tinggi.
Jadi pangkalan data rangkaian protein akan disesuaikan dengan keperluan komponen pangkalan data pada umumnya, yaitu
data pengguna (dalam bentuk hubungan atau tabel), metadata
atau kamus data (uraian tentang struktur pangkalan data),
indeks (untuk tujuan pengurutan dan capaian yang lebih cepat),
dan aplikasi metadata (menyimpan struktur dan bentuk tentang
laporan, pertanyaan, borang dan aplikasi lain). Keperluan atas
informasi yang akan berkaitan dengan komponen ini akan
disajikan pada dua pasal berikut.
III. P ENGUMPULAN I NFORMASI
Metode dasar untuk mendapatkan informasi tentang DNA
adalah melalui analisis rangkaian, yaitu penyejajaran sekuens

(sequance alignment). Penyejajaran sekuens adalah proses
penyusunan/pengaturan dua atau lebih rangkaian sehingga persamaan rangkaian-rangkaian tersebut tampak nyata. Metode ini
digunakan untuk mempelajari evolusi rangkaian dari leluhur
yang sama (common ancestor). Hasil dari proses tersebut
juga disebut sebagai sequence alignment atau penyejajaran
(alignment) saja.
Ketidakcocokan (mismatch) dalam penyejajaran diasosiasikan dengan proses mutasi, sedangkan kesenjangan (gap)
diberi tanda dengan ”-” diasosiasikan dengan proses penyisipan dan penghapusan. Baris rangkaian dalam suatu penyejajaran diberi sisipan, secara umum dengan tanda ”-” sedemikian
rupa sehingga kolom-kolomnya memuat karakter yang identik
atau sama di antara rangkaian-rangkaian tersebut. Misalnya
penyejajaran DNA dari dua rangkaian pendek DNA yang
berbeda caatacca dan ccatgggacca sehingga
caat---acca
| ||
||||
ccatgggacca

dengan mana tanda ”—” menunjukkan kecocokan (match)
di antara kedua-dua rangkaian.
Sumber utama data rangkaian asam nukleat adalah submisi

langsung dari peneliti pribadi, projek perangkaian genom,
dan pendaftaran paten. Selain berisi rangkaian asam nukleat,
asupan dalam pangkalan data rangkaian asam nukleat umumnya mengandung informasi tentang jenis asal nukleat, DNA
atau RNA, nama organisme sumber asam nukleat tersebut,
dan pustaka yang berkaitan dengan rangkaian asam nukleat
tersebut. Suatu pangkalan data diharapkan dapat mengandung
informasi tentang rangkaian protein, nama organisme sumber
protein, pustaka yang berkaitan, dan komentar yang umumnya
berisi penjelasan mengenai fungsi protein tersebut.
Secara kimia/fisika, bentuk struktur protein diungkap dengan kristalografi sinar-X ataupun spektroskopi NMR [4], namun kedua perangkaian protein relatif lebih mudah mengungkapkan rangkaian asam amino protein. Dengan demikian,
pangkalan data dapat menyimpan model berstruktur berdimensi tiga dari protein dan asam nukleat menurut hasil
penentuan bereksperimen. Penyimpanan data berstruktur ini
menggambarkan posisi atom-atom dalam protein ataupun
asam nukleat.
IV. I NFORMASI T URUNAN
Penyejajaran sekuens memberikan hipotesis atas proses
evolusi yang terjadi dalam rangkaian-rangkaian yang dibandingkan. Misalnya, rangkaian ”caatacca” dan ”ccatgg gacca”
di atas, dapat saja berevolusi dari rangkaian yang sama
”caatgggacca”. Berkaitan dengan hal itu, penyejajaran juga
dapat menunjukkan posisi-posisi yang dipertahankan selama

evolusi dalam rangkaian-rangkaian protein, yang menunjukkan
bahwa posisi-posisi tersebut merupakan bagian penting baik
menurut struktur maupun fungsi dari protein tersebut.
Beberapa metode telah diturunkan, seperti metode
Needleman-Wunsch,
metode
Smith-Waterman,
atau
metode model markov tersembunyi, yang masing-masing
menggunakan prinsip berbeda dalam menurunkan informasi
baru. Ada yang digunakan untuk menyusun penyejajaran
global di antara dua atau lebih rangkaian, yangberlaku
atas keseluruhan panjang rangkaian tersebut. Penyejajaran
lokal, digunakan oleh metode lain atas bagian-bagian
dalam rangkaian. Kedua prinsip ini sebenarnya menerapkan
metode program dinamik dan hanya efektif untuk rangkaian
berpasangan.
Selain itu, digunakan juga prinsip statistika untuk mengenali dan menganalisis rangkaian. Prediksi struktur protein
berusaha meramalkan protein berdimensi tiga ber-dasarkan
sekuens asam amino, yaitu struktur tersier dan struktur sekunder berdasarkan struktur primer protein. Secara umum, metode

prediksi struktur protein yang ada sampai saat dapat dikategorikan menjadi dua: metode pemodelan protein komparatif
dan metode pemodelan de novo.
Secara matematis, menurut prinsip aljabar dan topologi
struktur suatu protein dapat dibandingkan dengan struktur
protein lain yang sudah diketahui, sehingga dalam satu sajian
dapat diungkapkan keseragaman suatu struktur dengan struktur

lain. Salah satu penerapan ini adalah pemodelan homologi,
sebagai penerapan beberapa aksiomatis teori himpunan dan
aljabar, dengan prediksi struktur tersier protein berdasarkan kesamaan struktur primer protein. Pemodelan ini didasarkan pada
teori bahwa dua protein yang memiliki sifat yang sama sangatlah mirip satu sama lain. Struktur protein sebagai sasaran
ditentukan berdasarkan struktur protein lain yang dipandang
sebagai acuan (template) yang sudah diketahui dan memiliki
kemiripan rangkaian de-ngan protein sasaran tersebut.
Pemodelan lain perbandingan rangkaian didasarkan pada
kemiripan struktur tanpa kemiripan rangkaian primer, atau
disebut protein threading, dilatarbelakangi oleh struktur protein dikonservasi dari rangkaian protein selama evolusi, yang
melibatkan bagian-bagian penting dari fungsi protein yang
harus dipertahankan.
Struktur protein juga ditentukan dari rangkaian primernya

tanpa membandingkan dengan struktur protein lain, proses
mendapatkan informasi ini dinyatakan sebagai pendekatan de
novo atau ab initio. Kemungkinan yang digunakan dalam
pendekatan ini dengan cara menirukan proses pelipatan protein
dari rangkaian primernya menjadi struktur tersiernya, melalui
simulasi dinamika molekuler, atau kemungkinan dengan optimisasi global fungsi energi protein.
Dengan demikian, dapat dikatakan bahwa secara umum
beberapa metode di-gunakan untuk mendapat informasi keseragaman sifat dari suatu protein. Informasi ini berguna
dalam memprediksi evolusi suatu protein dan melihat latarbelakangnya.
V. P ENUTUP
Pangkalan data memiliki arsitektur tersendiri sesuai dengan
keperluan lingkungan penerapan pangkalan data. Beberapa
persiapan pangkalan data untuk rangkaian biologi diungkapkan melalui informasi dasar dan turunan. Informasi dasar
yang akan direkamkan ke dalam pangkalan data didasarkan
atas bidang keilmuan biologi yang berkaitan dengan genetika,
sedangkan informasi lain sebagai turunan, didasarkan atas
beberapa metode yang dikembangkan, baik secara matematika
ataupun statistika, yang secara diskrit telah dapat diaplikasikan
di dalam bidang komputer.
R EFERENCES

[1] T. K. Attwood & D. J. Parry-Smith, ”Introduction to bioinformatics”,
Harlow: Pearson Education, 1999.
[2] M. K. M. Nasution, ”Mutasi pada anyaman”, EPSILON: Journal Matematika dan Terapannya 2(2): 29-32, 2001.
[3] M. K. M. Nasution, S. Suwilo & S. Nasution, ”Mutasi simpul dengan
quan-tisasi unting aljabar loop pada suatu permukaan”, Komunikasi
Penelitian 13(2): 417-347, 2001.
[4] D. E. Krane & M. L. Raymer, ”Fundamental concepts of bioinformatics”, San Francisco: Benjamin Cummings, 2003.
[5] M. K. M. Nasution, ”Pengantar DBMS”, Medan: USU Press, 1995.
[6] T. M. Connolly, & C. E. Begg, Database systems, a practical approach to
design, implementation, and management, 3rd edition. Harlow-England:
Addison-Wesley, 2002.