Integrasi basis data dan pipeline single nucleotide polymorphism untuk pemuliaan tanaman kedelai

INTEGRASI BASIS DATA DAN PIPELINE SINGLE
NUCLEOTIDE POLYMORPHISM UNTUK
PEMULIAAN TANAMAN KEDELAI

MIFTAKHUL HUDA

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Integrasi Basis Data dan
Pipeline Single Nucleotide Polymorphism untuk Pemuliaan Tanaman Kedelai
adalah benar karya saya dengan arahan dari komisi pembimbing dan belum
diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Juli 2014
Miftakhul Huda
NIM G64100071

ABSTRAK
MIFTAKHUL HUDA. Integrasi Basis Data dan Pipeline Single Nucleotide
Polymorphism untuk Pemuliaan Tanaman Kedelai. Dibimbing oleh WISNU
ANANTA KUSUMA dan HABIB RIJZAANI.
Upaya penemuan varietas unggul dengan cara pemuliaan tanaman secara
konvensional membutuhkan waktu yang lama dan biaya yang besar. Kendala
tersebut dapat diatasi dengan memanfaatkan informasi yang diperoleh dari analisis
genom, yaitu berupa markah single nucleotide polymorphism (SNP) beserta
asosiasi dengan fenotipenya. Selama ini identifikasi SNP dapat dilakukan
menggunakan beberapa program komputer. Informasi SNP disimpan dalam fail
berformat variant call format (VCF). Fail dengan format tersebut sulit dimengerti
dan diolah oleh peneliti pemuliaan. Penelitian ini bertujuan mengintegrasikan
perangkat lunak pipeline yang dihasilkan oleh penelitian sebelumnya dan basis data
yang menyimpan informasi berupa SNP dan informasi pendukung lainnya yang

terkait dengan identifikasi SNP, antara lain flanking area dan ID kandidat SNP yang
terintegrasi dengan data referensi SNP kedelai dari NCBI. Selain itu, sistem ini juga
dilengkapi fitur pencarian yang berbasis web untuk memudahkan peneliti
pemuliaan menemukembalikan informasi kandidat SNP yang relevan.
Kata kunci: basis data, kedelai, pemuliaan tanaman, pipeline, SNP

ABSTRACT
MIFTAKHUL HUDA. Integration of Database and Single Nucleotide
Polymorphism Pipeline for Soybean Breeding. Supervised by WISNU ANANTA
KUSUMA and HABIB RIJZAANI.
Plant breeding using conventional approaches is high cost and time
consuming. Researchers started elaborating the oportunities of plant breeding based
on genome analysis in order to obtain an efficient process. This approach used
single nucleotide polymorphism (SNP) marker and their association with
phenotypes. The SNP identification process actually can be conducted using
application software. SNP information is stored in a VCF file. However this file
format is not easy to be undertood and managed by breeding researchers. This
research aims to integrate software pipeline yielded by previous research and
database for storing SNP candidates and their supporting information such as
flanking area and the SNP’s ID which is automatically integrated to Soybean SNP

reference from NCBI. Moreover, the system also provides a web based searching
feature for helping researchers retrieving relevant SNP candidate information.
Keywords: database, pipeline, plant breeding, SNP, soybean

INTEGRASI BASIS DATA DAN PIPELINE SINGLE
NUCLEOTIDE POLYMORPHISM UNTUK
PEMULIAAN TANAMAN KEDELAI

MIFTAKHUL HUDA

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR

2014

Penguji: M Asyhar Agmalaro, SSi MKom

Judul Skripsi : Integrasi Basis Data dan Pipeline Single Nucleotide Polymorphism
untuk Pemuliaan Tanaman Kedelai
Nama
: Miftakhul Huda
NIM
: G64100071

Disetujui oleh

Dr Wisnu Ananta Kusuma, ST MT
Pembimbing I

Habib Rijzaani, MSi
Pembimbing II

Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji syukur penulis panjatkan kepada Allah atas segala rahmat dan karuniaNya sehingga penulis mampu menyelesaikan karya ilmiah ini. Penyusunan karya
ilmiah ini juga tidak lepas dari bantuan berbagai pihak. Untuk itu penulis
mengucapkan terima kasih kepada:
1 keluarga tercinta: Ibunda Alfiyah dan Ayahanda Chamzawi, serta ketiga kakak
saya Zuliya, Umi, dan Fadil yang selalu memberikan doa, semangat, motivasi
dan kasih sayang yang tiada henti,
2 Bapak Dr Wisnu Ananta Kusuma ST MT, dan Bapak Habib Rijzaani MSi selaku
dosen pembimbing, terima kasih atas segala kesabaran, ilmu, saran dan
motivasinya selama membimbing penulis,
3 Bapak M Abrar Istiadi, SKomp dan semua dosen Departemen Ilmu Komputer,
terima kasih atas semua ilmu yang telah diberikan,
4 Resti, Risa, Ribut, Wahyu, dan Yogi, terima kasih atas semangat, motivasi, dan
doanya, serta Mira Aisyah Romliyah, terima kasih atas kasih sayang, doa,

semangat, dan kebersamaannya selama ini,
5 teman-teman satu bimbingan: Alfat, Delly, Gerry, Yuda, Bang Dan yang selalu
saling mengingatkan dan memberi motivasi dalam penyusunan skripsi ini,
6 keluarga Himpunan Keluarga Rembang di Bogor dan teman-teman Pondok AA
yang selalu memberikan rasa kekeluargaan dan rasa kebersamaan,
7 teman-teman mahasiswa Ilmu Komputer angkatan 47, terima kasih atas doa,
semangat, serta kebersamaannya selama ini,
8 semua pihak yang telah membantu dalam penyusunan karya ilmiah ini.
Semoga karya ilmiah ini dapat bermanfaat bagi dunia ilmu pengetahuan khususnya
bidang ilmu komputer dan bioinformatika, serta menjadi inspirasi bagi penelitian
selanjutnya
Bogor, Juli 2014
Miftakhul Huda

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi

PENDAHULUAN

1

Latar Belakang

1

Perumusan Masalah

2

Tujuan Penelitian

2

Manfaat Penelitian

2

Ruang Lingkup Penelitian

2

METODE

3

Pengumpulan Data

3

Analisis

4

Perancangan

4

Implementasi

4

Pengujian

4

HASIL DAN PEMBAHASAN

5

Analisis

5

Perancangan

8

Implementasi

10

Pengujian

13

SIMPULAN DAN SARAN

16

Simpulan

16

Saran

16

DAFTAR PUSTAKA

17

RIWAYAT HIDUP

25

DAFTAR TABEL
1 Data informasi SNP varietas kedelai berformat VCF
2 Kebutuhan fungsional
3 Rincian tabel SNP
4 Pengujian data varietas kedelai pada proses integrasi

3
7
9
14

DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10

Tahapan penelitian
3
Format data SNP fail berformat VCF
5
Format data fail berformat FASTA
6
Ilustrasi definisi flanking area
6
Format data SNP kedelai dari NCBI
7
Use case Diagram
8
Rancangan antarmuka pencarian berdasarkan kromosom dan posisi SNP 9
Arsitektur sistem proses integrasi
10
Implementasi antarmuka proses integrasi basis data dan pipeline
11
Implementasi antarmuka fasilitas pencarian berdasarkan kromosom dan
posisi SNP
12
11 Pseudocode proses integrasi basis data dan pipeline
13
12 Contoh hasil pemrosesan data
14
13 Hasil pencarian lanjutan informasi SNP kedelai
15

DAFTAR LAMPIRAN
1
2
3
4
5
6
7
8
9
10

Data fail VCF hasil proses identifikasi SNP pada sistem ISNIP
Data fail VCF dari NCBI
Desain basis data
Rancangan antarmuka pencarian lanjutan
Rancangan antarmuka hasil pencarian
Rancangan detail data SNP
Implementasi antarmuka fasilitas pencarian lanjutan
Implementasi antarmuka hasil pencarian
Implementasi antarmuka detail data SNP
Pengujian black box

18
19
20
20
21
21
22
22
23
24

PENDAHULUAN
Latar Belakang
Menurut Tiwari et al. (2004), kedelai merupakan salah satu sumber protein
nabati yang secara langsung dapat digunakan untuk pemenuhan kebutuhan gizi
manusia maupun sebagai bahan penghasil produk berkualitas tinggi. Menurut
Atman (2009), di Indonesia kebutuhan tanaman kedelai mencapai 2.35 juta ton per
tahun dan cenderung mengalami peningkatan setiap tahunnya. Peningkatan jumlah
tersebut harus diikuti dengan penemuan varietas unggul agar kualitas kedelai bisa
meningkat. Usaha pemuliaan tanaman kedelai merupakan salah satu cara untuk
membantu menghasilkan varietas baru kedelai yang unggul.
Upaya penemuan varietas unggul dengan cara pemuliaan tanaman secara
konvensional membutuhkan waktu yang lama dan biaya yang besar. Kendala
tersebut dapat diatasi dengan memanfaatkan informasi yang diperoleh dari analisis
genom pada tanaman kedelai tersebut, yaitu berupa markah single nucleotide
polymorphism beserta asosiasi dengan fenotipenya. Single nucleotide
polymorphism atau SNP (diucapkan “snips”) didefinisikan sebagai variasi dalam
urutan DNA yang terjadi ketika sebuah nukleotida tunggal A, T, C, G dalam genom
berbeda antar anggota spesies (antar kromosom berpasangan dalam individu).
Ketika SNP terjadi di dalam gen, tercipta varian yang berbeda (alel) pada gen
tersebut. Menurut Azrai (2005), SNP adalah salah satu penanda molekuler yang
dapat digunakan untuk mempercepat usaha pemuliaan tanaman. Identifikasi SNP
dapat menggunakan beberapa program komputer untuk menghasilkan informasi
SNP. Li et al. (2009) menggunakan SAMtools untuk membantu identifikasi SNP.
Identifikasi SNP sangat penting untuk membantu proses penyilangan menjadi lebih
efektif dan efisien.
Kusuma et al. (2013) telah melakukan penelitian yang menghasilkan sebuah
sistem yang diberi nama ISNIP (Integrated SNP Identification Pipeline). Sistem ini
mampu mengintegrasikan beberapa program dalam satu kesatuan pipeline untuk
identifikasi SNP. Pipeline tersebut dilengkapi dengan antarmuka berbasis web
untuk memudahkan pengguna dalam melakukan proses identifikasi SNP. Sistem ini
memiliki beberapa tahapan dalam melakukan identifikasi SNP yang mengacu pada
Altmann et al. (2012). Tahapan-tahapannya, antara lain sequence alignment,
alignment post-process, variant calling, filtering SNP candidates, dan making sense
of SNP data. Namun, kendala terjadi karena keluaran dari sistem tersebut adalah
informasi SNP yang disimpan dalam fail berformat variant call format (VCF). Fail
dengan format tersebut sulit dimengerti dan diolah oleh peneliti pemuliaan. Oleh
karena itu, diperlukan sebuah sistem yang mampu melakukan proses penyimpanan
informasi SNP kedelai dari fail VCF tersebut, termasuk informasi pendukung
lainnya yaitu flanking area dan reference SNP. Flanking area adalah informasi
DNA yang berada di sekitar SNP yang dapat dimanfaatkan untuk memudahkan
peneliti pemuliaan menganalisa SNP lebih lanjut. Reference SNP dapat
didefinisikan sebagai nomor identifikasi referensi dari basis data SNP NCBI
(National Center for Biotechnology Information).
Pada penelitian ini akan diintegrasikan basis data yang menyimpan informasi
berupa SNP kedelai dan informasi pendukung lainnya dengan proses dari pipeline

2
sistem ISNIP yang akan dirancang menjadi suatu proses tambahan dari sistem
tersebut. Selain itu, sistem ini juga dilengkapi fasilitas pencarian untuk
memudahkan peneliti pemuliaan menemukembalikan informasi SNP yang sudah
melalui tahapan proses identifikasi SNP dan tersimpan ke basis data pada sistem
tersebut.

Perumusan Masalah
ISNIP merupakan sistem yang mampu melakukan identifikasi SNP. Untuk
melakukan identifikasi SNP harus melewati beberapa proses hingga akhirnya
menghasilkan informasi SNP. Informasi SNP dalam sistem itu dihasilkan dalam
bentuk fail berformat VCF. Namun, informasi SNP yang disimpan dalam fail
berformat VCF sulit untuk dimengerti dan diolah oleh peneliti pemuliaan. Oleh
karena itu, dibutuhkan suatu sistem yang mampu mengintegrasikan proses dalam
sistem ISNIP. Sistem tersebut nantinya mampu mengolah dan menyimpan data
informasi SNP dan informasi pendukung lainnya ke dalam basis data. Hal tersebut
merupakan salah satu cara untuk membantu peneliti pemuliaan mengolah data
informasi SNP. Selain itu juga diberikan fasilitas pencarian untuk
menemukembalikan informasi kandidat SNP yang revelan dengan pencarian yang
diinginkan peneliti pemuliaan.

Tujuan Penelitian
Tujuan dari penelitian ini adalah membangun sistem yang mampu memilah
informasi yang penting dari fail VCF, menyimpannya ke dalam basis data dan
mengintegrasikannya dengan pipeline sistem ISNIP serta informasi pendukung
lainnya terkait identifikasi SNP.

Manfaat Penelitian
Manfaat dari penelitian ini adalah memudahkan pengolahan dan pencarian
informasi pada basis data single nucleotide polymorphism tanaman kedelai serta
membantu mempercepat perakitan varietas kedelai yang unggul.

Ruang Lingkup Penelitian
Lingkup dari penelitian ini, antara lain:
1 Data yang digunakan adalah data hasil dari proses identifikasi SNP pada sistem
ISNIP, serta data SNP kedelai dari NCBI.
2 Pengujian sistem dilakukan hanya menggunakan subset dari data sekuens
kedelai.

3

METODE
Dalam penelitian ini, integrasi basis data dan pipeline SNP menggunakan
pendekatan metode waterfall dengan tahapan yang mengacu pada Pressman (2010)
yang disesuaikan dengan penelitian ini. Tahapan penelitian ini dapat dilihat pada
Gambar 1.

Pengumpulan Data

Analisis

Perancangan

Implementasi

Pengujian

Gambar 1 Tahapan penelitian
Pengumpulan Data
Data yang digunakan pada penelitian ini terdiri atas tiga jenis. Data yang
pertama adalah data dengan fail berformat VCF yang didapatkan dengan cara
menjalankan semua proses sistem ISNIP. Untuk percobaan, pada penelitian ini
digunakan empat varietas tanaman kedelai. Data informasi SNP varietas kedelai
berformat VCF ini dapat dilihat pada Tabel 1.
Tabel 1 Data informasi SNP varietas kedelai berformat VCF
Nama varietas kedelai
Banyak informasi
kandidat SNP
B3293 5M
1819
Grobogan
2975
Dafrost
7971
Malabar
10335
Data ini merupakan data kandidat SNP yang nantinya akan diproses dan
disimpan ke dalam basis data. Kemudian data yang kedua adalah data reference
tanaman kedelai dengan fail berformat FASTA yang diunduh dari situs NCBI. Data

4
ini untuk mendapatkan informasi pendukung, yaitu berupa flanking area untuk
setiap SNP kedelai yang disimpan ke dalam basis data. Data yang ketiga adalah data
SNP kedelai yang diambil dari basis data situs resmi NCBI, yang terdiri atas 20
kromosom dengan kurang lebih 12 000 000 kemunculan SNP kedelai. Data ini
digunakan untuk memperbarui id data informasi SNP yang masih kosong dan diisi
oleh id reference SNP. Tujuannya untuk membandingkan data informasi SNP hasil
dari pipeline ISNIP dengan data informasi SNP kedelai dari NCBI.

Analisis
Tahapan awal dalam metode waterfall (Pressman 2010) pada penelitian ini
adalah analisis. Pada tahapan ini akan dilakukan analisis untuk menyelesaikan
permasalahan pada penelitian ini terkait proses integrasi. Di dalam tahapan analisis
mencakup pendefinisian permasalahan dan pendefinisian kebutuhan fungsional.
Pada penelitian ini juga terkait dengan pemrosesan data. Untuk itu, pada tahapan
ini juga dilakukan analisis data fail berformat VCF, fail berformat FASTA, dan data
SNP kedelai dari NCBI, karena data tersebut memiliki format atau model yang
berbeda-beda. Analisis data dilakukan untuk membantu mendapatkan informasi
atribut-atribut apa saja yang dibutuhkan untuk perancangan basis data.

Perancangan
Pada tahapan ini dilakukan perancangan basis data SNP, perancangan
antarmuka, baik untuk fasilitas pencarian maupun proses integrasi. Tahapan ini juga
mencakup perancangan arsitektur sistem integrasi basis data SNP dan sistem ISNIP.
Arsitektur tersebut memperlihatkan komponen-komponen dari sistem yang
dibangun beserta dengan fungsi-fungsi, antara lain: pemilahan informasi SNP dari
fail VCF dan informasi pendukung SNP dari fail FASTA, hingga data tersimpan ke
dalam basis data. Tahapan ini dilakukan untuk mempermudah tahap implementasi
sistem.

Implementasi
Sistem yang sudah dirancang pada tahapan perancangan akan direalisasikan
dalam tahapan implementasi. Pada tahapan ini mencakup penentuan perangkat
lunak dan perangkat keras untuk pengembangan sistem, antarmuka sistem proses
integrasi maupun fasilitas pencarian, kode program, serta implementasi proses
integrasi basis data SNP dan pipeline ISNIP yang telah dirancang pada tahap
perancangan.

Pengujian
Tahapan pengujian dilakukan untuk mengetahui apakah sistem sudah bekerja
sesuai dengan kebutuhan. Metode yang digunakan dalam pengujian adalah metode
black box yang difokuskan pada kebutuhan fungsional sistem (Pressman 2010). Hal

5
tersebut juga mencakup pengujian data yang diintegrasikan dengan sistem ISNIP
dan pengujian keyword pada fasilitas pencarian. Sebelum sistem yang dibangun
digunakan oleh pengguna secara keseluruhan, hasil pengujian dapat
memperlihatkan keberhasilan kinerja sistem tersebut.

HASIL DAN PEMBAHASAN
Analisis
Permasalahan pada penelitian ini adalah pengguna sulit untuk memahami dan
mengolah fail berformat VCF yang diperoleh dari proses identifikasi SNP pada
sistem ISNIP. Pengguna dalam sistem ini adalah peneliti pemuliaan. Permasalahan
lain adalah kurangnya informasi pendukung untuk membantu identifikasi SNP
tanaman kedelai. Untuk itu, perlu adanya solusi untuk mengatasi masalah tersebut
yaitu dengan mengintegrasikan pipeline dan basis data yang menyimpan informasi
berupa SNP kedelai dan informasi pendukung lainnya. Proses tersebut
diimplementasikan dalam sistem ISNIP untuk menjadi proses tambahan dari
proses-proses yang sebelumnya sudah ada dalam sistem tersebut. Kebutuhan lain
pengguna adalah fasilitas untuk membantu menemukembalikan informasi SNP
yang telah diproses pada sistem ISNIP. Untuk itu, penelitian ini juga dilakukan
pembangunan fasilitas pencarian dalam sistem ISNIP tersebut.
Analisis Data
Data pertama yang dianalisis berformat VCF diperoleh dari pipeline ISNIP.
Fail tersebut merupakan informasi utama mengenai SNP. Format data dengan
atribut tertentu bisa dilihat pada Gambar 2.

Gambar 2 Format data SNP fail berformat VCF
Untuk data pertama dengan atribut secara lengkapnya dapat dilihat pada
Lampiran 1. Dari Gambar 2 dapat dilihat berdasarkan huruf awal untuk setiap
barisnya bahwa fail tersebut bisa dikelompokkan menjadi dua bagian, yaitu: diawali
simbol ‘#’ dan tidak diawali simbol ‘#’.
Bagian yang diawali dengan ‘#’ merupakan header yang berisikan info dan
format penjelasan mengenai isi data SNP. Pada bagian ini tidak diproses atau
digunakan untuk proses integrasi pipeline dan basis data. Pada bagian ini hanya
baris terakhir yang akan digunakan karena memberikan informasi untuk atribut-

6
atribut basis data nantinya, antara lain: chrom (kromosom), pos (posisi), id, ref
(referensi), alt (alternatif), qual (kualitas), filter, info, dan format.
Bagian yang tidak diawali dengan ‘#’ merupakan informasi SNP yang
dihasilkan dari proses pipeline. Bagian ini untuk setiap barisnya memiliki pemisah
yang dipisahkan oleh ‘tab’, artinya untuk setiap bagian yang dipisahkan oleh ‘tab’
mengandung informasi di setiap atributnya. Sebagai contoh:
#CHROM
10

POS
1417490

ID
.

REF
C

ALT
T

QUAL
9.31

FILTER
.

10
: mengandung informasi atribut chrom.
1417490 : mengandung informasi atribut pos.
.
: mengandung informasi atribut id.
C
: mengandung informasi atribut ref.
T
: mengadung informasi atribut alt.
9.31
: mengandung informasi atribut qual.
.
: mengandung informasi aribut filter.
Pada contoh data tersebut, tanda “.” memiliki arti bahwa informasi masih
kosong. Pada penelitian ini, bagian ini nantinya akan diseleksi untuk disimpan ke
dalam basis data dengan memperhatikan nilai minimal kualitas SNP dan nukleotida
tunggal.
Data kedua yang digunakan adalah fail berformat FASTA (.fa). Format data
bisa dilihat pada Gambar 3.
-

Gambar 3 Format data fail berformat FASTA
Data tersebut pada intinya mengandung informasi DNA tanaman kedelai.
Data ini digunakan untuk mendapatkan flanking area dengan memanfaatkan posisi
SNP yang diperoleh pada informasi SNP berformat VCF. Panjang flanking area
idealnya untuk memudahkan peneliti menganalisa adalah 200-300 pasang basa.
Untuk memudahkan memahami definisi flanking area akan diberikan sebuah
ilustrasi contoh yang dapat dilihat pada Gambar 4.

Gambar 4 Ilustrasi definisi flanking area
Pada Gambar 4 diberikan sebuah ilustrasi dengan SNP berada pada posisi 30.
Dengan informasi posisi tersebut dapat diperoleh flanking area yang berada pada
posisi indeks ke-29 ke bawah dan indeks ke-31 ke atas.

7
Data ketiga yang digunakan merupakan data SNP kedelai dengan fail yang
diperoleh dari basis data NCBI. Fail ini berformat VCF. Format data bisa dilihat
pada Gambar 5.

Gambar 5 Format data SNP kedelai dari NCBI
Data ini bentuk maupun formatnya memiliki kesamaan dengan data pertama
informasi SNP yang diperoleh pada penelitian sebelumnya. Data secara
keseluruhan dapat dilihat pada Lampiran 2. Pada data ini hanya atribut chrom, pos
dan id yang digunakan untuk proses integrasi. Apabila data hasil percobaan proses
pipeline sistem ISNIP memiliki kesamaan dalam chrom dan pos dengan salah satu
data NCBI ini, maka ID pada data hasil percobaan akan diperbarui dengan diisi oleh
id reference SNP dari basis data SNP NCBI. Tujuannya untuk membandingkan
antara data SNP dari percobaan pipeline ISNIP dan data pada basis data SNP
kedelai dari NCBI.
Analisis Kebutuhan Fungsional
Analisis kebutuhan fungsional dilakukan untuk mengetahui fungsi-fungsi
yang dibutuhkan sistem. Fungsi yang dibutuhkan dapat dilihat pada Tabel 2.
Tabel 2 Kebutuhan fungsional
No Kebutuhan fungsional
Deskripsi kebutuhan fungsional
1
Membaca fail VCF
Fungsi untuk membaca fail VCF dan
memproses data tersebut.
2
Mengambil informasi
Fungsi untuk mengambil informasi
flanking area
flanking area dengan memanfaatkan posisi
3
Memperbarui data SNP
SNP.
pada atribut id.
Fungsi untuk memperbarui id data SNP
4
Pencarian data berdasarkan yang masih kosong.
kromosom dan posisi SNP
Fungsi untuk melakukan pencarian data
berdasarkan kromosom dan posisi SNP
5
Pencarian data lanjutan
tertentu.
Fungsi untuk melakukan pencarian data
dengan beberapa keyword berdasarkan
atribut tertentu

8
Analisis kebutuhan fungsional juga digambarkan dalam bentuk use case
diagram. Use case diagram dapat dilihat pada Gambar 6.

Gambar 6 Use case diagram

Perancangan
Perancangan Basis Data
Pada tahapan ini dilakukan perancangan basis data terkait data tersebut. Perlu
diperhatikan bahwa yang akan disimpan dalam basis data adalah informasi SNP dan
informasi pendukung lainnya. Untuk keperluan penyimpanan informasi SNP ini
dibutuhkan sebuah tabel, yaitu tabel SNP. Tabel-tabel lain bersifat sebagai
pendukung, yaitu tabel user, proses dan job sudah dirancang sebelumnya pada
sistem ISNIP. Atribut dan tipe data dalam tabel SNP dapat dilihat pada Tabel 3.
Tabel SNP ini sudah termasuk informasi pendukung lainnya, yaitu id yang
diperbarui, flank_left, dan flank_right. Tabel ini yang menyimpan informasi SNP
yang diperoleh dari proses identifikasi SNP sistem ISNIP. Untuk desain basis data
dapat dilihat pada Lampiran 3.

9

Atribut
Chrom
Pos
Id
Ref
Alt
qual
filter
info
GT
PL
GQ
flank_left
flank_right

Tabel 3 Rincian tabel SNP
Deskripsi
Kromosom
Posisi SNP
Id SNP
Referensi
Alternatif
Kualitas SNP
Filter SNP
Informasi
Genotipe SNP
List of Phred-scaled genotype likelihoods
Kualitas genotipe
Flanking area sebelum posisi SNP
Flanking area setelah posisi SNP

Perancangan Antarmuka
Rancangan antarmuka untuk proses integrasi menggunakan antarmuka yang
sudah tersedia pada sistem ISNIP karena proses integrasi ini akan dirancang
menjadi bagian proses tambahan pada sistem ISNIP. Untuk fasilitas pencarian,
setelah melihat bentuk data-data yang digunakan, maka fasilitas pencarian data
dibagi menjadi dua, yaitu pencarian berdasarkan kromosom dan posisi SNP serta
pencarian lanjutan (advanced search). Selain itu, pengguna juga diberi kemudahan
untuk menyimpan hasil pencarian ke dalam fail excel melalui fitur export to excel.
Hal tersebut dibuat karena data-data yang akan dicari memiliki atribut yang banyak
dan data yang dicari juga banyak. Rancangan antarmuka fasilitas pencarian
berdasarkan kromosom dan posisi SNP dapat dilihat pada Gambar 7.

Gambar 7 Rancangan antarmuka pencarian berdasarkan kromosom dan posisi SNP

10
Rancangan antarmuka pencarian lanjutan dapat dilihat pada Lampiran 4,
rancangan antarmuka hasil pencarian dapat dilihat pada Lampiran 5, dan rancangan
detail data SNP dapat dilihat pada Lampiran 6.
Perancangan Arsitektur Sistem
Untuk mengintegrasikan pipeline dan basis data, maka diperlukan proses
integrasi tersebut. Alur proses integrasi antar data dirancang dalam bentuk
arsitektur sistem. Arsitektur sistem proses integrasi dapat dilihat pada Gambar 8.

Gambar 8 Arsitektur sistem proses integrasi
Dari arsitektur sistem di atas dapat dijelaskan bahwa tahapan proses
identifikasi SNP pada sistem ISNIP menghasilkan fail berformat VCF, kemudian
diolah untuk setiap barisnya dengan mengabaikan baris yang diawali simbol ‘#’.
Dalam pengolahan data tersebut, yang diperhatikan untuk seleksi masuk ke dalam
basis data adalah nilai minimal kualitas dan nukleotida tunggal atau tidak.
Kemudian sistem menggunakan pos (posisi) untuk setiap atributnya dan digunakan
untuk mendapatkan flanking area yang diperoleh dari data pada fail FASTA. Di sisi
lain juga menggunakan chrom dan pos untuk setiap atributnya dan digunakan untuk
membandingkan dengan data dari NCBI untuk mendapatkan id references SNP.
Proses ini berlangsung hingga akhirnya data saling terintegrasi dan disimpan ke
dalam basis data.
Implementasi
Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk
implementasi dalam penelitian ini adalah sebagai berikut:
1 Perangkat Lunak
 Ubuntu 13.10 Desktop AMD64.

11
 MySQL sebagai perangkat lunak sistem manajemen basis data SQL (DBMS).
 XAMPP untuk konfigurasi Apache, MySQL, dan bahasa pemrograman PHP.
 Text Editor sebagai aplikasi untuk mengedit kode program implementasi
penelitian.
2 Perangkat Keras
 Processor Intel Core i5-3230M @ 2.60 GHz
 Memory 4 GB RAM
 VGA ATI Radeon 2GB
 Hardisk: 512GB.
Implementasi Antarmuka Sistem
Antarmuka yang telah dirancang kemudian diimplementasikan dalam sistem
ISNIP. Sistem ISNIP dibangun menggunakan Yii Framework, maka proses juga
diimplementasikan menggunakan Yii Framework dengan bahasa pemrograman
PHP. Implementasi antarmuka proses integrasi yang menjadi proses tambahan
dalam sistem ISNIP merupakan implementasi antarmuka awal pada sistem ISNIP
tersebut. Proses tersebut diimplementasikan menjadi proses ke-6 dalam proses
identifikasi SNP sistem ISNIP. Implementasinya dapat dilihat pada Gambar 9 dan
fasilitas pencarian berdasarkan kromosom dan posisi SNP dapat dilihat pada
Gambar 10.

Gambar 9 Implementasi antarmuka proses integrasi basis data dan pipeline

12

Gambar 10 Implementasi antarmuka fasilitas pencarian berdasarkan kromosom
dan posisi SNP
Untuk implementasi antarmuka pencarian lanjutan, hasil pencarian dan detail data
SNP tertentu dapat dilihat pada Lampiran 7, 8, dan 9.
Hasil pencarian yang diperoleh adalah data SNP yang revelan dengan
keyword yang dimasukkan. Data yang ditampilkan dalam hasil pencarian berupa
data singkat SNP yang bisa dilihat secara keseluruhan pada bagian detail data, serta
bisa dibandingkan dengan reference SNP yang merujuk ke data SNP di situs resmi
NCBI.
Kode Program
Perlu diperhatikan bahwa implementasi proses integrasi harus mampu bekerja
secara paralel, dalam arti bisa menjalankan proses secara bersamaan. Untuk itu,
proses integrasi dibuat berjalan di belakang layar (background process) sehingga
tidak memberatkan kinerja sistem di mana proses itu dijalankan dan pengguna juga
tidak perlu menunggu saat proses sedang berjalan. Psedoucode alur proses integrasi
tersebut dapat dilihat pada Gambar 11.

13

Gambar 11 Pseudocode proses integrasi basis data dan pipeline

Pengujian
Fungsi-fungsi yang telah diimplementasikan secara keseluruhan telah diuji
dan berfungsi dengan baik. Hasil pengujian dapat dilihat pada Lampiran 10.
Pengujian proses integrasi menghasilkan data informasi SNP beserta informasi
pendukung lainnya yang siap disimpan ke basis data. Data yang sesuai kriteria akan
diproses dan disimpan ke dalam basis data. Sebagian data mengalami perubahan id
karena memiliki kesamaan kromosom (chrom) dan posisi (pos) dengan data basis
data SNP kedelai dari NCBI. Contoh data setelah diproses dengan bagian yang
mengalami perubahan id maupun tidak dapat dilihat pada Gambar 12.

14

Gambar 12 Contoh hasil pemrosesan data
Pada Gambar 12 terlihat data dengan id dan flanking area yang sebelumnya masih
kosong. Setelah dilakukan proses integrasi, data tersebut mengalami perubahan.
Ada yang id-nya tetap kosong maupun yang sudah diperbarui.
Pengujian proses integrasi ini juga dilakukan dengan beberapa data varietas
kedelai yang berbeda, antara lain : B3293 5M, Grobogan, Dafrost, dan Malabar.
Pada pengujian ini menggunakan nilai minimal kualitas SNP sebesar 30. Hasil
pengujian dapat dilihat pada Tabel 4.
Tabel 4 Pengujian data varietas kedelai pada proses integrasi
Nama varietas Banyak
Data yang
Lama
Kecepatan ratakedelai
kandidat
masuk basis
proses
rata tiap data SNP
SNP
data
(detik)
(SNP/data)
B3293 5M
1819
1602
1573.233
0.982
Grobogan
2975
1548
1377.651
0.889
Dafrost
7971
4893
4806.956
0.982
Malabar
10335
6150
6180.058
1.005
Pada Tabel 4 terlihat waktu proses yang berbeda dan lama. Hal tersebut terjadi
karena data yang diolah berbeda dan sangat banyak termasuk proses dimana data
melakukan pencarian kromosom dan posisi pada data SNP dari NCBI yang
digunakan untuk mendapatkan id reference SNP. Selain itu juga karena
keterbatasan perangkat keras yang digunakan untuk menjalankan sistem ini.
Pengujian fasilitas pencarian dilakukan untuk mengetahui kesesuaian
keyword yang dimasukkan dengan data hasil pencarian. Hasil pencarian data
informasi SNP kedelai dapat dilihat pada Gambar 13.

15

Gambar 13 Hasil pencarian lanjutan informasi SNP kedelai
Gambar 13 menunjukkan hasil pencarian lanjutan dengan beberapa keyword,
antara lain:
1 Data yang dicari adalah “All Jobs”, artinya menggunakan semua data pengguna
tersebut untuk dicari.
2 Posisi SNP mulai dari 1 hingga 200 000 000.
3 Keyword kromosom 10, references G, dan alternative T.
Hasil pencarian diimplementasikan dalam bentuk tabel dengan beberapa
atribut. Hasil pencarian memberikan informasi atribut job dengan nama varietas
kedelainya adalah Dafrost pada kromosom ke-10. Salah satu informasi SNP berada
pada posisi DNA ke-10110067 ternyata memiliki kesamaan kromosom dan posisi
dengan data dari NCBI. Id yang awalnya masih bertanda titik atau kosong
diperbarui dan diisi oleh id reference rs124817087 dari data NCBI. Data SNP
tersebut bisa dibandingkan langsung dengan mengklik id data SNP yang akan
mengakses situs data SNP NCBI. Informasi SNP juga tak lepas dari informasi
referensi dan alternatifnya. Referensi kedelai yang digunakan untuk proses
identifikasi SNP pada kromosom 10 dan posisi ke-10.110.067 adalah basa G. Pada
kromosom dan posisi yang sama varietas Dafrost memiliki perbedaan basanya,
yaitu basa T. Atribut qual artinya kualitas SNP memiliki nilai 84 dan atribut filter
yang masih kosong, yang artinya belum dilakukan penyaringan berdasarkan kriteria
tertentu oleh peneliti pemuliaan. Atribut GT atau genotipe memiliki bentuk x/x. Hal
tersebut terjadi dikarenakan kedelai merupakan tanaman diploid, maka memiliki sel
dengan dua set genom. Genotipe tersebut bisa berisi angka 1 atau 0. Angka 1 artinya
gen pada posisi tertentu sama dengan alternatifnya dan angka 0 artinya sama dengan
referensi. Sebagai contoh, Genotipenya adalah 1/1, yang artinya dari jantan maupun
betina adalah T atau homozigot. Atribut PL atau list of phred-scaled genotype
likelihoods salah satu contoh memberikan nilai 117,27,0, yang artinya nilai
kemungkinan alternatif genotipenya sebesar 117, nilai kemungkinan heterozigotnya
sebesar 27, dan nilai kemungkinan homozigot yang sesuai dengan referensinya

16
sebesar 0. Informasi SNP juga memberikan nilai kualitas genotipe pada atribut GQ.
Salah satu contoh hasil pencarian data SNP memberikan nilai 51.
Kontribusi Penelitian
Dari semua tahapan penelitian ini, maka diperoleh beberapa keuntungan
dengan adanya proses tambahan maupun fasilitas pencarian, antara lain :
1 Peneliti pemuliaan atau pengguna dapat mengolah data SNP kedelai untuk
pemuliaan kedelai.
2 Dengan adanya fasilitas pencarian, maka peneliti pemuliaan akan lebih mudah
untuk menemukembalikan informasi SNP kedelai yang relevan, termasuk
menyimpan hasil pencariannya dalam bentuk fail excel.
3 Dengan adanya informasi pendukung, maka informasi peneliti pemuliaan tidak
terbatas hanya mengidentifikasi SNP dari percobaan yang dilakukan, melainkan
mampu membandingkan dengan data SNP kedelai dari NCBI yang terbukti baik
kualitas SNP-nya dan mampu melihat nukleotida di sekitar SNP (flanking area).

SIMPULAN DAN SARAN
Simpulan
Penelitian ini berhasil menghasilkan suatu sistem untuk melakukan proses
integrasi basis data dan pipeline SNP pada sistem ISNIP. Sistem yang dihasilkan
mampu mengekstrak informasi SNP kedelai dari fail VCF dan mengintegrasikan
dengan informasi data pendukung lainnya baik yang berasal dari fail FASTA
maupun fail VCF yang berasal dari NCBI. Sistem ini juga mampu membantu
peneliti pemuliaan untuk mengolah dan menemukembalikan data informasi SNP
yang relevan. Kinerja sistem mampu memilah informasi SNP dari fail VCF,
membandingkannya dengan NCBI dan menyimpannya ke dalam basis data dengan
kecepatan rata-rata 0.964 SNP per detik.
Saran
Berdasarkan penelitian yang telah dilakukan, saran untuk penelitian
selanjutnya adalah mencoba penelitian dengan menerapkan proses overlapping
dalam melakukan proses integrasi. Jadi, proses integrasi tidak perlu menunggu
hingga semua informasi tersimpan ke dalam fail VCF, melainkan bisa langsung
memproses data secara overlapping agar kecepatan memproses data lebih cepat.
Selain itu, perlu menambahkan informasi pendukung lainnya yang diperlukan untuk
analisa SNP lebih lanjut agar informasi SNP tidak hanya terbatas dari informasi
hasil dari fail VCF.

17

DAFTAR PUSTAKA
Altmann A, Weber P, Bader D, Preu M, Binder EB, Myhsok BM. 2012. A beginners
guide to SNP calling from high-throughput DNA-sequencing data. Human
Genetics. 131(10):1541–54.
Atman. 2009. Strategi peningkatan produksi kedelai di Indonesia. Jurnal Ilmiah
Tambua. 8(01):39-45.
Azrai M. 2005. Pemanfaatan markah molekuler dalam proses seleksi pemuliaan
tanaman. Jurnal AgroBiogen. 1(1):26-37.
Li H, Handsaker B, Wysoker A, Fenell T, Ruan J, Homer N, Marth G, Abecasis G,
Durbin R. 2009. The sequence alignment/map format and SAMtools.
Bioinformatic. 25(16):2078-2079.
Pressman RS. 2010. Software Engineering A Partitioner’s Approach. Ed ke-7. New
York (US): McGraw-Hill.
Tiwari S, Shanker P, Tripathi M. 2004. Effects of genotype and culture medium on
in vitro androgenesis in soybean. Indian Journal of Biotechnology. 3: 441-444.
Kusuma WA, Tasma IM, Buono A, Hidayat M, Rijzaani H, Haryanto T, Istiadi MA.
2013. Pengembangan Sistem Identifikasi dan Analisis Single Nucleotide
Polymorphism untuk Pemuliaan Tanaman Kedelai. Laporan Hasil Penelitian
KKP3N. Institut Pertanian Bogor.

18
Lampiran 1 Data fail VCF hasil proses identifikasi SNP pada sistem ISNIP

19
Lampiran 2 Data fail VCF dari NCBI

20
Lampiran 3 Desain basis data

Lampiran 4 Rancangan antarmuka pencarian lanjutan

21
Lampiran 5 Rancangan antarmuka hasil pencarian

Lampiran 6 Rancangan detail data SNP

22
Lampiran 7 Implementasi antarmuka fasilitas pencarian lanjutan

Lampiran 8 Implementasi antarmuka hasil pencarian

23
Lampiran 9 Implementasi antarmuka detail data SNP

24
Lampiran 10 Pengujian black box
No

Kebutuhan
fungsional

Keadaan
awal

1

Membaca
VCF

fail Halaman
“My Jobs”
dan basis
data masih
kosong

2

Mengambil
informasi
flanking area

3

Memperbarui
Halaman
data SNP pada “My Jobs”
atribut id.
dan basis
data masih
kosong

4

Pencarian data Halaman
“Search”
berdasarkan
kromosom dan
posisi SNP

5

Pencarian
lanjutan

Halaman
“My Jobs”
dan basis
data masih
kosong

data Halaman
“Advanced
Search”

Skenario uji

Hasil yang
diharapkan

Job selesai
dijalankan
sampai proses
ke-6 dan data
tersimpan ke
basis data sesuai
atribut
Melakukan
Job
selesai
submit
job dijalankan
dan
sampai proses
menjalankan ke-6
dan
proses
flanking
area
tersimpan
ke
basis data
Melakukan
Job selesai
submit job
dijalankan
dan
sampai proses
menjalankan ke-6 dan id terisi
proses
oleh id dari data
SNP kedelai
NCBI
Ketikkan
Tampilan hasil
nilai posisi
pencarian
awal dan
berdasarkan
akhir di
inputan
pencarian dan pencarian
klik tombol
“search”
Ketikkan
Tampilan hasil
nilai posisi
pencarian
awal dan
berdasarkan
akhir serta
inputan
keyword
pencarian
berdasarkan
atribut di
pencarian dan
klik tombol
“search”
Melakukan
submit job
dan
menjalankan
proses

Hasil
uji
Ok

Ok

Ok

Ok

Ok

25

RIWAYAT HIDUP
Penulis dilahirkan di Rembang pada tanggal 25 Oktober 1991 dari pasangan
Bapak Chamzawi dan Ibu Alfiyah. Penulis adalah putra keempat dari empat
bersaudara. Tahun 2010 penulis lulus dari SMA Negeri 2 Rembang dan pada tahun
yang sama penulis lulus seleksi masuk Institut Pertanian Bogor (IPB) melalui
Undangan Seleksi Masuk IPB dan diterima di Departemen Ilmu Komputer,
Fakultas Matematika dan Ilmu Pengetahuan Alam.
Selama menjadi mahasiswa, penulis aktif menjadi asisten praktikum
Algoritme dan Pemrograman pada tahun ajaran 2012/2013 dan 2013/2014, asisten
praktikum Penerapan Komputer pada tahun ajaran 2012/2013. Pada tahun 2013,
penulis melaksanakan kegiatan praktik kerja lapangan (PKL) di Kantor Republika
Online Jakarta selama 40 hari kerja. Selama perkuliahan, penulis juga aktif
mengajar mata kuliah Kalkulus di bimbingan belajar Gemilang Excellent dan tutor
TPB IPB. Penulis juga mengikuti organisasi di Paguyuban Karya Salemba Empat
IPB. Penulis juga pernah membangun sistem pendukung keputusan untuk salah satu
perbankan di Indonesia. Penulis merupakan penerima Beasiswa Karya Salemba
Empat.

Integrasi basis data dan pipeline single nucleotide polymorphism untuk pemuliaan tanaman kedelai

Dokumen yang terkait

Pengembangan Kedelai sebagai Tanaman Sela: Fisiologi dan Pemuliaan untuk Toleransi terhadap Naungan

Identification of Single Nucleotide Polymorphism using Support Vector Machine on Imbalanced Data

Application of Decision Tree Classifier for Single Nucleotide Polymorphism Discovery from NextGeneration Sequencing Data

Validasi Single Nucleotide Polymorphisms (Snp) Berbasis Genom Dan Pemanfaatannya Untuk Uji Kekerabatan 50 Aksesi Kedelai

Pengaruh Teknik Seleksi Fitur Terhadap Performa Pengidentifikasi Single Nucleotide Polymorphism Pada Genom Kedelai.

Identifikasi Single Nucleotide Polymorphism pada Genom Kedelai Menggunakan Metode Genetic Programming

Mining Significant Resistant Single Nucleotide Polymorphism Subset Using Apriori Technique.

5. The Single Nucleotide Polymorphism Database (dbSNP) of Nucleotide Sequence Variation - 5.dbSnp of nucleotide Seq Variation

Identification of Single Nucleotide Polymorphism on Growth Hormone Gene in Aceh Cattle

Genome-wide single nucleotide polymorphism discovery and validation in adzuki bean

Dukungan

Links

Integrasi basis data dan pipeline single nucleotide polymorphism untuk pemuliaan tanaman kedelai

Dokumen yang terkait

Pengembangan Kedelai sebagai Tanaman Sela: Fisiologi dan Pemuliaan untuk Toleransi terhadap Naungan

Identification of Single Nucleotide Polymorphism using Support Vector Machine on Imbalanced Data

Application of Decision Tree Classifier for Single Nucleotide Polymorphism Discovery from NextGeneration Sequencing Data

Validasi Single Nucleotide Polymorphisms (Snp) Berbasis Genom Dan Pemanfaatannya Untuk Uji Kekerabatan 50 Aksesi Kedelai

Pengaruh Teknik Seleksi Fitur Terhadap Performa Pengidentifikasi Single Nucleotide Polymorphism Pada Genom Kedelai.

Identifikasi Single Nucleotide Polymorphism pada Genom Kedelai Menggunakan Metode Genetic Programming

Mining Significant Resistant Single Nucleotide Polymorphism Subset Using Apriori Technique.

5. The Single Nucleotide Polymorphism Database (dbSNP) of Nucleotide Sequence Variation - 5.dbSnp of nucleotide Seq Variation

Identification of Single Nucleotide Polymorphism on Growth Hormone Gene in Aceh Cattle

Genome-wide single nucleotide polymorphism discovery and validation in adzuki bean

Dokumen yang Anda mencari sudah siap untuk unduhkan