Identifikasi Single Nucleotide Polymorphism pada Genom Kedelai Menggunakan Metode Genetic Programming

IDENTIFIKASI SINGLE NUCLEOTIDE POLYMORPHISM
PADA GENOM KEDELAI MENGGUNAKAN
METODE GENETIC PROGRAMMING

MUHAMMAD ABRAR ISTIADI

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa tesis berjudul Identifikasi Single
Nucleotide Polymorphism pada Genom Kedelai Menggunakan Metode Genetic
Programming adalah benar karya saya dengan arahan dari komisi pembimbing
dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun.
Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun
tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan
dalam Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, Januari 2015
Muhammad Abrar Istiadi
NIM G651120401

RINGKASAN
MUHAMMAD ABRAR ISTIADI. Identifikasi Single Nucleotide Polymorphism
pada Genom Kedelai Menggunakan Metode Genetic Programming. Dibimbing
oleh WISNU ANANTA KUSUMA dan I MADE TASMA.
Salah satu usaha peningkatan produksi kedelai (Glycine max) adalah melalui
pemuliaan tanaman untuk memaksimalkan potensi genetik yang ada pada tanaman
kedelai. Pemuliaan tanaman mutakhir berbasis marka molekuler atau marka DNA
mampu membuat proses pemuliaan menjadi lebih efisien dibandingkan pemuliaan
tanaman konvensional yang berbasis fenotipe. Salah satu marka molekuler
mutakhir yang mulai banyak diteliti adalah Single Nucleotide Polymorphism
(SNP) yang berupa perubahan atau variasi satu basa nukleotida pada sekuens
DNA. Penelitian ini bertujuan mengidentifikasi SNP yang ada pada genom
tanaman kedelai dengan menerapkan teknik Genetic Programming (GP) yang
merupakan metode evolutionary untuk membangun classifier berbasis rule.
Data yang digunakan pada penelitian ini merupakan sekuens DNA genom

kedelai dari beberapa aksesi kedelai budidaya. Data tersebut dijajarkan
(alignment) dengan sekuens DNA rujukan, kemudian dilakukan perhitungan
sejumlah fitur statistik, antara lain kualitas basa dan kedalaman penjajaran. Hasil
ekstraksi fitur tersebut diolah dengan GP sehingga dihasilkan rule klasifikasi yang
optimal untuk membedakan true SNP (variasi basa yang benar ada dalam genom)
dan false SNP (variasi basa yang timbul akibat kesalahan data sekuens).
Hasil percobaan menunjukkan bahwa classifier berbasis rule yang
dihasilkan oleh GP mampu mengklasifikasikan true dan false SNP dengan
sensitivity rata-rata di atas 90% dan specificity rata-rata di atas 80%. Hal ini
menandakan bahwa true SNP dapat teridentifikasi dengan baik. Namun demikian,
nilai precision hanya sekitar 30% yang berarti banyak terdapat false positive. Hal
ini berimplikasi bahwa banyak false SNP yang teridentifikasi sebagai true.
Banyaknya false positive ini disebabkan oleh distribusi kelas yang tidak
seimbang, yaitu perbandingan kelas true:false sekitar 1:9.
Dari sisi rule yang dihasilkan, GP dapat membentuk rule yang sederhana
dan dapat diinterpretasi dengan mudah. Salah satu pengetahuan hasil interpretasi
yang dapat diambil dari rule yang dihasilkan adalah bahwa faktor atau fitur yang
paling berperan dalam membedakan true dan false SNP adalah kualitas basa dari
sekuens DNA. Jika kualitas basa tinggi, maka cenderung merupakan true SNP
karena berarti kemungkinan kesalahan pada data sekuensnya kecil.

Kinerja dari classifier berbasis rule yang dihasilkan oleh GP juga
dibandingkan dengan algoritme klasifikasi C4.5 dan SVM dengan dataset yang
sama. Hasil perbandingan menunjukkan bahwa classifier GP secara umum
memiliki kinerja yang setara dengan C4.5 dan SVM, namun dengan keunggulan
bahwa classifier GP berupa rule yang sederhana dan dapat diinterpretasi
dibandingkan dengan decision tree hasil C4.5 yang cenderung kompleks dan
model SVM yang bersifat black box.
Kata kunci: genetic programming, single nucleotide polymorphism

SUMMARY
MUHAMMAD ABRAR ISTIADI. Single Nucleotide Polymorphism Discovery
from Soybean Genome using Genetic Programming. Supervised by WISNU
ANANTA KUSUMA and I MADE TASMA.
Plant breeding is a way to improve soybean (Glycine max) crop production
by maximizing the genetic potentials of the soybean plant. Modern plant breeding
method is based on molecular genetic markers found in the DNA. This genetic
marker-based breeding is proven to be more efficient than traditional phenotypebased breeding. The current popular genetic marker is Single Nucleotide
Polymorphism (SNP), which is defined as single base substitution or variation
found in the DNA sequence. The purpose of this study was to identify SNPs from
soybean genome using Genetic Programming (GP) method. GP is an evolutionary

computation technique to build and optimize a rule-based classifier.
The data used in this study were DNA sequences of soybean genome from
some cultivated soybean accessions. The data were aligned with a reference
sequence, and then some statistical features were computed, for example base
quality score and alignment depth, among others. The feature extraction results
were then processed by GP which generated an optimal rule-based classifier. This
classifier was used to distinguish true SNPs (the true variations in the genome)
and false SNPs (the variations caused by errors in the sequence).
Experiment showed that the rule-based classifier built by GP was able to
classify true and false SNP with average sensitivity over 90% and average
specificity over 80%. These values mean that most of the true SNPs could be
identified. However, the precision value was just about 30% which implied that
there were many false positives. The high rate of false positives means that there
were many false SNPs identified as true. This condition occurred because of the
imbalance in the class distribution of the data (the ratio of true:false is about 1:9).
Looking at the classification rules generated by GP, it could be seen that GP
was able to generate simple and comprehensible rules. One of the knowledge that
could be extracted from the generated rules was that the most important factor to
determine true or false SNPs were the base quality of the DNA sequence. A high
base quality tended to be a true SNP, which mean that the probability of error was

low.
The performance of rule-based classifier generated by GP was also
compared with C4.5 and SVM classification algorithm with the same dataset. The
comparison result showed that the GP-generated classifier was able to achieve
similar performance with C4.5 and SVM. Moreover, GP-generated classifier had
advantages of being a set of simple and understandable rules, compared to the
complex C4.5 decision tree and the black-box model of SVM.
Key words: genetic programming, single nucleotide polymorphism

© Hak Cipta Milik IPB, Tahun 2015
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau
menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian,
penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu
masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini dalam
bentuk apa pun tanpa izin IPB

IDENTIFIKASI SINGLE NUCLEOTIDE POLYMORPHISM
PADA GENOM KEDELAI MENGGUNAKAN

METODE GENETIC PROGRAMMING

MUHAMMAD ABRAR ISTIADI

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Ilmu Komputer
pada
Program Studi Ilmu Komputer

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015

Penguji Luar Komisi pada Ujian Tesis:

Dr Ir Agus Buono, MSi MKom

Judul Tesis

Nama
NIM

: Identifikasi Single Nucleotide Polymorphism pada Genom
Kedelai Menggunakan Metode Genetic Programming
: Muhammad Abrar Istiadi
: G651120401

Disetujui oleh
Komisi Pembimbing

Dr Eng Wisnu Ananta Kusuma, ST, MT
Ketua

Dr Ir I Made Tasma, MSc
Anggota

Diketahui oleh

Ketua Program Studi

Ilmu Komputer

Dekan Sekolah Pascasarjana

Dr Eng Wisnu Ananta Kusuma, ST, MT

Dr Ir Dahrul Syah, MScAgr

Tanggal Ujian:

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga tesis berjudul Identifikasi Single Nucleotide
Polymorphism pada Genom Kedelai Menggunakan Metode Genetic Programming
ini dapat diselesaikan.
Terima kasih penulis ucapkan kepada Dr Eng Wisnu Ananta Kusuma, ST,
MT serta Dr Ir I Made Tasma, MSc yang telah memberi saran dan masukan
selaku Komisi Pembimbing. Terima kasih pula kepada Bapak Habib Rijzaani,

MSi dan Bapak Dani Satyawan, MSi dari Balai Besar Litbang Bioteknologi dan
Sumberdaya Genetik Pertanian (BB-Biogen) Kementan yang telah memberi
arahan terkait topik yang diangkat dalam penelitian ini. Ucapan terima kasih juga
penulis sampaikan kepada Direktorat Jenderal Pendidikan Tinggi yang telah
membiayai penulis melalui program Beasiswa Unggulan, serta Kementan RI yang
telah membiayai penelitian dalam rangka Kerjasama Kemitraan Penelitian dan
Pengembangan Pertanian Nasional (KKP3N) 2014. Ungkapan terima kasih juga
disampaikan kepada ayah, ibu, serta istri dan putri tercinta, atas segala doa dan
kasih sayangnya selama penulis menyusun karya ilmiah ini.
Semoga karya ilmiah ini bermanfaat.

Bogor, Januari 2015
Muhammad Abrar Istiadi

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR


vi

GLOSARIUM

vii

PENDAHULUAN
Latar Belakang
Perumusan Masalah
Tujuan Penelitian
Manfaat Penelitian
Ruang Lingkup Penelitian

1
1
3
3
4
4


TINJAUAN PUSTAKA
Genomika Kedelai
Sequencing DNA
Marka Molekuler
Single Nucleotide Polymorphism
SNP Calling
Genetic Programming

4
4
4
6
6
7
8

METODE PENELITIAN
Alur Metode Penelitian
Data Sekuens Rujukan
Data Sekuens Reads
Data SNP Pelatihan
Penjajaran Sekuens
Ekstraksi Fitur
Optimasi Genetic Programming
Lingkungan Implementasi

10
10
11
11
11
12
12
14
17

HASIL DAN PEMBAHASAN
Ketidakseimbangan Distribusi Kelas
Pembangkitan Rule dengan GP
Klasifikasi dengan Rule Hasil Optimasi GP
Modifikasi Fungsi Fitness
Visualisasi dan Interpretasi Rule Set
Perbandingan dengan Penelitian Sebelumnya

18
18
18
23
28
33
36

KESIMPULAN DAN SARAN
Kesimpulan
Saran

38
38
38

DAFTAR PUSTAKA

39

LAMPIRAN

42

DAFTAR TABEL
1
2
3
4
5
6
7
8
9
10
11
12

Fitur-fitur SNP yang digunakan
Perbandingan algoritme optimasi GP
Parameter percobaan dengan GP
Kombinasi percobaan dengan GP
Rule set hasil optimasi masing-masing algoritme
Hasil klasifikasi dengan algoritme Bojarczuk
Hasil klasifikasi dengan algoritme De Falco
Hasil klasifikasi dengan algoritme Tan
Kombinasi percobaan dengan fungsi fitness modifikasi
Rule set algoritme De Falco dengan fungsi fitness modifikasi
Hasil klasifikasi dengan fungsi fitness Fss
Hasil klasifikasi dengan fungsi fitness Fpr

13
15
16
17
21
25
26
27
28
30
31
32

DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

Workflow umum metode NGS (Shendure dan Ji 2008)
Transition dan transversion
Ilustrasi SNP dari beberapa sekuens
Alur umum SNP calling
Contoh individu GP dalam bentuk rule (Espejo et al. 2010)
Ilustrasi operator crossover
Ilustrasi operator mutation
Metode penelitian
Alur optimasi dengan GP
Distribusi kelas pada setiap kromosom
Grafik fitness algoritme Bojarczuk
Grafik fitness algoritme De Falco
Grafik fitness algoritme Tan
Perbandingan waktu eksekusi algoritme
Confusion matrix untuk klasifikasi dua kelas
Plot sensitivity dan specificity dari seluruh percobaan
Grafik nilai fitness algoritme De Falco dengan fungsi fitness
sensitivity dan specificity
Grafik nilai fitness algoritme De Falco dengan fungsi fitness
sensitivity dan precision
Plot perbandingan hasil evaluasi algoritme De Falco dengan fungsi
fitness modifikasi
Visualisasi rule set dalam bentuk tree
Bagian pada hasil penjajaran dengan kedalaman tinggi
Perbandingan kinerja dengan metode C4.5
Perbandingan kinerja dengan metode SVM

5
6
7
8
9
9
9
10
16
18
19
20
20
23
23
28
29
30
32
34
35
36
37

GLOSARIUM
Aksesi Satuan dari koleksi plasma nutfah atau variasi dalam satu spesies yang
dapat disepadankan dengan genotipe, varietas, atau strain.
Alel Bentuk-bentuk alternatif dari gen pada suatu lokasi tertentu di dalam
kromosom. Contohnya, individu pertama memiliki alel T pada lokasi
tertentu, sedangkan individu kedua memiliki alel G pada lokasi yang sama.
Alignment Proses penjajaran dari sekuens-sekuens
kemiripannya.

DNA untuk

dicari

Basa Nukleotida Komponen penyusun bahan genetik yang pada DNA terdiri atas
empat jenis: A (adenin), G (guanin), T (timin), dan C (sitosin).
Base Pairs Satuan panjang sekuens yang dihitung berdasarkan jumlah basa
nukleotida yang menyusun sekuens tersebut.
DNA Bahan genetik makhluk hidup yang terdiri atas deretan basa nukleotida yang
menentukan sifat-sifat makhluk hidup tersebut.
Exome Bagian dari genom yang hanya terdiri atas exon, yaitu bagian genom yang
menyandikan protein.
Fenotipe Hasil dari ekspresi gen berupa sifat-sifat yang tampak dari makhluk
hidup, seperti warna kulit pada manusia atau ukuran buah pada tanaman.
Gen Unit pewarisan sifat makhluk hidup berupa segmen DNA yang fungsional
untuk mengkodekan protein tertentu.
Genom Seluruh bahan genetik (DNA) dari makhluk hidup yang juga mencakup
seluruh gen.
Genotipe Keadaan genetik dari individu berupa sifat yang ditentukan oleh gen.
Contohnya, individu dengan genotipe “AA” memiliki sifat warna bunga
ungu, sedangkan genotipe “aa” memiliki sifat warna bunga putih.
Indel Insertion dan deletion, variasi genetik yang berupa penambahan atau
pengurangan basa pada sekuens DNA.
Kedalaman Penjajaran Jumlah sekuens yang dijajarkan dengan sekuens rujukan
pada posisi tertentu.
Kromosom Struktur di dalam inti sel makhluk hidup yang terdiri atas molekul
DNA dan protein yang dipadatkan.

Reads Sekuens hasil pembacaan DNA makhluk hidup tertentu oleh mesin
pembaca DNA (sequencer) yang pada umumnya berukuran pendek.
Resequencing Proses mensekuens kembali bahan genetik makhluk hidup tertentu
yang sebelumnya sudah pernah disekuens, dengan tujuan mencari variasi
genetik.
Scaffold Bagian dari genom yang telah direkonstruksi dari reads yang berukuran
pendek sehingga menjadi sekuens yang lebih panjang.
Sequencing Proses pembacaan bahan
menggunakan mesin pembaca DNA.

genetik

makhluk

hidup

dengan

SNP Single Nucleotide Polymorphism, perbedaan satu basa pada sekuens DNA
antar-individu.
STS Sequence Tagged Sites, sekuens DNA pendek yang telah diketahui susunan
basa dan letaknya di dalam genom untuk dijadikan penanda.

1

PENDAHULUAN
Latar Belakang
Kedelai (Glycine max (L.) Merr) merupakan salah satu komoditas pertanian
penting di pasar internasional. Tanaman yang pertama kali dilaporkan berasal dari
Cina ini telah dibudidayakan selama lebih dari 5000 tahun (Mishra dan Verma
2010). Kedelai kaya akan protein dan minyak (sekitar 70% protein dan 30%
minyak) yang membuatnya termasuk tanaman yang memiliki banyak manfaat.
Selain itu, kemampuan simbiosis kedelai dalam hal fiksasi nitrogen menjadikan
kedelai elemen penting dalam pertanian yang berkelanjutan (Chan et al. 2012).
Indonesia termasuk salah satu produsen kedelai di pasar internasional
(Mishra dan Verma 2010). Di Indonesia, produksi kedelai pernah mencapai
puncaknya pada tahun 1992 sebanyak 1.87 juta ton. Namun, produksi terus
mengalami penurunan hingga pada tahun 2013 hanya sebanyak 0.78 juta ton (BPS
2014). Sebaliknya, konsumsi kedelai cenderung meningkat dari tahun ke tahun.
Kebutuhan konsumsi ini tidak dapat dipenuhi oleh produksi lokal yang menurun
sehingga impor kedelai harus terus dilakukan dan mengalami peningkatan. Impor
ini dapat berdampak pada hilangnya devisa negara (Atman 2009).
Untuk memperbaiki keadaan tersebut, produksi kedelai di tingkat petani
perlu ditingkatkan. Selain dengan memperbaiki harga jual dan memanfaatkan
potensi lahan, produksi dapat ditingkatkan dengan strategi peningkatan proses
produksi. Salah satu hal yang dapat ditingkatkan dalam proses produksi ialah
penyediaan benih bermutu dari varietas unggul dalam jumlah yang cukup dan
mudah dijangkau oleh petani. Kultivar unggul baru dapat diperoleh melalui
pemuliaan tanaman yang mengeksploitasi potensi genetik tanaman untuk
memaksimumkan ekspresi genetik tanaman pada suatu kondisi lingkungan
tertentu (Azrai 2005). Untuk tanaman kedelai, peningkatan produktivitas, kualitas,
dan ketahanan terhadap stres merupakan tujuan utama dalam pemuliaan
(Chan et al. 2012).
Teknologi pemuliaan tanaman telah terbukti berhasil meningkatkan
produksi tanaman. Pemuliaan tanaman dengan metode konvensional bergantung
pada seleksi fenotipe tanaman serta dipengaruhi oleh keadaan lingkungan dan
interaksi dengan lingkungan. Adanya pengaruh lingkungan tersebut terkadang
membuat fenotipe yang sesungguhnya sulit diamati jika keadaan lingkungannya
tidak sesuai. Kendala lain yaitu sebagian fenotipe yang perlu waktu yang lama
untuk bisa diamati, misalnya harus menunggu sampai tanaman berbunga. Hal
tersebut membuat proses pemuliaan tanaman secara konvensional membutuhkan
waktu yang lama dan biaya yang besar (Moose dan Mumm 2008).
Kendala-kendala dari pemuliaan tanaman dengan metode konvensional
tersebut mulai teratasi dengan ditemukannya marka molekuler atau marka DNA.
Seleksi dengan memanfaatkan marka DNA (marker assisted selection) hanya
didasarkan pada sifat genetik tanaman dan tidak dipengaruhi faktor lingkungan
sehingga kegiatan pemuliaan menjadi lebih tepat, cepat, hemat biaya, serta hemat
waktu (Azrai 2005). Genotipe yang dihasilkan melalui marka molekuler dapat
dikombinasikan dengan informasi fenotipe untuk meningkatkan perolehan seleksi.
Pemanfaatan marka molekuler dapat meningkatkan efisiensi pemuliaan sebanyak

2
dua kali lipat dibandingkan seleksi berdasarkan fenotipe saja (Moose dan Mumm
2008). Contoh pemanfaatan marker assisted selection pada pemuliaan kedelai
ialah identifikasi SNP yang berhubungan dengan gen sifat ketahanan dari hama
tertentu (Mammadov et al. 2012) dan ketahanan terhadap kondisi kekeringan
(Vidal et al. 2012).
Pengembangan marka DNA secara komprehensif untuk pemuliaan kedelai
memerlukan adanya data sekuens DNA untuk dianalisis. Kebutuhan ini didukung
dengan berkembangnya teknologi next-generation sequencing (NGS) untuk
membaca data sekuens DNA dari tanaman kedelai yang diteliti. Teknologi NGS
membuat proses sequencing DNA genom menjadi lebih efisien, lebih murah, dan
menghasilkan data genomik dengan kuantitas yang sangat besar dalam waktu
yang singkat untuk dianalisis dibandingkan dengan teknologi sequencing DNA
konvensional (Metzker 2010).
Pemuliaan kedelai berbasis genetika juga memerlukan informasi terkait
genetika dan genomika kedelai. Terkait hal tersebut, penelitian genetika dan
genomika kedelai telah banyak dilakukan. Salah satu terobosan penting ialah
sekuens genom rujukan yang telah berhasil disusun dari kedelai budidaya varietas
Williams 82 pada tahun 2010 (Schmutz et al. 2010). Genom kedelai yang telah
disusun ini dijadikan sebagai sekuens genom rujukan (reference genome) untuk
penelitian-penelitian selanjutnya (Chan et al. 2012). Selain itu, telah dilakukan
resequencing genom 31 aksesi kedelai liar dan budidaya untuk mengidentifikasi
pola keragaman genetik (Lam et al. 2010). Resequencing genom tersebut telah
berhasil mengidentifikasi variasi genetik dalam jumlah besar antara kedelai liar
dan kedelai budidaya. Li et al. (2013) juga melakukan resequencing terhadap 25
aksesi kedelai yang terdiri atas kedelai liar, ras lokal Cina, dan kedelai budidaya
modern. Penelitian tersebut juga mengidentifikasi variasi genetik dan hubungan
kekerabatan antar-aksesi kedelai yang diteliti. Untuk kedelai Indonesia, Balai
Besar Litbang Bioteknologi dan Sumber Daya Genetik Pertanian (BB Biogen)
Kementerian Pertanian telah melakukan resequencing aksesi-aksesi kedelai lokal
untuk melakukan karakterisasi variasi genom dengan tujuan penemuan gen (gene
discovery) dan marka DNA berbasis sekuens genom (Satyawan et al. 2014).
Terdapat beberapa jenis marka DNA yang dapat mendukung proses
pemuliaan tanaman (Azrai 2005). Salah satu marka yang mutakhir dan mulai
banyak diteliti ialah Single Nucleotide Polymorphism (SNP). SNP merupakan
perbedaan satu basa nukleotida antar-sekuens DNA dari individu-individu yang
dibandingkan. SNP dapat mencakup lebih dari 90% dari variasi genetik, sehingga
mampu menjadi penanda pada perbedaan antar-varietas dari suatu spesies. Selain
itu, SNP juga jauh lebih melimpah jumlahnya dibandingkan dengan marka DNA
lain (Matukumalli et al. 2006). Studi analisis SNP pada kedelai telah
mengidentifikasi banyak SNP yang memiliki efek signifikan terhadap sifat
tanaman (Zhu et al. 2003; Chan et al. 2012).
Identifikasi SNP dilakukan secara komputasional dengan program komputer
(Oeveren dan Janssen 2009). Terdapat beberapa program yang telah tersedia
dengan spesifikasi yang berbeda-beda, antara lain Samtools, GATK, dan
SOAPsnp, yang dirancang untuk data berukuran besar yang dihasilkan dari
sequencing DNA genom total dengan teknologi NGS (Nielsen et al. 2011;
O‟Fallon et al. 2013). Program-program tersebut berbasis model probabilistik dan
memiliki peluang untuk ditingkatkan akurasinya dengan menggunakan fitur atau

3
ciri dari sekuens yang belum tercakup oleh model probabilistik. Teknik klasifikasi
dengan machine learning telah diterapkan untuk tujuan peningkatan akurasi
tersebut.
Matukumalli et al. (2006) menggunakan metode decision tree untuk
mengelompokkan SNP menjadi true SNP dan false SNP berdasarkan sejumlah
fitur dari data sekuens DNA. Penelitian tersebut menggunakan data STS
(Sequence-Tagged Sites) kedelai dari 6 kultivar, namun belum menggunakan
teknologi NGS untuk sequencing DNA-nya. Hasil klasifikasi menunjukkan
akurasi sebesar 84.8%, yaitu peningkatan hampir 5 kali lipat jika dibandingkan
dengan identifikasi SNP dengan program PolyBayes (tanpa menggunakan
machine learning).
O‟Fallon et al. (2013) menggunakan metode support vector machine (SVM)
untuk tujuan yang sama, yakni membedakan SNP yang sesungguhnya dengan
SNP yang teridentifikasi karena adanya error pada sekuens DNA. Penelitian
tersebut menggunakan sejumlah fitur dari sekuens DNA yang berupa ukuran
statistik, misalnya rata-rata kualitas basa, ragam posisi basa, dan peluang binomial.
Data sekuens yang digunakan adalah data exome dari genom manusia yang
disekuens dengan teknologi NGS, dan didapatkan nilai sensitivity sebesar 96.9%.
Kong (2007) menggunakan metode yang sama (SVM) pada data genom
manusia yang berasal dari Japan SNP Database (JSNP). Data pada JSNP adalah
data whole genome manusia dari populasi negara Jepang. Fitur yang digunakan
pada penelitian tersebut adalah fitur sekuens DNA dari aspek termofisika,
misalnya entalpi, entropi, energi bebas, dan suhu leleh. Penelitian tersebut
memberikan akurasi sebesar 75.9%.
Selain metode-metode tersebut, dapat diterapkan juga metode machine
learning yang berbasis evolutionary computation, yaitu genetic programming
(GP). GP merupakan salah satu varian dari algoritme genetika (GA) yang dapat
digunakan untuk masalah klasifikasi. GP merupakan metode yang fleksibel dan
efektif untuk mengoptimalisasi suatu classifier yang dapat dimodelkan dalam
bentuk rule atau decision tree. Salah satu kelebihan GP adalah rule yang jelas dan
dapat diinterpretasi dengan mudah oleh pakar dibandingkan dengan metode black
box seperti SVM (Espejo et al. 2010). Penelitian ini menggunakan GP untuk
membangun suatu classifier dalam mengidentifikasi SNP dari genom kedelai.
Perumusan Masalah
Masalah yang diteliti dalam penelitian ini yaitu cara merepresentasikan fitur
dari data SNP agar dapat diukur oleh classifier. Setelah fitur didapatkan, perlu
dirancang rule yang dioptimasi oleh GP beserta representasi rule-nya. Dengan
demikian, akan didapatkan suatu model classifier yang optimal dan dapat
memberikan hasil identifikasi SNP dengan akurasi tinggi.
Tujuan Penelitian
Tujuan penelitian ini yaitu:
1 Mengoptimalisasi rule untuk identifikasi SNP dengan metode GP.
2 Menerapkan rule hasil dari GP dalam identifikasi SNP pada tanaman kedelai.
3 Mengukur kinerja GP dalam melakukan identifikasi SNP.

4
Manfaat Penelitian
Hasil identifikasi SNP dan implementasi dalam bentuk program dari
penelitian ini diharapkan dapat memberikan informasi bagi peneliti dalam
pemuliaan tanaman kedelai dengan bantuan marka SNP. Selain itu, rule hasil
optimalisasi GP dapat menjadi rujukan bagi pakar dalam identifikasi SNP.
Ruang Lingkup Penelitian
Ruang lingkup penelitian ini mencakup data sekuens aksesi kedelai
budidaya yang diambil dari penelitian Lam et al. (2010). Identifikasi SNP
dilakukan dalam lingkup seluruh genom (whole genome) dan tidak mencakup
identifikasi indel (insertion dan deletion). Selain itu, proses identifikasi
menggunakan GP dibatasi sampai SNP putatif tanpa dilakukan validasi secara
biologi.

TINJAUAN PUSTAKA
Genomika Kedelai
Genom kedelai, yaitu keseluruhan bahan genetik dari kedelai terdiri atas 20
kromosom (Chan et al. 2012). Ukuran genom kedelai ini diperkirakan sebesar
1115 Mb (Mega base pair, juta pasang basa). Dari ukuran total genom tersebut,
sekitar 950 Mb telah berhasil disekuens dari kedelai varietas Williams 82 dan
dirakit menjadi sekuens rujukan (reference sequence) (Schmutz et al. 2010).
Kedelai adalah organisme palaeopolyploid, artinya nenek moyang dari
kedelai dipercaya merupakan organisme polyploid atau memiliki kromosom yang
terduplikasi sebanyak dua, tiga, atau empat. Namun demikian, kedelai tergolong
organisme diploid, yakni setiap kromosom memiliki satu pasangan (Chan et al.
2012). Selain itu, pada genom kedelai terdapat banyak perulangan dan duplikasi.
Sekitar 59% dari genom adalah elemen repetitif (berulang), dan sekitar 75% dari
gen terduplikasi di lebih dari satu lokasi (Schmutz et al. 2010).
Sequencing DNA
Sequencing (pengurutan) DNA adalah proses pembacaan atau penentuan
urutan basa nukleotida (A, adenin; T, timin; G, guanin; atau C, sitosin) dari DNA.
Selain menentukan urutan atau sekuens basa dari suatu DNA, proses sequencing
juga memberikan nilai kualitas pada setiap basa yang dibaca tersebut. Nilai
kualitas menunjukkan tingkat kepercayaan bahwa basa dari DNA dibaca dengan
benar oleh alat yang digunakan untuk sequencing (Altmann et al. 2012).
Metode sequencing pertama kali diperkenalkan oleh Sanger yang populer
dan terus berkembang sejak dua dekade terakhir. Metode Sanger menggunakan
teknologi berbasis kapiler, elektroforesis, dan deteksi fluorescence yang berjalan
secara otomatis. Metode ini disebut juga metode konvensional atau metode
sequencing generasi pertama (Metzker 2010).

5
Teknologi sequencing baru yang berkembang saat ini disebut nextgeneration sequencing (NGS), high-throughput sequencing (HTS), atau metode
sequencing generasi kedua. NGS merupakan suatu kelompok metode sequencing
baru yang berbeda dengan metode Sanger. Teknik yang diterapkan di dalam NGS
beragam tergantung pada teknologi yang digunakan oleh perusahaan pembuat
platform. Beberapa platform NGS yang tersedia di pasaran antara lain Roche/454,
Illumina/Solexa, dan Helicos/HeliScope (Shendure dan Ji 2008).
Meskipun platform-platform NGS tersebut beragam dalam hal teknik
biokimia yang diterapkan, terdapat kemiripan dalam hal konsep dan workflow
seperti yang diilustrasikan pada Gambar 1 (Shendure dan Ji 2008). Workflow
tersebut meliputi pemotongan DNA secara acak, pelekatan adapter untuk
menyusun pustaka, amplifikasi misalnya dengan PCR (polymerase chain
reaction) serta pembentukan cluster, dan pembacaan basa misalnya dengan
deteksi fluorescence untuk mendapatkan data sekuens.
Pemotongan DNA

Pelekatan adapter

Amplifikasi dan pembentukan cluster

Pembacaan basa

Gambar 1 Workflow umum metode NGS (Shendure dan Ji 2008)

6
Metode sequencing generasi pertama dan NGS memiliki kelebihan dan
kekurangan masing-masing. Metode Sanger mampu menghasilkan reads (hasil
pembacaan basa) berukuran panjang dan akurat, namun memerlukan waktu lama,
biaya mahal, serta kuantitas data yang rendah. Sebaliknya, metode NGS mampu
menghasilkan kuantitas data yang jauh lebih besar dengan waktu yang lebih
singkat dan biaya lebih murah, namun hanya mampu menghasilkan reads
berukuran pendek dan tidak seakurat metode Sanger (Shendure dan Ji 2008). Oleh
karena itu, pada penelitian yang menggunakan NGS untuk sequencing, metode
Sanger umumnya masih digunakan untuk memvalidasi hasil analisis dari data
tersebut karena akurasinya yang lebih baik (Lam et al. 2010; O‟Fallon et al. 2013).
Marka Molekuler
Marka molekuler (molecular marker) didefinisikan sebagai bagian tertentu
dari DNA yang mampu merepresentasikan perbedaan genetik dalam tingkat
genom yang dapat berkorelasi dengan fenotipe (Agarwal et al. 2008). Beberapa
marka molekuler yang dikenal yaitu RFLP (restriction fragment length
polymorphism), AFLP (amplified fragment length polymorphism), RAPD
(random amplified polymorphic DNA), SSR (simple sequence repeat), STS
(sequence tagged site), dan SNP (single nucleotide polymorphism).
Single Nucleotide Polymorphism
Single Nucleotide Polymorphism (SNP) merupakan marka molekuler yang
merepresentasikan perbedaan atau perubahan pada satu basa nukleotida DNA
antara dua individu pada lokasi tertentu di dalam genom. Satu basa nukleotida (A,
T, G, atau C) dapat berubah menjadi basa lain. Perubahan basa dapat berupa
transition atau transversion yang diilustrasikan pada Gambar 2. Transition adalah
perubahan C menjadi T atau G menjadi A dan sebaliknya. Sementara itu,
transversion adalah perubahan C menjadi G, A menjadi T, C menjadi A, atau T
menjadi G dan sebaliknya. Selain perubahan basa, terdapat juga variasi yang
disebut indel (insertion dan deletion) yang berupa penambahan atau pengurangan
basa. SNP pada umumnya bersifat bialel, yakni hanya terdapat dua jenis alel (satu
basa berubah menjadi satu basa yang lain), namun tidak menutup kemungkinan
adanya SNP yang memiliki lebih dari dua alel meskipun jarang ditemukan (Duran
et al. 2009).

A

G
Jenis perubahan basa:
Transition
Transversion

T

C
Gambar 2 Transition dan transversion

7
SNP
Rujukan
Sekuens 1
Sekuens 2
Sekuens 3
Sekuens 4
Sekuens 5

ACCGTACACTAC
CCT-AC
GTAGACT
GTACAC
TAGACTCA
TAGACTCAC

Gambar 3 Ilustrasi SNP dari beberapa sekuens
Ilustrasi adanya SNP ditunjukkan pada Gambar 3. SNP dapat ditemukan
dengan menjajarkan (alignment) sekuens-sekuens genom suatu individu dengan
sekuens rujukan (Bafna et al. 2013). Insertion atau deletion pada Gambar 3
ditunjukkan dengan adanya posisi kosong pada Sekuens 1 (karakter “-“).
Marka SNP sangat berguna dalam biologi molekuler dan pemuliaan
tanaman karena jumlahnya yang melimpah dan sesuai dengan teknologi NGS.
Aplikasi SNP dalam genomika tanaman antara lain dalam pembuatan peta genetik,
analisis pemetaan asosiasi seluruh genom (genome-wide association analysis),
serta studi evolusi (Kumar et al. 2012). Namun demikian, terdapat tantangan
tersendiri dalam analisis marka SNP untuk tanaman dengan genom yang
kompleks seperti kedelai. Sifat bialel pada SNP harus didukung dengan frekuensi
SNP yang tinggi untuk menyamai informasi polimorfisme dari jenis marka lain.
Selain itu, sifat polyploid memiliki konsekuensi bahwa jumlah SNP yang benarbenar berguna hanya sebagian kecil dari keseluruhan polimorfisme. Tantangan
lain yaitu banyaknya elemen repetitif dan duplikasi sekuens yang ditemukan pada
genom tanaman pangan termasuk kedelai (Mammadov et al. 2012). Satyawan et
al. (2014) melaporkan bahwa pada genom kedelai terdapat rata-rata satu SNP atau
indel per 308 basa.
SNP Calling
Identifikasi SNP, atau lebih umum disebut SNP calling, adalah proses
ekstraksi SNP dari data sekuens (Altmann et al. 2012). Diberikan data penjajaran
reads dari individu-individu dengan sekuens rujukan, SNP calling melakukan
identifikasi lokasi yang memiliki variasi. SNP calling berbeda dengan genotype
calling yang mengidentifikasi genotipe dari setiap individu pada lokasi tertentu
(Nielsen et al. 2011).
Pendekatan umum untuk SNP calling yang menggunakan sekuens rujukan
digambarkan dalam Gambar 4. Pertama, sekuens DNA rujukan dan sekuens reads
setiap individu dijajarkan (alignment). Kemudian, dari hasil penjajaran tersebut,
variasi sekuens diidentifikasi dan diklasifikasikan menjadi SNP putatif (potensial)
(Oeveren dan Janssen 2009). Alur umum seperti ini berlaku bagi teknologi
sequencing terdahulu maupun teknologi high-throughput sequencing.

8

Rujukan

Reads

Alignment atau Mapping

Identifikasi Variasi Sekuens

SNP Putatif
Gambar 4 Alur umum SNP calling
Genetic Programming
Genetic Programming (GP) merupakan varian dari algoritme genetika (GA),
yaitu algoritme pencarian probabilistik yang mengambil basis dari teori evolusi.
GP pada asalnya digunakan untuk evolusi program komputer. GP berbeda dengan
GA dalam hal representasi individu, yakni menggunakan representasi yang
kompleks untuk mengkodekan individu. Representasi individu pada GP biasanya
menggunakan skema tree. Namun, pemodelan GP berkembang untuk skema yang
lain, misalnya ekspresi matematis maupun sistem berbasis rule (Espejo et al.
2010).
GP dapat digunakan untuk menemukan rule klasifikasi dalam berbagai
bidang penerapan (Kuo et al. 2007). Rule ini dimodelkan dalam bentuk decision
tree yang dioptimasi oleh GP untuk menemukan rule klasifikasi eksplisit dalam
bentuk yang paling sederhana untuk berbagai masalah klasifikasi. Rule klasifikasi
yang dikombinasikan dengan pengetahuan pakar menghasilkan pengambilan
keputusan yang jelas (De Falco et al. 2002), dan pada kasus identifikasi SNP, rule
tersebut dapat digunakan untuk mengetahui cara pakar mengevaluasi hasil
identifikasi SNP (Matukumalli et al. 2006).
Contoh rule klasifikasi dalam bentuk decision tree untuk klasifikasi biner
(hanya ada dua kelas) terdapat pada Gambar 5 (Espejo et al. 2010). Tree tersebut
merepresentasikan rule berikut untuk suatu atribut NP, PG, dan TT:
IF ((NP < 3)
OR ((NP ≥ 3) AND (PG ≥ 50) AND (TT < 72)))
THEN Class 1.
Rule tersebut merupakan satu individu GP yang akan dioptimalisasi dengan
operator crossover dan mutation pada tree. Operator crossover menukar sebagian
dari induk dengan induk lainnya (dalam hal ini subtree) untuk membentuk
individu baru seperti diilustrasikan pada Gambar 6. Sementara itu, operator
mutation mengganti subtree dari suatu individu dengan subtree acak seperti
diilustrasikan pada Gambar 7 (Kuo et al. 2007).

9

Gambar 5 Contoh individu GP dalam bentuk rule (Espejo et al. 2010)
Induk 1

Anak 1

Induk 2

Crossover

Anak 2

Gambar 6 Ilustrasi operator crossover
Individu awal

Hasil mutasi

Subtree acak

Gambar 7 Ilustrasi operator mutation

10

METODE PENELITIAN
Alur Metode Penelitian
Gambaran umum alur metode penelitian yang dilakukan diberikan pada
Gambar 8 yang terdiri atas tiga langkah. Langkah pertama ialah pembentukan data
pelatihan dengan prosedur penjajaran (alignment) yang disesuaikan dengan yang
dilakukan oleh Lam et al. (2010). Prosedur disesuaikan dengan penelitian tersebut
karena data SNP yang telah diverifikasi juga menggunakan hasil penelitian
tersebut. Setelah didapatkan data alignment pelatihan, dilakukan ekstraksi fitur
dari SNP yang digunakan untuk pelatihan.
Pembentukan Data Pelatihan

Hasil
Penjajaran
Pelatihan

Penjajaran
Sekuens

Ekstraksi
Fitur

Data
Genom

SNP
Pelatihan

Proses Pelatihan

Optimasi Genetic
Programing

Rule
Klasifikasi
Optimal
Proses Evaluasi

SNP
Pengujian

Ekstraksi
Fitur

Evaluasi Hasil
Identifikasi
Gambar 8 Metode penelitian

Alignment
Pengujian

11
Langkah kedua ialah proses pelatihan dengan menggunakan GP untuk
optimasi rule klasifikasi. Proses ini menghasilkan rule klasifikasi SNP yang
dioptimalkan untuk identifikasi SNP kedelai. Langkah terakhir yaitu pengujian
rule yang telah terbentuk dengan data pengujian, akan dihasilkan SNP hasil
identifikasi yang dievaluasi kinerja klasifikasinya. Detail dari setiap tahapan
dijelaskan pada subbab-subbab berikut.
Data Sekuens Rujukan
Data sekuens rujukan yang digunakan merupakan data genom total yang
diambil dari kedelai budidaya varietas Williams 82 (Schmutz et al. 2010). Data
sekuens diberikan dalam format FASTA dan diperoleh melalui alamat web
http://www.phytozome.net/soybean.php. Versi data genom yang digunakan ialah
rilis v1.98 dengan 8x coverage (Lam et al. 2010).
Data genom kedelai ini terdiri atas 1168 scaffold dengan panjang total 973.3
Mb. Dari 1168 scaffold yang ada, sebanyak 20 scaffold skala kromosom dipetakan
menjadi 20 kromosom kedelai, sedangkan sisanya sebanyak 1148 scaffold yang
berukuran pendek merupakan scaffold yang tidak dipetakan sehingga tidak
digunakan dalam penelitian. Dengan tidak mengikutsertakan scaffold yang tidak
dipetakan tersebut dan menyertakan 20 scaffold kromosom, didapatkan data
sekuens sepanjang 955.6 Mb. Kromosom dalam data sekuens tersebut diberi label
mulai dari Gm01 (Glycine max, kromosom 1) sampai Gm20 (kromosom 20).
Data Sekuens Reads
Data reads, yaitu sekuens pendek DNA hasil pembacaan oleh mesin
sequencing diperoleh dari data whole-genome resequencing aksesi kedelai
budidaya oleh Lam et al. (2010) yang disekuens dengan platform mesin Illumina
Genome
Analyzer
II.
Data
tersebut
diperoleh
melalui
alamat
http://public.genomics.org.cn/BGI/soybean_resequencing. Data diberikan dalam
format FASTQ. Setiap hasil sequencing dari satu aksesi diwakili dua buah file
karena prosesnya menggunakan paired-end sequencing (berpasangan).
Data aksesi kedelai liar (G. soja) tidak digunakan karena objek penelitian ini
adalah kedelai budidaya (G. max). Terdapat dua jenis data reads berdasarkan
panjangnya, yakni reads dengan panjang 44 pasang basa dan reads dengan
panjang 75 pasang basa. Data yang digunakan ialah reads dengan panjang
terbesar, yaitu 75 pasang basa agar didapatkan hasil yang lebih akurat. Secara
keseluruhan, terdapat 14 aksesi kedelai budidaya yang data sekuensnya digunakan
(kode C01, C02, C08, C12, C14, C16, C17, C19, C24, C27, C30, C33, C34, dan
C35).
Data SNP Pelatihan
Data SNP yang telah divalidasi berasal dari hasil penelitian Lam et al.
(2010), namun hanya mengambil SNP yang teridentifikasi pada aksesi kedelai
budidaya. Data tersebut berupa posisi dalam kromosom yang teridentifikasi
sebagai SNP, serta perbedaan basa yang terjadi antara sekuens rujukan dan
sekuens reads pada posisi tersebut.

12
Seluruh SNP yang tercantum pada data ini dianggap sebagai kelas true SNP,
yaitu SNP yang dianggap benar. Sebaliknya, jika ada kandidat SNP yang tidak
tercantum pada data ini, maka dianggap sebagai kelas false SNP. Penentuan kelas
SNP dengan cara seperti ini sesuai dengan O‟Fallon et al. (2013) yang mengambil
data SNP dari database dbSNP pada manusia. Data SNP beserta kelasnya ini yang
digunakan dalam proses pelatihan.
Penjajaran Sekuens
Sekuens reads dari setiap sampel dijajarkan (alignment) dengan sekuens
rujukan. Penjajaran dilakukan dengan software Short Oligonucleotide Alignment
Program 2 (SOAP2) sesuai Lam et al. (2010). Sebelum dilakukan penjajaran,
sekuens rujukan harus diindeks terlebih dahulu oleh SOAP2 untuk mempercepat
proses penjajaran.
Selain itu, pada data reads perlu dilakukan kontrol kualitas sebelum
dijajarkan untuk memastikan bahwa reads yang akan dijajarkan memiliki nilai
kualitas sequencing yang baik (Altmann et al. 2012). Software yang digunakan
untuk kontrol kualitas serta memotong atau membuang sekuens yang memiliki
nilai kualitas rendah ialah PRINSEQ (Schmieder dan Edwards 2011).
Penjajaran dilakukan dengan metode paired-end (berpasangan) karena reads
yang digunakan merupakan sekuens yang berpasangan. Parameter insert size
minimum dan maksimum yang digunakan untuk penjajaran berpasangan
diperoleh bersama data reads (Lam et al. 2010).
Ekstraksi Fitur
Ekstraksi fitur dilakukan dengan membaca hasil penjajaran. Fitur dari setiap
kandidat SNP dihitung setiap ditemukan adanya basa pada reads yang berbeda
dengan basa pada sekuens rujukan pada posisi tertentu (posisi adanya variasi).
Jika perbedaan basa pada posisi tersebut ada pada daftar true SNP, maka
perbedaan basa tersebut beserta hasil perhitungan fiturnya diberi label kelas true
SNP. Sebaliknya, jika perbedaan basa pada posisi tersebut tidak ada pada daftar
true SNP, label kelasnya ialah false SNP.
Daftar fitur yang digunakan dan dihitung dari setiap kandidat SNP
dicantumkan pada Tabel 1. Fitur-fitur tersebut merupakan fitur yang bersifat
statistik yang dirangkum dari Matukumalli et al. (2006), Oeveren dan Janssen
(2009), dan O‟Fallon et al. (2013). Fitur yang bersifat termofisika (Kong 2007)
tidak digunakan karena memiliki akurasi yang cukup rendah dibandingkan dengan
fitur statistik. Contoh cara perhitungan fitur dilampirkan pada Lampiran 1.
Satu fitur dapat memiliki lebih dari satu nilai, misalnya fitur nomor 3 (ratarata kualitas alel mayor dan minor) yang terdiri atas dua nilai, yaitu alel mayor
dan alel minor. Selain itu, fitur dapat berupa tipe numerik atau ordinal. Contoh
nilai dengan tipe ordinal adalah fitur nomor 1 (tipe variasi).
Seluruh fitur pada Tabel 1 digunakan dalam proses pelatihan. Namun
demikian, hanya sebagian fitur saja yang akan muncul di dalam rule hasil
optimasi GP. Hal ini disebabkan GP mampu melakukan seleksi fitur secara
implisit (Espejo et al. 2010), sehingga hanya fitur yang paling signifikan saja yang
digunakan untuk membentuk rule.

13
Tabel 1 Fitur-fitur SNP yang digunakan
No

Fitur

Referensi

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

Tipe variasi
Maksimum kualitas alel mayor dan minor
Rata-rata kualitas alel mayor dan minor
Jarak relatif dengan ujung reads
Kedalaman penjajaran (depth)
Kualitas alignment
Jarak kandidat SNP terdekat
Peluang error
Banyaknya perulangan dinukleotida
Strand bias
Total mismatch area
Panjang homopolimer
Keragaman nukleotida
Banyaknya mismatch pada read
Keseimbangan alel
Kualitas basa pengapit

[1]
[1]
[1]
[1], [2]
[1], [2], [3]
[1], [3]
[2]
[3]
[3]
[3]
[3]
[3]
[3]
[3]
[3]
[3]

Keterangan:
[1] Matukumalli et al. (2006), [2] Oeveren dan Janssen (2009), [3] O‟Fallon et al. (2013).

Deskripsi singkat dari masing-masing fitur sebagai berikut:
1 Tipe variasi (ts.tv)
Tipe variasi dapat berupa transition atau transversion bergantung pada
perbedaan basa pada posisi adanya variasi.
2 Maksimum kualitas alel mayor dan minor (max.qual.major, max.qual.minor)
Alel mayor adalah alel yang paling sering muncul, sedangkan alel minor adalah
alel kedua yang paling sering muncul setelah alel mayor. Dari kedua alel
dihitung nilai kualitas basa maksimum dari reads yang dijajarkan pada posisi
adanya variasi.
3 Rata-rata kualitas alel mayor dan minor (mean.qual.major, mean.qual.minor)
Sama seperti sebelumnya, namun yang dihitung adalah nilai kualitas basa ratarata dari alel mayor dan minor.
4 Jarak relatif dengan ujung reads (rel.dist)
Jarak relatif dari posisi adanya variasi ke kedua ujung dari reads, kemudian
dibagi dengan panjang reads.
5 Kedalaman penjajaran (total.depth)
Jumlah keseluruhan reads yang dijajarkan pada posisi adanya variasi.
6 Kualitas alignment (mean.mapping.qual)
Kualitas penjajaran dari masing-masing reads pada posisi adanya variasi. Nilai
kualitas tersebut diberikan oleh program yang melakukan penjajaran.
7 Jarak kandidat SNP terdekat (nearest.flank)
Jarak dari posisi adanya variasi ke kandidat variasi lainnya yang terdekat, yaitu
kandidat pada posisi sebelum dan sesudahnya.
8 Peluang error (error.prob)
Nilai peluang bahwa jumlah reads yang mengandung variasi diambil dari
sebaran binomial dengan parameter tertentu.

14
9 Banyaknya perulangan dinukleotida (dinuc.repeat)
Jumlah dinukleotida (dua basa nukleotida, misalnya “AT”) yang berulang di
sekitar posisi adanya variasi.
10 Strand bias (strand.bias)
Nilai chi-square antara reads yang memiliki basa sama dengan rujukan dan
reads yang memiliki basa berbeda dengan rujukan di posisi adanya variasi.
11 Total area mismatch (area.mismatch)
Rata-rata jumlah basa varian (basa yang berbeda dengan rujukan) pada setiap
reads yang dijajarkan pada posisi adanya variasi.
12 Panjang homopolimer (homopolymer.length)
Panjang total dari homopolimer (deretan basa yang sama dan berurutan,
misalnya “AAAAAA”) di sekitar posisi adanya variasi.
13 Keragaman nukleotida (nuc.diversity)
Simpangan dari frekuensi basa rujukan terhadap rata-rata seluruh genom. Nilai
simpangan dihitung pada rentang 20 pasang basa di sekitar posisi adanya
variasi.
14 Banyaknya mismatch pada read (mismatch.alt)
Banyaknya mismatch (basa yang berbeda dengan rujukan) pada reads di posisi
adanya variasi.
15 Keseimbangan alel (allele.balance)
Rasio jumlah reads yang memiliki basa berbeda dengan rujukan terhadap
kedalaman pada posisi adanya variasi.
16 Kualitas basa pengapit (mean.nearby.qual)
Rata-rata kualitas dari basa yang mengapit basa di posisi adanya variasi (2 basa
sebelum dan 2 basa sesudah).
Optimasi Genetic Programming
Dari fitur-fitur yang telah didapatkan, dibangun suatu classifier berbasis
rule yang dioptimasi dengan GP. Pada penelitian ini, diterapkan tiga algoritme
optimasi rule GP, yaitu algoritme Bojarczuk et al. (2004), De Falco et al. (2002),
dan Tan et al. (2000) untuk dicari yang paling baik. Masing-masing algoritme
tersebut memiliki himpunan fungsi, operator genetik, dan fungsi fitness yang
berbeda-beda.
Perbandingan parameter algoritme optimasi GP yang digunakan pada
penelitian ini disajikan pada Tabel 2. Ketiga algoritme memiliki fungsi fitness
yang berbeda. Pada algoritme De Falco dan Bojarczuk, ukuran dari individu
berpengaruh terhadap fitness, yakni semakin kompleks ukuran tree, semakin
rendah fitness-nya (Bojarczuk et al. 2004; De Falco et al. 2002).
Selain itu, himpunan fungsi internal dari ketiga algoritme juga berbeda.
Ketiga algoritme tidak menggunakan operator aritmatika, tetapi hanya operator
boolean dan perbandingan. Algoritme Bojarczuk hanya menggunakan operator
boolean AND dan OR; algoritme Tan hanya menggunakan operator boolean
AND dan NOT; sedangkan algoritme De Falco menggunakan seluruh operator
boolean (AND, OR, NOT) serta operator IN dan OUT yang menyatakan
keanggotaan dalam suatu rentang nilai.

15
Pada algoritme De Falco dan Tan, optimasi GP dilakukan pada setiap kelas
secara terpisah. Dengan kata lain, algoritme akan mencari satu rule terbaik untuk
satu kelas, baru kemudian dilanjutkan pada kelas yang lain. Khusus pada
algoritme Tan, setiap kelas dapat memiliki lebih dari satu rule. Sementara itu,
algoritme Bojarczuk hanya berjalan satu kali untuk semua kelas. Bagian
konsekuen (label kelas) dari rule pada algoritme Bojarczuk ditentukan
berdasarkan kelas yang memiliki fitness terbaik untuk rule tersebut.
Tabel 2 Perbandingan algoritme optimasi GP
Algoritme

Fungsi fitness

Bojarczuk

Maksimumkan F = Sensitivity × Specificity × Simplicity
dengan

De Falco

( axn de-0.5)(nu n de-0.5)



Simplicity =




maxnode = Jumlah node maksimum
numnode = Jumlah node

Minimumkan F =

axn de-1

-(

-

) +

e th + ze

dengan
 N = Jumlah data sampel
 CC = Jumlah data yang diklasifikasikan dengan benar
 IC = Jumlah data yang diklasifikasikan dengan salah
 Depth = Kedalaman tree
 Size = Jumlah node
Tan

Maksimumkan F =

+

* w1

+

* w2

dengan
 w1, w2 = Pembobotan
 TP, TN = True positive, true negative
 FP, FN = False positive, false negative
Algoritme

Fungsi internal

Operator genetik

Seleksi

Bojarczuk
De Falco

AND, OR, =, ≠, ≤, >
AND, OR, NOT, IN,
OUT,
AND, NOT,

Crossover
Crossover,
mutation
Crossover,
mutation

Roulette wheel
Tournament

Tan

Tournament

Meskipun digunakan tiga algoritme yang berbeda, secara umum optimasi
GP dilakukan dengan alur yang sama seperti yang tercantum pada Gambar 9.
Proses optimasi dilakukan sampai kondisi henti terpenuhi, yaitu jumlah generasi
maksimum tercapai.

16

Mulai

Pembangkitan
Populasi Awal
Individu generasi awal

Evaluasi
Individu Awal
Seleksi Individu
Tetua (Induk)
Individu terpilih

Operasi Genetik
Individu generasi baru

Evaluasi
Individu Baru

Generasi
maksimum?

Tidak

Ya

Selesai
Gambar 9 Alur optimasi dengan GP
Parameter yang digunakan dalam percobaan disajikan pada Tabel 3. Pada
penelitian ini digunakan tiga jenis jumlah populasi (50, 100, dan 200) serta tiga
jenis peluang crossover (0.7, 0.8, dan 0.9). Peluang mutation dibuat sama (0.1)
karena tidak semua algoritme optimasi GP yang digunakan melibatkan operator
mutation. Selain itu, jumlah generasi maksimum juga dibuat sama, yaitu 100
generasi.
Tabel 3 Parameter percobaan dengan GP
Parameter

Nilai parameter

Jumlah generasi maksimum
Jumlah populasi
Peluang crossover
Peluang mutation
Parameter fitness De Falco
Parameter fitness Tan

100
50, 100, dan 200
0.7, 0.8, dan 0.9
0.1
= 0.5
w1= 0.7
w2 = 0.8

17
Dengan parameter-parameter tersebut, disusun kombinasi percobaan seperti
yang disajikan pada Tabel 4. Masing-masing algoritme dijalankan dengan
kombinasi tiga jenis peluang crossover dan tiga jenis jumlah populasi sehingga
terdapat sembilan percobaan per algoritme. Selain itu, pada setiap percobaan
dilakukan perulangan sebanyak lima kali untuk dicari hasil yang terbaik.
Tabel 4 Kombinasi percobaan dengan GP
Algoritme
Bojarczuk

De Falco

Tan

Kode
Peluang
Jumlah
percobaan* crossover populasi
B1
0.7
50
B2
0.7
100
B3
0.7
200
B4
0.8
50
B5
0.8
100
B6
0.8
200
B7
0.9
50
B8
0.9
100
B9
0.9
200
F1
0.7
50
F2
0.7
100
F3
0.7
200
F4
0.8
50
F5
0.8
100
F6
0.8
200
F7
0.9
50
F8
0.9
100
F9
0.9
200
T1
0.7
50
T2
0.7
100
T3
0.7
200
T4
0.8
50
T5
0.8
100
T6
0.8
200
T7
0.9
50
T8
0.9
100
T9
0.9
200

* Setiap percobaan dilakukan perulangan sebanyak lima kali

Lingkungan Implementasi
Implementasi dilakukan pada komputer dengan spesifikasi prosesor Intel
Core i3 3.2 GHz, memori 4 GB, dan harddisk 2 TB. Perangkat lunak sistem
operasi yang digunakan ialah Linux Ubuntu versi 14.04. Bahasa pemrograman
yang digunakan untuk implementasi algoritme ialah Java dengan library
SAMtools. Implementasi GP dilakukan dengan library JCLEC (Java Class
Library for Evolutionary Computation) (Ventura et al. 2007).

18

HASIL DAN PEMBAHASAN
Ketidakseimbangan Distribusi Kelas
Dari hasil pembangkitan data pelatihan, didapatkan distribusi kelas (true
dan false) pada setiap kromosom kedelai seperti yang disajikan pada Gambar 10.
Dari hasil tersebut dapat dilihat bahwa persentase kelas true ha