Optimasi Parameter pada Support Vector Machine untuk Klasifikasi Fragmen Metagenome Menggunakan Algoritme Genetika

OPTIMASI PARAMETER PADA SUPPORT VECTOR MACHINE
UNTUK KLASIFIKASI FRAGMEN METAGENOME
MENGGUNAKAN ALGORITME GENETIKA

INNA SABILY KARIMA

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis berjudul Optimasi Parameter pada
Support Vector Machine untuk Klasifikasi Fragmen Metagenome Menggunakan
Algoritme Genetika adalah benar karya saya dengan arahan dari komisi
pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi
mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan
maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan
dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, September 2014
Inna Sabily Karima
NIM G651120351

RINGKASAN
INNA SABILY KARIMA. Optimasi Parameter pada Support Vector Machine
Untuk Klasifikasi Fragmen Metagenome Menggunakan Algoritme Genetika.
Dibimbing oleh WISNU ANANTA KUSUMA dan IRMAN HERMADI.
Klasifikasi fragmen metagenome merupakan salah satu contoh dari proses
binning yang bertujuan untuk mengklasifikasikan fragmen-fragmen ke dalam
beberapa tingkat taksonomi. Salah satu metode machine learning yang dapat
digunakan adalah Support Vector Machine (SVM). Pada masalah yang bersifat
non linear, diperlukan kernel untuk memetakan vektor ciri ke dalam ruang
berdimensi tinggi, sehingga masalah yang non linear tersebut dapat dipecahkan
secara linear. Kernel yang sering digunakan adalah Radial Basis Function (RBF).
Tantangan yang dihadapi adalah bagaimana menemukan parameter yang optimal
sehingga dihasilkan model klasifikasi yang akurat.
Tujuan penelitian ini adalah melakukan optimasi parameter pada SVM
dalam klasifikasi fragmen metagenome menggunakan Algoritme Genetika.

Parameter yang akan dicari nilai optimalnya adalah parameter C untuk jarak
margin dan gamma () untuk percepatan fungsi pada kernel RBF untuk
mendapatkan akurasi classifier model klasifikasi yang optimal. Evaluasi
dilakukan untuk membandingkan akurasi model klasifikasi dengan parameter
yang dioptimasi dengan Algoritme Genetika dan akurasi yang dihasilkan dengan
parameter yang ditentukan dengan menggunakan grid search. Hasil evaluasi
menunjukan bahwa akurasi yang dihasilkan dengan parameter yang dioptimasi
dengan Algoritme Genetika adalah 67.3% untuk fragmen berukuran 400bp dan
98.6% untuk fragmen berukuran 10 Kbp. Akurasi ini lebih tinggi dibandingkan
akurasi dari model klasifikasi dengan parameter yang ditentukan dengan
menggunakan grid search, yaitu sebesar 65.3% untuk fragmen berukuran 400 bp
dan 95.4 untuk fragmen berukuran 10 Kbp.
Kata kunci: Metagenome, Support Vector Machine (SVM), Algoritme Genetika,
Radial Basis Function (RBF).

SUMMARY
INNA SABILY KARIMA. Parameter Optimization Support Vector Machine
(SVM) for classification of metagenome fragment Using Genetic Algorithm.
Supervised by WISNU ANANTA KUSUMA and IRMAN HERMADI.
Classification of metagenome fragment is an example of the binning process

which aims to classify fragments into several taxonomic levels. One of the
methods of machine learning that can be used is the Support Vector Machine
(SVM). In the non linear problem, it is necessary to map the kernel feature vector
into a high dimensional space, so that the non-linear problem can be solved
linearly. One of the most popular kernel used in the classification problem is the
Radial Basis Function (RBF). The challenge is how to find the optimal parameters
to produce accurate classification models.
The purpose of this study is to optimize the parameters of the SVM in
classifying metagenome fragment using Genetic Algorithms. Parameters to be
searched is the optimal value of C representing margin and gamma (), a kernel
parameter of the RBF kernel to obtain the optimal classification models. The
evaluation is conducted to compare the accuracy of classification model that uses
optimized parameters yielded by Genetic Algorithms and those of being
determined using the grid search technique. The evaluation results show that the
accuracies of the resulting parameters optimized by Genetic Algorithm are 67.3%
for fragment size of 400 bp and 98.6% for the 10 kbp fragment size. These
accuracies are higher than those of using the grid search technique which obtain
65.3% for fragment size of 400 bp and 95.4% for the 10 kbp fragment size.
Keywords: Metagenome, Support Vector Machine (SVM), Genetic Algorithms,
Radial Basis Function (RBF)


© Hak Cipta Milik IPB, Tahun 2014
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB

OPTIMASI PARAMETER PADA SUPPORT VECTOR MACHINE
UNTUK KLASIFIKASI FRAGMEN METAGENOME
MENGGUNAKAN ALGORITME GENETIKA

INNA SABILY KARIMA

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Komputer

pada
Program Studi Ilmu Komputer

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014

Penguji Luar pada Ujian Tesis : Dr Imas Sukaesih Sitangang, MKom

Judul Tesis : Optimasi Parameter pada Support Vector Machine untuk
Klasifikasi Fragmen Metagenome Menggunakan Algoritme
Genetika
Nama
: Inna Sabily Karima
NIM
: G651120351

Disetujui oleh
Komisi Pembimbing


Dr Wisnu Ananta Kusuma, MT
Ketua

Irman Hermadi, SKom, MS, PhD
Anggota

Diketahui oleh

Ketua Program Studi
Ilmu Komputer

Dr Wisnu Ananta Kusuma, MT

Tanggal Ujian: 5 September 2014

Dekan Sekolah Pascasarjana

Dr Ir Dahrul Syah, MScAgr


Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan September 2013 dengan
judul Optimasi Parameter pada Support Vector Machine untuk Klasifikasi
Fragmen Metagenome Menggunakan Algoritme Genetika.
Terima kasih penulis ucapkan kepada Bapak Dr Wisnu Ananta Kusuma,
MT dan Bapak Irman Hermadi, Ssi, MS, PhD selaku pembimbing. Selain itu,
penulis menyampaikan terima kasih kepada semua dosen dan staf Departemen
Ilmu Komputer IPB yang telah membantu selama proses penelitian. Ungkapan
terima kasih juga disampaikan kepada Papah dan Mamah, suami tercinta Rahmat
Oktavian, S. Kom, M. Kom serta kedua adik saya Ainun dan Sofia, atas doa,
perhatian dan kasih sayangnya. Teman sepembimbingan (Lailan, Abrar, Nita,
Ramdhan), teman-teman Dwi Regina (Kak Marlinda, Frinsa, Mentari, Thoyyibah,
Astrid, Lian, Erlisa), dan teman-teman seperjuangan angkatan 14 (Dhieka, Yesi,
Nia, Vira, Khusnul, Gita) Ilmu Komputer IPB yang selalu bersama penulis dua
tahun ini, terima kasih atas dukungannya yang diberikan kepada penulis.
Semoga karya ilmiah ini bermanfaat.


Bogor, September 2014
Inna Sabily Karima

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi

1 PENDAHULUAN
Latar Belakang
Perumusan Masalah

Tujuan Penelitian
Manfaat Penelitian
Ruang Lingkup Penelitian

1
1
2
3
3
3

2 TINJAUAN PUSTAKA
Metagenom
Support Vector Machine
Optimasi
Grid Search
K-fold cross-validation
Algoritme Genetika

3

3
3
6
7
7
8

3 METODE
Alur Metode Penelitian
Penyiapan data
Ekstrasi Fitur
Scaling
Optimasi parameter Kenel RBF dengan Algoritme Genetika
Desain Kromosom
Pembentukan Populasi Awal
Evaluasi Fitness
Kriteria Pemberhentian
Seleksi
Crossover
Mutasi

Elitisme
Optimasi parameter Kenel RBF dengan Grid Search
Pengujian SVM
Analisis

10
11
11
12
12
13
13
15
16
16
16
17
17
17
18
19
19

4 HASIL DAN PEMBAHASAN
Penyiapan Data
Ekstrasi Fitur
Proses Support Vector Machine
Pengujian Hasil Optimasi dan Analisis Akurasi

20
20
20
21
21

Sensitivity dan Specificity

23

5 SIMPULAN DAN SARAN
Simpulan
Saran
DAFTAR PUSTAKA

25
25
25
26

LAMPIRAN

28

RIWAYAT HIDUP

46

DAFTAR TABEL
1. Nilai eksponen di format floating point 32-bit
2. Hasil Optimasi Parameter SVM dengan algoritme genetika

15
22

DAFTAR GAMBAR
1. Alternatif bidang pemisah (Osuna et al. 2007)
2. Bidang pemisah terbaik dengan margin (m) terbesar (Osuna et al.

4

2007)
Soft margin hyperplane (Osuna et al. 2007)
Transformasi dari vektor input ke feature space (Osuna et al. 2007)
K-fold cross-validation (Refaeilzadeh et al. 2009)
Pengkodean (encoding) (a) biner (b) permutasi (Jacob 2001)
Siklus Algoritme Genetika (Goldberg 1998)
Tahapan Penelitian
Pola spaced k-mers dengan parameter w = 3 dan d = 0, 1, 2 (Kusuma
2012)
Optimasi parameter menggunakan algoritme Genetika
Desain kromosom insisalisasi parameter C dan 
Format bilangan floating point 32-bit (Kahan 1997)
Estimasi Parameter Menggunakan Grid Search
Hasil akurasi berdasarkan panjang fragmen
Grafik perbandingan nilai akurasi klasifikasi Algoritme Genetika
dengan Grid Search
Sensitivity takson genus
Specificity takson genus

4
5
6
8
9
10
11

3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.

12
13
14
14
18
22
23
24
24

DAFTAR LAMPIRAN
1.
2.
3.
4.
5.

Daftar nama organisme data latih
Daftar nama organisme data uji
Daftar tingkat taksonomi genus yang digunakan
Daftar hasil praproses data latih
Daftar hasil praproses data uji

28
37
42
43
45

1 PENDAHULUAN
Latar Belakang
Salah satu bidang kajian bioinformatika yang saat ini terus mengalami
perkembangan adalah metagenomika (Chan et al. 2007; O’Malley 2012). Berbeda
dengan studi yang mempelajari genom (genomika), pada metagenomika sekuens
DNA dari komunitas mikrob tidak diperoleh dari pure clonal cultures dari
individu tertentu melainkan diperoleh melalui proses sequencing secara langsung
(McHardy et al. 2007). Metagenom yang berasal dari lingkungan mengandung
berbagai organisme yang selanjutnya dilakukan proses assembly, yaitu proses
perakitan penyesuaian dan penggabungan fragmen urutan DNA sequence menjadi
urutan DNA yang sebenarnya. Karena mengandung fragmen-fragmen dari
berbagai organisme, maka proses assembly menjadi lebih sulit. Kesalahan
assembly akan dapat menyebabkan terbentuknya cymeric contigs, yaitu contigs
yang dihasilkan dari fragmen-fragmen yang berasal dari organisme yang berbeda.
Untuk memeperkecil kemungkinan munculnya cymeric contigs, maka proses
binning diperlukan untuk mengelompokkan fragmen-fragmen tersebut sebelum
melakukan proses assembly.
Ada dua pendekatan proses binning yaitu binning berdasarkan komposisi
dan binning berdasarkan homologi (Wooley et al. 2010). Binning berdasarkan
komposisi memiliki beberapa keunggulan dibandingkan pendekatan binning
lainnya yang berdasarkan homologi. Binning berdasarkan komposisi merupakan
jalan pintas (by pass) kebutuhan akan penjajaran sequences, vektor masukan yang
dihasilkan dari ekstraksi ciri berupa pasangan basa (base pair) akan dihitung
sebagai ciri komposisi, kemudian ciri tersebut akan digunakan sebagai masukan
pada pembelajaran dengan contoh (supervised learning) atau pada pembelajaran
secara observasi (unsupervised learning). Binning berdasarkan homologi
merupakan proses pencarian penjajaran sekuens dengan membandingkan fragmen
metagenom dengan basis data yang digunakan, yaitu National Centre for
Biotechnology Information (NCBI) dan hasilnya akan disimpulkan pada tiap level
taksonomi. Proses binning dalam persepktif bidang ilmu komputer dapat
dilakukan dengan metode supervised atau unsupervised learning. Pada binning
dengan metode supervised learning, fragmen-fragmen yang diklasifikasikan
berdasarkan level taksonomi tertentu, misalnya yang paling rendah ialah level
genus, masih sulit klasifikasi pada level species.
Beberapa peneliti telah melakukan penelitian yang terkait dengan
pengklasifikasian fragmen metagenom ini. McHardy et al. (2007) melakukan
penelitian untuk mengklasifikasikan fragmen metagenom dengan menggunakan
data latih 340 organisme. Metode yang digunakan ialah multiclass support vector
machine dengan frekuensi k-mers sebagai fiturnya. Aplikasi yang dibangun
dinamai PhyloPythia. Hasil akurasi yang diperoleh terbilang cukup tinggi
khususnya untuk panjang fragmen ≥ 5 Kbp yaitu antara 60% sampai diatas 90% di
setiap tingkat takson. Tetapi akurasi ini terus menurun dengan signifikan jika
menggunakan fragmen dengan panjang ≤ 3 Kbp. Pada fragmen dengan panjang 3
Kbp hanya diperoleh akurasi sebesar 40% sedangkan untuk panjang fragmen 1
Kbp akurasi yang diperoleh kurang dari 10%. Selain itu, PhyloPythia

2
menggunakan 5-mers, yang berarti matriks fitur yang dihasilkan memiliki dimensi
45 = 1024. Proses ekstraksi fitur yang melibatkan dimensi yang besar ini
memerlukan waktu komputasi yang tinggi. Kusuma dan Akiyama (2011)
mengusulkan metode klasifikasi fragmen metagenom dengan menggunakan
metode SVM. Characterization vector sebagai fiturnya yang digunakan dalam
klasifikasi fragmen metagenom masih belum mempengaruhi hasil akurasi yang
diperoleh cukup tinggi yaitu 78% untuk panjang fragmen 500 bp sampai dengan
87% untuk panjang fragmen 10 Kbp. Namun, ketika metode ini diterapkan pada
dataset berukuran besar (374 organisme), akurasi yang diperoleh menurun secara
signifikan, yaitu sebesar 30% untuk panjang fragmen 1 Kbp pada level genus.
Ariny (2013) melakukan klasifikasi fragmen metagenom memperoleh hasil
akurasi baik meskipun diterapkan pada fragmen dengan panjang yang kecil (400
bp), yaitu 82.1% pada level filum, 78.2% pada level kelas, 72% pada level order
dan 65.3% untuk level genus. Berdasarkan penelitian Ariny (2013), metode
klasifikasi fragmen metagenom dengan algoritme SVM memiliki akurasi lebih
tinggi dibandingkan metode sebelumnya, namun waktu komputasinya lama pada
saat training . Hal ini disebabakan penentuan nilai parameter C dan gamma ()
yang dilakukan dengan metode grid search. Metode grid search menguji semua
kombinasi parameter C dan gamma (), kemudian memilih kombinasi yang
memberikan hasil paling optimum dalam melakukan klasifikasi.
Support Vector Machine (SVM) mengklasifikasi data dengan class yang
berbeda untuk menentukan sebuah hyperplane (Huang dan Wang 2006).
Klasifikasi fragmen metagenom menggunakan metode SVM masih terdapat
masalah yang diahadapi yaitu bagaimana cara mengatur parameter terbaik pada
kernel. Pengaturan parameter yang tepat dapat meningkatkan akurasi klasifikasi
SVM (Huang dan Wang 2006). Untuk itu parameter SVM perlu
dioptimalkantermasuk paramater C dan parameter fungsi kernel termasuk gamma
() untuk kernel Radial Basis Function (RBF). Algoritme grid merupakan
alternatif mencari C yang terbaik dan gamma ketika menggunakan fungsi kernel
RBF. Namun, metode ini memakan waktu yang lama dan tidak memiliki performa
yang baik (Hsu dan Lin 2002). Algoritme genetika memiliki potensi untuk
menghasilkan parameter SVM yang optimal pada saat yang sama. Algoritme
genetika sangat baik untuk menyelesaikan permasalahan optimasi dan melakukan
search point dengan mencari pola baru yang diharapkan memiliki nilai fitness
yang lebih baik dari seluruh kromosom dan dapat meningkatkan kinerja pada
classifier (Limai 2009). Penelitian ini bertujuan pada optimasi parameter C dan
gamma () untuk classifer SVM. Untuk dataset yang digunakan data latih terdiri
atas 381 organisme dan data uji terdiri dari 200 organisme. Fleksibilitas algoritme
genetika untuk penyelesaian masalah optimasi yang tidak menuntut persyaratan
yang ketat, seperti kekontinuan dan keterdifferensialan fungsi tujuan,
memungkinkan metode ini dapat menyelesaikan masalah optimasi yang dilakukan
pada penelitian ini.
Perumusan Masalah
Optimasi parameter SVM untuk klasifikasi fragmen metagenom masih
menggunakan pendekatan grid search. Pendekatan tersebut perlu melakukan

3
semua kombinasi parameter C dan gamma (  ) terutama dengan ukuran data (bp)
yang besar dapat mempengaruhi hasil akurasi klasifikasi.
Tujuan Penelitian
Tujuan penelitian ini adalah menggunakan algoritme genetika untuk
optimasi parameter SVM dalam klasifikasi fragmen metagenom.
Manfaat Penelitian
Penentuan parameter SVM dengan algoritme genetika dapat meningkatkan
hasil akurasi klasifikasi metagenom yang lebih baik dan mendapatkan parameter
SVM yang optimal.
Ruang Lingkup Penelitian
Hal-hal yang membatasi penelitian adalah sebagai berikut :
1. Data mikrob diperoleh dari National Centre for Biotechnology Information
(NCBI) yaitu 381 organisme.
2. Level takson yang digunakan yaitu genus.
3. Kernel yang digunakan pada SVM adalah kernel RBF.
4. Parameter SVM yang akan dioptimasi adalah C sebagai nilai cost dan 
sebagai perlambatan/percepatan fungsi kernel.

2 TINJAUAN PUSTAKA
Metagenom
Metagenom merupakan genom dari mikrob tanpa pengulturan mikrob.
Istilah metagenom berasal dari konsep statistik meta-analisis (proses yang secara
statistik mengombinasikan metode-metode analisis yang terpisah), serta genomik
(analisis menyeluruh dari materi genetika suatu organisme). Metagenomics
dikembangkan berdasarkan kemajuan terkini bidang biologi molukuler dan
bioinformatika. Bioinformatika ini mempunyai peranan yang penting salah
satunya yaitu untuk manajemen data biologi molekul, terutama sekuen DNA dan
informasi genetika (Thontowi 2009).
Support Vector Machine
Penelitian yang dilakukan Gunn (1998), Support Vector machine (SVM)
dikembangkan oleh Vapnik (1995). SVM adalah sistem pembelajaran yang
menggunakan ruang hipotesis berupa fungsi-fungsi linier dalam sebuah ruang fitur
(feature space) berdimensi tinggi, dilatih dengan algoritme pembelajaran yang
didasarkan pada teori optimasi dengan mengimplementasikan learning bias yang
berasal dari teori pembelajaran statistik (Christianini dan Taylor 2000). SVM
adalah salah satu teknik yang relatif baru dibandingkan dengan teknik lain. Akan

4
tetapi memiliki performansi yang lebih baik di berbagai bidang aplikasi seperti
bioinformatika, pengenalan tulisan tangan, klasifikasi teks (Christianini 2001).
Salah satu ciri dari klasifikasi SVM adalah pencarian bidang pemisah
(hyperplane) terbaik yang berfungsi sebagai pemisah dua kelas data pada input
space. Hyperplane pemisah terbaik adalah hyperplane yang terletak di tengah di
antara dua set obyek dari dua kelas (Santosa 2007). Hyperplane terbaik dapat
dicari dengan memaksimalkan margin atau jarak dari dua set obyek dari dua kelas
yang berbeda. Menurut Osuna et al. (2007) linearly separable data merupakan
data yang dapat dipisahkan secara linier. Misalkan xi ,..., xn  adalah dataset dan
 i   1,1 adalah label kelas dari data xi .

Gambar 1 Alternatif bidang pemisah (Osuna et al. 2007)

Pada Gambar 1 dapat dilihat alternatif bidang pemisah yang dapat
memisahkan semua dataset sesuai dengan kelasnya.

Gambar 2 Bidang pemisah terbaik dengan margin (m) terbesar
(Osuna et al. 2007)

Bidang pemisah terbaik tidak hanya dapat memisahkan data tetapi juga
memiliki margin paling besar. Adapun data yang berada pada bidang pembatas ini
disebut support vector. Kondisi linearly separable terpenuhi jika dapat dicari
pasangan (w,b) sedemikin sehingga persamaan 1 dan 2 (Christianini dan Taylor
2000) :
w  xi  b  1, for yi  1
(1)

w  xi  b  1, for yi  1

(2)

5
dengan w adalah bidang normal dan b adalah posisi bidang relatif terhadap pusat
koordinat. Kemudian, ruang hipotesis untuk data tersebut ialah set fungsi yang
diberikan oleh Persamaan 3 (Christianini dan Taylor 2000) :
f w,b  sign(w  x  b)

(3)

Setelah dilakukan penyelesaian dengan formula Lagrangian menggunakan
Lagrange multipier dan normalisasi parameter w, maka fungsi keputusan untuk
menentukan kelas dari data uji x adalah pada Persamaan 4 (Christianini dan
Taylor 2000) :
l

f ( x)  sign( yi i ( x, xi )  b), (4)
i 1

dengan  = koefisien Lagrange multipier.SVM pada Nonlinearly Separable Data
untuk mengklasifikasikan data yang tidak dapat dipisahkan secara linier formula
SVM harus dimodifikasi karena tidak akan ada solusi yang ditemukan. Pencarian
bidang pemisah terbaik dengan dengan penambahan variabel  i sering juga
disebut soft margin hyperplane. Dengan demikian formula pencarian bidang
pemisah terbaik berubah menjadi Persamaan 5 (Christianini dan Taylor 2000) :
1 2
 n 
w  C i 
2
 i 1 
s.t. yi ( w.xi  b)  1   i

min

(5)

i  0
C adalah parameter yang menentukan besar penalti akibat kesalahan dalam
klasifikasi data dan nilainya ditentukan oleh pengguna.

Gambar 3 Soft margin hyperplane (Osuna et al. 2007)
Metode lain untuk mengklasifikasikan data yang tidak dapat dipisahkan
secara linier adalah dengan mentransformasikan data ke dalam dimensi ruang fitur
(feature space) diilustrasikan pada Gambar 4 sehingga dapat dipisahkan secara
linier pada feature space.

6

Gambar 4 Transformasi dari vektor input ke feature space
(Osuna et al. 2007)

Dengan metode ini, data dipetakan dengan menggunakan fungsi pemetaan
(transformasi xk   ( xk ) ke dalam feature space sehingga terdapat bidang
pemisah yang dapat memisahkan data sesuai dengan kelasnya (Gambar 3).
Feature space dalam praktiknya biasanya memiliki dimensi yang lebih tinggi dari
vektor input (input space). Hal ini mengakibatkan komputasi pada feature space
mungkin sangat besar, karena ada kemungkinan feature space dapat memiliki
jumlah feature yang tidak terhingga. Selain itu, sulit mengetahui fungsi
transformasi yang tepat. Untuk mengatasi masalah ini, pada SVM
digunakan ”kernel trick”. Fungsi kernel yang umum digunakan adalah sebagai
berikut (Osuna et al. 2007):
1. Kernel Linier
K ( xi , x)  xiT x
2. Polynomial kernel
K ( xi , x)  (  xiT x  r ) p ,   0
3. Radial Basis Function (RBF)
K ( xi , x)  exp(  | xi  x |2 ),   0
4. Sigmoid Kernel
K ( xi , x)  tanh(  xiT x  r )

Optimasi
Optimasi merupakan suatu proses untuk mencari kondisi yang optimum,
dalam arti paling menguntungkan (James dan Riggs 1988). Optimasi bisa berupa
maksimasi atau minimasi. Jika berkaitan dengan masalah keuntungan, maka
keadaan optimum adalah keadaan yang memberikan keuntungan maksimum
(maksimasi). Jika berkaitan dengan masalah pengeluaran/pengorbanan, maka
keadaan optimum adalah keadaan yang memberikan pengeluaran/pengorbanan
minimum (minimasi). Hal-hal penting dalam studi optimasi meliputi:
1. Fungsi objektif dan decision variables
2. Kendala (constraints)
Secara umum, fungsi yang akan dimaksimumkan atau diminimumkan disebut
fungsi objektif (objective function), sedangkan harga-harga yang berpengaruh dan
bisa dipilih disebut variabel (perubah) atau decision variable.

7
Secara analitik, nilai maksimum atau minimum dari suatu persamaan: y = f (x)
dapat diperoleh pada harga x yang memenuhi Persamaan 6 (Steven et al. 2003) :
y '  f ' ( x) 

dy df

0
dx dx

(6)

Untuk fungsi yang sulit untuk diturunkan atau mempunyai turunan yang
sulit dicari akarnya, proses optimasi dapat dilakukan secara numerik.
Grid Search
Algoritme grid search yaitu salah satu Algoritme umum yang sering
digunakan untuk estimasi parameter, dengan prinsip kerjanya dengan menentukan
beberapa nilai parameter pada rentang tertentu, kemudian memilih parameter pada
nilai terbaik pada rentang tersebut dan melakukan pencarian berulang pada grid
(rentang nilai) yang lebih kecil, dst. Fungsi grid search mengeluarkan nilai
parameter terbaik yang dibutuhkan saat pembentukan model (tahap pelatihan)
menggunakan kernel RBF dan polynomial. Parameter untuk kernel RBF adalah
cost (c) dan gamma (γ), sedangkan untuk kernel polinomial adalah cost (c),
gamma (γ), degree (d), dan koeff 0 (r). Akan tetapi, parameter r pada polinomial
yang dipakai hanya nilai default-nya saja yaitu 0. Selain mengeluarkan nilai
parameter terbaik, fungsi ini juga mengeluarkan akurasi 5-cross validation dari
data latih.
Cross-validation merupakan metode statistika untuk mengevaluasi dan
membandingkan algoritme pembelajaran dengan membagi data menjadi dua
bagian. Satu bagian untuk melatih model dan bagian lainnya untuk memvalidasi
model tersebut. Salah satu bentuk cross-validation adalah k-fold cross-validation.
Kelemahan Algoritme grid search pada pencarian grid yang terlalu kecil dapat
mengakibatkan overfitting ( Khotimah et al. 2010). Menurut Izenman (2008)
overfitting adalah suatu kejadian di mana jumlah parameter yang masuk ke dalam
model terlalu besar dibandingkan dengan ukuran data yang digunakan untuk
membangun model (learning set). Model tersebut menghasilkan galat yang sangat
kecil untuk data learning set, namun galat yang besar untuk data validasi.
K-fold cross-validation
K-fold cross-validation digunakan untuk membagi data menjadi data latih
dan data uji. K-fold cross-validation akan membagi data menjadi k bagian
berukuran sama. Secara bertahap akan dilakukan pelatihan dan validasi sebanyak
k ulangan. Sehingga dalam setiap perulangan k-1 bagian akan menjadi data latih,
dan 1 bagian sisanya akan digunakan untuk validasi (Refaeilzadeh et al. 2009).

8

Gambar 5 K-fold cross-validation (Refaeilzadeh et al. 2009)
Ilustrasi proses K-fold cross validation dapat dilihat pada Gambar 5. Metode ini
melakukan perulangan sebanyak k kali untuk membagi sebuah himpunan contoh
secara acak menjadi k-subset yang saling bebas. Setiap ulangan disisakan satu
subset untuk pengujian, dan sisanya digunakan untuk pelatihan.
Algoritme Genetika
Algoritme genetika bisa dikatakan sebagai metode metaheuristik yang
paling populer. Hal ini disebabkan karena algoritme genetika memiliki performa
yang baik untuk berbagai macam jenis permasalahan optimisasi. Algoritme
genetika diperkenalkan oleh Holland (1975) dalam bukunya “Adaptation in
Natural and Artificial Systems”. Adaptasi menjadi prinsip yang penting di dalam
algoritme genetika. Adaptasi adalah kemampuan untuk menyesuaikan diri dengan
lingkungannya, dan di dalam algoritme genetika, adaptasi dinyatakan dengan
proses memodifikasi struktur individu yang akan meningkatkan kinerja Algoritme
genetika. Mekanisme kerja algoritme genetika mengikuti fenomena evolusi
genetika yang terjadi dalam makhluk hidup. Ada 4 kondisi yang sangat
mempengaruhi proses evolusi, yaitu:
1. Kemampuan organisme untuk melakukan reproduksi
2. Keberadaan populasi organisme yang bisa melakukan reproduksi
3. Keberagaman organisme dalam suatu populasi
4. Perbedaan kemampuan untuk survive
Secara umum struktur algoritme genetika sebagai berikut :
a. Populasi, istilah pada teknik pencarian yang dilakukan sekaligus atas
sejumlah solusi yang mungkin
b. Kromosom, individu yang terdapat dalam satu populasi dan merupakan
suatu solusi yang masih berbentuk simbol.
c. Generasi, populasi awal dibangun secara acak sedangkan populasi
selanjutnya merupakan hasil evolusi kromosom-kromosom melalui iterasi.
d. Fungsi Fitness, alat ukur yang digunakan untuk proses evaluasi kromosom.
Nilai fitness dari suatu kromosom akan menunjukkan kualitas kromosom
dalam populasi tersebut.

9
e. Generasi berikutnya yang dikenal dengan anak (offspring) terbentuk dari
gabungan 2 kromosom generasi sekarang yang bertindak sebagai induk
(parent) dengan menggunakan operator penyilang (crossover).
f. Mutasi, operator untuk memodifikasi kromosom.
Menurut Goldberg (1989) algoritme genetika adalah suatu algoritme
pencarian (searching) yang didasarkan pada mekanisme seleksi alam. Tujuannya
untuk menentukan struktur-struktur yang disebut dengan individu berkualitas
tinggi dalam suatu domain yang disebut populasi untuk mendapatkan solusi
terbaik suatu persoalan. Golberg (1989) mengemukakan bahwa algoritme genetika
mempunyai karakteristik-karakteristik yang perlu diketahui sehingga dapat
dibedakan dari prosedur pencarian atau optimasi yang lain, yaitu:
a. Algoritme genetika dengan pengkodean dari himpunan solusi
permasalahan berdasarkan parameter yang telah ditetapkan dan bukan
parameter itu sendiri.
b. Algoritme genetika pencarian pada sebuah solusi dari sejumlah individuindividu yang merupakan solusi permasalahan bukan hanya dari sebuah
individu.
c. Algoritme genetika informasi fungsi objektif (fitness), sebagai cara untuk
mengevaluasi individu yang mempunyai solusi terbaik, bukan turunan dari
suatu fungsi.
d. Algoritme genetika menggunakan aturan-aturan transisi peluang, bukan
aturan-aturan deterministik.
Siklus dari algoritme genetika pertama kali dikenalakan oleh Goldberg,
dimana gambaran siklus tersbut dapat dilihat pada Gambar 8. Menurut (Jacob
2001), ada empat prinsip dasar didalam algoritme genetika; (1) prinsip dualisme,
(2) pengkodean diskrit (3) efek rekombinasi dan (4) building blok dasar. Di dalam
system biologi, prinsip dualisme yang dimaksudkan adalah informasi genetik
yang terdapat didalam DNA selain memiliki fungsi sebagai informasi yang dapat
di replikasi, juga berfungsi sebagai suatu instruksi yang harus dieksekusi. Pada
algoritme genetika, struktur genetik dari individu dimodifikasi berdasarkan
operasi rekombinasi dan mutasi, sedangkan instruksi genetik dinyatakan secara
terpisah melalui berbagai parameter di dalam algoritme genetika. Di dalam
pengkodean biner, setiap string memiliki nilai 1 atau 0. Selain pengkodean biner,
pengkodean permutasi merupakan jenis pengkodean yang cukup popular, tetapi
hanya bisa diterapkan pada permasalahan pengurutan seperti travelling salesman
problem. Di dalam pengkodean permutasi, angka di dalam string dinyatakan
secara berurutan.
(a)

Kromosom

1

0

0

1

0

1

1

0 1

(b)

Kromosom

1

2

5

6

3

8

4

9 7

Gambar 6 Pengkodean (encoding) (a) biner (b) permutasi (Jacob 2001)

10
Algoritme genetika meniru proses rekombinasi dari system biologi melalui
dua operator utamanya, crossover dan mutasi. Crossover akan meneruskan sifatsifat baik yang terdapat pada induk kepada anaknya sedangkan mutasi berfungsi
untuk menjaga keberagaman dari populasi. Representasi penyelesaian di dalam
algoritme genetika dinyatakan dengan kromosom. Satu kromosom biasanya
menyatakan satu buah variabel penyelesaian dan setiap kromosom bisa terdiri dari
beberapa gen.
Prosedur algoritme genetika diawali dengan menginisialisasi populasi.
Populasi terdiri dari sejumlah individu yang tersusun atas kromosom-kromosom.
Individu yang telah dibangkitkan kemudian dievaluasi untuk menentukan nilai
fitnessnya. Nilai fitness adalah suatu nilai yang menyatakan kualitas dari individu,
dan biasanya dirumuskan dengan fungsi objective-nya. Setelah evaluasi kemudian
dilakukan seleksi untuk menentukan individu di dalam populasi yang akan
dijadikan sebagai induk dalam proses reproduksi. Ada dua operator di dalam
proses reproduksi yaitu crossover dan mutasi. Individu hasil reproduksi, yang
disebut anak, kemudian dievaluasi. Apabila nilai fitness anak lebih baik daripada
nilai fitness individu di dalam populasi, maka individu tersebut akan digantikan
dengan anak. Proses penggantian ini sering disebut dengan elitsm.

Gambar 7 Siklus Algoritme Genetika (Goldberg 1998)
Dalam penerapan Algoritme genetika, ada beberapa parameter yang
dilibatkan, di mana parameter ini menentukan kesuksesan suatu proses optimasi.
Jenis parameter yang digunakan bergantung pada permasalahan yang diselesaikan,
namun ada beberapa parameter yang menjadi standar, yaitu:
a. Ukuran populasi (pop_size)
b. Probabilitas crossover (pc)
c. Probabilitas mutasi (pm)

3 METODE
Penelitian ini menggunakan metode algoritme genetika dalam optimasi
parameter SVM. Algoritme genetika mempunyai potensi untuk membangkitkan
parameter optimal SVM. Penelitian ini dilaksanakan dalam beberapa tahapan
yang diilustrasikan pada Gambar 9.

11

Alur Metode Penelitian

Gambar 8 Tahapan Penelitian
Penyiapan data
Tahapan awal penelitian ialah penyiapan data. Data yang digunakan ialah
data ternary atau data simulasi metagenom yang didapat dari situs National
Centre for Biotechnology Information (NCBI). Data yang digunakan adalah data
metagenom yang diunduh dari alamat situs NCBI. Data metagenome ini
merupakan sequence DNA organisme dengan format FastA. Kemudian data
dibagi atau dipilih sesuai dengan ruang lingkup yang digunakan yaitu 381
organisme untuk data latih, dan 200 organisme untuk data uji pada tahap
pembagian data. Hasil sequence DNA organisme yang sudah dipilih lalu diuraikan
fragmennya menggunakan perangkat lunak MetaSim (Richter et al. 2008).
MetaSim adalah perangkat lunak untuk mensimulasikan sequencer. Pada
penelitian ini data yang disiapkan untuk data latih berjumlah 9600 dan 320 ribu

12
fragmen, sedangkan untuk data uji berjumlah 100 ribu fragmen. Panjang fragmen
yang ditetapkan untuk setiap kali pengolahan yaitu 400 bp, 800 bp, 1 Kbp, 3 Kbp,
5 Kbp, dan 10 Kbp. Data latih dengan jumlah fragmen 9600 disiapkan sebagai
data pendekatan pencarian parameter terbaik untuk kernel, sedangkan data latih
dengan jumlah fragmen 320 ribu menjadi data masukan untuk pembuatan model.
Penggunaan data latih kecil sebagai pendekatan pencarian paramater terbaik ini
didasarkan pada percobaan yang dilakukan oleh McHardy (McHardy et al. 2007).
Ekstrasi Fitur
Tahapan selanjutnya adalah ekstrasi fitur. Pada tahapan ekstrasi fitur
menggunakan data dari hasil praproses yang telah dilakukan oleh Ariny (2013)
dengan menggunakan MetaSim. Metode ekstraksi fitur yang dilakukan dengan
membaca frekuensi dari kombinasi nukleotida yang terbentuk ialah metode
spaced k-mers. Terdapat 2 buah variabel yang berpengaruh pada metode ekstraksi
fitur ini, yaitu w (weight of pattern) adalah banyaknya posisi yang cocok, dan d
adalah jumlah posisi don’t care. Mengacu pada penelitian Kusuma (2012), pola
terbaik spaced k-mers dengan nilai w = 3 dan d = 0, 1, 2. Ilustrasi perhitungan
frekuensi pola kemunculan dapat dilihat pada Gambar 10.
192 Kombinasi





w3
d  0 ,1 , 2

111 1 * 11 1 * *11





64 Kombinasi

 AAA




AAC

Template Fitur

.. GGG



64 Kombinasi

A * AA ... G * GG



64 Kombinasi

A * AA ... G * * GG 




Fitur

Gambar 9 Pola spaced k-mers dengan parameter w = 3 dan d = 0, 1, 2 (Kusuma
2012)

Metode ini memeriksa frekuensi nukleotida dari setiap fragmen DNA mulai dari
AAA sampai GGG, A*AA sampai G*GG, dan A**AA sampai G**GG, sehingga
didapat 192 dimensi fitur. Pada Gambar 10 pengertian dari simbol * (don’t care)
pada fragmen DNA yang diperiksa adalah dapat berupa basa apapun, baik A, C, T,
maupun G. Kemudian untuk simbol ** berarti diperbolehkan pasangan basa
apapun mengisi 2 bit tersebut, sehingga kondisi ini dapat diisi oleh 24 pasang basa
mulai dari AA, AC, AT, AG, dan seterusnya hingga GG.
Scaling
Prosedur tahapan algoritme genetika diawali dengan menginisialisasi
populasi fragmen metagenom. Sebelum ke tahap selanjutnya yaitu evaluasi fitness,
diperlukan analisis parameter yang berpengaruh terhadap classifier SVM yang
disebut scaling. Tujuan scaling adalah untuk menghindari perkiraan angka yang
besar yang mendominasi perkiraan angka lebih kecil. Propulasi terdiri dari
beberapa individu yang tersusun atas kromosom-kromosom.
Tahap inisialisasi merupakan tahap untuk membangkitkan populasi awal
dari seluruh ruang pencarian yang mungkin untuk suatu masalah. Populasi awal
tersebut dibangkitkan secara acak (Sastry et al. 2005). Individu yang telah

13
dibangkitkan kemudian dievaluasi pada tahap berikutnya untuk menentukan nilai
fitness-nya. Data fragmen metagenom akan diubah bobotnya menjadi data yang
memiliki rentang [0, 1] atau [-1,+1] menggunakan transformasi linear sederhana
Persamaan 7 (Vesanto et al. 2000).
v  min( v)
(7)
v' 
max( v)  min( v)
Dengan v adalah dataset, v ' adalah nilai yang telah diskala, min (v) adalah nilai
min dataset, max adalah nilai makasimum dataset.
Optimasi parameter Kenel RBF dengan Algoritme Genetika
Tahap berikutnya adalah optimasi parameter dengan Algoritme Genetika.
Proses klasifikasi SVM dengan menggunakan kernel RBF membutuhkan
parameter C dan  (gamma) yang optimal agar hasil klasifikasi optimal. Kedua
parameter ini dioptimasi dengan menggunakan algoritme genetika. Diagram alir
optimasi parameter dengan menggunakan Algoritme Genetika ditunjukkan pada
Gambar 11.

Gambar 10 Optimasi parameter menggunakan algoritme Genetika
Desain Kromosom
Pada tahapan desain kromosom Algoritme Genetika digunakan untuk
menentukan estimasi parameter yang tujuannya untuk meningkatkan akurasi
klasifikasi. Representasi penyelesaian di dalam algoritme genetika dinyatakan

14
dengan kromosom. Satu kromosom biasanya menyatakan satu buah variable
penyelesaian dan setiap kromosom bisa terdiri dari beberapa gen. Kromosom
mempunyai parameter berbeda sesuai fungsi kernel yang dipilih, pada penelitian
ini fungsi kernel yang digunakan adalah kernel RBF. Parameter yang terdapat
pada fungsi kernel RBF terdiri dari parameter C dan  (gamma). Gambar 12
menunjukan desain kromosom gen yang dinyatakan dengan bit string. Untuk
n
g C1 ~ g CnC menyatakan nilai parameter C dan g1 ~ g  menyatakan nilai parameter

 (gamma). nC representasi dari jumlah bit parameter C sedangkan n representasi
dari jumlah bit parameter  .

g C1

g Ci

g Cnc g 1

n

g j

g 

Gambar 11 Desain kromosom insisalisasi parameter C dan 
Dalam penelitian ini nilai parameter C dan  mempunyai rentang nilai yang
mungkin terdapat bilangan yang sangat besar atau sangat kecil. Bilangan tersebut
harus dapat direpresentasikan dengan tepat yaitu menggunakan floating-point.
Bilangan floating-point direpresentasikan dengan mantissa yang berisi digit
signifikan dan eksponen dari radix R. Format umum floating point pada
persamaan (8).
Mantissa x Reksponen

(8)

Represensasi bilangan floating point seringkali dinormalisasi terhadap
radixnya, misalnya 1, 5 × 1044atau 1, 253 × 10 − 36. Format bilangan floating-point
biner telah distandarkan oleh IEEE 754-2008 (atau ISO/IEC/IEEE 60559:2011),
yaitu meliputi format 16-bit (half), 32-bit (single-precision), 64-bit (doubleprecision), 80-bit (double-extended) dan 128-bit (quad-precision).
Bilangan floating-point 32-bit tersusun atas
1 bit Sign (S)
8 bit eksponen (E), dan
23 bit untuk mantissa (M)

Gambar 12 Format bilangan floating point 32-bit (Kahan 1997)
Bit tanda (S) menyatakan bilangan positif jika S=0 dan negatif jika S=1.
Field eksponen adalah radix 2. Nilai eksponen bisa negatif atau positif untuk
menyatakan bilangan yang sangat kecil atau sangat besar. Format eksponen yang
digunakan adalah excess-127. Nilai 127 ditambahkan dari nilai eksponen
sebenarnya (Exp), yaitu Exp = E − 127. Dengan excess-127, nilai E akan selalu
positif dengan jangkauan 0 sampai 255.

15
Nilai ekstrem adalah untuk E=0 dan E=255
E=0 menyatakan bilangan NOL (jika M = 0) dan subnormal (jika M ≠ 0)
E=255 menyatakan bilangan TAK TERHINGGA (jika M = 0) dan
NAN/not-a-number (jika M ≠ 0);
Nilai normal adalah 1 ≤ E ≤ 254 yang menunjukkan nilai eksponen
sebenarnya dari -126 sampai 127
Contoh: Emin(1) = − 126, E(50) = − 77 dan Emax(254) = 127;
Tabel 1 Nilai eksponen di format floating point 32-bit
Eksponen (E)
0
1-245
255

Mantissa = 0
0, -0

Mantissa  0

Nilai Ternormalisasi


Persamaan
(1)  0.bitsignifi kan  2126
s

(1) s  0.bitsignifi kan  2127

Bukan
bilangan
(NAN = nota-number)

Saat nilai mantissa (M) dinormalisasi, most significant bit (MSB) selalu 1.
Namun, bit MSB ini tidak perlu disertakan secara eksplisit di field mantisa (Tabel
1). Nilai mantissa yang sebenarnya adalah 1.M, sehingga nilai bilangan floating
point-nya menjadi Persamaan 9 (Kahan 1997):
V ( B)   1.M  2 E 127
23
(9)


 (1) S  0   m1  2 i  2 E 127
i 1


Di bilangan subnormal, nilai mantisa sebenarnya adalah 0.M, sehingga
bilangan floating point-nya menjadi Persamaan 10 (Kahan 1997):

V ( B)   1.M  2 E 127
23
(10)


 (1) S  0   m1  2 i  2 E 127
i 1


Dengan mantissa 23 bit ini ditambah 1 bit implisit, total presisi dari
representasi floating point 32-bit ini adalah 24 bit atau sekitar 7 digit desimal
(yaitu 24 × log10(2) = 7.225).

Pembentukan Populasi Awal
Pada penelitian ini, setiap populasi akan terdiri atas 25 kromosom. Populasi
awal dibentuk dengan membangkitkan 25 kromosom secara acak. Kemudian
populasi awal tersebut akan diproses menggunakan algoritme genetika untuk
mendapatkan populasi baru. Proses pembentukan populasi baru akan dilakukan
sampai didapatkan 20 populasi baru.

16
Evaluasi Fitness
Pada tahapan evaluasi fitness untuk setiap kromosom yang mewakili C dan
gamma (  ) yang dipilih, data training yang digunakan untuk melatih classifier
SVM, sedangkan data testing digunakan untuk menghitung akurasi klasifikasi.
Ketika klasifikasi akurasi diperoleh dari masing-masing kromosom akan
dievalusai fungsi fitness dengan persamaan (11) (Huang dan Wang 2006).

fitness  SVM _ accuracy

(11)
Pada persamaan (10) menunjukan jumlah fitness yang dihasilkan sama
dengan nilai akurasi pada klasifikasi dengan SVM pada persamaan (12) yang
merupakan cara perhitungan akurasi untuk hasil klasifikasi dengan SVM.
 data uji benar x 100%
(12)
Akurasi 
 data uji
Setelah dibangun model SVM dengan parameter C dan γ dari proses
Algoritme Genetika maka model tersebut diuji dengan data uji yang sama untuk
panjang fragmen yang berbeda. Hasil klasifikasi dibandingkan dengan kelas
aktual sehinga didapatkan akurasi untuk model tersebut. Akurasi menjadi nilai
fitness untuk menentukan baik tidaknya model SVM yang dihasilkan.
Kriteria Pemberhentian
Pada tahapan ini akan diperiksa kondisi populasi saat ini terhadap kriteria
pemberhentian. Ketika kriteria sudah terpenuhi maka proses generate offspring
dihentikan. Kriteria dikatakan sudah memenuhi apabila ( Hermadi et al.2014) :
1. Banyaknya generasi maksimum
2. Mencapai durasi maksimum (penenutuan durasi dilakukan sejak
awal proses)
3. Nilai fitness terbaik sudah tidak mengalami peningkatan selama
beberapa generasi terakhir (data fitness  epsilon yang merupakan
peningkatkan nilai fitness)
4. Sudah mencapai nilai fitness tertentu yang ditentukan sebelumnya.
5. Menggunakan kriteria berhenti dinamis setelah tingkat keyakinan
dari nilai fitness terbaik tercapai.
Kriteria di atas menandakan telah didapatkan parameter C & gamma (  )
yang optimal. Apabila kriteria pemberhentian belum terpenuhi maka dilanjutkan
proses generate offspring.
Seleksi
Teknik seleksi indvidu yang terpilih adalah metode roulette wheel. Teknik
seleksi ini diilustrasikan sebagai teknik pemutaran cakram rolet. Setiap kromosom
dalam populasi menempati suatu slot yang besarnya merupakan rasio antara nilai
fitness suatu kromosom dengan total nilai fitness dalam populasi. Untuk
menghasilkan satu populasi, rolet tersebut diputar sebanyak ukuran populasi yang
ada. Individu yang dipilih merupakan kromosom yang memiliki nilai fitness yang
baik. Individu dengan nilai fitness yang tinggi akan memiliki peluang lebih besar

17
terpilih. Proses seleksi akan menghasilkan 25 kromosom yang berperan sebagai
induk (Cox 2005).
Crossover
Proses crossover dilakukan dalam dua tahapan, yaitu memilih kromosom
yang akan dikenai crossover dan melakukan crossover pada kromosom terpilih
(Cox 2005). Pada tahap pertama, dibangkitkan suatu bilangan acak untuk setiap
kromosom dalam populasi. Kemudian setiap bilangan tersebut dibandingkan
dengan peluang crossover. Kromosom yang akan dipilih untuk dikenai crossover
adalah kromosom yang memiliki bilangan acak lebih kecil dari nilai peluang
crossover. Pada penelitian ini digunakan peluang crossover sebesar 60%.
Selanjutnya, pada tahap kedua akan dibangkitkan sebuah variabel n yang berisi
bilangan acak dari 1 sampai 10 untuk setiap pasang kromosom. Bilangan ini
berguna untuk menentukan posisi gen untuk memulai proses crossover. Proses
crossover dilakukan dengan menukar gen pertama sampai ke-n pada kromosom
yang satu dengan gen ke-(n+1) sampai ke-10 pada kromosom yang lain.
Mutasi
Mutasi berfungsi untuk menjaga keberagaman dari populasi. Proses mutasi
dilakukan pada offspring (kromosom anak) hasil dari proses crossover. Proses
mutasi merupakan proses merubah nilai suatu gen dari suatu kromosom. Mutasi
merupakan teknik ini bekerja pada satu kromosom berperan mengubah struktur
kromosom.
Proses mutasi juga terdapat peluang mutasi yang merupakan kemungkinan
sebuah kromosom akan terpilih untuk dilakukan mutasi. Persamaan 13
menunjukkan standar nilai peluang mutasi yang baik (Cox 2005).
1
(13)
)
N
Pm = Peluang Mutasi ; N = Ukuran Populasi
Pada penelitian ini digunakan peluang mutasi sebesar 10% sehingga proses mutasi
akan dilakukan pada 25 gen di setiap populasi. Proses pemilihan gen yang akan
dimutasi dilakukan secara acak. Gen yang terpilih selanjutnya akan diisi dengan
bilangan acak 0 atau 1.
Pm  Max (0,01,

Elitisme
Pada penelitian ini elitisme dilakukan sebanyak 10% dari setiap populasi.
Oleh karena itu, proses ini akan menghasilkan sebuah populasi yang terdiri atas 23
kromosom yang diambil dari populasi hasil mutasi dan 2 kromosom yang diambil
dari populasi pada generasi sebelumnya. Proses pemilihan 23 kromosom dari hasil
mutasi dilakukan dengan memanfaatkan teknik roulette wheel. Adapun pemilihan
2 kromosom dari generasi sebelumnya dilakukan dengan memilih 2 kromosom
dengan nilai fitness terbaik.

18
Optimasi parameter Kenel RBF dengan Grid Search
Optimasi dengan grid search menggunakan data latih dengan jumlah
fragmen 9600. Tahapan ini dilakukan dengan fungsi grid search yang sudah
tersedia pada library SVM bernama LibSVM (Hsu et al. 2003) yang dapat
diunduh pada alamat http://www.csie.ntu.edu.tw/~cjlin/libsvm. Fungsi grid search
mengeluarkan nilai parameter terbaik yang dibutuhkan saat pembentukan model
(tahap pelatihan) menggunakan kernel RBF. Parameter untuk kernel RBF ialah
cost (c) dan gamma (γ). Algoritme Grid Search bertujuan sebagai algoritme
pembanding dengan algoritme genetika. Diagram alir estimasi parameter dengan
menggunakan algoritme grid search ditunjukan pada Gambar 15.Tahap klasifikasi
SVM diawali dengan pelatihan SVM untuk data latih hasil ekstraksi fitur dengan
jumlah fragmen 320 ribu. Dalam pelatihan ini, akan diterapkan pelatihan
menggunakan kernel Gaussian radial basis function (RBF). Hasil dari pelatihan
SVM ini ialah sebuah model yang dapat menguji data uji nantinya. Kemudian
pengujian SVM akan memprediksi kelas untuk setiap fragmen data uji dan
menghitung persentase banyaknya data uji yang telah diprediksi ke kelasnya
dengan benar.
Mulai

Data Fragmen
Metagenom

Scaling

Optimasi
SVM- Grid Search

Menentukan nilai parameter
pada rentang tertentu
Tidak
Parameter ≤ 1
ya
Training Klasifikasi
SVM

Memilih Parameter
Terbaik

Tidak

Paramater 1 Optimal
?
Tidak
Menentukan Nilai parameter
pada rentang yang lebih kecil

Training Klasifikasi
SVM

Tidak
Ya

Paramater 2 Optimal ?
Ya
Kriteria memenuhi ?
Ya
Parameter
Optimal

(C, )

Selesai

Gambar 13 Estimasi Parameter Menggunakan Grid Search

19
Prinsip Grid Search yaitu memilih parameter terbaik dengan menentukan
nilai parameter pada rentang tertentu untuk setiap parameter untuk menghitung
performansi dengan k-fold cross validation, kemudian pilih nilai terbaik. Untuk
rentang nilai parameter yang digunakan pada penelitian ini adalah menggunakan
hasil penelitian Ariny (2013) yaitu dengan nilai sebagai berikut :
C  2 , 8 ,10

  0.007813 , 0.031250 , 0.125000

(14)

Selanjutnya melakukan pencarian ulang pada grid (rentang) nilai yang lebih
kecil. Kelemahan dari metode ini melakukan pencarian pada grid yang terlalu
kecil yang mengakibatkan overfitting.
Pengujian SVM
Hasil dari pelatihan SVM sebelumnya ialah sebuah model yang akan diuji
menggunakan hasil ekstraksi fitur dari data uji. Pengujian akan
mengklasifikasikan data uji sebanyak 200 organisme ke dalam kelas genus.
Semua organisme yang telah dikelaskan menghasilkan persentase hasil
pengklasifikasiannya.
Analisis
Dari hasil pengoptimalan parameter SVM dengan algoritme genetika,
parameter akan diujikan pada data training untuk setiap panjang fragmen
sehingga dihasilkan model klasifikasi SVM. Kemudian akurasi untuk hasil
klasifikasi dapat dihitung dengan Persamaan (15) :
 data uji benar  100% (15)
akurasi 
 data uji
Selain akurasi, juga dianalisis dari nilai sensitivity dan specificity yang
dikelompokkan berdasarkan level genusnya. Persamaan untuk menghitung nilai
sensitivity dan specificity, yaitu

en t t
ec c t

∑ true positi es
∑ true positi es ∑ false negati es

∑ true negati es
∑ true negati es ∑ false positi es

100%

(16)

100%

(17)

dengan true positive adalah data uji kelas x yang diklasifikasikan ke kelas x, true
negative adalah data uji kelas x yang diklasifikasikan ke kelas selain x, false
positive adalah data uji kelas selain x yang diklasifikasikan ke kelas x, dan false
negative adalah data uji kelas selain x yang diklasifikasikan ke kelas selain x,
dimana kelas x adalah kelas yang akan dihitung nilai sensitivity dan specificitynya. Kemudian hal-hal yang menjadi bahan pertimbangan untuk kemudian
dilakukan dianalisis ialah pengaruh panjang fragmen terhadap hasil akurasi yang
didapatkan, hasil sensitivity dan specificity, hasil akurasi dengan kernel RBF.

20

4 HASIL DAN PEMBAHASAN
Penyiapan Data
Data yang digunakan pada penelitian ini adalah data metagenome yang
diunduh dari situs National Centre for Biotechnology Information (NCBI). Data
metagenome ini merupakan hasil sequences DNA mikroorganisme. Pada
penelitian ini jumlah organisme yang digunakan terbatas pada 381 organisme
untuk data latih dan 200 organisme untuk data uji. Daftar organisme untuk data
latih dan data uji yang digunakan pada penelitian ini dapat dilihat pada Lampiran
1 dan Lampiran 2. Data yang telah diunduh dari situs NCBI akan diuraikan
fragmennya meggunakan perangkat lunak MetaSim. MetaSim adalah perangkat
lunak untuk mensimulasikan sequencer. Fail yang berisi sequences DNA
mikroorganisme yang telah diunduh dari NCBI dimasukkan ke dalam perangkat
lunak tersebut. Setelah memasukkan data dari NCBI ke dalam perangkat lunak
MetaSim, proses selanjutnya adalah memilih b