Klasifikasi Fragmen Metagenom Menggunakan Metode SVM dan Fast Correlation Based Filter sebagai Penyeleksi Fitur

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN
METODE SVM DAN FAST CORRELATION BASED FILTER
SEBAGAI PENYELEKSI FITUR

AFDHAL DINILHAK

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Fragmen
Metagenom Menggunakan Metode SVM dan Fast Correlation Based Filter sebagai
Penyeleksi Fitur adalah benar karya saya dengan arahan dari komisi pembimbing
dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun.
Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun
tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan
dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Januari 2015
Afdhal Dinilhak
NIM G64124026

ABSTRAK
AFDHAL DINILHAK. Klasifikasi Fragmen Metagenom Menggunakan Metode
SVM dan Fast Correlation Based Filter sebagai Penyeleksi Fitur. Dibimbing oleh
WISNU ANANTA KUSUMA.
Bioinformatika memiliki banyak bidang kajian penting dan terus
berkembang, salah satunya adalah analisis metagenom. Metagenom merupakan
materi genetik yang diperoleh dari sampel yang langsung diambil dari lingkungan
tanpa budidaya di laboratorium. Untuk mengklasifikasikan fragmen metagenom ke
dalam tingkat taksonomi yang berbeda perlu dilakukan proses binning. Pada
penelitian ini dilakukan proses binning dengan pendekatan komposisi
menggunakan metode supervised learning. Proses klasifikasi dilakukan dengan
menggunakan Support Vector Machine (SVM) sebagai classifier, perhitungan
frekuensi k-mers untuk mengekstraksi fitur, dan Fast Correlation Based Filter
(FCBF) sebagai penyeleksi fitur. Pada proses seleksi fitur, jumlah fitur yang

terseleksi ditentukan oleh nilai threshold. Dari penelitian ini akurasi hasil
klasifikasi SVM dengan seleksi fitur berkisar antara 79.13% sampai 96.68% untuk
3-mers, sedangkan jika menggunakan 4-mers akurasi berkisar antara 83.59%
sampai 99.35%.
Kata kunci: metagenom, binning, k-mers, feature selection, fast correlation based
filter, threshold, SVM

ABSTRACT
AFDHAL DINILHAK. Metagenome Fragments Binning Using SVM Method and
Fast Correlation Based Filter Feature Selection. Supervised by WISNU ANANTA
KUSUMA.
Bioinformatics has many fields important and it keeps growing, one of the
interesting fields to be studied is metagenome analysis. Metagenome is the genetic
material which obtained from samples taken directly from environmental without
conducting a laboratory cultivation. Binning is required to classify metagenome
fragments into different taxonomic. This research employed the binning based
composition approach which is implemented using supervised learning method.
Classification process was conducted using Support Vector Machine (SVM) as
classifier, counting k-mers frequency as feature extraction, and Fast Correlation
Based Filter (FCBF) algorithm as feature selection. In the process of feature

selection, the number of selected features was determined by a threshold. The result
of this research show that the accuracy of the used method using 3-mers ranged
from 79.13% to 96.68%. Moreover, the accuracy increased from 83,59% to 99,35%
using 4-mers.
Keywords: metagenome, binning, k-mers, feature selection, fast correlation based
filter, threshold, SVM

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN
METODE SVM DAN FAST CORRELATION BASED FILTER
SEBAGAI PENYELEKSI FITUR

AFDHAL DINILHAK

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015

Penguji: Aziz Kustiyo, SSi MKom
Toto Haryanto, SKom MSi

Judul Skripsi : Klasifikasi Fragmen Metagenom Menggunakan Metode SVM dan
Fast Correlation Based Filter sebagai Penyeleksi Fitur
Nama
: Afdhal Dinilhak
NIM
: G64124026

Disetujui oleh

Dr Eng Wisnu Ananta Kusuma, ST MT
Pembimbing


Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Alhamdulillahi Rabbil ‘alamin, puji dan syukur penulis panjatkan kepada
Allah Subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini
berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak
bulan Juli 2014 ini ialah klasifikasi fragmen metagenom, dengan judul Klasifikasi
Fragmen Metagenom Menggunakan Metode SVM dan Fast Correlation Based
Filter sebagai Penyeleksi Fitur.
Terima kasih penulis ucapkan kepada seluruh pihak yang telah berperan
dalam penelitian ini, yaitu:
1 Ayahanda Apruddin, ibunda Rusmiati, dan keluarga atas doa, semangat, dan
dorongan kepada penulis sehingga dapat menyelesaikan penelitian ini.
2 Bapak Dr Eng Wisnu Ananta Kusuma, ST MT selaku pembimbing, yang telah
memberikan arahan, ide, masukan, dan dukungan kepada penulis.

3 Bapak Aziz Kustiyo, SSi MKom dan bapak Toto Haryanto, SKom MSi yang
telah bersedia menjadi penguji, dan memberikan saran yang berharga sehingga
tulisan ini menjadi lebih baik dari sebelumnya.
4 Seluruh staf pengajar Ilmu Komputer IPB yang telah memberikan ilmu semasa
perkuliahan.
5 Rekan-rekan Ilmu Komputer IPB yang saling menyemangati selama pengerjaan
penelitian di tahun yang sama.
6 Seluruh rekan satu bimbingan yang tidak dapat disebutkan satu persatu dan
pihak-pihak lainnya.
Semoga penelitian dan tulisan ini dapat memberikan manfaat.
Bogor, Januari 2015
Afdhal Dinilhak

DAFTAR ISI
DAFTAR TABEL

ix

DAFTAR GAMBAR


ix

DAFTAR LAMPIRAN

ix

PENDAHULUAN

1

Latar Belakang

1

Perumusan Masalah

2

Tujuan Penelitian


2

Manfaat Penelitian

2

Ruang Lingkup Penelitian

2

METODE

3

Pengumpulan Data

4

Pembagian Data


4

Praproses Data

4

Ekstraksi Fitur

4

Seleksi Fitur

4

Support Vector Machine (SVM)

6

Grid Search


8

Pelatihan SVM

8

Pengujian SVM

8

Analisis

8

Implementasi

9

HASIL DAN PEMBAHASAN


9

Pembagian Data

9

Praproses Data

9

Ekstraksi Fitur

10

Seleksi Fitur

10

Grid Search

11

Klasifikasi SVM

12

Analisis

12

Implementasi

17

SIMPULAN DAN SARAN

18

Simpulan

18

Saran

18

DAFTAR PUSTAKA

19

LAMPIRAN

21

DAFTAR TABEL
1
2
3

Jumlah fitur terseleksi untuk beragam nilai threshold
11
Nilai akurasi klasifikasi SVM tanpa seleksi fitur dan dengan seleksi
fitur
14
Nilai sensitivity dan specificity hasil klasifikasi SVM dengan ekstraksi
fitur menggunakan 3-mers dan panjang fragmen 0.5 Kbp.
16

DAFTAR GAMBAR
1
2
3
4
5
6
7

Tahapan Penelitian
3
Ekstraksi fitur k-mers
4
Algoritme FCBF (Yu 2003)
6
Contoh ilustrasi pemodelan SVM
6
Hasil praproses data
10
Hasil grid search
11
Hasil akurasi klasifikasi SVM dengan 3-mers sebagai ekstraksi fitur
dan seleksi fitur menggunakan beragam nilai threshold.
12
8 Hasil akurasi klasifikasi SVM dengan 4-mers sebagai ekstraksi fitur
dan seleksi fitur menggunakan beragam nilai threshold.
13
9 Hasil akurasi klasifikasi SVM dengan menggunakan FCBF dan tanpa
FCBF
14
10 Waktu komputasi klasifikasi SVM dengan seleksi fitur dan tanpa
seleksi fitur dan 3-mers untuk ekstraksi fitur.
15

DAFTAR LAMPIRAN
Daftar nama organisme data latih
21
Daftar nama organisme data uji
23
Daftar tingkat taksonomi (genus)
24
Daftar hasil grid search
24
Daftar waktu komputasi klasifikasi SVM tanpa seleksi fitur dan
dengan seleksi fitur
25
6 Hasil analisis ragam untuk melihat pengaruh seleksi fitur dan panjang
fragmen terhadap akurasi klasifikasi
26
7 Hasil analisis ragam untuk melihat pengaruh seleksi fitur dan panjang
fragmen terhadap waktu komputasi klasifikasi
26
8 Confusion matrix hasil dari klasifikasi SVM dengan ekstraksi fitur
menggunakan 3-mers pada data dengan panjang fragmen 0.5 Kbp
27
9 Confusion matrix hasil dari klasifikasi SVM dengan ekstraksi fitur
menggunakan 3-mers dan seleksi fitur (threshold 0) untuk data
dengan panjang fragmen 0.5 Kbp
28
10 Tampilan sistem hasil implementasi
29

1
2
3
4
5

1

PENDAHULUAN
Latar Belakang
Bioinformatika memiliki banyak bidang kajian penting dan terus berkembang,
salah satunya adalah analisis metagenom. Metagenomika adalah ilmu yang
mempelajari materi genetik yang diperoleh dari sampel yang langsung diambil dari
lingkungan tanpa budidaya di laboratorium atau isolasi genom individu (Wu 2008).
Di dalam sampel tersebut terdapat berbagai spesies organisme, sehingga perlu
dilakukan proses binning untuk mengklasifikasikan scaffolds, contigs dan
unassembled contigs ke dalam garis keturunan taksonomi yang berbeda.
Proses binning dapat dilakukan dengan dua pendekatan, yaitu pendekatan
homologi dan pendekatan komposisi. Pada pendekatan homologi dilakukan
pencarian penjajaran sekuens dengan membandingkan fragmen metagenom dengan
basis data sekuens National Centre for Biotechnology Information (NCBI).
Hasilnya disimpulkan pada tiap level taksonomi. Metode yang menggunakan
pendekatan homologi seperti BLAST (Wu 2008; Zheng dan Wu 2009) dan
MEGAN (Huson et al. 2007). Berbeda dengan pendekatan homologi, pendekatan
komposisi tidak membandingkan sekuens kueri dengan sekuens referensi. Pada
pendekatan komposisi, pasangan basa hasil ekstraksi fitur digunakan sebagai
masukan untuk pembelajaran dengan observasi (unsupervised learning) atau
pembelajaran dengan contoh (supervised learning). Beberapa contoh penelitian
mengenai metagenome binning yang menggunakan pembelajaran dengan observasi,
yaitu TETRA (Teeling et al. 2004), Chisel System (Rodriguez et al. 2007),
ESTmapper (Wu et al. 2005), Growing Self Organizing Map (Hsu dan Halgamuge
2002), Kohonen Self Organizing Map (Abe et al. 2003), Meta-Clust (Woyke et al.
2006), Self Organizing Clustering (Amano et al. 2003), dan Clustering
Metagenome Fragments Using Growing Self Organizing Map (Overbeek et al.
2013). Adapun penelitian yang menggunakan pembelajaran dengan contoh adalah
ClaMS (Pati et al.2011), PhyloPythia (McHardy et al. 2007), Naïve Bayessian
Classification (Rosen et al. 2008), serta Support Vector Machine dan
Characterization Vectors (Kusuma dan Akiyama 2011).
Berkaitan dengan metode supervised learning, McHardy et al. (2007)
melakukan penelitian untuk mengklasifikasikan fragmen metagenom dengan
menggunakan perhitungan frekuensi k-mers sebagai ekstraksi fitur dan Multiclass
Support Vector Machine (SVM) sebagai classifier. Akurasi yang diperoleh cukup
baik khususnya untuk panjang fragmen ≥ 5 Kbp yaitu antara 60% sampai ˃ 90% di
setiap tingkat takson. Akurasi ini terus menurun secara signifikan jika
menggunakan fragmen dengan panjang ≤ 3 Kbp. Pada fragmen dengan panjang
3 Kbp hanya diperoleh akurasi sebesar 40%, sedangkan untuk panjang fragmen
1 Kbp akurasi yang diperoleh < 10%. Ukuran k-mers yang digunakan adalah 5-mers,
yang berarti fitur yang dihasilkan memiliki dimensi 45 = 1024 fitur. Dimensi fitur
yang besar dapat membuat kinerja algoritme klasifikasi menjadi tidak efektif dan
efisien, misalnya akurasi yang kurang baik dan waktu pemrosesan menjadi lebih
lama karena banyak fitur yang harus diproses.
Untuk mengatasi masalah yang diakibatkan oleh dimensi fitur yang besar,
salah satu solusinya adalah dengan melakukan seleksi fitur. Seleksi fitur adalah

2
salah satu tahap praproses pada klasifikasi dengan memilih fitur-fitur yang relevan
terhadap data yang mempengaruhi hasil klasifikasi. Algoritme Fast Correlation
Based Filter (FCBF) adalah salah satu algoritme seleksi fitur yang dikembangkan
oleh Yu dan Huan (2003). Konsep utama dari algoritme ini adalah menghilangkan
fitur-fitur yang tidak relevan serta menyaring fitur-fitur yang redundant terhadap
fitur-fitur yang lain. Berdasarkan penelitian yang dilakukan Yu dan Huan (2003)
diperoleh hasil bahwa FCBF sangat efisien dalam melakukan seleksi fitur serta
memberikan performa yang baik bagi kinerja algoritme klasifikasi. Adapun rataan
akurasi yang diperoleh pada penelitian tersebut adalah 89.13% dengan
menggunakan C4.5 sebagai classifier dan 86.92% jika menggunakan Naive Bayes
Classifier. Oleh karena itu, pada penelitian ini dilakukan klasifikasi fragmen
metagenom dengan menggunakan metode SVM dan Fast Correlation Based Filter
sebagai penyeleksi fitur, serta perhitungan frekuensi k-mers sebagai metode
ekstraksi fitur.
Perumusan Masalah
1
2
3
4

Permasalahan yang akan menjadi bahan analisis dalam penelitian ini adalah:
Bagaimana pengaruh nilai threshold terhadap hasil seleksi fitur dan hasil
klasifikasi?
Berapa akurasi yang diperoleh jika menggunakan metode SVM dengan seleksi
fitur dan tanpa seleksi fitur?
Bagaimana pengaruh panjang fragmen yang digunakan terhadap hasil
klasifikasi?
Bagaimana pengaruh nilai k-mers yang digunakan terhadap hasil klasifikasi?
Tujuan Penelitian

1
2
3
4

Tujuan dari penelitian ini adalah:
Mengklasifikasikan fragmen metagenom ke dalam tingkat taksonomi genus
dengan menggunakan metode SVM dan FCBF sebagai penyeleksi fitur.
Mengetahui pengaruh penggunaan beragam nilai threshold terhadap hasil
seleksi fitur dan hasil klasifikasi.
Mengetahui pengaruh panjang fragmen dan nilai k-mers yang digunakan
terhadap hasil klasifikasi.
Mengetahui lama waktu komputasi klasifikasi SVM dengan seleksi fitur dan
tanpa seleksi fitur.
Manfaat Penelitian

Penelitian ini diharapkan dapat membantu peneliti dalam mengidentifikasi
dan mengklasifikasikan fragmen metagenom sesuai dengan tingkat taksonomi,
serta dapat memberikan kontribusi untuk mendukung proses analisis metagenome
sequence.
Ruang Lingkup Penelitian
Ruang lingkup penelitian ini meliputi:
1 Data yang digunakan untuk pelatihan sebanyak 50 organisme yang termasuk ke
dalam 10 genus.

3
2

Data uji sebanyak 30 organisme yang termasuk dalam taksonomi yang sama
dengan data latih.
3 Fragmen yang digunakan dihasilkan dari perangkat lunak MetaSim yang
mensimulasikan Illumina sequencer. Fragmen yang dihasilkan memiliki
panjang yang tetap dan tidak mengandung sequencing error.
4 Level taksonomi yang digunakan yaitu genus.

METODE
Penelitian ini dilakukan dengan beberapa tahap, yaitu pengumpulan data,
pembagian data, praproses data, ektraksi fitur, seleksi fitur menggunakan algoritme
FCBF, klasifikasi dengan menggunakan metode SVM, analisis hasil klasifikasi, dan
implementasi. Tahapan pada penelitian ini digambarkan pada Gambar 1.
Mulai

FCBF

Tanpa FCBF
Data sekuens
DNA NCBI

Pembagian data

Pembagian data
Data latih

Data uji

Data latih

Data uji

Praproses data

Praproses data

Praproses data

Praproses data

Ekstraksi fitur

Ekstraksi fitur

Ekstraksi fitur

Ekstraksi fitur
berdasarkan fitur
terseleksi

Seleksi fitur

Grid search

Fitur terseleksi
Pelatihan SVM

SVM

Pengujian
SVM

Grid search
Pelatihan SVM

SVM
Pengujian SVM
Analisis
Implementasi
Selesai

Gambar 1 Tahapan Penelitian

4
Pengumpulan Data
Data yang digunakan dalam penelitian ini adalah data sekuens DNA bakteri
yang diambil dari basis data National Centre for Biotechnology Information
(NCBI). NCBI adalah sebuah institusi yang fokus di bidang biologi molekuler dan
menjadi sumber informasi untuk perkembangan bidang tersebut. Data disimpan
dalam fail dengan format FastA. Data dapat diunduh di alamat berikut:
ftp://ftp.ncbi.nih.gov/genomes/Bacteria/all.fna.tar.gz.
Pembagian Data
Pada penelitian ini data yang digunakan terbatas pada 50 organisme untuk
pelatihan, dan 30 organisme untuk dilakukan pengujian. Pemilihan data uji
dilakukan dengan mengambil organisme selain data latih yang juga termasuk ke
dalam genus yang sama.
Praproses Data
Pada tahap praproses data, fragmen metagenom dibangkitkan dari data
sekuens DNA menggunakan perangkat lunak MetaSim (Richter et al. 2008).
MetaSim adalah perangkat lunak untuk mensimulasikan genome sequencer. Data
diproses dibaca berulang kali disesuaikan dengan kebutuhan penelitian. Panjang
fragmen yang ditetapkan untuk setiap kali pengolahan yaitu 0.5Kbp, 1 Kbp, 3 Kbp,
dan 5 Kbp.
Ekstraksi Fitur
Ekstraksi fitur dilakukan dengan menghitung frekuensi dari kombinasi
nukleotida yang mungkin terbentuk dengan menggunakan k-mers. Pola
kemunculan k adalah pola yang menampilkan k pada suatu waktu dalam suatu
sekuens DNA. Pola kemunculan dalam sekuens DNA dihitung menggunakan
empat basa utama (A, T, G, dan C) dipangkat dengan rangkaian pasangan basa yang
ingin digunakan (pola kemunculan 4 , dengan k >= 1). Dalam penelitian ini akan
digunakan beberapa nilai k-mers, yaitu 3-mers dan 4-mers.
AAAACCATATGATTACCT
3-mers

AAA AAC ... CCC
2
1 ... ....
Frekuensi k-mers

Gambar 2 Ekstraksi fitur k-mers
Seleksi Fitur
Seleksi fitur bertujuan untuk mengurangi dimensi data, menghilangkan fitur
yang tidak relevan dan berlebihan, dan memberikan performa yang baik bagi
kinerja algoritme klasifikasi (Yu dan Liu 2003). Algoritme seleksi fitur yang
digunakan dalam tahapan ini adalah Fast Correlation Based Filter (FCBF) yang
dikembangkan oleh Yu dan Liu (2003). Yu dan Liu melakukan dua pendekatan
dengan mengukur korelasi antara dua variabel acak yaitu berdasar pada classical

5
linear correlation atau linear correlation coefficient dan berdasar pada teori
informasi. Pendekatan linear correlation coeficient dirumuskan sebagai berikut:
�=

√∑



� − ̅�

− ̅�

√∑

− ̅�

(1)

− ̅�

̅� adalah rata-rata dari X dan ̅� adalah rata-rata dari Y. Nilai r berada di
rentang -1 dan 1. Nilai r adalah 1 atau -1 jika X dan Y memiliki korelasi, dan bernilai
0 jika X dan Y tidak berkorelasi. Pendekatan linear correlation coeficient hanya bisa
digunakan pada fitur-fitur yang memiliki nilai-nilai numerik. Untuk fitur-fitur yang
tidak bernilai numerik digunakan pendekatan berdasarkan pada informationtheoretical concept of entrophy yang mengukur ketidakpastian pada variabel acak.
Entrophy dari variabel X didefinisikan sebagai berikut:
= −∑�

log �

(2)
2)

Entrophy dari variabel X jika diketahui variabel Y didefinisikan sebagai
berikut:
|

= −∑�

∑�

|

log �( | )

(3)
3)


adalah prior probablities untuk semua nilai X dan � |
adalah
posterior probabilities dari X jika diketahui Y. Dari nilai entrophy dapat diperoleh
Information Gain.
|

=

,

=



|

(4)
4)
Untuk mengukur korelasi antar fitur, digunakan symmetrical uncertainty
yang nilainya berkisar pada rentang 0 sampai dengan 1.
��

[

+

|

]

(5)
5)

Beberapa konsep yang digunakan dalam algoritme FCBF yaitu predominant
correlation dan heuristic-heuristic. Konsep predominant correlation digunakan
untuk menentukan korelasi antar fitur dengan kelas, sedangkan heuristic-heuristic
digunakan untuk menghilangkan jika ada fitur yang saling redundant. Fitur yang
digunakan untuk tahapan klasifikasi adalah fitur-fitur yang memiliki nilai korelasi
terhadap kelas lebih tinggi dibanding nilai korelasi fitur tersebut terhadap fitur yang
lain. Algoritme FCBF dapat dilihat pada Gambar 3.

6

Gambar 3 Algoritme FCBF (Yu 2003)
Support Vector Machine (SVM)
SVM merupakan teknik klasifikasi yang masuk ke dalam kelas supervised
learning. SVM dikembangkan oleh Vladimir Vapnik tahun 1995, konsep dasar
SVM adalah menemukan bidang pemisah (hyperplane) terbaik yang dapat
memisahkan d-dimensi data dengan sempurna ke dalam 2 kelas (kelas +1 dan kelas
-1). Hyperplane terbaik antara kedua kelas dapat ditemukan dengan mengukur
margin hyperplane dan mencari titik maksimalnya. Margin adalah jarak antara
hyperplane dengan pattern terdekat dari masing-masing kelas. Pattern yang paling
dekat ini disebut sebagai support vector (Boswell 2002). Ilustrasi SVM dapat dilihat
pada Gambar 4.

Gambar 4 Contoh ilustrasi pemodelan SVM

7
Data yang tersedia dinotasikan sebagai ∈ ℜ� sedangkan label masingmasing dinotasikan ∈ {− , + } untuk i=1,2,...,l, yang mana l adalah banyaknya
data. Kelas -1 dan +1 dapat dipisahkan secara sempurna oleh hyperplane
berdimensi d, yang didefinisikan seperti berikut:
6)
(6)
⃗⃗ . + � =
7)
⃗⃗ . + �
− , ∀ ∈ kelas −
(7)
8)
(8)
⃗⃗ . + �
+ , ∀ ∈ kelas +

dengan w adalah bidang normal dan b adalah posisi bidang relatif terhadap pusat
koordinat. Margin terbesar dapat ditemukan dengan memaksimalkan nilai jarak
antara hyperplane dan titik terdekatnya, yaitu 1/||w||. Untuk memisahkan dua buah
kelas pada input space yang tidak dapat terpisah secara sempurna SVM
dimodifikasi dengan memasukkan slack variable� � > seperti berikut:
. ⃗⃗ + �

min � ⃗⃗ , � =

− � , ∀�

(9)
9)

(10) (
10))

‖⃗⃗ ‖ + � ∑ �
=

Parameter C dipilih untuk mengontrol tradeoff antara margin dan error
klasifikasi �. Nilai C yang besar berarti akan memberikan penalti yang lebih besar
terhadap error klasifikasi. Selanjutnya dilakukan penyelesaian dengan formula
Lagrangian menggunakan Lagrange multiplier:
⃗⃗ , �, � =

‖⃗⃗ ‖ − ∑ �
=

(

. ⃗⃗ + � − ) ,

� = , ,…,�

� adalah Lagrange multipliers, yang bernilai nol atau positif (�

(11) (
11))

).

Jumlah data yang besar dan beragam dapat mengakibatkan data tersebut tidak
dapat dipisahkan secara linear. Untuk mengatasi masalah ini, SVM dimodifikasi
dengan memasukkan fungsi kernel yang dapat mentransformasikan data ke dimensi
lebih tinggi dengan fungsi transformasi xk → Φ(xk ). Data yang sudah berada di
(
dimensi lebih tinggi tersebut dapat dengan mudah dipisahkan dengan hyperplane
12))
secara linear (Boswell 2002). Fungsi kernel K(x,xi ) = Φ(x) ∙ Φ(xi ) , memberikan
kemudahan dalam proses pembelajaran SVM. Dengan demikian fungsi yang
dihasilkan dari pelatihan adalah:
�(Φ

)=





= ,�� ∈��



,

+�

(12)

Kernel yang digunakan dalam SVM pada penelitian ini adalah Gaussian
Radial Basis Function (RBF) (Osuna et al. 1997):
‖ − ‖
(13)
x,y = exp (

SVM yang digunakan pada penyelesaian penelitian ini adalah Multiclass
13))
SVM dengan menggunakan library SVM bernama LibSVM (Hsu dan Lin 2002).
LibSVM dapat diunduh pada alamat http://www.csie.ntu.edu.tw/~cjlin/libsvm.
Multiclass SVM pada LibSVM ini mengimplementasikan teknik one-versus-one.

8
Pada Multiclass SVM dilakukan N(N-1)/2 pengklasifikasian biner yang berbeda,
dengan N adalah banyaknya kelas. Sehingga data baru yang akan ditentukan
kelasnya, akan masuk ke dalam kelas yang memiliki nilai fungsi keputusan terbesar.
Apabila terdapat dua kelas atau lebih yang memiliki nilai keputusan yang sama
besar, maka kelas yang indeksnya lebih kecil dinyatakan sebagai kelas dari data
tersebut (Hsu dan Lin 2002).
Grid Search
Akurasi model yang dihasilkan dari proses pelatihan dengan Multiclass SVM
dipengaruhi oleh fungsi kernel dan parameter yang digunakan. Untuk mendapatkan
parameter terbaik ada beberapa cara yang dapat dilakukan antara lain cross
validation, leave-one-out, dan ��- estimator (Quang et al. 2002). Pada penelitian
ini metode yang digunakan untuk mendapatkan parameter terbaik adalah cross
validation. Pencarian parameter terbaik ini disebut dengan grid search.
Grid search dilakukan dengan menggunakan 10% data latih yaitu sebanyak
6000 fragmen. Pengambilan 10% data latih ini mengacu pada penelitian yang
dilakukan oleh McHardy et al. (2007). Melalui k-fold cross validation berbagai nilai
parameter akan dicoba sehingga menghasilkan nilai parameter terbaik. Untuk
kernel RBF, nilai parameter terbaik yang dihasilkan adalah nilai cost (c) dan gamma
(γ). Setelah nilai parameter terbaik ditemukan, pelatihan dilakukan dengan
menggunakan keseluruhan data latih yaitu sebanyak 60 ribu fragmen.
Pelatihan SVM
Pelatihan SVM dilakukan untuk data latih yang terdiri dari 60 ribu fragmen.
Data latih yang digunakan yaitu data latih yang belum diseleksi fitur dan data latih
yang telah diseleksi fitur. Fungsi kernel yang digunakan dalam pelatihan ini adalah
fungsi kernel RBF.
Pengujian SVM
Hasil dari pelatihan SVM adalah sebuah model yang akan diuji menggunakan
data uji. Pengujian dilakukan pada data uji tanpa seleksi fitur dan data uji dengan
seleksi fitur. Pengujian akan mengklasifikasikan data uji yang terdiri dari 30
organisme ke dalam kelas taksonominya. Semua organisme data uji yang telah
dikelaskan menghasilkan persentase hasil pengklasifikasiannya.
Analisis
Setelah dilakukan pelatihan dan pengujian SVM, diperoleh hasil untuk
kinerja algoritme SVM, baik itu dengan menggunakan seleksi fitur atau tanpa
seleksi fitur. Akurasi hasil klasifikasi dihitung dengan menggunakan rumus:
akurasi =

∑ data uji benar
x
∑ data uji

%

(14) (
14))

Setelah perhitungan akurasi selesai dilakukan, beberapa hal yang menjadi
bahan analisis adalah:
1 Pengaruh nilai threshold terhadap hasil seleksi fitur dan akurasi klasifikasi.

9
2

Perbandingan nilai akurasi klasifikasi SVM dengan melakukan seleksi fitur dan
tanpa seleksi fitur, serta waktu komputasi klasifikasi.
3 Pengaruh panjang fragmen dan nilai k-mers terhadap hasil klasifikasi.
4 Nilai sensitivity dan specificity.
Implementasi
Implementasi sistem dilakukan ke dalam sebuah aplikasi berbasis website
dengan lingkungan pengembangan sebagai berikut:
1 Bahasa pemrograman
: PHP
2 Library
: LibSVM 3.18
3 DBMS
: MySQL.
Sistem ini dirancang untuk melakukan prediksi tingkat taksonomi genus suatu
sekuens DNA. Hasil keluaran dari sistem ini adalah nama genus dari sekuens DNA
yang dimasukkan.

HASIL DAN PEMBAHASAN
Pembagian Data
Data sekuens DNA yang diunduh dari situs NCBI dibagi menjadi data latih
dan data uji. Data latih dipilih 50 organisme dan data uji 30 organisme. Pemilihan
data uji dilakukan dengan mengambil organisme selain data latih yang masih berada
dalam tingkat taksonomi genus yang sama. Daftar organisme yang digunakan
sebagai data latih dapat dilihat pada Lampiran 1 dan organisme data uji pada
Lampiran 2. Adapun daftar genus yang digunakan dapat dilihat pada Lampiran 3.
Praproses Data
Pada tahap ini, fragmen metagenom dibangkitkan dari sekuens DNA data
latih dan data uji dengan menggunakan perangkat lunak MetaSim. Pada penelitian
ini, data latih dipersiapkan sebanyak 6000 dan 60 ribu fragmen yang diurai dari 50
organisme. Adapun untuk data uji sebanyak 24 ribu fragmen yang diurai dari 30
organisme. Setiap genus pada data latih dan data uji memiliki jumlah fragmen yang
sama. Jumlah fragmen pada masing-masing genus pada data latih adalah 600 dan
6000, sedangkan jumlah fragmen pada masing-masing genus pada data uji adalah
2400.
Pada tahap praproses data, ditentukan 4 panjang fragmen yang akan
digunakan yaitu 0.5 Kbp, 1 Kbp, 3 Kbp, dan 5 Kbp. Hasil dari tahapan praproses
dengan menggunakan MetaSim adalah fail FastA yang berisi sekuens DNA yang
sudah terfragmen atau yang biasa disebut dengan fragmen metagenom. Berikut
contoh hasil praproses data untuk data latih dengan jumlah fragmen 6000 dan
panjang fragmen 500bp pada Gambar 5.

10

Gambar 5 Hasil praproses data
Ekstraksi Fitur
Metode ekstraksi fitur yang digunakan dalam penelitian ini adalah
perhitungan frekuensi k-mers dengan nilai 3-mers dan 4-mers. Hasil dari proses
ekstraksi fitur adalah frekuensi k-nukleotida dari fragmen DNA. Sehingga
menghasilkan 64 kombinasi 3-nukleotida yang dimulai dari AAA sampai TTT dan
256 kombinasi 4-nukleotida yang dimulai dari AAAA sampai dengan TTTT.
Berikut contoh hasil ekstraksi fitur dengan menggunakan 3-mers untuk data
latih dengan jumlah fragmen 6000 dan panjang fragmen 500 bp:
1 1:21 2:2 3:19 4:4 5:1 6:6 7:2 8:10 9:13 10:6 11:6 12:12 13:3............. 63:5 64:7
1 1:11 2:4 3:11 4:4 5:7 6:2 7:5 8:7 9:10 10:10 11:9 12:9 13:6.............. 63:5 64:8
1 1:12 2:6 3:15 4:2 5:6 6:5 7:7 8:12 9:8 10:5 11:14 12:10 13:3............ 63:6 64:5
..............................................................................................................................
..............................................................................................................................
10 1:4 2:8 3:5 4:4 5:1 6:15 7:7 8:11 9:8 10:4 11:4 12:5 13:5 .............. 63:10 64:7
10 1:8 2:10 3:6 4:9 5:6 6:5 7:6 8:6 9:6 10:4 11:5 12:6 13:10.............. 63:6 64:14
Seleksi Fitur
Pada penelitian ini fitur-fitur yang telah diekstraksi dilakukan seleksi fitur
dengan menggunakan algoritme Fast Correlation Based Filter. Pada tahapan ini,
fitur-fitur yang tidak memenuhi syarat akan dibuang. Parameter yang digunakan
dalam melakukan seleksi fitur adalah nilai threshold, yaitu nilai batas korelasi (nilai
minimum dari nilai Symetrical Uncertainty). Nilai threshold berkisar pada rentang
0 sampai dengan 1. Nilai threshold yang digunakan dalam penelitian ini yaitu 0,
0.05, 0.1, 0.15, 0.2, 0.25. Jumlah fitur terseleksi untuk beragam nilai threshold
disajikan pada Tabel 1.

11
Tabel 1 Jumlah fitur terseleksi untuk beragam nilai threshold
Nilai
threshold
Fullsets
0
0.05
0.1
0.15
0.2
0.25

0.5 Kbp
64
29
29
15
9
8
3

3-mers
4-mers
1 Kbp 3 Kbp 5 Kbp 0.5 Kbp 1 Kbp 3 Kbp 5 Kbp
64
64
64
256
256
256
256
34
31
17
82
100
150
156
34
31
17
62
91
143
151
23
31
17
39
68
114
123
13
15
11
20
36
92
99
7
8
8
9
21
42
58
5
4
6
2
5
16
24

Tabel 1 menunjukkan bahwa seleksi fitur dapat mengurangi jumlah fitur
hingga mencapai setengah dari jumlah fitur asalnya. Hal ini disebabkan karena
fitur-fitur yang terseleksi tersebut adalah fitur yang memiliki nilai Symetrical
Uncertainty di atas nilai threshold. Selain itu, dapat dilihat juga bahwa tidak semua
fitur relevan dengan kelasnya dan tidak semua fitur mempunyai tingkat korelasi
yang tinggi terhadap kelasnya dibandingkan dengan korelasinya terhadap fitur yang
lain. Selanjutnya fitur yang telah terseleksi dapat digunakan pada tahapan
klasifikasi.
Grid Search
Grid search dilakukan untuk mendapatkan nilai parameter yang dibutuhkan
oleh kernel RBF. Parameter tersebut adalah cost (c) dan gamma (γ) yang didapatkan
dengan melakukan proses k-fold cross validation dengan k sama dengan 5. Hasil
grid search untuk data latih yang telah dilakukan seleksi fitur dengan jumlah
fragmen 6000 dan panjang fragmen 500 bp, serta menggunakan 3-mers untuk
ekstraksi fitur dapat dilihat pada Gambar 6. Gambar 6 menunjukkan bahwa nilai
terbaik c = 4 dan γ = 2 dengan akurasi 5-cross validation = 79.35%. Hasil grid
search lainnya untuk setiap data latih yang digunakan dapat dilihat pada Lampiran
4.

Gambar 6 Hasil grid search

12
Klasifikasi SVM
Proses klasifikasi SVM dilakukan terhadap data tanpa seleksi fitur dan data
dengan seleksi fitur. Klasifikasi SVM diawali dengan menskalakan (normalisasi)
data latih dan data uji terlebih dahulu sebelum melakukan pelatihan dan pengujian.
Proses penskalaan diperlukan untuk menghindari atribut atau fitur bernilai besar
tidak mendominasi fitur lain yang bernilai kecil. Selain itu penskalaan juga dapat
mempermudah perhitungan selama proses pengklasifikasian.
Selanjutnya data latih yang telah diskalakan dilatih dengan menggunakan
fungsi kernel (RBF). Hasil pelatihan ini adalah model yang digunakan untuk
pengujian data uji. Dari pengujian ini diperoleh hasil klasifikasi berupa akurasi
dengan menggunakan Persamaan 14.
Analisis
Analisis yang dilakukan terhadap hasil klasifikasi SVM meliputi bagaimana
pengaruh nilai threshold terhadap hasil seleksi fitur dan akurasi klasifikasi, akurasi
dan waktu komputasi klasifikasi SVM menggunakan seleksi fitur dan tanpa seleksi
fitur, panjang fragmen dan nilai k-mers yang digunakan, serta nilai sensitivity dan
specificity.
Pengaruh Nilai Threshold Terhadap Hasil Seleksi Fitur dan Akurasi
Klasifikasi
Nilai threshold merupakan parameter yang digunakan untuk menyeleksi fitur.
Nilai threshold sangat menentukan jumlah fitur yang terseleksi. Jumlah fitur yang
terseleksi berdasarkan beragam nilai threshold yang digunakan disajikan pada
Tabel 1. Dari Tabel 1 dapat dilihat bahwa semakin tinggi nilai threshold yang
digunakan maka fitur yang terseleksi semakin sedikit. Pemangkasan fitur yang
dilakukan pada proses seleksi fitur dengan berbagai nilai threshold memberikan
pengaruh terhadap hasil klasifikasi SVM. Pengaruh tersebut dapat dilihat pada
Gambar 7 dan Gambar 8.
δ=0

δ = 0.05

δ = 0.1

δ = 0.15

δ = 0.2

δ = 0.25

100.00%
90.00%
80.00%
AKURASI

70.00%

60.00%
50.00%
40.00%
30.00%
20.00%
10.00%
0.00%
0.5

1.0

3.0

5.0

PANJANG FRAGMEN (KBP)

Gambar 7 Hasil akurasi klasifikasi SVM dengan 3-mers sebagai ekstraksi fitur
dan seleksi fitur menggunakan beragam nilai threshold.

13
Dari Gambar 7 dapat dilihat bahwa akurasi terbaik dihasilkan ketika
menggunakan nilai threshold 0, 0.05, dan 0.1, serta panjang fragmen 3.0 Kbp yaitu
sebesar 96.68%. Sedangkan akurasi terkecil didapat saat menggunakan nilai
threshold 0.25 dengan panjang fragmen 0.5 Kbp yaitu sebesar 42.81%.

AKURASI

δ=0

δ = 0.05

δ = 0.1

δ = 0.15

δ = 0.2

δ = 0.25

100.00%
90.00%
80.00%
70.00%
60.00%
50.00%
40.00%
30.00%
20.00%
10.00%
0.00%

0.5

1.0

3.0

5.0

PANJANG FRAGMEN (KBP)

Gambar 8 Hasil akurasi klasifikasi SVM dengan 4-mers sebagai ekstraksi fitur
dan seleksi fitur menggunakan beragam nilai threshold.
Gambar 8 menunjukkan akurasi terbaik diperoleh saat menggunakan nilai
threshold 0.1 dan panjang fragmen 5 Kbp yaitu sebesar 99.36%. Sedangkan akurasi
terkecil diperoleh saat menggunakan nilai threshold 0.25 dan panjang fragmen 0.5
Kbp yaitu sebesar 35.5%.
Kecenderungan nilai akurasi pada setiap panjang fragmen untuk setiap nilai
threshold tidak dapat diprediksi apakah mengalami kenaikan atau penurunan. Pada
klasifikasi SVM dengan menggunakan panjang fragmen 0.5 Kbp dan 4-mers untuk
ekstraksi fitur, terjadi penurunan akurasi ketika nilai threshold dinaikkan. Adapun
ketika menggunakan panjang fragmen 5 Kbp dan 4-mers untuk ekstraksi fitur,
terjadi peningkatan akurasi dari 99.35% (threshold 0.05) menjadi 99.36%
(threshold 0.1).
Hasil Klasifikasi SVM dengan Menggunakan FCBF dan Tanpa FCBF
Perbandingan akurasi klasifikasi SVM tanpa seleksi fitur dan dengan seleksi
fitur (threshold 0) dapat dilihat pada Gambar 9 dan Tabel 2.

14
100.00%
90.00%
80.00%

Akurasi (%)

70.00%
60.00%
50.00%
40.00%
30.00%
20.00%
10.00%
0.00%
0.5

1.0

3.0

5.0

Panjang fragmen (Kbp)
Fullsets 3-mers

FCBF 3-mers

Fullsets 4-mers

FCBF 4-mers

Gambar 9 Hasil akurasi klasifikasi SVM dengan menggunakan FCBF dan
tanpa FCBF
Pada klasifikasi SVM dengan menggunakan ekstraksi fitur 3-mers dan tanpa
seleksi fitur akurasi berkisar antara 84.93% sampai 99.01%, namun jika
menggunakan seleksi fitur akurasi berkisar antara 79.13% sampai 96.68%. Adapun
pada klasifikasi SVM dengan menggunakan ekstraksi fitur 4-mers dan tanpa seleksi
fitur akurasi berkisar antara 87.6% sampai 99.44%, namun jika menggunakan
seleksi fitur akurasi berkisar antara 83.59% sampai 99.35%.
Tabel 2 Nilai akurasi klasifikasi SVM tanpa seleksi fitur dan dengan
seleksi fitur
3-mers
4-mers
Panjang fragmen
(Kbp)
Fullsets
FCBF
Fullsets
FCBF
0.5
84.93%
79.13%
87.60%
83.59%
1
93.30%
89.13%
95.04%
92.68%
3
98.35%
96.68%
98.96%
98.70%
5
99.01%
94.42%
99.44%
99.35%
Selain melihat akurasi hasil klasifikasi, pada penelitian ini juga dihitung
waktu komputasi klasifikasi SVM dengan menggunakan seleksi fitur dan tanpa
seleksi fitur. Waktu komputasi klasifikasi SVM dengan ektraksi fitur menggunakan
3-mers dapat dilihat pada Gambar 10.

15
300

Waktu (detik)

250
200
150
100
50
0
0.5

1.0

3.0

5.0

Panjang fragmen (Kbp)
Fullsets

FCBF

Gambar 10 Waktu komputasi klasifikasi SVM dengan seleksi fitur dan tanpa
seleksi fitur dan 3-mers untuk ekstraksi fitur.
Gambar 10 menunjukkan bahwa terdapat perbedaan waktu komputasi antara
klasifikasi SVM tanpa seleksi fitur dan klasifikasi SVM dengan seleksi fitur. Untuk
klasifikasi dengan menggunakan ekstraksi fitur 3-mers, selisih waktu tertinggi
terjadi pada panjang fragmen 0.5 Kbp yaitu sebesar 67 detik. Dan selisih terkecil
pada panjang fragmen 5 Kbp sebesar 8 detik. Sedangkan waktu komputasi
klasifikasi SVM dengan ekstraksi fitur menggunakan 4-mers dapat dilihat pada
Lampiran 5. Selisih waktu terbesar berada pada panjang fragmen 1 Kbp sebesar 110
detik, dan terkecil pada panjang fragmen 5 Kbp sebesar 32 detik.
Dari akurasi dan waktu komputasi klasifikasi SVM menggunakan seleksi
fitur dan tanpa seleksi fitur, dilakukan analisis ragam untuk melihat apakah seleksi
fitur berpengaruh signifikan terhadap hasil akurasi dan waktu komputasi klasifikasi.
Hasil analisis ragam untuk mengetahui pengaruh seleksi fitur terhadap akurasi
dapat dilihat pada Lampiran 6. Adapun hasil analisis ragam untuk mengetahui
pengaruh seleksi fitur terhadap waktu komputasi klasifikasi dapat dilihat pada
Lampiran 7. Taraf nyata yang digunakan adalah 0.05. Dari hasil analisis ragam,
dapat diperoleh informasi antara lain:
1 Hasil analisis ragam untuk melihat pengaruh seleksi fitur terhadap akurasi
klasifikasi SVM dengan ekstraksi fitur menggunakan 3-mers, nilai Prob>F
adalah 0.0161. Karena nilai Prob>F (0.0161) lebih kecil dari nilai taraf nyata
(0.05), maka tolak H0 yang berarti seleksi fitur mempengaruhi hasil akurasi
klasifikasi.
2 Hasil analisis ragam untuk melihat pengaruh seleksi fitur terhadap akurasi
klasifikasi SVM dengan ekstraksi fitur menggunakan 4-mers, nilai Prob>F
adalah 0.1699. Karena nilai Prob>F (0.1699) lebih besar dari nilai taraf nyata
(0.05), maka terima H0 yang berarti seleksi fitur tidak mempengaruhi hasil
akurasi klasifikasi.
3 Hasil analisis ragam untuk melihat pengaruh seleksi fitur terhadap waktu
komputasi klasifikasi SVM dengan ekstraksi fitur menggunakan 3-mers, nilai
Prob>F adalah 0.1217. Karena nilai Prob>F (0.1217) lebih besar dari nilai taraf

16
nyata (0.05), maka terima H0 yang berarti seleksi fitur tidak mempengaruhi
waktu komputasi klasifikasi.
4 Hasil analisis ragam untuk melihat pengaruh seleksi fitur terhadap waktu
komputasi klasifikasi SVM dengan ekstraksi fitur menggunakan 4-mers, nilai
Prob>F adalah 0.0372. Karena nilai Prob>F (0.0372) lebih kecil dari nilai taraf
nyata (0.05), maka tolak H0 yang berarti seleksi fitur mempengaruhi waktu
komputasi klasifikasi.
Sensitivity dan specificity
Pada penelitian ini perhitungan sensitivity dan specificity dilakukan pada data
yang menghasilkan akurasi klasifikasi SVM terendah, yaitu data dengan panjang
fragmen 0.5 Kbp. Nilai sensitivity dan specificity dihitung dengan menggunakan
confusion matrix. Adapun confusion matrix hasil dari klasifikasi SVM dengan
ekstraksi fitur menggunakan 3-mers dan tanpa seleksi fitur dapat dilihat pada
Lampiran 8. Sedangkan confusion matrix hasil dari klasifikasi SVM dengan
ekstraksi fitur menggunakan 3-mers dan seleksi fitur (threshold 0) dapat dilihat
pada Lampiran 9. Sensitivity dan specificity yang dihasilkan dari klasifikasi SVM
dengan ekstraksi fitur menggunakan 3-mers dapat dilihat pada Tabel 3.
Tabel 3 Nilai sensitivity dan specificity hasil klasifikasi SVM dengan ekstraksi
fitur menggunakan 3-mers dan panjang fragmen 0.5 Kbp.
No

Genus

Fullsets

FCBF

Sensitivity

Specificity

Sensitivity

Specificity

1 Bacillus
2 Bordetella

81.63%

98.13%

77.42%

97.48%

90.08%

98.56%

85.08%

97.60%

3 Burkholderia
4 Clostridium

91.08%

99.75%

88.17%

99.71%

92.50%

98.76%

92.29%

98.56%

5 Corynebacterium
6 Geobacter

72.54%

97.48%

60.63%

96.41%

81.00%

97.76%

70.75%

96.81%

7 Helicobacter
8 Lactobacillus

97.08%

99.56%

94.96%

99.10%

73.75%

98.44%

60.75%

97.68%

9 Mycobacterium
10 Staphylococcus

84.38%

97.90%

79.63%

97.69%

85.25%

97.01%

81.63%

96.20%

Rata-rata

84.93%

98.34%

79.13%

97.72%

Nilai sensitivity dari klasifikasi SVM dengan ekstraksi fitur menggunakan 3mers dan tanpa seleksi fitur berkisar antara 72.54% sampai dengan 97.08% dengan
rata-rata sensitivity-nya 84.93%. Adapun nilai sensitivity dari klasifikasi SVM
dengan ekstraksi fitur menggunakan 3-mers dan menggunakan seleksi fitur
(threshold 0) berkisar antara 60.63% sampai dengan 94.96% dengan rata-rata
sensitivity-nya sama dengan 79%. Dari 10 genus yang digunakan terdapat beberapa
genus yang memiliki nilai sensitivity rendah, seperti Corynebacterium dan
Lactobacillus. Hal ini disebabkan oleh banyaknya organisme pada genus tersebut

17
diprediksi sebagai bagian dari genus lain. Pada genus Corynebacterium terdapat
sebanyak 333 organisme diprediksi masuk ke dalam Geobacter dan 183 organisme
ke dalam Mycobacterium. Adapun pada genus Lactobacillus terdapat sebanyak 337
organisme diprediksi masuk ke dalam Staphylococcus dan 105 organisme ke dalam
Bacillus. Untuk nilai specificity dari klasifikasi SVM dengan ekstraksi fitur
menggunakan 3-mers dan tanpa seleksi fitur berkisar antara 97.01% sampai dengan
99.75% dengan rata-rata specificity-nya 98.34%. Adapun nilai specificity dari
klasifikasi SVM dengan ekstraksi fitur menggunakan 3-mers dan menggunakan
seleksi fitur (threshold 0) berkisar antara 96.20% sampai dengan 99.71% dengan
rata-rata specificity-nya sama dengan 97.72%.
Panjang Fragmen
Sebuah fragmen DNA mengandung unsur nukleotida yang merupakan unsur
genetik yang dimiliki suatu organisme. Ciri yang dimiliki setiap organisme berbeda
satu sama lain, ciri tersebut dapat dilihat dari perbedaan unsur genetik yang
dimilikinya. Pada klasifikasi SVM dengan tidak melakukan seleksi fitur, terlihat
bahwa panjang fragmen memberikan pengaruh terhadap hasil akurasi. Semakin
panjang fragmen yang digunakan, akurasi yang dihasilkan semakin meningkat. Hal
ini terjadi karena apabila fragmen yang digunakan untuk proses pengklasifikasian
besar, maka perbedaan unsur nukleotida pun semakin besar yang mengakibatkan
hasil pengklasifikasian pun lebih baik. Adapun jika menggunakan seleksi fitur,
akurasi tidak hanya dipengaruhi oleh panjang fragmen saja tetapi juga dipengaruhi
oleh fitur-fitur yang terseleksi. Seperti yang ditunjukkan pada Gambar 9 di atas,
hasil akurasi dengan menggunakan panjang fragmen 5 Kbp mengalami penurunan
jika dibandingkan dengan akurasi dengan menggunakan panjang fragmen 3 Kbp.
Bila melihat hasil analisis ragam pada Lampiran 6 dan Lampiran 7 dapat
diperoleh informasi bahwa panjang fragmen memberikan pengaruh yang signifikan
terhadap akurasi dan waktu komputasi klasifikasi SVM.
Penggunaan Nilai k-mers
Nilai k-mers yang digunakan untuk melakukan ekstraksi fitur adalah 3-mers
dan 4-mers. Berdasarkan hasil percobaan yang sudah dilakukan dapat diperoleh
informasi bahwa penggunaan nilai k-mers memberikan pengaruh terhadap hasil
klasifikasi. Pada Gambar 9 di atas dapat dilihat bahwa penggunaan 4-mers
memberikan hasil akurasi lebih tinggi dari 3-mers. Pada saat melakukan proses
ekstraksi fitur dengan menggunakan 3-mers, jumlah fitur yang dihasilkan ada
sebanyak 4 yaitu 64 fitur. Adapun jika menggunakan 4-mers jumlah fitur yang
dihasilkan sebanyak 4 yaitu 256 fitur.
Implementasi

Tahapan terakhir dari penelitian ini adalah implementasi, dimana model yang
diperoleh dari hasil pelatihan SVM sebelumnya dimasukkan ke dalam sebuah
sistem berbasis website. Sistem ini dapat melakukan prediksi tingkat taksonomi
genus suatu sekuens DNA. Hasil keluaran dari sistem ini adalah nama genus dari
sekuens DNA yang dimasukkan. Tampilan dari sistem hasil implementasi dapat
dilihat pada Lampiran 10.

18

SIMPULAN DAN SARAN
Simpulan
Pada penelitian ini dilakukan pengklasifikasian fragmen metagenom dengan
menggunakan metode Support Vector Machine (SVM) dan Fast Correlation Based
Filter sebagai penyeleksi fitur. Seleksi fitur merupakan salah satu tahapan praproses
klasifikasi yang dilakukan dengan cara memilih fitur-fitur yang mampu
memberikan hasil terbaik pada saat klasifikasi. Salah satu parameter yang
digunakan dalam menyeleksi fitur adalah nilai threshold. Nilai threshold
menentukan banyaknya fitur yang terseleksi, semakin tinggi nilai threshold jumlah
fitur yang terseleksi semakin sedikit. Penggunaan nilai threshold yang berbeda
menghasilkan akurasi klasifikasi yang berbeda juga.
Pada klasifikasi SVM dengan menggunakan ekstraksi fitur 3-mers dan tanpa
seleksi fitur akurasi berkisar antara 84.93% sampai 99.01%, namun jika
menggunakan seleksi fitur akurasi berkisar antara 79.13% sampai 96.68%. Adapun
pada klasifikasi SVM dengan menggunakan ekstraksi fitur 4-mers dan tanpa seleksi
fitur akurasi berkisar antara 87.6% sampai 99.44%, namun jika menggunakan
seleksi fitur akurasi berkisar antara 83.59% sampai 99.35%.
Di sisi lain, klasifikasi SVM dengan menggunakan seleksi fitur dapat
mereduksi waktu komputasi. Pada klasifikasi SVM dengan menggunakan panjang
fragment 1 Kbp dan 4-mers untuk ekstraksi fitur, waktu komputasi klasifikasi dapat
direduksi hingga 110 detik.
Setelah dilakukan analisis ragam dengan menggunakan taraf nyata 0.05,
diperoleh informasi bahwa pada klasifikasi SVM dengan ektraksi fitur
menggunakan 3-mers, seleksi fitur mempengaruhi nilai akurasi namun tidak
mempengaruhi waktu komputasi. Adapun pada klasifikasi SVM dengan ekstraksi
fitur menggunakan 4-mers, seleksi fitur tidak mempengaruhi akurasi tetapi
berpengaruh secara signifikan terhadap waktu komputasi.
Saran
Beberapa saran untuk penelitian selanjutnya yaitu:
1 Menggunakan kombinasi metode klasifikasi dan algoritme seleksi fitur yang
berbeda.
2 Menggunakan data dengan jumlah kelas yang lebih banyak, sehingga dapat
melakukan prediksi untuk lebih banyak kelas dan untuk mengetahui bagaimana
pengaruh algoritme FCBF jika digunakan pada kelas yang banyak.
3 Menggunakan data riil misal Sargasso Sea atau yang lainnya untuk menguji
model yang dihasilkan oleh pelatihan SVM.

19

DAFTAR PUSTAKA
Abe T, Kanaya S, Kinouchi M, Ichiba Y, Kozuku T, Ikemura T. 2003. Informatics
for unveiling hidden genome signatures.Genome Research. 179(4):693-701.
doi:10.1101/gr.634603.
Amano K, Nakamura H, Ichikawa H. 2003. Self-organizing clustering : a novel
non-hierarchical method for clustering large amountof sequece DNAs. Genome
Informatics. 14: 575-576.
Boswell D. 2002.Introduction to support vector machine [Internet]. [diunduh 2014
Jun
23].
Tersedia
pada:
http://www.work.caltech.edu/~boswell/
IntroToSVM.pdf
Hsu AL, Halgamuge SK. 2002. Enhancement of topology preservation and
hierarchical dynamic self-organizing maps for data visualisation. International
Journal of Approximate Reasoning. 32(2003):259-279
Hsu CW, Lin CJ. 2002. A comparison of methods for multiclass support vector
machine. IEEE Transactions on Neural Networks. 13(2):415–425. doi:
10.1109/72.991427.
Huson DH, Auch AF. Qi J, Schuster SC. 2007. MEGAN analysis of metagenomic
data.Genome Research.17 : 1 – 11. doi : 10.1101/gr/5969107.
Kusuma WA, Akiyama Y. 2011. Metagenome fragments classification based on
characterization vectors. Di dalam: Proceedings of International Conference on
Bioinformatics and Biomedical Technology; 2011 Mar; Sanya, China. hlm 5054
McHardy AC, Martin HG, Tsirigos A, Hugenholtz P, Rigoutsos I. 2007. Accurate
phylogenetic classification of variable-lenght dna fragments. Nature Methods.
4(1):63-72. doi: 10.1016/j.mib.2007.08.004
Overbeek MV, Kusuma WA, Buono Agus. 2013. Clustering Metagenome
Fragments Using Growing Self Organizing Map. ICACSIS 2013: 5th
International Conference on Advanced Computer Science and Information
Systems; 2013 Sept; Bali. hlm 285-289. Doi: 10.1109/ICACSIS.2013.6761590.
Pati A, Heath LS, Kyrpides NC, Ivanova N. 2011.ClaMS : A classifier for
metagenomic sequences. Standards in Genomic Science.5 : 248 –253.
doi :10.4056/sigs.2075298
Quang Anh, Zhang Qian-Li, Li Xing. 2002.Evolving Support Vector Machine
Parameters. Di dalam: Proceedingd of the First International Conference on
Machine Learning and Cybernetics; 2002 Nov; Beijing.
Richter DC, Ott F, Auch AF, Schmid R, Huson DH. 2008. MetaSim:a sequencing
simulator for genomics and metagenomics. PLoS ONE. 3(10):1–12.
doi:10.1371/journal.pone.0003373.
Rodriguez AA, Bompada T, Syed M, Shah PK, Maltsev N. 2007. Evolutionary
analysis of enzymes using chisel.Bioinformatics. 23( 22).
Rosen G, Garbarine E, Caseiro D, Polikar R, Sokhansanj B. 2008. Metagenome
fragment classification using n-mer frequency profiles. Advances in
Boinformatics. doi: 10.1155/2008/205969.
Teeling H, Waldmann J, Lombardot T, Bauer M, Glockner FO. 2004. TETRA : a
web service and stand-alone program for the analysis and comparison of

20
tetranucleotide usage pattern in sequence DNAs. BMC Informatics.5(163).
doi:10.1186/1471-2105-5-163.
Wooley JC, Godzik A, Friedberg I. 2010. A primer on metagenomics. PLos
Computational Biology. 6(2):1–13. doi: 10.1371/journal.pcbi.1000667.
Woyke T, Teeling H, Ivanova NN, Hunteman M, Richter M, Gloeckner FO,
Boffelli D, Anderson IJ, Barry KW, Shapiro HJ et al.2006. Symbiosis insights
through metagenomic analysis of a microbial consortium. Nature. 443(7114):
950-5.
Wu H. 2008. PCA-based linear combinations of oligonucleotide frequencies for
metagenomic DNA fragment binning. Di dalam: Computational Intelligence in
Bioinformatics and Computational Biology 2008. hlm 46-53.
Wu X, Lee W, Tseng C. 2005. ESTmapper : efficiently aligning sequence DNAs
to genomes. IEEE International Paralel and Distributed Processing Symposium.
204(2005) : 196 – 204. doi : 10.1109/IPDPS.2005.204.
Yu L, H Liu. 2003. Feature Selection for High Dimensional Data: A Fast
Correlation-Based Filter Solution.
www.hpl.hp.com/conferences/icml2003/papers/144.pdf.
Zheng H, Wu H. 2009. A novel LDA and PCA-based hierarchical scheme for
metagenomic fragment binning. IEEE Symposium on Computer Intelligence in
Bioinformatics and Computational Biology. 9(2009): 53-59. doi:
10.1109/CIBCB.2009.4925707.

21
Lampiran 1 Daftar nama organisme data latih
No Nama Organisme
1 Bacillus amyloliquefaciens
CC178
2 Bacillus amyloliquefaciens
FZB42
3 Bacillus anthracis str. A0248
4 Bacillus anthracis str. Ames
chromosome
5 Bacillus cereus AH187
chromosome
6 Bacillus megaterium DSM 319
chromosome
7 Bordetella avium 197N
chromosome
8 Bordetella bronchiseptica RB50
chromosome
9 Bordetella parapertussis 12822
chromosome
10 Burkholderia ambifaria AMMD
chromosome 1
11 Burkholderia cenocepacia AU
1054 chromosome 1
12 Burkholderia cenocepacia
HI2424 chromosome 1
13 Burkholderia cenocepacia J2315
chromosome 1
14 Burkholderia cenocepacia MC0-3
chromosome 1
15 Burkholderia gladioli BSR3
chromosome 1
16 Burkholderia mallei ATCC 23344
chromosome 1
17 Burkholderia mallei NCTC 10229
chromosome I
18 Burkholderia mallei SAVP1
chromosome I
19 Burkholderia sp. 383
chromosome 1
20 Clostridium acetobutylicum
ATCC 824 chromosome
21 Clostridium beijerinckii NCIMB
8052 chromosome
22 Clostridium botulinum A str.
ATCC 19397 chromosome

No Nama Organisme
23 Clostridium botulinum A str.
Hall chromosome
24 Clostridi