Identifikasi DNA Bakteri Menggunakan Metode Ekstraksi Ciri Rantai Markov dengan Probabilistic Neural Network Sebagai Classifier

IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE
EKSTRAKSI CIRI RANTAI MARKOV DENGAN PROBABILISTIC
NEURAL NETWORK SEBAGAI CLASSIFIER

MUHAMMAD LUTHFI FAJAR

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Identifikasi DNA
Bakteri Menggunakan Metode Ekstraksi Ciri Rantai Markov dengan Probabilistic
Neural Network Sebagai Classifier adalah benar karya saya dengan arahan dari
komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan
tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang
diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks
dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Oktober 2013
Muhammad Luthfi Fajar
NIM G64090012

ABSTRAK
MUHAMMAD LUTHFI FAJAR. Identifikasi DNA Bakteri Menggunakan
Metode Ekstraksi Ciri Rantai Markov dengan Probabilistic Neural Network
Sebagai Classifier. Dibimbing oleh TOTO HARYANTO dan HABIB RIJZAANI.
Perbedaan genetik di antara organisme menyebabkan banyaknya penelitian
dalam sistem identifikasi DNA. Sistem identifikasi DNA memiliki dua bagian
penting, yaitu metode ekstraksi ciri dan metode klasifikasi. Penelitian ini
bertujuan untuk melakukan identifikasi DNA dengan menggunakan metode
ekstraksi ciri Rantai Markov orde satu dan orde dua dikombinasikan dengan
metode klasifikasi Probabilistic Neural Network (PNN). Sequence DNA yang
digunakan berasal dari genus Bacillus, Clostridium, Lactobacillus,
Mycobacterium, dan Staphylococcus dengan panjang sequence 100 bp, 200 bp,
400 bp, 800 bp, dan 1000 bp. Data ini diperoleh dari National Center For
Biotechnology Information (NCBI). Penelitian ini menghasilkan nilai sensitivity

terbaik 0,7136 dan specificity terbaik 0,9284. Hasil ini diperoleh ketika
mengunakan panjang sequence 1000 bp dan metode ekstraksi ciri Rantai Markov
Orde Dua. Semakin besar panjang sequence maka semakin besar pula nilai
sensitivity dan specificity.
Kata Kunci: identifikasi, Probabilistic Neural Network, Rantai Markov, sequence
DNA

ABSTRACT
MUHAMMAD LUTHFI FAJAR. Bacterial DNA Identification Using Feature
Extraction Method Markov Chain with Probabilistic Neural Network as Classifier.
Supervised by TOTO HARYANTO and HABIB RIJZAANI.
Genetic differences among organisms motivate many research in DNA
identification system. DNA identification system has two main parts: Feature
Extraction Method and Classification Method. This study aims to identify the
DNA with feature extraction using first order and second order Markov chain
combined with Probabilistic Neural Network (PNN) classification method. DNA
sequence is derived from the genus Bacillus, Clostridium, Lactobacillus,
Mycobacterium, and Staphylococcus with sequence lengths of 100 bp, 200 bp,
400 bp, 800 bp, and 1000 bp. These data were obtained from the National Center
for Biotechnology Information (NCBI). The results of this research show that the

best sensitivity value is 0.7136 and the best specificity value is 0.9284. These
results were obtained when the length of the sequence is 1000 bp and the feature
extraction method used is second order Markov Chain. The greater the length of
the sequence, the greater the sensitivity and specificity values.
Keywords: identification, markov chain, Probabilistic Neural Network, sequence
DNA

IDENTIFIKASI DNA BAKTERI MENGGUNAKAN METODE
EKSTRAKSI CIRI RANTAI MARKOV DENGAN PROBABILISTIC
NEURAL NETWORK SEBAGAI CLASSIFIER

MUHAMMAD LUTHFI FAJAR

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

Penguji: Dr Wisnu Ananta Kusuma, ST MT

Judul Skripsi : Identifikasi DNA Bakteri Menggunakan Metode Ekstraksi Ciri
Rantai Markov dengan Probabilistic Neural Network Sebagai
Classifier
Nama
: Muhammad Luthfi Fajar
NIM
: G64090012

Disetujui oleh

Toto Haryanto, SKom MSi
Pembimbing I


Habib Rijzaani, MSi
Pembimbing II

Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan skripsi
yang berjudul “Identifikasi DNA Bakteri Menggunakan Metode Ekstraksi Ciri
Rantai Markov dengan Probabilistic Neural Network Sebagai Classifier”.
Penulisan karya ilmiah ini tak lepas dari bantuan banyak pihak. Oleh karena itu,
penulis ingin menyampaikan rasa terima kasih kepada:
 Ayahanda Budi Utoyo dan Ibunda Eulis Mardiani, atas segalanya. Semoga
Allah subhanahu wa ta’ala menguatkan penulis untuk senantiasa berbakti.
Rabbighfirlii wa li walidayya.

 Nida Nurul Fitri, adikku satu-satunya yang bersedia meminjamkan netbooknya selama proses pengerjaan skripsi ini.
 Bapak Toto Haryanto SKom MSi dan Bapak Habib Rijzaani MSi selaku
dosen pembimbing skripsi. Jazakumullaahu khairan katsiiran atas segala
ilmu, bantuan, serta nasihat-nasihat yang diberikan kepada penulis.
 Bapak Dr Wisnu Ananta Kusuma selaku dosen penguji skripsi.
 Dofactora Rocky Mega Buana Iskandar, M. Noor Amrizal Rifai, Aryo
Aliyudanto Sunaryo, Suci Ariyanti, Husnuk Khotimah, dan Yanitha Rahma
atas persaudaraan tulus yang menguatkan.
 Seluruh rekan-rekan dari Departemen Ilmu Komputer, atas segala masukan
dan saran selama proses pengerjaan skripsi ini.
Semoga skripsi ini bermanfaat.

Bogor, Oktober 2013
Muhammad Luthfi Fajar

DAFTAR ISI
DAFTAR TABEL

viii


DAFTAR GAMBAR

ix

PENDAHULUAN

1

Latar Belakang

1

Tujuan Penelitian

2

Manfaat Penelitian

2


Ruang Lingkup Penelitian

2

METODE PENELITIAN

3

Studi Pustaka

3

Pengumpulan Data

4

Praproses

4


Ekstraksi Ciri Rantai Markov

4

K-Fold Cross Validation

6

Probabilistic Neural network (PNN)

7

Analisis

8

HASIL DAN PEMBAHASAN

10


Praproses Data

10

Ekstraksi Ciri Rantai Markov

10

5-Fold Cross Validation

11

Klasifikasi Probabilistic Neural Network (PNN)

12

Perbandingan Antar Fold

12


Perbandingan Antar Genus

15

Perbandingan Antar Panjang Sequence

18

Pengujian dengan Menggunakan Data Luar

19

SIMPULAN DAN SARAN

21

Simpulan

21

Saran

21

DAFTAR PUSTAKA

21

RIWAYAT HIDUP

22

DAFTAR TABEL
1
2
3
4
5

6

7

8

9

10

11

12

13

14

15
16
17
18
19

Proses pada metode 5-fold cross validation
Table of Confusion
Data sequence DNA kelima genus yang digunakan pada panjang
sequence 100 bp, 200 bp, 400 bp, 800 bp, dan 1000 bp
Jumlah data latih dan data uji dari kelima genus pada panjang
sequence 100 bp, 200 bp, 400 bp, 800 bp, dan 1000 bp
Nilai sensitivity dan specificity setiap fold pada panjang sequence 100
bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde
Satu
Nilai sensitivity dan specificity setiap fold pada panjang sequence 100
bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde
Dua
Nilai sensitivity dan specificity setiap fold pada panjang sequence 200
bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde
Satu
Nilai sensitivity dan specificity setiap fold pada panjang sequence 200
bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde
Dua
Nilai sensitivity dan specificity setiap fold pada panjang sequence 400
bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde
Satu
Nilai sensitivity dan specificity setiap fold pada panjang sequence 400
bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde
Dua
Nilai sensitivity dan specificity setiap fold pada panjang sequence 800
bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde
Satu
Nilai sensitivity dan specificity setiap fold pada panjang sequence 800
bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde
Dua
Nilai sensitivity dan specificity setiap fold pada panjang sequence
1000 bp yang menggunakan metode ekstraksi ciri Rantai Markov
Orde Satu
Nilai sensitivity dan specificity setiap fold pada panjang sequence
1000 bp yang menggunakan metode ekstraksi ciri Rantai Markov
Orde Dua
Nilai sensitivity dan specificity dari kelima genus yang menggunakan
ekstraksi ciri Rantai Markov Orde Satu
Nilai sensitivity dan specificity dari kelima genus yang menggunakan
ekstraksi ciri Rantai Markov Orde Dua
Nilai rata-rata sensitivity dan specificity dari kelima jenis genus yang
menggunakan ekstraksi ciri Rantai Markov Orde Satu dan Dua
Data luar untuk pengujian model klasifikasi yang terbentuk
Confusion matrix hasil pengujian menggunakan data luar

7
9
10
11

12

12

13

13

13

14

14

14

15

15
16
16
18
19
20

20

Nilai sensitivity dan specificity kelima genus ketika menggunakan
data luar

20

DAFTAR GAMBAR
1
2
3
4
5
6
7
8

Metode Penelitian
Struktur Probabilistic Neural Network (PNN)
Grafik nilai sensitivity dari setiap genus menggunakan ekstraksi ciri
Rantai Markov Orde Satu
Grafik nilai specificity dari setiap genus menggunakan ekstraksi ciri
Rantai Markov Orde Satu
Grafik nilai sensitivity dari setiap genus menggunakan ekstraksi ciri
Rantai Markov Orde Dua
Grafik nilai specificity dari setiap genus menggunakan ekstraksi ciri
Rantai Markov Orde Dua
Grafik nilai rata-rata sensitivity dan specificity dari setiap panjang
sequence yang menggunakan ekstraksi ciri Rantai Markov Orde Satu
Grafik nilai rata-rata sensitivity dan specificity dari setiap panjang
sequence yang menggunakan ekstraksi ciri Rantai Markov Orde Dua

3
8
16
17
17
17
19
19

PENDAHULUAN
Latar Belakang
DNA (Deoxyribo Nucleid Acid) merupakan polimer, atau lebih tepatnya
suatu himpunan dari dua polimer yang bersifat double helix. Setiap monomer
yang membentuk polimer ini merupakan nukleotida yang terdiri atas gula, fosfat,
dan basa nitrogen. Gula dan fosfat dari seluruh nukleotida sama, tetapi setiap
nukleotida dapat dibedakan melalui peninjauan komponen basanya. Komponen
basa nitrogen dibedakan menjadi empat tipe yang dimasukkan ke dalam dua
kategori, kategori purine yang terdiri atas Adenine (A) dan Guanine (G) yang
memiliki dua cincin aromatis dan kategori pirimidine terdiri atas Cytosine (C)
dan Thymine (T) yang memiliki satu cincin aromatis (Peyrard 2004). DNA pada
setiap organisme akan berbeda satu sama lain. Adanya perbedaan genetik di
antara organisme inilah yang menyebabkan banyaknya penelitian dalam sistem
identifikasi DNA.
Bioinformatika merupakan disiplin ilmu yang pada awalnya muncul
karena kebutuhan untuk memperkenalkan urutan dari sebuah data besar yang
dihasilkan oleh teknologi baru biologi molekuler seperti sekuensing DNA dalam
skala besar, pengukuran konsentrasi RNA dalam beberapa array ekspresi gen,
dan teknik profiling baru di proteomik. Bioinformatika mengintegrasikan
sejumlah ilmu tradisional kuantitatif seperti matematika, statistika, dan ilmu
komputer dengan ilmu biologi seperti genetika, genomik, proteomik dan evolusi
molekuler (Polanski dan Kimmel 2007). Dimulai dari bioinformatika inilah
dikenal istilah metagenome. Metagenome adalah konten genetik dari suatu
komunitas biologis. Istilah ini biasa diterapkan pada komunitas mikroba yang
dianggap sebagai satu entitas sehingga diperlakukan dan dipelajari sebagai satu
meta-organism dengan genom tunggal (Gargaud et al. 2011).
Dalam mengenali sequence DNA dari suatu organisme tertentu,
dibutuhkan metode ekstraksi ciri dan metode klasifikasi. Kedua metode ini
merupakan bagian penting dari proses gene mapping. Dalam menentukan
hubungan kekerabatan antara organisme yang satu dengan yang lainnya, penciri
yang dapat digunakan adalah DNA, RNA dan urutan protein, struktur protein,
profil ekspresi gen, jalur biokimia, dan jenis-jenis enzim (Wang et al. 2005).
Salah satu metode ekstraksi ciri yang digunakan untuk melakukan
klasifikasi sequence DNA adalah metode Rantai Markov. Penelitian
menggunakan Rantai Markov telah dilakukan oleh Usotskaya dan Ryabko
(2009) dan Simons et al. (2004). Usotskaya dan Ryabko dalam penelitiannya
menjelaskan pemodelan sequence DNA menggunakan Rantai Markov dengan
orde satu dan orde dua. Model tersebut kemudian digunakan untuk memprediksi
memori atau konektivitas dari suatu teks genetik dan memecahkan masalah
berbasis DNA yang berkaitan dengan sistem filogenetik dari berbagai kelompok
organisme. Adapun Simons et al. (2004) melakukan pemodelan Rantai Markov
untuk data nukleotida eukariot. Dalam penelitiannya Simons et al. (2004)
memfokuskan kepada kesamaan karakteristik intra-species dan reversibilitas
beserta komplementari dari dua untai kromosom.

2
Penelitian menggunakan metode klasifikasi Probabilistic Neural
Penelitian menggunakan metode klasifikasi Probabilistic Neural Network (PNN)
juga telah dilakukan oleh Wu et al. (2005). Wu et al melakukan penelitian
menggunakan metode ekstraksi ciri hamming distance dan edit distance dan
metode klasifikasi Probabilistic Neural Network (PNN). Dalam penelitian Wu et
al. diperoleh nilai sensitivity terbaik pada panjang sequence 200 base pair (bp)
sebesar 0.83 dan pada panjang sequence 300 bp sebesar 0.93. Keduanya
dilakukan terhadap 12 target kelas.
Berdasarkan latar belakang tersebut, pada penelitian ini penulis akan
melakukan identifikasi terhadap sequence DNA bakteri dari genus Bacillus,
Clostridium, Lactobacillus, Mycobacterium dan Staphylococcus menggunakan
ekstraksi ciri Rantai Markov (orde satu dan orde dua) dengan Probabilistic
Neural Network sebagai classifier.
Tujuan Penelitian
Penelitian ini bertujuan membuat model klasifikasi berbasis Probabilistic
Neural Network (PNN) yang diimplementasikan untuk melakukan identifikasi
sequence DNA bakteri terhadap lima jenis genus, yaitu genus Bacillus,
Clostridium, Lactobacillus, Mycobacterium dan Staphylococcus dengan
menggunakan Rantai Markov sebagai metode ekstraksi
Manfaat Penelitian
Manfaat dari penelitian ini meliputi:
1 Dapat melakukan identifikasi sequence DNA bakteri genus Bacillus,
Clostridium, Lactobacillus, Mycobacterium dan Staphylococcus dengan
menggunakan metode ekstraksi ciri Rantai Markov dan metode klasifikasi
Probabilistic Neural Network (PNN).
2 Menghasilkan suatu sistem yang dapat mengidentifikasi DNA bakteri
terhadap lima jenis genus, yaitu Bacillus, Clostridium, Lactobacillus,
Mycobacterium dan Staphylococcus.
Ruang Lingkup Penelitian
Ruang lingkup penelitian ini meliputi:
1 Data sequence terdiri atas 5 genus, yaitu Bacillus, Clostridium, Lactobacillus,
Mycobacterium dan Staphylococcus dengan panjang sequence 100 bp, 200 bp,
400 bp, 800 bp, dan 1000 bp.
2 Data sequence DNA dari 5 genus tersebut terdapat dalam fail dengan format
.fna.

3

METODE PENELITIAN
Penelitian ini dilakukan dalam beberapa tahap yang meliputi studi pustaka,
pengambilan data, ekstraksi ciri Rantai Markov, k-fold cross validation, model
klasifikasi PNN, pengujian model klasifikasi yang terbentuk terhadap organisme
baru, dan analisis. Tahapan-tahapan tersebut dapat dilihat melalui Gambar 1.
Mulai
Studi Pustaka
Pengambilan data
Ekstraksi Ciri Rantai Markov

Membagi data menjadi k-fold

Data latih

Organisme Baru

Data Uji
Klasifikasi PNN

Analisis

Model Klasifikasi

Analisis

Selesai

Gambar 1 Metode penelitian
Studi Pustaka
Pada tahap ini, dilakukan serangkaian studi pustaka terhadap literatur yang
berkaitan dengan penelitian. Studi ini mencakup konsep mengenai metagenome,
bioinformatika, sequence DNA, k-fold cross validation, Rantai Markov, PNN,
dan pustaka lainnya yang dianggap menunjang penelitian ini.

4
Pengumpulan Data
Data yang digunakan dalam penelitian ini merupakan data metagenome
yang diunduh dari situs National Center for Biotechnology Information (NCBI)
dengan alamat web http://www.ncbi.nlm.nih.gov/. NCBI adalah tempat
penyimpanan berbagai materi genetik seperti kromosom, gen, DNA, asam amino,
dan protein yang sudah berhasil diidentifikasi dan dipetakan. Data ini dapat
diakses oleh umum melalui internet, sehingga sangat membantu dalam
pembelajaran bioteknologi, genetika, evolusi, keanekaragaman hayati, fisiologi,
dan taksonomi terutama dalam tingkat molekuler. Setelah mendapatkan data dari
NCBI, data tersebut kita proses dalam perangkat lunak MetaSim (ver. 0.9.1).
Keluaran dari perangkat lunak ini adalah fail berupa FASTA yang berisi
sequence DNA. Sequence DNA terdiri atas A, C, G, dan T yang merupakan
komponen basa nukleotida. Pada penelitian ini, data metagenome yang akan
digunakan terdiri atas lima genus, yaitu Bacillus, Clostridium, Lactobacillus,
Mycobacterium dan Staphylococcus dengan panjang sequence 100 bp, 200 bp,
400 bp, 800 bp, dan 1000 bp. Kelima genus tersebut digunakan karena dalam
database yang diperoleh memiliki keragaman species yang besar, yaitu antara 14
sampai 18 species.
Data yang dikumpulkan kemudian dibagi dua. Data yang satu dipakai
untuk mencari model klasifikasi, sedangkan yang satunya merupakan data dari
luar sebagai organisme baru untuk menguji model klasifikasi yang terbentuk.
Praproses
Pada tahap praproses dilakukan pemisahan antara data informasi dengan
sequence DNA-nya. Sequence DNA yang telah dipisahkan kemudian akan
digunakan sebagai penciri dari sebuah organisme.
Contoh data yang terdapat dalam fail FASTA:
>r1.1|SOURCES={GI=115350056,fw,24251462425246}|ERROR
S={}|SOURCE_1="Burkholderia ambifaria AMMD
chromosome chromosome
1"(cc1f7490881b379f77fffd84822b0921a35eb865)ACTTCCGC
CTCCCGGATCACGAGCGGCGGCGACAGCAGCATCCGATCACCGGTCGCGCGC
ATGATCAGGTTGCCGTTGAAACAGAAGTCGCGGCAGATCG

Sequence DNA yang digunakan:
ACTTCCGCCTCCCGGATCACGAGCGGCGGCGACAGCAGCATCCGATCACCGG
TCGCGCGCATGATCAGGTTGCCGTTGAAACAGAAGTCGCGGCAGATCG

Ekstraksi Ciri Rantai Markov
Rantai Markov adalah suatu model stokastik yang diperkenalkan oleh
matematikawan Rusia bernama A. A. Markov pada awal abad ke-20. Dengan
menggunakan proses Markov maka dimungkinkan untuk memodelkan fenomena
stokastik dalam dunia nyata yang berkembang menurut waktu. Masalah dasar
dari metode stokastik dengan proses Markov adalah menentukan deskripsi state
yang sesuai, sehingga proses stokastik yang berpaduan akan benar-benar

5
memiliki apa yang akan disebut sifat Markov (Markovian property), yaitu
pengetahuan terhadap state ini adalah cukup untuk memprediksi perilaku
stokastik yang akan datang (Mangku 2005).
Suatu Rantai Markov dikatakan diskret (Discrete Time Markov Chain) jika
ruang dari proses Markov tersebut adalah himpunan terbatas (finite) atau
tercacah (countable), dengan himpunan indeks adalah
. Jika nilai
suatu state pada periode tertentu hanya bergantung pada satu periode
sebelumnya, maka rantai tersebut disebut Rantai Markov Orde Satu (First Order
Markov Chain) dan jika nilai suatu state pada periode tertentu bergantung pada
periode sebelumnya, maka rantai tersebut disebut Rantai Markov Orde m (m
Order Markov Chain). Rantai Markov Orde Satu secara matematika dirumuskan
sebagai berikut:
j

n

Adapun Rantai Markov Orde
berikut:
{

n

j

n

n

secara matematika dirumuskan sebagai

n

m

m

n

n}

Peluang bahwa
berada pada state jika
berada pada state
disebut sebagai peluang transisi satu langkah (one step transition probability).
Secara matematis dapat terlihat pada rumus di bawah ini:
nn
j

n

j

n

Jika peluang ini bebas dari indeksnya, maka peluang ini disebut proses
Markov dengan peluang transisi stasioner. Sehingga peluang transisi tersebut
dirumuskan sebagai berikut:

Peluang transisi ini disusun dalam bentuk matriks, yang disebut peluang
matriks transisi P, yang setiap unsurnya adalah
yaitu
.
Matriks tersebut terdapat di bawah ini:

[

p
p

p
p

p
p

pn

pn

pnn

]

Dalam penelitian ini, matriks peluang transisi dibentuk dari peluangpeluang munculnya komponen basa tertentu setelah sebelumnya merupakan
komponen basa tertentu.
Matriks transisi Rantai Markov Orde Satu dibentuk dari peluang-peluang
munculnya komponen basa tertentu setelah sebelumnya merupakan tepat satu
komponen basa tertentu. Dengan demikian matriks transisi Rantai Markov Orde

6
Satu terdiri atas
, yaitu peluang munculnya komponen basa A setelah
sebelumnya merupakan komponen basa A,
,
,
, dan
seterusnya, sehingga pada matriks transisi Rantai Markov Orde Satu terdapat 16
elemen matriks (Robin et al. 2005). Matriks transisi Rantai Markov Orde Satu
dapat dilihat di bawah ini:

Matriks transisi Rantai Markov Orde Dua dibentuk dari peluang-peluang
munculnya komponen basa tertentu setelah sebelumnya merupakan tepat dua
komponen basa tertentu. Adapun matriks transisi Rantai Markov Orde Dua
terdiri atas
, yaitu peluang munculnya komponen basa A setelah
sebelumnya merupakan kedua komponen basa AA,
,
,
, dan seterusnya, sehingga pada matriks transisi Rantai Markov Orde
Dua terdapat 64 elemen matriks (Robin et al. 2005). Matriks tersebut
ditunjukkan di bawah ini:

Matriks transisi tersebut kemudian menjadi penciri dari setiap sequence
DNA yang mewakili genus tertentu.
Kompleksitas Rantai Markov adalah
.
K-Fold Cross Validation
Cross validation merupakan metode untuk memperkirakan generalisasi
galat berdasarkan “resampling” K-fold cross validation membagi data menjadi
k subset yang ukurannya hampir sama satu sama lain. Subset yang dihasilkan
yaitu
yang digunakan sebagai data pelatihan dan data pengujian.

7
Dalam metode ini dilakukan perulangan sebanyak kali. Setiap kali perulangan,
salah satu subset akan dijadikan data uji dan
subset lainnya dijadikan
sebagai data latih. Pada perulangan ke-i, subset
digunakan sebagai data
pengujian dan subset lainnya digunakan sebagai data pelatihan, dan seterusnya.
(Hastie et al. 2011).
Pada penelitian ini, nilai yang digunakan adalah 5. Berdasarkan nilai
tersebut, jumlah subset data yang dihasilkan adalah 5 subset data. Setelah 5
subset terbentuk, maka nantinya proses klasifikasi akan dilakukan sebanyak 5
kali perulangan. Data latih dan data uji memiliki subset yang berbeda pada setiap
iterasi, sehingga setiap subset pernah menjadi subset data uji sebanyak tepat 1
kali. Subset-subset yang akan digunakan sebagai data latih dan data uji secara
lengkap disajikan pada Tabel 1.
Tabel 1 Proses pada metode 5-fold cross validation
Perulangan ke-

Data Uji

Data Latih

1
2
3
4
5

Probabilistic Neural network (PNN)
Probabilistic Neural Network (PNN) merupakan Jaringan Saraf Tiruan
(JST) yang menggunakan teorema probabilitas klasik seperti pengklasifikasian
Bayes dan penduga kepekatan Parzen. Proses yang dilakukan oleh PNN dapat
berlangsung lebih cepat bila dibandingkan dengan JST Back Propagation. Hal
ini disebabkan PNN hanya membutuhkan satu kali iterasi pelatihan bila
dibandingkan dengan JST Back Propagation yang membutuhkan beberapa kali
iterasi pelatihan (Specht 1990).
Struktur PNN terdiri atas empat lapisan, seperti yang terlihat pada Gambar
2. yaitu input layer, pattern layer, summation layer, dan decision layer. Input
layer merupakan objek yang terdiri atas nilai ciri yang akan diklasifikasikan
pada n kelas. Nilai-nilai k kemudian akan membentuk sebuah vektor masukan,
vektor x. Proses-proses yang terjadi setelah fase input layer adalah:
1 Pattern Layer
Pattern layer menggunakan satu node untuk setiap data pelatihan yang
digunakan. Setiap node pola merupakan selisih dari vektor masukan
dengan vektor bobot
, yaitu
.
kemudian dibagi
dengan faktor b as σ sehingga menghasilkan
. Dengan demikian,
persamaan yang digunakan adalah :
(

(

) (

)

)

8

P11
S1
P1j
P21
S2

x

Y

P2j

Pi1
Sn
Pij
Input
Layer

Pattern
Layer

Summation
Layer

Decision
Layer

Gambar 2 Struktur Probabilistic Neural Network (PNN)
2

Summation Layer
Summation layer menerima masukan dari setiap node pattern layer
yang terkait dengan kelas yang ada. Hasil dari pattern layer setiap
kelas diwakilkan oleh . Persamaan yang digunakan pada lapisan ini
adalah:


(

(

) (

)

)

Keterangan:
x = vektor masukan (data uji)
xij = vektor bobot (data latih) pada kelas i dan sequence j
σ = faktor bias
k = panjang dimensi vektor
t = banyaknya sequence dalam kelas i
3

Decision Layer
Decision layer Menentukan kelas dari input yang diberikan. Input
}
paling
akan masuk ke kelas jika nilai peluang masuk ke {
besar dibandingkan peluang masuk ke kelas lainnya.
Analisis

Dalam tahap analisis nilai sensitivity dan specificity setiap genus akan
dihitung. Dalam pencarian nilai sensitivity dan specificity dibutuhkan suatu
matriks yang disebut confusion matrix.

9
Confusion Matrix merupakan suatu tabel yang memvisualisasikan kinerja
dari suatu algoritma. Setiap kolom dalam matriks merepresentasikan kelas yang
diprediksikan, sedangkan setiap baris merepresentasikan kelas yang sebenarnya.
Misalkan kita akan menganalisis sensitivity dan specificity dari suatu genus
A. Table of Confusion untuk analisis genus A dapat dilihat pada Tabel 2.
Tabel 2 Table of Confusion
Terdeteksi sebagai
sequence DNA genus A

Terdeteksi sebagai bukan
sequence genus A

Sequence DNA uji
genus A

tp

fn

Bukan sequence
DNA uji genus A

fp

tn

Keterangan:
tp : true positive (jumlah sequence DNA uji genus A yang
teridentifikasi sebagai sequence DNA genus A)
tn : true negative (jumlah bukan sequence DNA uji genus A
tepat teridentifikasi sebagai bukan sequence DNA genus A)
fp : false positive (jumlah bukan sequence DNA uji genus A
teridentifikasi sebagai sequence DNA genus A)
fn : false negative (jumlah sequence DNA uji genus A
teridentifikasi sebagai bukan sequence DNA genus A)

tepat
yang
yang
yang

Sensitivity mengukur proporsi positif yang diidentifikasi dengan benar,
sedangkan specificity mengukur proporsi negatif yang diidentifikasi dengan
benar.
Persamaan dari nilai sensitivity adalah:

Adapun persamaan dari nilai specificity adalah:

Dalam penelitian ini digunakan lima genus sehingga akan diperoleh lima
nilai sensitivity dan specificity. Kelima nilai sensitivity dan specificity tersebut
kemudian dirata-ratakan sehingga diperoleh nilai sensitivity dan specificity yang
merepresentasikan panjang sequence.

10

HASIL DAN PEMBAHASAN
Praproses Data
Data yang digunakan pada penilitian ini terdiri atas lima genus, yaitu
Bacillus, Clostridium, Lactobacillus, Mycobacterium dan Staphylococcus
dengan lima panjang sequence, yaitu 100 bp, 200 bp, 400 bp, 800 bp, dan 1000
bp. Data sequence DNA untuk kelima genus dengan panjang sequence 100 bp,
200 bp, 400 bp 800 bp, dan 1000 bp dapat dilihat pada Tabel 3.
Tabel 3 Data sequence DNA kelima genus yang digunakan
pada panjang sequence 100 bp, 200 bp, 400 bp,
800 bp, dan 1000 bp
Genus

Jumlah Sequence DNA

Bacillus

2400 sequence

Clostridium

2400 sequence

Lactobacillus

2400 sequence

Mycobacterium

2400 sequence

Staphylococcus

2400 sequence

Ekstraksi Ciri Rantai Markov
Pada penelitian ini, ekstraksi ciri yang digunakan adalah Rantai Markov
dengan orde satu dan orde dua. Pada orde satu, untuk setiap genus dan panjang
sequence yang digunakan, diperoleh matriks dengan dimensi 4 x 4. Matriks ini
kemudian dibuat menjadi matriks berdimensi 1 x 16 untuk memudahkan
penghitungan. Pada orde dua, untuk setiap genus dan panjang sequence yang
digunakan, diperoleh matriks dengan dimensi 16 x 4. Matriks ini kemudian
dibuat menjadi matriks berdimensi 1 x 64 untuk memudahkan penghitungan.
Misalkan diberikan sebuah sequence:
TAGGTTTAGGTAGAACTTTTCAAAATATCCGACTTTTTAAAAAT
ATGACTGTTTTAGACAATGTACTAGTAGGACTCAGTAATCATCACTTA
TCACATCC
Matriks transisi Rantai Markov Orde Satu yang dihasilkan dari sequence
tersebut adalah sebagai berikut:

11
Adapun Matiks transisi Rantai Markov Orde Dua yang dihasilkan dari
sequence tersebut adalah seagai berikut:

5-Fold Cross Validation
Pada penelitian ini digunakan k-fold cross validation untuk membagi data
latih dan data uji. Metode tersebut digunakan agar semua data sequence DNA
pernah tepat satu kali menjadi data uji, sehingga nilai akurasi yang dihasilkan
dapat merepresentasikan nilai akurasi data secara keseluruhan. Pada penelitian
ini nilai yang digunakan adalah 5 sehingga proporsi data untuk data uji adalah
20% dan proporsi data untuk data latih adalah 80%. Jumlah sequence DNA yang
akan digunakan sebagai data latih dan data uji pada panjang sequence 100 bp,
200 bp, 400 bp, 800 bp, dan 1000 bp dapat dilihat pada Tabel 4.
Tabel 4 Jumlah data latih dan data uji dari kelima genus pada panjang
sequence 100 bp, 200 bp, 400 bp, 800 bp, dan 1000 bp
Genus

Jumlah Data Latih

Jumlah Data Uji

Jumlah Data

Bacillus

1920 sequence

480 sequence

2400 sequence

Clostridium

1920 sequence

480 sequence

2400 sequence

Lactobacillus

1920 sequence

480 sequence

2400 sequence

Mycobacterium

1920 sequence

480 sequence

2400 sequence

Staphylococcus

1920 sequence

480 sequence

2400 sequence

12
Klasifikasi Probabilistic Neural Network (PNN)
Percobaan diawali dengan mengklasifikasikan masing-masing ekstraksi
ciri. Masing-masing ciri diklasifikasikan dengan uji coba pembagian data latih
dan data uji 80%-20% (9600 data latih dan 2400 data uji). Kelas target dari
klasifikasi berjumlah 5 kelas. Bias yang digunakan 2.
Perbandingan antar Fold
Setelah dilakukan pengujian dengan menggunakan klasifikasi
Probabilistic Neural Network, proses selanjutnya adalah menghitung nilai
sensitivity dan specificity. Nilai sensitivity dan specificity yang dihasilkan oleh
setiap fold pada panjang sequence 100 bp, 200 bp, 400 bp, 800 bp, dan 1000 bp
dapat dilihat pada Tabel 5-14.
Tabel 5 Nilai sensitivity dan specificity setiap fold pada panjang sequence 100
bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Satu
Fold

Bacillus

Clostridium

Lactobacillus

Mycobacterium

Staphylococcus

sens

spec

sens

spec

sens

spec

sens

spec

sens

spec

1

0.165

0.952

0.392

0.962

0.610

0.801

0.975

0.963

0.669

0.776

2

0.123

0.960

0.383

0.965

0.594

0.813

0.973

0.968

0.715

0.742

3

0.142

0.955

0.429

0.941

0.581

0.808

0.969

0.972

0.635

0.764

4

0.154

0.951

0.423

0.955

0.615

0.807

0.967

0.971

0.640

0.767

5
0.119 0.958 0.408 0.961
sens = sensitivity, spec = specificity

0.646

0.810

0.973

0.973

0.688

0.754

Tabel 6 Nilai sensitivity dan specificity setiap fold pada panjang sequence 100
bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Dua
Fold

Bacillus

Clostridium

Lactobacillus

Mycobacterium

Staphylococcus

sens

spec

sens

spec

sens

spec

sens

spec

sens

spec

1

0.369

0.888

0.415

0.969

0.771

0.680

0.952

0.979

0.275

0.930

2

0.360

0.872

0.421

0.974

0.738

0.708

0.952

0.984

0.331

0.913

3

0.390

0.875

0.429

0.958

0.765

0.720

0.948

0.981

0.313

0.927

4

0.329

0.877

0.438

0.959

0.752

0.694

0.940

0.978

0.267

0.923

5
0.348 0.887 0.471 0.959
sens = sensitivity, spec = specificity

0.773

0.684

0.931

0.979

0.283

0.942

13
Tabel 7 Nilai sensitivity dan specificity setiap fold pada panjang sequence 200
bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Satu
Fold

Bacillus

Clostridium

Lactobacillus

Mycobacterium

Staphylococcus

sens

spec

sens

spec

sens

spec

sens

spec

sens

spec

1

0.142

0.955

0.590

0.956

0.627

0.843

0.983

0.982

0.744

0.786

2

0.165

0.953

0.575

0.962

0.629

0.848

0.977

0.986

0.773

0.780

3

0.198

0.958

0.573

0.965

0.654

0.847

0.981

0.983

0.777

0.792

4

0.144

0.968

0.550

0.970

0.650

0.833

0.990

0.984

0.794

0.777

5
0.127 0.968 0.558 0.965
sens = sensitivity, spec = specificity

0.650

0.834

0.988

0.980

0.759

0.774

Tabel 8 Nilai sensitivity dan specificity setiap fold pada panjang sequence 200
bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Dua
Fold

Bacillus

Clostridium

Lactobacillus

Mycobacterium

Staphylococcus

sens

spec

sens

spec

sens

spec

sens

spec

sens

spec

1

0.429

0.836

0.221

0.995

0.817

0.713

0.944

0.993

0.340

0.900

2

0.490

0.839

0.221

0.995

0.817

0.745

0.938

0.996

0.431

0.899

3

0.510

0.844

0.225

0.993

0.877

0.749

0.944

0.996

0.367

0.898

4

0.423

0.843

0.229

0.997

0.815

0.710

0.950

0.996

0.388

0.904

5

0.444

0.872

0.229

0.995

0.817

0.713

0.956

0.993

0.402

0.889

sens = sensitivity, spec = specificity

Tabel 9 Nilai sensitivity dan specificity setiap fold pada panjang sequence 400
bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Satu
Fold

Bacillus

Clostridium

Lactobacillus

Mycobacterium

Staphylococcus

sens

spec

sens

spec

sens

spec

sens

spec

sens

spec

1

0.138

0.960

0.621

0.979

0.613

0.882

0.996

0.988

0.906

0.760

2

0.200

0.965

0.592

0.974

0.623

0.894

0.992

0.991

0.908

0.755

3

0.171

0.964

0.600

0.985

0.642

0.882

0.992

0.985

0.900

0.760

4

0.179

0.957

0.608

0.984

0.596

0.881

0.998

0.987

0.877

0.755

5
0.190 0.959 0.623 0.984
sens = sensitivity, spec = specificity

0.600

0.891

0.996

0.986

0.904

0.757

14
Tabel 10 Nilai sensitivity dan specificity setiap fold pada panjang sequence 400
bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Dua
Fold

Bacillus

Clostridium

Lactobacillus

Mycobacterium

Staphylococcus

sens

spec

sens

spec

sens

spec

sens

spec

sens

spec

1

0.527

0.888

0.106

0.999

0.763

0.891

0.983

0.997

0.792

0.768

2

0.604

0.880

0.110

0.999

0.750

0.897

0.979

0.998

0.792

0.783

3

0.550

0.893

0.121

1.000

0.781

0.86

0.983

0.996

0.773

0.777

4

0.521

0.892

0.121

1.000

0.733

0.880

0.981

0.997

0.794

0.769

5
0.565 0.896 0.144 1.000
sens = sensitivity, spec = specificity

0.760

0.894

0.979

0.998

0.810

0.776

Tabel 11 Nilai sensitivity dan specificity setiap fold pada panjang sequence 800
bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Satu
Fold

Bacillus

Clostridium

Lactobacillus

Mycobacterium

Staphylococcus

sens

spec

sens

spec

sens

spec

sens

spec

sens

spec

1

0.221

0.951

0.685

0.990

0.602

0.903

0.990

0.996

0.944

0.770

2

0.188

0.961

0.654

0.987

0.625

0.891

0.994

0.993

0.940

0.768

3

0.229

0.954

0.646

0.992

0.590

0.905

0.992

0.993

0.950

0.757

4

0.183

0.965

0.685

0.992

0.606

0.898

0.988

0.994

0.950

0.754

5
0.213 0.966 0.656 0.990
sens = sensitivity, spec = specificity

0.648

0.900

0.979

0.995

0.952

0.760

Tabel 12 Nilai sensitivity dan specificity setiap fold pada panjang sequence 800
bp yang menggunakan metode ekstraksi ciri Rantai Markov Orde Dua
Fold

Bacillus

Clostridium

Lactobacillus

Mycobacterium

Staphylococcus

sens

spec

sens

spec

sens

spec

sens

spec

sens

spec

1

0.568

0.937

0.285

1.000

0.698

0.947

0.983

0.999

0.965

0.742

2

0.554

0.938

0.281

0.999

0.694

0.940

0.990

0.995

0.944

0.744

3

0.581

0.946

0.294

0.998

0.694

0.946

0.981

0.998

0.963

0.740

4

0.546

0.951

0.267

0.999

0.679

0.943

0.988

0.998

0.960

0.719

5
0.581 0.945 0.300 0.999
sens = sensitivity, spec = specificity

0.717

0.942

0.975

0.997

0.965

0.751

15
Tabel 13 Nilai sensitivity dan specificity setiap fold pada panjang sequence
1000 bp yang menggunakan metode ekstraksi ciri Rantai Markov
Orde Satu
Fold

Bacillus

Clostridium

Lactobacillus

Mycobacterium

Staphylococcus

sens

spec

sens

spec

sens

spec

sens

spec

sens

spec

1

0.194

0.964

0.688

0.994

0.590

0.901

0.996

0.996

0.967

0.754

2

0.213

0.962

0.681

0.988

0.610

0.911

0.992

0.996

0.950

0.755

3

0.208

0.952

0.683

0.990

0.594

0.908

0.992

0.992

0.948

0.766

4

0.223

0.947

0.679

0.990

0.571

0.903

0.992

0.996

0.950

0.768

5
0.181 0.967 0.663 0.993
sens = sensitivity, spec = specificity

0.585

0.894

0.996

0.994

0.946

0.745

Tabel 14 Nilai sensitivity dan specificity setiap fold pada panjang sequence
1000 bp yang menggunakan metode ekstraksi ciri Rantai Markov
Orde Dua
Fold

Bacillus

Clostridium

Lactobacillus

Mycobacterium

Staphylococcus

sens

spec

sens

spec

sens

spec

sens

spec

sens

spec

1

0.535

0.961

0.371

1.000

0.685

0.950

0.994

0.999

0.979

0.731

2

0.567

0.960

0.358

0.998

0.679

0.950

0.983

0.999

0.973

0.732

3

0.546

0.954

0.365

0.998

0.675

0.949

0.985

0.999

0.965

0.734

4

0.608

0.954

0.356

0.999

0.690

0.951

0.988

0.999

0.969

0.749

5
0.554 0.957 0.396 1.000
sens = sensitivity, spec = specificity

0.658

0.950

0.994

0.999

0.967

0.736

Perbandingan antar Genus
Nilai sensitivity dan specificity yang dihasilkan oleh setiap genus dengan
panjang sequence 100 bp, 200 bp, 400 bp, 800 bp, dan 1000 bp dapat dilihat
pada Tabel 15 dan Tabel 16. Tabel 15 merujuk kepada ekstraksi ciri Rantai
Markov Orde Satu, sedangkan Tabel 16 merujuk kepada ekstraksi ciri Rantai
Markov Orde Dua.
Perbandingan dari keseluruhan nilai sensitivity dan specificity dalam
penggunaan ekstraksi ciri Rantai Markov Orde Satu yang disajikan dalam
bentuk grafik dapat dilihat berturut-turut pada Gambar 3 dan Gambar 4.
Sedangkan perbandingan dari keseluruhan nilai sensitivity dan specificity dalam
penggunaan ekstraksi ciri Rantai Markov Orde Dua yang disajikan dalam bentuk
grafik berturut-turut dapat dilihat pada Gambar 5 dan Gambar 6.

16
Tabel 15 Nilai sensitivity dan specificity dari kelima genus yang menggunakan
ekstraksi ciri Rantai Markov Orde Satu
Bacillus
Panjang
sequence sens spec

Clostridium

Lactobacillus

Mycobacterium

Staphylococcus

sens

spec

sens

spec

sens

spec

sens

spec

100bp

0.140

0.955

0.407

0.957

0.609

0.808

0.971

0.969

0.669

0.760

200bp

0.155

0.961

0.569

0.964

0.642

0.841

0.984

0.983

0.769

0.782

400bp

0.175

0.961

0.609

0.981

0.615

0.886

0.995

0.987

0.899

0.758

800bp

0.207

0.959

0.665

0.990

0.614

0.899

0.988

0.994

0.947

0.762

1000bp

0.204

0.958

0.679

0.991

0.590

0.903

0.993

0.995

0.952

0.758

Tabel 16 Nilai sensitivity dan specificity dari kelima genus yang menggunakan
ekstraksi ciri Rantai Markov Orde Dua
Bacillus
Panjang
sequence sens spec

Clostridium

Lactobacillus

Mycobacterium

Staphylococcus

sens

spec

sens

spec

sens

spec

sens

spec

100bp

0.359

0.880

0.435

0.964

0.760

0.697

0.945

0.980

0.294

0.927

200bp

0.459

0.847

0.225

0.995

0.828

0.726

0.946

0.995

0.385

0.898

400bp

0.553

0.890

0.120

0.999

0.758

0.890

0.981

0.998

0.792

0.775

800bp

0.566

0.943

0.285

0.999

0.696

0.944

0.983

0.998

0.959

0.739

1000bp

0.562

0.957

0.369

0.999

0.678

0.950

0.989

0.999

0.970

0.736

1.2
1

Bacillus

0.8

Clostridium

0.6

Lactobacillus

0.4

Mycobacterium

0.2

Staphylococcus

0
100 bp 200 bp 400 bp 800 bp 1000 bp

Gambar 3 Grafik nilai sensitivity dari setiap genus
menggunakan ekstraksi ciri Rantai Markov
Orde Satu
Pada klasifikasi Probabilistic Neural Network dengan ekstraksi ciri Rantai
Markov Orde Satu, berdasarkan grafik pada Gambar 3, dapat dilihat bahwa nilai
sensitivity tertinggi baik pada panjang sequence 100 bp, 200 bp, 400 bp, 800 bp,
maupun 1000 bp, terletak pada genus Mycobacterium dan berdasarkan Gambar 4,
nilai specificity tertinggi baik pada panjang sequence 100 bp, 200 bp, 400 bp,
800 bp, maupun 1000 bp terletak pada genus Mycobacterium.

17
1.2
1

Bacillus

0.8

Clostridium

0.6

Lactobacillus

0.4

Mycobacterium

0.2

Staphylococcus

0
100 bp 200 bp 400 bp 800 bp 1000 bp

Gambar 4 Grafik nilai specificity dari setiap genus
menggunakan ekstraksi ciri Rantai Markov
Orde Satu
1.2
1

Bacillus

0.8

Clostridium

0.6

Lactobacillus

0.4

Mycobacterium

0.2

Staphylococcus

0
100 bp 200 bp 400 bp 800 bp 1000 bp

Gambar 5 Grafik nilai sensitivity dari setiap genus
menggunakan ekstraksi ciri Rantai Markov
Orde Dua
1.2
1

Bacillus

0.8

Clostridium

0.6

Lactobacillus

0.4

Mycobacterium

0.2

Staphylococcus

0
100 bp 200 bp 400 bp 800 bp 1000 bp

Gambar 6 Grafik nilai specificity dari setiap genus
menggunakan ekstraksi ciri Rantai Markov
Orde Dua
Pada klasifikasi Probabilistic Neural Network dengan ekstraksi ciri Rantai
Markov Orde Dua, berdasarkan grafik pada Gambar 5, dapat dilihat bahwa nilai
sensitivity tertinggi baik pada panjang sequence 100 bp, 200 bp, 400 bp, 800 bp,
maupun 1000 bp, terletak pada genus Mycobacterium dan berdasarkan Gambar 4,
nilai specificity tertinggi baik pada panjang sequence 100 bp, 200 bp, 400 bp,
800 bp, maupun 1000 bp terletak pada genus Mycobacterium.

18
Bacillus, Lactobacillus, dan Staphylococcus berada dalam satu kelas yang
sama, yaitu Bacilli. Ketiga genus tersebut berada dalam satu Phyllum yang sama
dengan Clostridium, yaitu Firmicutes. Jika kita tinjau genus Mycobacterium,
genus ini berada pada Phyllum yang berbeda dengan keempat genus lainnya,
yaitu berada pada phyllum Actinobacteria. Secara filogeni atau kemiripan
sekuen DNA, Mycobacterium lebih berbeda dengan yang lainnya.
Actinobacteria cenderung memiliki kandungan persentase G dan C yang tinggi
diabandingkan Firmicutes. Hal inilah yang menjadi penyebab nilai sensitivity
dan specificity dari Mycobacterium sangat tinggi.
Perbandingan antar Panjang Sequence
Untuk melihat panjang sequence terbaik yang digunakan dalam metode ini,
diperlukan nilai rata-rata dari sensitivity dan specificity. Nilai rata-rata sensitivity
dan specificity dari kelima genus berdasarkan panjang sequence dapat dilihat
pada Tabel 17.
Perbandingan dari keseluruhan nilai sensitivity dan specificity rata-rata
dalam penggunaan ekstraksi ciri Rantai Markov Orde Satu yang disajikan dalam
bentuk grafik dapat dilihat pada Gambar 7. Sedangkan perbandingan dari
keseluruhan nilai sensitivity dan specificity rata-rata dalam penggunaan ekstraksi
ciri Rantai Markov Orde Dua yang disajikan dalam bentuk grafik dapat dilihat
pada Gambar 8.
Berdasarkan grafik pada Gambar 7, dapat dilihat bahwa untuk metode
ekstraksi ciri Rantai Markov Orde Satu, nilai sensitivity dan specificity tertinggi
terletak pada panjang sequence 800 bp.
Berdasarkan grafik pada Gambar 8, dapat dilihat bahwa untuk metode
ekstraksi ciri Rantai Markov Orde Dua, nilai sensitivity dan specificity tertinggi
terletak pada panjang sequence 1000 bp.
Setelah melalui serangkaian perbandingan, didapatkanlah model
klasifikasi DNA bakteri terbaik. Model klasifikasi tersebut menggunakan
ekstraksi ciri Rantai Markov Orde Dua, panjang sequence 1000 bp, dan fold 1,
fold 2, fold 3, dan fold 5 sebagai data latihnya.
Tabel 17 Nilai rata-rata sensitivity dan specificity dari kelima jenis
genus yang menggunakan ekstraksi ciri Rantai Markov Orde
Satu dan Dua
Panjang
Sequence

Orde satu
Sensitivity

Specificity

Orde dua
Sensitivity

Specificity

100 bp

0.5593

0.8898

0.5584

0.8896

200 bp

0.6238

0.9060

0.5688

0.8922

400 bp

0.6585

0.9146

0.6409

0.9102

800 bp

0.6843

0.9211

0.6981

0.9245

1000 bp

0.6835

0.9209

0.7136

0.9284

19

1
0.8

100 bp

0.6

200 bp

0.4

400 bp
800 bp

0.2

1000 bp

0
Sensitivity

Specificity

Gambar 7 Grafik nilai rata-rata sensitivity dan specificity dari
setiap panjang sequence yang menggunakan
ekstraksi ciri Rantai Markov Orde Satu

1
0.8

100 bp

0.6

200 bp

0.4

400 bp
800 bp

0.2

1000 bp

0
Sensitivity

Specificity

Gambar 8 Grafik nilai rata-rata sensitivity dan specificity dari
setiap panjang sequence yang menggunakan
ekstraksi ciri Rantai Markov Orde Dua
Pengujian dengan Menggunakan Data Luar
Setelah terbentuk model klasifikasi, dilakukanlah pengujian dengan
menggunakan data luar. Data luar yang digunakan dapat dilihat pada Tabel 18.
Tabel 18 Data luar untuk pengujian model klasifikasi yang
terbentuk
Genus

Jumlah Sequence DNA

Panjang sequence

Bacillus

20 sequence

1000 bp

Clostridium

20 sequence

1000 bp

Lactobacillus

20 sequence

1000 bp

Mycobacterium

20 sequence

1000 bp

Staphylococcus

20 sequence

1000 bp

20
Analisis dilakukan terhadap hasil pengujian menggunakan data luar ini.
Confusion Matrix dari analisis dapat dilihat pada tabel 19. Nilai sensitivity dan
specificity kelima genus dapat dilihat pada tabel 20.
Tabel 19 Confusion matrix hasil pengujian menggunakan data luar
Bacillus

Clostridium

Lactobacillus

Mycobacterium

Staphylococcus

Bacillus

11

0

4

0

5

Clostridium

4

7

1

0

8

Lactobacillus

2

0

12

1

5

Mycobacterium

0

0

0

20

0

Staphylococcus

0

0

0

0

20

Tabel 20 Nilai sensitivity dan specificity kelima genus ketika
menggunakan data luar
Sensitivity

Specificity

Bacillus

0.55

0.925

Clostridium

0.35

1.00

Lactobacillus

0.60

0.9375

Mycobacterium

1.00

0.9875

Staphylococcus

1.00

0.775

Pengujian menggunakan data luar ini menghasilkan akurasi sebesar 70%.

21

SIMPULAN DAN SARAN
Simpulan
Simpulan yang dapat ditarik dari penelitian adalah sebagai berikut:
1 Pada orde satu menghasilkan nilai sensitivity terbaik 0,6843 dan nilai
specificity terbaik 0,9211 sedangkan pada orde dua menghasilkan nilai
sensitivity terbaik 0,7136 dan nilai specificity terbaik 0,9284.
2 Semakin besar panjang sequence maka semakin besar pula nilai sensitivity
dan specificity
3 Model klasifikasi terbaik yang diperoleh menggunakan ekstraksi ciri Rantai
Markov Orde Dua, panjang sequence 1000 bp, dan fold 1, fold 2, fold 3, dan
fold 5 sebagai data latihnya.
Saran
Saran untuk penelitian selanjutnya adalah:
1 Menambah jumlah data dengan jenis genus yang lebih beragam
2 Menambah jumlah sequence untuk masing-masing genus
3 Melakukan klasifikasi dalam beberapa tingkat taksonomi.

DAFTAR PUSTAKA
Gargaud M et al. 2011. Encyclopedia of Astrobiology, Volume 1. Berlin (DE):
Springer..
Hastie T, Tibshirani R, Friedman J. 2011. The Elements of Statistical Learning:
Data Mining, Inference, and Prediction. New York (US): Springer.
Mangku IW. 2005. Dasar-dasar Pemodelan Stokastik. Departemen Matematika
Fakultas MIPA, IPB, Bogor.
Peyrard M. 2004. Nonlinear dynamics and statistical physics of DNA. 1-34.
Polanski A, Kimmel M. 2007. Bioinformatics. Berlin (DE): Springer.
Robin S, Rodolphe F, Schbath S. 2005. DNA , Words, and Models. Cambridge
(UK): Cambridge University Press.
Simons G, Yao Y, Morton G. 2004. Global markov models for eukaryote
nucleotide data. J STAT PLAN INFER. 130: 251-275.
Spetch DF. 1990. Probabilistic neural network. NEURAL NETWORKS. 3: 109118.
Usotskaya N, Ryabko B,. 2009. DNA-sequence analysis using Markov chain
models. COMPUT STAT DATA AN. 53: 1861-1872.
Wang J, Zaki M, Toivonen H, Shasha D. 2005. Data Mining in Bioinformatics.
London (UK): Springer.
Wu X, Lu F, Wang B, Cheng J. 2005. Analysis of DNA sequence pattern using
probabilistic neural network model. J RES PRACT INF TECH. 37(4)353-363.
.

22

RIWAYAT HIDUP
Penulis lahir di Bogor pada tanggal 2 Oktober 1990. Penulis merupakan
anak pertama dari dua bersaudara buah hati pasangan Bapak Budi Utoyo dan
Eulis Mardiani. Penulis lulus dari SMA Negeri 1 Bogor pada tahun 2009 dan
melanjutkan pendidikan ke Institut Pertanian Bogor (IPB) melalui jalur Ujian
Saringan Masuk IPB (USMI) pada Departemen Ilmu Komputer, Fakultas
Matematika dan Ilmu Pengetahuan Alam (FMIPA).
Semasa kuliah, penulis aktif di beberapa organisasi, yaitu Forum
komunikasi Alumni Muslim SMANSA (Forkom Alims), Dewan Perwakilan
Mahasiswa FMIPA (DPM-G), dan Himpunan Mahasiswa Ilmu Komputer
(Himalkom).
Penulis pun aktif dalam berbagai kegiatan di kampus, yaitu Open House
47 (Anggota Divisi Acara), Grafity 47 (Ketua Divisi Acara), G-Force 47
(Sebagai Anggota Divisi Scientist Guardian), Panitia Pemilihan Raya FMIPA
(Anggota Divisi Acara dan Humas), Olimpiade Mahasiswa IPB 2012 (Ketua
Divisi Acara), Gebyar Nusantara 2012 (Ketua Pelaksana), Olimpiade Mahasiswa
2013 (Ketua Divisi Publikasi, Dekorasi, dan Dokumentasi).
Penulis memiliki minat yang besar dalam travelling, mountaineering,
graphic design, web development, dan programming.