Klasifikasi Fragmen Metagenom menggunakan Fitur Spaced N-Mers dan K-Nearest Neighbour

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN
FITUR SPACED N-MERS DAN K-NEAREST NEIGHBOUR

FITRIA ELLIYANA

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Fragmen
Metagenom menggunakan Fitur Spaced N-Mers dan K-Nearest Neighbour adalah
benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan
dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang
berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari
penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di
bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, Januari 2014
Fitria Elliyana
NIM G64104020

ABSTRAK
FITRIA ELLIYANA. Klasifikasi Fragmen Metagenom Menggunakan Fitur
Spaced N-Mers dan K-Nearest Neighbour. Dibimbing oleh WISNU ANANTA
KUSUMA.
Metagenom merupakan studi DNA total dari sumber lingkungan yang diisolasi
secara langsung. Studi tersebut dilakukan dengan membaca seluruh DNA dari suatu
ekosistem lengkap (bukan hanya satu organisme). Metagenom mengacu pada kandungan
genomik dari ekosistem mikroba lengkap. Karena sampel mikroba yang diambil dari
ekosistem mengandung bermacam-macam organisme maka perlu dilakukan proses
binning untuk klasifikasi. Pada penelitian ini digunakan algoritme k-nearest neighbour
(KNN) untuk mengklasifikasi fragmen metagenom dan spaced n-mers untuk ekstraksi
fitur. Penelitian dilakukan pada dua kelompok dataset yaitu organisme latih dan
organisme uji dengan panjang fragmen 500 bp, 1 kbp, 5 kbp, dan 10 kbp. Hasil akurasi
terbaik yang diperoleh dari dataset organisme latih mencapai 99.75% pada pengujian
fragmen dengan panjang 10 kbp dan nilai k = 3. Nilai sensitivitas dan spesifisitas tertinggi

juga diperoleh dari dataset organisme yang sama yaitu 99.71% dan 99.85%.

Kata kunci: DNA, k-nearest neighbour, metagenom, oligonucleotide frequency,
sensitivitas, spaced n-mers, spesifisitas.

ABSTRACT
FITRIA ELLIYANA. Metagenome Fragment Classification using Spaced N-Mers
Features and K-Nearest Neighbour. Supervised by WISNU ANANTA KUSUMA.
Metagenome is a study of total DNA from some environmental sources that
are directly isolated. The study is conducted by reading the entire DNA of a
complete ecosystem (not just one organism). Metagenome refers to the genomic
content of complete microbial ecosystems. Since the samples taken from the
ecosystems may contain a variety of organisms, it requires a binning process to classify.
In this research, k-nearest neighbour (KNN) algorithm was used to classify metagenome
fragments and spaced n-mers was used for feature extraction. The research was conducted
on two groups of datasets, namely the training organisms and testing organisms with
fragment length of 500 bp, 1 kbp, 5 kbp, and 10 kbp. The best accuracy obtained from the
training organism dataset reached 99.75% on the fragment test with a length of 10 kbp
and k = 3. The highest value of its sensitivity and specificity was also obtained from the
same organism dataset, 99.71% and 99.85% respectively.

Keywords: DNA, k-nearest neighbour, metagenome, oligonucleotide frequency,
sensitivity, spaced n-mers, specificity.

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN
FITUR SPACED N-MERS DAN K-NEAREST NEIGHBOUR

FITRIA ELLIYANA

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014


Penguji:
1 Dr Irman Hermadi, SKom MT
2 Toto Haryanto, SKom MSi

Judul Skripsi : Klasifikasi Fragmen Metagenom menggunakan Fitur Spaced NMers dan K-Nearest Neighbour
Nama
: Fitria Elliyana
NIM
: G64104020

Disetujui oleh

Dr Wisnu Ananta Kusuma, ST MT
Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen


Tanggal Lulus:

Judul Skripsi: Klasifikasi Fragmen Metagenom menggunakan Fitur Spaced NMel's dan K-Nearest Neighbour
: Fitria Elliyana
Nama
: G641 04020
NJM:

Disetujui oleh

Dr Wisnu Ananta

usuma ST MT

Pembim ing

Ketua Departemen

Tanggal Lulus:


2 9 JAN 2,014

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah dengan judul Klasifikasi Fragmen
Metagenom menggunakan Fitur Spaced N-Mers dan K-Nearest Neighbour ini
berhasil diselesaikan.
Adapun penulis mengucapkan terima kasih kepada:
1 Kedua orangtua serta seluruh keluarga yang telah memberikan dukungan,
perhatian, dan doa sehingga penulis dapat menyelesaikan penelitian ini.
2 Bapak Dr Wisnu Ananta Kusuma, ST MT selaku pembimbing yang telah
banyak memberi saran.
3 Dosen penguji, Bapak Dr Irman Hermadi, SKom MS dan Bapak Toto
Haryanto, SKom MSi atas saran dan bimbingannya.
4 Teman-teman satu bimbingan Agung, Fariz, Haris, Bernita, dan Galih, terima
kasih atas kerja samanya.
5 Teman-teman Ekstensi Ilkom angkatan 5 atas kerja samanya selama penelitian.
6 Guru, sahabat, sekaligus temanku Bayu Widodo yang bersedia mendengarkan
keluh kesah dan selalu memberikan dukungan.
7 Semua pihak yang telah memberikan bantuan selama pengerjaan penelitian ini

yang tidak dapat penulis tuliskan satu per satu.
Semoga penelitian ini bermanfaat bagi semua pihak yang membutuhkan.

Bogor, Januari 2014
Fitria Elliyana

DAFTAR ISI
DAFTAR TABEL

vii

DAFTAR GAMBAR

vii

DAFTAR LAMPIRAN

viii

PENDAHULUAN


1

Latar Belakang

1

Tujuan Penelitian

2

Manfaat Penelitian

2

Ruang Lingkup Penelitian

2

METODE


3

Penyiapan Data

4

Ekstraksi Fitur

4

F-Fold Cross Validation

5

Klasifikasi

5

Pengujian


6

Evaluasi dan Analisis Hasil

6

Lingkungan Implementasi

7

HASIL DAN PEMBAHASAN

7

Penyiapan Data

7

Percobaan 1 : Dataset Organisme Latih dengan Panjang Fragmen 500 bp


9

Percobaan 2 : Dataset Organisme Latih dengan Panjang Fragmen 1 kbp

9

Percobaan 3 : Dataset Organisme Latih dengan Panjang Fragmen 5 kbp

10

Percobaan 4 : Dataset Organisme Latih dengan Panjang Fragmen 10 kbp

11

Percobaan 5 : Dataset Organisme Uji dengan Panjang Fragmen 500 bp

13

Percobaan 6 : Dataset Organisme Uji dengan Panjang Fragmen 1 kbp

14

Percobaan 7 : Dataset Organisme Uji dengan Panjang Fragmen 5 kbp

14

Percobaan 8 : Dataset Organisme Uji dengan Panjang Fragmen 10 kbp

15

Perbandingan Akurasi, Sensitivitas, dan Spesifisitas antara Dataset
Organisme Latih dengan Organisme Uji

16

SIMPULAN DAN SARAN

20

Simpulan

20

Saran

20

DAFTAR PUSTAKA

20

LAMPIRAN

22

RIWAYAT HIDUP

28

DAFTAR TABEL
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

Confusion matrix
Hasil akurasi pengujian dataset organisme latih dengan panjang
fragmen 500 bp
Hasil akurasi pengujian dataset organisme latih dengan panjang
fragmen 1 kbp
Hasil akurasi pengujian dataset organisme latih dengan panjang
fragmen 5 kbp
Hasil akurasi pengujian dataset organisme latih dengan panjang
fragmen 10 kbp
Hasil akurasi fold tertinggi pada pengujian dataset organisme latih
Hasil sensitivitas organisme latih
Hasil spesifisitas organisme latih
Perbandingan akurasi, sensitivitas, dan spesifisitas organisme latih
Confusion matrix dataset organisme uji dengan panjang fragmen 500 bp
Confusion matrix datset organisme uji dengan panjang fragmen 1 kbp
Confusion matrix dataset organisme uji dengan panjang fragmen 5 kbp
Confusion matrix dataset organisme uji dengan panjang fragmen 10 kbp
Hasil akurasi pada pengujian dataset organisme uji
Hasil sensitivitas dan spesifisitas organisme uji
Perbandingan akurasi, sensitivitas, dan spesifisitas organisme uji
Perbandingan akurasi, sensitivitas, dan spesifisitas organisme latih dan
uji
Hasil sensitivitas organisme latih
Hasil sensitivitas organisme uji
Hasil spesifisitas organisme latih
Hasil spesifisitas organisme uji
Perbandingan hasil akurasi penelitian terkait

6
9
10
10
11
11
12
12
13
13
14
15
15
16
16
16
16
17
18
18
18
19

DAFTAR GAMBAR
1
2
3

Skema metode penelitian
Fitur spaced n-mers
Data berformat FASTA

3
4
8

DAFTAR LAMPIRAN
1
2
3
4
5
6
7
8
9
10
11
12
13
14

Pembagian subset untuk panjang fragmen 500 bp
Pembagian subset untuk panjang fragmen 1 kbp
Pembagian subset untuk panjang fragmen 5 kbp
Pembagian subset untuk panjang fragmen 10 kbp
Dataset organisme latih
Dataset organisme uji
Confusion matrix percobaan 1 pada dataset organisme latih dengan
panjang fragmen 500 bp
Confusion matrix percobaan 1 pada panjang fragmen 500 bp dengan
nilai fold terbaik
Confusion matrix percobaan 2 pada dataset organisme latih dengan
panjang fragmen 1 kbp
Confusion matrix percobaan 2 pada panjang fragmen 1 kbp dengan nilai
fold terbaik
Confusion matrix percobaan 3 pada dataset organisme latih dengan
panjang fragmen 5 kbp
Confusion matrix percobaan 3 pada panjang fragmen 5 kbp dengan nilai
fold terbaik
Confusion matrix percobaan 4 pada dataset organisme latih dengan
panjang fragmen 10 kbp
Confusion matrix percobaan 4 pada panjang fragmen 10 kbp dengan
nilai fold terbaik

21
21
21
21
21
21
21
21
21
21
21
21
21
21

PENDAHULUAN
Latar Belakang
Para peneliti di dunia ilmiah telah banyak menghasilkan perkembangan baru
dalam sains dan teknologi, tak terkecuali di bidang biologi. Metagenom
merupakan studi DNA total dari sumber lingkungan yang diisolasi secara
langsung (Fanani 2011). Penggunaan pendekatan metagenom untuk eksplorasi
gen dari DNA total yang berasal dari sampel lingkungan memberikan beberapa
kelebihan di antaranya yaitu dapat diperoleh gen yang berasal dari
mikroorganisme yang tidak dapat dikulturkan, mikroorganisme yang hidup di
daerah ekstrim, misalnya kadar garam tinggi, temperatur panas, temperatur
rendah, dan lingkungan yang sangat asam-basa. Namun dari sekian banyak
mikroorganisme yang terdapat di dunia, hanya sekitar 1% yang dapat dikulturkan
dengan menggunakan metode standar. Sisanya harus diambil langsung dari
ekosistemnya. Sampel yang diambil langsung dari ekosistem ini mengandung
bermacam-macam organisme sehingga perlu dilakukan proses klasifikasi.
Genom adalah set lengkap molekul DNA dalam setiap sel dari organisme
hidup yang diturunkan dari satu generasi ke generasi berikutnya. Deoxyribo
nucleic acid (DNA) merupakan pembawa informasi genetik dari makhluk hidup.
DNA merupakan rantai ganda dari molekul sederhana (nukleotida) yang diikat
bersama-sama dalam struktur helix yang dikenal dengan double helix. Nukleotida
tersebut tersusun atas empat basa nitrogen yaitu adenin, timin, guanin, dan sitosin
yang dapat direpresentasikan dalam abjad A, T, G, dan C (de Carvalho 2003).
Sekuens DNA suatu organisme berasal dari sekuens generasi yang telah ada
sebelumnya. Jika ditemukan sekuens baru yang belum diketahui sebelumnya,
maka sekuens baru dibandingkan dengan sekuens yang sudah ada sehingga dapat
diperoleh informasi genetik dari sekuens yang baru. Klasifikasi adalah satu cara
yang digunakan untuk menentukan suatu fragmen DNA termasuk ke dalam
tingkat taksonomi tertentu. Hal ini diperlukan karena dimungkinkan terdapat
DNA yang memiliki perbedaan dalam fragmennya namun ternyata masih
termasuk dalam satu genus yang sama.
Metode yang umum digunakan untuk mengekstraksi fitur fragmen
metagenom adalah dengan menghitung frekuensi n-mers. Wu (2008)
menggunakan principal component analysis (PCA) dengan oligonucleotide
frekuensi n-mers untuk melakukan ekstraksi fitur. Hasil penelitian dengan empat
jenis pengklasifikasi yaitu klasifikasi linear, klasifikasi kuadrat, k-nearest
neighbour, dan decision tree menunjukkan bahwa PCA dengan n-mers mampu
menangkap karakteristik intrinsik dari fragmen DNA sehingga memadai sebagai
fitur klasifikasi. PCA dengan n-mers cenderung lebih efektif dan stabil ketika
panjang fragmen DNA meningkat. Pengklasifikasi linear sederhana dapat
mencapai akurasi yang tinggi untuk klasifikasi fragmen metagenom pada tingkat
berbagai taksonomi, bahkan pada tingkat spesifik seperti spesies.
Oligonucleotide frekuensi n-mers telah banyak digunakan untuk prediksi
gen, konstruksi pohon filogenetik, dan klasifikasi metagenom. Namun,
penggunaan n-mers akan mengakibatkan dimensi fitur yang tinggi bahkan untuk
nilai n kecil. Untuk mereduksi dimensi fitur yang tinggi pada n-mers, Wu (2008)
menerapkan PCA pada penelitiannya. Sebagai contoh, untuk nilai n = 5 pada n-

2
mers, maka akan diperoleh dimensi sebesar 45 yaitu 1024 fitur. Apabila
dibandingkan dengan spaced n-mers dengan nilai n = 3 akan diperoleh dimensi
sebesar 43 + 43 + 43 yaitu 192. Spaced 3-mers menghasilkan nilai 192 karena nilai
don’t care yang dilambangkan dengan simbol (*) tidak dihitung, sehingga
menghasilkan dimensi yang lebih sedikit namun lebih kaya fitur.
Pada penelitian yang dilakukan oleh Wu (2008) diperoleh rata-rata tingkat
akurasi klasifikasi tertinggi dicapai oleh pengklasifikasi yang lebih sederhana,
seperti; pengklasifikasi linear sederhana, kuadrat, dan 3-NN. Klasifikasi linear
sederhana mampu mencapai tingkat akurasi di atas 85% untuk mengklasifikaskan
fragmen DNA pada tingkat yang lebih spesifik. 3-NN mencapai akurasi 92%
untuk level taksonomi genus.
Kusuma dan Akiyama (2011) juga melakukan penelitian klasifikasi fragmen
metagenom menggunakan algoritme SVM berbasis characterization vector.
Penelitian tersebut dilakukan pada dua kelompok dataset yang merepresentasikan
organisme latih dan organisme uji dengan panjang fragmen 500 bp, 1 kbp, 5 kbp,
dan 10 kbp. Akurasi yang dicapai dari penelitian tersebut yaitu 78% untuk
panjang fragmen 500 bp, 80% untuk panjang fragmen 1 kbp, 86% untuk panjang
fragmen 5 kbp, dan 87% untuk panjang fragmen 10 kbp.
Oleh karena itu pada penelitian ini akan dilakukan klasifikasi fragmen
metagenom menggunakan algoritme k-nearest neighbour (KNN) dengan spaced
n-mers sebagai ekstraksi fitur dan merujuk pada data penelitian Kusuma dan
Akiyama (2011), untuk kemudian hasilnya akan dibandingkan.

Tujuan Penelitian
Tujuan penelitian ini adalah untuk melakukan klasifikasi fragmen
metagenom pada tingkat genus dengan fitur spaced n-mers dan algoritme KNN
serta membandingkan tingkat akurasi dengan penelitian sebelumnya (Kusuma dan
Akiyama 2011).

Manfaat Penelitian
Penelitian ini diharapkan dapat membantu para peneliti dalam
mengidentifikasi dan mengklasifikasi fragmen metagenom sesuai dengan tingkat
taksonomi.

Ruang Lingkup Penelitian
Ruang lingkup penelitian ini yaitu:
1 Data yang digunakan merujuk referensi data dari penelitian Kusuma dan
Akiyama (2011). Data terdiri dari dua kelompok dataset yang dibangkitkan
oleh perangkat lunak MetaSim, dengan format FASTA, yang
merepresentasikan organisme latih dan organisme uji.
2 Panjang fragmen untuk dataset organisme latih dan organisme uji meliputi 500
bp, 1 kbp, 5 kbp, dan 10 kbp. Dataset tersebut dipilih dari genus
Agrobacterium, Bacillus, dan Staphylococcus.

3

3 Sekuens DNA direpresentasikan sebagai empat karakter A, T, G, dan C yang
mewakili basa nitrogen adenin, timin, guanin, dan sitosin. Sekuens DNA
diasumsikan bebas error yaitu tidak ada karakter huruf lain selain A, T, G, dan
C.

METODE
Penelitian ini dilakukan dengan beberapa tahapan proses, yaitu penyiapan
data fragmen metagenom, ekstraksi fitur fragmen metagenom dengan spaced nmers, pembagian data uji dengan f-fold cross validation, dan klasifikasi fragmen
metagenom dengan menggunakan algoritme KNN, dan analisis hasil akurasi,
sensitivitas, dan spesifisitas. Skema metode penelitian dapat dilihat pada Gambar
1.
Mulai

Penyiapan Data

Spaced N-Mers

Organisme Uji

Organisme Uji
Data Latih

Data Uji
F-Fold Cross Validation

K-Nearest
Neighbor

Pengujian

Analisis

Selesai

Gambar 1 Skema metode penelitian

4
Penyiapan Data
Data yang digunakan berupa dua kelompok dataset yang dibangkitkan oleh
MetaSim, dengan format FASTA. MetaSim merupakan sebuah perangkat lunak
yang berfungsi sebagai simulator penderetan untuk genomik dan metagenomik.
MetaSim memungkinkan pengguna untuk mensimulasikan pembacaan dataset
individu yang dapat digunakan sebagai skenario pengujian standar untuk
perencanaan proyek sekuensing atau untuk sebagai tolok ukur perangkat lunak
metagenomik. Dataset terdiri dari dataset organisme latih dan dataset organisme
uji. Dataset organisme latih terdiri atas 10 spesies. Sedangkan dataset organisme
uji terdiri atas sembilan spesies. Panjang fragmen untuk setiap dataset adalah tetap
yaitu terdiri dari 500 bp, 1 kbp, 5 kbp, dan 10 kbp. Jumlah fragmen untuk dataset
organisme latih adalah 10 000 dan organisme uji 5000.

Ekstraksi Fitur
Tahapan ini dilakukan untuk mendapatkan fitur yang akan digunakan dalam
klasifikasi dan pengujian. Metode ekstraksi fitur yang digunakan dalam penelitian
ini adalah spaced n-mers frequency. Spaced n-mers frequency digunakan untuk
mencari sequence-composition-spaced pada fragmen DNA (Kusuma 2012).
Spaced n-mers perlu didefinisikan ��� sebagai pola spaced, dimana w
mendefinisikan bobot sequence-composition-spaced dan merepresentasikan
jumlah posisi yang cocok atau match, disimbolkan dengan 1, dan d
merepresentasikan jumlah posisi don’t care, disimbolkan dengan (*). Pola ���
digunakan untuk mendaftarkan pola nukleotida seperti {AA, AT, AG, AC, …,
GG, A*A, A*T, …}.
=3
Ekstraksi fitur spaced n-mers yang digunakan adalah pola ���=0,1,2
yang
direpresentasikan dengan {111 1*11 1**11} sehingga diperoleh pola fitur {AAA,
AAT, AAG, AAC, …, CCC, A*AA, A*AT, …, C*CC, A**AA, A**AT, …,
C**CC}. Dimensi yang didapat sebesar 43 + 43 + 43 yaitu 192. Spaced n-mers
menghasilkan nilai 192 karena nilai don’t care yang dilambangkan dengan simbol
(*) tidak dihitung. Frekuensi kemunculan tiap fragmen DNA dihitung dengan pola
=3
fitur tersebut. Spaced n-mers dengan ���=0,1,2
dan pola {111 1*11 1**11} dengan
sekuens ATGCTTACGTAGCATG, maka diperoleh fitur seperti pada Gambar 2.
AAA
0

AAT
0

AAG
0

AAC
0

ATA
0

ATT
0

ATG
2

...

CCC
0

A*AA
0

A*AT
0

A*AG
0

A*AC
0

A*TA
0

A*TT
0

A*TG
0

...

C*CC
0

A**AA
0

A**AT
1

A**AG
0

A**AC
0

A**TA
1

A**TT
0

A**TG
0

...

C**CC
0

Gambar 2 Fitur spaced n-mers

5

F-Fold Cross Validation
F-fold cross validation merupakan metode untuk melakukan pembagian
data menjadi f subset dengan ukuran yang sama antara subset satu dengan subset
lainnya. Perulangan dilakukan sebanyak f kali, dimana salah satu subset dijadikan
data uji dan f-1 subset lainnya dijadikan data latih. Tingkat akurasi dihitung
dengan membagi jumlah keseluruhan klasifikasi yang benar dengan jumlah semua
data uji.
Jumlah fragmen metagenom yang merepresentasikan organisme latih, yang
terdiri dari 10 000 fragmen, akan dibagi menjadi 5 (lima) subset untuk masingmasing panjang fragmen. Pembagian subset untuk setiap panjang fragmen dapat
dilihat pada lampiran.

Klasifikasi
Metode klasifikasi yang digunakan pada penelitian ini yaitu KNN. KNN
banyak diterapkan dalam pengenalan pola dan data mining untuk klasifikasi.
KNN merupakan algoritme supervised dalam klasifikasi dimana hasil dari kueri
instance yang baru diklasifikasikan berdasarkan mayoritas kategori pada k
tetangga terdekat. KNN mengklasifikasi objek baru berdasarkan atribut dan
training samples (Larose 2005).
Konsep dasar dari KNN adalah mencari jarak terdekat antara data yang akan
dievaluasi dengan k tetangga terdekatnya. Nilai dari jarak antara data uji dengan
data latih diurutkan dari nilai terendah. Kelas dari nilai dengan jarak terendah
diperiksa. Kelas yang memiliki nilai vote tertinggi menjadi kelas dari data uji
tersebut.
Jarak antara dua titik dalam ruang fitur dapat didefiniskan dengan banyak
cara, salah satunya menggunakan jarak Euclid. Hasil dari perhitungan jarak
euclides digunakan untuk menentukan kemiripan antara data latih dan data uji.
Kecocokan dilihat dari nilai (jarak) yang paling minimum. Jarak Euclid diperoleh
dengan menggunakan Persamaan 1.
n

dist(p,q) = � � (pi -qi )2

(1)

i=1

dengan : dist(p,q)
pi
qi
n

= jarak sampel
= data sampel ke-i
= data input ke-i
= jumlah sampel

Tahapan algoritme KNN adalah sebagai berikut (Song et al. 2007):
1 Menentukan nilai k, dengan k merupakan jumlah tetangga terdekat.
2 Menghitung jarak data pada setiap data latih dengan menggunakan jarak
Euclid.
3 Mendapatkan k data yang memiliki jarak terdekat.

6

Pengujian
Pengujian dilakukan dengan melakukan klasifikasi pada fragmen uji. Hasil
prediksi tersebut kemudian dibandingkan dengan kelas aktual yang telah diketahui
sebelumnya, apakah fragmen uji benar diklasifikasi atau salah diklasifikasi.

Evaluasi dan Analisis Hasil
Analisis merupakan tahapan yang bertujuan memperoleh informasi yang
terdapat pada hasil klasifikasi. Alat ukur klasifikasi yang digunakan yaitu
confusion matrix. Confusion matrix adalah sebuah matriks yang menunjukkan
nilai aktual dan nilai prediksi dari klasifikasi (Kohavi dan Provost 1998). Hasil
penelitian diukur dengan menghitung tingkat akurasi dari fragmen metagenom
yang diuji dan diamati. Akurasi dihitung dengan Persamaan 2. Melalui confusion
matrix selain dapat diketahui tingkat akurasi juga dapat diketahui nilai sensitivitas
dan spesifisitas. Sensitivitas dan spesifisitas masing-masing akan dihitung dengan
Persamaan 3 dan Persamaan 4.
Akurasi menghitung proporsi dari data uji yang diklasifikasikan dengan
benar dari keseluruhan data uji. Sensitivitas dapat didefinisikan sebagai nilai true
positive (Kohavi dan Provost 1998). Sensitivitas merupakan kemampuan suatu
classifier untuk menunjukkan hasil positif pada genus yang sedang diamati,
sedangkan spesifisitas merupakan kemampuan suatu classifier untuk
menunjukkan hasil yang negatif pada genus yang sedang diamati. Sensitivitas
memberi informasi seberapa baik sebuah classifier untuk mengidentifikasi hasil
prediksi positif jika diberikan sampel aktual positif. Sensitivitas tidak memberi
informasi tentang sampel aktual negatif namun diprediksi sebagai positif
(Akobeng 2007). Spesifisitas merupakan nilai true negative (Kohavi dan Provost
1998). Spesifisitas hanya memberi informasi proporsi dari hasil prediksi negatif
jika diberikan sampel aktual negatif. Spesifisitas tidak memberi informasi tentang
sampel aktual positif namun diprediksi negatif (Akobeng 2007).
Dengan menggunakan Tabel 1 dapat diketahui nilai akurasi, sensitivitas, dan
spesifisitas dari suatu hasil klasifikasi. Untuk mendapatkan nilai sensitivitas dapat
dihitung dengan menggunakan Persamaan 2, dengan true positive (TP) berarti
banyaknya data dari kelas aktual yang benar dan berhasil diprediksi oleh classifier
dengan benar. false negative (FN) terjadi jika data yang secara aktual benar
diprediksi menjadi kelas yang salah. Spesifisitas dihitung dengan menggunakan
Persamaan 3, dengan true negative (TN) didefinisikan banyaknya data dari kelas
aktual yang salah dan berhasil diprediksi sebagai kelas yang salah. False positive
(FP) adalah ketika data yang secara aktual salah namun diprediksi sebagai kelas
yang benar.
Tabel 1 Confusion matrix
Kelas
Kelas prediksi
aktual
A
¬A
A
TP
FN

7

¬A

FP

TN

Tes yang ideal ialah selalu positif apabila kelas aktualnya positif
(sensitivitas 100%) dan selalu negatif apabila kelas aktualnya negatif (spesifisitas
100%). Sensitivitas mengukur efektivitas suatu classifier untuk mengidentifikasi
label positif. Spesifisitas mengukur efektivitas suatu classifier untuk
mengidentifikasi label negatif.
Akurasi =

TP + TN
× 100%
TP + TN + FP + FN

(2)

Sensitivitas =

TP
× 100%
TP + FN

(3)

Spesifisitas =

TN
× 100%
TN + FP

(4)

Lingkungan Implementasi
Lingkungan implementasi penelitian ini menggunakan perangkat keras dan
perangkat lunak sebagai berikut:
1 Perangkat keras berupa notebook:
• Intel Core i3 CPU M370 @ 2.40 GHz
• Memori 2 GB
• Harddisk kapasitas 500 GB
• Monitor dengan resolusi 1366 × 768 piksel
2 Perangkat lunak:
• Sistem operasi Microsoft Windows 7 Professional
• Simulator metagenom MetaSim versi 0.9.1
• Bloodshed Dev-C++
• Matlab 7.7 (R2008b)

HASIL DAN PEMBAHASAN
Penyiapan Data
Pada penelitian ini digunakan fragmen metagenom dari 3 genus yaitu
Agrobacterium, Bacillus, dan Staphylococcus. Fragmen metagenom tersebut
terbagi menjadi dua yaitu fragmen metagenom organisme latih dan fragmen
metagenom organisme uji. Total jumlah fragmen untuk pelatihan dan pengujian
masing-masing adalah 10 000 dan 5000. Fragmen metagenom yang digunakan
dapat dilihat pada Lampiran 1 dan Lampiran 2. Data dibangkitkan menggunakan
MetaSim dan berformat FASTA. Contoh data dengan format FASTA dapat dilihat
pada Gambar 3. Data dengan format FASTA ini kemudian akan diekstraksi dan

8
dihitung frekuensi kemunculan fiturnya menggunakan spaced n-mers. Fitur
spaced n-mers dengan n = 3 akan menghasilkan fitur sebanyak 192. Sehingga
akan dihasilkan matriks dataset organisme latih berukuran 10 000 × 192 dan
dataset organisme uji berukuran 5000 × 192.
Penelitian ini terdiri dari 8 percobaan dengan menggunakan fragmen dengan
panjang dan nilai k bervariasi 3, 5, dan 7. Percobaan 1 sampai Percobaan 4
dilakukan dengan menggunakan dataset organisme latih sedangkan Percobaan 5
hingga Percobaan 8 menggunakan dataset organisme uji. Percobaan 1 dan 5
menggunakan panjang fragmen 500 bp. Percobaan 2 dan 6 menggunakan dataset
dengan panjang fragmen 1 kbp. Percobaan 3 dan 7 akan menggunakan fragmen
dengan panjang 5 kbp sedangakan Percobaan 4 dan 8 dengan panjang fragmen 10
kbp. Daftar fragmen metagenom yang digunakan dapat dilihat pada Lampiran 5
dan 6.
>gi|38232642|ref|NC_002935.2|
Corynebacterium diphtheriae NCTC
13129 chromosome, complete genome
GTGTCGGAAACGCCATCCGTGTGGAACGAGACG
TGGAATGAGATCACCAATGAACTCATTCAGCTA
TCTCGCGAACCCGAAAGCGAGATTCCACGAATC
ACTGCTGAACAACGCGCTTATCTCAAACTCGTC
CGACCTGCGGCTTTTGTCGAAGGCATCGCCGTT
TTACGGGTACCGCACTCCCGCGCCAAGGAGACG
ATTGAAACCCATTTGGGGCAAGCGATAACCTCC
GTGCTCTCCCGTCGTATGGGACGCCCCTTTACT
GTGGCAGTCACCGTCGACCCCACGTTGGACGTC

Gambar 3 Data berformat FASTA

Klasifikasi
Sebuah himpunan fragmen metagenom latih dengan klasifikasi label yang
akurat harus diketahui pada awal algoritme. Kemudian untuk fragmen metagenom
yang belum diketahui labelnya dihitung jaraknya. Setelah hasil perhitungan jarak
diurutkan, keputusan label kelas dapat dibuat sesuai dengan label k terdekat dalam
himpunan fragmen metagenom latih.
Fragmen metagenom latih maupun fragmen metagenom uji diproses dengan
spaced n-mers frequency terlebih dahulu. Kemudian proses klasifikasi data
dilakukan dengan menggunakan metode KNN dengan jarak Euclid sebagai
metode pengukuran jarak kemiripan. Sebelum proses klasifikasi dilakukan, nilai k,
yaitu jumlah tetangga terdekat yang akan dilihat kelasnya untuk menentukan kelas
terbanyak yang merupakan kelas dari titik baru, harus ditentukan terlebih dahulu.
Pembagian data akan dibagi menjadi kelompok data menggunakan 5-fold
cross validation. Setiap fold akan diujicobakan dengan kombinasi panjang
fragmen 500 bp, 1 kbp, 5 kbp, dan 10 kbp serta nilai untuk KNN dengan k = 3, 5,
dan 7 yang akan diuraikan pada percobaan 1, 2, 3, dan 4. Sehingga untuk setiap
data latih akan terbentuk matriks berukuran 2000 × 192 dan data uji berukuran
8000 × 192. Jumlah kelas dalam klasifikasi adalah 3 sesuai dengan jumlah genus.
Setelah semua dataset organisme latih diklasifikasi kemudian dataset tersebut
akan digunakan untuk proses pengujian dataset organisme uji.

9

Percobaan 1: Dataset Organisme Latih dengan Panjang Fragmen 500 bp
Pada percobaan 1 ini dataset yang digunakan adalah dataset organisme latih
dengan panjang fragmen 500 bp. Hasil akurasi yang didapatkan pada percobaan
ini dilihat pada Tabel 2 untuk panjang fragmen 500 bp.
Hasil dari percobaan 1 pada pengujian dataset organisme latih dengan
panjang fragmen 500 bp diperoleh fold dengan nilai akurasi tertinggi untuk
masing-masing nilai k tetangga terdekat. Untuk panjang fragmen 500 bp
didapatkan fold 5 dengan nilai akurasi tertinggi pada semua nilai k. Pada nilai k =
3 diperoleh akurasi 87.15%, k = 5 sebesar 89.20%, dan k = 7 sebesar 89.95%.
Nilai fold ini akan digunakan sebagai data latih untuk pengujian dataset organisme
uji. Rata-rata akurasi maksimum sebesar 86.19% pada k = 7.
Tabel 2 Hasil akurasi pengujian dataset
organisme latih dengan panjang
fragmen 500 bp
Akurasi (%)
Fold
k=3
k=5
k=7
1
78.80
77.85
77.45
2
86.25
88.00
87.65
3
85.95
86.15
87.50
4
85.45
86.85
88.40
5
87.15
89.20
89.95
Rata-rata
84.72
85.61
86.19

Pada fold 1 dan 2 terjadi penurunan akurasi pada k = 7 menjadi 77.45% dan
87.65%. Pada fold 1 terjadi bias yang menyebabkan banyak fragmen yang berasal
dari genus Bacillus diprediksi sebagai genus Agrobacterium. Pada fold 2 terjadi
bias yang menyebabkan banyak fragmen yang berasal dari genus Bacillus
diprediksi sebagai genus Staphylococcus dan sebaliknya dari genus
Staphylococcus diprediksi sebagai genus Bacillus. Untuk mengetahui record yang
salah diklasifikasi dapat dilihat pada confusion matrix yang dilampirkan pada
Lampiran 7.

Percobaan 2: Dataset Organisme Latih dengan Panjang Fragmen 1 kbp
Percobaan 2 ini menggunakan dataset organisme latih dengan panjang
fragmen 1 kbp. Untuk panjang fragmen 1 kbp didapatkan fold 5 dengan nilai
akurasi tertinggi pada semua nilai k. Pada nilai k = 3 diperoleh akurasi 94.50%,
pada k = 5 sebesar 95.80%, dan k = 7 sebesar 96.75%. Rata-rata akurasi
maksimum dari diperoleh sebesar 93.53% pada k = 7. Hasil akurasi yang
didapatkan pada percobaan ini dilihat pada Tabel 3 untuk panjang fragmen 1 kbp.
Pada fold 1 terjadi penurunan akurasi pada k = 7 dari 92.25% menjadi
91.25%. Fold 1 terjadi bias yang menyebabkan banyak fragmen yang berasal dari
genus Bacillus diprediksi sebagai genus Agrobacterium. Untuk mengetahui
record yang salah diklasifikasi dapat dilihat pada confusion matrix yang
dilampirkan pada Lampiran 9.

10
Tabel 3 Hasil akurasi pengujian dataset
organisme latih dengan panjang
fragmen 1 kbp
Akurasi (%)
Fold
k=3
k=5
k=7
1
92.20
92.25
91.25
2
91.25
92.15
92.80
3
92.75
92.90
93.65
4
92.10
92.80
93.20
5
94.50
95.80
96.75
Rata-rata
92.56
93.18
93.53

Percobaan 3: Dataset Organisme Latih dengan Panjang Fragmen 5 kbp
Tabel 4 Hasil akurasi pengujian dataset
organisme latih dengan panjang
fragmen 5 kbp
Akurasi (%)
Fold
k=3
k=5
k=7
1
99.20
99.25
98.75
2
98.40
98.35
98.50
3
98.75
98.70
98.75
4
98.75
98.70
98.55
5
99.10
99.15
99.05
Rata-rata
98.84
98.83
98.72

Hasil dari percobaan 3 pada pengujian dataset organisme latih dengan
panjang fragmen 5 kbp didapatkan 2 nilai fold dengan akurasi tertinggi. Pada nilai
k = 3 dan k = 5 dipilih dari fold 1. Sedangkan pada nilai k = 7 dipilih dari fold 5.
Dengan fold 1 diperoleh nilai akurasi dari k = 3 sebesar 99.20% dan k = 5 sebesar
99.25%. Sedangkan k = 7 diperoleh nilai akurasi sebesar 99.05% dari fold 5. Ratarata akurasi maksimum sebesar 98.84% pada k = 3.
Pada fold 1 terjadi penurunan akurasi pada k = 7 menjadi 98.75. Hal ini
terjadi karena banyak fragmen yang berasal dari genus Bacillus diprediksi sebagai
genus Agrobacterium dan genus Bacillus diprediksi sebagai genus Staphylococcus
dan sebaliknya. Pada fold 2 terjadi penurunan namun tidak terlalu signifikan dari
98.40% menjadi 98.35%. Ini terjadi karena ada penambahan satu fragmen yang
awalnya berasal dari genus Staphylococcus namun diprediksi sebagai genus
Bacillus. Untuk mengetahui record yang salah diklasifikasi dapat dilihat pada
confusion matrix yang dilampirkan pada Lampiran 11.

11

Percobaan 4: Dataset Organisme Latih dengan Panjang Fragmen 10 kbp
Pada percobaan 4 ini dataset yang digunakan adalah dataset organisme latih
dengan panjang fragmen 10 kbp. Hasil akurasi yang didapatkan pada percobaan
ini dilihat pada Tabel 5 untuk panjang fragmen 10 kbp. Dari percobaan 4
didapatkan 2 nilai fold dengan akurasi tertinggi. Pada nilai k = 3 dan k = 5 dipilih
dari fold 3. Sedangkan pada nilai k = 7 dipilih dari fold 5. Dengan fold 3 diperoleh
nilai akurasi dari k = 3 sebesar 99.75% dan k = 5 sebesar 99.65%. Sedangkan k =
7 diperoleh nilai akurasi sebesar 99.55% dari fold 5. Rata-rata akurasi maksimum
sebesar 99.59% pada k = 3.
Pada fold 1 terjadi penurunan akurasi pada k = 5 dari 99.55% menjadi
99.40%. Fold 1 terjadi bias yang menyebabkan banyak fragmen yang berasal dari
genus Staphylococcus diprediksi sebagai genus Bacillus. Fold 2 dan fold 3 juga
mengalami penurunan akurasi pada k = 5 dan k = 7. Pada fold 2 dan fold 3 terjadi
bias yang menyebabkan fragmen dari genus Bacillus diprediksi menjadi genus
Staphylococcus dan sebaliknya dari genus Staphylococcus menjadi genus
Bacillus.
Tabel 5 Hasil akurasi pengujian dataset
organisme latih dengan panjang
fragmen 10 kbp
Akurasi (%)
Fold
k=3
k=5
k=7
1
99.55
99.40
99.40
2
99.75
99.55
99.50
3
99.75
99.65
99.50
4
99.50
99.35
99.40
5
99.40
99.50
99.55
Rata-rata
99.59
99.49
99.47

Untuk mengetahui record yang salah diklasifikasi dapat dilihat pada
confusion matrix yang dilampirkan pada Lampiran 13. Fold dengan akurasi
tertinggi dari setiap panjang fragmen akan digunakan sebagai data latih untuk
pengujian dataset organisme uji. Hasil akurasi tertinggi dari setiap percobaan
dengan bermacam panjang fragmen yang akan digunakan sebagai dataset
organisme latih dapat dilihat pada Tabel 6.
Dari pengujian dataset organisme latih terlihat bahwa semakin panjang
fragmen yang diklasifikasi, nilai akurasi, sensitiviy, dan spesifisitas semakin
meningkat. Namun hal ini tidak berlaku jika diterapkan nilai k yang beragam.
Terdapat penurunan tingkat akurasi, sensitivitas dan spesifisitas pada percobaan 4
menggunakan data organisme latih dengan panjang fragmen 10 kbp dengan nilai k
= 5 dan k = 7. Sebelumnya akurasi bernilai 99.75% pada nilai k = 3, kemudian
menurun pada nilai k = 5 menjadi 99.65% dan kembali turun pada k = 7 hingga
99.55%. Begitu juga dengan nilai sensitivitas dan spesifisitas. Hal ini disebabkan
karena pada proses pengujian dengan menggunakan klasifikasi KNN, akurasi
sangat dipengaruhi oleh jumlah k tetangga terdekat. Pada proses pengujian dataset
organisme latih banyak terdapat fragmen yang salah prediksi dan diidentifikasi ke
kelas yang tidak sesuai. Sensitivitas dan spesifisitas tidak mampu memberikan
informasi mengenai fragmen yang salah prediksi.
Tabel 6 Hasil akurasi fold tertinggi pada
pengujian dataset organisme latih
Panjang
Akurasi (%)
fragmen
k=3
k=5
k=7
500 bp
87.15
89.20
89.95
1 kbp
94.50
95.80
96.75
5 kbp
99.20
99.25
99.05
10 kbp
99.75
99.65
99.55

12

Sensitivitas dan spesifisitas organisme latih dihitung dari fold pengujian
dataset organisme latih yang memperoleh nilai akurasi terbaik. Pada percobaan 1
dengan panjang fragmen 500 bp dan percobaan 2 dengan panjang fragmen 1 kbp
dipilih fold 5. Pada percobaan 3 dengan panjang fragmen 5 kbp ambil dari 2 fold
yaitu fold 1 untuk k = 1 dan k = 3 dan fold 5 untuk k = 7. Percobaan 4 dengan
panjang fragmen 10 kbp juga dipilih dari 2 fold yaitu fold 3 untuk k = 1 dan k = 3
dan fold 5 untuk k = 7. Hasil sensitivitas dan spesifisitas dari pengujian dataset
organisme latih bisa dilihat pada Tabel 7 dan Tabel 8.
Tabel 7 Hasil sensitivitas organisme latih
Panjang
Sensitivitas (%)
fragmen
k=3
k=5
k=7
500 bp
85.68
87.56
88.22
1 kbp
93.86
95.26
96.23
5 kbp
99.07
98.22
98.90
10 kbp
99.71
99.60
99.55

Tabel 8 Hasil spesifisitas organisme latih
Panjang
Spesifisitas (%)
fragmen
k=3
k=5
k=7
500 bp
92.55
93.59
93.97
1 kbp
96.82
97.56
98.06
5 kbp
99.53
98.93
99.43
10 kbp
99.85
99.80
99.76

Penurunan sensitivitas dan spesifisitas terjadi pada percobaan 3 dengan
panjang fragmen 5 kbp dengan k = 5 namun kembali mengalami peningkatan pada
k = 7. Penurunan ini disebabkan karena ada salah prediksi fragmen dari genus
Bacillus sebagai genus Agrobacterium. Selain itu juga banyak terdapat fragmen
dari genus Bacillus yang diprediksi sebagai genus Staphylococcus dan sebaliknya
dari genus Staphylococcus diprediksi sebagai genus Bacillus. Peningkatan
kembali terjadi pada k = 7 karena tidak lagi ada fragmen dari genus Bacillus yang
diprediksi sebagai genus Agrobacterium.
Penurunan sensitivitas dan spesifisitas juga terjadi pada panjang fragmen 10

13

kbp dengan nilai k = 5 dan k = 7. Hal ini disebabkan karena masih terdapat
kesalahan prediksi fragmen yang berasal dari genus Bacillus menjadi genus
Staphylococcus. Pada k = 7 terdapat satu kesalahan prediksi genus Agrobacterium
menjadi genus Bacillus.
Namun demikian nilai sensitivitas dan spesifisitas terbaik diperoleh dari
percobaan 4 dengan panjang fragmen 10 kbp dengan nilai k = 3. Nilai sensitivitas
dan spesifisitas yang diperoleh berturut-turut yaitu 99.71% dan 99.85%. Hasil
akurasi tertinggi dari percobaan 4 dengan menggunakan nilai k = 3 sebesar
99.75%. Perbandingan tingkat akurasi, sensitivitas, dan spesifisitas dari dataset
organisme latih ditunjukkan pada Tabel 9.
Tabel 9 Perbandingan akurasi, sensitivitas, dan spesifisitas organisme latih
Tingkat (%)
k=3

Kriteria

k=5

k=7

500 bp

1 kbp

5 kbp

10 kbp

500 bp

1 kbp

5 kbp

10 kbp

500 bp

1 kbp

5 kbp

10 kbp

Akurasi

87.15

94.50

99.20

99.75

89.20

95.80

99.25

99.65

89.95

96.75

99.05

99.55

Sensitivitas

85.68

93.86

99.07

99.71

87.56

95.26

98.22

99.60

88.22

96.23

98.90

99.55

Spesifisitas

92.55

96.82

99.53

99.85

93.59

97.56

98.93

99.80

93.97

98.06

99.43

99.76

Percobaan 5: Dataset Organisme Uji dengan Panjang Fragmen 500 bp
Percobaan 5 dilakukan dengan menguji dataset organisme uji pada panjang
fragmen 500 bp. Nilai k atau jumlah tetangga terdekat yang digunakan yaitu 3, 5,
dan 7. Dari pengujian dataset organisme latih diperoleh fold dengan akurasi nilai
tertinggi. Fold dengan akurasi nilai tertinggi tersebut kemudian digunakan sebagai
data latih dalam pengujian dataset organisme uji. Sehingga, diperoleh data latih
sebanyak 8000 data dan data uji sebanyak 5000 data.
Hasil akurasi organisme uji mengalami peningkatan dengan bertambahnya
nilai k tetangga terdekat. Pada k = 3 diperoleh akurasi 85.64%. Untuk nilai k = 5
dan k = 7 masing-masing diperoleh akurasi sebesar 86.18% dan 86.52%. Hal
serupa juga terjadi pada hasil sensitivitas dan spesifisitas yang mengalami
peningkatan dengan bertambahnya nilai k tetangga terdekat. Sensitivitas dan
spesifisitas pada k = 3 sebesar 84.28 dan 91.61%. Sensitivitas pada k = 5 dan k = 7
masing-masing sebesar 84.65% dan 84.89%. Sedangkan spesifisitas pada k = 5
dan k = 7 masng-masing sebesar 91.85% dan 92%.
Tabel 10 Confusion matrix dataset organisme uji dengan panjang fragmen 500 bp
Kelas prediksi
Kelas aktual
k=3
k=5
k=7
Agr Bac Sta
Agr Bac Sta
Agr Bac
Sta
Agrobacterium 1257
27
0
1260
24
0
1262
22
0
Bacillus
38 2178 168
34 2206 144
27 2223
134
Staphylococcus
1 484 847
0 489 843
0 491
841

Peningkatan sensitivitas dan spesifisitas terjadi karena tidak ada fragmen
dari genus Staphylococcus yang salah diprediksi menjadi genus Agrobacterium.
Selain itu juga terjadi penurunan jumlah fragmen yang salah prediksi dari genus

14
Agrobacterium menjadi genus Bacillus dan sebaliknya, serta salah prediksi untuk
fragmen Bacillus menjadi Staphylococcus. Untuk mengetahui fragmen yang salah
diklasifikasi dapat dilihat pada confusion matrix pada Tabel 10.
Percobaan 6: Dataset Organisme Uji dengan Panjang Fragmen 1 kbp
Percobaan 6 dilakukan dengan menguji dataset organisme uji pada panjang
fragmen 1 kbp. Hasil akurasi organisme uji ini juga mengalami peningkatan
dengan bertambahnya nilai k tetangga terdekat. Pada k = 3 diperoleh akurasi
91.34%. Untuk nilai k = 5 dan k = 7 masing-masing diperoleh akurasi sebesar
91.92% dan 92.04%. Peningkatan juga terjadi pada hasil sensitivitas dan
spesifisitas dengan bertambahnya nilai k tetangga terdekat. Sensitivitas dan
spesifisitas pada k = 3 sebesar 90.69% dan 95.04%. Sensitivitas pada k = 5 dan k =
7 masing-masing sebesar 91.30% dan 91.32%. Sedangkan spesifisitas pada k = 5
dan k = 7 masng-masing sebesar 95.37% dan 95.40%.
Fragmen dari genus Staphylococcus tidak ada yang salah diprediksi menjadi
genus Agrobacterium. Namun, ada genus Agrobacterium yang diprediksi menjadi
genus Staphylococcus. Peningkatan sensitivitas dan spesifisitas terjadi karena
terdapat penurunan jumlah fragmen yang salah prediksi dari genus Bacillus
menjadi genus Agrobacterium. Serta penurunan salah prediksi untuk fragmen
Bacillus menjadi Staphylococcus. Hasil akurasi, sensitivitas, dan spesifisitas yang
didapatkan pada percobaan ini masing-masing dapat dilihat pada Tabel 14 dan
Tabel 15. Untuk mengetahui fragmen yang salah diklasifikasi dapat dilihat pada
confusion matrix pada Tabel 11.
Tabel 11 Confusion matrix datset organisme uji dengan panjang fragmen 1 kbp
Kelas prediksi
Kelas aktual
k=3
k=5
k=7
Agr Bac
Sta
Agr Bac
Sta
Agr Bac
Sta
Agrobacterium 1317
10
1
1314
13
1
1315
12
1
Bacillus
8 2157
99
7 2165
92
3 2179
82
Staphylococcus
0 315 1093
0 291 1117
0 300 1108

Percobaan 7: Dataset Organisme Uji dengan Panjang Fragmen 5 kbp
Percobaan 7 menguji dataset organisme uji pada panjang fragmen 5 kbp.
Hasil akurasi organisme uji mengalami penurunan dengan bertambahnya nilai k
tetangga terdekat. Pada k = 3 diperoleh akurasi 96.78%. Untuk nilai k = 5 dan k =
7 masing-masing diperoleh akurasi sebesar 96.60% dan 96.42%. Hal serupa juga
terjadi pada hasil sensitivitas dan spesifisitas yang mengalami penurunan. Pada k
= 3 diperoleh sensitivitas 96.40%. Pada k = 5 dan k = 7 terjadi penurunan menjadi
96.17% dan 95.92%. Pada k = 3 diperoleh spesifisitas sebesar 98.08%. Pada k = 5
dan k = 7 terjadi penurunan menjadi 97.96% dan 97.84%.
Fragmen dari genus Staphylococcus tidak ada yang salah diprediksi menjadi
genus Agrobacterium begitu juga sebaliknya. Pada k = 5 dan k = 7 terjadi
peningkatan fragmen yang salah prediksi dari genus Agrobacterium menjadi
Bacillus dan Staphylococcus menjadi Bacillus. Hasil akurasi, sensitivitas, dan

15

spesifisitas yang didapatkan pada percobaan ini masing-masing dapat dilihat pada
Tabel 14 dan Tabel 15. Hasil prediksi mengalami peningkatan ketika melakukan
klasifikasi pada genus Bacillus. Untuk mengetahui fragmen yang salah
diklasifikasi dapat dilihat pada confusion matrix pada Tabel 12.
Tabel 12 Confusion matrix dataset organisme uji dengan panjang fragmen 5 kbp
Kelas prediksi
Kelas aktual
k=3
k=5
k=7
Agr Bac
Sta Agr Bac
Sta Agr Bac
Sta
Agrobacterium 1285
0
0 1283
2
0 1279
6
0
Bacillus
5 2281
17
5 2282
16
0 2286
17
Staphylococcus
0 139 1273
0 147 1265
0 156 1256

Percobaan 8: Dataset Organisme Uji dengan Panjang Fragmen 10 kbp
Pada percobaan 8 digunakan dataset organisme uji dengan panjang fragmen
10 kbp. Hasil akurasi organisme uji juga mengalami penurunan dengan
bertambahnya nilai k tetangga terdekat. Pada k = 3 diperoleh akurasi 98.28%.
Untuk nilai k = 5 dan k = 7 masing-masing diperoleh akurasi sebesar 98.02% dan
97.58%. Penurunan juga terjadi pada hasil sensitivitas dan spesifisitas dengan
bertambahnya nilai k tetangga terdekat. Sensitivitas dan spesifisitas pada k = 3
sebesar 98.06% dan 98.95%. Sensitivitas pada k = 5 dan k = 7 masing-masing
sebesar 97.77% dan 97.27%. Sedangkan spesifisitas pada k = 5 dan k = 7 masingmasing sebesar 98.80% dan 98.53%.
Tabel 13 Confusion matrix dataset organisme uji dengan panjang fragmen 10 kbp
Kelas prediksi
Kelas aktual
k=3
k=5
k=7
Agr
Bac
Sta
Agr
Bac
Sta
Agr
Bac
Sta
Agrobacterium 1258
0
0 1258
0
0 1258
0
0
Bacillus
0 2288
4
0 2286
6
0 2286
6
Staphylococcus
0
82 1368
0
93 1357
0
115 1335

Fragmen dari genus Agrobacterium tidak ada yang salah diprediksi menjadi
genus Bacillus maupun Staphylococcus begitu juga sebaliknya. Fragmen dari
genus Bacillus dan Staphylococcus tidak ada yang salah prediksi menjadi genus
Agrobacterium. Pada k = 5 dan k = 7 terjadi peningkatan fragmen yang salah
prediksi dari genus Bacillus menjadi Staphylococcus dan sebaliknya dari
Staphylococcus menjadi Bacillus. Hasil akurasi, sensitivitas, dan spesifisitas yang
didapatkan pada percobaan ini masing-masing dapat dilihat pada Tabel 14 dan
Tabel 15. Untuk mengetahui fragmen yang salah diklasifikasi dapat dilihat pada
confusion matrix pada Tabel 13.
Pada pengujian dataset organisme uji diperoleh nilai akurasi yang semakin
meningkat berdasarkan jumlah fragmen yang diuji. Hal yang serupa juga
ditunjukkan oleh sensitivity dan specificity. Hasil akurasi terbaik diperoleh dari

16
Percobaan 1 dengan nilai k = 3 mencapai 98.28%. Sensitivitas dan spesifisitas
dengan nilai terbaik juga didapat dari percobaan yang sama. Nilai sensitivitas dan
spesifisitas yang diperoleh berturut-turut yaitu 98.06% dan 98.95% sebagaimana
dilihat dari Tabel 16.
Tabel 14 Hasil akurasi pada pengujian
dataset organisme uji
Panjang
Akurasi (%)
fragmen
k=3
k=5
k=7
500 bp
85.64
86.18
86.52
1 kbp
91.34
91.92
92.04
5 kbp
96.78
96.60
96.42
10 kbp
98.28
98.02
97.58

Tabel 15 Hasil sensitivitas dan spesifisitas organisme uji
Panjang
Sensitivitas (%)
Spesifisitas (%)
fragmen
k=3 k=5
k=7
k=3 k=5 k=7
500 bp
84.28 84.65 84.89
91.61 91.85 92.00
1 kbp
90.69 91.30 91.32
95.04 95.37 95.40
5 kbp
96.40 96.17 95.92
98.08 97.96 97.84
10 kbp
98.06 97.77 97.27
98.95 98.80 98.53

Tabel 16 Perbandingan akurasi, sensitivitas, dan spesifisitas organisme uji
Tingkat (%)
k=3

Kriteria

k=5

k=7

500 bp

1 kbp

5 kb

10 kbp

500 bp

1 kbp

5 kbp

10 kbp

500 bp

1 kbp

5 kbp

10 kbp

Akurasi

85.64

91.34

96.78

98.28

86.18

91.92

96.60

98.02

86.52

92.04

96.42

97.58

Sensitivitas

84.28

90.69

96.40

98.06

84.65

91.30

96.17

97.77

84.89

91.32

95.92

97.27

Spesifisitas

91.61

95.04

98.08

98.95

91.85

95.37

97.96

98.80

92.00

95.40

97.84

98.53

Perbandingan Akurasi, Sensitivitas, dan Spesifisitas antara Dataset
Organisme Latih dengan Organisme Uji
Perbandingan akurasi, sensitivitas, dan spesifisitas dari dataset organisme
latih dan organisme uji ditunjukkan pada Tabel 17. Dari tabel tersebut tampak
bahwa hasil akurasi, sensitivitas, dan spesifisitas antara organisme latih lebih
tinggi daripada organisme uji. Ini mungkin disebabkan karena ada tumpang tindih
urutan antara fragmen yang berbeda dalam spesies atau antar spesies dalam genus
yang sama. Sehingga menyebabkan salah klasifikasi dengan menetapkan fragmen
ke genus yang berbeda.

Tabel 17 Perbandingan akurasi, sensitivitas, dan spesifisitas
organisme latih dan uji
Nilai
Panjang
Akurasi
Sensitivitas
Spesifisitas
k
fragmen
Latih
Uji
Latih
Uji
Latih
Uji
k = 3 500 bp
87.15 85.64 85.68
84.28 92.55
91.61
1 kbp
94.50 91.34 93.86
90.69 96.82
95.04
5 kbp
99.20 96.78 99.07
96.40 99.53
98.08

17

Pengujian Dataset Organisme Latih dan Organisme Uji Berdasarkan Genus
Tabel 18 dan Tabel 19 menunjukkan nilai sensitivitas dari setiap genus
dengan panjang fragmen berbeda masing-masing dari organisme latih dan
organisme uji. Sensitivitas dari penelitian ini sangat tinggi ketika menggunakan
spesies dari genus Agrobacterium, bahkan ketika hanya menggunakan fragmen
dengan panjang 500 bp. Kinerja algoritme meningkat dengan meningkatnya
panjang fragmen. Untuk organisme latih, sensitivitas dengan panjang fragmen 500
bp rata-rata mencapai 96.05%. Kecenderungan ini juga diperlihatkan oleh dataset
yang mewakili organisme uji yang mencapai rata-rata sensitivitas 98.10%. Ini
berarti pengujian yang dilakukan berhasil mengenali fragmen dari spesies yang
berasal dari genus Agrobacterium sekitar 96% dengan benar.
Namun, sensitivitas dari penelitian ini hanya mencapai rata-rata 74% untuk
organisme latih dan 63.34% untuk organisme uji ketika mengklasifikasi fragmen
spesies yang termasuk dalam genus Staphylococcus dengan panjang fragmen 500
bp. Penyebab hal tersebut mungkin karena terdapat banyak fragmen dari genus
Staphylococcus yang diprediksi ke dalam Bacillus. Hal ini dimungkinkan karena
Staphylococcus dan Bacillus berasal dari satu ordo yang sama yaitu Bacilalles.
Kesalahan klasifikasi fragmen mungkin terjadi karena terdapat overlap sekuens
antara strain yang berbeda dalam spesies di ordo yang sama. Sehingga perlu
dipertimbangkan untuk memperluas penelitian ini untuk mengklasifikasikan
fragmen ke tingkat taksonomi yang lebih tinggi.
Tabel 18 Hasil sensitivitas organisme latih
Panjang
fragmen
500 bp
1 kbp
5 kbp

Agrobacterium (%)

Bacillus (%)

Staphylococcus (%)

k=3
k=5 k=7 k=3 k=5 k=7 k=3 k=5 k=7
96.12 96.12 95.92 89.27 91.95 93.01 71.66 74.60 75.74
97.53 97.53 97.91 95.75 96.94 97.92 88.29 91.32 92.84
100.00 100.00 99.06 99.41 96.64 99.41 97.81 98.02 98.24

18

Tabel 19 Hasil sensitivitas organisme uji
Panjang
fragmen
500 bp
1 kbp
5 kbp
10 kbp

Agrobacterium (%)
k=3
k=5
k=7
97.90
98.13 98.29
99.17
98.95 99.02
100.00 99.84 99.53
100.00 100.00 100.00

Bacillus (%)
k=3 k=5 k=7
91.36 92.53 93.25
95.27 95.63 96.25
99.04 99.09 99.26
99.83 99.74 99.74

Staphylococcus (%)
k=3 k=5 k=7
63.59 63.29 63.14
77.63 79.33 78.69
90.16 89.59 88.95
94.34 93.59 92.07

Tabel 20 dan Tabel 21 menunjukkan nilai spesifisitas dari setiap genus
dengan panjang fragmen berbeda masing-masing dari organisme latih dan
organisme uji. Hasil spesifisitas dari penelitian ini juga sangat tinggi ketika
menggunakan spesies dari genus Agrobacterium, walaupun hanya memakai
fragmen dengan panjang 500 bp. Kinerja algoritme meningkat dengan
meningkatnya panjang fragmen. Untuk organisme latih, spesifisitas dengan
panjang fragmen 500 bp rata-rata mencapai 99.26%. Kecenderungan ini juga
diperlihatkan oleh dataset yang mewakili organisme uji yang mencapai rata-rata
akurasi 99.10%.
Spesifisitas yang didapat dari genus Bacillus dengan panjang fragmen 500
bp hanya mencapai rata-rata 85.91% untuk organisme latih dan 80.42% untuk
organisme uji. Hal tersebut mungkin disebabkan karena terdapat banyak fragmen
dari genus Bacillus yang diprediksi ke dalam Staphylococcus. Hal ini
dimungkinkan karena Bacillus dan Staphylococcus berasal dari satu ordo yang
sama yaitu Bacilalles.
Tabel 20 Hasil spesifisitas organisme latih
Panjang
fragmen
500 bp
1 kbp
5 kbp
10 kbp

Agrobacterium (%)
k=3
k=5
k=7
99.06 99.33 99.39
99.93 99.93 100.00
99.66 98.66 100.00
100.00 100.00 100.00

Bacillus (%)
k=3 k=5 k=7
84.94 86.19 86.61
93.32 94.84 95.55
98.99 99.09 98.68
99.69 99.59 99.59

Staphylococcus (%)
k=3 k=5 k=7
93.65 95.25 95.89
97.21 97.92 98.64
99.94 99.05 99.61
99.87 99.81 99.68

Tabel 21 Hasil spesifisitas organisme uji
Panjang
fragmen
500 bp
1 kbp
5 kbp

Agrobacterium (%)
Bacillus (%)
k=3
k=5
k=7 k=3 k=5 k=7
98.95 99.09 99.27 80.47 80.39 80.39
99.78 99.81 99.92 88.12 88.89 88.60
99.87 99.87 100.00 94.85 94.48 93.99

Staphylococcu