Klasifikasi Fragmen Metagenome Menggunakan KNN dan PNN dengan Ekstraksi Fitur Gray Level Co-occurrence Matrix (GLCM) pada Variasi Panjang Fragmen

KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN
KNN DAN PNN DENGAN EKSTRAKSI FITUR GRAY LEVEL
CO-OCCURRENCE MATRIX (GLCM) PADA VARIASI
PANJANG FRAGMEN

MUHAMMAD DHIRA

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Fragmen
Metagenome Menggunakan KNN dan PNN dengan Ekstraksi Fitur Gray Level
Co-occurrence Matrix (GLCM) pada Variasi Panjang Fragmen adalah benar
karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam
bentuk apa pun kepada perguruan tinggi manapun. Sumber informasi yang berasal
atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain

telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian
akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, September 2014
Muhammad Dhira
NIM G64100068

ABSTRAK
MUHAMMAD DHIRA. Klasifikasi Fragmen Metagenome Menggunakan
KNN dan PNN dengan Ekstraksi Fitur Gray Level Co-occurrence Matrix
(GLCM) pada Variasi Panjang Fragmen. Dibimbing oleh AZIZ KUSTIYO dan
WISNU ANANTA KUSUMA
Bioinformatika adalah kajian ilmu yang berkembang sangat pesat di
Indonesia. Kajian yang menjadi konsentrasi dalam penelitian ini adalah klasifikasi
fragmen metagenom ke dalam beberapa taksonomi menggunakan pendekatan
tekstur Gray Level Co-occurence Matrix (GLCM) yang memiliki 13 fitur. Proses
klasifikasi menggunakan 50 organisme dengan 5-fold cross validation. Kombinasi
sekuens DNA yang terdapat di dalam suatu fragmen dipandang sebagai citra 1xN
dengan N adalah panjang fragmen yang dibentuk dalam matrix dua dimensi.

Matrix yang telah terbentuk akan diformulasikan ke dalam 13 fitur GLCM. Hasil
dari fitur tersebut akan diklasifikasian menggunakan teknik PNN dan KNN. Pada
akhir penelitian dilakukan uji klasifikasi menggunakan 4 variasi panjang fragmen,
yaitu 200 bp, 1 Kbp, 3 Kbp, 10 Kbp, dan didapatkan nilai akurasi setiap panjang
fragmen 100%. Dapat disimpulkan bahwa variasi panjang fragmen tidak
memengaruhi akurasi. Selain itu, dapat disimpulkan bahwa metode ekstraksi fitur
GLCM memiliki prospek yang baik untuk klasifikasi fragmen metagenome.
Kata kunci: Fragmen, GLCM, KNN, PNN

ABSTRACT
MUHAMMAD DHIRA. Metagenome Fragment Binning Using KNN and
PNN With Gray Level Co-Occurrence Matrix (GLCM) on the Variation of the
Length of Fragments. Supervised with AZIZ KUSTIYO and WISNU ANANTA
KUSUMA
Bioinformatics is a field of study which is developing rapidly in Indonesia. The
main focus of this study is to classify metagenome fragment into some
taxonomies using GLCM that has 13 features. The training data used in the
classification process are 50 organisms with 5-fold cross validation. The DNA
combination sequences inside a fragment can be seen as a 1xN image, where N is
the fragment’s length in two-dimension’s matrix. The result from those features

will be classified using PNN and KNN. The research shows that the accuracy
percentage with all lengths variety, including 200 bp, 1 Kbp, 3 Kbp, and 10 Kbp,
are 100%. It can be stated that the variety fragment’s length does not affect the
accuracy. In addition, it can be concluded that GLCM feature extraction method
can be prospectively implemented for classifying metagenome fragment.
Keyword: Fragment, GLCM, KNN, PNN

KLASIFIKASI FRAGMEN METAGENOME MENGGUNAKAN
KNN DAN PNN DENGAN EKSTRAKSI FITUR GRAY LEVEL
CO-OCCURRENCE MATRIX (GLCM) PADA VARIASI
PANJANG FRAGMEN

MUHAMMAD DHIRA

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Ilmu Komputer
pada
Departemen Ilmu Komputer


DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014

Penguji: Toto Haryanto, SKom, MSi

Judul Skripsi : Klasifikasi Fragmen Metagenome Menggunakan KNN dan PNN
dengan Ekstraksi Fitur Gray Level Co-occurrence Matrix (GLCM)
pada Variasi Panjang Fragmen
Nama
: Muhammad Dhira
NIM
: G64100068

Disetujui oleh

Aziz Kustiyo, SSi, MKom
Pembimbing I


Dr Eng Wisnu Ananta Kusuma, ST, MT
Pembimbing II

Diketahui oleh

Dr Ir Agus Buono, MSi, MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Desember 2013 ini ialah
klasifikasi fragmen metagenome, dengan judul Klasifikasi Fragmen Metagenome
Menggunakan KNN dan PNN dengan Ekstraksi Fitur Gray Level Co-occurrence
Matrix (GLCM) pada Variasi Panjang Fragmen. Penulis juga menyampaikan
terima kasih kepada seluruh pihak yang telah berperan dalam penelitian ini, yaitu:
1

Kedua orangtua, kakak, adik, dan keluarga atas doa, motivasi, dan kasih
sayangnya untuk menyelesaikan penelitian ini.
2
Bapak Aziz Kustiyo, SSi, MKom dan Bapak Dr Eng Wisnu Ananta Kusuma
selaku dosen pembimbing yang telah memberi ide, saran, dan bantuan
hingga penelitian ini selesai.
3
Bapak Toto Haryanto, SKom, MSi selaku dosen penguji yang telah memberi
saran dalam penelitian ini.
4
Keluarga besar MAX!! yang membuat saya berkembang secara moral dan
membantu music terus berkembang selama saya kuliah di IPB.
5
Rekan satu bimbingan, yaitu Machmum Aliefiya atas kerjasamanya selama
ini.
6
Kresna Harimurti, Dimas Napitupulu, Disqa dewintami dan rekan-rekan
PIXELS 47 atas segala kebersamaan, bantuan, dan dukungan selama
menjalani masa studi.
Semoga karya ilmiah ini bermanfaat.


Bogor, September 2014
Muhammad Dhira

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi

PENDAHULUAN

1


Latar Belakang

1

Perumusan Masalah

2

Tujuan Penelitian

2

Manfaat Penelitian

2

Ruang Lingkup Penelitian

2


METODE

3

Pengambilan Data

3

Praproses Data

4

Ekstraksi Ciri

4

K-fold cross validation

7


Probabilictic Neural Network (PNN)

7

K-Nearest Neighbor (KNN)

8

Analisis dan Evaluasi

8

HASIL DAN PEMBAHASAN

9

Pengambilan Data

9


Praproses Data

9

Ekstraksi Ciri

10

Model klasifikasi Data

11

SIMPULAN DAN SARAN

12

Simpulan

12

Saran

12

DAFTAR PUSTAKA

13

RIWAYAT HIDUP

26

DAFTAR GAMBAR
1 Diagram alir penelitian
2 Tahap mengubah sekuens DNA menjadi matrix
3 Potongan fragmen dengan panjang 200 bp
4 Potongan hasil ekstraksi fitur
5 Boxplot perbandingan variasi panjang dari fitur ASM

3
4
10
11
11

DAFTAR LAMPIRAN
1 Daftar nama organisme
2 Daftar nama genus
3 Daftar nama data latih dan data uji
4 Daftar boxplot semua fitur dengan panjang 200 bp

14
15
16
22

1

PENDAHULUAN
Latar Belakang
Teknologi yang berhubungan dengan bioinformatika mulai berkembang di
Indonesia. Banyak ahli yang ingin menggali lebih dalam potensi yang dapat
dihasilkan dari bidang yang tergolong baru ini. Bioinformatika adalah salah satu
cabang ilmu biologi yang merupakan perpaduan antara biologi dan teknik
informasi. Bioinformatika juga dapat disebut ilmu biologi yang analisis datanya
disimpan dalam database.
Studi yang menjadi fokus utama dalam penelitian ini adalah metagenomics.
Berbeda dengan studi tentang genomics, metagenomics tidak memerlukan pure
clonal cultures dari individu tertentu. DNA yang berasal dari suatu komunitas
mikrob dapat diperoleh melalui sequencing secara langsung (Mchardy 2007).
Sequencing secara langsung dari komunitas mikrob dapat menyebabkan
kesalahan rekayasa atau perakitan fragmen dalam suatu kelompok
mikroorganisme yang menyebabkan dihasilkannya cymerics contigs. Solusi yang
dapat diterapkan untuk meminimalkan adanya cymerics contigs adalah melakukan
sequence assembly dan binning. Dalam hal ini, binning yang dimaksud adalah
melakukan pengelompokan dengan supervised atau unsupervised learning sampai
ke tahap genus, mengingat penglasifikasian sampai tahap spesies sulit dilakukan.
Metode yang telah digunakan dalam penelitian sebelumnya ialah multiclass
support vector machine (SVM) dengan frekuensi k-mers sebagai fiturnya (McHardy
et al. 2007 dalam Ariny 2013). Klasifikasi fragmen metagenome menghasilkan
akurasi yang cukup tinggi yaitu 60% sampai 90% dengan panjang ≥ 5 Kbp. Akan
tetapi akurasi menurun drastis hingga 30% apabila diuji dengan panjang ≤ 3 Kbp.
Selain itu, metode ini mengeluarkan biaya yang cukup mahal karena waktu
penghitungan kernel yang cukup lama dan pemodelan SVM yang cukup kompleks
yaitu dengan 5-mers. Oleh karena itu, penelitian ini akan dicoba melalui sudut
pandang yang berbeda yaitu menggunakan pendekatan tekstur dengan hanya 2mers.
Salah satu pendekatan tekstur yang dimaksud adalah identifikasi pengolahan
citra Gray Level Co-occurrence Matrix (GLCM). Penggunaan GLCM dengan
citra gray-scale pada dasarnya bertujuan memudahkan identifkasi dalam bentuk
pixel dan merepresentasikan hubungan jarak angular spasial dengan citra.
Penelitian ini mengusulkan apabila sekuens DNA dipandang sebagai sebuah citra
berukuran 1xN dengan N adalah panjang fragmen. Isi dari sekuens DNA yang
dipakai adalah kombinasi asam amino A(Adenin), T(Timin), G(Guanin),
C(Citosin) yang terdapat dalam suatu fragmen metagenom. Elemen tersebut
dianggap sebagai 4 level intensitas warna dan dipetakan menjadi matrix dua
dimensi. Kombinasi yang digunakan dalam penelitian kali ini adalah matrix 4x4
dengan 2-mers yaitu AA, AT, AG, AC, TA, TT, TG, TC, GA, GT, GG, GC, CA,
CT, CG, CC. Data dari DNA fragmen metagenome yang telah dihitung
kombinasinya, akan diisi ke dalam matrix 4x4 yang mewakili satu fragmen.
Setelah itu dihitung 13 fitur berdasarkan nilai matrix-nya. Nilai fitur tersebut akan
digunakan sebagai data latih dan data uji yang mewakili organismenya.

2
Setelah ketiga belas ciri dihitung akan digunakan kalsifikasi KNN dan PNN
untuk menentukan pengelompokkan antar genus. PNN digunakan karena hanya
mengalami satu kali iterasi dalam prosesnya. Hasil yang didapat akan dihitung
peluang terbesarnya untuk menentukan apakah suatu organisme telah
diklasifikasikan secara tepat. Sementara itu KNN digunakan karena prosesnya
sangat sederhana, hanya menentukan jarak ketetanggaan dengan k yang telah
ditentukan. Kedua tenik klasifikasi ini digunakan untuk dibandingkan hasilnya.
Setelah dibandingkan akan ditentukan teknik klasifikasi yang tebaik diantara
keduanya.
Perumusan Masalah
Pemetaan Fragmen metagenome ke dalam suatu matrix menjadi sangat
krusial karena akan dihitung 13 ciri fitur dari matrix tersebut dengan orientasi
sudut 0º. Pertanyaan yang muncul pada penelitian ini sebagai berikut:
1
Bagimana menerapkan metode GLCM terhadap sekuens DNA dari fragmen
metagenom?
2
Berapa akurasi yang diperoleh dengan menggunakan metode KNN dan
PNN?
3
Bagaimana pengaruh panjang fragmen terhadap akurasi?
4
Bagaimana pengaruh nilai k terhadap kinerja KNN?
Tujuan Penelitian
1
2
3
4

Tujuan dari penelitian ini, yaitu:
Menerapkan metode GLCM pada sekuens DNA.
Menerapkan PNN dan KNN pada klasifikasi sekuens DNA berdasarkan fitur
dari GLCM.
Mengetahui berapa akurasi PNN terhadap sekuens DNA.
Mengetahui akurasi seluruh k pada KNN.
Manfaat Penelitian

Penelitian ini diharapkan dapat menjadi sarana pengembangan klasifikasi
fragmen metagenome menggunakan ekstraksi ciri citra dan dapat digunakan untuk
pengklasifikasian mikroorganisme jenis baru.
.
Ruang Lingkup Penelitian
1
2

3

Ruang lingkup dari penelitian ini meliputi:
Orientasi sudut pada fitur GLCM terbatas pada 0°.
Data bioinformatika berupa DNA yang terbatas hanya 5 genus yaitu
Burkholderia, Clostridium, Mycobacterium, Staphylococcus dan
Streptococcus.
Fragmen yang digunakan adalah dengan panjang 200 bp, 1 Kbp, 3 Kbp, dan
10kbp dengan banyaknya fragmen menyesuaikan.

3

METODE
Penelitian dimulai dengan mengambil data, praproses data, ekstraksi fitur
dengan GLCM, pembagian data latih dan data uji, klasifikasi PNN dan KNN, dan
analisis evaluasi. Ilustrasi metode penelitian dapat dilihat pada Gambar 1

Mulai

Studi pustaka

Pengambilan data
di NCBI

Ekstraksi fitur
dengan GLCM

Praproses data

Data metagenome
NCBI

Pembagian data
5-fold
cross
validation

Data latih

Data uji

PNN

KNN
Analisis dan
evaluasi

Selesai

Gambar 1 Diagram alir penelitian

Pengambilan Data
Data yang diambil adalah data metagenome yang diambil dari National
Centre for Biotechnology Information (NCBI). NCBI merupakan institusi yang
terkait dengan biologi molekuler dan menjadi pusat informasi tentang
perkembangan. Data yang diambil berupa sekuens DNA dengan format FastA.
Alamat untuk mengunduh data ini yaitu ftp://ftp.ncbi.nih.gov/ genomes/Bacteria/.

4
Praproses Data
Tekstur adalah sifat-sifat atau karakteristik yang dimiliki suatu daerah
(dalam hal ini isi dari matrix-nya) yang cukup signifikan dan daerah tersebut
secara alami mempunyai sesuatu secara berulang. Dalam hal ini pengertian tekstur
yang dimaksud adalah keteraturan dari sekuens DNA dari suatu mikroorganisme
yang membentuk pola-pola tertentu. Sekuens DNA dikatakan mempunyai
informasi tekstur jika sekuens DNA antar satu mikroorganisme dan lainnya
mempunyai kemiripan dari segi jarak dan orientasi sudut. Dalam penelitian ini
jarak dan orientasi sudut yang digunakan adalah 2-mers dan 0°.
Pada tahap praproses sekuens DNA setiap fragmen dipetakan ke dalam
matrix 4x4 sesuai banyaknya fragmen dengan jarak 1 (bersebelahan). Setelah itu
semua matrix yang telah dihitung ditotal menjadi satu matrix. Suatu nilai dari
setiap panjang yang telah dihitung akan dilakukan normalisasi, yaitu membagi
suatu elemen dengan jumlah dari seluruh elemen. Secara umum, analisis tesktur
dapat dilakukan dengan dua pendekatan yaitu pendekatan struktural dan statistikal.
GLCM merupakan salah satu metode yang paling umum untuk menganalisis
tekstur.
GLCM dapat dibentuk dengan cara berikut (Lihat Gambar 2) :
1 Tentukan elemen yang terkandung dalam sekuens DNA yaitu A, T, G dan
C.
2 Bentuk matrix A dengan ukuran 4x4 yaitu sesuai dengan banyaknya
elemen yang terkandung dalam DNA dimana elemen
menyatakan
jumlah kemunculan dari DNA yang bertetangga dengan interval 1 untuk
setiap satu fragmen metagenom dengan orientasi sudut 0°.Fragmen yang
digunakan adalah dengan panjang 200 bp, 1 Kbp, 3 Kbp, dan 10kbp
dengan banyaknya fragmen menyesuaikan.
3 Bentuk matrix co-occurrence dengan cara membagi elemen
dengan
jumlah (sekuens-1) atau total dari semua elemen
. Dengan demikian
dapat dikatakan bahwa matrix A telah dinormalisasi.

[

]



















[

]







⁄ ]
[ ⁄
Gambar 2 Tahap mengubah sekuens DNA menjadi matrix
Ekstraksi Ciri
Ekstraksi ciri merupakan langkah awal dalam melakukan klasifikasi dan
interpretasi sekuens DNA. Proses ini berkaitan dengan kuantisasi karakteristik

5
suatu sekuens ke dalam sekelompok nilai ciri yang sesuai. Ekstraksi ciri pada
sekuens DNA dapat dilakukan jika dan hanya jika matrix co-ocurrence telah
dinormalisasi. Haralick et al. (1973) mengusulkan berbagai fitur ciri tekstural
yang dapat diekstraksi dari matrix co-occurence. Haralick mengungkapkan bahwa
beberapa dari ekstraksi ciri citra merupakan perhitungan untuk pengenalan
karakteristik citra meliputi homogenitas, kontras dan keberadaan tekstur dalam
suatu citra. Dalam hal ini, kemiripan sekuens satu DNA dengan yang lainnya.
Akan tetapi, sulit untuk menentukan apakah suatu organisme dikatakan
sebagai penciri walaupun fitur telah digunakan untuk menentukan karakteristik
dari organisme tersebut. Dalam penelitian ini dilakukan 13 fitur yang diusulkan
oleh Haralick, yang akan ditentukan sebagai penciri dan bukan penciri.
Keempat belas fitur tersebut adalah:
1 ASM (Angular Second Moment)

Homogenitas dari Sekuens DNA
ASM = ∑ ∑

Dimana p(i,j) menyatakan nilai dari baris i dan kolom j dalam matrix cooccurrence yang telah dinormalisasi.
2 Contrast

Menunjukkan ukuran penyebaran (momen inersia) elemen-elemen matrix.
Jika letaknya jauh dari diagonal utama, nilai kekontrasan besar. Secara visual,
nilai kekontrasan adalah ukuran variasi antar kombinasi dengan interval tertentu
pada DNA.
Con = ∑ | - |

2

3 Correlation
Ukuran ketergantungan linear pada sekuens DNA sehingga dapat dilihat
ciri tektstural dari sekuens tersebut.
Cor =

∑ ∑ ( - )( - )

dengan:
µ i = nilai rata-rata baris ke-i matrix p
µ j = nilai rata-rata kolom ke-j matrix p
= standar deviasi baris ke-i matrix p
= standar deviasi kolom ke-j matrix p

4 Variance

Menunjukkan variasi dari elemen-elemen dalam matrix. Kombinasi DNA
yang kemunculannya sedikit akan mempunyai variasi yang kecil.

6

5 Inverse Different Moment

Var = ∑ ∑

Menunjukkan kehomogenan sekuens DNA dalam kombinasi yang sejenis.
Sekuens DNA yang sejenis akan memilik IDM yang besar
IDM = ∑

1 |-|

6 Entropy
Menunjukkan ukuran ketidakteraturan bentuk. Harga ENT besar untuk
sekuens DNA kombinasi yang sejenis merata dan bernilai kecil jika sekuens DNA
tersebut kombinasinya bervariasi.
ENT = - ∑

7 Sum Entropy

log

SENT = ∑

8 Sum Average

AVER = ∑

9 Sum Variance

SVAR = ∑

10 Difference Variance

DVAR = variance of
11 Difference Entropy
DENT =



12 Information Measures of Correlation1
IMC1=
13 Information Measures of Correlation 2
IMC2 =
Dengan catatatan HXY = ∑ ∑
dari dan , dan



HX dan HY adalah entropy

7
HXY1 = ∑ ∑
HXY2 = ∑ ∑
14 Maximal Correlation Coefficient (tidak digunakan)


MCC =
dimana
Q(i,j) = ∑
K-fold cross validation

K-fold cross validation adalah metode pembagian sebuah kelompok data
yang akan dibagi ke dalam data latih dan data uji . Pembuatan partisi dilakukan
dengan cara melakukan pengolahan data sebanyak k kali dengan menggunakan k1 data latih dan sisanya data uji. Akurasi didapat dari rata-rata seluruh k percobaan
(Zhang dan Wu 2011) dalam Amalia (2013). Penelitian ini menggunakan k
sebesar 5 dan data berupa 50 organisme (Lihat Lampiran 1) yang terbagi ke dalam
5 genus (Lihat Lampiran 2) dengan masing- masing genus terdapat 10
mikroorganisme. Data tersebut akan dibagi ke dalam 4/5 data latih dan 1/5 data uji
yaitu 10 data uji dan 40 data latih. Oleh karena itu akan terbentuk matrix citra
latih berukuran 40x5 dan citra uji 10x5. Pembagian data yang dilatih dan diuji
dapat dilihat pada Lampiran 3.
Probabilictic Neural Network (PNN)
PNN adalah teknik klasifikasi yang mengadaptasi bayesian network dan
analisis algoritme statistik yaitu kernel fisher discriminant analysis. Terdapat
empat tahap pengoperasian PNN yang terangkum dalam empat layer. Layer
pertama adalah input hasil dari ketiga belas ekstraksi ciri pada matrix cooccurrence.
Layer kedua menghitung jarak antara vektor masukan pada data uji dan
data latih yang akan dibagi ke dalam fakor penghalus. Faktor penghalus yang
digunakan adalah 0.1. Faktor penghalus digunakan untuk menghaluskan fakor
kernel, dalam hal ini faktor kernel yang dimaksud adalah fungsi Gauss. Setelah itu
hasil perhitungannya dibagi kedalam fungsi parzen untuk mengukur Probabilistic
density function. Layer ketiga menghitung kontribusi dari setiap input-an dan
menghitung keluaran berupa peluang dari vektor.
p

p |

1
2

dengan:
p(A) = peluang kelas A

2



1

exp

2

2

8
p(x|A) = peluang bersyarat x jika masuk ke dalam kelas A
xAi
= vektor data latih kelas A urutan ke-i
d
= dimensi vektor masukan
N
= jumlah pola pelatihan seluruh kelas
NA
= jumlah pola pelatihan pada kelas A
 = faktor penghalus
Layer keempat menganalisa masukan data uji yang akan diklasifikasikan ke
dalam suatu kelas berdasarkan nilai peluang tertinggi. Metode PNN lebih banyak
digunakan dalam klasifikasi dibandingkan dengan multilayer perceptron. PNN
hanya mengalami satu kali iterasi (Specht 1990) dalam Faturohman (2009) dan
dapat menghasilkan output yang lebih akurat, yaitu berupa nilai peluang yang
merepresentasikan suatu data uji masuk dalam klasifikasi kelas tertentu.
K-Nearest Neighbor (KNN)
Algoritme K-Nearest Neighbor (KNN) adalah sebuah metode yang
menggunakan klasifikasi berdasarkan data pembelajaran yang memiliki jarak
terdekat dari suatu objek. Tujuan dari algoritme ini adalah mengklasifikasikan
obyek baru berdasarkan training sample. Classifier hanya berdasarkan pada
memori dengan menggunakan klasifikasi ketetanggaan sebagai nilai prediksi dari
query instance yang baru.
Jarak yang digunakan untuk menentukan ketetanggaan dari suatu titik
digunakan jarak eucledian. Jarak eucledian berfungsi untuk mengukur kedekatan
antar obyek yang berdekatan sebagai sebuah interpretasi (Han et al. 2011).
Kedekatan antara dua obyek ditentukan oleh sebuah kelas yang paling banyak
ditemui pada k buah tetangga dari suatu obyek tersebut. Pada penelitian kali ini
digunakan k=10.
Nilai k yang terbaik untuk algoritme KNN tergantung pada data. Nilai k
yang tinggi dapat mengurangi efek noise pada klasifikasi dengan akibat antar
kelas kabur atau sulit dibedakan. Langkah untuk menghitung menggunakan
metode KNN sangat sederhana. Pertama menentukan jumlah k terdekat (k=10),
kemudian menghitung kuadrat euclid masing-masing obyek yang diberikan. Lalu
mengurutkan objek-objek tersebut kedalam kelompok yang mempunyai Euclid
terkecil. Terakhir mengumpulkan klasifikasi nearest neighbor menggunakan
kategori nearest neighbor yang dapat memprediksi nilai query instance (data uji)
yang telah dihitung.
Analisis dan Evaluasi
Setelah seluruh output dari KNN dan PNN telah ditentukan, akan dihitung
akurasi tiap kelasnya dengan cara:

akurasi

∑ data uji benar
100 %
∑ data uji

9
Lingkungan Pengembangan
Spesifikasi perangkat keras yang digunakan untuk penelitian ini sebagai
berikut:
 Processor Intel® CoreTM i7 CPU
 Memori RAM 4 GB
 Harddisk 640 GB
Spesifikasi perangkat lunak yang digunakan untuk penelitian ini sebagai
berikut:
 Sistem operasi
: Windows 7
 Simulasi sequencer : MetaSim
 Compiler
: MATLAB

HASIL DAN PEMBAHASAN
Pengambilan Data
Data yang diambil dari NCBI diambil sebanyak 50 organisme dari 5 genus
berupa sekuens DNA.
Praproses Data
Data DNA yang terkumpul dalam bentuk sekuens DNA akan diekstraksi
dengan panjang 200 bp, 1 Kbp, 3 Kbp,dan 10 Kbp dengan masing-masing 50
organisme menggunakan metasim. Terdapat aturan untuk menentukan berapa
banyak fragmen yang diperlukan untuk panjang setiap fragmen yang digunakan.
Untuk menentukan perbandingan panjang dan banyaknya fragmen digunakan
rumus berikut:

n= banyak fragmen yang dibutuhkan
l= panjang fragmen yang dibutuhkan
L= total rata-rata dari seluruh panjang mikroorganisme
Dalam hal ini 10 yang dimaksud adalah coverage, yaitu rata-rata sekuens
DNA yang merepresentasikan sebuah nukleotida dalam rekonstruksi DNA
tersebut. Semakin besar coverage-nya, maka semakin besar representasi
mikroorganismenya. Angka 10 muncul karena terbilang cukup untuk
merepresentasikan suatu mikroorganisme. Total rata-rata dari seluruh panjang
miikroorganisme didapat dari seluruh panjang tiap mikroorganisme yang
digunakan dengan nilai 3527041. Dengan demikian untuk fragmen dengan
panjang 200 bp membutuhkan 45000 fragmen, 1 Kbp membutuhkan 36000
fragmen, 3 Kbp membutuhkan 12000 fragmen, serta 10 Kbp membutuhkan 4000
fragmen (Tabel 1).

10
Panjang
fragmen
200 bp
1 Kbp
3 Kbp
10 Kbp

Banyak
fragmen
45000
36000
12000
4000

Tabel 1 Perbandingan panjang dan banyak fragmen
Dapat dilihat dari pola tersebut bahwa semakin panjang fragmen maka
semakin sedikit jumlah fragmen yang dibutuhkan. Contoh output dari metasim
dengan panjang fragmen 200 dapat dilihat pada Gambar 3.

Gambar 3 Potongan fragmen dengan panjang 200 bp
Ekstraksi Ciri
Setelah semua sekuens DNA dipotong ke dalam beberapa variasi panjang,
sekuens tersebut diekstraksi cirinya menggunakan GLCM. Matrix co-occurrence
dihitung berdasarkan sudut dan jarak yang telah ditentukan. Dalam kasus ini
jaraknya adalah satu dengan sudut 0º. Baris DNA tersebut akan dihitung pasangan
antar elemennya dengan jarak 1. Banyaknya pasangan tersebut akan dimasukkan
kedalam matrix 4x4 sesuai dengan banyaknya elemen dari DNA yaitu A, T, G dan
C. Setelah itu matrix dinormalisasi dan dihitung untuk 13 fitur Haralick.
Seluruh fitur tersebut didapat entropi dengan kisaran nilai 4.9-5.0 yang
membuktikan bahwa sekuens DNA tersebut memiliki kompleksitas yang tinggi.
Nilai kontras berkisar 1.8-3.8 yang berarti intensitas keabuan dari DNA tersebut
beragam karena memiliki range yang cukup jauh. Hal tersebut membuktikan
bahwa setiap genus mempunyai penciri yang khas. ASM atau energy yang
menunjukkan konsentrasi pasangan dalam hal ini DNA. Dari ekstraksi diperoleh
nilai dengan kisaran 0.07-0.08. Hal tersebut menunjukkan bahwa nilai dari DNA
sangat acak, atau tidak teratur dan tidak bias apabila dilihat keseragaman
teksturnya. Dapat dilihat potongan hasil ektraksi ciri pada Gambar 4. Kolom pada
gambar merupakan jenis fitur, dan baris merupakan jenis organisme.

11

Gambar 4 Potongan hasil ekstraksi fitur
Model klasifikasi Data
Pembagian terhadap data latih dan uji menggunakan k-fold cross
validation. Dalam penelitian ini digunakan dengan 5 fold. Karena total sekuens
setiap panjang yang berbeda terdapat 50 data dari 50 organisme, maka data latih
sebanyak 40 dan data uji sebanyak 10 dengan 5 jenis fold. Klasifikasi
menggunakan PNN yang nantinya akan dilihat apakah model klasifikasi yang
digunakan cocok. Hasil menunjukkan bahwa semua jenis panjang fragmen
memiliki akurasi bernilai 100%. Dapat dilihat pada Gambar 5 yaitu beberapa
boxplot dari fitur ASM dengan panjang 200 bp (a), 1 Kbp (b), 3 Kbp (c) dan 10
Kbp (d) terhadap 5 genus tersebut. Gambar tersebut menghasilkan perbedaan yang
sangat signifikan dari setiap genus.
(b)
(a)

(c)

(d)

Gambar 5 Boxplot perbandingan variasi panjang dari fitur ASM
Sebagai contoh fitur ASM pada keempat variasi panjang tesebut
menunjukkan tingkat homogenitas dari sebuah data. Semakin kecil rentang
nilainya, maka semakin tinggi homogenitasnya. Gambar 5 memiliki rentang ratarata antara 0.07-0.095 yang berarti kemiripan antar genus tersebut tinggi. Gambar

12
5 memperlihatkan bahwa hasil pengelompokkan antar genusnya dapat dibedakan
walaupun hasil dari ekstraksi ciri tiap panjangnya berbeda. Disimpulkan bahwa
variasi panjang fragmen yang dilakukan pada penelitian ini tidak menimbulkan
perbedaan hasil klasifikasi antar genusnya. Pada Lampiran 4 akan diperlihatkan
boxplot dari ketiga belas ciri dengan panjang 200 bp.
Pada klasifikasi KNN, percobaan dilakukan dengan panjang 200 bp. Hasil
menunjukkan tidak ada perbedaan dengan klasifikasi PNN. Tidak ada perbedaan
hasil pada percobaan berikutnya dengan panjang 1 Kbp, 3 Kbp, dan 10 Kbp.
Percobaan juga dilakukan dengan mengganti nilai k yaitu dengan k=1,..,10.
Hasilnya menunjukkan hal yang sama dengan percobaan sebelumnya yaitu 100%.
Semua fitur dari metode GLCM memperlihatkan hasil yang sama seperti
gambar diatas yaitu terdapat berbedaan yang signifikan antar genusnya. Sehingga
dapat diketahui bahwa PNN dan KNN secara sempurna dapat mengklasifikasikan
antar genus karena perbedaan yang dapat dilihat dari boxplot untuk setiap fiturnya.
SIMPULAN DAN SARAN
Simpulan
Model identifikasi terhadap fragmen metagenome menggunakan PNN dan
KNN berhasil dilakukan. Akurasi tertinggi untuk PNN didapat dengan nilai 100%.
Percobaan menggunakan panjang yang beragam dengan coverage yang sama
tidak memberikan dampak yang signifikan terhadap hasil akurasi. Fragmen
dengan panjang 200 bp, 1 Kbp, 3 Kbp dan 10 Kbp adalah sama, yaitu 100%.
Dapat dikatakan bahwa seluruh data dapat diklasifikasikan berdasarkan genusnya
secara sempurna. Klasifikasi KNN didapat dengan nilai yang sama yaitu 100%
untuk semua k. Dalam hal ini diambil k yang paling dekat yaitu k=1 karena
mengambil jarak tetangga yang paling dekat.
Seluruh percobaan yang telah dilakukan dapat disimpulkan bahwa hasil
yang sempurna disebabkan oleh data yang sedikit dan sempit jangakuannya, yaitu
hanya terdiri 50 organisme dengan variasi dari 5 genus yang berbeda. Jarak yang
digunakan hanya kombinasi dari sebelah sekuens DNA-nya dengan jarak 1
dengan orientasi sudut 0°.
Saran
1
2
3
4

Beberapa saran untuk penelitian selanjutnya:
Menggunakan pendekatan GLCM memakai seluruh sudut yaitu
0°, 45°, 90°, 135°.
Menggunakan data dengan tingkatan takson yang mirip (satu genus satu ordo).
Menggunakan data lebih banyak.
Menggunakan jarak yang beragam (jarak 1, 2, 3, 4).

13

DAFTAR PUSTAKA
Amalia, RH. 2013. Identifikasi citra hama tanaman menggunakan gray level cooccurence matrix dan klasifikasi probabilistic neural network [skripsi].
Bogor (ID): Institut Pertanian Bogor.
Ariny. 2013. Klasifikasi fragmen metagenome menggunakan metode support
vector machine (SVM) [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Fathurohman Z. 2009. Pengembangan probabilistic neural network untuk
penentuan kematangan belimbing manis [skripsi]. Bogor (ID): Institut
Pertanian Bogor.
Han J, Kamber, Pei J. 2011. Data Mining Concepts and Techniques.
Edition.
San francisco (US): Elsevier.
Haralick MR, Shanmugan K, Dinstein I. 1973. Textural features for image
classification. IEEE Transactions on Systems, Man, and Cybernetics.
3(6):610-621. doi: 10.1109/tsmc.1973.4309314
McHardy AC, Martín HG, Tsirigos A, Hugenholtz P, Rigoutsos I. 2007. Accurate
phylogonetic classification of variabel-length DNA fragments. Nature
Methods. 4(1):63–72. doi: 10.1038/nmeth976.
McHardy AC, Rigoutsos I. 007. What’s in the mi : phylogenetic classification of
metagenome sequence samples. Current Opinion in Microbiology.
10(5):499–503. doi: 10.1016/j.mib.2007.08.004.
Specht DF. 1990. Probabilistic neural networks and the polynomial adalines as
complementary techniques for classification. IEEE Transaction on Neural
Networks, 1(1), hal. 111-121.
Zhang Y, Wu L. 2011. Crop classification by Forward Neural Network with
adaptive chaotic Particle Swarm Optimization. Sensors. 11: 4721-4743. doi:
10.3390/s11050472

14
Lampiran 1 Daftar nama organisme
No
Nama organisme
1 Burkholderia
ambifaria
AMMD
chromosome chromosome 1
2 Burkholderia
ambifaria
MC40-6
chromosome chromosome 1
3 Burkholderia cenocepacia AU 1054
chromosome 3
4 Burkholderia
cenocepacia
HI2424
chromosome chromosome 1
5 Burkholderia
cenocepacia
J2315
chromosome chromosome 1
6 Burkholderia
cenocepacia
MC0-3
chromosome chromosome 1
7 Burkholderia mallei ATCC 23344
chromosome chromosome 1
8 Burkholderia mallei NCTC 10229
chromosome I
9 Burkholderia mallei NCTC 10247
chromosome I
10 Burkholderia
mallei
SAVP1
chromosome I
11 Clostridium acetobutylicum ATCC 824
12

20

Clostridium beijerinckii NCIMB 8052
chromosome
Clostridium botulinum A3 str. Loch
Maree
Clostridium botulinum A str. ATCC
19397
Clostridium botulinum A str. ATCC
3502
Clostridium botulinum A str. Hall
Clostridium botulinum B1 str. Okra
Clostridium botulinum B str. Eklund
17B
Clostridium botulinum E3 str. Alaska
E43
Clostridium botulinum F str. Langeland

21

Mycobacterium abscessus chromosome

22
23

Mycobacterium avium 104
Mycobacterium
avium
subsp.
paratuberculosis K-10
Mycobacterium bovis AF2122/97
Mycobacterium bovis BCG str. Pasteur
1173P2

13
14
15
16
17
18
19

24
25

No
Nama organisme
26 Mycobacterium gilvum PYR-GCK
chromosome
27 Mycobacterium
leprae
TN
chromosome
28 Mycobacterium marinum M
29 Mycobacterium smegmatis str. MC2
155
30 Mycobacterium sp. JLS chromosome
31 Staphylococcus aureus RF122
32 Staphylococcus aureus subsp. aureus
COL chromosome
33 Staphylococcus aureus subsp. aureus
JH1
34 Staphylococcus aureus subsp. aureus
JH9
35 Staphylococcus aureus subsp. aureus
MRSA252 chromosome
36 Staphylococcus aureus subsp. aureus
MSSA476 chromosome
37 Staphylococcus aureus subsp. aureus
Mu3
38 Staphylococcus aureus subsp. aureus
Mu50
39 Staphylococcus aureus subsp. aureus
MW2
40 Staphylococcus aureus subsp. aureus
N315
41 Streptococcus agalactiae 2603V/R
42 Streptococcus agalactiae A909
43 Streptococcus agalactiae NEM316
44 Streptococcus
equi
subsp.
zooepidemicus MGCS10565
45 Streptococcus gordonii str. Challis
substr. CH1
46 Streptococcus
mutans
UA159
chromosome
47 Streptococcus pneumoniae CGSP14
48 Streptococcus pneumoniae D39
49 Streptococcus pneumoniae G54
50 Streptococcus
pneumoniae
Hungary19A-6

15
Lampiran 2 Daftar nama genus
No
1
2
3
4
5

Genus
Burkholderia
Clostridium
Mycobacterium
Staphylococcus
Streptococcus

16
Lampiran 3 Daftar nama data latih dan data uji
Percobaan 1
Data latih
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Nama organisme
Burkholderia cenocepacia AU 1054
chromosome 3
Burkholderia
cenocepacia
HI2424
chromosome chromosome 1
Burkholderia
cenocepacia
J2315
chromosome chromosome 1
Burkholderia
cenocepacia
MC0-3
chromosome chromosome 1
Burkholderia mallei ATCC 23344
chromosome chromosome 1
Burkholderia mallei NCTC 10229
chromosome I
Burkholderia mallei NCTC 10247
chromosome I
Burkholderia
mallei
SAVP1
chromosome I
Clostridium botulinum A3 str. Loch
Maree
Clostridium botulinum A str. ATCC
19397
Clostridium botulinum A str. ATCC
3502
Clostridium botulinum A str. Hall
Clostridium botulinum B1 str. Okra
Clostridium botulinum B str. Eklund
17B
Clostridium botulinum E3 str. Alaska
E43
Clostridium botulinum F str. Langeland
Mycobacterium
avium
subsp.
paratuberculosis K-10
Mycobacterium bovis AF2122/97
Mycobacterium bovis BCG str. Pasteur
1173P2
Mycobacterium gilvum PYR-GCK
chromosome

No
Nama organisme
21 Mycobacterium
leprae
chromosome
22 Mycobacterium marinum M

23 Mycobacterium smegmatis str.
MC2 155
24 Mycobacterium
sp.
JLS
chromosome
25 Staphylococcus aureus subsp.
aureus JH1
26 Staphylococcus
aureus
subsp.
aureus JH9
27 Staphylococcus
aureus
subsp.
aureus MRSA252 chromosome
28 Staphylococcus
aureus
subsp.
aureus MSSA476 chromosome
29 Staphylococcus
aureus
subsp.
aureus Mu3
30 Staphylococcus
aureus
subsp.
aureus Mu50
31 Staphylococcus
aureus
subsp.
aureus MW2
32 Staphylococcus
aureus
subsp.
aureus N315
33 Streptococcus agalactiae NEM316
34 Streptococcus
equi
subsp.
zooepidemicus MGCS10565
35 Streptococcus gordonii str. Challis
substr. CH1
36 Streptococcus
mutans
UA159
chromosome
37 Streptococcus
pneumoniae
CGSP14
38 Streptococcus pneumoniae D39
39 Streptococcus pneumoniae G54
40 Streptococcus
Hungary19A-6

pneumoniae

Data Uji
No
1

Nama organisme

Burkholderia
ambifaria
chromosome chromosome 1

No

AMMD

TN

Nama organisme

6 Mycobacterium avium 104

17
Lanjutan
No
2
3
4
5

Nama organisme

Burkholderia
ambifaria
MC40-6
chromosome chromosome 1
Clostridium acetobutylicum ATCC 824
Clostridium beijerinckii NCIMB 8052
chromosome
Mycobacterium abscessus chromosome

No

Nama organisme

7 Staphylococcus aureus RF122
8 Staphylococcus aureus subsp. aureus
COL chromosome
9 Streptococcus agalactiae 2603V/R
10 Streptococcus agalactiae A909

Percobaan 2
Data latih
No
1
2
3
4
5
6
7
8
9
10

Nama organisme

Burkholderia
ambifaria
AMMD
chromosome chromosome 1
Burkholderia
ambifaria
MC40-6
chromosome chromosome 1
Burkholderia
cenocepacia
J2315
chromosome chromosome 1
Burkholderia
cenocepacia
MC0-3
chromosome chromosome 1
Burkholderia mallei ATCC 23344
chromosome chromosome 1
Burkholderia mallei NCTC 10229
chromosome I
Burkholderia mallei NCTC 10247
chromosome I
Burkholderia
mallei
SAVP1
chromosome I
Clostridium acetobutylicum ATCC 824

12

Clostridium beijerinckii NCIMB 8052
chromosome
Clostridium botulinum A str. ATCC
3502
Clostridium botulinum A str. Hall

13

Clostridium botulinum B1 str. Okra

14

16

Clostridium botulinum B str. Eklund
17B
Clostridium botulinum E3 str. Alaska
E43
Clostridium botulinum F str. Langeland

17
18

Mycobacterium abscessus chromosome
Mycobacterium avium 104

11

15

No

Nama organisme

21 Mycobacterium
leprae
chromosome
22 Mycobacterium marinum M

TN

23 Mycobacterium smegmatis str. MC2
155
24 Mycobacterium sp. JLS chromosome
25 Staphylococcus aureus RF122
26 Staphylococcus aureus subsp. aureus
COL chromosome
27 Staphylococcus aureus subsp. aureus
MRSA252 chromosome
28 Staphylococcus aureus subsp. aureus
MSSA476 chromosome
29 Staphylococcus aureus subsp. aureus
Mu3
30 Staphylococcus aureus subsp. aureus
Mu50
31 Staphylococcus aureus subsp. aureus
MW2
32 Staphylococcus aureus subsp. aureus
N315
33 Streptococcus agalactiae 2603V/R
34 Streptococcus agalactiae A909
35 Streptococcus gordonii str. Challis
substr. CH1
36 Streptococcus
mutans
UA159
chromosome
37 Streptococcus pneumoniae CGSP14
38 Streptococcus pneumoniae D39

18
Lanjutan
No
Nama organisme
19 Mycobacterium bovis BCG str. Pasteur
1173P2
20 Mycobacterium gilvum PYR-GCK
chromosome

No
Nama organisme
39 Streptococcus pneumoniae G54
40 Streptococcus
Hungary19A-6

pneumoniae

Data uji
No
Nama organisme
1 Burkholderia cenocepacia AU 1054
chromosome 3
2 Burkholderia
cenocepacia
HI2424
chromosome chromosome 1
3 Clostridium botulinum A3 str. Loch
Maree
4 Clostridium botulinum A str. ATCC
19397
5 Mycobacterium
avium
subsp.
paratuberculosis K-10

No
Nama organisme
6 Mycobacterium bovis AF2122/97
7 Staphylococcus
aureus
subsp.
aureus JH1
8 Staphylococcus
aureus
subsp.
aureus JH9
9 Streptococcus agalactiae NEM316
10 Streptococcus
equi
subsp.
zooepidemicus MGCS10565

Percobaan 3
Data latih
No
Nama organisme
1 Burkholderia
ambifaria
AMMD
chromosome chromosome 1
2 Burkholderia
ambifaria
MC40-6
chromosome chromosome 1
3 Burkholderia cenocepacia AU 1054
chromosome 3
4 Burkholderia
cenocepacia
HI2424
chromosome chromosome 1
5 Burkholderia mallei ATCC 23344
chromosome chromosome 1
6 Burkholderia mallei NCTC 10229
chromosome I
7 Burkholderia mallei NCTC 10247
chromosome I
8 Burkholderia
mallei
SAVP1
chromosome I
9 Clostridium acetobutylicum ATCC 824
10
11
12

Clostridium beijerinckii NCIMB 8052
chromosome
Clostridium botulinum A3 str. Loch
Maree
Clostridium botulinum A str. ATCC
19397

No
Nama organisme
21 Mycobacterium
leprae
chromosome
22 Mycobacterium marinum M

TN

23 Mycobacterium smegmatis str.
MC2 155
24 Mycobacterium
sp.
JLS
chromosome
25 Staphylococcus aureus RF122
26 Staphylococcus
aureus
aureus COL chromosome
27 Staphylococcus
aureus
aureus JH1
28 Staphylococcus
aureus
aureus JH9
29 Staphylococcus
aureus
aureus Mu3
30 Staphylococcus
aureus
aureus Mu50
31 Staphylococcus
aureus
aureus MW2
32 Staphylococcus
aureus
aureus N315

subsp.
subsp.
subsp.
subsp.
subsp.
subsp.
subsp.

19
Lanjutan
No
Nama organisme
13 Clostridium botulinum B1 str. Okra
14 Clostridium botulinum B str. Eklund
17B
15 Clostridium botulinum E3 str. Alaska
E43
16 Clostridium botulinum F str. Langeland
17
18
19
20

Mycobacterium abscessus chromosome
Mycobacterium avium 104
Mycobacterium
avium
subsp.
paratuberculosis K-10
Mycobacterium bovis AF2122/97

No
Nama organisme
33 Streptococcus agalactiae 2603V/R
34 Streptococcus agalactiae A909
35 Streptococcus agalactiae NEM316
36 Streptococcus
equi
subsp.
zooepidemicus MGCS10565
37 Streptococcus pneumoniae CGSP14
38 Streptococcus pneumoniae D39
39 Streptococcus pneumoniae G54
40 Streptococcus
Hungary19A-6

pneumoniae

Data uji
No
Nama organisme
1 Burkholderia
cenocepacia
J2315
chromosome chromosome 1
2 Burkholderia
cenocepacia
MC0-3
chromosome chromosome 1
3 Clostridium botulinum A str. ATCC
3502
4 Clostridium botulinum A str. Hall
5

Mycobacterium bovis BCG str. Pasteur
1173P2

No
Nama organisme
6 Mycobacterium gilvum PYR-GCK
chromosome
7 Staphylococcus aureus subsp. aureus
MRSA252 chromosome
8 Staphylococcus aureus subsp. aureus
MSSA476 chromosome
9 Streptococcus gordonii str. Challis
substr. CH1
10 Streptococcus
mutans
UA159
chromosome

Percobaan 4
Data latih
No
Nama organisme
1 Burkholderia
ambifaria
AMMD
chromosome chromosome 1
2 Burkholderia
ambifaria
MC40-6
chromosome chromosome 1
3 Burkholderia cenocepacia AU 1054
chromosome 3
4 Burkholderia
cenocepacia
HI2424
chromosome chromosome 1
5 Burkholderia
cenocepacia
J2315
chromosome chromosome 1
6 Burkholderia
cenocepacia
MC0-3
chromosome chromosome 1
7 Burkholderia mallei NCTC 10247
chromosome I

No
Nama organisme
21 Mycobacterium bovis BCG str. Pasteur
1173P2
22 Mycobacterium gilvum PYR-GCK
chromosome
23 Mycobacterium smegmatis str. MC2
155
24 Mycobacterium sp. JLS chromosome
25 Staphylococcus aureus RF122
26 Staphylococcus aureus subsp. aureus
COL chromosome
27 Staphylococcus aureus subsp. aureus
JH1

20
Lanjutan
No
Nama organisme
8 Burkholderia
mallei
SAVP1
chromosome I
9 Clostridium acetobutylicum ATCC 824
10

16

Clostridium beijerinckii NCIMB 8052
chromosome
Clostridium botulinum A3 str. Loch
Maree
Clostridium botulinum A str. ATCC
19397
Clostridium botulinum A str. ATCC
3502
Clostridium botulinum A str. Hall
Clostridium botulinum E3 str. Alaska
E43
Clostridium botulinum F str. Langeland

17

Mycobacterium abscessus chromosome

18

Mycobacterium avium 104

19

Mycobacterium
avium
subsp.
paratuberculosis K-10
Mycobacterium bovis AF2122/97

11
12
13
14
15

20

No
Nama organisme
28 Staphylococcus
aureus
subsp.
aureus JH9
29 Staphylococcus
aureus
subsp.
aureus MRSA252 chromosome
30 Staphylococcus
aureus
subsp.
aureus MSSA476 chromosome
31 Staphylococcus
aureus
subsp.
aureus MW2
32 Staphylococcus
aureus
subsp.
aureus N315
33 Streptococcus agalactiae 2603V/R
34 Streptococcus agalactiae A909
35 Streptococcus agalactiae NEM316
36 Streptococcus
equi
subsp.
zooepidemicus MGCS10565
37 Streptococcus gordonii str. Challis
substr. CH1
38 Streptococcus
mutans
UA159
chromosome
39 Streptococcus pneumoniae G54
40 Streptococcus
Hungary19A-6

pneumoniae

Data uji
No
Nama organisme
1 Burkholderia mallei ATCC 23344
chromosome chromosome 1
2 Burkholderia mallei NCTC 10229
chromosome I
3 Clostridium botulinum B1 str. Okra
4
5

Clostridium botulinum B str. Eklund
17B
Mycobacterium leprae TN chromosome

No
Nama organisme
6 Mycobacterium marinum M
7 Staphylococcus
aureus
subsp.
aureus Mu3
8 Staphylococcus
aureus
subsp.
aureus Mu50
9 Streptococcus
pneumoniae
CGSP14
10 Streptococcus pneumoniae D39

Percobaan 5
Data latih
No
Nama organisme
1 Burkholderia
ambifaria
chromosome chromosome 1
2 Burkholderia
ambifaria
chromosome chromosome 1

AMMD
MC40-6

No
Nama organisme
21 Mycobacterium bovis BCG str.
Pasteur 1173P2
22 Mycobacterium gilvum PYR-GCK
chromosome

21
Lanjutan
No
Nama organisme
3 Burkholderia cenocepacia AU 1054
chromosome 3
4 Burkholderia
cenocepacia
HI2424
chromosome chromosome 1
5 Burkholderia
cenocepacia
J2315
chromosome chromosome 1
6 Burkholderia
cenocepacia
MC0-3
chromosome chromosome 1
7 Burkholderia mallei ATCC 23344
chromosome chromosome 1
8 Burkholderia mallei NCTC 10229
chromosome I
9 Clostridium acetobutylicum ATCC 824
10

17

Clostridium beijerinckii NCIMB 8052
chromosome
Clostridium botulinum A3 str. Loch
Maree
Clostridium botulinum A str. ATCC
19397
Clostridium botulinum A str. ATCC
3502
Clostridium botulinum A str. Hall
Clostridium botulinum B1 str. Okra
Clostridium botulinum B str. Eklund
17B
Mycobacterium abscessus chromosome

18

Mycobacterium avium 104

19

Mycobacterium
avium
subsp.
paratuberculosis K-10
Mycobacterium bovis AF2122/97

11
12
13
14
15
16

20

No
Nama organisme
23 Mycobacterium
leprae
chromosome
24 Mycobacterium marinum M

TN

25 Staphylococcus aureus RF122
26 Staphylococcus aureus subsp. aureus
COL chromosome
27 Staphylococcus aureus subsp. aureus
JH1
28 Staphylococcus aureus subsp. aureus
JH9
29 Staphylococcus aureus subsp. aureus
MRSA252 chromosome
30 Staphylococcus aureus subsp. aureus
MSSA476 chromosome
31 Staphylococcus aureus subsp. aureus
Mu3
32 Staphylococcus aureus subsp. aureus
Mu50
33 Streptococcus agalactiae 2603V/R
34 Streptococcus agalactiae A909
35 Streptococcus agalactiae NEM316
36 Streptococcus
equi
subsp.
zooepidemicus MGCS10565
37 Streptococcus gordonii str. Challis
substr. CH1
38 Streptococcus
mutans
UA159
chromosome
39 Streptococcus pneumoniae CGSP14
40 Streptococcus pneumoniae D39

Data uji
No
Nama organisme
1 Burkholderia mallei NCTC 10247
chromosome I
2 Burkholderia
mallei
SAVP1
chromosome I
3 Clostridium botulinum E3 str. Alaska
E43
4 Clostridium botulinum F str. Langeland
5 Mycobacterium smegmatis str. MC2
155

No
Nama organisme
6 Mycobacterium sp. JLS chromosome
7 Staphylococcus aureus subsp. aureus
MW2
8 Staphylococcus aureus subsp. aureus
N315
9 Streptococcus pneumoniae G54
10 Streptococcus
pneumoniae
Hungary19A-6

22
Lampiran 4 Daftar boxplot semua fitur dengan panjang 200 bp

Boxplot fitur Contrast

Boxplot fitur Correlation

Boxplot fitur Variance

23
Lanjutan

Boxplot fitur Inverse Different Moment

Boxplot fitur Entropy

Boxplot fitur Sum Average

24
Lanjutan

Boxplot fitur Sum Variance

Boxplot fitur Difference Variance

Boxplot fitur Difference Entropy

25
Lanjutan

Boxplot fitur Inverse Measures of Correlation 1

Boxplot fitur Inverse Measures of Correlation 2

Boxplot fitur Maximal Correlation Coefficient

26

RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 29 April 1992. Penulis merupakan
anak kedua dari tiga bersaudara pasangan Ir. Indrayana LS dan (alm) Ir. Alda
Djumeralda. Penulis mengenyam pendidikan dasar di SD Negeri 08 Bengkulu
(1998-2002) yang kemudian pindah ke SD Islam Al-Azhar 23 Bekasi (2002-2004).
Penulis melanjutkan pendidikan menengah pertama di SMP Labschool Jakarta
(2004-2007). Kemudian, penulis melanjutkan pendidikan menengah atas di SMA
Labschool Jakarta (2007-2010). Penulis berkesempatan melanjutkan studi di
Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI) di
Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.
Selama masa kuliah, penulis pernah menjadi asisten praktikum pada mata
kuliah Penerapan Komputer (2013). Penulis juga aktif di organisasi
kemahasiswaan, yaitu UKM Music Agriculture X-pression!! (MAX!!) sebagai
general manager di tahun 2013. Penulis turut berkontribusi dalam berbagai
kegiatan, seperti Perkenalan Departemen (2012), Art Collaboration Revolutionary
and Action (ACRA 2011,2012,2013). Selain itu, penulis melaksanakan kegiatan
Praktik Kerja Lapangan di PT. Pertamina EP.

Dokumen yang terkait

Clustering Fragmen Metagenome Menggunakan Som Dengan Ekstraksi Fitur Gray Level Co-Occurrence Matrix (Glcm) Pada Variasi Panjang Fragmen

1 7 43

KLASIFIKASI BATIK MENGGUNAKAN METODE K-NEAREST NEIGHBOUR BERDASARKAN GRAY LEVEL CO-OCCURRENCE MATRICES (GLCM).

1 11 6

IMPLEMENTASI EKSTRAKSI FITUR TEKSTUR GRAY LEVEL CO-OCCURRENCE MATRICES (GLCM) UNTUK PENGELOMPOKAN CITRA TENUN MENGGUNAKAN ALGORITMA K-MEANS - UDiNus Repository

0 1 9

PENGENALAN EKSPRESI WAJAH PENGGUNA ELEARNING MENGGUNAKAN ARTIFICIAL NEURAL NETWORK DENGAN FITUR EKSTRAKSI LOCAL BINARY PATTERN DAN GRAY LEVEL CO-OCCURRENCE MATRIX

0 0 8

IDENTIFIKASI KESEGARAN DAGING SAPI BERDASARKAN CITRANYA DENGAN EKSTRAKSI FITUR WARNA DAN TEKSTURNYA MENGGUNAKAN METODE GRAY LEVEL CO- OCCURRENCE MATRIX

0 0 6

PERANCANGAN EKSTRAKSI FITUR MOTIF SASIRANGAN MENGGUNAKAN ALGORITMA NAÏVE BAYES BERBASIS COLOR HISTOGRAM DAN GRAY LEVEL CO-OCCURRENCE MATRICES (GLCM)

0 0 10

Sistem Temu Kembali Citra Lubang Jalan Aspal Berdasarkan Tingkat Kerusakan Menggunakan Ekstraksi Fitur Gray Level Co-occurrence Matrix

0 3 11

APLIKASI IDENTIFIKASI MOTIF BATIK MENGGUNAKAN METODE EKSTRAKSI FITUR GRAY LEVEL CO-OCCURRENCE MATRIX (GLCM) BERBASIS ANDROID BATIK’S PATTERN IDENTIFICATION THROUGH FEATURE EXTRACTION METHOD, GRAY LEVEL CO – OCCURRENCE MATRIX (GLCM), BASED ON ANDROID

1 0 9

KLASIFIKASI JENIS KUALITAS KEJU DENGAN MENGGUNAKAN METODE GRAY LEVEL CO- OCCURRENCE MATRIX (GLCM) DAN SUPPORT VECTOR MACHINE (SVM) PADA CITRA DIGITAL Types Of Cheese Quality Classification Using Gray Level Co-Occurrence Matrix (GLCM) And Support Vector Ma

1 0 8

Menghitung Jumlah Orang dengan Ekstraksi Fitur Gray Level Co-occurrence Matrix (GLCM)

0 0 11