Klasifikasi Fragmen Metagenom menggunakan Principal Component Analysis dan K-Nearest Neighbor

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN
PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST
NEIGHBOR

VICTORIA FEBRINA ROMAULI SIMANGUNSONG

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Fragmen
Metagenom menggunakan Principal Component Analysis dan K-Nearest
Neighbor adalah benar karya saya dengan arahan dari komisi pembimbing dan
belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir tulisan ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Januari 2015
Victoria Febrina Romauli Simangunsong
NIM G64124062

ABSTRAK
VICTORIA FEBRINA ROMAULI SIMANGUNSONG. Klasifikasi Fragmen
Metagenom menggunakan Principal Component Analysis dan K-Nearest
Neighbor. Dibimbing oleh WISNU ANANTA KUSUMA.
Metagenomika adalah ilmu yang mempelajari tentang analisis metagenom
yang materi genetiknya diperoleh langsung dari sampel lingkungan. Ketika mengsekuens sampel metagenom ini maka akan dihasilkan fragmen-fragmen. Pada saat
fragmen-fragmen tersebut dirakit akan dihasilkan chimeric contigs atau gabungan
fragmen dari berbagai organisme. Selanjutnya diperlukan proses binning yang
bertujuan untuk mengklasifikasikan fragmen-fragmen tersebut ke dalam tingkat
taksonomi tertentu. Pada penelitian ini peneliti melakukan klasifikasi fragmen
metagenom yang diekstrasi menggunakan n-mers kemudian direduksi dimensinya
menggunakan principal component analysis dan diklasifikasi menggunakan knearest neighbor. Nilai k yang terbaik pada KNN adalah 7. Nilai n tertinggi pada
n-mers adalah 4. Akurasi pada organisme dikenal dari fold terbaik dengan
menggunakan PCA 95% untuk panjang fragmen 0.5 Kbp sampai 10 Kbp berkisar

antara 91.6% sampai 99,9%. Untuk organisme tidak dikenal dengan PCA 95%
tingkat akurasi berkisar antara 89.64% sampai 99.32%.
Kata kunci : Fragmen metagenom,n-mers, PCA, KNN

ABSTRACT
VICTORIA FEBRINA ROMAULI SIMANGUNSONG. Fragments Metagenome
Classification using Principal Component Analysis and K-Nearest Neighbor.
Supervised by WISNU ANANTA KUSUMA.
Metagenomics is a study of metagenom analysis which its genetic materials is
obtained directly from environmental samples. The process of metagenome
sequencing produce fragments from mixture organisms. Thus, assembling
fragments directly will generate chimeric contigs. Furthermore, a bining process is
required to classify these fragments into a particular taxonomic level. In this
study, the classification of metagenome fragment were extracted using n-mers,
reduced its dimension using principal component analysis and classified using knearest neighbor. The experiments were conducted from in the various fragment
length from 0.5 Kbp to 10 Kbp. The best results were obtained using KNN with
k=7 and implementing 4-mers frequency. The accuracies of classifying known
organisms obtained using PCA 95% were ranged from 91.6% to 99.9%.
Moreover, the accuracies were slightly decreased when classifying unknown
organisms, from 89.64% to 99.32%.

Keywords: Fragments metagenom, n-mers, PCA, KNN

KLASIFIKASI FRAGMEN METAGENOM MENGGUNAKAN
PRINCIPAL COMPONENT ANALYSIS DAN K-NEAREST
NEIGHBOR

VICTORIA FEBRINA ROMAULI SIMANGUNSONG

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015


Penguji :
1
2

Aziz Kustiyo, SSi, MKom
Toto Haryanto, SKom, MSi

Judul Skripsi : Klasifikasi Fragmen Metagenom menggunakan Principal
Component Analysis dan K-Nearest Neighbor
Nama
: Victoria Febrina Romauli Simangunsong
NIM
: G64124062

Disetujui oleh

Dr. Wisnu Ananta Kusuma, ST, MT
Pembimbing

Diketahui oleh


Dr Ir Agus Buono, MSi, MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus atas segala
berkat dan karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema
yang dipilih dalam penelitian yang dilaksanakan sejak bulan Mei 2014 ini ialah
Bioinformatika, dengan judul Klasifikasi Fragmen Metagenom menggunakan
Principal Component Analysis dan K-Nearest Neighbor.
Terima kasih penulis ucapkan kepada Bapak Dr. Wisnu Ananta Kusuma,
ST, MT selaku pembimbing. Bapak Aziz Kustiyo SSi, MKom dan Bapak Toto
Haryanto SKom, MSi selaku penguji atas saran dan masukan untuk penelitian ini.
Ungkapan terima kasih juga disampaikan kepada Bapak Elman Simangunsong
SH, MH, dan Ibu Dra. Sorta Mariany Sibuea, serta seluruh keluarga, dan temanteman Alih Jenis Ilmu Komputer IPB angkatan 7 atas segala doa, dukungan
semangat dan kasih sayangnya.
Semoga karya ilmiah ini bermanfaat.


Bogor, Januari 2015
Victoria Febrina Romauli Simangunsong

DAFTAR ISI
DAFTAR TABEL

viii

DAFTAR GAMBAR

viii

DAFTAR LAMPIRAN

x

PENDAHULUAN

1


Latar Belakang

1

Perumusan Masalah

2

Tujuan Penelitian

2

Ruang Lingkup Penelitian

2

Manfaat Penelitian

3


METODE PENELITIAN

3

Data Metagenome NCBI

4

Ekstrasi Ciri

4

Normalisasi

5

Reduksi Dimensi dengan PCA

5


F-Fold Cross Validation

6

K-Nearest Neighbor

7

Pengujian dengan Organisme Tidak Dikenal

8

Analisis

8

Ruang Lingkup Sistem

8


HASIL DAN PEMBAHASAN

8

Penyiapan Data

8

Ekstrasi Ciri

9

Normalisasi

10

Reduksi Dimensi menggunakan PCA

10


F-Fold Cross Validation

10

Klasifikasi KNN

11

Akurasi

11

Pengaruh akurasi terhadap nilai n pada n-mers dan k pada KNN

12

Pengujian pada organisme tidak dikenal

13

Perbandingan akurasi menggunakan PCA dengan tanpa PCA untuk organisme
dikenal
13
Perbandingan Penelitian Terkait
SIMPULAN DAN SARAN

15
16

Simpulan

16

Saran

16

DAFTAR PUSTAKA

16

RIWAYAT HIDUP

22

DAFTAR TABEL
1 Organisme Dikenal
2 Dimensi yang diperoleh setelah direduksi dengan PCA
3 Akurasi organisme dikenal menggunakan k=3 pada KNN (dalam %)
4 Akurasi organisme dikenal menggunakan k=5 pada KNN (dalam %)
5 Akurasi organisme dikenal menggunakan k=7 pada KNN (dalam %)
6 Hasil pengujian organisme tidak dikenal dengan PCA 95 (dalam %)
7 Perbandingan waktu komputasi data testing (organisme tidak dikenal)
dengan PCA dan tanpa PCA pada 7-NN (satuan dalam detik)
8 Perbandingan Penelitian terkait organisme tidak dikenal
9 Perbandingan Penelitian terkait organisme dikenal
10 Akurasi organisme dikenal menggunakan k=3 panjang 1 Kbp & 5
Kbp (dalam%)
11 Akurasi organisme dikenal menggunakan k=5 panjang 1 Kbp & 5
Kbp (dalam%)
12 Akurasi organisme dikenal menggunakan k=7 panjang 1 Kbp & 5
Kbp (dalam%)

4
10
11
11
12
13
15
15
15
19
19
20

DAFTAR GAMBAR
1Metode Penelitian
2 Ekstrasi Ciri N-Mers
3 Ilustrasi proses normalisasi
4 Ilustrasi dimensi m x n
5 Ilustrasi 5-Fold Cross Validation
6 Hasil ekstrasi ciri n=3 panjang fragmen 0,5 Kbp
7 Screenshot file FASTA dibangkitkan menggunakan METASIM
8 Normalisasi 3-mers panjang 0,5Kbp
9 Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 0.5 Kbp
10 Perbandingan akurasi dengan menggunakan PCA 95% dan tanpa PCA
untuk organisme dikenal

3
4
5
6
7
9
9
10
12
13

11 Perbandingan akurasi dengan menggunakan PCA 95% dan tanpa PCA
untuk organisme tidak dikenal
12 Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 1 Kbp
13 Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 5 Kbp
14 Pengaruh akurasi terhadap nilai k dan n pada panjang fragmen 10 Kbp

14
20
20
21

DAFTAR LAMPIRAN
1 Dataset organisme tidak dikenal
2 Jumlah Fragmen tiap organisme dikenal
3 Jumlah Fragmen tiap organisme tidak dikenal
4 Akurasi yang diperoleh untuk organisme dikenal
5 Pengaruh akurasi terhadap nilai n pada n-mers dan k pada KNN

18
18
19
19
20

PENDAHULUAN
Latar Belakang
Penelitian tentang analisis metagenom dalam lingkup bioinformatika terus
berkembang. Secara umum, analisis materi genetik dilakukan dengan cara
membudidayakannya di laboratorium, kemudian di-sequencing dan dilakukan
perakitan. Proses ini dilakukan untuk menghasilkan urutan rantai DNA yang
berisi informasi genetik suatu organisme. Akan tetapi, dari
banyak
mikroorganisme hanya 1% yang dapat dikulturkan. Sisanya harus mengambil
sampel langsung dari lingkungan. Ilmu yang mempelajari tentang analisis
metagenom dan materi genetiknya diperoleh langsung dari sampel lingkungan
disebut metagenomika (Wu 2008). Sampel ini ketika di-sequencing akan
menghasilkan fragmen-fragmen. Fragmen-fragmen yang berasal dari berbagai
organisme. Pada saat dilakukan perakitan fragmen-fragmen ini, akan
menghasilkan chimeric contigs gabungan fragmen yang berasal dari organisme
berbeda. Untuk itu diperlukan proses binning yang bertujuan untuk
mengklasifikasikan fragmen-fragmen tersebut ke dalam tingkat taksonomi
tertentu.
Proses binning dapat dilakukan dengan dua pendekatan, yaitu pendekatan
dengan homologi dan komposisi. Binning berdasarkan homologi dilakukan
penjajaran sekuens dengan membandingkan fragmen metagenom dengan basis
data sekuens National Centre for Biotechnology Information (NCBI), kemudian
hasilnya akan disimpulkan pada level taksonomi. Penelitian metode yang
menggunakan pendekatan homologi adalah BLAST (Wu 2008), dan MEGAN
(Huson et al. 2007). Pendekatan yang kedua adalah, binning berdasarkan
komposisi. Pendekatan komposisi tidak membandingkan sekuens kueri dengan
sekuens referensi sehingga pengelompokannya lebih cepat dibandingkan dengan
homologi. Pendekatan ini menggunakan pasangan basa hasil ekstrasi ciri sebagai
masukkan untuk pembelajaran dengan observasi (unsupervised) atau
pembelajaran dengan contoh (supervised) (Kusuma dan Akiyama 2011).
Pembelajaran unsupervised digunakan ketika tidak diketahui label dari data
yang harus dikelompokkan. Keluaran dari pendekatan ini adalah data yang telah
dikelompokkan. Clustering termasuk ke dalam pembelajaran unsupervised.
Adapun pembelajaran supervised, telah memiliki informasi mengenai label dari
tiap-tiap kelompok. Klasifikasi termasuk dalam pembelajaran supervised.
Penelitian metode yang menggunakan pembelajaran unsupervised yang diterapkan
pada kasus metagenom adalah TETRA (Teeling et al. 2004), GSOM atau
Growing Self Organizing (Hsu dan Halgamuge 2002; Overbeek 2013), SOC atau
Self Organizing Clustering (Amano et al. 2007). Adapun metode pembelajaran
supervised yang digunakan untuk menyelesaikan masalah metagenom adalah
Naïve Bayessian Classification (Rosen et al. 2008) dan PhyloPythia (McHardy et
al. 2007).
Penelitian Kusuma dan Akiyama (2011) melakukan binning fragmen
metagenom berdasarkan characterization vector. Penelitian ini menggunakan dua
data set yang dibangkitkan menggunakan MetaSim (Richter et al. 2008). Untuk
dataset organisme yang diketahui menggunakan sepuluh spesies dari tiga genus

2
dan dataset organisme baru menggunakan sembilan spesies dari tiga genus.
Metode yang digunakan sebagai ekstrasi ciri adalah n-mers. Panjang fragmen
yang digunakan 0.5 Kbp, 1 kbp, 5 kbp, 10 kbp. Akurasi yang didapat dengan
menggunakan data latih adalah 81% sampai 92%. Adapun untuk data uji, akurasi
didapat adalah 78% sampai dengan 87%. Secara umum, kinerja metode ini
menurun untuk pengklasifikasian pada data uji. Salah satu alasan kesalahan
pengklasifikasian karena adanya urutan rantai yang tumpang tindih dari spesies
yang berbeda, tetapi berada dalam genus yang sama. Penelitian terkait juga
dilakukan oleh Ellyana (2014) dengan melakukan pengklasifikasian fragmen
metagenom menggunakan fitur spaced n-mers dan k-nearest neighbor. Hasil
akurasi yang diperoleh untuk dataset organisme yang diketahui adalah 88.77%
sampai 99.65%.
Oleh karena itu, penelitian ini melakukan klasifikasi fragmen metagenom
menggunakan n-mers sebagai ekstrasi ciri, kemudian dilakukan pereduksian
dimensi menggunakan principal component analysis dan diklasifikasikan
menggunakan algoritme k-nearest neighbor. Akurasi yang diperoleh akan
dibandingkan dengan penelitian Ellyana (2014), dan Kusuma dan Akiyama
(2011).
Perumusan Masalah
Berdasarkan latar belakang yang telah diuraikan, masalah yang akan diteliti
dapat dirumuskan sebagai berikut:
1 Bagaimana pengaruh terhadap akurasi KNN?
2 Bagaimana pengaruh nilai k pada KNN terhadap hasil akurasi?
3 Bagaimana pengaruh nilai n pada n-mers terhadap hasil akurasi KNN?
4 Bagaimana hasil akurasi yang diterapkan pada organisme tidak
dikenal?
5 Berapa lama waktu komputasi terhadap pengujian selama proses
klasifikasi?
Tujuan Penelitian
Tujuan dari penelitian ini membuat model k-nearest neighbor dengan
reduksi dimensi principal component analysis. Setelah itu hasilnya dibandingkan
dengan penelitian sebelumnya.

Ruang Lingkup Penelitian
Ruang lingkup penelitian meliputi:
1. Data diperoleh dari NCBI yang dibangkitkan oleh perangkat lunak
MetaSim. Dataset merepresentasikan organisme yang dikenal dengan
organisme tidak dikenal.
2. Data yang digunakan merujuk pada penelitian Kusuma dan Akiyama
(2011) & Ellyana (2014).

3
3. Panjang fragmen untuk dataset organisme yang dikenal dan organisme
dikenal meliputi 0.5 kbp, 1 kbp, 5 kbp, dan 10 kbp. Dataset tersebut dipilih
dari genus Agrobacterium, Bacillus, dan Staphylococcus.
4. Sekuens DNA direpresentasikan sebagai empat karakter A, T, G, dan C. Data
berformat FASTA dan bebas error.
Manfaat Penelitian
Penelitian ini diharapkan dapat membantu para peneliti
pengklasifikasian fragmen metagenom berdasarkan tingkat genus.

dalam

METODE PENELITIAN
Penelitian ini dilaksanakan dalam beberapa tahapan yang diilustrasikan
pada Gambar 1
Mulai
Data Metagenome
NCBI
Generate Data
Ekstrasi Ciri
Normalisasi
Reduksi PCA 95%

Data Organisme
Tidak Dikenal

Pembagian Data
Ekstrasi Ciri
Data Uji

Data Latih

KNN

Normalisasi

F-Fold Cross Validation

Eigenvector
Model terbaik

Analisis
Selesai

Gambar 1 Metode Penelitian

4
Data Metagenome NCBI
Data diunduh dari situs NCBI (National Center for Biotechnology
Information) pada
ftp://ftp.ncbi.nlm.nih.gov/genomes/Bacteria/all.fna.tar.gz.
Kemudian data metagenom dibangkitkan menggunakan MetaSim, dengan format
FASTA. Dataset terdiri atas dataset organisme dikenal dan dataset organisme
tidak dikenal. Dataset organisme latih terdiri atas sepuluh spesies yang dibagi
menjadi data latih dan data uji dapat dilihat pada Tabel 1. Adapun dataset
organisme tidak dikenal terdiri atas sembilan spesies (Lampiran 1). Panjang
fragmen untuk setiap dataset terdiri atas 0.5 Kbp, 1 Kbp, 5 Kbp, dan 10 Kbp.
Jumlah fragmen untuk dataset organisme dikenal adalah 10000 dan organisme
tidak dikenal adalah 5000.
Tabel 1 Organisme dikenal
Species
Agrobacterium radiobacter K84 chromosome 2
Agrobacterium tumefaciens str. C58 chromosome
circular
Agrobacterium vitis S4 chromosome 1
Bacillus amyloliquefaciens FZB42
Bacillus anthracis str. Ames Ancestor
Bacillus cereus 03BB102
Bacillus pseudofirmus OF4 chromosome
Staphylococcus aureus subsp. Aureus JH1
Staphylococcus epidermidis ATCC 12228
Staphylococcus haemolyticus JCSC1435

Genus
Agrobacterium

Bacillus

Staphylococcus

Ekstrasi Ciri
Pada tahapan ekstrasi ciri dilakukan menggunakan metode n-mers. Metode
ini digunakan untuk mengetahui intensitas atau banyaknya kemunculan substring
tertentu pada sebuah string. Intensitas kemunculan string tersebut dapat dijadikan
sebagai penciri dari suatu kelompok string. Data sekuens DNA merupakan data
string, oleh karena itu ekstraksi ciri yang digunakan pada penelitian ini untuk data
set DNA adalah n-mers dengan n = 3, 4, 5. Pola kemunculan dalam sekuens
dihitung menggunakan empat basa utama (A, T, G, dan C) dipangkat dengan
rangkaian pasangan basa yang ingin digunakan (pola kemunculan : 4n, dengan
n>= 1) (Kusuma 2011). Gambar 2 merupakan ilustrasi ekstrasi ciri n-mers.

Gambar 2 Ekstrasi Ciri N-Mers

5
Normalisasi
Jumlah substring pada fragmen yang telah diekstrasi sangatlah bervariasi.
Ada yang memiliki nilai yang sangat besar atau sangat kecil, dan jika dikurangkan
akan menghasilkan selisih yang sangat besar. Maka dari itu perlu dilakukan
normalisasi sehingga nilai yang diperoleh dapat diskalakan ke dalam batas nilai
tertentu. Skala nilai berada pada rentang [0.0,1.0].
Normalisasi min-max menggunakan transformasi linear. Proses
normalisasi dilakukan dengan mengurangkan nilai data asli dengan nilai minimal,
lalu dibagi dengan nilai maksimal dikurangkan dengan nilai minimal. Diperoleh
dengan persamaan berikut (Han et al. 2011),
v-min
newmax -newmin +newmin
v' =
max-min
Berikut merupakan ilustrasi dari tahapan normalisasi (Gambar 3).
AAA
2
3

AAT
12
1

...
...
...

CCC
5
7

Normalisasi

AAA AAT
0,0909 1
0,1818 0

...
...
...

CCC
0,3636
0,5454

Gambar 3 Ilustrasi proses normalisasi
Reduksi Dimensi dengan PCA
Pada tahap ini, reduksi dimensi dari fragmen metagenom dilakukan
menggunakan teknik Principal Component Analysis. PCA merupakan teknik
multivariate yang paling banyak digunakan pada hampir semua bidang. Teknik ini
mereduksi dimensi himpunan peubah yang biasanya terdiri atas peubah yang
banyak dan saling berkorelasi menjadi peubah baru yang tidak berkorelasi.
Teknik ini mempertahankan sebanyak mungkin keragaman dalam himpunan data
tersebut serta menghilangkan peubah-peubah asal yang mempunyai sumbangan
informasi yang relatif kecil.
Hal yang pertama dilakukan adalah mendapatkan dimensi data yang ingin
direduksi. Setelah itu, rata-rata dari dimensi tersebut dihitung dengan rumus
sebagai berikut:
n
i=1 Xi
X=
n
Kemudian nilai data tiap dimensi dikurangkan dengan nilai rata-rata
dimensi, dengan rumus sebagai berikut:
Data adjust = (Xi -X)
Lalu langkah selanjutnya adalah menghitung nilai matriks kovarian dari
data adjust dengan rumus sebagai berikut (Smith 2002):
var(X)
cov(X,Y)
C=
cov(Y,X)
var(Y)
var X =

n
i=1

Xi -X Xi -X
(n-1)

6
n
i=1

Xi -X Yi -Y
(n-1)
Selanjutnya nilai eigenvector, eigenvalues, dan explained dihitung. Untuk
menghitung eigenvalues, diperlukan matriks persegi A (k x k) dan matriks
identitas kemudian dihitung dengan rumus sebagai berikut:
A-λ I = 0
cov X,Y =

Kemudian hitung determinan matriks persegi A (k x k) dan, λ menjadi
x
eigenvalues dari A. Jika (k=1) adalah nonzero vector x ≠0 , sehingga A x= λ x. x
adalah eigen vector (characteristic vector) dari matriks A yang terkait dengan
eigenvalue λ. Kolom dari A-λ I tergantung sehingga |A-λ I|=0. Eigenvalues sendiri
menunjukan tingkat kepentingan suatu kolom dari eigenvector (Johnson RA dan
Wichern DW 2007). Nilai explained dihitung dengan rumus sebagai berikut:
eigenvalue
explained=
×100%
eigenvalue
Tahapan terakhir yaitu kita memilih komponen eigenvector yang
menyimpan data asli dan membentuk feature vector, kemudian di transpose lalu
dikalikan dengan data adjust transpose, kemudian di transpose lagi dengan
menggunakan rumus (Smith 2002):
Final Data=(RowFeatureVectorT ×RowDataAdjustT )T
Pada penelitian ini nilai proporsi kumulatif keragaman data asal yang dipilih
adalah sebesar 95%. Berikut merupakan ilustrasi dimensi m × n, dimana nilai
= 10000 pembacaan data, dan = 64 diperoleh dari frekuensi n-mers (Gambar 4).

Gambar 4 Ilustrasi dimensi m x n

F-Fold Cross Validation
F-fold cross-validation digunakan untuk membagi data menjadi data latih
dan data uji. Metode ini melakukan perulangan sebanyak f kali untuk membagi
sebuah himpunan contoh secara acak menjadi f-subset yang saling bebas. Setiap
ulangan disisakan satu subset untuk pengujian, dan sisanya digunakan untuk

7
pelatihan (Fu 1994). Jumlah dataset organisme yang diketahui 10000 framen, f
yang digunakan menggunakan 5-Fold. Untuk data latih digunakan 8000 fragmen,
sedangkan data uji digunakan 2000 fragmen. Diilustrasikan pada Gambar 5.

Gambar 5 Ilustrasi 5-Fold Cross Validation

K-Nearest Neighbor
Metode klasifikasi yang digunakan pada penelitian ini yaitu K-Nearest
Neighbor (KNN). KNN banyak diterapkan dalam pengenalan pola dan data
mining untuk klasifikasi. KNN merupakan algoritme supervised dalam klasifikasi
dimana hasil dari kueri instance yang baru diklasifikasikan berdasarkan mayoritas
kategori pada k tetangga terdekat. KNN mengklasifikasi objek baru berdasarkan
atribut dan training samples (Larose 2001).
Konsep dasar dari KNN adalah mencari jarak terdekat antara data yang akan
dievaluasi dengan k tetangga terdekatnya. Nilai dari jarak antara data uji dengan
data latih diurutkan dari nilai terendah. Kelas dari nilai dengan jarak terendah
diperiksa. Kelas yang memiliki nilai vote tertinggi menjadi kelas dari data uji
tersebut.
Jarak antara dua titik dalam ruang fitur dapat didefiniskan dengan banyak
cara, salah satunya menggunakan jarak Euclid. Hasil dari perhitungan jarak Euclid
digunakan untuk menentukan kemiripan antara data latih dan data uji. Kecocokan
dilihat dari nilai (jarak) yang paling minimum. Jarak Euclid diperoleh dengan
menggunakan persamaan berikut.
n

(pi -qi )2

dist(p,q)=
i=1

dengan :dist(p,q)
pi
qi
n

= jarak sampel
= data sampel ke-i
= data input ke-i
= jumlah sampel

Tahapan algoritme KNN adalah sebagai berikut (Song et al. 2007) :
1 Menentukan nilai k, dengan k merupakan jumlah tetangga terdekat.
2 Menghitung jarak data pada setiap data latih dengan menggunakan jarak
Euclid.
3 Mendapatkan k data yang memiliki jarak terdekat.

8
Pengujian dengan Organisme Tidak Dikenal
Pengujian organisme tidak dikenal dilakukan dengan melakukan klasifikasi
terlebih dahulu pada fragmen organisme dikenal. Setelah itu diperoleh akurasi
tertinggi dari organisme dikenal yang kemudian dijadikan sebagai data latih. Data
ujinya diperoleh dari organisme tidak dikenal. Kemudian, data uji diujikan ke data
latih menggunakan algoritme KNN.

Analisis
Hasil penelitian diukur dengan menghitung tingkat akurasi dari data set uji.
Persamaan untuk menghitung akurasi diperoleh sebagai berikut.
data uji benar
akurasi=
x 100%
data uji

Ruang Lingkup Sistem
Penelitian dilakukan dengan menggunakan perangkat keras dan perangkat
lunak sebagai berikut:
1. Perangkat keras berupa komputer personal dengan spesifikasi:
 Processor Intel(R) Dual Core(TM)
 RAM 2 GB
 160 GB
2. Perangkat lunak :
 Sistem operasi Windows 8.0 32-bit
 Sistem operasi Ubuntu 13.10
 MetaSim
 Matlab R2013a
 Notepad++
 Codeblocks 12.11

HASIL DAN PEMBAHASAN
Penyiapan Data
Data metagenome berupa sequens DNA yang diunduh dari situs NCBI.
Sequens DNA tersebut berasal dari sepuluh organisme untuk organisme yang
dikenal dan sembilan organisme tidak dikenal.Jumlah fragmen untuk organisme
dikenal adalah 10000, sedangkan organisme tidak dikenal 5000.
Kemudian jumlah fragmen 10000 tersebut dibagi secara merata untuk tiga
genus yang terdiri dari 10 organisme. Genus agrobacterium, jumlah fragmennya
3450. Genus bacillus, jumlah fragmennya 3400. Sedangkan genus
staphylococcus, berjumlah 3150. Untuk jumlah fragmen organisme tidak dikenal
sebanyak 5000. Dibagi secara merata untuk terhadap 9 organisme dari 3 genus.

9
Jumlah fragmen untuk genus agrobacterium sebesar 1700, genus bacillus jumlah
fragmennya 1600, dan genus staphylococcus jumlah fragmennya 1600. Untuk
pembagian selengkapnya dapat dilihat pada Lampiran 3 dan 4.
Langkah selanjutnya yang dilakukan adalah, membangkitkan sekuens
DNA setiap organisme sesuai dengan jumlahnya menggunakan MetaSim (Gambar
6). Panjang fragmen yang digunakan untuk kedua dataset adalah 0,5 Kbp, 1 Kbp,
5 Kbp, 10 Kbp.

Gambar 6 Screenshot file FASTA dibangkitkan menggunakan METASIM

Ekstrasi Ciri
Ekstrasi ciri pada penelitian ini menggunakan n-mers dengan nilai n=3, 4, 5.
Proses ekstrasi ciri menghasilkan banyaknya pasangan trinukleotida,
tetranukleotida, pentanukleotida. Untuk n = 3 pola kemunculan yang dihasilkan
43= 64 yang menghasilkan substring dari AAA sampai CCC. Untuk n = 4 pola
kemunculan yang didapatkan 44= 256 yang menghasilkan substring dari AAAA
sampai CCCC. Kemudian n = 5 pola kemunculan yang dihasilkan 45= 1024 dan
menghasilkan substring dari AAAAA sampai CCCCC. Ekstrasi ciri menghasilkan
array jumlah fragmen m x n kombinasi. Pada organisme dikenal jika n=3, maka
array dimensinya 10000 x 64, selanjutnya n= 4, array dimensinya 10000 x 256,
dan n= 5 array dimensinya 10000 x 1024.Hal yang sama dilakukan terhadap
organisme tidak dikenal. Array dimensinya 5000 x 64 untuk n=3. Berikut
merupakan screenshoot hasil ekstrasi ciri dari n=3 dengan panjang 0,5 Kbp
(Gambar 7).

Gambar 7 Hasil ekstrasi ciri n=3 panjang fragmen 0,5 Kbp

10

Normalisasi
Normalisasi bertujuan untuk mengurangi hasil ekstrasi ciri yang bervariasi.
Skala nilai matriks komposisi berada pada rentang 0 dan 1 yang menggunakan
metode scaling. Berikut merupakan screenshot hasil normalisasi pada organisme
dikenal dengan n=3, panjang fragmen 0,5 Kbp (Gambar 8).

Gambar 8 Normalisasi 3-mers panjang 0,5Kbp
Reduksi Dimensi menggunakan PCA
Analisis komponen utama bertujuan untuk mereduksi dimensi asal yang
semula terdapat p variabel bebas menjadi q komponen utama (dimana q