Clustering metagenome fragments using growing self organizing map

PENGELOMPOKAN FRAGMEN METAGENOM DENGAN
METODE GROWING SELF ORGANIZING MAP

MARLINDA VASTY OVERBEEK

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa tesis berjudul Pengelompokan Fragmen
Metagenom dengan Metode Growing Self Organizing Map adalah benar karya
saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk
apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau
dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah
disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.

Bogor, Oktober 2013
Marlinda Vasty Overbeek
NIM G651110601

RINGKASAN
MARLINDA VASTY OVERBEEK. Pengelompokan Fragmen Metagenom
dengan Metode Growing Self Organizing Map. Dibimbing oleh WISNU
ANANTA KUSUMA dan AGUS BUONO.
Metagenom adalah penelitian tentang bagaimana menganalisis mikrob
berskala besar dan memperbolehkan adanya pengkulturan secara langsung.
Pengelompokan fragmen metagenom secara langsung bisa berakibat fatal karena
bisa menyebabkan terjadinya interspesies chimeras atau kesalahan dalam
perakitan fragmen metagenom. Pengelompokan fragmen metagenom pada
lingkungan juga pada umumnya menggunakan supervised learning, sedangkan
supervised learning merupakan pembelajaran yang menggunakan contoh dan
bergantung pada ketersediaan data latih. Selain itu, pengelompokan juga
menggunakan panjang fragmen yang panjang, yaitu ≥ 8 kbp dan berkomunitas
kecil atau kurang dari 100 mikrob. Tujuan penelitian ini adalah untk menganalisis
efektifitas dan efisiensi metode Growing Self Organizing Map dalam
pengelompokan mikrob yang berskala besar dengan panjang fragmen yang

pendek berdasarkan frekuensi oligonukleotida. Frekuensi oligonukleotida yang
digunakan adalah trinukleotida, tetranukleotida, dan juga kombinasi frekuensi
yang memperhatikan kondisi don’t care, yaitu spaced k-mer. Untuk ekstraksi
fitur, digunakan k-mer frequency dan spaced k-mer frequency.
Berdasarkan uji kombinasi parameter menggunakan frekuensi
oligonukleotida, kombinasi terbaik antara Learning Rate dan Neighborhood Size
untuk frekuensi trinukleotida adalah 0.1 untuk Learning Rate, 1 untuk
Neighborhood Size dengan perhitungan quantization error adalah 0.531, 0.101
untuk topographic error, dan 16.84% untuk persentase error. Kombinasi terbaik
tetranukleotida adalah 0.75 untuk Learning Rate dan 1 untuk Neighborhood Size,
dengan memberikan nilai error 0.886 untuk quantization error, 0.09 untuk
topographic error, dan 15.43% untuk persentase error. Untuk spaced k-mer,
kombinasi terbaik adalah 0.5 untuk Learning Rate dan 1 untuk Neighborhood Size
dengan quantization error adalah 0.665, 0.06 untuk topographic error dan
13.07% untuk persentase error. Perhitungan kombinasi untuk ketiga frekuensi
oligonukleotida menggunakan map size dan dan training lenght yang sama, yaitu
[10 10] dan 10 epochs.
Dari hasil kombinasi parameter, frekuensi spaced k-mer menjadi frekuensi
terbaik untuk pengelompokan fragmen metagenom dengan metode Growing Self
Organizing Map. Dengan menggunakan map size yang berukuran antara [100 –

500], unit peta dari 100 – 5000 unit, dan training lenght 10 epochs, didapatkan
hasil terbaik pelatihan adalah pada map size [100 150] dengan unit peta sebanyak
300 unit. Waktu latih yang diperlukan adalah 51 menit dengan persentase error
6.43%.
Kata kunci: fragmen metagenom, Growing Self Organizing Map, Pengelompokan

SUMMARY
MARLINDA VASTY OVERBEEK. Clustering Metagenome Fragments using
Growing Self Organizing Map. Supervised by WISNU ANANTA KUSUMA and
AGUS BUONO.
Metagenome is a research about analyzing microbes in the large
community and allowed the culture-independent. The microorganism samples
taken directly from environment is not easy to assembly because contains mixture
microorganism. If sample complexity is very high and come from high diversity
environment, difficulties of assembling DNA sequence are increasing because the
interspecies chimeras can be happen. Clustering commonly using supervised
learning, but the supervised learning depends on avaibillity of data training.
Because of that, in this research we used unsupervised learning to clustering the
metagenome fragments. Beside that, clustering usually using the longer
fragments, which is ≥ 8 kbp and have a small community (less than 100

microorganism). The purpose of this research is to analyze the effectiveness and
efficiency of Growing Self Organizing Map to the clustered large community of
metagenome fragments. We used trinucleotide, tetranucleotide, and combination
of oligonucleotide frequency that consider the don’t care situation called spaced kmer frequency as a features. As a feature extraction, we using k-mer and spaced kmer.
Based on parameter combination using oligonucleotide frequency, the best
combine between Learning Rate and Neighborhood Size is a spaced k-mer
frequency. We tested to get a better parameter combinatoin into [10 10] map size
and 10 epochs training lenght. Error to mapped metagenome fragments using
spaced k-mer frequency is 0.665 for quantization error, 0.06 for topographic error
and 13.07% for error percentage.
Using the map size between [100 – 500], map unit 300 – 5000 unit, and
training lenght 10 epochs, gives the best training in the map size [100 150] with
300 map unit. The training time is 51 minutes and percentage error is 6.43%.
Keywords: Clustering, Growing Self Organizing Map, metagenome fragments

© Hak Cipta Milik IPB, Tahun 2013
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau

tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB

PENGELOMPOKAN FRAGMEN METAGENOM DENGAN
METODE GROWING SELF ORGANIZING MAP

MARLINDA VASTY OVERBEEK

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Komputer
pada
Program Studi Ilmu Komputer

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2013


Judul Tesis : Pengelompokan Fragmen Metagenom dengan Metode Growing Self
Organizing Map
: Marlinda Vasty Overbeek
Nama
: G651110601
NIM

Disetujui oleh
Komisi Pembimbing

Buono MSi MKom
Anggota

Dr En

Diketahui oleh

Ketua Program Studi
I1mu Komputer


Tanggal Ujian: 22 Juli 2013

Tanggal Lulus:

0 7 0LT 2013

Penguji pada Ujian Tertutup: Dr Ir Iman Rusmana, MSi

PRAKATA
Puji dan syukur penulis panjatkan kepada Tuhan yang Maha Kuasa atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Penelitian ini
sudah dikerjakan dari bulan September 2012 dengan judul Pengelompokan
Fragmen Metagenom dengan Metode Growing Self Organizing Map.
Terima kasih penulis ucapkan kepada Bapak Dr Eng Wisnu Ananta
Kusuma, ST, MT dan Bapak Dr Ir Agus Buono, MSi, MKom selaku pembimbing
yang telah banyak memberi saran, kepada Bapak Dr Ir Iman Rusmana, MSi
selaku penguji. Selain itu, penulis menyampaikan terima kasih kepada semua
dosen dan staf Departemen Ilmu Komputer IPB yang telah membantu selama
proses penelitian. Ungkapan terima kasih juga disampaikan kepada Papa John dan

Mama Naniek, Mbak Yoanita, Kak Alex, Mas Andrew, Mbak Santhy, Kevin
Joshua, Mama Yosina, dan Fajar Ndolu atas doa, perhatian dan kasih sayangnya.
Teman-teman Dwi Regina (Frinsa, Mentari, Inna, Toyibah, Astrid, Lian, Erlisa),
teman sepembimbingan Bapak Wisnu (Dian, Aa Bahrul, Kang Asril) dan temanteman seperjuangan angkatan 13 Ilmu Komputer IPB yang selalu bersama penulis
dua tahun ini, terima kasih atas dukungannya. Penulis juga tidak lupa berterima
kasih pada jajaran dosen dan staf STIKOM Uyelindo Kupang atas semua bantuan
yang diberikan kepada penulis.
Semoga karya ilmiah ini bermanfaat.

Bogor, Oktober 2013
Marlinda Vasty Overbeek

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi


DAFTAR LAMPIRAN

vi

1 PENDAHULUAN
Latar Belakang
Perumusan Masalah
Tujuan Penelitian
Manfaat Penelitian
Ruang Lingkup Penelitian

1
1
3
3
3
3

2 TINJAUAN PUSTAKA

Metagenom
Ekstraksi Ciri
Growing Self Organizing Map

4
4
4
5

3 METODE PENELITIAN

8

4 HASIL DAN PEMBAHASAN

17

5 SIMPULAN

36


DAFTAR PUSTAKA

37

LAMPIRAN
RIWAYAT HIDUP

40
59

DAFTAR TABEL
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

Dimensi hasil ekstraksi ciri
Filum berdasarkan NCBI Taxonomy Browser
Pembagian mikrob data latih dan data uji
Pembangkitan data latih
Pembangkitan data uji
Perhitungan quantization error pada trinukleotida
Perhitungan topographic error pada trinukleotida
Perhitungan persentase error pada trinukleotida
Perhitungan quantization error pada tetranukleotida
Perhitungan topographic error pada tetranukleotida
Perhitungan persentase error pada tetranukleotida
Perhitungan quantization error pada spaced k-mer
Perhitungan topographic error pada spaced k-mer
Perhitungan persentase error pada spaced k-mer
Parameter pengujian
Hasil pelatihan frekuensi spaced k-mer
Daftar organisme yang memiliki kesamaan dari hasil alignment
Bacteroides fragilis 638R pada BLAST

10
11
19
19
20
24
24
24
26
26
27
29
29
29
32
32
34

DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

Binning sampel metagenomik (Kusuma 2012)
Ekstraksi ciri (a) k-mer (b) spaced k-mer (Kusuma 2012)
Aturan inisialisasi node (Zhu dan Zhu 2010)
Skema penelitian pengelompokan fragmen metagenom
Prosedur analisis
Contoh hasil simulasi MetaSim
Praproses data dengan decimal scaling
Blok diagram pengelompokan dengan GSOM
Fase inisialisasi
Inisialisasi starting node
Best Matching Unit (Vesanto et al. 2000)
Pengukuran quantization error
Pengukuran topographic error
Matriks komposisi salah satu frekuensi oligonukleotida
Matriks decimal scaling salah satu frekuensi oligonukleotida
Inisialisasi bobot pada frekuensi oligonukleotida
Pemetaan frekuensi trinukleotida
Pemetaan frekuensi tetranukleotida
Pemetaan frekuensi spaced k-mer
Perhitungan quantization error pada trinukleotida
Perhitungan topographic error pada trinukleotida
Perhitungan persentase error pada trinukleotida
Perhitungan quantization error pada tetranukleotida
Perhitungan topographic error pada tetranukleotida
Perhitungan persentase error pada tetranukleotida

4
5
7
8
9
10
11
12
13
13
15
15
16
17
18
21
22
22
23
25
25
26
27
28
28

26
27
28
29
30
31

Perhitungan quantization error pada spaced k-mer
Perhitungan topographic error pada spaced k-mer
Perhitungan persentase error pada spaced k-mer
Hasil pengelompokan Bacteroides fragilis 638R dengan 1024 reads
Data yang digunakan dengan panjang sekuens query 1000 (1 kbp)
Hit dari 17 organisme yang memiliki kesamaan dengan Bacteroides
fragilis 638R

30
30
31
33
33
34

DAFTAR LAMPIRAN
1
2
3
4
5
6

Daftar mikrob yang digunakan sebagai data latih
Daftar mikrob yang digunakan sebagai data uji
Hasil analisis pengelompokan frekuensi trinukleotida map size [10 10]
dengan Learning Rate 0.1 dan Neighborhood Size 1
Hasil analisis pengelompokan frekuensi tetranukleotida map size [10
10] dengan Learning Rate 0.75 dan Neighborhood Size 1
Hasil analisis pengelompokan frekuensi spaced k-mer map size [10 10]
dengan Learning Rate 0.5 dan Neighborhood Size 1
Pohon taksonomi BLAST dari organisme yang memiliki kesamaan
dengan Bacteroides fragilis 638R

40
45
48
51
54
57

1

1 PENDAHULUAN
Latar Belakang
Penelitian tentang metagenom terus berkembang dalam lingkup biologi
molekuler. Analisis tentang metagenom disebut dengan metagenomik, yaitu
analisis tentang mikrob yang berskala besar yang diambil langsung dari habitat
asal mikrob tersebut (Chan et al. 2007; O’Malley 2012). Pengisolasian mikrob
secara langsung seringkali memiliki kendala untuk mengetahui komunitas
sesungguhnya dari suatu ekosistem karena hanya 1% mikrob yang dapat diisolasi
langsung dari lingkungan (Harayama et al. 2004). Contoh dari kesulitan untuk
isolasi lagsung dari lingkungan adalah proyek laut Sargasso (Venter et al. 2004).
Istilah low-abundance digunakan untuk menggambarkan keadaan ini. Lowabundance adalah rendahnya representasi relatif keanekaragaman mikrob dalam
sampel lingkungan sehingga masih banyak mikrob yang belum dikenali dan
dimanfaatkan (Chan et al. 2007; Harayama et al. 2004). Low-abundance pada
fragmen metagenom yang berukuran besar sering menimbulkan kendala dalam
perakitan genom dan menyebabkan mikrob sulit dikelompokan secara filogenetik
(Chan et al. 2007). Kesalahan dalam perakitan fragmen metagenom disebut
interspecies chimeras (Meyerdierks dan Glockner 2012).
Untuk menyelesaikan permasalahan tersebut, binning digunakan untuk
mengelompokan mikrob berdasarkan tingkatan taksonomi. Ada dua pendekatan
binning, yaitu berdasarkan homologi dan berdasarkan komposisi. Binning
berdasarkan homologi melakukan pencarian penjajaran sekuens dengan
membandingkan fragmen metagenom dengan basis data sekuens antara lain
National Centre for Biotechnology Information (NCBI) dan hasilnya akan
disimpulkan pada tiap level taksonomi. Hal tersebut menyebabkan pendekatan
dengan homologi membutuhkan banyak waktu dalam proses pengelompokan.
Contoh metode yang menggunakan pendekatan homologi adalah BLAST (Wu
2008; Zheng dan Wu 2009) dan MEGAN (Huson et al. 2007).
Pendekatan kedua adalah pendekatan berdasarkan komposisi. Pendekatan
ini menggunakan pasangan basa hasil ekstraksi fitur sebagai masukkan untuk
pembelajaran dengan contoh (supervised) atau pembelajaran dengan observasi
(unsupervised). Tidak seperti pendekatan secara homologi, pendekatan secara
komposisi tidak perlu membandingkan dan menyimpulkan setiap hasil pencarian
pada tiap level taksonomi sehingga waktu yang diperlukan untuk pengelompokan
lebih cepat dibandingkan dengan pendekatan secara homologi. Contoh metode
binning berdasarkan komposisi dengan unsupervised learning adalah TETRA
(Teeling et al. 2004), Chisel System (Rodriguez et al. 2007), ESTmapper (Wu et
al. 2006), GSOM atau Growing Self Organizing Map (Hsu dan Halgamuge 2002;
Chan et al. 2007), Kohonen SOM atau Kohonen Self Organizing Map (Abe et al.
2003), Meta-Clust (Woyke et al. 2006), dan SOC atau Self Organizing Clustering
(Amano et al. 2003; Amano et al. 2007). Adapun contoh metode binning
berdasarkan komposisi dengan supervised learning adalah ClaMS (Pati et al.
2011), PhyloPythia (McHardy et al. 2007), Naïve Bayessian Classification (Rosen
et al. 2008), dan Phymm (Brady dan Salzberg 2009).

2
Sebagian besar proses binning masih menggunakan pembelajaran dengan
contoh (supervised learning). Pembelajaran dengan contoh bergantung pada
ketersediaan data latih padahal data latih yang tersedia tidak cukup
merepresentasikan keragaman mikrob (Prabhakara dan Acharya 2012).
Pembelajaran dengan observasi (unsupervised learning) memberikan solusi
terhadap keterbatasan data latih yang tersedia karena unsupervised learning akan
menyusun data fragmen metagenom secara lebih terstruktur sebelum
perbandingan sekuens dilakukan. Dengan demikian fragmen metagenom akan
lebih cepat dan lebih kuat (robust) untuk dirakit (Nasser et al. 2008).
Dari beberapa pendekatan binning berdasarkan komposisi dengan
unsupervised learning, metode GSOM memberikan hasil terbaik dalam pemetaan
fragmen metagenom. Oleh sebab itu, pada penelitian tentang pengelompokan
fragmen metagenom ini akan menggunakan metode GSOM.
Metode GSOM merupakan perbaikan dari keadaan statik metode Kohonen
SOM (Chan et al. 2007). GSOM sukses memetakan data dalam bentuk
microarray (Hsu et al. 2003) dan juga memetakan data prokariota dengan panjang
≥ 8 kbp (Chan et al. 2007). Hasil yang didapatkan adalah pada pengelompokan
mikrob dengan empat frekuensi oligonukleotida (di-, tri-, tetra-, dan
pentanukleotida) pada tiga dataset mikrob, pengelompokan menggunakan
frekuensi dinukleotida tidak terlalu memberikan hasil yang baik sehingga
disarankan utuk menggunakan frekuensi oligonukleotida yang lebih tinggi. Dalam
perbandingan kecepatan, GSOM mengalami peningkatan kecepatan 37 %
dibandingkan metode SOM pada dua dataset pertama dan untuk keseluruhan tiga
dataset terjadi peningkatan kecepatan 7 % - 15 %.
Penelitian fragmen metagenom menggunakan unsupervised learning
umumnya hanya menggunakan komunitas yang kecil. Sedangkan untuk ekstraksi
ciri, pengelompokan fragmen metagenom masih menggunakan k-mer dan belum
memperhatikan kondisi don’t care. Ekstraksi ciri dengan memperhatikan kondisi
don’t care disebut dengan spaced k-mer (Kusuma 2012). Spaced k-mer
menyediakan vektor berdimensi lebih kecil yang berisi informasi yang lebih kaya
dan berguna dibandingkan dengan vektor masukan hasil ekstraksi fitur
menggunakan k-mer (Kusuma 2012).
Pada penelitian ini digunakan komunitas spesies yang cukup besar, yaitu
300 spesies dan data spesies tersebut diambil dari basis data NCBI. Panjang
fragmen yang digunakan adalah 1 kbp dengan frekuensi oligonukleotida
trinukleotida dan tetranukleotida. Alasan digunakan fragmen yang pendek karena
pada penelitan terdahulu, panjang fragmen yang digunakan adalah fragmen yang
panjang (≥ 8 kbp). Pada penelitian ini hendak mengatasi kelemahan dari
penggunaan fragmen pendek dalam pengelompokan fragmen metagenom. Selain
itu, penelitian ini menggunakan kondisi don’t care untuk menghitung hasil
matriks komposisi. Hasil dari pengelompokan fragmen metagenom tersebut akan
diuji efektifitas dan efisiensinya.

3
Perumusan Masalah
Adapun permasalahan yang akan menjadi bahan analisis adalah mengetahui
berapa tingkat akurasi efektifitas dan efisiensi menggunakan metode GSOM
menggunakan frekuensi trinukleotida, tetranukleotida, dan spaced k-mer pada
panjang fragmen yang pendek.

Tujuan Penelitian
Menganalisis efektifitas dan efisiensi metode GSOM dalam pengelompokan
mikrob berskala besar pada tingkat taksonomi filum berdasarkan frekuensi
trinukleotida, tetranukleotida dan spaced k-mer dengan fragmen yang pendek (1
kbp).
Manfaat Penelitian
Adapun manfaat dari penelitian yang dilakukan adalah untuk memberikan
landasan bagi penelitian lanjutan di bidang metagenomik, khususnya yang
memerlukan informasi kekerabatan antar organisme yang terdapat pada komunitas
atau sampel yang diamati.

Ruang Lingkup Penelitian
Ruang lingkup penelitian ini adalah :
1. Data latih terdiri atas 200 mikrob yang berasal dari 20 filum
2. Data uji yang terdiri atas 100 mikrob yang termasuk dalam taksonomi yang
sama dengan data latih untuk mengetahui kualitas kebaikan pengelompokan
fragmen metagenom dengan GSOM
3. Fragmen yang digunakan dihasilkan dari simulasi perangkat lunak. Panjang
fragmen yang digunakan adalah tetap, yaitu 1 kbp

4

2 TINJAUAN PUSTAKA
Metagenom
Metagenomik adalah penelitian tentang mikrob yang sampelnya diambil
secara langsung dari komunitas mikrob. Umumnya komunitas mikrob tersebut
memiliki keanekaragaman yang tinggi dan berskala besar (Chan et al. 2007;
O’Malley 2012).
Pengambilan sampel langsung dari lingkungan atau isolasi secara langsung
sering menyebabkan terjadinya masalah. Masalah yang sering muncul adalah
ketika sampel yang diambil memiliki kompleksitas yang tinggi, yaitu setiap
mikrob yang berada dalam sampel memiliki kekerabatan yang dekat dan hal
tersebut sering menyebabkan kesalahan dalam perakitan fragmen metagenom
yang disebut dengan interspecies chimeras (Meyerdierks dan Glockner 2010).
Untuk menghindari terjadinya interspecies chimeras, maka fragmen
metagenom perlu dikelompokan berdasarkan tingkat taksonomi atau disebut
dengan binning (Meyerdierks dan Glockner 2010). Pada pengelompokan atau
binning fragmen metagenom, sangat mungkin tiap kelompok atau bin memiliki
mikrob yang sama berdasarkan tingkat taksonominya. Gambar 1 menunjukkan
bagaimana binning fragmen metagenom dan proses perakitan DNA diperlukan di
dalam proses analisis metagenom (Kusuma 2012).

Gambar 1 Binning sampel metagenomik (Kusuma 2012)

Ekstraksi Ciri
K-mer adalah substring dengan panjang k (k adalah panjang fragmen
metagenom). Analisis dari k-mer digunakan untuk menemukan frekuensi dari
semua k-mer. Pola kemunculan k adalah pola yang menampilkan k pada suatu
waktu dalam suatu sekuens (Choi dan Cho 2002).
Pola kemunculan dalam dalam sekuens dihitung menggunakan empat basa
utama (A, T, G, dan C) dipangkat dengan rangkaian pasangan basa yang ingin
digunakan (pola kemunculan :
, dengan
). Selain menggunakan
frekuensi k-mer, digunakan spaced k-mer yang memperhitungkan kondisi don’t
care.
Spaced k-mer dikemukakan oleh Kusuma (2012) yang menyimpulkan
bahwa terbaik dari klasifikasi metagenom dicapai dengan menggunakan
,
dan
, dengan
merepresentasikan kondisi exact matching dan

5
adalah posisi dari kondisi don’t care (*). Dari hasil percobaan, didapatkan hasil
akurasi terbaik adalah pada pola 111 1*11 1**11. Hasil dari perhitungan ekstraksi
fitur menggunakan frekuensi k-mer dan spaced k-mer ini yang akan digunakan
sebagai masukkan pada unsupervised learning dan supervised learning (Gambar
2).

(a)

(b)
Gambar 2 Ekstraksi ciri (a) k-mer (b) spaced k-mer (Kusuma 2012)

Growing Self Organizing Map
GSOM adalah salah satu varian dari metode SOM. GSOM merupakan
dinamik SOM yang digunakan untuk memperbaiki keadaan statik dari metode
SOM (Chan et al. 2007). Pemetaan data dengan metode GSOM biasanya
merupakan data yang berdimensi tinggi. Hasil pemetaan ditampilkan berdasarkan
topologi data, jadi data yang mirip akan dipetakan berdasarkan kedekatan ciri
atau karakteristiknya pada peta dua dimensi atau tiga dimensi.
GSOM memiliki tiga fase utama, yaitu fase inisialisasi, fase growing, dan
fase smoothing. Langkah algoritma GSOM adalah sebagai berikut (De Silva et al.
2007; Zhu dan Zhu 2010) :
1.
Fase Inisialisasi
Inisialisasi bobot vektor dan awal node (biasanya empat node) dengan angka
random antara 0 dan 1.
Hitung Growth Threshold (GT) dari dimensi dataset D berdasarkan nilai
Spread Factor (SF) menggunakan formula :
(1)
2.

Fase Growing
a) Tentukan node masukkan pada jaringan
b) Tentukan bobot vektor yang berdekatan dengan vektor masukkan yang
dipetakan sebagai winner, gunakan jarak Euclidean untuk mengukur.
Langkah ini dapat disimpulkan dengan menentukan
dimana
, dengan
adalah masukkan dan bobot

6
vektor, adalah posisi vektor untuk node-node dan adalah himpunan
dari angka natural.
c) Sesuaikan bobot vektor yang diaplikasikan hanya kepada tetangga dari
winner dan winner itu sendiri. Tetangga adalah neuron disekitar winner,
tapi pada GSOM, tetangga awal diseleksi berdasarkan kesesuaian bobot
yang kecil, berbeda dengan SOM yang berdasarkan penyesuaian bobot
lokal. Besar dari penyesuaian (laju pembelajaran) direduksi secara
eksponensial sejalan dengan iterasi yang terjadi. Meskipun tetangga,
bobot yang berdekatan dengan winner lebih mudah disesuaikan
dibandingkan yang jaraknya jauh. Penyesuaian bobot dideskripsikan
sebagai berikut :
(2)
Dengan laju pembelajaran atau Learning Rate
,
adalah
urutan dari parameter positif yang konvergen menuju nilai nol, dengan
adalah bobot vektor dengan node sebelum
,
.
dan sesudah penyesuaian dan
adalah tetangga dari winner neuron
pada iterasi ke
. Penurunan nilai
pada GSOM tergantung
pada nilai pada node yang terdapat di peta saat waktu ke .
Untuk nilai fungsi tetangga digunakan fungsi Gaussian. Formulasi
pengukuran ukuran node tetangga adalah sebagai berikut :
(3)
Dengan
adalah jarak antara dan dengan
sebagai parameter
‘lebar efektif’ dari lingkungan.
d) Naikkan nilai error pada winner (nilai error adalah perbedaan antara
vektor masukkan dan bobot vektor).
e) Ketika
dengan
adalah total error pada node dan
adalah Growth Threshold. Node akan berubah jika adalah node batas.
Distribusi bobot pada tetangga jika bukan merupakan node batas.
f) Inisialisasi bobot node baru (Gambar 3) dengan mengikuti beberapa
aturan sebagai berikut :
(i) Memiliki dua node yang lama secara berturut-turut. Jika di
definisikan maka :

(4)
(ii) Memiliki satu saja tetangga dengan node yang lama. Node yang
lama juga boleh memiliki tetangga yang tidak bertetangga secara
bersebrangan dengan node yang baru. Aturan ini mirip dengna (i),
tetapi memiliki perbedaan pada posisi tetangga. Ketika kedua
kondisi dipenuhi, gunakan aturan (i)

7
(iii) Berada antara dua node yang lama. Jika di definisikan maka :

(5)
(iv) Memiliki satu saja tetangga node yang lama. Jika di definisikan
maka :

6)

Gambar 3 Aturan inisialisasi node (Zhu dan Zhu 2010)
g) Inisialisasi laju pembelajaran
pada bobot node yang baru
h) Ulangi langkah b sampai g hingga semua masukkan di representasikan
dan growth node atau node yang mengalami perubahan mencapai level
maksimum
3.

Fase Smooting
a) Untuk setiap node pada peta, akan terbentuk set yang terdiri dari semua
item masukkan dimana item masukkan tersebut adalah item yang di
referensikan pada node dan memiliki jarak terdekat
b) Untuk setiap node pada peta, ambil satu item yang di referensikan dan
yang merupakan rata-rata dari daftar gabungan topologi set tetangga
(N : angka natural) node tersebut.pada tahap ini Learning Rate dan
Neighborhood Size akan di redukasi. Rata-rata jika di definisikan adalah
sebagai berikut :
(7)

c) Ulangi langkah a dan b sampai memperoleh peta yang stabil
Growth Threshold
, berdasarkan dimensi dataset dan Spread Factor
.
adalah penentu awal nilai dengan rentang 0 sampai 1, 0 adalah nilai
paling mungkin untuk menyebar dan 1 adalah penyebaran maksimum. Batasan
penyebaran dengan nilai
terkecil adalah nilai pemetaan awal yang ideal. Sekali
pengelompokan yang signifikan teridentifikasi, maka bisa dijadikan sebagai
pijakan analisis selanjutnya dengan nilai
yang tinggi.

8

3 METODE PENELITIAN
Penelitian ini menggunakan data fragmen metagenom dari 300 mikrob dan
kemudian dikelompokan berdasarkan tingkat taksonomi filum. Teknik
pengambilan data fragmen metagenom yang digunakan adalah cluster sampling.
Teknik cluster sampling adalah teknik yang menggunakan sampel yang memiliki
jumlah item yang banyak pada suatu kelompok atau koleksi dan merupakan teknik
yang sederhana serta rendah biaya (Scheafffer et al. 1990).
Sesuai dengan tujuan penelitian ini, metode GSOM digunakan untuk
pengelompokan fragmen metagenom. Data awal akan disimulasi menggunakan
MetaSim (Richter et al. 2008) dan menghasilkan sekuens DNA. Hasil simulasi
ini yang akan digunakan pada pengekstraksian ciri sehingga didapat matriks
komposisinya. Selanjutnya fragmen metagenom akan dikelompokan menjadi 20
kelompok yang berbeda berdasarkan kesamaan dari pemetaan yang dihasilkan.
Ilustrasi pemetaan fragmen metagenom, ditunjukkan pada Gambar 4.

Gambar 4 Skema penelitian pengelompokan fragmen metagenom
Pengelompokan fragmen metagenom terdiri atas beberapa tahap, yaitu data
akan diekstraksi ciri untuk mendapatkan matriks komposisi, praproses data, dan
dikelompokan dengan metode GSOM untuk mendapatkan model pembelajaran.
Hasil pembelajaran dengan metode GSOM mampu memetakan data fragmen
metagenom berdasarkan tingkat taksonomi filum. Tahap akhir adalah evaluasi
terhadap hasil pengelompokan untuk mengetahui efektifitas dan efisiensi
pemetaan dengan GSOM. Tahap yang dilakukan untuk pengelompokan fragmen
metagenom digambarkan pada Gambar 5.

9

Gambar 5 Prosedur penelitian
Data Penelitian
Data yang digunakan adalah super kingdom bacteria dan merupakan hasil
simulasi sampel metagenomik yang diambil dari basis data NCBI.
Pengelompokan fragmen metegenom didasarkan pada tingkat taksonomi filum,
yaitu sebanyak dua puluh filum dan untuk simulasi fragmen metagenom
digunakan simulator MetaSim (Richter et al. 2008) dengan panjang fragmen
seragam, yaitu 1 kbp. Data yang digunakan berformat FNA (FASTA Nucleic
Acid). Total mikrob yang digunakan adalah 300 mikrob yang nantinya akan
dikelompokan pada 20 kelompok yang berbeda. Organisme yang digunakan
terlampir pada Lampiran 1 dan Lampiran 2. Contoh data hasil simulasi dengan
MetaSim dapat dilihat pada Gambar 6.

10
>r1.1 |SOURCES={GI=298489614,bw,4206109-4207109}| ERRORS={}
|SOURCE_1="'Nostoc azollae' 0708 chromosome"
Description Line
(563e984038cb4d3b6d3079e9974e2c11d1f054b3)
ATAGAACGGGGCTTTTTGCCATCTAGTAAAGCACTGACAGTGATATCTCCCATGACATTTATTGC
CGTGCGACAACGATCTAAAAACCAGTCTACTGTCACCAATAAAGCTATATACTGTATCGGTAAAC
CTACGGAAGTGAAAACCAAGGTCATCGTTACTAGTCCAGCATTGGGAATACCTGCTCCACCCACT
GAGGCAAAAATAGATGTGAGAACGACAACTAATTGCTGTCCTAAACTCAGATGTTGCCCAATGAC
TTGGGAAATATACAATGCAGATATGGCTTCATAAAGGGCTGTGCCATCATTATTGAAATTTGCGC
CAACTAATGCGTCTAAAGAAGCAGAAGATTTTCTTAAAGCAATTTTTGTTTGTGAAACTTCAAAA
GTGATGGGCATTGCTCTTCTTGAAGAAGAGGTGGGAAAGCCTGTTAAATAGGTATCAGCAGCACC
Data
AGCTAAGAATTTCACCGGGTTTACCCAAGAACCAAATTTCACTCTGGTGAGGTAATAACAAGCTT
Line
GTAAAAATAAGGTTACTAACACTGCTAAGATGAAGGCTGCTAAGGATTGAAATGCTACAAAGCCT
CTTCCGGCAGTGATTTTGGCGACTATACTAATATAGGTACTAAGGCAATTACCCACTTGAGGATA
CTGATAATTGCTTCAAATAATATGGCAATTACATCTTCAATTCGTTGGTATGCTGTCTTTCCAGC
ATTGATTTGTTCTGATTTTAATGCTTGTAAAACTATACCAAAGCTGAGGGCGATAACGATGAGTT
GGATGACATTATTATCAACCAGGGGTTTGAGGATGGCTTCTGGTAAGGCATCTTTAAATAATCCC
CAAGGGTCGAAACTTTTAGGAGTGATTTCTGTGCTACCTGGGGCTACTAAAGTTCCCCAAGTACC
TGGACGTAAAATGTTGGGTACTAAGAGTACCACAACAATAGCTAGTATGGTGTTAGTTAAAAGCA
GCACTGCTAACCGTCTACCGGCTGT

Gambar 6 Contoh data hasil simulasi MetaSim.
Ekstraksi Ciri
Ekstraksi ciri adalah pembacaan frekuensi oligonukleotida (trinukleotida
dan tetranukleotida) dengan k-mer dan juga ekstraksi menggunakan spaced k-mer
yang memperhatikan kondisi don’t care pada perhitungan frekuensi
oligonukleotida. Ekstraksi ciri akan menampilkan pola kemunculan k pada suatu
waktu dalam suatu sekuens. Pada penelitian ini, dimensi hasil ekstraksi ciri adalah
sebagai berikut seperti pada Tabel 1 :
Tabel 1 Dimensi hasil ekstraksi ciri
Frekuensi Oligonukleotida
Trinukleotida
Tetranukleotida
Spaced k-mer

Dimensi
64 × total fragmen
256 × total fragmen
192 × total fragmen

Praproses Data
Untuk mencegah adanya hasil implementasi yang bias, maka
pengelompokan fragmen metagenom didahului dengan normalisasi data hasil
ekstraksi fitur. Normalisasi data adalah salah satu bagian dari data transformasi,
yaitu teknik mengubah data menjadi nilai yang lebih mudah untuk dipahami (Han
et al. 2012).
Tujuan lebih khusus dari normalisasi data adalah mendapatkan bobot yang
sama dari semua atribut data dan tidak bervariasi atau hasil dari pembobotan
tersebut tidak terdapat atribut yang lebih prior atau dianggap lebih utama dari
pada yang lain.
Untuk penelitian ini, normalisasi data yang digunakan adalah decimal
scaling. Data fragmen metagenom akan diubah bobotnya menjadi data yang
memiliki rentang [0, 1] menggunakan transformasi linear sederhana (Vesanto et
al. 2000). Contoh hasil praproses data pada Gambar 7.
(8)
dengan adalah dataset.

11
AAA AAC . . . GGG
2
2
... 7
Sebelum Praproses

AAA
0.094

Decimal
Scaling

AAC . . .
GGG
0.268 . . .
0.420
Sesudah Praproses

Gambar 7 Praproses data dengan decimal scaling
Pembagian Data Latih dan Data Uji
Jumlah data adalah 200 mikrob untuk data latih dengan total jumlah
fragmen yang digunakan adalah 200 000 fragmen. Sedangkan untuk data uji
digunakan 100 mikrob dengan total jumlah fragmen sebanyak 100 000 fragmen.
Perkiraan fragmen per mikrob adalah sebanyak 1000 fragmen. Frekuensi
oligonukleotida yang digunakan juga beragam untuk masing-masing dataset, yaitu
trinukleotida, tetranukleotida, dan juga menggunakan spaced k-mer.
Pengelompokan dengan Growing Self Organizing Map
Pengelompokan dilakukan menggunakan matriks komposisi hasil ekstraksi
fitur. Normalisasi dilakukan pada matriks komposisi agar perhitungan tidak
menghasilkan data yang terlalu bervariasi dan bobot yang sama. Data kemudian
akan dikelompokan berdasarkan tingkat filum sebanyak 20 kelompok sesuai
dengan NCBI Taxonomy Browser (Federhen 2012). Filum yang digunakan berada
pada Tabel 2.
Tabel 2 Filum berdasarkan NCBI Taxonomy Browser
No

Filum

1

Actinobacteria (high G+C gram positive bacteria)

2

Aquificae

3

Bacteroidetes

4

Chlorobi

5

Chlamydiae

6

Verrucomicrobia

7

Chloroflexi (green non sulfur bacteria)

8

Cyanobacteria (blue green algae)

9

Deinococcus-thermus

10

Acidobacteria

11

Firmicutes (gram positive bacteria)

12

Fusobacteria

13

Gemmatimonadetes

14

Nitrospirae

15

Planctomycetes

16

Proteobacteria (purple bacteria and relative)

17

Spirochaetes

18

Synergistetes

19

Tenericutes

20
Thermotogae
Sumber : NCBI (http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi)

12
Pengelompokan fragmen metagenom dilakukan dengan GSOM. Arsitektur
metode GSOM terdiri dari beberapa fase, yaitu fase inisialisasi, fase growing, dan
fase smoothing. Untuk melakukan pengelompokan data, awalnya dilakukan
inisialisasi bobot vektor (biasanya di inisialisiasi empat node), nilai Growth
Threshold (GT) yang digunakan sebagai batasan dari topologi peta berdasarkan
nilai penyebaran atau Spread Factor (SF) dan dimensi dataset D (dimensi D
adalah pembacaan fragmen metagenom
frekuensi oligonukleotida). GT jika
diformulasikan adalah sebagai berikut
. Selain itu dilakukan
pembobotan vektor dari tiap pembacaan fragmen metagenom dan pembacaan
pada penelitian ini dilakukan sebanyak 100 000 fragmen untuk data uji dan 200
000 fragmen untuk data latih. Gambar 8 menampilkan blok diagram
pengelompokan dengan metode GSOM.

Gambar 8 Blok diagram pengelompokan dengan GSOM

13
Fase Inisialisasi
Fase pertama dari metode GSOM adalah fase inisialisasi. Empat neuron
pertama akan diinisialisasi dengan angka random atau acak. Neuron tersebut
diinisialisiasi dengan angka antara 0 sampai 1. Selanjutnya akan dihitung nilai
Growth Threshold (GT). Fase inisialisasi digambarkan pada Gambar 9.

Gambar 9 Fase inisialisasi
Perhitungan GT digunakan untuk menentukan dan mendapatkan hasil
topologi peta yang ideal. Untuk mendapatkan hasil peta yang ideal, maka harus
ditentukan penyebaran dari titik-titik neuron. Pengontrolan ini ditentukan oleh
nilai Spread Factor (SF). Nilai SF pada penelitian ini digunakan berbeda pada
tiap frekuensi, yaitu 0.6 untuk frekuensi trinukleotida dan spaced k-mer,dan 0.8
untuk frekuensi tetranukleotida

Gambar 10 Inisialisasi starting node
Pada Gambar 10 digambarkan posisi dari node awal yang diinisialisasi.
Titik merah adalah neuron yang diinisialisasi dan berada pada posisi 0 dan 1.
Topografi yang digunakan adalah berbentuk persegi atau sheet. Dari inisialisasi

14
awal ini, semua vektor matriks komposisi akan dipetakan dan mengalami proses
growing pada fase selanjutnya, yaitu fase growing.
Fase Growing
Fase growing merupakan fase terpenting dalam metode GSOM karena pada
tahap ini peta akan mengalami ekspansi sehingga menjadi lebih dinamik
dibandingkan metode SOM. Berikut adalah algoritme fase growing.
While (node hasil inisialisasi bobot)
For (tiap epoch)
Tentukan Learning Rate dan Neighborhood Size
If (pemenang yang ditentukan dari matriks komposisi)
Then
Bobot vektor diambil dan diaplikasikan pada tetangga dan
pemenang itu sendiri
Nilai error dari pemenang ditingkatkan
End if
If (total error node i < GT)
Grow node jika memenuhi syarat
Else
Bobot dari vektor akan didistribusikan pada tetangga
sekitar
End if
Inisialisasi Learning Rate dan Neighborhood Size baru
Repeat until (semua vektor matriks komposisi digunakan dan grow
node mencapai level minimum)
End
End

Pada fase growing ini juga diinisialisasi beberapa training paramater, yaitu
epoch, Learning Rate, dan Neighborhood Size.
Fase Smoothing
Fase smoothing adalah ketika parameter Learning Rate akan di turunkan
nilainya begitu juga dengan parameter Neighborhood Size. Learning Rate dan
Neighborhood Size yang digunakan akan selalu berubah pada setiap iterasi. Ketika
mencapai level yang minimum, maka kedua parameter tersebut juga akan
mendekati nilai 0. Untuk penelitian ini, parameter Learning Rate akan di set untuk
berhenti pada nilai 0.01 dan Neighborhood Size di set berhenti secara random.
Pada tahap ini juga akan ditemukan pemenang. Pemenang akan diambil lagi
dari vektor komposisi fragmen metagenom secara acak, lalu ditentukan Best
Matching Unit (BMU). BMU didefinisikan sebagai sampel vektor yang diambil
secara acak dan dihitung jarak terdekatnya. Jarak neuron yang terdekat dengan
vektor yang disebut dengan BMU (Vesanto et al. 2000). Dari BMU bisa
ditentukan pemenang dan selanjutnya bisa ditentukan bobot dari pemenang dan
tetangga seperti pada fase growing. Gambar 11 akan menggambarkan ilustrasi
dari BMU.

15

Gambar 11 Best Matching Unit (Vesanto et al. 2000)
Titik hitam adalah neuron mula-mula sedangkan
adalah vektor yang
diambil secara acak. Setelah dilakukan perhitungan jarak maka terlihat perubahan
letak neuron yang bergerakn menuju vektor . Pergerakan neuron diilustrasikan
dengan titik abu-abu. Titik yang berwarna merah diasumsikan sebagai neuron
yang memiliki jarak yang terdekat sehingga disebut dengan BMU.
Evaluasi
Pada evaluasi model untuk pemetaan menggunakan metode GSOM,
digunakan dua pengukuran utama, yaitu quantization error dan topographic
error. Parameter yang digunakan untuk mendapatkan pengukuran berdasarkan
pada parameter learning, topologi peta, dan bentuk dari peta.
Quantization error atau qe (Uriarte dan Martin 2005) adalah pengukuran
yang umum digunakan pada penentuan kualitas pemetaan dengan Kohonen map.
Pengukuran ini adalah untuk mengukur jarak rata-rata antara vektor data dan Best
Matching Unit (BMU) yang berada di sekitar ruang input dan selanjutnya akan
mengevaluasi kecocokan dari peta neural, karena itu rata-rata nilai quantization
error yang terkecil menunjukkan bahwa jarak vektor data tersebut dekat dengan
prototype yang dihasilkan. Perhitungan quantization error, jika diformulasikan
adalah sebagai berikut :
(9)
Dengan

adalah banyak data vektor,

adalah Best Matching prototype

dari vektor data
yang saling berhubungan. Gambar 12 adalah penggambaran
pengukuran quantization error.

Gambar 12 Pengukuran quantization error

16
Topographic error atau te (Uriarte dan Martin 2005) digunakan untuk
mengukur distorsi error pada topologi peta menggunakan input sampel untuk
menentukan pemetaan lanjutan dari ruang input pada grid peta. Jadi BMU yang
pertama dan BMU yang kedua bukan merupakan vektor yang saling berdekatan.
Topographic error dapat diformulasikan sebagai berikut :
(10)
Jika fungsi
adalah 1, maka vektor data
mempunyai BMU yang
saling berdekatan. Jika 0, maka bernilai sebaliknya. Diharapkan dengan
pengukuran dengan topographic error mendekati nilai 0, yang berarti rata-rata
BMU pertama dan BMU kedua tidak saling berdekatan. Gambar 13 menunjukkan
pengukuran dengan topographic error.

Gambar 13 Pengukuran topographic error
Selain menggunakan quantization error dan topographic error, digunakan
juga persentase error untuk menghitung kesalahan pemetaan pada tiap kelompok.
Jadi hanya didasarkan pada perhitungan data fragmen metagenom yang salah pada
tiap kelompok filum. Sedangkan untuk uji efisiensi digunakan variabel akurasi
kecepatan dalam pengelompokan fragmen metagenom.
Peralatan Penelitian
Alat yang digunakan dalam penelitian ini dibagi dalam perangkat keras dan
perangkat lunak, sebagai berikut :
a. Perangkat keras :
 Processor : Intel(R) Celeron(R) CPU B815 @ 1.60 GHz 1.60 GHz
 Memory : DDR 2 RAM 2 GB
 Harddisk : 500 GB
b. Perangkat lunak :
 Sistem operasi Windows 7 Enterprise 64-bit operating system
 Dev CppPortable
 Notepad ++
 Matlab 7.11.0 (R2010b)
 MetaSim version 0.9.1

17
4 HASIL DAN PEMBAHASAN
Pengelompokan fragmen metagenom dikembangkan dengan bahasa
pemrograman C++ dan Matlab 7.11.0 (R2010b). Fragmen metagenom akan
dikelompokan dalam 20 kategori, yaitu 20 filum berdasarkan NCBI Taxonomy
Browser.
Basis Data Fragmen Metagenom
Penelitian ini menggunakan data fragmen metagenom dengan format
FASTA file (FNA) yang diunduh dari situs NCBI dengan memilih 300 mikrob
yang nantinya terbagi 200 mikrob untuk data latih dan 100 mikrob untuk data uji.
Data mikrob untuk data latih dan data uji yang digunakan pada penelitian ini dapat
dilihat pada Lampiran 1 dan Lampiran 2. Data latih digunakan untuk
mendapatkan model pengelompokan berdasarkan tingkat filum. Sedangkan data
uji digunakan untuk mengevaluasi model pengelompokan. Selain itu data uji akan
dilakukan pengujian pada parameter yang berbeda untuk mendapatkan ukuran
peta yang terbaik berdasarkan hasil evaluasi error terkecil menggunakan tiga
frekuensi oligonukleotda.
Ekstraksi Ciri dengan K-Mer Frequency
Fragmen metagenom hasil simulasi MetaSim akan diekstraksi dengan k-mer
frequency. Ekstraksi dengan k-mer akan membentuk matriks komposisi sesuai
dengan berapa banyak data yang dibangkitkan dan frekuensi oligonukleotida yang
digunakan. Frekuensi fragmen metagenom yang diekstraksi dengan k-mer
frequency adalah trinukleotida dan tetranukleotida. Banyak data yang
dibangkitkan adalah 200 000 untuk data latih dan 100 000 untuk data uji. Fitur
yang digunakan adalah sebanyak 64 untuk trinukleotida, dan 256 untuk
tetranukleotida. Sehingga didapat perhitungan untuk tiap frekuensi
oligonukleotida akan diperoleh matriks komposisi dengan ukuran
,
,
, dan
,; masing-masing untuk
data latih dan data uji. Contoh hasil ekstraksi ciri pada salah satu frekuensi
oligonukleotida ditunjukkan pada Gambar 14.
>r1.1 |SOURCES={GI=298489614,bw,4206109-4207109}|
ERRORS={}|SOURCE_1="'Nostoc azollae' 0708
chromosome"
(563e984038cb4d3b6d3079e9974e2c11d1f054b3)
>r2.1 |SOURCES={GI=298489614,bw,2999940-3000940}|
ERRORS={}|SOURCE_1="'Nostoc azollae' 0708
chromosome"
(563e984038cb4d3b6d3079e9974e2c11d1f054b3)

. . .
>r200000.1 |SOURCES={GI=338706993,bw,907869908869}| ERRORS={}|SOURCE_1="Zymomonas mobilis
subsp. pomaceae ATCC 29192 chromosome"
(1d636f431b28c64507ddc507fa994a350f383789)

Data simulasi

9

9

8

..

5

4

8

8

..

3

8

0

1

..

5

1

0

7

..

4

3

0

3

..

8

Matriks komposisi

Gambar 14 Matriks komposisi salah satu frekuensi oligonukleotida

18
Ekstraksi Ciri dengan Spaced k-mer
Selain menggunakan k-mer frequency untuk ekstraksi ciri, digunakan
spaced k-mer. Ekstraksi dengan spaced k-mer lebih ekonomis dilihat dari sisi
penerimaan informasi (information retrieval) karena ekstraksi ini menggunakan
kondisi don’t care sehingga waktu yang dibutuhkan tidak terlalu lama tapi sudah
mendapatkan informasi tentang komposisi dari fragmen metagenom dengan lebih
terperinci. Data fragmen metagenom dihitung hampir sama dengan menggunakan
k-mer frequency, tapi ekstraksi ini memperhatikan don’t care yang mempunyai
pola
, dengan
adalah kondisi don’t care. Sehingga dari
perhitungan didapat dimensi fitur adalah sebanyak 192. Ukuran matriks komposisi
dengan ekstraksi spaced k-mer pada data latih adalah
dan
1
untuk data uji.

Praproses Data Fragmen Metagenom
Praproses bertujuan untuk mengurangi variasi data sehingga data mudah
untuk dipahami. Fragmen metagenom yang awalnya berupa matriks komposisi
diubah menjadi data matriks yang bernilai antara 0 dan 1 dengan metode decimal
scaling. Contoh hasil decimal scaling yang diperoleh untuk salah satu frekuensi
oligonukleotida ditunjukkan pada Gambar 15.
0.094
9

9

8

..

5

4

8

8

..

3

8

0

1

..

5

1

0

7

..

4

3

0
3
..
Data Simulasi

8

0.420

0.268

0.074

...

0.122

0.196

0.126

...

0.360

0.144

0.393

0.284

...

0.160

0.072

0.143

0.053

...

0.380

.
.
0.233

.
.
.
.
.
.
0.250 0.221 ... 0.160
Hasil Decimal Scaling

Gambar 15 Matriks decimal scaling salah satu frekuensi oligonukleotida

Pembagian Data Latih dan Data Uji
Hasil praproses matriks komposisi dibagi menjadi data latih dan data uji
dengan jumlah mikrob masing-masing 200 untuk data latih dan 100 untuk data
uji. Beberapa mikrob yang digunakan sebagai data latih dan data uji masingmasing ditunjukkan pada Tabel 3.

19
Tabel 3 Pembagian mikrob data latih dan data uji

4

Data latih
Mikrob
Acetobacterium woodi DSM 1030
chromosome
Acidaminococcus fermentans DSM
20731 chromosome
Acidithiobacillus
ferrivorans
SS3
chromosome
Acidovorax sp.JS42 chromosome

5

Acinetobacter sp.ADP1 chromosome

5

200

...
Zymomonas mobilis subsp.pomaceae
ATCC 29192 chromosome

100

No
1
2
3

No
1
2
3
4

Data uji
Mikrob
Acaryochloris marina MBIC11017
chromosome
Acetobacter pasterianus IFO 328301
Acholeplasma laidlawii PG-8A
chromosome
Acidimicrobium ferroxidans DSM
10331 chromosome
Actinobacillus
pleuropneumoniae
serovar 3 str. JL03 chromosome
...
Weissella korensis KACC 15510
chromosome

Data fragmen metagenom, masing-masing data latih dan data uji akan di
bangkitkan sebanyak 200 000 fragmen untuk data latih dan 100 000 fragmen
untuk data uji. Banyaknya pembangkitan data dari tiap kelompok filum dihitung
secara otomatis ketika data disimulasi oleh MetaSim untuk setiap mikrob. Hasil
perhitungan pembangkitan data latih dan data uji ditampilkan pada Tabel 4 dan
Tabel 5.
Tabel 4 Pembangkitan data latih
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Filum
Actinobacteria
Aquificae
Bacteroidetes
Chlorobi
Chlamydiae
Verrucomicrobia
Chloroflexi
Cyanobacteria
Deinococcus-thermus
Acidobacteria
Firmicutes
Fusobacteria
Gemmatimonadetes
Nitrospirae
Planctomycetes
Proteobacteria
Spirochaetes
Synergistetes
Tenericutes
Thermotogae

Reads
22 335
2208
28 450
5102
9330
4679
13 760
16 376
7606
10 781
17 559
3400
1484
2831
10 830
18 984
8702
1922
11 651
2010

20
Tabel 5 Pembangkitan data uji
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Filum
Actinobacteria
Aquificae
Bacteroidetes
Chlorobi
Chlamydiae
Verrucomicrobia
Chloroflexi
Cyanobacteria
Deinococcus-thermus
Acidobacteria
Firmicutes
Fusobacteria
Gemmatimonadetes
Nitrospirae
Planctomycetes
Proteobacteria
Spirochaetes
Synergistetes
Tenericutes
Thermotogae

Reads
5452
2144
5330
3950
3764
3716
8652
5685
3873
10 199
7648
3281
1398
2751
9168
12 518
5829
1846
999
1797

Pengelompokan Fragmen Metagenom dengan GSOM
Frekuensi oligonukleotida adalah frekuensi kemunculan pasangan basa pada
fragmen metagenom, dan pada penelitian ini muncul sebanyak trinukleotida,
tetranukleotida, dan menggunakan frekuensi spaced k-mer yang memperhatikan
kondisi don’t care. Dalam penelitian ini, kemunculan frekuensi trinukleotida pada
fragmen metagenom adalah sebanyak 64 fitur, frekuensi tetranukleotida sebanyak
256 fitur, dan frekuensi spaced k-mer sebanyak 192 fitur.
Fase Inisialisasi
Fase inisialisasi merupakan fase awal untuk menentukan parameter global,
yaitu Growth Threshold (GT). Parameter ini ditentukan oleh pengguna (user). GT
digunakan untuk mengatur penyebaran neuron pada peta. Untuk frekuensi
trinukleotida, parameter GT diset dengan nilai 0.6. Untuk tetranukleotida diset
dengan nilai 0.8, dan 0.6 untuk frekuensi spaced k-mer. Insialisasi bobot
menggunakan inisialisasi secara random atau acak. Setiap data vektor akan diberi
nilai hasil distribusi antara nilai yang paling minimum dan yang paling maksimal
dari dataset fragmen metagenom.
Fase Growing
Data fragmen metagenom akan di – growth dengan mengikuti aturan
. Jika memenuhi aturan, maka proses growth akan berhenti. Dengan
menggunakan parameter global, maka untuk ukuran peta yang akan berhenti pada
ukuran sebagai berikut
untuk trinukleotida,
untuk
tetranukleotida dan
untuk frekuensi spaced k-mer. Gambar 16 adalah
hasil inisialisasi bobot pengujian pada data fragmen metagenom.

21

0.0807
0.0871
0.0972

0.1889
0.1970
0.2152
.
.

0.1107
0.1226
0.1370
.
.

...
...
..

0.3443
0.3471
0.3199

.
.

.
.

0.3159 0.2755 0.4856 . . . 0.0765
Matriks hasil inisialisasi bobot pada trinukleotida
0.0347
0.0370
0.0440

0.0551
0.0595
0.0678
.
.

0.0929
0.0994
0.1163
.
.

...
...
...

0.2122
0.1947
0.1596

.
.

0.2961

0.4854

0.2694

0.0801
0.0849
0.0935

0.1864
0.1888
0.2014

0.1055
0.1136
0.1253

.
.

0.0222
..
Matriks hasil inisialisasi bobot pada tetranukleotida

.
.

.
.

...
...
...
.
.

0.3639
0.3445
0.3049
.
.

0.4967 0.2249 0.6242 . . . 0.0421
Matriks hasil inisialisasi bobot pada frekuensi spaced k-mer

Gambar 16 Insialisasi bobot pada frekuensi oligonukleotida
Fase Smoothing
Pada fase ini, semua hasil pelatihan dan pengujian akan berhenti mengalami
proses growing. Hasil pengelompokan akan menghasilkan pemetaan yang stabil
dan tiap data vektor akan dipetakan pada grid peta. Gambar 17, Gambar 18 dan
Gambar 19 menampilkan hasil pemetaan frekuensi trinukleotida, tetranukleotida
dan spaced k-mer berdasarkan algoritme GSOM.

Evaluasi
Evaluasi dari penelitian dilakukan dengan beberapa pengukuran, yaitu
quantization error (QE), topographic error (TE) dan persentase error (%
error) dari tiap hasil pengelompokan. Sedangkan untuk efisiensi, digunakan
paramater waktu ketika algoritme melakukan pelatihan. Untuk melihat kebaikan
dari parameter yang digunakan, maka dilakukan variasi dari parameter yang
digunakan pada setiap frekuensi oligonukleotida dengan map size yang sama,
yaitu [10 10] dengan training lenght sebanyak 10 epochs.

22

Gambar 17 Pemetaan frekuensi trinukleotida

Gambar 18 Pemetaan frekuensi tetranukleotida

23

Gambar 19 Pemetaan frekuensi spaced k-mer
Frekuensi Trinukleotida
Hasil kombinasi atau variasi parameter pada frekuensi trinukleotida
dilakukan berdasarkan perhitungan error, yaitu quantization error, topographic
error, dan persentase error. Tabel 6, Tabel 7 dan Tabel 8 menampilkan error
yang dihasilkan untuk tiap kombinasi parameter Learning Rate (LR) dan
Neighborhood Size (NS). Kolom yang berwarna abu-abu menunjukkan nilai error
terkecil pada frekuensi trinukleotida.

24
Tabel 6 Perhitungan quantization error pada trinukleotida
NS

LR
0
0,1

0,759

0,25

1

2

3

4

0,709

0,76

0,758

0,744

0,531
0,752

0,741

0,742

0,747

0,5

0,639

0,736

0,639

0,742

0,741

0,75

0,871

0,757

0,667

0,752

0,684

0,9

0,842

0,834

0,781

0,773

0,794

Tabel 7 Perhitungan topographic error pada trinukleotida
LR

0

0,1

0,125

0,25
0,5

NS
2

1

3

4

0,119

0,124

0,134

0,112

0,101
0,127

0,129

0,117

0,132

0,109

0,115

0,117

0,11

0,134

0,75

0,108

0,109

0,131

0,111

0,135

0,9

0,109

0,109

0,132

0,124

0,134

Tabel 8 Perhitungan persentase error pada trinukleotida
LR

0

NS
2

1

3

4

0,1

18,73

18,83

19,03

17,69

16,84
18,63

19,21

0,25

17,09

18,23

18,76

0,5

18,2

18,08

16,97

18,37

18,41

0,75

18,02

18,88

17,79

18,74

18,34

0,9

18,44