Pengelompokan Sekuens DNA Menggunakan Algoritme Single Link dan Feature Vectors

PENGELOMPOKAN SEKUEN DNA MENGGUNAKAN
ALGORITME SINGLE LINK DAN FEATURE VECTORS

AL HARIS TAMSIN

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

ii

iii

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Pengelompokan
Sekuen DNA Menggunakan Algoritme Single Link dan Feature Vectors adalah
benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan
dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang

berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari
penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di
bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, September 2013
Al Haris Tamsin
NIM G64104050

iv

ABSTRAK
AL HARIS TAMSIN. Pengelompokan Sekuen DNA Menggunakan Algoritme
Single Link dan Feature Vectors. Dibimbing oleh WISNU ANANTA KUSUMA.
Pengelompokan merupakan teknik pembelajaran untuk menemukan
kelompoknya secara otomatis berdasarkan ciri dan karakteristik yang dimiliki.
Pengelompokan dilakukan untuk memisahkan data ke dalam kelompok sehingga
data yang dimiliki menjadi mudah dimengerti. Pengelompokan sekuen DNA
dengan feature vectors merupakan proses penggabungan sekelompok sekuen
DNA yang memiliki kemiripan jumlah nukleotida, susunan, dan penyebaran

nukleotidanya, akan digabungkan ke dalam sebuah kelompok yang sama.
Pengelompokan sekuen DNA terdapat empat tahap utama yaitu feature vectors,
min max normalization, cosine similarity, dan pengelompokan single link.
Penelitian terdiri dari 8 studi kasus dan 5 percobaan di setiap studi kasus yang
mendapatkan akurasi rata-rata sebesar 86.7%, dan akurasi pengelompokan terbaik
terdapat pada studi kasus 3 sekuen percobaan 4 sebesar 100%. Faktor yang paling
berpengaruh terhadap hasil pengelompokan sekuen DNA adalah ukuran dan
jumlah sekuen yang digunakan dalam penelitian.
Kata kunci: feature vectors, single link, min max normalization, sekuen DNA

ABSTRACT
AL HARIS TAMSIN. Clustering DNA Sequences Using Single Link Algorithms
and Feature Vectors. Supervised by WISNU ANANTA KUSUMA.
Clustering is a learning technique to find the the group automatically based
on the characteristics. By separating the data into groups so the data will easy to
understand. Clustering DNA sequences with feature vectors is the process of
combining a group of DNA sequences with the same amount of nucleotides, the
composition and distribution of nucleotide, will combine into the same group.
There are 4 main stages of clustering DNA sequence: feature vectors, min max
normalization, cosine similarity and single link clustering. This research consist of

the 8 case and 5 experiment in each case, with the result of least average 86,7%
and the best cluster found 100% in case 3 experiment 4. The most affecting for the
result of DNA sequence clustering is the size and volume used in the research.
Keywords: feature vectors, single link, min max normalization, sequences DNA

v

PENGELOMPOKAN SEKUEN DNA MENGGUNAKAN
ALGORITME SINGLE LINK DAN FEATURE VECTORS

AL HARIS TAMSIN
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Ilmu Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR

BOGOR
2013

vi

Penguji :
1 Toto Haryanto, SKom MSi
2 Aziz Kustiyo, SSi MKom

vii

Judul Skripsi : Pengelompokan Sekuens DNA Menggunakan Algoritme Single
Link dan Feature Vectors
Nama
: Al Haris Tamsin
NIM
: G64104050

Disetujui oleh


Dr Wisnu Ananta Kusuma, ST MT
Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi M Kom
Ketua Departemen Ilmu Komputer

Tanggal Lulus:

viii

PRAKATA
Puji dan syukur penulis panjatkan ke hadirat Allah subhanahu wa ta’ala
atas rahmat dan karunia-Nya sehingga penulis bisa menyelesaikan karya ilmiah
ini. Penelitian yang dilakukan sejak bulan September 2012 mengangkat tema
pengelompokan sekuen DNA menggunakan algoritme single link dan ekstraksi
ciri feature vectors.
Penulis mengucapkan terima kasih kepada dosen pembimbing Bapak Wisnu
Ananta Kusuma yang telah memberikan arahan, saran, dan masukan untuk

selesainya penelitian ini. Ucapan terima kasih juga penulis sampaikan kepada
kedua orang tua, kakak, adik, dan keluarga atas doa, semangat, dan kasih
sayangnya sehingga penulis bisa menyelesaikan penelitian ini.
Penulis menyadari bahwa pada karya ilmiah ini masih banyak kekurangan
dan jauh dari kesempurnaan. Oleh karena itu, penulis mengharapkan saran dan
kritik yang membangun demi penyempurnaan karya ilmiah berikutnya. Semoga
karya ilmiah ini dapat bermanfaat bagi penulis khususnya dan bagi semua pihak
pada umumnya.
Semoga karya ilmiah ini bermamfaat.

Bogor, September 2013
Al Haris Tamsin

ix

DAFTAR ISI

DAFTAR TABEL .................................................................................................. vi
DAFTAR GAMBAR ............................................................................................. vi
DAFTAR LAMPIRAN


vi

PENDAHULUAN .................................................................................................. 1
Latar Belakang ................................................................................................... 1
Tujuan ................................................................................................................. 2
Ruang lingkup .................................................................................................... 2
METODE PENELITIAN ........................................................................................ 2
Tahap pengumpulan data.................................................................................... 3
Tahap pengelompokan ....................................................................................... 3
Feature Vectors .................................................................................................. 3
Normalisasi Min-max ......................................................................................... 5
Cosine Similarity ................................................................................................ 5
Single link ........................................................................................................... 5
Tahap Evaluasi ................................................................................................... 7
Confusion Matrix................................................................................................ 7
Lingkungan implementasi .................................................................................. 7
HASIL DAN PEMBAHASAN ............................................................................... 8
Tahap Pengumpulan Data .................................................................................. 8
Tahap Pengelompokan ....................................................................................... 8

Feature Vectors .................................................................................................. 8
Normalisasi Min-max ......................................................................................... 9
Cosine Similarity ................................................................................................ 9
Single Link ........................................................................................................ 10
Tahap Pengujian ............................................................................................... 11
Analisis Hasil Percobaan .................................................................................. 11
SIMPULAN DAN SARAN .................................................................................. 15
Simpulan ........................................................................................................... 15
Saran ................................................................................................................. 15
LAMPIRAN .......................................................................................................... 18
RIWAYAT HIDUP ............................................................................................... 25

x

DAFTAR TABEL
1
2
3
4
5

6
7
8
9

Contoh perhitungan feature vectors ................................................................ 4
Hasil cosine similarity untuk studi kasus 2 sekuen percobaan 1 .................. 10
Confusion matrix untuk studi kasus 3 sekuen percobaan 4 .......................... 11
Hasil akurasi rata-rata 8 studi kasus ............................................................. 12
Confusion matrix studi kasus 4 sekuen percobaan 4 .................................... 13
Hasil penjajaran sekuen Borellia burgdorferi .............................................. 13
Hasil penjajaran sekuen Borellia duttoni ...................................................... 14
Hasil penjajaran sekuen Borellia garinii ...................................................... 14
Hasil penjajaran sekuen Borellia spielmanii ................................................ 14

DAFTAR GAMBAR
1
2
3
4

5
6

Metode penelitian ........................................................................................... 2
Proses dalam tahap pengelompokan ............................................................... 3
Contoh pengelompokan single link ................................................................ 6
Contoh dendrogram ........................................................................................ 7
Dendrogram dari studi kasus 2 sekuen percobaan 1 ..................................... 10
Grafik rata-rata akurasi 8 studi kasus ........................................................... 12

DAFTAR LAMPIRAN
1 Data yang digunakan dalam penelitian
2 Tampilan awal pengelompokan single link
3 Dendrogram studi kasus 3 percobaan 4 akurasi 100%
4 Feature vectors untuk 50 data sekuen DNA
5 Hasil normalisasi min-max untuk 50 data sekuen DNA
6 Confusion matrix studi kasus 2 sekuen
7 Confusion matrix studi kasus 3 sekuen
8 Confusion matrix studi kasus 4 sekuen
9 Confusion matrix studi kasus 5 sekuen

10 Confusion matrix studi kasus 6 sekuen
11 Confusion matrix studi kasus 7 sekuen
12 Confusion matrix studi kasus 8 sekuen
13 Confusion matrix studi kasus 9 sekuen

17
19
19
20
21
25
25
25
25
25
26
26
26

1

PENDAHULUAN
Latar Belakang
Analisis data dapat menggali informasi yang lebih detail dari data yang
dimiliki, sehingga bisa dimanfaatkan untuk berbagai keperluan. Hasil dari analisis
data dipengaruhi oleh banyak hal antara lain objek yang dianalisis, peubah yang
diamati, tingkat kesamaan atau jarak yang dipakai, skala ukuran yang dipakai,
serta metode yang akan digunakan untuk analisis data. Pada bidang biologi
molekuler saat ini sudah banyak ditemukan teknik-teknik analisis data yang
mendukung proses dalam bidang ini. Pengelompokan sekuen Deoxyribo nucleic
acid (DNA) merupakan salah satu contoh proses analisis data yang diterapkan
pada bidang biologi molekuler.
DNA merupakan asam nukleat yang terdapat pada inti sel pada sel
eukariotik, pada sel prokariotik DNA terdapat dalam sitoplasma. Satu asam
nukleat terdiri dari satu molekul gula ribosa, satu basa nitrogen, dan fosfat. Satu
asam nukleat dengan asam nukleat yang lain dirangkai dengan ikatan fosfodiester.
Basa nitrogen terdiri atas dua jenis yaitu purin dan pirimidin. Basa purin terdiri
atas adenin (A) dan guanin (G), sedangkan pirimidin terdiri atas sitosin (C) dan
timin (T). DNA berfungsi untuk menyimpan informasi genetik pada suatu
organisme (Yuwono 2008).
Sekuen DNA berbentuk sebuah urutan huruf-huruf mewakili struktur primer
dari molekul DNA yang dapat digunakan sebagai parameter dalam
pengelompokan DNA. Sekuen DNA dalam bentuk digital disimpan dalam sebuah
file berbasis teks berformat Fasta.
Pengelompokan adalah suatu proses pembelajaran tidak terlatih
(unsupervised) terhadap suatu pattern (data, feature vectors) menjadi beberapa
kelompok berdasarkan kemiripannya (Jain et al 1999). Pengelompokan sekuen
DNA dilakukan untuk mempartisi data berdasarkan kemiripan sekuen DNA yang
dimiliki. Pengelompokan seringkali disamakan dengan klasifikasi, dalam hal ini
pengelompokan memisahkan sekelompok data ke dalam beberapa kelompok
menurut kemiripannya, sedangkan klasifikasi yaitu memberikan kelompok kepada
sebuah data berdasarkan kemiripan dengan data pada setiap kelompok tertentu.
Penelitian sebelumnya tentang sekuen DNA dengan feature vectors telah
dilakukan oleh Liu et al. (2006) dengan menghitung jarak(dissimilarity)
menggunakan Euclidean distance (EUD). Penelitian Liu et al. (2006)
menggunakan DNA manusia, tikus, dan kerbau serta beberapa sekuen DNA yang
diambil secara acak tapi memiliki panjang yang sama. Penelitian tersebut
menitikberatkan kepada tingkat kesamaan sekuen DNA setelah dilakukan
pergantian nukleotida pada awal, tengah, dan akhir sekuen. Setelah dilakukan
pergantian nukleotida akan diukur sensitivitasnya terhadap pergantian nukleotida.
Pada penelitian ini pengelompokan sekuen DNA akan dilakukan dengan
metode hierarchical clustering single link di mana setiap vektor dikelompokkan
berdasarkan tingkat kesamaan (similarity) paling dekat. Adapun untuk ekstraksi
fitur menggunakan feature vectors, yang diambil dari penelitian Lui et al (2006)
dan perhitungan tingkat kesamaan dengan cosine similarity.

2
Tujuan
Tujuan dilakukan penelitian ini adalah untuk:
1 Menerapkan feature vectors dengan perhitungan tingkat kesamaan cosine
similarity dalam pengelompokan sekuen DNA menggunakan metode single
link.
2 Visualisasi hasil pengelompokan sekuen DNA.
3 Dapat memberikan informasi yang akurat dalam pengelompokan sekuen DNA.

Ruang lingkup
1 Data sekuen DNA yang digunakan dalam format Fasta.
2 DNA sekuen yang digunakan adalah DNA bakteri complete sequence.

METODE PENELITIAN
Penelitian ini melakukan pengelompokan otomatis terhadap sekuen DNA
berformat fasta dengan menggunakan metode hierarki clustering single link.
Metode penelitian ini dilakukan dalam beberapa tahap, yaitu pengumpulan data,
pengelompokan, dan tahap evaluasi seperti yang ditampilkan pada gambar 1.
Penelitian terdiri dari 8 studi kasus dan masing-masing studi kasus terdiri
dari 5 percobaan. Studi kasus 2 sekuen menggunakan 2 sekuen setiap genus
dengan 5 percobaan menggunakan data sekuen yang berbeda di setiap percobaan.
Hal yang sama juga berlaku bagi studi kasus yang lain studi kasus 3 sekuen
hingga 9 sekuen setiap genus.
Mulai

Pengumpulan data

Pengelompokan

Tahap Evaluasi

Selesai

Gambar 1 Metode penelitian

3
Tahap Pengumpulan Data
Dalam penelitian ini menggunakan 50 data sekuen DNA yang didapatkan
dari situs National Centre of Biotechnology Information, US National Library of
Medicine, yang beralamat di http://www.ncbi.nlm.nih.gov/. Semua data tersebut
disimpan dalam format standar fasta. Format fasta adalah format berbasis teks
untuk mewakili urutan nukleotida. Nukleotida tersebut diwakili menggunakan
huruf tunggal. Format ini juga menyimpan informasi spesies dari sekuen DNA
tersebut. Format fasta awalnya merupakan hasil dari perangkat lunak fasta, tapi
sekarang telah menjadi standar dalam bidang bioinformatika. Data tersebut terdiri
dari lima genus nukleotida, yang akan dikelompokkan menurut kelasnya masingmasing. Data yang digunakan pada penelitian ini ditampilkan pada Lampiran 1.
Tahap Pengelompokan
Dalam tahap ini akan dilakukan perhitungan terhadap sekuen DNA yang
sudah didapatkan pada tahap sebelumnya. Proses pada tahap pengelompokan
dapat dilihat pada Gambar 2. Dimulai dari ekstraksi fitur dengan feature vectors
dari setiap sekuen, normalisasi, perhitungan tingkat kesamaan dengan cosine
similarity, dan pengelompokan sekuen DNA menggunakan single link. Hasil dari
tahap ini nantinya akan digunakan pada tahap pengujian.
Sekuen DNA

Ekstraksi Ciri
(Feature Vector)

Kesamaan/Jarak
(Cosine Similarity)

Pengelompokan
(Single Link)

Hasil
Pengelompokan

Gambar 2 Proses dalam tahap pengelompokan
Feature Vectors
Pada dasarnya sebuah sekuen DNA terdiri dari rangkaian huruf, sehingga
akan sangat sulit untuk melakukan perbandingan dan perhitungan dari masingmasing sekuen. Oleh karena itu perlu ditentukan identitas yang dapat digunakan
sebagai penciri suatu sekuen DNA, sehingga setiap sekuen DNA dapat dilakukan
perbandingan melalui penciri sekuen tersebut.
Penentuan identitas dari sebuah sekuen DNA dilakukan dengan metode
feature vectors, di mana setiap sekuen DNA yang terdiri dari rangkaian huruf
yang memiliki ukuran dan panjang yang berbeda, sehingga harus dipetakan ke
dalam sebuah vektor. Dalam penelitian ini, proses feature vectors dilakukan
dengan membentuk vektor yang memiliki panjang yang sama, tanpa dipengaruhi
panjang asli sekuen DNA. Proses feature vectors dilakukan pada setiap sekuen
DNA, sehingga akan didapatkan 50 vektor untuk diproses pada tahap selanjutnya.
Feature vectors memisahkan sekuen DNA menjadi dua belas dimensi,
empat nukleotida dalam sebuah sekuen DNA yaitu adenin (A), guanin (G), timin
(T), dan sitosin (C) akan dihitung berdasarkan tiga parameter, sehingga akan
didapatkan nilai dua belas vektor dari setiap sekuen DNA. Ketiga parameter
dalam perhitungan feature vectors tersebut adalah:

4
 Jumlah setiap nukleotida pada sekuen DNA (n)
Setiap sekuen DNA terdiri atas empat nukleotida yang menyusunnya, n
merupakan parameter yang menunjukkan jumlah total satu nukleotida pada
sebuah sekuen DNA, suatu parameter na merupakan jumlah nukleotida A pada
sekuen DNA tersebut. Hal tersebut juga berlaku pada tiga nukleotida lainnya yaitu
C, G, dan T. sehingga nanti akan didapatkan empat nilai yaitu nA, nC, nG, dan nT.
 Jumlah total jarak antar nukleotida dengan nukleotida pertama (t)
Untuk mendapatkan nilai dari parameter t yang merupakan perhitungan total
jarak antara satu nukleotida sejenis, jika sebuah nukleotida A maka jarak antar
nukleotida ke n dengan nukleotida pertama akan dijumlahkan sehingga
mendapatkan sebuah nilai t. Nilai parameter t dapat dihitung dengan
menggunakan Persamaan 1:

(1)
dengan nilai i adalah nukleotida A, T, G, C, dan j = jarak antar nukleotida.
 Varians nukleotida (d)
Jika dua DNA memiliki ukuran yang sama, dan memiliki total jarak sama,
maka jika dilakukan perbandingan akan terjadi kesalahan. Jika dalam satu sekuen
DNA terdapat nukleotida A pada posisi 4 dan 6, dan pada suatu sekuen DNA lain
juga memiliki nukleotida A pada posisi 5 dan 7, maka kedua sekuen DNA
tersebut memiliki jumlah A yang sama, total jarak dari nukleotida pertama sama,
sehingga dibutuhkan parameter ketiga yaitu d. Parameter d merupakan parameter
yang melakukan analisis distribusi dari setiap nukleotida, perhitungan parameter d
untuk setiap nukleotida dilakukan untuk menggambarkan distribusi dari
nukleotida dengan menggunakan Persamaan 2:


( - )

(2)

dengan i= A,T,G,C dan tj = jarak nukleotida pertama dengan nukleotida ke n
Nilai didapatkan dari Persamaan 3:
(3)
Tabel 1 Contoh perhitungan feature vectors
Sekuen DNA
Parameter n
Parameter t
CAATTAACCCCTT
nA = 8
tA = 82
ATTAACGGTATG
nC = 6
tC = 52
nG = 3
tG = 62
nT = 8
tT = 103

Parameter d
dA = 52.94
dC = 31.75
dG = 4.66
dT = 44.35

Setelah dilakukan perhitungan tiga parameter seperti ditampilkan pada
Tabel 1, akan didapatkan dua belas nilai yang akan dijadikan sebuah vektor,
sehingga setiap sekuen DNA ditransformasikan menjadi sebuah vektor yang
memiliki 12 nilai.


5
Normalisasi Min-Max
Untuk mendapatkan hasil pengelompokan yang baik, maka harus
menggunakan data yang baik, lengkap, dan terstruktur. Sebelum melakukan
pengelompokan sekuen DNA perlu dilakukan normalisasi untuk memastikan data
yang akan digunakan adalah data yang bagus untuk dikelompokkan karena data
sangat berpengaruh terhadap hasil pengelompokan.
Normalisasi merupakan proses penskalaan nilai atribut dari data, sehingga
bisa berkisar pada range nilai tertentu, karena oleh dimensi data yang terlalu jauh
atau terlalu dekat, sehingga akan sulit untuk melakukan pengelompokan data.
Min-max melakukan transformasi linear pada data, menggunakan nilai
minimum dan nilai maksimum. Normalisasi min-max mempertahankan hubungan
antara nilai data asli (Han dan Kamber 2006). Proses normalisasi min-max
dilakukan dengan mengurangkan nilai data dengan nilai minimal, kemudian
dibagi dengan nilai maksimal kurang nilai minimal. Normalisasi min-max
didapatkan dari persamaan (4):
Min Max(x) =
Cosine Similarity

-

(

)

-

(4)

Pada analisis terhadap objek, terdapat dua konsep yaitu perhitungan jarak
antar objek atau dissimilarity dan perhitungan tingkat kesamaan antar objek atau
similarity. Metode cosine similarity merupakan metode yang digunakan untuk
menghitung similarity antara dua buah objek (Han dan Kamber 2006). Pada
penelitian ini objek yang dimaksud adalah vektor sekuen DNA. Berikut adalah
persamaan cosine similarity :

|| |||| ||

√∑



√∑

Perhitungan tingkat kesamaan vektor dilakukan dengan membandingkan
setiap vektor sekuen DNA menggunakan persamaan cosine similarity, dari
perhitungan tersebut akan didapatkan nilai yang merupakan tingkat kesamaan
antara setiap vektor sekuen DNA.
Single Link
Dalam analisis cluster pada dasarnya akan dilakukan pengelompokan secara
alami terhadap sekelompok objek, dengan melakukan perbandingan terhadap
masing-masing objek yang memiliki tingkat kesamaan atau jarak. Clustering
adalah pengelompokan dari record, observasi-observasi, atau kasus-kasus ke
kelas yang memiliki kemiripan objek-objeknya. Cluster adalah koleksi dari record
yang mirip, dan tidak mirip dengan record dari cluster lain. Clustering berbeda

6
dengan klasifikasi, dalam hal tidak ada variabel target untuk clustering.
Clustering tidak mengklasifikasikan, meramalkan, atau memprediksi nilai dari
sebuah variabel target. Algoritme clustering digunakan untuk menentukan segmen
keseluruhan himpunan data menjadi subgrup yang relatif sama atau cluster,
dengan kesamaan record dalam cluster dimaksimumkan dan kesamaan record di
luar cluster diminimumkan (Larose 2005).

Gambar 3 Contoh pengelompokan single link
Secara umum metode utama clustering dapat diklasifikasikan menjadi
kategori-kategori berikut (Han dan Kamber 2006):
 Metode partisi. Misalkan ada sebuah basis data berisi n objek. Metode partisi
membangun k partisi pada basis data tersebut, dengan tiap partisi
merepresentasikan cluster dan k ≤ n. Partisi yang terbentuk harus memenuhi
syarat yaitu setiap cluster harus berisi minimal satu objek dan setiap objek
harus termasuk tepat satu cluster.
 Metode hirarkhi, yaitu membuat sebuah dekomposisi berhirarki dari himpunan
data (atau objek) menggunakan beberapa kriteria. Metode ini memiliki dua
jenis pendekatan yaitu :
o Agglomerative, dimulai dengan titik-titik sebagai cluster individu. Pada
setiap tahap dilakukan penggabungan setiap pasangan titik pada cluster
sampai hanya satu titik (atau cluster) yang tertinggal.
o Divisive, dimulai dengan satu cluster besar yang berisi semua titik data.
Pada setiap langkah, dilakukan pemecahan sebuah cluster sampai setiap
cluster berisi sebuah titik (atau terdapat k cluster).
 Metode berdasarkan kepekatan, merupakan pendekatan yang berdasarkan pada
konektivitas dan fungsi kepadatan.
 Metode berdasarkan grid, merupakan pendekatan yang berdasarkan pada
struktur multiple-level granularity.
 Metode berdasarkan model, yaitu: sebuah model yang dihipotesis untuk tiap
cluster dan ide dasarnya adalah untuk menemukan model yang cocok untuk
tiap cluster.
Pengelompokan data dengan metode single link termasuk ke dalam metode
hierarchical agglomerative clustering. Kelompok yang berawal dari objek-objek
individual, pada awalanya jumlah kelompok sama dengan banyaknya objek, objek
yang paling mirip akan dikelompokkan. Hingga akhirnya ketika kemiripan
berkurang semua subkelompok akan digabungkan jadi satu kelompok tunggal.
Hasil dari agglomerative akan ditampilkan dalam bentuk diagram dendrogram.

7
Dendrogram akan menampilkan gambaran penggabungan dan pembagian pada
tingkat yang berurutan. Contoh dendrogram ditampilkan pada Gambar 3.

Gambar 4 Contoh dendrogram
Single link memberikan hasil bila kelompok-kelompok digabungkan
menurut jarak antara anggota-anggota yang paling dekat. Input dari metode single
link bisa berupa jarak atau tingkat kesamaan antara pasangan dari objek,
kemudian dibentuk kelompok-kelompok dari entitas setiap objek dengan
menggabungkan jarak paling pendek, atau tingkat kesamaan yang paling besar,
diambil nilai yang terkecil terlebih dahulu, lalu dilakukan penggabungan dua
vektor, dan membandingkan nilai vektor yang digabungkan dengan vektor lain,
selanjutnya dilakukan pengambilan nilai yang terdekat untuk dibandingkan
kembali. Cara perhitungan single link direpresentasikan pada Gambar 4.
Tahap Evaluasi
Confusion Matrix
Untuk melakukan pengujian terhadap perhitungan yang telah dilakukan
dibutuhkan sebuah metode yang akan menguji ketepatan dan keakuratan
perhitungan yang dilakukan sebelumnya.
Confusion matrix adalah sebuah matrik yang menyimpan nilai aktual dan
nilai prediksi dari klasifikasi atau pengelompokan yang dilakukan (Kohavi dan
Provost 1998). Kinerja sebuah sistem pengelompokan dievaluasi menggunakan
data dalam matrik.
Perhitungan Akurasi
Kinerja dari pengelompokan single link ditentukan dengan menghitung
besaran akurasi yang berhasil diperoleh, akurasi dihitung dengan persamaan
berikut:


Akurasi = ∑

Lingkungan Implementasi
Lingkungan implementasi dari penelitian ini adalah:
Perangkat keras berupa notebook dengan spesifikasi:

8





Processor Intel Core i3 @2.4 GHz,
RAM kapasitas 2 GB,
Harddisk kapasitas 320 GB,
Layar dengan resolusi 1366×768 piksel.
Perangkat lunak berupa:
 Sistem operasi Microsoft Windows 7 Ultimate,
 Program pengolahan data statistik R,
 Microsoft Excel 2010

HASIL DAN PEMBAHASAN
Tahap Pengumpulan Data
Data yang telah dikumpulkan berupa sekuen DNA berformat standar fasta
sebanyak 50 data. Data tersebut terdiri dari rangkaian huruf yang
merepresentasikan nukleotida adenin (A), guanin (G), timin (T) dan sitosin (C).
Urutan dalam format fasta dimulai dengan deskripsi sekuen DNA tersebut, dan
diikuti oleh barisan data sekuen. Diawali oleh simbol lebih besar (>) dan deskripsi
dari sekuen DNA, sisanya merupakan barisan huruf nukleotida yang panjangnya
tidak melebihi delapan puluh karakter per baris dan tanpa mengandung spasi.
Pada 50 data tersebut memiliki paling banyak 97 452 karakter yaitu Bacillus,
sedangkan data paling sedikit adalah Streptococcus thermophilus dengan 3 090
karakter. Semua data sekuen DNA terdiri dari 5 genus yaitu Borellia (10 sekuen),
Bacillus (10 sekuen), Methylobacterium (10 sekuen), Streptococcus (10 sekuen),
dan Yersinia (10 sekuen).
Pada awalnya akan dilakukan pengelompokan dengan jumlah sekuen yang
tidak sama setiap genus nya, tapi setelah dilakukan penelitian jumlah data sekuen
setiap genus diputuskan sama yaitu 10 sekuen setiap genus, dengan 8 studi kasus
pengelompokan menggunakan 2 sekuen setiap genus hingga menggunakan 9
sekuen setiap genus. Hal ini dilakukan untuk mengetahui jumlah sekuen dalam
setiap genus akan mempengaruhi hasil pengelompokan.
Tahap Pengelompokan
Feature Vectors
Tahapan feature vectors merupakan proses ekstraksi ciri dari sebuah sekuen
DNA, dari sebuah sekuen DNA yang terdiri dari urutan huruf ditransformasi
menjadi sebuah vektor. Sehingga dari 50 sekuen DNA yang memiliki beragam
ukuran diubah menjadi 50 vektor yang merepresentasikan urutan huruf dari
sekuen DNA tersebut. Feature vectors dilakukan karena dari sebuah sekuen DNA
tersebut harus didapatkan nilai-nilai yang bisa dijadikan sebagai identitasnya,
sehingga bisa diteruskan pada tahap selanjutnya.
Proses feature vectors dimulai dengan perhitungan nilai parameter n, yang
merupakan frekuensi dari setiap nukleotida pada suatu sekuen DNA, dalam satu
deretan sekuen DNA akan dihitung jumlah nukleotida A, C, G dan T sehingga
akan menghasilkan nilai nA, nC, nG, dan nT. Langkah selanjutnya adalah

9
perhitungan parameter kedua yaitu parameter t, yaitu total jarak setiap nukleotida
sejenis pada sekuen DNA dengan nukleotida pertama. Hasil dari perhitungan
parameter t akan disimpan pada variabel tA, tC, tG, dan tT. Tahap terakhir dari
feature vectors adalah parameter d, yaitu varians nukleotida. Parameter d
didapatkan dari persamaan matematika yang telah ditentukan. Sehingga akan
menghasilkan dA, dC, dG, dan dT.
Hasil perhitungan tiga parameter n, t, d untuk setiap nukleotida A, C, G dan
T digabungkan kedalam sebuah vektor. Sehingga setiap vektor terdiri dari dua
belas nilai yang masing-masing menyimpan informasi DNA tersebut.
Normalisasi Min-max
Normalisasi merupakan tahapan yang sangat penting untuk dilakukan,
karena keberagaman nilai yang didapatkan pada proses feature vectors, sehingga
nilai data harus diskalakan ke dalam range nilai tertentu agar tidak terdapat
dimensi data yang terlalu besar ataupun terlalu kecil yang akan sangat
mempengaruhi hasil pengelompokan. Data dengan kualitas yang rendah juga akan
berdampak terhadap hasil pengelompokan yang rendah juga. Proses normalisasi
menggunakan algoritme min-max melibatkan nilai terkecil dan nilai terbesar dari
data. Setiap nilai dalam data dikurangkan dengan nilai paling kecil dan dibagi
dengan nilai paling besar kurang nilai paling kecil, sehingga nilai yang didapatkan
berada pada 0.0 hingga 1.0. Setiap data dilakukan perhitungan terhadap semua
data vektor yang dimiliki.
Nilai dari vektor yang sebelumnya memiliki dimensi data yang terlalu jauh
atau terlalu dekat, setelah dilakukan normalisasi data akan menjadi lebih
terstruktur dan berkisar antar 0 sampai 1, sehingga akan berdampak kepada
akurasi dan efisiensi pengelompokan.
Cosine Similarity
Perhitungan tingkat kesamaan dengan cosine similarity dilakukan antar tiap
vektor, satu vektor Borellia akan dibandingkan dengan vektor tersebut dan vektor
lain dari genus yang berbeda. Pada studi kasus 2 sekuen percobaan menggunakan
2 vektor setiap genus, dilakukan perhitungan tingkat kesamaan antara Borellia 1
terhadap Borellia 1, Borellia 1 terhadap Streptococcus 1, Borellia 1 terhadap
Yersinia 1, Borellia 1 terhadap Methylobacterium 1, dan Borellia 1 terhadap
Bacillus 1. Hal tersebut juga dilakukan pada Borellia 2 dan sekuen yang lain,
sehingga akan menghasilkan matrik tingkat kesamaan seperti yang terdapat pada
Tabel 2.
Percobaan tersebut juga dilakukan untuk studi kasus 3 sekuen dengan
percobaan menggunakan 3 vektor setiap genus, hingga percobaan menggunakan 9
vektor setiap genus. Nilai tingkat kesamaan antar vektor tersebut akan dilakukan
pengelompokan dengan metode single link pada tahap selanjutnya.

10
Tabel 2 Hasil cosine similarity untuk studi kasus 2 sekuen percobaan 1
Borellia 1

Borellia 2

Streptococc Streptococc
us 1
us 2
Yersinia 1

Yersinia 2

Methylobact Methyloba
erium 1
cterium 2 Bacillus 1

Bacillus
2

Borellia 1
Borellia 2
Streptococ
cus 1
Streptococ
cus 2

0.9912374

Yersinia 1

0.9706462 0.9456844 0.9763492 0.9898386

Yersinia 2
Methyloba
cterium 1
Methyloba
cterium 2

0.9684138 0.9434951 0.9738889 0.9888656 0.9998738

0.8293263 0.7751865 0.8501796 0.8863459 0.9378593 0.9403285

0.9995218

Bacillus 1

0.9912748 0.9879127 0.9845589 0.9875234 0.9785964 0.9770640

0.8384712 0.8524595

Bacillus 2

0.9908064 0.9877019 0.9838709 0.9872081 0.9783980 0.9768986

0.8384772 0.8524241

0.9966989 0.9802347
0.9891670 0.9747853 0.9913926

0.8135433 0.7577499 0.8350892 0.8729222 0.9280086 0.9307786

0.9999912

Single Link
Pengelompokan single link dilakukan dengan data tingkat kesamaan yang
didapatkan dari cosine similarity, dimulai dari pengelompokan menggunakan 1
data tiap genus, hingga 9 data sekuen setiap genus. Studi kasus 2 sekuen
percobaan 1 dengan 2 vektor setiap genus menggunakan data dari Tabel 2,
langkah pertama adalah menentukan nilai terbesar selain 1, nilai terbesar
merupakan vektor yang mempunyai tingkat kesamaan yang paling mirip. Vektor
dengan tingkat kesamaan paling besar adalah antara Bacillus 1 dan Bacillus 2
yaitu 0.99999912, sehingga kedua vektor tersebut digabungkan.
Setelah Bacillus 1 dan Bacillus 2 digabungkan, kembali dilakukan
perhitungan tingkat kesamaan antara vektor Bacillus1-Bacillus2 dengan vektor
lain, contohnya antara Yersinia dengan Bacillus1-Bacillus2 didapatkan dengan
membandingkan tingkat kesamaan antara Yersinia1-Bacillus1 dengan Yersinia1Bacillus2, yaitu 0.9770640 dengan 0.9768986, diambil nilai terbesar karena
menggunakan single link, yaitu tingkat kesamaan yang paling mirip. Sehingga
didapatkan tingkat kesamaan antara Bacillus1-Bacillus2 dengan Yersinia1 adalah
0.9770640. Hal yang sama juga dilakukan terhadap Methylobacterium dan
Bacillus, sehingga akan didapatkan nilai tingkat kesamaan yang baru.

Gambar 3 Dendrogram dari studi kasus 2 sekuen percobaan 1

11
Setelah didapatkan nilai tingkat kesamaan yang baru kembali dilakukan
pengelompokan single link, dilakukan pemilihan cara pemilihan yang sama,
hingga menyisakan dua vektor terakhir. Dari nilai-nilai penggabungan semua
vektor dibentuk ke dalam sebuah dendrogram yang akan digunakan untuk
menentukan kelas dari setiap vektor.
Tahap Pengujian
Tahap pengujian menggunakan confusion matrix, dilakukan perbandingan
dengan nilai asli dan nilai setelah dilakukan pengelompokan. Pada studi kasus 3
sekuen percobaan 4 dengan menggunakan 3 vektor setiap genus, didapatkan
akurasi paling tinggi dari semua percobaan sebesar 100%. Semua data
dikelompokkan dengan benar sesuai kelompoknya. Hasil confusion matrix dari
studi kasus 3 sekuen percobaan 4 dapat dilihat pada Tabel 3.
Tabel 3 Confusion matrix untuk studi kasus 3 sekuen percobaan 4
Borellia
Streptococcus
Yersinia
Methylobacterium
Bacillus

Borellia
3
0
0
0
0

Streptococcus
0
3
0
0
0

Yersinia
0
0
3
0
0

Methylobacterium
0
0
0
3
0

Bacillus
0
0
0
0
3

Analisis Hasil Percobaan
Berdasarkan tabel 4 pengelompokan sekuen DNA dengan 8 studi kasus
dimana pada setiap studi kasus dilakukan 5 percobaan terhadap data yang berbeda
menghasilkan akurasi rata-rata sebesar 86.7%. Hasil pengelompokan dengan
akurasi studi kasus rata-rata paling tinggi didapatkan pada studi kasus 6 sekuen
89.2%. Adapun pengelompokan dengan akurasi paling rendah pada studi kasus 2
sekuen dengan 84%.
Pada studi kasus 2 sekuen dari 5 percobaan yang dilakukan mendapatkan
rata-rata akurasi 84%, akurasi paling tinggi didapat pada percobaan 1, 4, dan 5
dengan 90%, sedangkan akurasi terendah pada percobaan 2 70%, terdapat 3
kesalahan pada pengelompokannya. Studi kasus 3 sekuen mendapat akurasi ratarata 86.6%, akurasi paling besar terdapat pada percobaan 4 yaitu 100%,
merupakan percobaan dengan akurasi paling tinggi yang didapatkan dalam 8 studi
kasus. Studi kasus 4 sekuen akurasi tertinggi pada percobaan 1 dan 3 sebesar 95%
dan terendah pada percobaan 4 yaitu 70%, percobaan 4 pada studi kasus 4 sekuen
merupakan percobaan dengan akurasi paling rendah dari 8 studi kasus, akurasi
rata-rata dari 5 percobaan studi kasus 4 sekuen adalah 86%. Studi kasus 5 sekuen
dengan akurasi rata-rata 88%, akurasi paling besar didapatkan pada percobaan 3
sebesar 96%. Studi kasus 6 sekuen akurasi rata-rata paling tinggi dengan 89.2%,
akurasi tertinggi pada percobaan 2 yaitu 93%. Untuk percobaan 7, percobaan 8,
dan percobaan 9 menunjukkan penurunan akurasi rata-rata yaitu secara berurutan
88%, 85.8%, dan 85.4%.

12
Tabel 4 Hasil akurasi rata-rata 8 studi kasus
Studi
kasus

Percobaan

Jumlah
data

Akurasi
studi
kasus (%)

1

2

3

4

5

2 sekuen

90

70

80

90

90

10

84.0

3 sekuen

93

80

87

100

73

15

86.6

4 sekuen

95

90

95

70

80

20

86.0

5 sekuen

92

84

96

76

92

25

88.0

6 sekuen

90

93

90

90

83

30

89.2

7 sekuen

91

89

89

89

83

35

88.2

8 sekuen

88

88

80

90

83

40

85.8

9 sekuen

89

80

80

96

82

45

85.4

Rata-rata

91

84

87

88

83

-

86.7

Dari 8 studi kasus yang dilakukan terjadi kenaikan akurasi dari studi kasus 2
sekuen dan mencapai akurasi tertinggi pada studi kasus 6 sekuen, namun pada
studi kasus 7 sekuen hingga studi kasus 9 sekuen terjadi penurunan akurasi ratarata.
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
2

3

4

5

6

7

8

9

Gambar 4 Grafik rata-rata akurasi 8 studi kasus
Dari Gambar 6 terlihat bahwa semakin banyak sekuen yang digunakan
akurasi cenderung menurun, hal ini disebabkan karena semakin banyak jumlah
data yang digunakan, menyebabkan selisih kemiripan antara vektor akan semakin
kecil, sehingga mengakibatkan data yang berbeda genus dikelompokkan ke dalam
kelas yang sama. Hal ini menunjukkan bahwa jumlah sekuen yang digunakan
akan mempengaruhi hasil pengelompokan, semakin banyak data yang digunakan
maka hasil pengelompokan akan menunjukkan grafik penurunan akurasi.
Analisis Kesalahan
Percobaan dengan hasil akurasi terendah terdapat pada studi kasus 4 sekuen
percobaan 4 dengan mendapatkan akurasi sebesar 70%. Pada Tabel 5

13
menampilkan confusion matrix yang didapatkan pada studi kasus 4 sekuen
percobaan 4.
Tabel 5 Confusion matrix studi kasus 4 sekuen percobaan 4
Borellia
Streptococcus
Yersinia
Methylobacterium
Bacillus

Borellia
0
1
0
0
1

Streptococcus
1
3
0
0
0

Yersinia
0
0
4
0
0

Methylobacterium
0
0
0
4
0

Bacillus
3
0
0
0
3

Pada studi kasus 4 sekuen percobaan 4 mendapatkan akurasi sebesar 70%,
semua vektor Yersinia dan Methylobactrium ditempatkan sesuai dengan
genusnya, 4 vektor Borellia digabungkan ke dalam genus Bacillus, dan 1 vektor
Bacillus dimasukkan ke dalam genus Borellia, sedangkan 3 vektor Streptococcus
yang ditempatkan sesuai dengan kelompoknya, dan 1 vektor lain digabungkan ke
dalam kelompok Borellia.
Untuk mengetahui penyebab terjadinya kesalahan dalam pengelompokan
studi kasus di atas, dilakukan penjajaran antara sekuen yang salah dalam
pengelompokannya. Penjajaran dilakukan untuk mencari kecocokan (kesamaan)
antar karakter pada setiap sekuen. Penjajaran menggunakan data sekuen pada
studi kasus 4 sekuen percobaan 4 karena mendapatkan akurasi terendah dalam
penelitian. Data yang digunakan dalam penjajaran adalah genus Borellia karena
pada percobaan tersebut semua vektor Borellia dikelompokan tidak pada
kelasnya. Penjajaran dilakukan menggunakan Basic Local Alignment Search
Tools (BLAST).
Tabel 6 Hasil penjajaran sekuen Borellia burgdorferi
No
1
2
3
4

Deskripsi
Borrelia bissettii DN127 plasmid lp25,
complete sequence
Borrelia garinii Far04 plasmid
Far04_lp36, complete sequence
Borrelia afzelii PKo plasmid lp28-3,
complete sequence
Borrelia spielmanii A14S plasmid
A14S_lp28-3, complete sequence

Max
score
16289

Total
score
33883

Query
cover
87%

E
value
0.0

Max
indent
100%

5299

7800

28%

0.0

90%

5104

9367

30%

0.0

89%

5068

8527

30%

0.0

88%

Tabel 6 menunjukkan hasil penjajaran Borellia burgdorferi menggunakan
BLAST menghasilkan semua genus Borellia, hal tersebut membuktikan bahwa
hasil pengelompokan pada studi kasus 4 percobaan 4 salah, karena pada
percobaan tersebut vektor Borellia burgdorferi dikelompokkan ke dalam genus
Bacillus.

14
Tabel 7 Hasil penjajaran sekuen Borellia duttoni
No
1
2
3
4

Deskripsi
Borrelia crocidurae str. Achema plasmid
clone 3 genomic sequence
Borrelia garinii PBr plasmid PBr_lp284, complete sequence
Borrelia recurrentis A1 plasmid pl33,
complete sequence
Borrelia burgdorferi Bol26 plasmid
Bol26_lp28-4, complete sequence

Max
score
6803

Total
score
35436

Query
cover
73%

E
value
0.0

Max
indent
97%

2168

2833

15%

0.0

82%

2073

14715

45%

0.0

88%

1496

1496

7%

0.0

78%

Penjajaran yang dilakukan terhadap Borellia duttoni mengasilkan total
score tertinggi pada Borellia crocidurae sebesar 2246 dengan query cover 73%
seperti yang ditampilkan pada Tabel 7. Sedangkan pada studi kasus 4 percobaan 4
Borellia duttoni dikelompokkan ke dalam genus Streptococcus.
Tabel 8 Hasil penjajaran sekuen Borellia garinii
No
1
2
3
4

Deskripsi
Borrelia burgdorferi 297 plasmid
297_lp38, complete sequence
Borrelia valaisiana VS116 plasmid
VS116_lp28-3, complete sequence
Borrelia afzelii PKo plasmid lp17,
complete sequence
Borrelia spielmanii A14S plasmid
A14S_lp17, complete sequence

Max
score
11021

Total
score
11071

Query
cover
29%

E
value
0.0

Max
indent
97%

10368

13149

38%

0.0

93%

8091

13527

47%

0.0

90%

8074

14800

50%

0.0

89%

Tabel 8 di atas merupakan hasil penjajaran Borellia garinii menggunakan
BLAST yang menghasilkan spesies dari genusnya sendiri, Borellia burgdorferi
dengan total score sebesar 11 071 dengan query cover sebesar 29%. Pada studi
kasus 4 percobaan 4 Borellia garinii dikelompokkan kedalam genus Bacillus.
Tabel 9 merupakan hasil penjajaran Borellia spielmanii, dan total score terbesar
adalah 14 909 dan query cover 56% Bacillus afzelii.
Tabel 9 Hasil penjajaran sekuen Borellia spielmanii
No
1
2
3
4

Deskripsi
Borrelia afzelii ACA-1 plasmid lp28-2,
complete sequence
Borrelia sp. SV1 plasmid SV1_lp28-2,
complete sequence
Borrelia burgdorferi JD1 plasmid JD1
lp38, complete sequence
Borrelia
garinii
Far04
plasmid
Far04_lp25, complete sequence

Max
score
4197

Total
score
14909

Query
cover
56%

E
value
0.0

Max
indent
90%

3534

15213

54%

0.0

86%

3355

4430

19%

0.0

86%

2177

9343

36%

0.022

83%

Hasil penjajaran diatas menunjukkan bahwa jika dilakukan penjajaran
sekuen DNA menggunakan BLAST, antara sekuen-sekuen yang disejajarkan
dengan kelas yang salah dalam pengelompokkan mempunyai tinggat kemiripan
sekuen yang kecil dengan kelas tersebut. Hal tersebut menunjukkan bahwa hasil

15
pengelompokan pada studi kasus 4 sekuen percobaan 4 berbeda dengan hasil
penjajaran sekuen menggunakan BLAST. Perbedaaan tersebut disebabkan karena
kurang kayanya informasi yang digunakan pada saat ekstraksi fitur menggunakan
feature vectors sehingga terjadi beberapa kesalahan dalam pengelompokan yang
dilakukan.

SIMPULAN DAN SARAN
Simpulan
Single link merupakan algoritme yang digunakan untuk pengelompokan
data, sehingga biasa menjadi sebuah informasi yang dapat digunakan untuk
berbagai keperluan. Dari sekumpulan data yang tidak berhubungan digabungkan
ke dalam kelompok berdasarkan tingkat kemiripan atau jarak dari data tesebut.
Penelitian ini dilakukan untuk mengelompokkan 50 data sekuen DNA
berformat Fasta. Data sekuen DNA tersebut diekstraksi untuk mendapatkan ciri
dari setiap data menggunakan feature vectors, dilakukan normalisasi dengan minmax dan perhitungan tingkat kemiripan menggunakan cosine similarity,
selanjutnya dilakukan pengelompokan dengan algoritme single link. Dari 8 studi
kasus yang masing-masing terdiri dari 5 percobaan menggunakan 50 data sekuen
DNA didapatkan akurasi rata-rata 86.7%. Dengan akurasi terbesar didapatkan
pada studi kasus 3 sekuen percobaan 4 mendapatkan akurasi 100%, sedangkan
nilai akurasi terkecil pada studi kasus 4 sekuen percobaan 4 yang mendapatkan
akurasi 70%.
Untuk analisis pengaruh jumlah sekuen terhadap hasil pengelompokan
didapatkan bahwa semakin banyak jumlah sekuen yang digunakan hasil akurasi
akan cenderung semakin menurun, yang disebabkan oleh semakin kecilnya selisih
tingkat kesamaan antar vektor sehingga pada saat pemotongan threshold vektor
yang beda genus dikelompokkan pada kelas yang sama.
Faktor yang paling berpengaruh terhadap hasil pengelompokan sekuen
DNA adalah ukuran sekuen dan jumlah sekuen yang digunakan dalam penelitian.
Setelah dilakukan perbandingan hasil pengelompokan dengan penjajaran sekuen
menggunakan BLAST diketahui bahwa kemiripan antara vektor yang salah dalam
pengelompokan sangat kecil. Perbedaan hasil antar pengelompokan dengan
BLAST disebabkan karena kurang kayanya informasi yang digunakan pada saat
ekstraksi fitur menggunakan feature vectors sehingga terjadi beberapa kesalahan
dalam pengelompokan yang dilakukan.
Saran
Untuk pengembangan dari penelitian ini disarankan untuk melakukan halhal berikut:
1 Menambah data sekuen DNA yang digunakan.
2 Menggunakan algoritme pengelompokan lain seperti k-means dan complete
link sehingga dapat dilakukan perbandingan.
3 Menggunakan perhitungan seleksi fitur lain seperti k-mers.

16

DAFTAR PUSTAKA
Han H, Kamber M. 2006. Data Mining: Concepts and Techniques. San Francisco
(US): Morgan Kaufmann.
Jain AK, Murty MN, Flynn PJ. 1999. Data Clustering: a Review. New York (US):
ACM Computing Surveys.
Kohavi R, Provost F. 1998. Machine Learning. Boston (US): Springer
Netherlands. 30:271-274.
Larose DT. 2005. Discovering Knowledge in Data: an Introduction to Data
Mining. New Jersey (US): J Wiley.
Liu L, Yeo YK, Yau S. 2006. Molecular Phylogenetics and Evolution, Detroit
(US): Academic Press. 41:64-69.
Yuwono T. 2008. Biologi Molekuler. Jakarta (ID): Erlangga.

17
Lampiran 1 Data yang digunakan dalam penelitian
No
Nama sekuen
1. Borrelia afzelii PKo plasmid lp25
2. Borrelia bissettii DN127 plasmid lp25
3. Borrelia burgdorferi B31 plasmid lp25
4. Borrelia burgdorferi ZS7 plasmid ZS7_lp28-1
5. Borrelia duttonii Ly plasmid pl23b
6. Borrelia garinii Far04 plasmid Far04_lp17
7. Borrelia sp. SV1 plasmid SV1_lp28-2
8. Borrelia spielmanii A14S plasmid A14S_lp38
9. Borrelia recurrentis A1 plasmid pl23
10. Borrelia valaisiana VS116 plasmid VS116_cp32-5
11. Streptococcus agalactiae plasmid pGB3634
12. Streptococcus agalactiae plasmid pLS1
13. Streptococcus dysgalactiae subsp. equisimilis plasmid
pSdyT132
14. Streptococcus mutans UA140 plasmid pUA140
15. Streptococcus pneumoniae D39 plasmid pDP1
16. Streptococcus pneumoniae plasmid pSMB1
17. Streptococcus suis plasmid pSSU1 DNA
18. Streptococcus pyogenes 71-724 plasmid pDN571
19. Streptococcus pyogenes plasmid pDN281
20. Streptococcus thermophilus LMD-9 plasmid 2
21. Yersinia enterocolitica subsp. enterocolitica 8081
plasmid pYVe8081
22. Yersinia enterocolitica subsp. palearctica 105.5R(r)
plasmid 105.5R(r)p
23. Yersinia pestis Angola plasmid new_pCD
24. Yersinia pestis Antiqua plasmid pCD
25. Yersinia pestis biovar Microtus str. 91001 plasmid
pCD1
26. Yersinia pestis CO92 plasmid pCD1
27. Yersinia pestis Z176003 plasmid pCD1
28. Yersinia pseudotuberculosis IP 32953 plasmid pYV
29. Yersinia pestis strain KIM5 plasmid pCD1
30. Yersinia pseudotuberculosis PB1/+ plasmid pYPTS01
31. Methylobacterium extorquens AM1 plasmid p1META1
32. Methylobacterium extorquens AM1 plasmid p2META1
33. Methylobacterium extorquens DM4 plasmid p2METDI
34. Methylobacterium nodulans ORS 2060 plasmid
pMNOD03
35. Methylobacterium nodulans ORS 2060 plasmid
pMNOD04
36. Methylobacterium radiotolerans JCM 2831 plasmid
pMRAD02
37. Methylobacterium radiotolerans JCM 2831 plasmid
pMRAD04

Genus
Borellia
Borellia
Borellia
Borellia
Borellia
Borellia
Borellia
Borellia
Borellia
Borellia
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Methylobacterium
Methylobacterium
Methylobacterium
Methylobacterium
Methylobacterium
Methylobacterium
Methylobacterium

18
Lanjutan lampiran 1
38. Methylobacterium radiotolerans JCM 2831 plasmid
pMRAD05
39. Methylobacterium radiotolerans JCM 2831 plasmid
pMRAD03
40. Methylobacterium radiotolerans JCM 2831 plasmid
pMRAD06
41. Bacillus anthracis str. A0248 plasmid pXO2
42. Bacillus anthracis str. 'Ames Ancestor' plasmid pXO2
43. Bacillus anthracis str. CDC 684 plasmid pX02
44. Bacillus cereus E33L plasmid pE33L54
45. Bacillus cereus Q1 plasmid pBc53
46. Bacillus megaterium QM B1551 plasmid pBM400
47. Bacillus anthracis str. H9401 plasmid BAP2
48. Bacillus thuringiensis str. Al Hakam plasmid pALH1
49. Bacillus anthracis plasmid pXO2
50. Bacillus
weihenstephanensis
KBAB4
plasmid
pBWB404

Methylobacterium
Methylobacterium
Methylobacterium
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus

19
Lampiran 2 Tampilan awal pengelompokan single link

Lampiran 3 Dendrogram studi kasus 3 percobaan 4 akurasi 100%

20
Lampiran 4 Feature vectors untuk 50 data sekuen DNA
nA

tA

dA

nC

tC

dC

nG

tG

dG

nT

tT

dT

Borellia

9052

116894478

48144439

3829

42598667

50027915

3948

49946834

46716741

7965

97918842

56423500

Borellia

8566

100141185

44452323

2744

28495274

41422686

2691

33591237

44092917

9028

102928210

44112983

Borellia

8884

108985242

48047662

2816

30664859

46210859

2828

36750924

48288288

9642

115752321

49455219

Borellia

8354

102209626

40861795

2737

32998356

45659548

4652

40450974

48162132

7679

98624375

42402181

Borellia

8287

97419542

42166069

2298

24509026

48804127

4372

56006276

37195289

8079

87382286

47167258

Borellia

8903

96621123

42463097

3211

38501270

42100836

2204

25339703

39422997

8115

91146432

41572869

Borellia

9128

102305008

41320639

3220

32165029

38933898

2685

35956259

44103542

7912

92798744

46456998

Borellia

8041

87409628

41056263

2567

24433732

37007496

2826

31371149

39863335

8274

92393269

37360429

Borellia

8320

86274582

34801643

2843

27894542

36575991

2097

21873992

37751136

7672

83020730

37710163

Borellia

9181

108364065

44643015

2915

31978201

44181546

3775

43787455

49141656

7548

90083350

45585095

Streptococcus

2244

6639429

2901026

901

2569281

2862049

1062

3086348

2706481

1635

4766503

2840612

Streptococcus

1414

3160950

1597320

672

1484976

1738264

969

2134727

1732975

1353

2932375

1499066

Streptococcus

1139

1970928

1097983

539

1007213

1104365

724

1370346

1149789

1176

2050766

953513

Streptococcus

2072

5818357

2511431

766

2218711

2852391

1078

3052201

2803021

1724

4812711

2629893

Streptococcus

1116

1799493

827778

365

567721

837588

653

1040996

794227

1027

1586170

857901

Streptococcus

1113

1794724

830722

365

569451

843048

653

1041326

795001

1031

1592040

853842

Streptococcus

954

1384230

785456

457

730081

808011

603

952351

863245

1027

1555658

676677

Streptococcus

1753

4396562

2119689

744

1863397

1929570

1090

2615816

1849436

1388

3497050

2221286

Strep