Pengelompokan Sekuens DNA Menggunakan Algoritme Single Link dan Feature Vectors
PENGELOMPOKAN SEKUEN DNA MENGGUNAKAN
ALGORITME SINGLE LINK DAN FEATURE VECTORS
AL HARIS TAMSIN
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013
ii
iii
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Pengelompokan
Sekuen DNA Menggunakan Algoritme Single Link dan Feature Vectors adalah
benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan
dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang
berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari
penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di
bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, September 2013
Al Haris Tamsin
NIM G64104050
iv
ABSTRAK
AL HARIS TAMSIN. Pengelompokan Sekuen DNA Menggunakan Algoritme
Single Link dan Feature Vectors. Dibimbing oleh WISNU ANANTA KUSUMA.
Pengelompokan merupakan teknik pembelajaran untuk menemukan
kelompoknya secara otomatis berdasarkan ciri dan karakteristik yang dimiliki.
Pengelompokan dilakukan untuk memisahkan data ke dalam kelompok sehingga
data yang dimiliki menjadi mudah dimengerti. Pengelompokan sekuen DNA
dengan feature vectors merupakan proses penggabungan sekelompok sekuen
DNA yang memiliki kemiripan jumlah nukleotida, susunan, dan penyebaran
nukleotidanya, akan digabungkan ke dalam sebuah kelompok yang sama.
Pengelompokan sekuen DNA terdapat empat tahap utama yaitu feature vectors,
min max normalization, cosine similarity, dan pengelompokan single link.
Penelitian terdiri dari 8 studi kasus dan 5 percobaan di setiap studi kasus yang
mendapatkan akurasi rata-rata sebesar 86.7%, dan akurasi pengelompokan terbaik
terdapat pada studi kasus 3 sekuen percobaan 4 sebesar 100%. Faktor yang paling
berpengaruh terhadap hasil pengelompokan sekuen DNA adalah ukuran dan
jumlah sekuen yang digunakan dalam penelitian.
Kata kunci: feature vectors, single link, min max normalization, sekuen DNA
ABSTRACT
AL HARIS TAMSIN. Clustering DNA Sequences Using Single Link Algorithms
and Feature Vectors. Supervised by WISNU ANANTA KUSUMA.
Clustering is a learning technique to find the the group automatically based
on the characteristics. By separating the data into groups so the data will easy to
understand. Clustering DNA sequences with feature vectors is the process of
combining a group of DNA sequences with the same amount of nucleotides, the
composition and distribution of nucleotide, will combine into the same group.
There are 4 main stages of clustering DNA sequence: feature vectors, min max
normalization, cosine similarity and single link clustering. This research consist of
the 8 case and 5 experiment in each case, with the result of least average 86,7%
and the best cluster found 100% in case 3 experiment 4. The most affecting for the
result of DNA sequence clustering is the size and volume used in the research.
Keywords: feature vectors, single link, min max normalization, sequences DNA
v
PENGELOMPOKAN SEKUEN DNA MENGGUNAKAN
ALGORITME SINGLE LINK DAN FEATURE VECTORS
AL HARIS TAMSIN
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Ilmu Komputer
pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013
vi
Penguji :
1 Toto Haryanto, SKom MSi
2 Aziz Kustiyo, SSi MKom
vii
Judul Skripsi : Pengelompokan Sekuens DNA Menggunakan Algoritme Single
Link dan Feature Vectors
Nama
: Al Haris Tamsin
NIM
: G64104050
Disetujui oleh
Dr Wisnu Ananta Kusuma, ST MT
Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi M Kom
Ketua Departemen Ilmu Komputer
Tanggal Lulus:
viii
PRAKATA
Puji dan syukur penulis panjatkan ke hadirat Allah subhanahu wa ta’ala
atas rahmat dan karunia-Nya sehingga penulis bisa menyelesaikan karya ilmiah
ini. Penelitian yang dilakukan sejak bulan September 2012 mengangkat tema
pengelompokan sekuen DNA menggunakan algoritme single link dan ekstraksi
ciri feature vectors.
Penulis mengucapkan terima kasih kepada dosen pembimbing Bapak Wisnu
Ananta Kusuma yang telah memberikan arahan, saran, dan masukan untuk
selesainya penelitian ini. Ucapan terima kasih juga penulis sampaikan kepada
kedua orang tua, kakak, adik, dan keluarga atas doa, semangat, dan kasih
sayangnya sehingga penulis bisa menyelesaikan penelitian ini.
Penulis menyadari bahwa pada karya ilmiah ini masih banyak kekurangan
dan jauh dari kesempurnaan. Oleh karena itu, penulis mengharapkan saran dan
kritik yang membangun demi penyempurnaan karya ilmiah berikutnya. Semoga
karya ilmiah ini dapat bermanfaat bagi penulis khususnya dan bagi semua pihak
pada umumnya.
Semoga karya ilmiah ini bermamfaat.
Bogor, September 2013
Al Haris Tamsin
ix
DAFTAR ISI
DAFTAR TABEL .................................................................................................. vi
DAFTAR GAMBAR ............................................................................................. vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN .................................................................................................. 1
Latar Belakang ................................................................................................... 1
Tujuan ................................................................................................................. 2
Ruang lingkup .................................................................................................... 2
METODE PENELITIAN ........................................................................................ 2
Tahap pengumpulan data.................................................................................... 3
Tahap pengelompokan ....................................................................................... 3
Feature Vectors .................................................................................................. 3
Normalisasi Min-max ......................................................................................... 5
Cosine Similarity ................................................................................................ 5
Single link ........................................................................................................... 5
Tahap Evaluasi ................................................................................................... 7
Confusion Matrix................................................................................................ 7
Lingkungan implementasi .................................................................................. 7
HASIL DAN PEMBAHASAN ............................................................................... 8
Tahap Pengumpulan Data .................................................................................. 8
Tahap Pengelompokan ....................................................................................... 8
Feature Vectors .................................................................................................. 8
Normalisasi Min-max ......................................................................................... 9
Cosine Similarity ................................................................................................ 9
Single Link ........................................................................................................ 10
Tahap Pengujian ............................................................................................... 11
Analisis Hasil Percobaan .................................................................................. 11
SIMPULAN DAN SARAN .................................................................................. 15
Simpulan ........................................................................................................... 15
Saran ................................................................................................................. 15
LAMPIRAN .......................................................................................................... 18
RIWAYAT HIDUP ............................................................................................... 25
x
DAFTAR TABEL
1
2
3
4
5
6
7
8
9
Contoh perhitungan feature vectors ................................................................ 4
Hasil cosine similarity untuk studi kasus 2 sekuen percobaan 1 .................. 10
Confusion matrix untuk studi kasus 3 sekuen percobaan 4 .......................... 11
Hasil akurasi rata-rata 8 studi kasus ............................................................. 12
Confusion matrix studi kasus 4 sekuen percobaan 4 .................................... 13
Hasil penjajaran sekuen Borellia burgdorferi .............................................. 13
Hasil penjajaran sekuen Borellia duttoni ...................................................... 14
Hasil penjajaran sekuen Borellia garinii ...................................................... 14
Hasil penjajaran sekuen Borellia spielmanii ................................................ 14
DAFTAR GAMBAR
1
2
3
4
5
6
Metode penelitian ........................................................................................... 2
Proses dalam tahap pengelompokan ............................................................... 3
Contoh pengelompokan single link ................................................................ 6
Contoh dendrogram ........................................................................................ 7
Dendrogram dari studi kasus 2 sekuen percobaan 1 ..................................... 10
Grafik rata-rata akurasi 8 studi kasus ........................................................... 12
DAFTAR LAMPIRAN
1 Data yang digunakan dalam penelitian
2 Tampilan awal pengelompokan single link
3 Dendrogram studi kasus 3 percobaan 4 akurasi 100%
4 Feature vectors untuk 50 data sekuen DNA
5 Hasil normalisasi min-max untuk 50 data sekuen DNA
6 Confusion matrix studi kasus 2 sekuen
7 Confusion matrix studi kasus 3 sekuen
8 Confusion matrix studi kasus 4 sekuen
9 Confusion matrix studi kasus 5 sekuen
10 Confusion matrix studi kasus 6 sekuen
11 Confusion matrix studi kasus 7 sekuen
12 Confusion matrix studi kasus 8 sekuen
13 Confusion matrix studi kasus 9 sekuen
17
19
19
20
21
25
25
25
25
25
26
26
26
1
PENDAHULUAN
Latar Belakang
Analisis data dapat menggali informasi yang lebih detail dari data yang
dimiliki, sehingga bisa dimanfaatkan untuk berbagai keperluan. Hasil dari analisis
data dipengaruhi oleh banyak hal antara lain objek yang dianalisis, peubah yang
diamati, tingkat kesamaan atau jarak yang dipakai, skala ukuran yang dipakai,
serta metode yang akan digunakan untuk analisis data. Pada bidang biologi
molekuler saat ini sudah banyak ditemukan teknik-teknik analisis data yang
mendukung proses dalam bidang ini. Pengelompokan sekuen Deoxyribo nucleic
acid (DNA) merupakan salah satu contoh proses analisis data yang diterapkan
pada bidang biologi molekuler.
DNA merupakan asam nukleat yang terdapat pada inti sel pada sel
eukariotik, pada sel prokariotik DNA terdapat dalam sitoplasma. Satu asam
nukleat terdiri dari satu molekul gula ribosa, satu basa nitrogen, dan fosfat. Satu
asam nukleat dengan asam nukleat yang lain dirangkai dengan ikatan fosfodiester.
Basa nitrogen terdiri atas dua jenis yaitu purin dan pirimidin. Basa purin terdiri
atas adenin (A) dan guanin (G), sedangkan pirimidin terdiri atas sitosin (C) dan
timin (T). DNA berfungsi untuk menyimpan informasi genetik pada suatu
organisme (Yuwono 2008).
Sekuen DNA berbentuk sebuah urutan huruf-huruf mewakili struktur primer
dari molekul DNA yang dapat digunakan sebagai parameter dalam
pengelompokan DNA. Sekuen DNA dalam bentuk digital disimpan dalam sebuah
file berbasis teks berformat Fasta.
Pengelompokan adalah suatu proses pembelajaran tidak terlatih
(unsupervised) terhadap suatu pattern (data, feature vectors) menjadi beberapa
kelompok berdasarkan kemiripannya (Jain et al 1999). Pengelompokan sekuen
DNA dilakukan untuk mempartisi data berdasarkan kemiripan sekuen DNA yang
dimiliki. Pengelompokan seringkali disamakan dengan klasifikasi, dalam hal ini
pengelompokan memisahkan sekelompok data ke dalam beberapa kelompok
menurut kemiripannya, sedangkan klasifikasi yaitu memberikan kelompok kepada
sebuah data berdasarkan kemiripan dengan data pada setiap kelompok tertentu.
Penelitian sebelumnya tentang sekuen DNA dengan feature vectors telah
dilakukan oleh Liu et al. (2006) dengan menghitung jarak(dissimilarity)
menggunakan Euclidean distance (EUD). Penelitian Liu et al. (2006)
menggunakan DNA manusia, tikus, dan kerbau serta beberapa sekuen DNA yang
diambil secara acak tapi memiliki panjang yang sama. Penelitian tersebut
menitikberatkan kepada tingkat kesamaan sekuen DNA setelah dilakukan
pergantian nukleotida pada awal, tengah, dan akhir sekuen. Setelah dilakukan
pergantian nukleotida akan diukur sensitivitasnya terhadap pergantian nukleotida.
Pada penelitian ini pengelompokan sekuen DNA akan dilakukan dengan
metode hierarchical clustering single link di mana setiap vektor dikelompokkan
berdasarkan tingkat kesamaan (similarity) paling dekat. Adapun untuk ekstraksi
fitur menggunakan feature vectors, yang diambil dari penelitian Lui et al (2006)
dan perhitungan tingkat kesamaan dengan cosine similarity.
2
Tujuan
Tujuan dilakukan penelitian ini adalah untuk:
1 Menerapkan feature vectors dengan perhitungan tingkat kesamaan cosine
similarity dalam pengelompokan sekuen DNA menggunakan metode single
link.
2 Visualisasi hasil pengelompokan sekuen DNA.
3 Dapat memberikan informasi yang akurat dalam pengelompokan sekuen DNA.
Ruang lingkup
1 Data sekuen DNA yang digunakan dalam format Fasta.
2 DNA sekuen yang digunakan adalah DNA bakteri complete sequence.
METODE PENELITIAN
Penelitian ini melakukan pengelompokan otomatis terhadap sekuen DNA
berformat fasta dengan menggunakan metode hierarki clustering single link.
Metode penelitian ini dilakukan dalam beberapa tahap, yaitu pengumpulan data,
pengelompokan, dan tahap evaluasi seperti yang ditampilkan pada gambar 1.
Penelitian terdiri dari 8 studi kasus dan masing-masing studi kasus terdiri
dari 5 percobaan. Studi kasus 2 sekuen menggunakan 2 sekuen setiap genus
dengan 5 percobaan menggunakan data sekuen yang berbeda di setiap percobaan.
Hal yang sama juga berlaku bagi studi kasus yang lain studi kasus 3 sekuen
hingga 9 sekuen setiap genus.
Mulai
Pengumpulan data
Pengelompokan
Tahap Evaluasi
Selesai
Gambar 1 Metode penelitian
3
Tahap Pengumpulan Data
Dalam penelitian ini menggunakan 50 data sekuen DNA yang didapatkan
dari situs National Centre of Biotechnology Information, US National Library of
Medicine, yang beralamat di http://www.ncbi.nlm.nih.gov/. Semua data tersebut
disimpan dalam format standar fasta. Format fasta adalah format berbasis teks
untuk mewakili urutan nukleotida. Nukleotida tersebut diwakili menggunakan
huruf tunggal. Format ini juga menyimpan informasi spesies dari sekuen DNA
tersebut. Format fasta awalnya merupakan hasil dari perangkat lunak fasta, tapi
sekarang telah menjadi standar dalam bidang bioinformatika. Data tersebut terdiri
dari lima genus nukleotida, yang akan dikelompokkan menurut kelasnya masingmasing. Data yang digunakan pada penelitian ini ditampilkan pada Lampiran 1.
Tahap Pengelompokan
Dalam tahap ini akan dilakukan perhitungan terhadap sekuen DNA yang
sudah didapatkan pada tahap sebelumnya. Proses pada tahap pengelompokan
dapat dilihat pada Gambar 2. Dimulai dari ekstraksi fitur dengan feature vectors
dari setiap sekuen, normalisasi, perhitungan tingkat kesamaan dengan cosine
similarity, dan pengelompokan sekuen DNA menggunakan single link. Hasil dari
tahap ini nantinya akan digunakan pada tahap pengujian.
Sekuen DNA
Ekstraksi Ciri
(Feature Vector)
Kesamaan/Jarak
(Cosine Similarity)
Pengelompokan
(Single Link)
Hasil
Pengelompokan
Gambar 2 Proses dalam tahap pengelompokan
Feature Vectors
Pada dasarnya sebuah sekuen DNA terdiri dari rangkaian huruf, sehingga
akan sangat sulit untuk melakukan perbandingan dan perhitungan dari masingmasing sekuen. Oleh karena itu perlu ditentukan identitas yang dapat digunakan
sebagai penciri suatu sekuen DNA, sehingga setiap sekuen DNA dapat dilakukan
perbandingan melalui penciri sekuen tersebut.
Penentuan identitas dari sebuah sekuen DNA dilakukan dengan metode
feature vectors, di mana setiap sekuen DNA yang terdiri dari rangkaian huruf
yang memiliki ukuran dan panjang yang berbeda, sehingga harus dipetakan ke
dalam sebuah vektor. Dalam penelitian ini, proses feature vectors dilakukan
dengan membentuk vektor yang memiliki panjang yang sama, tanpa dipengaruhi
panjang asli sekuen DNA. Proses feature vectors dilakukan pada setiap sekuen
DNA, sehingga akan didapatkan 50 vektor untuk diproses pada tahap selanjutnya.
Feature vectors memisahkan sekuen DNA menjadi dua belas dimensi,
empat nukleotida dalam sebuah sekuen DNA yaitu adenin (A), guanin (G), timin
(T), dan sitosin (C) akan dihitung berdasarkan tiga parameter, sehingga akan
didapatkan nilai dua belas vektor dari setiap sekuen DNA. Ketiga parameter
dalam perhitungan feature vectors tersebut adalah:
4
Jumlah setiap nukleotida pada sekuen DNA (n)
Setiap sekuen DNA terdiri atas empat nukleotida yang menyusunnya, n
merupakan parameter yang menunjukkan jumlah total satu nukleotida pada
sebuah sekuen DNA, suatu parameter na merupakan jumlah nukleotida A pada
sekuen DNA tersebut. Hal tersebut juga berlaku pada tiga nukleotida lainnya yaitu
C, G, dan T. sehingga nanti akan didapatkan empat nilai yaitu nA, nC, nG, dan nT.
Jumlah total jarak antar nukleotida dengan nukleotida pertama (t)
Untuk mendapatkan nilai dari parameter t yang merupakan perhitungan total
jarak antara satu nukleotida sejenis, jika sebuah nukleotida A maka jarak antar
nukleotida ke n dengan nukleotida pertama akan dijumlahkan sehingga
mendapatkan sebuah nilai t. Nilai parameter t dapat dihitung dengan
menggunakan Persamaan 1:
∑
(1)
dengan nilai i adalah nukleotida A, T, G, C, dan j = jarak antar nukleotida.
Varians nukleotida (d)
Jika dua DNA memiliki ukuran yang sama, dan memiliki total jarak sama,
maka jika dilakukan perbandingan akan terjadi kesalahan. Jika dalam satu sekuen
DNA terdapat nukleotida A pada posisi 4 dan 6, dan pada suatu sekuen DNA lain
juga memiliki nukleotida A pada posisi 5 dan 7, maka kedua sekuen DNA
tersebut memiliki jumlah A yang sama, total jarak dari nukleotida pertama sama,
sehingga dibutuhkan parameter ketiga yaitu d. Parameter d merupakan parameter
yang melakukan analisis distribusi dari setiap nukleotida, perhitungan parameter d
untuk setiap nukleotida dilakukan untuk menggambarkan distribusi dari
nukleotida dengan menggunakan Persamaan 2:
∑
( - )
(2)
dengan i= A,T,G,C dan tj = jarak nukleotida pertama dengan nukleotida ke n
Nilai didapatkan dari Persamaan 3:
(3)
Tabel 1 Contoh perhitungan feature vectors
Sekuen DNA
Parameter n
Parameter t
CAATTAACCCCTT
nA = 8
tA = 82
ATTAACGGTATG
nC = 6
tC = 52
nG = 3
tG = 62
nT = 8
tT = 103
Parameter d
dA = 52.94
dC = 31.75
dG = 4.66
dT = 44.35
Setelah dilakukan perhitungan tiga parameter seperti ditampilkan pada
Tabel 1, akan didapatkan dua belas nilai yang akan dijadikan sebuah vektor,
sehingga setiap sekuen DNA ditransformasikan menjadi sebuah vektor yang
memiliki 12 nilai.
5
Normalisasi Min-Max
Untuk mendapatkan hasil pengelompokan yang baik, maka harus
menggunakan data yang baik, lengkap, dan terstruktur. Sebelum melakukan
pengelompokan sekuen DNA perlu dilakukan normalisasi untuk memastikan data
yang akan digunakan adalah data yang bagus untuk dikelompokkan karena data
sangat berpengaruh terhadap hasil pengelompokan.
Normalisasi merupakan proses penskalaan nilai atribut dari data, sehingga
bisa berkisar pada range nilai tertentu, karena oleh dimensi data yang terlalu jauh
atau terlalu dekat, sehingga akan sulit untuk melakukan pengelompokan data.
Min-max melakukan transformasi linear pada data, menggunakan nilai
minimum dan nilai maksimum. Normalisasi min-max mempertahankan hubungan
antara nilai data asli (Han dan Kamber 2006). Proses normalisasi min-max
dilakukan dengan mengurangkan nilai data dengan nilai minimal, kemudian
dibagi dengan nilai maksimal kurang nilai minimal. Normalisasi min-max
didapatkan dari persamaan (4):
Min Max(x) =
Cosine Similarity
-
(
)
-
(4)
Pada analisis terhadap objek, terdapat dua konsep yaitu perhitungan jarak
antar objek atau dissimilarity dan perhitungan tingkat kesamaan antar objek atau
similarity. Metode cosine similarity merupakan metode yang digunakan untuk
menghitung similarity antara dua buah objek (Han dan Kamber 2006). Pada
penelitian ini objek yang dimaksud adalah vektor sekuen DNA. Berikut adalah
persamaan cosine similarity :
|| |||| ||
√∑
∑
√∑
Perhitungan tingkat kesamaan vektor dilakukan dengan membandingkan
setiap vektor sekuen DNA menggunakan persamaan cosine similarity, dari
perhitungan tersebut akan didapatkan nilai yang merupakan tingkat kesamaan
antara setiap vektor sekuen DNA.
Single Link
Dalam analisis cluster pada dasarnya akan dilakukan pengelompokan secara
alami terhadap sekelompok objek, dengan melakukan perbandingan terhadap
masing-masing objek yang memiliki tingkat kesamaan atau jarak. Clustering
adalah pengelompokan dari record, observasi-observasi, atau kasus-kasus ke
kelas yang memiliki kemiripan objek-objeknya. Cluster adalah koleksi dari record
yang mirip, dan tidak mirip dengan record dari cluster lain. Clustering berbeda
6
dengan klasifikasi, dalam hal tidak ada variabel target untuk clustering.
Clustering tidak mengklasifikasikan, meramalkan, atau memprediksi nilai dari
sebuah variabel target. Algoritme clustering digunakan untuk menentukan segmen
keseluruhan himpunan data menjadi subgrup yang relatif sama atau cluster,
dengan kesamaan record dalam cluster dimaksimumkan dan kesamaan record di
luar cluster diminimumkan (Larose 2005).
Gambar 3 Contoh pengelompokan single link
Secara umum metode utama clustering dapat diklasifikasikan menjadi
kategori-kategori berikut (Han dan Kamber 2006):
Metode partisi. Misalkan ada sebuah basis data berisi n objek. Metode partisi
membangun k partisi pada basis data tersebut, dengan tiap partisi
merepresentasikan cluster dan k ≤ n. Partisi yang terbentuk harus memenuhi
syarat yaitu setiap cluster harus berisi minimal satu objek dan setiap objek
harus termasuk tepat satu cluster.
Metode hirarkhi, yaitu membuat sebuah dekomposisi berhirarki dari himpunan
data (atau objek) menggunakan beberapa kriteria. Metode ini memiliki dua
jenis pendekatan yaitu :
o Agglomerative, dimulai dengan titik-titik sebagai cluster individu. Pada
setiap tahap dilakukan penggabungan setiap pasangan titik pada cluster
sampai hanya satu titik (atau cluster) yang tertinggal.
o Divisive, dimulai dengan satu cluster besar yang berisi semua titik data.
Pada setiap langkah, dilakukan pemecahan sebuah cluster sampai setiap
cluster berisi sebuah titik (atau terdapat k cluster).
Metode berdasarkan kepekatan, merupakan pendekatan yang berdasarkan pada
konektivitas dan fungsi kepadatan.
Metode berdasarkan grid, merupakan pendekatan yang berdasarkan pada
struktur multiple-level granularity.
Metode berdasarkan model, yaitu: sebuah model yang dihipotesis untuk tiap
cluster dan ide dasarnya adalah untuk menemukan model yang cocok untuk
tiap cluster.
Pengelompokan data dengan metode single link termasuk ke dalam metode
hierarchical agglomerative clustering. Kelompok yang berawal dari objek-objek
individual, pada awalanya jumlah kelompok sama dengan banyaknya objek, objek
yang paling mirip akan dikelompokkan. Hingga akhirnya ketika kemiripan
berkurang semua subkelompok akan digabungkan jadi satu kelompok tunggal.
Hasil dari agglomerative akan ditampilkan dalam bentuk diagram dendrogram.
7
Dendrogram akan menampilkan gambaran penggabungan dan pembagian pada
tingkat yang berurutan. Contoh dendrogram ditampilkan pada Gambar 3.
Gambar 4 Contoh dendrogram
Single link memberikan hasil bila kelompok-kelompok digabungkan
menurut jarak antara anggota-anggota yang paling dekat. Input dari metode single
link bisa berupa jarak atau tingkat kesamaan antara pasangan dari objek,
kemudian dibentuk kelompok-kelompok dari entitas setiap objek dengan
menggabungkan jarak paling pendek, atau tingkat kesamaan yang paling besar,
diambil nilai yang terkecil terlebih dahulu, lalu dilakukan penggabungan dua
vektor, dan membandingkan nilai vektor yang digabungkan dengan vektor lain,
selanjutnya dilakukan pengambilan nilai yang terdekat untuk dibandingkan
kembali. Cara perhitungan single link direpresentasikan pada Gambar 4.
Tahap Evaluasi
Confusion Matrix
Untuk melakukan pengujian terhadap perhitungan yang telah dilakukan
dibutuhkan sebuah metode yang akan menguji ketepatan dan keakuratan
perhitungan yang dilakukan sebelumnya.
Confusion matrix adalah sebuah matrik yang menyimpan nilai aktual dan
nilai prediksi dari klasifikasi atau pengelompokan yang dilakukan (Kohavi dan
Provost 1998). Kinerja sebuah sistem pengelompokan dievaluasi menggunakan
data dalam matrik.
Perhitungan Akurasi
Kinerja dari pengelompokan single link ditentukan dengan menghitung
besaran akurasi yang berhasil diperoleh, akurasi dihitung dengan persamaan
berikut:
∑
Akurasi = ∑
Lingkungan Implementasi
Lingkungan implementasi dari penelitian ini adalah:
Perangkat keras berupa notebook dengan spesifikasi:
8
Processor Intel Core i3 @2.4 GHz,
RAM kapasitas 2 GB,
Harddisk kapasitas 320 GB,
Layar dengan resolusi 1366×768 piksel.
Perangkat lunak berupa:
Sistem operasi Microsoft Windows 7 Ultimate,
Program pengolahan data statistik R,
Microsoft Excel 2010
HASIL DAN PEMBAHASAN
Tahap Pengumpulan Data
Data yang telah dikumpulkan berupa sekuen DNA berformat standar fasta
sebanyak 50 data. Data tersebut terdiri dari rangkaian huruf yang
merepresentasikan nukleotida adenin (A), guanin (G), timin (T) dan sitosin (C).
Urutan dalam format fasta dimulai dengan deskripsi sekuen DNA tersebut, dan
diikuti oleh barisan data sekuen. Diawali oleh simbol lebih besar (>) dan deskripsi
dari sekuen DNA, sisanya merupakan barisan huruf nukleotida yang panjangnya
tidak melebihi delapan puluh karakter per baris dan tanpa mengandung spasi.
Pada 50 data tersebut memiliki paling banyak 97 452 karakter yaitu Bacillus,
sedangkan data paling sedikit adalah Streptococcus thermophilus dengan 3 090
karakter. Semua data sekuen DNA terdiri dari 5 genus yaitu Borellia (10 sekuen),
Bacillus (10 sekuen), Methylobacterium (10 sekuen), Streptococcus (10 sekuen),
dan Yersinia (10 sekuen).
Pada awalnya akan dilakukan pengelompokan dengan jumlah sekuen yang
tidak sama setiap genus nya, tapi setelah dilakukan penelitian jumlah data sekuen
setiap genus diputuskan sama yaitu 10 sekuen setiap genus, dengan 8 studi kasus
pengelompokan menggunakan 2 sekuen setiap genus hingga menggunakan 9
sekuen setiap genus. Hal ini dilakukan untuk mengetahui jumlah sekuen dalam
setiap genus akan mempengaruhi hasil pengelompokan.
Tahap Pengelompokan
Feature Vectors
Tahapan feature vectors merupakan proses ekstraksi ciri dari sebuah sekuen
DNA, dari sebuah sekuen DNA yang terdiri dari urutan huruf ditransformasi
menjadi sebuah vektor. Sehingga dari 50 sekuen DNA yang memiliki beragam
ukuran diubah menjadi 50 vektor yang merepresentasikan urutan huruf dari
sekuen DNA tersebut. Feature vectors dilakukan karena dari sebuah sekuen DNA
tersebut harus didapatkan nilai-nilai yang bisa dijadikan sebagai identitasnya,
sehingga bisa diteruskan pada tahap selanjutnya.
Proses feature vectors dimulai dengan perhitungan nilai parameter n, yang
merupakan frekuensi dari setiap nukleotida pada suatu sekuen DNA, dalam satu
deretan sekuen DNA akan dihitung jumlah nukleotida A, C, G dan T sehingga
akan menghasilkan nilai nA, nC, nG, dan nT. Langkah selanjutnya adalah
9
perhitungan parameter kedua yaitu parameter t, yaitu total jarak setiap nukleotida
sejenis pada sekuen DNA dengan nukleotida pertama. Hasil dari perhitungan
parameter t akan disimpan pada variabel tA, tC, tG, dan tT. Tahap terakhir dari
feature vectors adalah parameter d, yaitu varians nukleotida. Parameter d
didapatkan dari persamaan matematika yang telah ditentukan. Sehingga akan
menghasilkan dA, dC, dG, dan dT.
Hasil perhitungan tiga parameter n, t, d untuk setiap nukleotida A, C, G dan
T digabungkan kedalam sebuah vektor. Sehingga setiap vektor terdiri dari dua
belas nilai yang masing-masing menyimpan informasi DNA tersebut.
Normalisasi Min-max
Normalisasi merupakan tahapan yang sangat penting untuk dilakukan,
karena keberagaman nilai yang didapatkan pada proses feature vectors, sehingga
nilai data harus diskalakan ke dalam range nilai tertentu agar tidak terdapat
dimensi data yang terlalu besar ataupun terlalu kecil yang akan sangat
mempengaruhi hasil pengelompokan. Data dengan kualitas yang rendah juga akan
berdampak terhadap hasil pengelompokan yang rendah juga. Proses normalisasi
menggunakan algoritme min-max melibatkan nilai terkecil dan nilai terbesar dari
data. Setiap nilai dalam data dikurangkan dengan nilai paling kecil dan dibagi
dengan nilai paling besar kurang nilai paling kecil, sehingga nilai yang didapatkan
berada pada 0.0 hingga 1.0. Setiap data dilakukan perhitungan terhadap semua
data vektor yang dimiliki.
Nilai dari vektor yang sebelumnya memiliki dimensi data yang terlalu jauh
atau terlalu dekat, setelah dilakukan normalisasi data akan menjadi lebih
terstruktur dan berkisar antar 0 sampai 1, sehingga akan berdampak kepada
akurasi dan efisiensi pengelompokan.
Cosine Similarity
Perhitungan tingkat kesamaan dengan cosine similarity dilakukan antar tiap
vektor, satu vektor Borellia akan dibandingkan dengan vektor tersebut dan vektor
lain dari genus yang berbeda. Pada studi kasus 2 sekuen percobaan menggunakan
2 vektor setiap genus, dilakukan perhitungan tingkat kesamaan antara Borellia 1
terhadap Borellia 1, Borellia 1 terhadap Streptococcus 1, Borellia 1 terhadap
Yersinia 1, Borellia 1 terhadap Methylobacterium 1, dan Borellia 1 terhadap
Bacillus 1. Hal tersebut juga dilakukan pada Borellia 2 dan sekuen yang lain,
sehingga akan menghasilkan matrik tingkat kesamaan seperti yang terdapat pada
Tabel 2.
Percobaan tersebut juga dilakukan untuk studi kasus 3 sekuen dengan
percobaan menggunakan 3 vektor setiap genus, hingga percobaan menggunakan 9
vektor setiap genus. Nilai tingkat kesamaan antar vektor tersebut akan dilakukan
pengelompokan dengan metode single link pada tahap selanjutnya.
10
Tabel 2 Hasil cosine similarity untuk studi kasus 2 sekuen percobaan 1
Borellia 1
Borellia 2
Streptococc Streptococc
us 1
us 2
Yersinia 1
Yersinia 2
Methylobact Methyloba
erium 1
cterium 2 Bacillus 1
Bacillus
2
Borellia 1
Borellia 2
Streptococ
cus 1
Streptococ
cus 2
0.9912374
Yersinia 1
0.9706462 0.9456844 0.9763492 0.9898386
Yersinia 2
Methyloba
cterium 1
Methyloba
cterium 2
0.9684138 0.9434951 0.9738889 0.9888656 0.9998738
0.8293263 0.7751865 0.8501796 0.8863459 0.9378593 0.9403285
0.9995218
Bacillus 1
0.9912748 0.9879127 0.9845589 0.9875234 0.9785964 0.9770640
0.8384712 0.8524595
Bacillus 2
0.9908064 0.9877019 0.9838709 0.9872081 0.9783980 0.9768986
0.8384772 0.8524241
0.9966989 0.9802347
0.9891670 0.9747853 0.9913926
0.8135433 0.7577499 0.8350892 0.8729222 0.9280086 0.9307786
0.9999912
Single Link
Pengelompokan single link dilakukan dengan data tingkat kesamaan yang
didapatkan dari cosine similarity, dimulai dari pengelompokan menggunakan 1
data tiap genus, hingga 9 data sekuen setiap genus. Studi kasus 2 sekuen
percobaan 1 dengan 2 vektor setiap genus menggunakan data dari Tabel 2,
langkah pertama adalah menentukan nilai terbesar selain 1, nilai terbesar
merupakan vektor yang mempunyai tingkat kesamaan yang paling mirip. Vektor
dengan tingkat kesamaan paling besar adalah antara Bacillus 1 dan Bacillus 2
yaitu 0.99999912, sehingga kedua vektor tersebut digabungkan.
Setelah Bacillus 1 dan Bacillus 2 digabungkan, kembali dilakukan
perhitungan tingkat kesamaan antara vektor Bacillus1-Bacillus2 dengan vektor
lain, contohnya antara Yersinia dengan Bacillus1-Bacillus2 didapatkan dengan
membandingkan tingkat kesamaan antara Yersinia1-Bacillus1 dengan Yersinia1Bacillus2, yaitu 0.9770640 dengan 0.9768986, diambil nilai terbesar karena
menggunakan single link, yaitu tingkat kesamaan yang paling mirip. Sehingga
didapatkan tingkat kesamaan antara Bacillus1-Bacillus2 dengan Yersinia1 adalah
0.9770640. Hal yang sama juga dilakukan terhadap Methylobacterium dan
Bacillus, sehingga akan didapatkan nilai tingkat kesamaan yang baru.
Gambar 3 Dendrogram dari studi kasus 2 sekuen percobaan 1
11
Setelah didapatkan nilai tingkat kesamaan yang baru kembali dilakukan
pengelompokan single link, dilakukan pemilihan cara pemilihan yang sama,
hingga menyisakan dua vektor terakhir. Dari nilai-nilai penggabungan semua
vektor dibentuk ke dalam sebuah dendrogram yang akan digunakan untuk
menentukan kelas dari setiap vektor.
Tahap Pengujian
Tahap pengujian menggunakan confusion matrix, dilakukan perbandingan
dengan nilai asli dan nilai setelah dilakukan pengelompokan. Pada studi kasus 3
sekuen percobaan 4 dengan menggunakan 3 vektor setiap genus, didapatkan
akurasi paling tinggi dari semua percobaan sebesar 100%. Semua data
dikelompokkan dengan benar sesuai kelompoknya. Hasil confusion matrix dari
studi kasus 3 sekuen percobaan 4 dapat dilihat pada Tabel 3.
Tabel 3 Confusion matrix untuk studi kasus 3 sekuen percobaan 4
Borellia
Streptococcus
Yersinia
Methylobacterium
Bacillus
Borellia
3
0
0
0
0
Streptococcus
0
3
0
0
0
Yersinia
0
0
3
0
0
Methylobacterium
0
0
0
3
0
Bacillus
0
0
0
0
3
Analisis Hasil Percobaan
Berdasarkan tabel 4 pengelompokan sekuen DNA dengan 8 studi kasus
dimana pada setiap studi kasus dilakukan 5 percobaan terhadap data yang berbeda
menghasilkan akurasi rata-rata sebesar 86.7%. Hasil pengelompokan dengan
akurasi studi kasus rata-rata paling tinggi didapatkan pada studi kasus 6 sekuen
89.2%. Adapun pengelompokan dengan akurasi paling rendah pada studi kasus 2
sekuen dengan 84%.
Pada studi kasus 2 sekuen dari 5 percobaan yang dilakukan mendapatkan
rata-rata akurasi 84%, akurasi paling tinggi didapat pada percobaan 1, 4, dan 5
dengan 90%, sedangkan akurasi terendah pada percobaan 2 70%, terdapat 3
kesalahan pada pengelompokannya. Studi kasus 3 sekuen mendapat akurasi ratarata 86.6%, akurasi paling besar terdapat pada percobaan 4 yaitu 100%,
merupakan percobaan dengan akurasi paling tinggi yang didapatkan dalam 8 studi
kasus. Studi kasus 4 sekuen akurasi tertinggi pada percobaan 1 dan 3 sebesar 95%
dan terendah pada percobaan 4 yaitu 70%, percobaan 4 pada studi kasus 4 sekuen
merupakan percobaan dengan akurasi paling rendah dari 8 studi kasus, akurasi
rata-rata dari 5 percobaan studi kasus 4 sekuen adalah 86%. Studi kasus 5 sekuen
dengan akurasi rata-rata 88%, akurasi paling besar didapatkan pada percobaan 3
sebesar 96%. Studi kasus 6 sekuen akurasi rata-rata paling tinggi dengan 89.2%,
akurasi tertinggi pada percobaan 2 yaitu 93%. Untuk percobaan 7, percobaan 8,
dan percobaan 9 menunjukkan penurunan akurasi rata-rata yaitu secara berurutan
88%, 85.8%, dan 85.4%.
12
Tabel 4 Hasil akurasi rata-rata 8 studi kasus
Studi
kasus
Percobaan
Jumlah
data
Akurasi
studi
kasus (%)
1
2
3
4
5
2 sekuen
90
70
80
90
90
10
84.0
3 sekuen
93
80
87
100
73
15
86.6
4 sekuen
95
90
95
70
80
20
86.0
5 sekuen
92
84
96
76
92
25
88.0
6 sekuen
90
93
90
90
83
30
89.2
7 sekuen
91
89
89
89
83
35
88.2
8 sekuen
88
88
80
90
83
40
85.8
9 sekuen
89
80
80
96
82
45
85.4
Rata-rata
91
84
87
88
83
-
86.7
Dari 8 studi kasus yang dilakukan terjadi kenaikan akurasi dari studi kasus 2
sekuen dan mencapai akurasi tertinggi pada studi kasus 6 sekuen, namun pada
studi kasus 7 sekuen hingga studi kasus 9 sekuen terjadi penurunan akurasi ratarata.
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
2
3
4
5
6
7
8
9
Gambar 4 Grafik rata-rata akurasi 8 studi kasus
Dari Gambar 6 terlihat bahwa semakin banyak sekuen yang digunakan
akurasi cenderung menurun, hal ini disebabkan karena semakin banyak jumlah
data yang digunakan, menyebabkan selisih kemiripan antara vektor akan semakin
kecil, sehingga mengakibatkan data yang berbeda genus dikelompokkan ke dalam
kelas yang sama. Hal ini menunjukkan bahwa jumlah sekuen yang digunakan
akan mempengaruhi hasil pengelompokan, semakin banyak data yang digunakan
maka hasil pengelompokan akan menunjukkan grafik penurunan akurasi.
Analisis Kesalahan
Percobaan dengan hasil akurasi terendah terdapat pada studi kasus 4 sekuen
percobaan 4 dengan mendapatkan akurasi sebesar 70%. Pada Tabel 5
13
menampilkan confusion matrix yang didapatkan pada studi kasus 4 sekuen
percobaan 4.
Tabel 5 Confusion matrix studi kasus 4 sekuen percobaan 4
Borellia
Streptococcus
Yersinia
Methylobacterium
Bacillus
Borellia
0
1
0
0
1
Streptococcus
1
3
0
0
0
Yersinia
0
0
4
0
0
Methylobacterium
0
0
0
4
0
Bacillus
3
0
0
0
3
Pada studi kasus 4 sekuen percobaan 4 mendapatkan akurasi sebesar 70%,
semua vektor Yersinia dan Methylobactrium ditempatkan sesuai dengan
genusnya, 4 vektor Borellia digabungkan ke dalam genus Bacillus, dan 1 vektor
Bacillus dimasukkan ke dalam genus Borellia, sedangkan 3 vektor Streptococcus
yang ditempatkan sesuai dengan kelompoknya, dan 1 vektor lain digabungkan ke
dalam kelompok Borellia.
Untuk mengetahui penyebab terjadinya kesalahan dalam pengelompokan
studi kasus di atas, dilakukan penjajaran antara sekuen yang salah dalam
pengelompokannya. Penjajaran dilakukan untuk mencari kecocokan (kesamaan)
antar karakter pada setiap sekuen. Penjajaran menggunakan data sekuen pada
studi kasus 4 sekuen percobaan 4 karena mendapatkan akurasi terendah dalam
penelitian. Data yang digunakan dalam penjajaran adalah genus Borellia karena
pada percobaan tersebut semua vektor Borellia dikelompokan tidak pada
kelasnya. Penjajaran dilakukan menggunakan Basic Local Alignment Search
Tools (BLAST).
Tabel 6 Hasil penjajaran sekuen Borellia burgdorferi
No
1
2
3
4
Deskripsi
Borrelia bissettii DN127 plasmid lp25,
complete sequence
Borrelia garinii Far04 plasmid
Far04_lp36, complete sequence
Borrelia afzelii PKo plasmid lp28-3,
complete sequence
Borrelia spielmanii A14S plasmid
A14S_lp28-3, complete sequence
Max
score
16289
Total
score
33883
Query
cover
87%
E
value
0.0
Max
indent
100%
5299
7800
28%
0.0
90%
5104
9367
30%
0.0
89%
5068
8527
30%
0.0
88%
Tabel 6 menunjukkan hasil penjajaran Borellia burgdorferi menggunakan
BLAST menghasilkan semua genus Borellia, hal tersebut membuktikan bahwa
hasil pengelompokan pada studi kasus 4 percobaan 4 salah, karena pada
percobaan tersebut vektor Borellia burgdorferi dikelompokkan ke dalam genus
Bacillus.
14
Tabel 7 Hasil penjajaran sekuen Borellia duttoni
No
1
2
3
4
Deskripsi
Borrelia crocidurae str. Achema plasmid
clone 3 genomic sequence
Borrelia garinii PBr plasmid PBr_lp284, complete sequence
Borrelia recurrentis A1 plasmid pl33,
complete sequence
Borrelia burgdorferi Bol26 plasmid
Bol26_lp28-4, complete sequence
Max
score
6803
Total
score
35436
Query
cover
73%
E
value
0.0
Max
indent
97%
2168
2833
15%
0.0
82%
2073
14715
45%
0.0
88%
1496
1496
7%
0.0
78%
Penjajaran yang dilakukan terhadap Borellia duttoni mengasilkan total
score tertinggi pada Borellia crocidurae sebesar 2246 dengan query cover 73%
seperti yang ditampilkan pada Tabel 7. Sedangkan pada studi kasus 4 percobaan 4
Borellia duttoni dikelompokkan ke dalam genus Streptococcus.
Tabel 8 Hasil penjajaran sekuen Borellia garinii
No
1
2
3
4
Deskripsi
Borrelia burgdorferi 297 plasmid
297_lp38, complete sequence
Borrelia valaisiana VS116 plasmid
VS116_lp28-3, complete sequence
Borrelia afzelii PKo plasmid lp17,
complete sequence
Borrelia spielmanii A14S plasmid
A14S_lp17, complete sequence
Max
score
11021
Total
score
11071
Query
cover
29%
E
value
0.0
Max
indent
97%
10368
13149
38%
0.0
93%
8091
13527
47%
0.0
90%
8074
14800
50%
0.0
89%
Tabel 8 di atas merupakan hasil penjajaran Borellia garinii menggunakan
BLAST yang menghasilkan spesies dari genusnya sendiri, Borellia burgdorferi
dengan total score sebesar 11 071 dengan query cover sebesar 29%. Pada studi
kasus 4 percobaan 4 Borellia garinii dikelompokkan kedalam genus Bacillus.
Tabel 9 merupakan hasil penjajaran Borellia spielmanii, dan total score terbesar
adalah 14 909 dan query cover 56% Bacillus afzelii.
Tabel 9 Hasil penjajaran sekuen Borellia spielmanii
No
1
2
3
4
Deskripsi
Borrelia afzelii ACA-1 plasmid lp28-2,
complete sequence
Borrelia sp. SV1 plasmid SV1_lp28-2,
complete sequence
Borrelia burgdorferi JD1 plasmid JD1
lp38, complete sequence
Borrelia
garinii
Far04
plasmid
Far04_lp25, complete sequence
Max
score
4197
Total
score
14909
Query
cover
56%
E
value
0.0
Max
indent
90%
3534
15213
54%
0.0
86%
3355
4430
19%
0.0
86%
2177
9343
36%
0.022
83%
Hasil penjajaran diatas menunjukkan bahwa jika dilakukan penjajaran
sekuen DNA menggunakan BLAST, antara sekuen-sekuen yang disejajarkan
dengan kelas yang salah dalam pengelompokkan mempunyai tinggat kemiripan
sekuen yang kecil dengan kelas tersebut. Hal tersebut menunjukkan bahwa hasil
15
pengelompokan pada studi kasus 4 sekuen percobaan 4 berbeda dengan hasil
penjajaran sekuen menggunakan BLAST. Perbedaaan tersebut disebabkan karena
kurang kayanya informasi yang digunakan pada saat ekstraksi fitur menggunakan
feature vectors sehingga terjadi beberapa kesalahan dalam pengelompokan yang
dilakukan.
SIMPULAN DAN SARAN
Simpulan
Single link merupakan algoritme yang digunakan untuk pengelompokan
data, sehingga biasa menjadi sebuah informasi yang dapat digunakan untuk
berbagai keperluan. Dari sekumpulan data yang tidak berhubungan digabungkan
ke dalam kelompok berdasarkan tingkat kemiripan atau jarak dari data tesebut.
Penelitian ini dilakukan untuk mengelompokkan 50 data sekuen DNA
berformat Fasta. Data sekuen DNA tersebut diekstraksi untuk mendapatkan ciri
dari setiap data menggunakan feature vectors, dilakukan normalisasi dengan minmax dan perhitungan tingkat kemiripan menggunakan cosine similarity,
selanjutnya dilakukan pengelompokan dengan algoritme single link. Dari 8 studi
kasus yang masing-masing terdiri dari 5 percobaan menggunakan 50 data sekuen
DNA didapatkan akurasi rata-rata 86.7%. Dengan akurasi terbesar didapatkan
pada studi kasus 3 sekuen percobaan 4 mendapatkan akurasi 100%, sedangkan
nilai akurasi terkecil pada studi kasus 4 sekuen percobaan 4 yang mendapatkan
akurasi 70%.
Untuk analisis pengaruh jumlah sekuen terhadap hasil pengelompokan
didapatkan bahwa semakin banyak jumlah sekuen yang digunakan hasil akurasi
akan cenderung semakin menurun, yang disebabkan oleh semakin kecilnya selisih
tingkat kesamaan antar vektor sehingga pada saat pemotongan threshold vektor
yang beda genus dikelompokkan pada kelas yang sama.
Faktor yang paling berpengaruh terhadap hasil pengelompokan sekuen
DNA adalah ukuran sekuen dan jumlah sekuen yang digunakan dalam penelitian.
Setelah dilakukan perbandingan hasil pengelompokan dengan penjajaran sekuen
menggunakan BLAST diketahui bahwa kemiripan antara vektor yang salah dalam
pengelompokan sangat kecil. Perbedaan hasil antar pengelompokan dengan
BLAST disebabkan karena kurang kayanya informasi yang digunakan pada saat
ekstraksi fitur menggunakan feature vectors sehingga terjadi beberapa kesalahan
dalam pengelompokan yang dilakukan.
Saran
Untuk pengembangan dari penelitian ini disarankan untuk melakukan halhal berikut:
1 Menambah data sekuen DNA yang digunakan.
2 Menggunakan algoritme pengelompokan lain seperti k-means dan complete
link sehingga dapat dilakukan perbandingan.
3 Menggunakan perhitungan seleksi fitur lain seperti k-mers.
16
DAFTAR PUSTAKA
Han H, Kamber M. 2006. Data Mining: Concepts and Techniques. San Francisco
(US): Morgan Kaufmann.
Jain AK, Murty MN, Flynn PJ. 1999. Data Clustering: a Review. New York (US):
ACM Computing Surveys.
Kohavi R, Provost F. 1998. Machine Learning. Boston (US): Springer
Netherlands. 30:271-274.
Larose DT. 2005. Discovering Knowledge in Data: an Introduction to Data
Mining. New Jersey (US): J Wiley.
Liu L, Yeo YK, Yau S. 2006. Molecular Phylogenetics and Evolution, Detroit
(US): Academic Press. 41:64-69.
Yuwono T. 2008. Biologi Molekuler. Jakarta (ID): Erlangga.
17
Lampiran 1 Data yang digunakan dalam penelitian
No
Nama sekuen
1. Borrelia afzelii PKo plasmid lp25
2. Borrelia bissettii DN127 plasmid lp25
3. Borrelia burgdorferi B31 plasmid lp25
4. Borrelia burgdorferi ZS7 plasmid ZS7_lp28-1
5. Borrelia duttonii Ly plasmid pl23b
6. Borrelia garinii Far04 plasmid Far04_lp17
7. Borrelia sp. SV1 plasmid SV1_lp28-2
8. Borrelia spielmanii A14S plasmid A14S_lp38
9. Borrelia recurrentis A1 plasmid pl23
10. Borrelia valaisiana VS116 plasmid VS116_cp32-5
11. Streptococcus agalactiae plasmid pGB3634
12. Streptococcus agalactiae plasmid pLS1
13. Streptococcus dysgalactiae subsp. equisimilis plasmid
pSdyT132
14. Streptococcus mutans UA140 plasmid pUA140
15. Streptococcus pneumoniae D39 plasmid pDP1
16. Streptococcus pneumoniae plasmid pSMB1
17. Streptococcus suis plasmid pSSU1 DNA
18. Streptococcus pyogenes 71-724 plasmid pDN571
19. Streptococcus pyogenes plasmid pDN281
20. Streptococcus thermophilus LMD-9 plasmid 2
21. Yersinia enterocolitica subsp. enterocolitica 8081
plasmid pYVe8081
22. Yersinia enterocolitica subsp. palearctica 105.5R(r)
plasmid 105.5R(r)p
23. Yersinia pestis Angola plasmid new_pCD
24. Yersinia pestis Antiqua plasmid pCD
25. Yersinia pestis biovar Microtus str. 91001 plasmid
pCD1
26. Yersinia pestis CO92 plasmid pCD1
27. Yersinia pestis Z176003 plasmid pCD1
28. Yersinia pseudotuberculosis IP 32953 plasmid pYV
29. Yersinia pestis strain KIM5 plasmid pCD1
30. Yersinia pseudotuberculosis PB1/+ plasmid pYPTS01
31. Methylobacterium extorquens AM1 plasmid p1META1
32. Methylobacterium extorquens AM1 plasmid p2META1
33. Methylobacterium extorquens DM4 plasmid p2METDI
34. Methylobacterium nodulans ORS 2060 plasmid
pMNOD03
35. Methylobacterium nodulans ORS 2060 plasmid
pMNOD04
36. Methylobacterium radiotolerans JCM 2831 plasmid
pMRAD02
37. Methylobacterium radiotolerans JCM 2831 plasmid
pMRAD04
Genus
Borellia
Borellia
Borellia
Borellia
Borellia
Borellia
Borellia
Borellia
Borellia
Borellia
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Methylobacterium
Methylobacterium
Methylobacterium
Methylobacterium
Methylobacterium
Methylobacterium
Methylobacterium
18
Lanjutan lampiran 1
38. Methylobacterium radiotolerans JCM 2831 plasmid
pMRAD05
39. Methylobacterium radiotolerans JCM 2831 plasmid
pMRAD03
40. Methylobacterium radiotolerans JCM 2831 plasmid
pMRAD06
41. Bacillus anthracis str. A0248 plasmid pXO2
42. Bacillus anthracis str. 'Ames Ancestor' plasmid pXO2
43. Bacillus anthracis str. CDC 684 plasmid pX02
44. Bacillus cereus E33L plasmid pE33L54
45. Bacillus cereus Q1 plasmid pBc53
46. Bacillus megaterium QM B1551 plasmid pBM400
47. Bacillus anthracis str. H9401 plasmid BAP2
48. Bacillus thuringiensis str. Al Hakam plasmid pALH1
49. Bacillus anthracis plasmid pXO2
50. Bacillus
weihenstephanensis
KBAB4
plasmid
pBWB404
Methylobacterium
Methylobacterium
Methylobacterium
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus
19
Lampiran 2 Tampilan awal pengelompokan single link
Lampiran 3 Dendrogram studi kasus 3 percobaan 4 akurasi 100%
20
Lampiran 4 Feature vectors untuk 50 data sekuen DNA
nA
tA
dA
nC
tC
dC
nG
tG
dG
nT
tT
dT
Borellia
9052
116894478
48144439
3829
42598667
50027915
3948
49946834
46716741
7965
97918842
56423500
Borellia
8566
100141185
44452323
2744
28495274
41422686
2691
33591237
44092917
9028
102928210
44112983
Borellia
8884
108985242
48047662
2816
30664859
46210859
2828
36750924
48288288
9642
115752321
49455219
Borellia
8354
102209626
40861795
2737
32998356
45659548
4652
40450974
48162132
7679
98624375
42402181
Borellia
8287
97419542
42166069
2298
24509026
48804127
4372
56006276
37195289
8079
87382286
47167258
Borellia
8903
96621123
42463097
3211
38501270
42100836
2204
25339703
39422997
8115
91146432
41572869
Borellia
9128
102305008
41320639
3220
32165029
38933898
2685
35956259
44103542
7912
92798744
46456998
Borellia
8041
87409628
41056263
2567
24433732
37007496
2826
31371149
39863335
8274
92393269
37360429
Borellia
8320
86274582
34801643
2843
27894542
36575991
2097
21873992
37751136
7672
83020730
37710163
Borellia
9181
108364065
44643015
2915
31978201
44181546
3775
43787455
49141656
7548
90083350
45585095
Streptococcus
2244
6639429
2901026
901
2569281
2862049
1062
3086348
2706481
1635
4766503
2840612
Streptococcus
1414
3160950
1597320
672
1484976
1738264
969
2134727
1732975
1353
2932375
1499066
Streptococcus
1139
1970928
1097983
539
1007213
1104365
724
1370346
1149789
1176
2050766
953513
Streptococcus
2072
5818357
2511431
766
2218711
2852391
1078
3052201
2803021
1724
4812711
2629893
Streptococcus
1116
1799493
827778
365
567721
837588
653
1040996
794227
1027
1586170
857901
Streptococcus
1113
1794724
830722
365
569451
843048
653
1041326
795001
1031
1592040
853842
Streptococcus
954
1384230
785456
457
730081
808011
603
952351
863245
1027
1555658
676677
Streptococcus
1753
4396562
2119689
744
1863397
1929570
1090
2615816
1849436
1388
3497050
2221286
Strep
ALGORITME SINGLE LINK DAN FEATURE VECTORS
AL HARIS TAMSIN
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013
ii
iii
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Pengelompokan
Sekuen DNA Menggunakan Algoritme Single Link dan Feature Vectors adalah
benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan
dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang
berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari
penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di
bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, September 2013
Al Haris Tamsin
NIM G64104050
iv
ABSTRAK
AL HARIS TAMSIN. Pengelompokan Sekuen DNA Menggunakan Algoritme
Single Link dan Feature Vectors. Dibimbing oleh WISNU ANANTA KUSUMA.
Pengelompokan merupakan teknik pembelajaran untuk menemukan
kelompoknya secara otomatis berdasarkan ciri dan karakteristik yang dimiliki.
Pengelompokan dilakukan untuk memisahkan data ke dalam kelompok sehingga
data yang dimiliki menjadi mudah dimengerti. Pengelompokan sekuen DNA
dengan feature vectors merupakan proses penggabungan sekelompok sekuen
DNA yang memiliki kemiripan jumlah nukleotida, susunan, dan penyebaran
nukleotidanya, akan digabungkan ke dalam sebuah kelompok yang sama.
Pengelompokan sekuen DNA terdapat empat tahap utama yaitu feature vectors,
min max normalization, cosine similarity, dan pengelompokan single link.
Penelitian terdiri dari 8 studi kasus dan 5 percobaan di setiap studi kasus yang
mendapatkan akurasi rata-rata sebesar 86.7%, dan akurasi pengelompokan terbaik
terdapat pada studi kasus 3 sekuen percobaan 4 sebesar 100%. Faktor yang paling
berpengaruh terhadap hasil pengelompokan sekuen DNA adalah ukuran dan
jumlah sekuen yang digunakan dalam penelitian.
Kata kunci: feature vectors, single link, min max normalization, sekuen DNA
ABSTRACT
AL HARIS TAMSIN. Clustering DNA Sequences Using Single Link Algorithms
and Feature Vectors. Supervised by WISNU ANANTA KUSUMA.
Clustering is a learning technique to find the the group automatically based
on the characteristics. By separating the data into groups so the data will easy to
understand. Clustering DNA sequences with feature vectors is the process of
combining a group of DNA sequences with the same amount of nucleotides, the
composition and distribution of nucleotide, will combine into the same group.
There are 4 main stages of clustering DNA sequence: feature vectors, min max
normalization, cosine similarity and single link clustering. This research consist of
the 8 case and 5 experiment in each case, with the result of least average 86,7%
and the best cluster found 100% in case 3 experiment 4. The most affecting for the
result of DNA sequence clustering is the size and volume used in the research.
Keywords: feature vectors, single link, min max normalization, sequences DNA
v
PENGELOMPOKAN SEKUEN DNA MENGGUNAKAN
ALGORITME SINGLE LINK DAN FEATURE VECTORS
AL HARIS TAMSIN
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Ilmu Komputer
pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013
vi
Penguji :
1 Toto Haryanto, SKom MSi
2 Aziz Kustiyo, SSi MKom
vii
Judul Skripsi : Pengelompokan Sekuens DNA Menggunakan Algoritme Single
Link dan Feature Vectors
Nama
: Al Haris Tamsin
NIM
: G64104050
Disetujui oleh
Dr Wisnu Ananta Kusuma, ST MT
Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi M Kom
Ketua Departemen Ilmu Komputer
Tanggal Lulus:
viii
PRAKATA
Puji dan syukur penulis panjatkan ke hadirat Allah subhanahu wa ta’ala
atas rahmat dan karunia-Nya sehingga penulis bisa menyelesaikan karya ilmiah
ini. Penelitian yang dilakukan sejak bulan September 2012 mengangkat tema
pengelompokan sekuen DNA menggunakan algoritme single link dan ekstraksi
ciri feature vectors.
Penulis mengucapkan terima kasih kepada dosen pembimbing Bapak Wisnu
Ananta Kusuma yang telah memberikan arahan, saran, dan masukan untuk
selesainya penelitian ini. Ucapan terima kasih juga penulis sampaikan kepada
kedua orang tua, kakak, adik, dan keluarga atas doa, semangat, dan kasih
sayangnya sehingga penulis bisa menyelesaikan penelitian ini.
Penulis menyadari bahwa pada karya ilmiah ini masih banyak kekurangan
dan jauh dari kesempurnaan. Oleh karena itu, penulis mengharapkan saran dan
kritik yang membangun demi penyempurnaan karya ilmiah berikutnya. Semoga
karya ilmiah ini dapat bermanfaat bagi penulis khususnya dan bagi semua pihak
pada umumnya.
Semoga karya ilmiah ini bermamfaat.
Bogor, September 2013
Al Haris Tamsin
ix
DAFTAR ISI
DAFTAR TABEL .................................................................................................. vi
DAFTAR GAMBAR ............................................................................................. vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN .................................................................................................. 1
Latar Belakang ................................................................................................... 1
Tujuan ................................................................................................................. 2
Ruang lingkup .................................................................................................... 2
METODE PENELITIAN ........................................................................................ 2
Tahap pengumpulan data.................................................................................... 3
Tahap pengelompokan ....................................................................................... 3
Feature Vectors .................................................................................................. 3
Normalisasi Min-max ......................................................................................... 5
Cosine Similarity ................................................................................................ 5
Single link ........................................................................................................... 5
Tahap Evaluasi ................................................................................................... 7
Confusion Matrix................................................................................................ 7
Lingkungan implementasi .................................................................................. 7
HASIL DAN PEMBAHASAN ............................................................................... 8
Tahap Pengumpulan Data .................................................................................. 8
Tahap Pengelompokan ....................................................................................... 8
Feature Vectors .................................................................................................. 8
Normalisasi Min-max ......................................................................................... 9
Cosine Similarity ................................................................................................ 9
Single Link ........................................................................................................ 10
Tahap Pengujian ............................................................................................... 11
Analisis Hasil Percobaan .................................................................................. 11
SIMPULAN DAN SARAN .................................................................................. 15
Simpulan ........................................................................................................... 15
Saran ................................................................................................................. 15
LAMPIRAN .......................................................................................................... 18
RIWAYAT HIDUP ............................................................................................... 25
x
DAFTAR TABEL
1
2
3
4
5
6
7
8
9
Contoh perhitungan feature vectors ................................................................ 4
Hasil cosine similarity untuk studi kasus 2 sekuen percobaan 1 .................. 10
Confusion matrix untuk studi kasus 3 sekuen percobaan 4 .......................... 11
Hasil akurasi rata-rata 8 studi kasus ............................................................. 12
Confusion matrix studi kasus 4 sekuen percobaan 4 .................................... 13
Hasil penjajaran sekuen Borellia burgdorferi .............................................. 13
Hasil penjajaran sekuen Borellia duttoni ...................................................... 14
Hasil penjajaran sekuen Borellia garinii ...................................................... 14
Hasil penjajaran sekuen Borellia spielmanii ................................................ 14
DAFTAR GAMBAR
1
2
3
4
5
6
Metode penelitian ........................................................................................... 2
Proses dalam tahap pengelompokan ............................................................... 3
Contoh pengelompokan single link ................................................................ 6
Contoh dendrogram ........................................................................................ 7
Dendrogram dari studi kasus 2 sekuen percobaan 1 ..................................... 10
Grafik rata-rata akurasi 8 studi kasus ........................................................... 12
DAFTAR LAMPIRAN
1 Data yang digunakan dalam penelitian
2 Tampilan awal pengelompokan single link
3 Dendrogram studi kasus 3 percobaan 4 akurasi 100%
4 Feature vectors untuk 50 data sekuen DNA
5 Hasil normalisasi min-max untuk 50 data sekuen DNA
6 Confusion matrix studi kasus 2 sekuen
7 Confusion matrix studi kasus 3 sekuen
8 Confusion matrix studi kasus 4 sekuen
9 Confusion matrix studi kasus 5 sekuen
10 Confusion matrix studi kasus 6 sekuen
11 Confusion matrix studi kasus 7 sekuen
12 Confusion matrix studi kasus 8 sekuen
13 Confusion matrix studi kasus 9 sekuen
17
19
19
20
21
25
25
25
25
25
26
26
26
1
PENDAHULUAN
Latar Belakang
Analisis data dapat menggali informasi yang lebih detail dari data yang
dimiliki, sehingga bisa dimanfaatkan untuk berbagai keperluan. Hasil dari analisis
data dipengaruhi oleh banyak hal antara lain objek yang dianalisis, peubah yang
diamati, tingkat kesamaan atau jarak yang dipakai, skala ukuran yang dipakai,
serta metode yang akan digunakan untuk analisis data. Pada bidang biologi
molekuler saat ini sudah banyak ditemukan teknik-teknik analisis data yang
mendukung proses dalam bidang ini. Pengelompokan sekuen Deoxyribo nucleic
acid (DNA) merupakan salah satu contoh proses analisis data yang diterapkan
pada bidang biologi molekuler.
DNA merupakan asam nukleat yang terdapat pada inti sel pada sel
eukariotik, pada sel prokariotik DNA terdapat dalam sitoplasma. Satu asam
nukleat terdiri dari satu molekul gula ribosa, satu basa nitrogen, dan fosfat. Satu
asam nukleat dengan asam nukleat yang lain dirangkai dengan ikatan fosfodiester.
Basa nitrogen terdiri atas dua jenis yaitu purin dan pirimidin. Basa purin terdiri
atas adenin (A) dan guanin (G), sedangkan pirimidin terdiri atas sitosin (C) dan
timin (T). DNA berfungsi untuk menyimpan informasi genetik pada suatu
organisme (Yuwono 2008).
Sekuen DNA berbentuk sebuah urutan huruf-huruf mewakili struktur primer
dari molekul DNA yang dapat digunakan sebagai parameter dalam
pengelompokan DNA. Sekuen DNA dalam bentuk digital disimpan dalam sebuah
file berbasis teks berformat Fasta.
Pengelompokan adalah suatu proses pembelajaran tidak terlatih
(unsupervised) terhadap suatu pattern (data, feature vectors) menjadi beberapa
kelompok berdasarkan kemiripannya (Jain et al 1999). Pengelompokan sekuen
DNA dilakukan untuk mempartisi data berdasarkan kemiripan sekuen DNA yang
dimiliki. Pengelompokan seringkali disamakan dengan klasifikasi, dalam hal ini
pengelompokan memisahkan sekelompok data ke dalam beberapa kelompok
menurut kemiripannya, sedangkan klasifikasi yaitu memberikan kelompok kepada
sebuah data berdasarkan kemiripan dengan data pada setiap kelompok tertentu.
Penelitian sebelumnya tentang sekuen DNA dengan feature vectors telah
dilakukan oleh Liu et al. (2006) dengan menghitung jarak(dissimilarity)
menggunakan Euclidean distance (EUD). Penelitian Liu et al. (2006)
menggunakan DNA manusia, tikus, dan kerbau serta beberapa sekuen DNA yang
diambil secara acak tapi memiliki panjang yang sama. Penelitian tersebut
menitikberatkan kepada tingkat kesamaan sekuen DNA setelah dilakukan
pergantian nukleotida pada awal, tengah, dan akhir sekuen. Setelah dilakukan
pergantian nukleotida akan diukur sensitivitasnya terhadap pergantian nukleotida.
Pada penelitian ini pengelompokan sekuen DNA akan dilakukan dengan
metode hierarchical clustering single link di mana setiap vektor dikelompokkan
berdasarkan tingkat kesamaan (similarity) paling dekat. Adapun untuk ekstraksi
fitur menggunakan feature vectors, yang diambil dari penelitian Lui et al (2006)
dan perhitungan tingkat kesamaan dengan cosine similarity.
2
Tujuan
Tujuan dilakukan penelitian ini adalah untuk:
1 Menerapkan feature vectors dengan perhitungan tingkat kesamaan cosine
similarity dalam pengelompokan sekuen DNA menggunakan metode single
link.
2 Visualisasi hasil pengelompokan sekuen DNA.
3 Dapat memberikan informasi yang akurat dalam pengelompokan sekuen DNA.
Ruang lingkup
1 Data sekuen DNA yang digunakan dalam format Fasta.
2 DNA sekuen yang digunakan adalah DNA bakteri complete sequence.
METODE PENELITIAN
Penelitian ini melakukan pengelompokan otomatis terhadap sekuen DNA
berformat fasta dengan menggunakan metode hierarki clustering single link.
Metode penelitian ini dilakukan dalam beberapa tahap, yaitu pengumpulan data,
pengelompokan, dan tahap evaluasi seperti yang ditampilkan pada gambar 1.
Penelitian terdiri dari 8 studi kasus dan masing-masing studi kasus terdiri
dari 5 percobaan. Studi kasus 2 sekuen menggunakan 2 sekuen setiap genus
dengan 5 percobaan menggunakan data sekuen yang berbeda di setiap percobaan.
Hal yang sama juga berlaku bagi studi kasus yang lain studi kasus 3 sekuen
hingga 9 sekuen setiap genus.
Mulai
Pengumpulan data
Pengelompokan
Tahap Evaluasi
Selesai
Gambar 1 Metode penelitian
3
Tahap Pengumpulan Data
Dalam penelitian ini menggunakan 50 data sekuen DNA yang didapatkan
dari situs National Centre of Biotechnology Information, US National Library of
Medicine, yang beralamat di http://www.ncbi.nlm.nih.gov/. Semua data tersebut
disimpan dalam format standar fasta. Format fasta adalah format berbasis teks
untuk mewakili urutan nukleotida. Nukleotida tersebut diwakili menggunakan
huruf tunggal. Format ini juga menyimpan informasi spesies dari sekuen DNA
tersebut. Format fasta awalnya merupakan hasil dari perangkat lunak fasta, tapi
sekarang telah menjadi standar dalam bidang bioinformatika. Data tersebut terdiri
dari lima genus nukleotida, yang akan dikelompokkan menurut kelasnya masingmasing. Data yang digunakan pada penelitian ini ditampilkan pada Lampiran 1.
Tahap Pengelompokan
Dalam tahap ini akan dilakukan perhitungan terhadap sekuen DNA yang
sudah didapatkan pada tahap sebelumnya. Proses pada tahap pengelompokan
dapat dilihat pada Gambar 2. Dimulai dari ekstraksi fitur dengan feature vectors
dari setiap sekuen, normalisasi, perhitungan tingkat kesamaan dengan cosine
similarity, dan pengelompokan sekuen DNA menggunakan single link. Hasil dari
tahap ini nantinya akan digunakan pada tahap pengujian.
Sekuen DNA
Ekstraksi Ciri
(Feature Vector)
Kesamaan/Jarak
(Cosine Similarity)
Pengelompokan
(Single Link)
Hasil
Pengelompokan
Gambar 2 Proses dalam tahap pengelompokan
Feature Vectors
Pada dasarnya sebuah sekuen DNA terdiri dari rangkaian huruf, sehingga
akan sangat sulit untuk melakukan perbandingan dan perhitungan dari masingmasing sekuen. Oleh karena itu perlu ditentukan identitas yang dapat digunakan
sebagai penciri suatu sekuen DNA, sehingga setiap sekuen DNA dapat dilakukan
perbandingan melalui penciri sekuen tersebut.
Penentuan identitas dari sebuah sekuen DNA dilakukan dengan metode
feature vectors, di mana setiap sekuen DNA yang terdiri dari rangkaian huruf
yang memiliki ukuran dan panjang yang berbeda, sehingga harus dipetakan ke
dalam sebuah vektor. Dalam penelitian ini, proses feature vectors dilakukan
dengan membentuk vektor yang memiliki panjang yang sama, tanpa dipengaruhi
panjang asli sekuen DNA. Proses feature vectors dilakukan pada setiap sekuen
DNA, sehingga akan didapatkan 50 vektor untuk diproses pada tahap selanjutnya.
Feature vectors memisahkan sekuen DNA menjadi dua belas dimensi,
empat nukleotida dalam sebuah sekuen DNA yaitu adenin (A), guanin (G), timin
(T), dan sitosin (C) akan dihitung berdasarkan tiga parameter, sehingga akan
didapatkan nilai dua belas vektor dari setiap sekuen DNA. Ketiga parameter
dalam perhitungan feature vectors tersebut adalah:
4
Jumlah setiap nukleotida pada sekuen DNA (n)
Setiap sekuen DNA terdiri atas empat nukleotida yang menyusunnya, n
merupakan parameter yang menunjukkan jumlah total satu nukleotida pada
sebuah sekuen DNA, suatu parameter na merupakan jumlah nukleotida A pada
sekuen DNA tersebut. Hal tersebut juga berlaku pada tiga nukleotida lainnya yaitu
C, G, dan T. sehingga nanti akan didapatkan empat nilai yaitu nA, nC, nG, dan nT.
Jumlah total jarak antar nukleotida dengan nukleotida pertama (t)
Untuk mendapatkan nilai dari parameter t yang merupakan perhitungan total
jarak antara satu nukleotida sejenis, jika sebuah nukleotida A maka jarak antar
nukleotida ke n dengan nukleotida pertama akan dijumlahkan sehingga
mendapatkan sebuah nilai t. Nilai parameter t dapat dihitung dengan
menggunakan Persamaan 1:
∑
(1)
dengan nilai i adalah nukleotida A, T, G, C, dan j = jarak antar nukleotida.
Varians nukleotida (d)
Jika dua DNA memiliki ukuran yang sama, dan memiliki total jarak sama,
maka jika dilakukan perbandingan akan terjadi kesalahan. Jika dalam satu sekuen
DNA terdapat nukleotida A pada posisi 4 dan 6, dan pada suatu sekuen DNA lain
juga memiliki nukleotida A pada posisi 5 dan 7, maka kedua sekuen DNA
tersebut memiliki jumlah A yang sama, total jarak dari nukleotida pertama sama,
sehingga dibutuhkan parameter ketiga yaitu d. Parameter d merupakan parameter
yang melakukan analisis distribusi dari setiap nukleotida, perhitungan parameter d
untuk setiap nukleotida dilakukan untuk menggambarkan distribusi dari
nukleotida dengan menggunakan Persamaan 2:
∑
( - )
(2)
dengan i= A,T,G,C dan tj = jarak nukleotida pertama dengan nukleotida ke n
Nilai didapatkan dari Persamaan 3:
(3)
Tabel 1 Contoh perhitungan feature vectors
Sekuen DNA
Parameter n
Parameter t
CAATTAACCCCTT
nA = 8
tA = 82
ATTAACGGTATG
nC = 6
tC = 52
nG = 3
tG = 62
nT = 8
tT = 103
Parameter d
dA = 52.94
dC = 31.75
dG = 4.66
dT = 44.35
Setelah dilakukan perhitungan tiga parameter seperti ditampilkan pada
Tabel 1, akan didapatkan dua belas nilai yang akan dijadikan sebuah vektor,
sehingga setiap sekuen DNA ditransformasikan menjadi sebuah vektor yang
memiliki 12 nilai.
5
Normalisasi Min-Max
Untuk mendapatkan hasil pengelompokan yang baik, maka harus
menggunakan data yang baik, lengkap, dan terstruktur. Sebelum melakukan
pengelompokan sekuen DNA perlu dilakukan normalisasi untuk memastikan data
yang akan digunakan adalah data yang bagus untuk dikelompokkan karena data
sangat berpengaruh terhadap hasil pengelompokan.
Normalisasi merupakan proses penskalaan nilai atribut dari data, sehingga
bisa berkisar pada range nilai tertentu, karena oleh dimensi data yang terlalu jauh
atau terlalu dekat, sehingga akan sulit untuk melakukan pengelompokan data.
Min-max melakukan transformasi linear pada data, menggunakan nilai
minimum dan nilai maksimum. Normalisasi min-max mempertahankan hubungan
antara nilai data asli (Han dan Kamber 2006). Proses normalisasi min-max
dilakukan dengan mengurangkan nilai data dengan nilai minimal, kemudian
dibagi dengan nilai maksimal kurang nilai minimal. Normalisasi min-max
didapatkan dari persamaan (4):
Min Max(x) =
Cosine Similarity
-
(
)
-
(4)
Pada analisis terhadap objek, terdapat dua konsep yaitu perhitungan jarak
antar objek atau dissimilarity dan perhitungan tingkat kesamaan antar objek atau
similarity. Metode cosine similarity merupakan metode yang digunakan untuk
menghitung similarity antara dua buah objek (Han dan Kamber 2006). Pada
penelitian ini objek yang dimaksud adalah vektor sekuen DNA. Berikut adalah
persamaan cosine similarity :
|| |||| ||
√∑
∑
√∑
Perhitungan tingkat kesamaan vektor dilakukan dengan membandingkan
setiap vektor sekuen DNA menggunakan persamaan cosine similarity, dari
perhitungan tersebut akan didapatkan nilai yang merupakan tingkat kesamaan
antara setiap vektor sekuen DNA.
Single Link
Dalam analisis cluster pada dasarnya akan dilakukan pengelompokan secara
alami terhadap sekelompok objek, dengan melakukan perbandingan terhadap
masing-masing objek yang memiliki tingkat kesamaan atau jarak. Clustering
adalah pengelompokan dari record, observasi-observasi, atau kasus-kasus ke
kelas yang memiliki kemiripan objek-objeknya. Cluster adalah koleksi dari record
yang mirip, dan tidak mirip dengan record dari cluster lain. Clustering berbeda
6
dengan klasifikasi, dalam hal tidak ada variabel target untuk clustering.
Clustering tidak mengklasifikasikan, meramalkan, atau memprediksi nilai dari
sebuah variabel target. Algoritme clustering digunakan untuk menentukan segmen
keseluruhan himpunan data menjadi subgrup yang relatif sama atau cluster,
dengan kesamaan record dalam cluster dimaksimumkan dan kesamaan record di
luar cluster diminimumkan (Larose 2005).
Gambar 3 Contoh pengelompokan single link
Secara umum metode utama clustering dapat diklasifikasikan menjadi
kategori-kategori berikut (Han dan Kamber 2006):
Metode partisi. Misalkan ada sebuah basis data berisi n objek. Metode partisi
membangun k partisi pada basis data tersebut, dengan tiap partisi
merepresentasikan cluster dan k ≤ n. Partisi yang terbentuk harus memenuhi
syarat yaitu setiap cluster harus berisi minimal satu objek dan setiap objek
harus termasuk tepat satu cluster.
Metode hirarkhi, yaitu membuat sebuah dekomposisi berhirarki dari himpunan
data (atau objek) menggunakan beberapa kriteria. Metode ini memiliki dua
jenis pendekatan yaitu :
o Agglomerative, dimulai dengan titik-titik sebagai cluster individu. Pada
setiap tahap dilakukan penggabungan setiap pasangan titik pada cluster
sampai hanya satu titik (atau cluster) yang tertinggal.
o Divisive, dimulai dengan satu cluster besar yang berisi semua titik data.
Pada setiap langkah, dilakukan pemecahan sebuah cluster sampai setiap
cluster berisi sebuah titik (atau terdapat k cluster).
Metode berdasarkan kepekatan, merupakan pendekatan yang berdasarkan pada
konektivitas dan fungsi kepadatan.
Metode berdasarkan grid, merupakan pendekatan yang berdasarkan pada
struktur multiple-level granularity.
Metode berdasarkan model, yaitu: sebuah model yang dihipotesis untuk tiap
cluster dan ide dasarnya adalah untuk menemukan model yang cocok untuk
tiap cluster.
Pengelompokan data dengan metode single link termasuk ke dalam metode
hierarchical agglomerative clustering. Kelompok yang berawal dari objek-objek
individual, pada awalanya jumlah kelompok sama dengan banyaknya objek, objek
yang paling mirip akan dikelompokkan. Hingga akhirnya ketika kemiripan
berkurang semua subkelompok akan digabungkan jadi satu kelompok tunggal.
Hasil dari agglomerative akan ditampilkan dalam bentuk diagram dendrogram.
7
Dendrogram akan menampilkan gambaran penggabungan dan pembagian pada
tingkat yang berurutan. Contoh dendrogram ditampilkan pada Gambar 3.
Gambar 4 Contoh dendrogram
Single link memberikan hasil bila kelompok-kelompok digabungkan
menurut jarak antara anggota-anggota yang paling dekat. Input dari metode single
link bisa berupa jarak atau tingkat kesamaan antara pasangan dari objek,
kemudian dibentuk kelompok-kelompok dari entitas setiap objek dengan
menggabungkan jarak paling pendek, atau tingkat kesamaan yang paling besar,
diambil nilai yang terkecil terlebih dahulu, lalu dilakukan penggabungan dua
vektor, dan membandingkan nilai vektor yang digabungkan dengan vektor lain,
selanjutnya dilakukan pengambilan nilai yang terdekat untuk dibandingkan
kembali. Cara perhitungan single link direpresentasikan pada Gambar 4.
Tahap Evaluasi
Confusion Matrix
Untuk melakukan pengujian terhadap perhitungan yang telah dilakukan
dibutuhkan sebuah metode yang akan menguji ketepatan dan keakuratan
perhitungan yang dilakukan sebelumnya.
Confusion matrix adalah sebuah matrik yang menyimpan nilai aktual dan
nilai prediksi dari klasifikasi atau pengelompokan yang dilakukan (Kohavi dan
Provost 1998). Kinerja sebuah sistem pengelompokan dievaluasi menggunakan
data dalam matrik.
Perhitungan Akurasi
Kinerja dari pengelompokan single link ditentukan dengan menghitung
besaran akurasi yang berhasil diperoleh, akurasi dihitung dengan persamaan
berikut:
∑
Akurasi = ∑
Lingkungan Implementasi
Lingkungan implementasi dari penelitian ini adalah:
Perangkat keras berupa notebook dengan spesifikasi:
8
Processor Intel Core i3 @2.4 GHz,
RAM kapasitas 2 GB,
Harddisk kapasitas 320 GB,
Layar dengan resolusi 1366×768 piksel.
Perangkat lunak berupa:
Sistem operasi Microsoft Windows 7 Ultimate,
Program pengolahan data statistik R,
Microsoft Excel 2010
HASIL DAN PEMBAHASAN
Tahap Pengumpulan Data
Data yang telah dikumpulkan berupa sekuen DNA berformat standar fasta
sebanyak 50 data. Data tersebut terdiri dari rangkaian huruf yang
merepresentasikan nukleotida adenin (A), guanin (G), timin (T) dan sitosin (C).
Urutan dalam format fasta dimulai dengan deskripsi sekuen DNA tersebut, dan
diikuti oleh barisan data sekuen. Diawali oleh simbol lebih besar (>) dan deskripsi
dari sekuen DNA, sisanya merupakan barisan huruf nukleotida yang panjangnya
tidak melebihi delapan puluh karakter per baris dan tanpa mengandung spasi.
Pada 50 data tersebut memiliki paling banyak 97 452 karakter yaitu Bacillus,
sedangkan data paling sedikit adalah Streptococcus thermophilus dengan 3 090
karakter. Semua data sekuen DNA terdiri dari 5 genus yaitu Borellia (10 sekuen),
Bacillus (10 sekuen), Methylobacterium (10 sekuen), Streptococcus (10 sekuen),
dan Yersinia (10 sekuen).
Pada awalnya akan dilakukan pengelompokan dengan jumlah sekuen yang
tidak sama setiap genus nya, tapi setelah dilakukan penelitian jumlah data sekuen
setiap genus diputuskan sama yaitu 10 sekuen setiap genus, dengan 8 studi kasus
pengelompokan menggunakan 2 sekuen setiap genus hingga menggunakan 9
sekuen setiap genus. Hal ini dilakukan untuk mengetahui jumlah sekuen dalam
setiap genus akan mempengaruhi hasil pengelompokan.
Tahap Pengelompokan
Feature Vectors
Tahapan feature vectors merupakan proses ekstraksi ciri dari sebuah sekuen
DNA, dari sebuah sekuen DNA yang terdiri dari urutan huruf ditransformasi
menjadi sebuah vektor. Sehingga dari 50 sekuen DNA yang memiliki beragam
ukuran diubah menjadi 50 vektor yang merepresentasikan urutan huruf dari
sekuen DNA tersebut. Feature vectors dilakukan karena dari sebuah sekuen DNA
tersebut harus didapatkan nilai-nilai yang bisa dijadikan sebagai identitasnya,
sehingga bisa diteruskan pada tahap selanjutnya.
Proses feature vectors dimulai dengan perhitungan nilai parameter n, yang
merupakan frekuensi dari setiap nukleotida pada suatu sekuen DNA, dalam satu
deretan sekuen DNA akan dihitung jumlah nukleotida A, C, G dan T sehingga
akan menghasilkan nilai nA, nC, nG, dan nT. Langkah selanjutnya adalah
9
perhitungan parameter kedua yaitu parameter t, yaitu total jarak setiap nukleotida
sejenis pada sekuen DNA dengan nukleotida pertama. Hasil dari perhitungan
parameter t akan disimpan pada variabel tA, tC, tG, dan tT. Tahap terakhir dari
feature vectors adalah parameter d, yaitu varians nukleotida. Parameter d
didapatkan dari persamaan matematika yang telah ditentukan. Sehingga akan
menghasilkan dA, dC, dG, dan dT.
Hasil perhitungan tiga parameter n, t, d untuk setiap nukleotida A, C, G dan
T digabungkan kedalam sebuah vektor. Sehingga setiap vektor terdiri dari dua
belas nilai yang masing-masing menyimpan informasi DNA tersebut.
Normalisasi Min-max
Normalisasi merupakan tahapan yang sangat penting untuk dilakukan,
karena keberagaman nilai yang didapatkan pada proses feature vectors, sehingga
nilai data harus diskalakan ke dalam range nilai tertentu agar tidak terdapat
dimensi data yang terlalu besar ataupun terlalu kecil yang akan sangat
mempengaruhi hasil pengelompokan. Data dengan kualitas yang rendah juga akan
berdampak terhadap hasil pengelompokan yang rendah juga. Proses normalisasi
menggunakan algoritme min-max melibatkan nilai terkecil dan nilai terbesar dari
data. Setiap nilai dalam data dikurangkan dengan nilai paling kecil dan dibagi
dengan nilai paling besar kurang nilai paling kecil, sehingga nilai yang didapatkan
berada pada 0.0 hingga 1.0. Setiap data dilakukan perhitungan terhadap semua
data vektor yang dimiliki.
Nilai dari vektor yang sebelumnya memiliki dimensi data yang terlalu jauh
atau terlalu dekat, setelah dilakukan normalisasi data akan menjadi lebih
terstruktur dan berkisar antar 0 sampai 1, sehingga akan berdampak kepada
akurasi dan efisiensi pengelompokan.
Cosine Similarity
Perhitungan tingkat kesamaan dengan cosine similarity dilakukan antar tiap
vektor, satu vektor Borellia akan dibandingkan dengan vektor tersebut dan vektor
lain dari genus yang berbeda. Pada studi kasus 2 sekuen percobaan menggunakan
2 vektor setiap genus, dilakukan perhitungan tingkat kesamaan antara Borellia 1
terhadap Borellia 1, Borellia 1 terhadap Streptococcus 1, Borellia 1 terhadap
Yersinia 1, Borellia 1 terhadap Methylobacterium 1, dan Borellia 1 terhadap
Bacillus 1. Hal tersebut juga dilakukan pada Borellia 2 dan sekuen yang lain,
sehingga akan menghasilkan matrik tingkat kesamaan seperti yang terdapat pada
Tabel 2.
Percobaan tersebut juga dilakukan untuk studi kasus 3 sekuen dengan
percobaan menggunakan 3 vektor setiap genus, hingga percobaan menggunakan 9
vektor setiap genus. Nilai tingkat kesamaan antar vektor tersebut akan dilakukan
pengelompokan dengan metode single link pada tahap selanjutnya.
10
Tabel 2 Hasil cosine similarity untuk studi kasus 2 sekuen percobaan 1
Borellia 1
Borellia 2
Streptococc Streptococc
us 1
us 2
Yersinia 1
Yersinia 2
Methylobact Methyloba
erium 1
cterium 2 Bacillus 1
Bacillus
2
Borellia 1
Borellia 2
Streptococ
cus 1
Streptococ
cus 2
0.9912374
Yersinia 1
0.9706462 0.9456844 0.9763492 0.9898386
Yersinia 2
Methyloba
cterium 1
Methyloba
cterium 2
0.9684138 0.9434951 0.9738889 0.9888656 0.9998738
0.8293263 0.7751865 0.8501796 0.8863459 0.9378593 0.9403285
0.9995218
Bacillus 1
0.9912748 0.9879127 0.9845589 0.9875234 0.9785964 0.9770640
0.8384712 0.8524595
Bacillus 2
0.9908064 0.9877019 0.9838709 0.9872081 0.9783980 0.9768986
0.8384772 0.8524241
0.9966989 0.9802347
0.9891670 0.9747853 0.9913926
0.8135433 0.7577499 0.8350892 0.8729222 0.9280086 0.9307786
0.9999912
Single Link
Pengelompokan single link dilakukan dengan data tingkat kesamaan yang
didapatkan dari cosine similarity, dimulai dari pengelompokan menggunakan 1
data tiap genus, hingga 9 data sekuen setiap genus. Studi kasus 2 sekuen
percobaan 1 dengan 2 vektor setiap genus menggunakan data dari Tabel 2,
langkah pertama adalah menentukan nilai terbesar selain 1, nilai terbesar
merupakan vektor yang mempunyai tingkat kesamaan yang paling mirip. Vektor
dengan tingkat kesamaan paling besar adalah antara Bacillus 1 dan Bacillus 2
yaitu 0.99999912, sehingga kedua vektor tersebut digabungkan.
Setelah Bacillus 1 dan Bacillus 2 digabungkan, kembali dilakukan
perhitungan tingkat kesamaan antara vektor Bacillus1-Bacillus2 dengan vektor
lain, contohnya antara Yersinia dengan Bacillus1-Bacillus2 didapatkan dengan
membandingkan tingkat kesamaan antara Yersinia1-Bacillus1 dengan Yersinia1Bacillus2, yaitu 0.9770640 dengan 0.9768986, diambil nilai terbesar karena
menggunakan single link, yaitu tingkat kesamaan yang paling mirip. Sehingga
didapatkan tingkat kesamaan antara Bacillus1-Bacillus2 dengan Yersinia1 adalah
0.9770640. Hal yang sama juga dilakukan terhadap Methylobacterium dan
Bacillus, sehingga akan didapatkan nilai tingkat kesamaan yang baru.
Gambar 3 Dendrogram dari studi kasus 2 sekuen percobaan 1
11
Setelah didapatkan nilai tingkat kesamaan yang baru kembali dilakukan
pengelompokan single link, dilakukan pemilihan cara pemilihan yang sama,
hingga menyisakan dua vektor terakhir. Dari nilai-nilai penggabungan semua
vektor dibentuk ke dalam sebuah dendrogram yang akan digunakan untuk
menentukan kelas dari setiap vektor.
Tahap Pengujian
Tahap pengujian menggunakan confusion matrix, dilakukan perbandingan
dengan nilai asli dan nilai setelah dilakukan pengelompokan. Pada studi kasus 3
sekuen percobaan 4 dengan menggunakan 3 vektor setiap genus, didapatkan
akurasi paling tinggi dari semua percobaan sebesar 100%. Semua data
dikelompokkan dengan benar sesuai kelompoknya. Hasil confusion matrix dari
studi kasus 3 sekuen percobaan 4 dapat dilihat pada Tabel 3.
Tabel 3 Confusion matrix untuk studi kasus 3 sekuen percobaan 4
Borellia
Streptococcus
Yersinia
Methylobacterium
Bacillus
Borellia
3
0
0
0
0
Streptococcus
0
3
0
0
0
Yersinia
0
0
3
0
0
Methylobacterium
0
0
0
3
0
Bacillus
0
0
0
0
3
Analisis Hasil Percobaan
Berdasarkan tabel 4 pengelompokan sekuen DNA dengan 8 studi kasus
dimana pada setiap studi kasus dilakukan 5 percobaan terhadap data yang berbeda
menghasilkan akurasi rata-rata sebesar 86.7%. Hasil pengelompokan dengan
akurasi studi kasus rata-rata paling tinggi didapatkan pada studi kasus 6 sekuen
89.2%. Adapun pengelompokan dengan akurasi paling rendah pada studi kasus 2
sekuen dengan 84%.
Pada studi kasus 2 sekuen dari 5 percobaan yang dilakukan mendapatkan
rata-rata akurasi 84%, akurasi paling tinggi didapat pada percobaan 1, 4, dan 5
dengan 90%, sedangkan akurasi terendah pada percobaan 2 70%, terdapat 3
kesalahan pada pengelompokannya. Studi kasus 3 sekuen mendapat akurasi ratarata 86.6%, akurasi paling besar terdapat pada percobaan 4 yaitu 100%,
merupakan percobaan dengan akurasi paling tinggi yang didapatkan dalam 8 studi
kasus. Studi kasus 4 sekuen akurasi tertinggi pada percobaan 1 dan 3 sebesar 95%
dan terendah pada percobaan 4 yaitu 70%, percobaan 4 pada studi kasus 4 sekuen
merupakan percobaan dengan akurasi paling rendah dari 8 studi kasus, akurasi
rata-rata dari 5 percobaan studi kasus 4 sekuen adalah 86%. Studi kasus 5 sekuen
dengan akurasi rata-rata 88%, akurasi paling besar didapatkan pada percobaan 3
sebesar 96%. Studi kasus 6 sekuen akurasi rata-rata paling tinggi dengan 89.2%,
akurasi tertinggi pada percobaan 2 yaitu 93%. Untuk percobaan 7, percobaan 8,
dan percobaan 9 menunjukkan penurunan akurasi rata-rata yaitu secara berurutan
88%, 85.8%, dan 85.4%.
12
Tabel 4 Hasil akurasi rata-rata 8 studi kasus
Studi
kasus
Percobaan
Jumlah
data
Akurasi
studi
kasus (%)
1
2
3
4
5
2 sekuen
90
70
80
90
90
10
84.0
3 sekuen
93
80
87
100
73
15
86.6
4 sekuen
95
90
95
70
80
20
86.0
5 sekuen
92
84
96
76
92
25
88.0
6 sekuen
90
93
90
90
83
30
89.2
7 sekuen
91
89
89
89
83
35
88.2
8 sekuen
88
88
80
90
83
40
85.8
9 sekuen
89
80
80
96
82
45
85.4
Rata-rata
91
84
87
88
83
-
86.7
Dari 8 studi kasus yang dilakukan terjadi kenaikan akurasi dari studi kasus 2
sekuen dan mencapai akurasi tertinggi pada studi kasus 6 sekuen, namun pada
studi kasus 7 sekuen hingga studi kasus 9 sekuen terjadi penurunan akurasi ratarata.
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
2
3
4
5
6
7
8
9
Gambar 4 Grafik rata-rata akurasi 8 studi kasus
Dari Gambar 6 terlihat bahwa semakin banyak sekuen yang digunakan
akurasi cenderung menurun, hal ini disebabkan karena semakin banyak jumlah
data yang digunakan, menyebabkan selisih kemiripan antara vektor akan semakin
kecil, sehingga mengakibatkan data yang berbeda genus dikelompokkan ke dalam
kelas yang sama. Hal ini menunjukkan bahwa jumlah sekuen yang digunakan
akan mempengaruhi hasil pengelompokan, semakin banyak data yang digunakan
maka hasil pengelompokan akan menunjukkan grafik penurunan akurasi.
Analisis Kesalahan
Percobaan dengan hasil akurasi terendah terdapat pada studi kasus 4 sekuen
percobaan 4 dengan mendapatkan akurasi sebesar 70%. Pada Tabel 5
13
menampilkan confusion matrix yang didapatkan pada studi kasus 4 sekuen
percobaan 4.
Tabel 5 Confusion matrix studi kasus 4 sekuen percobaan 4
Borellia
Streptococcus
Yersinia
Methylobacterium
Bacillus
Borellia
0
1
0
0
1
Streptococcus
1
3
0
0
0
Yersinia
0
0
4
0
0
Methylobacterium
0
0
0
4
0
Bacillus
3
0
0
0
3
Pada studi kasus 4 sekuen percobaan 4 mendapatkan akurasi sebesar 70%,
semua vektor Yersinia dan Methylobactrium ditempatkan sesuai dengan
genusnya, 4 vektor Borellia digabungkan ke dalam genus Bacillus, dan 1 vektor
Bacillus dimasukkan ke dalam genus Borellia, sedangkan 3 vektor Streptococcus
yang ditempatkan sesuai dengan kelompoknya, dan 1 vektor lain digabungkan ke
dalam kelompok Borellia.
Untuk mengetahui penyebab terjadinya kesalahan dalam pengelompokan
studi kasus di atas, dilakukan penjajaran antara sekuen yang salah dalam
pengelompokannya. Penjajaran dilakukan untuk mencari kecocokan (kesamaan)
antar karakter pada setiap sekuen. Penjajaran menggunakan data sekuen pada
studi kasus 4 sekuen percobaan 4 karena mendapatkan akurasi terendah dalam
penelitian. Data yang digunakan dalam penjajaran adalah genus Borellia karena
pada percobaan tersebut semua vektor Borellia dikelompokan tidak pada
kelasnya. Penjajaran dilakukan menggunakan Basic Local Alignment Search
Tools (BLAST).
Tabel 6 Hasil penjajaran sekuen Borellia burgdorferi
No
1
2
3
4
Deskripsi
Borrelia bissettii DN127 plasmid lp25,
complete sequence
Borrelia garinii Far04 plasmid
Far04_lp36, complete sequence
Borrelia afzelii PKo plasmid lp28-3,
complete sequence
Borrelia spielmanii A14S plasmid
A14S_lp28-3, complete sequence
Max
score
16289
Total
score
33883
Query
cover
87%
E
value
0.0
Max
indent
100%
5299
7800
28%
0.0
90%
5104
9367
30%
0.0
89%
5068
8527
30%
0.0
88%
Tabel 6 menunjukkan hasil penjajaran Borellia burgdorferi menggunakan
BLAST menghasilkan semua genus Borellia, hal tersebut membuktikan bahwa
hasil pengelompokan pada studi kasus 4 percobaan 4 salah, karena pada
percobaan tersebut vektor Borellia burgdorferi dikelompokkan ke dalam genus
Bacillus.
14
Tabel 7 Hasil penjajaran sekuen Borellia duttoni
No
1
2
3
4
Deskripsi
Borrelia crocidurae str. Achema plasmid
clone 3 genomic sequence
Borrelia garinii PBr plasmid PBr_lp284, complete sequence
Borrelia recurrentis A1 plasmid pl33,
complete sequence
Borrelia burgdorferi Bol26 plasmid
Bol26_lp28-4, complete sequence
Max
score
6803
Total
score
35436
Query
cover
73%
E
value
0.0
Max
indent
97%
2168
2833
15%
0.0
82%
2073
14715
45%
0.0
88%
1496
1496
7%
0.0
78%
Penjajaran yang dilakukan terhadap Borellia duttoni mengasilkan total
score tertinggi pada Borellia crocidurae sebesar 2246 dengan query cover 73%
seperti yang ditampilkan pada Tabel 7. Sedangkan pada studi kasus 4 percobaan 4
Borellia duttoni dikelompokkan ke dalam genus Streptococcus.
Tabel 8 Hasil penjajaran sekuen Borellia garinii
No
1
2
3
4
Deskripsi
Borrelia burgdorferi 297 plasmid
297_lp38, complete sequence
Borrelia valaisiana VS116 plasmid
VS116_lp28-3, complete sequence
Borrelia afzelii PKo plasmid lp17,
complete sequence
Borrelia spielmanii A14S plasmid
A14S_lp17, complete sequence
Max
score
11021
Total
score
11071
Query
cover
29%
E
value
0.0
Max
indent
97%
10368
13149
38%
0.0
93%
8091
13527
47%
0.0
90%
8074
14800
50%
0.0
89%
Tabel 8 di atas merupakan hasil penjajaran Borellia garinii menggunakan
BLAST yang menghasilkan spesies dari genusnya sendiri, Borellia burgdorferi
dengan total score sebesar 11 071 dengan query cover sebesar 29%. Pada studi
kasus 4 percobaan 4 Borellia garinii dikelompokkan kedalam genus Bacillus.
Tabel 9 merupakan hasil penjajaran Borellia spielmanii, dan total score terbesar
adalah 14 909 dan query cover 56% Bacillus afzelii.
Tabel 9 Hasil penjajaran sekuen Borellia spielmanii
No
1
2
3
4
Deskripsi
Borrelia afzelii ACA-1 plasmid lp28-2,
complete sequence
Borrelia sp. SV1 plasmid SV1_lp28-2,
complete sequence
Borrelia burgdorferi JD1 plasmid JD1
lp38, complete sequence
Borrelia
garinii
Far04
plasmid
Far04_lp25, complete sequence
Max
score
4197
Total
score
14909
Query
cover
56%
E
value
0.0
Max
indent
90%
3534
15213
54%
0.0
86%
3355
4430
19%
0.0
86%
2177
9343
36%
0.022
83%
Hasil penjajaran diatas menunjukkan bahwa jika dilakukan penjajaran
sekuen DNA menggunakan BLAST, antara sekuen-sekuen yang disejajarkan
dengan kelas yang salah dalam pengelompokkan mempunyai tinggat kemiripan
sekuen yang kecil dengan kelas tersebut. Hal tersebut menunjukkan bahwa hasil
15
pengelompokan pada studi kasus 4 sekuen percobaan 4 berbeda dengan hasil
penjajaran sekuen menggunakan BLAST. Perbedaaan tersebut disebabkan karena
kurang kayanya informasi yang digunakan pada saat ekstraksi fitur menggunakan
feature vectors sehingga terjadi beberapa kesalahan dalam pengelompokan yang
dilakukan.
SIMPULAN DAN SARAN
Simpulan
Single link merupakan algoritme yang digunakan untuk pengelompokan
data, sehingga biasa menjadi sebuah informasi yang dapat digunakan untuk
berbagai keperluan. Dari sekumpulan data yang tidak berhubungan digabungkan
ke dalam kelompok berdasarkan tingkat kemiripan atau jarak dari data tesebut.
Penelitian ini dilakukan untuk mengelompokkan 50 data sekuen DNA
berformat Fasta. Data sekuen DNA tersebut diekstraksi untuk mendapatkan ciri
dari setiap data menggunakan feature vectors, dilakukan normalisasi dengan minmax dan perhitungan tingkat kemiripan menggunakan cosine similarity,
selanjutnya dilakukan pengelompokan dengan algoritme single link. Dari 8 studi
kasus yang masing-masing terdiri dari 5 percobaan menggunakan 50 data sekuen
DNA didapatkan akurasi rata-rata 86.7%. Dengan akurasi terbesar didapatkan
pada studi kasus 3 sekuen percobaan 4 mendapatkan akurasi 100%, sedangkan
nilai akurasi terkecil pada studi kasus 4 sekuen percobaan 4 yang mendapatkan
akurasi 70%.
Untuk analisis pengaruh jumlah sekuen terhadap hasil pengelompokan
didapatkan bahwa semakin banyak jumlah sekuen yang digunakan hasil akurasi
akan cenderung semakin menurun, yang disebabkan oleh semakin kecilnya selisih
tingkat kesamaan antar vektor sehingga pada saat pemotongan threshold vektor
yang beda genus dikelompokkan pada kelas yang sama.
Faktor yang paling berpengaruh terhadap hasil pengelompokan sekuen
DNA adalah ukuran sekuen dan jumlah sekuen yang digunakan dalam penelitian.
Setelah dilakukan perbandingan hasil pengelompokan dengan penjajaran sekuen
menggunakan BLAST diketahui bahwa kemiripan antara vektor yang salah dalam
pengelompokan sangat kecil. Perbedaan hasil antar pengelompokan dengan
BLAST disebabkan karena kurang kayanya informasi yang digunakan pada saat
ekstraksi fitur menggunakan feature vectors sehingga terjadi beberapa kesalahan
dalam pengelompokan yang dilakukan.
Saran
Untuk pengembangan dari penelitian ini disarankan untuk melakukan halhal berikut:
1 Menambah data sekuen DNA yang digunakan.
2 Menggunakan algoritme pengelompokan lain seperti k-means dan complete
link sehingga dapat dilakukan perbandingan.
3 Menggunakan perhitungan seleksi fitur lain seperti k-mers.
16
DAFTAR PUSTAKA
Han H, Kamber M. 2006. Data Mining: Concepts and Techniques. San Francisco
(US): Morgan Kaufmann.
Jain AK, Murty MN, Flynn PJ. 1999. Data Clustering: a Review. New York (US):
ACM Computing Surveys.
Kohavi R, Provost F. 1998. Machine Learning. Boston (US): Springer
Netherlands. 30:271-274.
Larose DT. 2005. Discovering Knowledge in Data: an Introduction to Data
Mining. New Jersey (US): J Wiley.
Liu L, Yeo YK, Yau S. 2006. Molecular Phylogenetics and Evolution, Detroit
(US): Academic Press. 41:64-69.
Yuwono T. 2008. Biologi Molekuler. Jakarta (ID): Erlangga.
17
Lampiran 1 Data yang digunakan dalam penelitian
No
Nama sekuen
1. Borrelia afzelii PKo plasmid lp25
2. Borrelia bissettii DN127 plasmid lp25
3. Borrelia burgdorferi B31 plasmid lp25
4. Borrelia burgdorferi ZS7 plasmid ZS7_lp28-1
5. Borrelia duttonii Ly plasmid pl23b
6. Borrelia garinii Far04 plasmid Far04_lp17
7. Borrelia sp. SV1 plasmid SV1_lp28-2
8. Borrelia spielmanii A14S plasmid A14S_lp38
9. Borrelia recurrentis A1 plasmid pl23
10. Borrelia valaisiana VS116 plasmid VS116_cp32-5
11. Streptococcus agalactiae plasmid pGB3634
12. Streptococcus agalactiae plasmid pLS1
13. Streptococcus dysgalactiae subsp. equisimilis plasmid
pSdyT132
14. Streptococcus mutans UA140 plasmid pUA140
15. Streptococcus pneumoniae D39 plasmid pDP1
16. Streptococcus pneumoniae plasmid pSMB1
17. Streptococcus suis plasmid pSSU1 DNA
18. Streptococcus pyogenes 71-724 plasmid pDN571
19. Streptococcus pyogenes plasmid pDN281
20. Streptococcus thermophilus LMD-9 plasmid 2
21. Yersinia enterocolitica subsp. enterocolitica 8081
plasmid pYVe8081
22. Yersinia enterocolitica subsp. palearctica 105.5R(r)
plasmid 105.5R(r)p
23. Yersinia pestis Angola plasmid new_pCD
24. Yersinia pestis Antiqua plasmid pCD
25. Yersinia pestis biovar Microtus str. 91001 plasmid
pCD1
26. Yersinia pestis CO92 plasmid pCD1
27. Yersinia pestis Z176003 plasmid pCD1
28. Yersinia pseudotuberculosis IP 32953 plasmid pYV
29. Yersinia pestis strain KIM5 plasmid pCD1
30. Yersinia pseudotuberculosis PB1/+ plasmid pYPTS01
31. Methylobacterium extorquens AM1 plasmid p1META1
32. Methylobacterium extorquens AM1 plasmid p2META1
33. Methylobacterium extorquens DM4 plasmid p2METDI
34. Methylobacterium nodulans ORS 2060 plasmid
pMNOD03
35. Methylobacterium nodulans ORS 2060 plasmid
pMNOD04
36. Methylobacterium radiotolerans JCM 2831 plasmid
pMRAD02
37. Methylobacterium radiotolerans JCM 2831 plasmid
pMRAD04
Genus
Borellia
Borellia
Borellia
Borellia
Borellia
Borellia
Borellia
Borellia
Borellia
Borellia
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Streptococcus
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Yersinia
Methylobacterium
Methylobacterium
Methylobacterium
Methylobacterium
Methylobacterium
Methylobacterium
Methylobacterium
18
Lanjutan lampiran 1
38. Methylobacterium radiotolerans JCM 2831 plasmid
pMRAD05
39. Methylobacterium radiotolerans JCM 2831 plasmid
pMRAD03
40. Methylobacterium radiotolerans JCM 2831 plasmid
pMRAD06
41. Bacillus anthracis str. A0248 plasmid pXO2
42. Bacillus anthracis str. 'Ames Ancestor' plasmid pXO2
43. Bacillus anthracis str. CDC 684 plasmid pX02
44. Bacillus cereus E33L plasmid pE33L54
45. Bacillus cereus Q1 plasmid pBc53
46. Bacillus megaterium QM B1551 plasmid pBM400
47. Bacillus anthracis str. H9401 plasmid BAP2
48. Bacillus thuringiensis str. Al Hakam plasmid pALH1
49. Bacillus anthracis plasmid pXO2
50. Bacillus
weihenstephanensis
KBAB4
plasmid
pBWB404
Methylobacterium
Methylobacterium
Methylobacterium
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus
Bacillus
19
Lampiran 2 Tampilan awal pengelompokan single link
Lampiran 3 Dendrogram studi kasus 3 percobaan 4 akurasi 100%
20
Lampiran 4 Feature vectors untuk 50 data sekuen DNA
nA
tA
dA
nC
tC
dC
nG
tG
dG
nT
tT
dT
Borellia
9052
116894478
48144439
3829
42598667
50027915
3948
49946834
46716741
7965
97918842
56423500
Borellia
8566
100141185
44452323
2744
28495274
41422686
2691
33591237
44092917
9028
102928210
44112983
Borellia
8884
108985242
48047662
2816
30664859
46210859
2828
36750924
48288288
9642
115752321
49455219
Borellia
8354
102209626
40861795
2737
32998356
45659548
4652
40450974
48162132
7679
98624375
42402181
Borellia
8287
97419542
42166069
2298
24509026
48804127
4372
56006276
37195289
8079
87382286
47167258
Borellia
8903
96621123
42463097
3211
38501270
42100836
2204
25339703
39422997
8115
91146432
41572869
Borellia
9128
102305008
41320639
3220
32165029
38933898
2685
35956259
44103542
7912
92798744
46456998
Borellia
8041
87409628
41056263
2567
24433732
37007496
2826
31371149
39863335
8274
92393269
37360429
Borellia
8320
86274582
34801643
2843
27894542
36575991
2097
21873992
37751136
7672
83020730
37710163
Borellia
9181
108364065
44643015
2915
31978201
44181546
3775
43787455
49141656
7548
90083350
45585095
Streptococcus
2244
6639429
2901026
901
2569281
2862049
1062
3086348
2706481
1635
4766503
2840612
Streptococcus
1414
3160950
1597320
672
1484976
1738264
969
2134727
1732975
1353
2932375
1499066
Streptococcus
1139
1970928
1097983
539
1007213
1104365
724
1370346
1149789
1176
2050766
953513
Streptococcus
2072
5818357
2511431
766
2218711
2852391
1078
3052201
2803021
1724
4812711
2629893
Streptococcus
1116
1799493
827778
365
567721
837588
653
1040996
794227
1027
1586170
857901
Streptococcus
1113
1794724
830722
365
569451
843048
653
1041326
795001
1031
1592040
853842
Streptococcus
954
1384230
785456
457
730081
808011
603
952351
863245
1027
1555658
676677
Streptococcus
1753
4396562
2119689
744
1863397
1929570
1090
2615816
1849436
1388
3497050
2221286
Strep