Klasifikasi Enzim Protein Menggunakan Metode K-Nearest Neighbor Dan Analisis Komponen Utama
KLASIFIKASI ENZIM PROTEIN MENGGUNAKAN METODE
K-NEAREST NEIGHBOR DAN ANALISIS KOMPONEN
UTAMA SEBAGAI PEREDUKSI CIRI
JEFRI HANRIKO SAPUTRA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Enzim
Protein Menggunakan Metode K-Nearest Neighbor dan Analisis Komponen
utama Sebagai Pereduksi Ciri adalah benar karya saya dengan arahan dari komisi
pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi
mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan
maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan
dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, September 2015
Jefri Hanriko Saputra
NIM G64114001
ABSTRAK
JEFRI HANRIKO SAPUTRA. Klasifikasi Enzim Protein Menggunakan Metode
K-Nearest Neighbor dan Analisis Komponen utama. Dibimbing oleh TOTO
HARYANTO.
Enzim adalah suatu protein yang berfungsi sebagai biokatalisator dan
mempunyai bentuk globular. Enzim merupakan biokatalisator yang aktif, sebab
hanya dengan jumlah yang sedikit pada kondisi yang tepat, dapat mengatur
jalannya reaksi kimia tertentu. Tujuan penelitian ini adalah untuk melakukan
klasifikasi enzim berdasarkan 6 kelas yang ditentukan oleh Enzyme Commission.
Data fasta sekuen protein enzim akan dilakukan ekstraksi fitur. Fitur yang
digunakan adalah 470 fitur yang digunakan pada penelitian Rao et al (2009). Data
yang digunakan adalah data fasta yang berjumlah 3000 data, masing-masing 500
data untuk 6 kelas. Metode yang digunakan dalam penelitian ini adalah K-Nearest
Neighbor sebagai metode klasifikasi pada enzim dan Principal Component
Analysis digunakan untuk mereduksi dimensi fitur. Penelitian ini menunjukkan
sensitivitas rata-rata tertinggi sebesar 0.79 pada K-NN dengan PCA 85% dan PCA
90%.
Kata kunci: enzim, K-NN, PCA, protein
ABSTRACT
JEFRI HANRIKO SAPUTRA. Protein Enzyme Classification Using K-Nearest
Neighbor Method and Principal Component Analysis As Dimension Reductant.
Supervised by TOTO HARYANTO.
Enzyme is a protein that, serves as biocatalyst and has a globular shape.
Enzymes are active biocatalyst, because with only small amounts in the right
conditions, can set the course of a particular chemical reaction. The purpose of
this research is to classify the enzyme based on 6 classes determined by Enzyme
Commission. The feature of enzyme protein sequences extracted from the fasta
data. The features used are 470 features used in from previous research. The
number of enzyme data used is 3000 fasta data. There are 6 classes with 500 data
for each class. The method used is K-Nearest Neighbor as classification method
on enzyme and Principal Component Analysis is used to reduce feature
dimension. This research shows the highest average sensitivity of 0.79 in the KNN with PCA85% and PCA90%.
Keywords: enzyme, K-NN, PCA, protein
KLASIFIKASI ENZIM PROTEIN MENGGUNAKAN METODE
K-NEAREST NEIGHBOR DAN ANALISIS KOMPONEN
UTAMA SEBAGAI PEREDUKSI CIRI
JEFRI HANRIKO SAPUTRA
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
Penguji: Dr Eng Wisnu Ananta Kusuma, ST MT
Muhammad Abrar Istiadi, SKom MKom
Judul Skripsi : Klasifikasi Enzim Protein Menggunakan Metode K-Nearest
Neighbor dan Analisis Komponen Utama Sebagai Pereduksi Ciri
Nama
: Jefri Hanriko Saputra
NIM
: G64114001
Disetujui oleh
Toto Haryanto, SKom MSi
Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Tanggal Lulus:
PRAKATA
Alhamdulillahi Rabbil ‘alamin, puji dan syukur penulis panjatkan kepada
Allah Subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini
berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak
bulan Desember 2013 ini ialah klasifikasi enzim protein, dengan judul :
Klasifikasi Enzim Protein Menggunakan Metode K-Nearest Neighbor dan
Analisis Komponen Utama Sebagai Pereduksi Ciri.
Terima kasih penulis ucapkan kepada seluruh pihak yang telah berperan
dalam penelitian ini, yaitu:
1 Ayahanda Jhondri Arizon, ibunda Hanifa, dan keluarga atas doa, semangat, dan
dorongan kepada penulis sehingga dapat menyelesaikan penelitian ini.
2 Bapak Toto Haryanto, SKom MSi selaku pembimbing, yang telah memberikan
arahan, ide, masukan, dan dukungan kepada penulis.
3 Bapak Dr Eng Wisnu Ananta Kusuma, ST MT dan Bapak Muhammad Abrar
Istiadi, SKom MKom yang telah bersedia menjadi penguji, dan memberikan
saran yang berharga sehingga tulisan ini menjadi lebih baik dari sebelumnya.
4 Seluruh staf pengajar Ilmu Komputer IPB yang telah memberikan ilmu semasa
perkuliahan.
5 Rekan-rekan Ilmu Komputer IPB yang saling menyemangati selama
pengerjaan penelitian di tahun yang sama.
6 Seluruh rekan satu bimbingan yang tidak dapat disebutkan satu persatu dan
pihak-pihak lainnya.
Semoga karya ilmiah ini bermanfaat.
Bogor, Agustus 2015
Jefri Hanriko Saputra
DAFTAR ISI
DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN
11
Latar Belakang
11
Perumusan Masalah
2
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE
3
Pengumpulan Data
3
Ekstraksi Ciri
3
Normalisasi Data
5
Principal Components Analysis (PCA)
5
K-Fold Cross Validation
6
K-Nearest Neighbor
6
Evaluasi
6
Ruang Lingkup Pengembangan
7
HASIL DAN PEMBAHASAN
7
Pengumpulan data
7
Ekstraksi Ciri
7
Normalisasi
11
Principal Components Analysis (PCA)
11
K-Fold Cross Validation
11
Hasil Klasifikasi KNN
12
Analisis Hasil
12
SIMPULAN DAN SARAN
16
Simpulan
16
Saran
16
DAFTAR PUSTAKA
16
LAMPIRAN
18
RIWAYAT HIDUP
36
DAFTAR TABEL
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Daftar persebaran fitur
Matriks konfusi
Asam amino penyusun protein
Distribusi asam amino dua gram
Distribusi grup pertukaran dua gram
Komposisi atomik asam amino
Hasil reduksi PCA
Hasil sensitivitas rata-rata
Matriks konfusi kelas hydrolase KNN PCA85 k=3 k-fold 1
Matriks konfusi kelas isomerase KNN PCA85 k=3 k-fold 1
Matriks konfusi kelas ligase KNN PCA85 k=3 k-fold 1
Matriks konfusi kelas lyase KNN PCA85 k=3 k-fold 1
Matriks konfusi kelas oxydoreductase KNN PCA85 k=3 k-fold 1
Matriks konfusi kelas transferase KNN PCA85 k=3 k-fold 1
Nilai akurasi, sensitivitas dan spesifisitas KNN PCA85 k=3 k-Fold 1
Matriks konfusi kelas hydrolase KNN PCA90 k=3 k-fold 2
Matriks konfusi kelas isomerase KNN PCA90 k=3 k-fold 2
Matriks konfusi kelas ligase KNN PCA90 k=3 k-fold 2
Matriks konfusi kelas lyase KNN PCA90 k=3 k-fold 2
Matriks konfusi kelas oxydoreductase KNN PCA90 k=3 k-fold 2
Matriks konfusi kelas transferase KNN PCA90 k=3 k-fold 2
Nilai akurasi, sensitivitas dan spesifisitas KNN PCA90 k=3 k-Fold 2
4
6
8
8
9
10
11
12
12
13
13
13
13
14
14
14
14
14
15
15
15
15
DAFTAR GAMBAR
1 Tahapan penelitian
2 Isoelectric point 3WKL
3 Berat molekul 3WKL
3
9
11
DAFTAR LAMPIRAN
1
2
3
4
5
6
Data kelas hydrolase
Data kelas isomerase
Data kelas ligase
Data kelas lyase
Data kelas oxydoreductase
Data kelas transferase
17
20
23
26
29
32
PENDAHULUAN
Latar Belakang
Protein terdapat di dalam semua sistem kehidupan dan merupakan suatu
komponen seluler utama yang menyusun setengah dari berat kering sel. Setiap sel
mengandung mengandung ratusan protein yang berbeda-beda dan tiap jenis sel
mengandung beberapa protein yang khas bagi sel tersebut. Sebagian besar protein
disimpan di dalam jaringan otot dan beberapa organ tubuh lainnya, sedangkan
sisanya terdapat di dalam darah. Istilah protein yang dikemukakan pertama kali
oleh pakar kimia Belanda, G.J.Mulder pada tahun 1939, berasal dari bahasa
Yunani’proteios’. Proteios mempunyai arti “yang pertama” atau “yang paling
utama”. Protein memiliki peranan penting pada organisme yaitu dalam struktur,
fungsi dan reproduksi.
Enzim adalah suatu kelompok protein yang menjalankan dan mengatur
perubahan-perubahan kimia dalam sistem biologi. Zat ini dihasilkan oleh organorgan pada makhluk hidup, yang secara katalitik menjalankan berbagai reaksi,
seperti pemecahan hidrolisis, oksidasi, reduksi, isomerasi, adisi, transfer radikal
dan terkadang pemutusan rantai karbon. Kebanyakan enzim yang terdapat di
dalam alat-alat atau organ-organ organisme hidup berupa larutan koloidal dalam
cairan tubuh, seperti air ludah, darah, cairan lambung dan cairan pankreas. Enzim
juga terdapat di bagian dalam sel. Hal ini terikat erat dengan protoplasma. Enzim
juga ada di dalam mitikondria dan ribosom.
Oleh International Commission on Enzymes, enzim secara sistematis
diklasifikasikan menjadi enam kelompok besar, menurut reaksi yang dikatalisi.
Enam kelompok besar tersebut adalah Hydrolase, Isomerase, Ligase , Lyase,
Oxydoreductase dan Transferase. Hydrolase bertugas dalam pemisahan ikatan CO, C-N atau C-S dengan penambahan H2O pada ikatan.Isomerase bertugas dalam
pemindahan gugus di dalam molekul induk untuk menghasilkan bentuk isomatik.
Ligase pembentukan ikatan C-C, C-S, C-O dan C-N disertai penguraian ikatan
berenergi tinggi seperti ATP. Lyase penambahan gugus ke ikatan rangkap atau
pembentukan ikatan rangkap. Oxydoreductase bertugas dalam pemindahan
elektron dari satu senyawa ke suatu akseptor dan Transferase bertugas
dalampemindahan sebuah gugus fungsional, misalnya gugus amino, metil atau
fosfat (Mark et al. 1996).
Rao et al. (2009) melakukan penelitian klasifikasi superfamily pada protein
menggunakan 479 buah fitur yang didapat dari mengekstrak sekuen fasta protein
tersebut. Penelitian Rao et al. menggunakan 490 protein yang termasuk dalam
tiga kelas yaitu 195 esterase, 155 lipase, dan 140 cytochrome. Metode yang
digunakan adalah metode Probabilistic Neural Network dengan hasil akurasi
98.2%, spesifisitas 98,4%, sensitivitas 98,7% pada kelas esterase. Akurasi 98.7%,
spesifisitas 99,3%, sensitivitas 96,1% pada kelas lipase. akurasi 96.7%,
spesifisitas 97,2%, sensitivitas 93,2% pada kelas cytochrome.
Simangunsong (2015) melakukan penelitian klasifikasi fragmen metagenom
menggunakan n-mers sebagai ekstrasi ciri, kemudian dilakukan pereduksian
dimensi menggunakan principal component analysis dan diklasifikasikan
2
menggunakan algoritme k-nearest neighbor. Akurasi pada organisme dikenal dari
fold terbaik dengan menggunakan PCA 95% untuk panjang fragmen 0.5 Kbp
sampai10 Kbp berkisar antara 91.6% sampai 99,9%.
Penelitian ini melakukan klasifikasi enzim dengan menggunakan 470 fitur
dari 479 fitur yang berasal dari penelitian Rao et al.(2009) dan menggunakan
metode penelitian yang digunakan oleh Simangunsong yaitu k-nearest neighbor
sebagai metode klasifikasi dan principal component analysis untuk mereduksi
fitur.
Perumusan Masalah
Berbekalkan Permasalahan yang akan menjadi bahan analisis dalam
penelitian ini adalah:
1 Berapa nilai akurasi klasifikasi enzim dengan menggunakan 470 fitur
penelitian Rao et al. (2009)?
2 Berapa akurasi yang diperoleh jika menggunakan metode KNN dengan PCA
dan tanpa seleksi fitur?
3 Bagaimana pengaruh nilai k pada metode KNN yang digunakan terhadap hasil
klasifikasi?
Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1 Mengklasifikasikan enzim dengan hanya menggunakan sekuen enzim.
2 Melakukan menerapkan klasifikasi K-nearest neighbor dan principal
component analysis dalam mengklasifikasikan enzim protein.
Manfaat Penelitian
Penelitian ini diharapkan dapat memberikan informasi mengenai akurasi
metode K-Nearest Neighbor dengan menggunakan 470 fitur Rao et al.(2009) dan
dapat melakukan klasifikasi enzim dengan lebih mudah.
Ruang Lingkup Penelitian
Ruang lingkup penelitian ini meliputi:
1 Data yang digunakan ialah fasta sekuen enzim yang berasal dari situs
http://rcsb.org.
2 Fitur yang digunakan hanya 470 fitur dari total 479 fitur Rao et al.(2009)
3 Data sekuen fasta enzim yang dipilih hanya masuk dalam salah satu dari enam
kelas klasifikasi dan tidak ada yang ganda
4 Data yang digunakan untuk pelatihan sebanyak 2400 data fasta yang termasuk
dalam 6 kelas. Tiap kelas berjumlah 400 data fasta.
5 Data uji sebanyak 600 data fasta yang termasuk dalam 6 kelas. Tiap kelas
berjumlah 100 data fasta.
3
METODE
Penelitian ini dilakukan dengan beberapa tahap, yaitu pengumpulan data,
ekstraksi ciri, normalisasi data, melakukan PCA, membagi data dengan teknik Kfold menjadi 2 bagian yaitu data latih dan data uji. Lalu melakukan klasifikasi
dengan metode K-Nearest Neighbor. Tahapan pada penelitian ini diGambarkan
pada Gambar1.
Gambar 1 Tahapan penelitian
Pengumpulan Data
Data yang digunakan adalah subtrat data fasta protein yang didapatkan dari
situs www.rcsb.org. yang berjumlah 3000 data. Terdapat 6 kelas dengan yaitu
Hydrolase, Isomerase, Ligase , Lyase, Oxydoreductase dan Transferase dengan
tiap kelas berjumlah 500 data yang dipilih secara acak. Data keenam kelas
terdapat pada Lampiran 1 sampai Lampiran 6.
Ekstraksi Ciri
Pada penelitian oleh Rao et al.(2009) telah ditentukan sebanyak 470 nilai
fitur yang akan digunakan untuk ekstraksi ciri. Persebaran fitur ditunjukan pada
Tabel 1.
4
Tabel 1 Daftar persebaran fitur
Deksripsi fitur
Distribusi asam amino
Distribusi asam amino dua gram
Distribusi grup pertukaran
Distribusi grup pertukaran dua gram
Isoelectric point (pI)
Panjang sekuen
Berat molekular
Komposisi atomik
Total fitur
Jumlah fitur
20
400
6
36
1
1
1
5
470
.
Distribusi Asam Amino
Sistem Asam amino merupakan unit dasar struktur protein. Suatu asam
amino α terdiri dari gugus amino, gugus karboksil, atom H dan gugus R tertentu
yang semuanya terikat pada atom karbon α. Atom karbon ini disebut α karena
bersebelahan dengan gugus karboksil(asam). Gusgus R menyatakan rantai
samping (Mutiara Indah Sari 2007). Terdapat 20 jenis rantai samping yang
bervariasi dalam bentuk dan ukuran.
Distibusi Asam Amino Dua Gram
Pada distribusi asam amino dua gram, tiap jenis asam amino akan
dipasangkan dengan sebuah asam amino sehingga menjadi dua sekuen. Sehingga
jumlah fitur pada distribusi sam amino dua gram berjumlah 20 x 20 atau 400 fitur
(Rao et al. 2009)
Distribusi Grup Pertukaran
Distribusi pertukaran grup. Dari 20 jenis asam amino tersebut,
dikelompokan menjadi 6 grup. 6 grup tersebut ditentukan berdasarkan kemiripan
tinggi dalam proses evolusinya. (Rao et al.2009)
Distribusi Grup Pertukaran Dua Gram
Distribusi pertukaran grup dua gram, didapat dengan mengkombinasikan 6
buah grup tersebut dalam 2 sekuen. Sehingga jumlah fitur pada distribusi grup
pertukaran adalah 36 (Rao et al. 2009).
Isoelectric Point (pI)
Isoelectric point adalah pH yang mana molekul tidak membawa muatan
listrik atau bermuatan nol. Isoelectric point dapat dihitung menggunakan
kalkulator
isoelectric
point
pada
situs
http://www.bioinformatics.org/sms2/protein_iep.html.
Panjang Sekuen
Panjang sekuen yang dimaksud ialah panjangnya rantai suatu molekul
protein. Rantai molekul protein dibentuk oleh beberapa asam amino. Panjang
sekuen adalah jumlah banyaknya asam amino yang membentuk protein.
5
Berat Molekular
Berat molekular merupakan berat dari suatu molekul. Berat suatu molekul
dapat dihitung dengan menjumlahkan massa setiap atom berdasarkan rumus
molekulnya. Berat molekular point dapat dihitung menggunakan kalkulator pada
situs http://www.bioinformatics.org/sms/prot_mw.html.
Komposisi Atomik
Komposisi atomic merupakan komposisi atom dari molekul protein. Protein
terbentuk oleh asam amino. Pada asam amino hanya terdapat 5 macam atom
yaitu : atom karbon(C), atom hidrogen(H), atom nitrogen(N), atom oksigen(O),
dan atom sulfur(S).
Normalisasi Data
Pada penelitian ini normalisasi data dilakukan dengan menggunakan teknik
normalisasi min-max. Untuk Normalisasi data dilakukan untuk membuat data
hanya bernilai dari 0 sampai satu. Normalisasi dilakukan dengan cara berikut
(Shalabi 2006):
�− � �
�′ =
� �−
� �− � �
�′
�
maxA
minA
newmaxA
newminA
� � +
� �
(1)
: Nilai data setelah normalisasi
: Nilai data awal yang akan dinormalisasikan
: Nilai data awal terbesar
: Nilai data awal terkecil
: Nilai data maksimum setelah dinormalisasi (nilainya 1)
: Nilai data minimum setelah dinormalisasi (nilainya 0)
Principal Components Analysis (PCA)
PCA adalah teknik yang biasa digunakan untuk mereduksi dimensi data dan
tetap menjaga nilai infromasi penting dari data tersebut Peubah hasil transformasi
PCA merupakan kombinasi linier dari peubah asli dan tersusun berdasarkan
infromasi kandungnya yang disebut sebagai vector eigen atau nilai komponen
utama (Abdi, William 2010)
Data matriks kovarian S dihitung dengan menggunakan persamaan :
1
= +
S
n
Xi
X
(X)T
�=1
�� − �
: matrik kovarian
: unit sampel
: jumlah vektor
: rata-rata vektor
: transpose dari x
�� − �
(2)
6
Setelah ditemukan nilai matriks kovarian, ditentukan nilai eigen. Nilai
eigen diurutkan dari teerbesar sampai terkecil. Dalam penelitian ini digunakan
nilai kontribusi 80%, 85%, dan 90%.
K-Fold Cross Validation
K-fold Cross Validation adalah metode pembagian sebuah kelompok data
yang akan dibagi ke dalam data latih dan data uji . Pembuatan partisi dilakukan
dengan cara melakukan pengolahan data sebanyak k kali dengan menggunakan k1 data latih dan sisanya data uji. Akurasi didapat dari rata-rata seluruh k
percobaan (Zhang dan Wu 2011). Pada penelitian ini akan digunakan 5 fold.
Dengan data uji berjumlah 600 data dan data latih berjumlah 2400 data.
K-Nearest Neighbor
K-Nearest Neighbor (K-NN) adalah suatu metode yang menggunakan
algoritme supervised
yang mana hasil dari query instance yang baru
klasifikasikan berdasarkan mayoritas dari kategori pada k-NN. Tujuan dari
algoritme ini adalah menglasifikasi objek baru berdasarkan atribut dan training
sample. Pada penelitian nilai k yang digunakan adalah bilangan ganji dari 3
hingga 21. Digunakan bilangan ganjil sebagai k untuk memperkecil kemungkinan
terjadinya dua kelas atau lebih yang mempunyai jumlah nilai k sama. Jika terjadi
dua kelas atau lebih memiliki jumlah nilai k yang sama maka kelas yang dipilih
merupakan kelas yang memiliki nilai jarak euclidian yang terdekat.
Jarak dengan data tetangga dihitungan dengan jarak euclidian dengan
persamaan sebagai berikut :
( , )=
d : jarak data uji ke data pembelajaran
xi : data uji ke-i
yi : data pembelajaran ke-i
n : banyak data
�=1( �
−
2
�)
(3)
Evaluasi
Penelitian diuji dengan menghitung akurasi, sensitivitas dan spesifisitas.
Perhitungan akurasi sensitivitas dan spesifisitas dilakukan dengan menggunakan
matriks konfusi. Persamaan dan Tabel 2 di bawah ini digunakan untuk
menghitung akurasi, sensitivitas dan spesifisitas (Akobeng 2007). Matriks yang
akan dibuat sejumlah kelas yang ada yaitu 6 buah.
Tabel 2 Matriks konfusi
Kelas aktual
A(tes positif)
¬ A(tes negatif)
Kelas prediksi
A (class positif)
¬ A (class negatif)
TP
FP
FN
TN
7
TP TN
Akurasi = TP TN FP FN x 100%
TP
Sensitivitas = TP FN x 100%
TN
Spesifisitas = TN FP x 100%
Ruang Lingkup Pengembangan
Penelitian ini diimplementasikan menggunakan spesifikasi perangkat keras
dan lunak sebagai berikut:
Perangkat Keras :
•
•
•
•
Spesifikasi perangkat keras yang digunakan adalah:
Intel Core i5 CPU @ 1.6 GHz., ~2,3GHz.
Harddisk 500 GB.
Memori 2 GB.
Perangkat Lunak :
•
•
•
•
Sistem operasi Windows 7.
XAMPP
Matlab
PHP
HASIL DAN PEMBAHASAN
Pengumpulan data
Data yang digunakan adalah data fasta enzim yang didapat dari situs
www.rcsb.org. pada penelitian ini terdapat 6 kelas Hydrolase, Isomerase, Lyase,
Lyase, Oxydoreductase dan Transferase. Masing-masing kelas diambil 500 data,
sehingga total data yang akan digunakan adalah 3000. Karena memungkinkan
untuk satu enzim bisa masuk lebih dari satu kelas. Maka data yang diambil yang
hanya termasuk dalam satu dari enam kelas yang ada.
Ekstraksi Ciri
Pada proses ekstraksi ciri telah ditentukan 470 fitur dari 479 fitur yang
berasal dari penelitian yang dilakukan oleh Rao et al.(2009). 20 fitur distribusi
asam amino, 400 fitur distribusi asam amino dua gram, 6 fitur distribusi grup
pertukaran, 36 fitur distribusi grup pertukaran dua gram, 1 fitur panjang sekuen, 5
fitur komposisi atomik, 1 fitur isoelectric point dan 1 fitur berat molekular. Tiaptiap dari fitur tersebut akan dijelaskan lebih lanjut di bawah ini.
8
Distribusi Asam Amino
Pada protein ada 20 jenis rantai samping. Distribusi asam amino merupakan
banyaknya kemunculan dari 20 jenis rantai samping yang ada pada suatu protein.
Nama para asam amino penyusun protein bisa dilihat pada Tabel 3.
Tabel 3 Asam amino penyusun protein
Bahasa Inggris
Singkatan
Bahasa Indonesia
3-huruf
1-huruf
Alanine
Alanin
Ala
A
Arginine
Arginin
Arg
R
Asparagine
Asparagin
Asn
N
Aspartic acid
Asam aspartat
Asp
D
Cystine
Sistein
Cys
C
Glutamine
Glutamin
Gln
Q
Glutamic acid
Asam glutamat
Glu
E
Glycine
Glisin
Gly
G
Histidine
Histidin
His
H
Isoleucine
Isoleusin
Ile
I
Leucine
Leusin
Leu
L
Lysine
Lisin
Lys
K
Methionine
Metionin
Met
M
Phenilalanine
Fenilalanin
Phe
F
Proline
Prolin
Pro
P
Serine
Serin
Ser
S
Threonine
Treonin
Thr
T
Tryptophan
Triptofan
Trp
W
Tyrosine
Tirosin
Tyr
Y
Valine
Valin
Val
V
Distibusi Asam Amino Dua Gram
Pada distribusi asam amino dua gram, tiap jenis asam amino akan
dipasangkan dengan sebuah asam amino sehingga menjadi dua sekuen. Sehingga
jumlah fitur berjumlah 20 x 20 atau 400 fitur (Rao et al. 2009) yang ditunjukan
pada Tabel 4.
Tabel 4 Distribusi asam amino dua gram
A
R
N
D
…
P
S
T
W
Y
V
A
AA
AR
AN
AD
…
AP
AS
AT
AW
AY
AV
R
RA
RR
RN
RD
…
RP
RS
RT
RW
RY
RV
N
NA
NR
NN
ND
…
NP
NS
NT
NW
NY
NV
…
…
…
…
…
…
…
…
…
…
…
…
V
VA
VR
VN
VD
…
VP
VS
VT
VW
VY
VV
9
Distribusi Grup Pertukaran
Distribusi pertukaran grup. Dari 20 jenis asam amino tersebut,
dikelompokan menjadi enam grup. Yang ditentukan berdasarkan kemiripan tinggi
dalam proses evolusinya. (Rao et al.2009). enam grup itu adalah :
o e1 = {H,R,K}
o e2 = {D,E,N,Q}
o e3 ={C}
o e4 = {A,G,P,S,T}
o e5 = {I,L,M,V}
o e6 = {F,Y,W}.
Distribusi Grup Pertukaran Dua Gram
Distribusi pertukaran grup dua gram, didapat dengan mengkombinasikan 6
buah grup tersebut dalam 2 sekuen. Sehingga jumlah fitur pada distribusi grup
pertukaran adalah 36 (Rao et al. 2009).
Tabel 5 Distribusi grup pertukaran dua gram
e1
e2
e3
e4
e5
e6
e1
e1e1
e2e1
e3e1
e4e1
e5e1
e6e1
e2
e1e2
e2e2
e3e2
e4e2
e5e2
e6e2
e3
e1e3
e2e3
e3e3
e4e3
e5e3
e6e3
e4
e1e4
e2e4
e3e4
e4e4
e5e4
e6e4
e5
e1e5
e2e5
e3e5
e4e5
e5e5
e6e5
e6
e1e6
e2e6
e3e6
e4e6
e5e6
e6e6
Panjang Sekuen
Panjang sekuen yang dimaksud ialah panjangnya rantai suatu molekul
protein. Rantai molekul protein dibentuk oleh beberapa asam amino. Panjang
sekuen adalah jumlah banyaknya asam amino yang membentuk protein. Panjang
sekuen nilainya satu fitur.
Isoelectric Point (pI)
Isoelectric point adalah pH yang mana molekul tidak membawa muatan
listrik atau bermuatan nol. Jumlah fitur hanya satu fitur yaitu nilai yang
dikeluarkan berupa pH yang besarnya antara nol dan satu. Contoh hasil isoelectric
point pada data fasta 3WKL pada Gambar 2.
Gambar 2 Isoelectric point 3WKL
10
Komposisi Atomik
Komposisi atomic merupakan komposisi atom dari molekul protein. Protein
terbentuk oleh asam amino. Pada asam amino hanya terdapat 5 macam atom yaitu,
atom karbon(C), atom hidrogen(H), atom nitrogen(N), atom oksigen(O), dan atom
sulfur(S). fitur yang berada pada komposisi atomik berjumlah 5 (Mathews et al.
2013).
Tabel 6 Komposisi atomik asam amino
no
Residu
Formula Molekular
AtomC
atomH
atomN
atomO
atomS
1
Alanine
C3H7NO2
3
7
1
2
0
2
Arginine
C6H14N4O2
6
14
4
2
0
3
Asparagine
C4H8N2O3
4
8
2
3
0
4
aspartic acid
C4H7NO4
4
7
1
4
0
5
Cysteine
C3H7NO2S
3
7
1
2
1
6
Glutamine
C5H10N2O3
5
10
2
3
0
7
glutamic acid
C5H9NO4
5
9
1
4
0
8
Glycine
C2H5NO2
2
5
1
2
0
9
Histidine
C6H9N3O2
6
9
3
2
0
10
Isoleucine
C6H13NO2
6
13
1
2
0
11
Leucine
C6H13NO2
6
13
1
2
0
12
Lysine
C6H14N2O2
6
14
2
2
0
13
Methionine
C5H11NO2S
5
11
1
2
1
14
Phenylalanine
C9H11NO2
9
11
1
2
0
15
Proline
C5H9NO2
5
9
1
2
0
16
Serine
C3H7NO3
3
7
1
3
0
17
Threonine
C4H9NO3
4
9
1
3
0
18
Tryptophan
C11H12N2O2
11
12
2
2
0
19
Tyrosine
C9H11NO3
9
11
1
3
0
20
Valine
C5H11NO2
5
11
1
2
0
Berat Molekular
Berat molekular merupakan berat dari suatu molekul. Berat suatu molekul
dapat dihitung dengan menjumlahkan massa setiap atom berdasarkan rumus
molekulnya. Berat molekular hanya satu fitur dan memiliki satuan dalton. Contoh
hasil berat molekul pada data fasta 3WKL pada Gambar 3.
11
Gambar 3 Berat molekul 3WKL
Normalisasi
Pada tahap normalisasi akan dilakukan normalisasi min-max. normalisasi
bertujuan untuk membuat nilai fitur antara nol dan satu (Shalabi 2006). Hal ini
dilakukan untuk menyeimbangkan nilai fitur. Misal nilai fitur pada panjang
sekuen bisa mencapai angka ribuan dan nilai fitur isoelectric point adalah pH
yaitu hanya berkisar 0 sampai 14. Hal ini dapat menyebabkan nilai fitur isoelectric
point tidak berarti jika dibandingkan panjang sekuen jika dilakukan klasifikasi
dengan metode K-Nearest Neighbor.
Principal Components Analysis (PCA)
Semua data yang selesai diekstraksi membentuk matriks 3000 x 470. 3000
untuk jumlah data dan 470 untuk jumlah fitur. Dilakukan PCA 80% PCA 85%
dan PCA 90% untuk mengurangi nilai fitur. Nilai kontribusi yang digunakan
untuk tiap PCA adalah yang paling mendekati dengan nilainya seperti yang
ditunjukan pada Tabel 7.
Tabel 7 Hasil reduksi PCA
PCA
Nilai Kontribusi
Jumlah Ciri
80%
80.17
136
85%
85.00
166
90%
90.09
207
K-Fold Cross Validation
K-fold Cross Validation adalah metode pembagian sebuah kelompok data
yang akan dibagi ke dalam data latih dan data uji . Pembuatan partisi dilakukan
dengan cara melakukan pengolahan data sebanyak k kali dengan menggunakan k1 data latih dan sisanya data uji. Akurasi didapat dari rata-rata seluruh k
percobaan (Zhang dan Wu 2011). Pada penelitian ini akan digunakan k=5.
Dengan data uji berjumlah 600 data dan data latih berjumlah 2400 data.
12
Hasil Klasifikasi KNN
Pada tahap Klasifikasi menggunakan metode KNN data yang digunakan
dalam klasifikasi adalah :
data ekstraksi ciri awal (sebelum di PCA).
data ekstraksi ciri PCA 80%.
data PCA 85%.
data PCA 90%.
Tiap set data tersebut dilakukan klasifikasi dengan menggunakan metode
KNN dengan k=bilangan ganjil dari 3 sampai 21.hasil percobaan klasifikasi KNN
bisa dilihat pada Tabel 8.
Tabel 8 Hasil sensitivitas rata-rata
KNN
Hasil Sensitivitas Rata-rata Pada Kelima Fold
K=3
K=5
K=7
K=9
K=11
K=13
K=15
K=17
K=19
K=21
AWAL
0.75
0.68
0.64
0.60
0.56
0.54
0.52
0.50
0.49
0.48
PCA80
0.76
0.72
0.69
0.68
0.67
0.64
0.64
0.63
0.61
0.61
PCA85
0.77
0.71
0.70
0.67
0.65
0.64
0.62
0.62
0.60
0.59
PCA90
0.77
0.73
0.70
0.67
0.66
0.64
0.62
0.61
0.60
0.58
Pada Tabel 8 nilai sensitivitas semakin turun dengan nilai k yang semakin
besar. Belum diketahui pasti apa sebabnya. Tapi 470 fitur yang digunakan ada
beberapa fitur yang kurang signifikan atau berulang. Misalnya, fitur distribusi
asam amino sistein (C) bernilai sama dengan distribusi grup pertukaran e3.
Karena e3 hanya memiliki satu anggota yaitu sistein (C) saja. Begitu juga dengan
distribusi asam amino dua gram C dengan C (CC) dibandingkan dengan distribusi
grup pertukaran dua gram e3e3 yang hanya memiliki anggota (CC). nilai
sensitivitasnya rata-rata terbesar terdapat KNN PCA85 k=3 dan KNN PCA90 k=3.
Nilai sensitivitas terbesar masing-masing pada KNN PCA85 k=3 dan KNN
PCA90 k=3 akan dibahas lebih lanjut.
Analisis Hasil
Pada Tabel 8 nilai sensitivitasnya rata-rata terbesar terdapat KNN PCA85
k=3 dan KNN PCA90 k=3. Untuk KNN PCA85 k=3 nilai tertinggi nya terdapat
pada K-fold 1. Tabel 9 merupakan matriks konfusi untuk kelas Hydrolase pada
klasifikasi KNN PCA85 k=3 K-fold 1. Pada kelas Hydrolase nilai sensitivitasnya
0.74.
Tabel 9 Matriks konfusi kelas hydrolase KNN PCA85 k=3 k-fold 1
Kelas aktual
Kelas prediksi
A
¬A
A
74
26
¬A
18
482
13
Tabel 10 merupakan untuk kelas Isomerase pada klasifikasi KNN PCA85
k=3 K-fold 1. Pada kelas Isomerase nilai sensitivitasnya 0.77.
Tabel 10 Matriks konfusi kelas isomerase KNN PCA85 k=3 k-fold 1
Kelas aktual
Kelas prediksi
A
¬A
A
77
23
¬A
27
473
Tabel 11 merupakan untuk kelas Ligase pada klasifikasi KNN PCA85 k=3
K-fold 1. Pada kelas Ligase nilai sensitivitasnya 0.86.
Tabel 11 Matriks konfusi kelas ligase KNN PCA85 k=3 k-fold 1
Kelas aktual
Kelas prediksi
A
¬A
A
86
14
¬A
24
476
Tabel 12 merupakan untuk kelas Lyase pada klasifikasi KNN PCA85 k=3
K-fold 1. Pada kelas Lyase nilai sensitivitasnya 0.85.
Tabel 12 Matriks konfusi kelas lyase KNN PCA85 k=3 k-fold 1
Kelas aktual
Kelas prediksi
A
¬A
A
85
15
¬A
26
474
Tabel 13 merupakan untuk kelas Oxydoreductase pada klasifikasi KNN
PCA85 k=3 K-fold 1. Pada kelas Lyase nilai sensitivitasnya 0.79.
Tabel 13 Matriks konfusi kelas oxydoreductase KNN PCA85 k=3 k-fold 1
Kelas aktual
Kelas prediksi
A
¬A
A
79
21
¬A
14
486
Tabel 14 merupakan untuk kelas Transferase pada klasifikasi KNN PCA85
k=3 K-fold 1. Pada kelas Transferase nilai sensitivitasnya 0.72.
14
Tabel 14 Matriks konfusi kelas transferase KNN PCA85 k=3 k-fold 1
Kelas prediksi
Kelas aktual
A
¬A
A
72
28
¬A
18
482
Nilai akurasi, sensitivitas dan spesifisitas pada klasifikasi KNN PCA85 k=3
K-fold satu bisa dilihat pada Tabel 15.
Tabel 15 Nilai akurasi, sensitivitas dan spesifisitas KNN PCA85 k=3 k-Fold 1
Hydrolase
Isomerase
Ligase
Lyase
Oxydoreductase
Transferase
rataan
Akurasi
0.93
0.92
0.94
0.93
0.94
0.92
0.93
Sensitivitas
0.74
0.77
0.86
0.85
0.79
0.72
0.79
Spesifisitas
0.96
0.95
0.95
0.95
0.97
0.96
0.96
Tabel 16 merupakan matriks konfusi untuk kelas Hydrolase pada klasifikasi
KNN PCA90 k=3 K-fold 2. Pada kelas Hydrolase nilai sensitivitasnya 0.75.
Tabel 16 Matriks konfusi kelas hydrolase KNN PCA90 k=3 k-fold 2
Kelas aktual
Kelas prediksi
A
¬A
A
75
25
¬A
20
480
.
Tabel 17 merupakan matriks konfusi untuk kelas Isomerase pada klasifikasi
KNN PCA90 k=3 K-fold 2. Pada kelas Isomerase nilai sensitivitasnya 0.86.
Tabel 17 Matriks konfusi kelas isomerase KNN PCA90 k=3 k-fold 2
Kelas aktual
Kelas prediksi
A
¬A
A
86
14
¬A
23
477
Tabel 18 merupakan matriks konfusi untuk kelas Ligase pada klasifikasi
KNN PCA90 k=3 K-fold 2. Pada kelas Ligase nilai sensitivitasnya 0.83.
Tabel 18 Matriks konfusi kelas ligase KNN PCA90 k=3 k-fold 2
Kelas aktual
Kelas prediksi
A
¬A
A
83
17
¬A
23
477
15
Tabel 19 merupakan matriks konfusi untuk kelas Lyase pada klasifikasi
KNN PCA90 k=3 K-fold 2. Pada kelas Lyase nilai sensitivitasnya 0.81.
Tabel 19 Matriks konfusi kelas lyase KNN PCA90 k=3 k-fold 2
Kelas prediksi
Kelas aktual
A
¬A
A
81
19
¬A
32
468
Tabel 20 merupakan matriks konfusi untuk kelas Oxydoreductase pada
klasifikasi KNN PCA90 k=3 K-fold 2. Pada kelas Oxydoreductase nilai
sensitivitasnya 0.82.
Tabel 20 Matriks konfusi kelas oxydoreductase KNN PCA90 k=3 k-fold 2
Kelas prediksi
Kelas aktual
A
¬A
A
82
18
¬A
11
489
Tabel 21 merupakan matriks konfusi untuk kelas Transferase pada
klasifikasi KNN PCA90 k=3 K-fold 2. Pada kelas Transferase nilai
sensitivitasnya 0.66.
Tabel 21 Matriks konfusi kelas transferase KNN PCA90 k=3 k-fold 2
Kelas prediksi
Kelas aktual
A
¬A
A
66
34
¬A
18
482
Nilai akurasi, sensitivitas dan spesifisitas pada klasifikasi KNN PCA85 k=3
K-fold satu bisa dilihat pada Tabel 15.
Tabel 22 Nilai akurasi, sensitivitas dan spesifisitas KNN PCA90 k=3 k-Fold 2
Hydrolase
Isomerase
Ligase
Lyase
Oxydoreduktase
Transferase
akurasi
0.93
0.94
0.93
0.92
0.95
0.91
sensitivity
0.75
0.86
0.83
0.81
0.82
0.66
specificity
0.96
0.95
0.95
0.94
0.98
0.96
16
Dari kedua hasil klasifikasi KNN yang memiliki sensitivitas terbesar. Kelas
transferase memiliki nilai sensitivitas yang terkecil dibandingkan dengan lima
kelas lainnya. Hal ini belum diketahui penyebabnya.
SIMPULAN DAN SARAN
Simpulan
Penelitian ini berhasil penerapan K-NN dan PCA dengan penggunaan 470
fitur Rao et al. (2009) dalam mengklasifikasikan enzim. Penggunaan PCA 85%
dan 90% menghasilkan klasifikasi KNN pada enzim dengan nilai sensitivitas ratarata tertinggi 0.79 pada nilai k=3.
Saran
Beberapa saran untuk penelitian selanjutnya yaitu:
1 Mengoptimasikan fitur, dengan menambah atau mengurangi fitur
2 Menggunakan classifier yang lain untuk mengetahui apakah classifier lain
meningkatkan nilai akurasi, sensitivitas dan spesifitas.
DAFTAR PUSTAKA
Abdi H, Williams LJ. 2010. Principal component analysis. Wiley Interdisciplinary
Reviews: Computational Statistics 2. 2: 433–459.
Akobeng AK. 2007. Understanding Diagnostic Tests 1: Sensitivitas, Spesifisitas,
and Predicting Values. Foundation Acta Paediatrica 2006, pp.338-341.
Marks DB, Marks AD, Smith CM. 1996. Biokimia Kedokteran Dasar: Sebuah
Pendekatan Klinis. Pendit BU, penerjemah; Suyono J, Sadikin V, Mandera
LI, editor. Jakarta (ID): Penerbit EGC. Terjemahan dari: Basic Medical
Biochemistry: A Clinical Approach.
Mathews CK, Van Holde KE, Appling DR, Anthony-Cahill SJ et al. 2013.
Biochemistry. ED ke-4. Toronto(US). Pearson.
Rao PN, Devi TU, Kladhar D, Sridhar G, RAO AP. 2009. A Probabilistic Neural
Network Approach for Protein Superfamily Classification. Journal of
Theoretical and Applied Information Technologi.
Sari MI. 2007. Struktur Protein. Fakultas Kedokteran, Universitas Sumatra Utara.
Shalabi LA, Shaaban Zyad, Kasasbeh B. 2006. Data Mining: A Preprocessing
Engine. Journal of Computer of Science. 2(9):735-739, 2006.
Shmueli G, Patel NR, Bruce PC. 2005. Data Mining in Excel: Lecture Notes and
Cases. Arlington (US): Resampling Stats, inc.
Simangunsong, VFR. 2015. Klasifikasi fragmen metagenon menggunakan
Principal Component Analysis dan K-Nearest Neighbor [skripsi].
Bogor(ID):Institut Pertanian Bogor.
Zhang Y, Wu L. 2011. Crop classification by Forward Neural Network with
adaptive chaotic Particle Swarm Optimization. Sensors. 11: 4721-4743. doi:
10.3390/s11050472.
17
Lampiran 1 Data kelas hydrolase
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
1
2
3WKL
3WKM:A
41
42
4IAS:A
4IAT
81
82
4MYN:A
4N2X:A
121
122
4INK:A
4INL:A
161
162
1I1E:A
1IPI:A
3
4
5
6
7
8
9
10
3ZFK : A
4BOW
4BPZ:A
4BQ1
4BTT:A
4BTU:A
4CBN:A
4CBO:A
43
44
45
46
47
48
49
50
4IAV
4ICK:A
4ICZ:A
4IKR:A
4IKS:A
4IKT:A
AIKU:A
4LK2:A
83
84
85
86
87
88
89
90
3J4G
3VYG:A
4C1S:A
4CDG:A
4HV2:A
4HXV:A
4I8S:A
4KG9:A
123
124
125
126
127
128
129
130
4JLF:A
4N8S:A
4NC5:A
3WIO:A
4BFN:A
4BFO:A
4BZB:A
4NZC:A
163
164
165
166
167
168
169
170
1JAK:A
1K1I:A
1K1J:A
1K1L:A
1K1M:A
1K1N:A
1K1O:A
1K1P:A
11
12
13
4I3E:A
4IDY
4IEC:A
51
52
53
4LZB:A
3W9U:A
3WJ8:A
91
92
93
4KLN:A
4KO8:A
4M1U
131
132
133
4ICQ:A
4ICR:A
4ICS:A
171
172
173
1K46
1KCF
3ZFZ:A
14
15
16
17
4IF7
4IIA:A
4LQY
4LR2:A
54
55
56
57
4C2C:A
4C2E:A
4C2F:A
4C2H
94
95
96
97
4MZ7:A
4NKL:A
2YOC:A
3ZPS:A
134
135
136
137
4IF6:A
4K90:A
4KXQ:A
4MB7:A
174
175
176
177
3ZG0:A
3ZG5:A
4BXJ:A
4C0J:A
18
19
20
21
22
23
24
25
4MBB:A
4N7M:A
3W2X:A
3W2Y:A
4BBJ:A
4C2N:A
4C2O:A
4C2P:A
58
59
60
61
62
63
64
65
4N9P:A
4NAQ:A
4NED:A
4NMW:A
4NMZ:A
4NP5:A
4BS5:A
4BSQ:A
98
99
100
101
102
103
104
105
3ZPT:A
3ZPU:A
4BTE:A
4IG9:A
4KH4:A
4KH5:A
4KH6:A
4KOD:A
138
139
140
141
142
143
144
145
4MKI:A
4N5U:A
4N6P:A
4N8Z:A
4N9T:A
2M5C:A
3VWL:A
3VWM:A
178
179
180
181
182
183
184
185
4C0K:A
4C0L:A
4C7L:A
4C8X:A
4HE0:A
4HE1:A
4HE2:A
4JHO:A
26
27
28
29
30
31
32
4C2Q:A
4C2R:A
4CA5:A
4CA6:A
4CA7:A
4CA8:A
4CBT:A
66
67
68
69
70
71
72
4C78:A
4HV1:A
4I3Y:A
4I35:A
4I40:A
4IIS:A
4K7M:A
106
107
108
109
110
111
112
4L6T:A
4LE6:A
4LGM:A
4M1M:A
4M9Q:A
4MZA:A
4MZE:A
146
147
148
149
150
151
152
3VWN:A
3VWP:A
3VWQ:A
3VWR:A
4BBX:A
4C7W:A
4KJD:A
186
187
188
189
190
191
192
4JIE:A
4LXI:A
4LYE:A
4M9R:A
3WB4:A
3WB5:A
3WC6:A
33
34
35
36
37
38
39
40
4CBY:A
4NAB:A
4NBI:A
4NBJ:A
1KXX
4CCC:A
4CCD:A
4CCE:A
73
74
75
76
77
78
79
80
4KPN:A
4KPO:A
4KWB:A
4L63:A
4MXR:A
4MYF:A
4MYK:A
4MYL:A
113
114
115
116
117
118
119
120
4NDX:A
3WC3
4BS7:A
4BZW:A
4BZZ:A
4C01:A
4HRZ:A
4HSF:A
153
154
155
156
157
158
159
160
4KJG:A
4MDT:A
4ME5:A
4MH8:A
4MXI:A
1EB6:A
1GM9:A
1H80:A
193
194
195
196
197
198
199
200
3WH4:A
4H34:A
4HZG:A
4IL1:A
4K3A:A
4K35:A
4KER:A
4KES:A
18
Lanjutan
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
201
4KET:A
241
4KE6:A
281
4GWS:A
321
1L9X
361
3B7U:X
202
203
204
205
206
207
208
209
4KEU:A
4KEV:A
4KEZ:A
4KF1:A
4KXH:A
4LFP:A
4LFX:A
4LGK:A
242
243
244
245
246
247
248
249
4KE7:A
4KE8:A
4KE9:A
4KEA:A
4L7J:A
4LXG:A
4LXH:A
4LYD:A
282
283
284
285
286
287
288
289
4GWU:A
4GWX:A
4GWZ:A
4GX3:A
4GX4:A
4GX6:A
4JCN:A
4JH0:A
322
323
324
325
326
327
328
329
1QO7:A
1R61:A
1RQN:A
1SQM:A
1SWV
1SWW:A
1UFO:A
1WYB:A
362
363
364
365
366
367
368
369
3B9G:A
3BPT:A
3C68:A
3CHO:A
3CHP:A
3CHQ:A
3CHR:A
3CHS:A
210
211
212
213
214
215
216
3VXK:A
3ZHH:A
4C2L:A
4GDX:A
4GG2:A
4HI1:A
4HI2:A
250
251
252
253
254
255
256
4M6G:A
4M6H:A
4M6I:A
4MJ2:A
4MJ4:A
3VX1:A
3W95:A
290
291
292
293
294
295
296
4L15:A
4L16:A
4LKO:A
3W81:A
3W82:A
4HTZ:A
4LWX:A
330
331
332
333
334
335
336
1XSQ:A
1Y7U:A
1YQC:A
2AHF:A
2BDR:A
2CJP:A
2D8L:A
370
371
372
373
374
375
376
3CNG:A
3CXU:A
3CZE:A
3CZG:A
3CZK:A
3CZL:A
3D6J:A
217
218
219
220
221
222
223
224
4ITC:A
4JF5:A
4JF6:A
4K91:A
4LGX:A
4M56:A
4MIU:A
2MC3:A
257
258
259
260
261
262
263
264
3WBA:A
3WBE:A
4B7Z:A
4B80:A
4B81:A
4BMX:A
4BMY:A
4BMZ:A
297
298
299
300
301
302
303
304
4LY4:A
4M1J:A
4M5A:A
4MAK:A
4B4Z:A
4BIN:A
4BLO:A
4BLQ:A
337
338
339
340
341
342
343
344
2DUA:A
2E00:A
2E3J:A
2E11:A
2HJP:A
2HRW:A
2JRC:A
2O2G:A
377
378
379
380
381
382
383
384
3EPR:A
3EXQ:A
3F6A:A
3FCM:A
3FTS:A
3FTU:A
3FTV:A
3FTW:A
225
226
227
228
229
3WD0:A
4BRS:A
4BTV:A
4BVJ:A
4BVK:A
265
266
267
268
269
4BN0:A
4BTL:A
4C1B:A
4GIT:A
4GPG:A
305
306
307
308
309
4BOF:A
4FU4:A
4FVL:A
4G0D:A
4GBV:A
345
346
347
348
349
385
386
387
388
389
230
231
4BVL:A
4BWC:A
270
271
4GV8:A
4GWW:A
310
311
4GBW:A
4GN2:A
350
351
2R59:A
2RF8:A
2RG2:A
2RLC:A
2VJ8:A
2W8S:A
2WNX:A
390
391
3FTX:A
3FTY:A
3FU0:A
3FU3:A
3FU5:A
3FU6:A
3FUD:A
232
233
234
235
236
237
238
239
4BXK:A
4BYM:A
4H45:A
4H46:A
4HU8:A
4M8U:A
4MAZ:A
4MB1:A
272
273
274
275
276
277
278
279
4GWY:A
4H1O:A
4HQ0:A
4ME8:A
4B82:A
4B83:A
4B84:A
4B85:A
312
313
314
315
316
317
318
319
4GOA:A
4GY0:A
4GY1:A
4GYL:A
4GYN:A
4H1U:A
1CB5
1EI6
352
353
354
355
356
357
358
359
2WPG:A
2XPY:A
2XPZ:A
2XQ0:A
2ZJF:A
2ZYL:A
2ZYC:A
3AXG:A
392
393
394
395
396
397
398
399
3FUE:A
3FUF:A
3FUH:A
3FUI:A
3FUJ:A
3FUK:A
3FUM:A
3FUN:A
240
3VX0:A
280
4GWF:A
320
1GW6
360
3B7R:L
400
3G01:A
19
Lanjutan
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
401
402
403
3GO2:A
3HB7:A
421
422
423
3LP5:A
3MKK:A
441
442
443
3SZY:A
3SZZ:A
461
462
463
4FNO:A
4FOL:A
481
482
483
4JY7:A
4L7Q:A
404
405
406
407
408
409
410
3HBC:A
3HXK:A
3I1Y:A
3I7U:A
3I7V:A
3I28:A
3IB3:A
3IPW:A
411
412
413
414
415
416
417
3IWU:A
3IWV:A
3K3S:A
418
419
420
424
425
426
427
428
429
430
3MML:A
3MPO:A
3N1U:A
3NEA:A
3OFV:A
3OM8:A
3OOS:A
3P2J:A
3P8K:A
3Q1E:A
3QJ8:A
3K3T:A
3KJZ:A
3KK0:A
3KOO:A
431
432
433
434
435
436
437
3KRV:A
3KSR:A
3KXP:A
438
439
440
444
445
446
447
448
449
450
3T00:A
3T02:A
3TCK:A
3TD2:A
3TD6:A
3U53:A
3V77:A
3VWO:A
3W0K:A
3WIW:A
3WUX:A
3QSJ:A
3R0V:A
3R03:A
3RCM:A
451
452
453
454
455
456
457
3S6J:A
3SQL:A
3SQM:A
458
459
460
464
465
466
467
468
469
470
4FOP:A
4FOT:A
4FYJ:A
4GB7:A
4GYR:A
4GYS:A
4HOY:A
4HPE:A
4IEN:A
4IJX:A
4IKO:A
4BAT:A
4BAU:A
4BAZ:A
4BB0:A
471
472
473
474
475
476
477
4CE7:A
4CP8:A
4EZE:A
478
479
480
484
485
486
487
488
489
490
4L8F:A
4L8W:B
4L8Y:A
4L9X:A
4L95:C
4LH8:A
4LWQ:A
4MAQ:A
4MKT:A
4MS6:A
4NFW:A
4INZ:A
4IOO:A
4IST:A
4JC4:A
491
492
493
494
495
496
497
4JKJ:A
4JWK:A
4JX9:A
498
499
500
4P92:A
4P93:A
4PVA:A
4NFX:A
4NZZ:A
4OLJ:A
4P7B:A
20
Lampiran 2 Data kelas isomerase
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
1
2
2M1I:A
2M2A
41
42
4JFJ:A
4JFK:A
81
82
4DYJ:A
4DZA:A
121
122
4GDD:A
4GJJ:A
161
162
3VM6:A
4DOI:A
3
4
5
6
7
8
9
10
4C20:A
4C21:A
4C22:A
4HP5:A
4IPZ:A
4LFL:A
4LFM:A
4LFN:A
43
44
45
46
47
48
49
50
4JFL:A
4JFM:A
4LAV:A
4LAW:A
4LAX:A
4LAY:A
4LXF:A
4MI2:A
83
84
85
86
87
88
89
90
4E1Q:A
4EF0:A
4EJ0:A
4FPI:A
4FS9:A
4HHL:A
4HHM:A
4I6X:A
123
124
125
126
127
128
129
130
4HJH:A
4HWG:A
2LJ4:A
3RGR:A
3VGN:A
4AU1:A
4DVO:A
4ETG:A
163
164
165
166
167
168
169
170
4DOK:A
4DRM:A
4DRN:A
4DRO:A
4DRP:A
4DRQ:A
4DX3:A
4EM6:A
11
12
13
14
15
16
17
4MGV:A
4ML1:A
4ML6:A
4MLY:A
4N7T:A
4NML:A
4NU7:A
51
52
53
54
55
56
57
4BF8:A
4G3N:A
4GUM:A
4GXZ:A
4K1U:A
4K1V:A
4L7K:A
91
92
93
94
95
96
97
4IJZ:A
4IK0:A
4IMN:A
4JCP:A
4KAE:A
3UXI:A
4AL0:A
131
132
133
134
135
136
137
4EUI:A
4EVG:A
4GDE:A
4GMK:A
4H6A:A
4H6B:A
4H6C:A
171
172
173
174
175
176
177
4EM8:A
4EMB:A
4EO9:A
2YIM:A
3RGA:A
3UVT:A
4DXK:A
18
19
20
21
22
23
24
25
4NVT:A
3VYL:A
4BAE:A
4BND:A
4HHP:A
4HNC:A
4HOW:A
4HOZ:A
58
59
60
61
62
63
64
65
4LR7:A
4LR8:A
4LR9:A
4LRA:A
4LRB:A
4LRC:A
4LRD:A
4LRE:A
98
99
100
101
102
103
104
105
4AL1:A
4B6C:A
4DDT:A
4GJI:A
4IO1:A
4IOT:A
3UI6:A
3UNL:A
138
139
140
141
142
143
144
145
4H69:A
4B1F:A
4B4K:A
4E3V:A
4G1K:A
4GIB:A
4GJ1:A
2YJG:A
178
179
180
181
182
183
184
185
4DZ2:A
4DZ3:A
4E77:A
3PA7:A
3RSM:A
3SXP:A
3TWZ:A
3TX0:A
26
27
28
29
30
4HPH:A
4JEQ:A
4LIX:A
4M8L:A
4MY4:A
66
67
68
69
70
4LRF:A
3VW5:A
4AXK:A
4BI5:A
4BI6:A
106
107
108
109
110
3USF:A
3UVA:A
3UWU:A
3UWV:A
3UWW:A
146
147
148
149
150
3QSR:A
3QST:A
3RFY:A
3SR7:A
3UHF:A
186
187
188
189
190
3UKA:A
3UKF:A
3UKH:A
3UKK:A
3UKL:A
31
32
4NZ6:A
3VWW:A
71
72
4BI7:A
4BJU:A
111
112
3UWY:A
3UWZ:A
151
152
3UHO:A
3UHP:A
191
192
3UKP:A
3UKQ:A
33
34
35
36
37
38
39
40
3ZKB:A
3ZKD:A
3ZM7:A
4BUL:A
4GNJ:A
4GWR:A
4IL8:A
4JFI:A
73
74
75
76
77
78
79
80
4EYV:A
4FAZ:A
4FDX:A
4JJ9:A
4K6A:A
4KDY:A
3VSY:A
4DDQ:A
113
114
115
116
117
118
119
120
4AAJ:A
4DBF:A
4DBH:A
4DH4:A
4FDV:A
4FRU:A
4FRV:A
4GDC:A
153
154
155
156
157
158
159
160
3UQI:A
3VKJ:A
3ZS4:A
4DRK:A
4DSG:A
4DSH:A
4DT4:A
4F2D:A
193
194
195
196
197
198
199
200
3UN2:A
3UN3:A
3UN5:A
3UNY:A
3UO0:A
3UTE:A
3UTF:A
3UTG:A
21
Lanjutan
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
201
202
3UTH:A
4A8N:A
241
242
3B04:A
3B05:A
281
282
3OSE:A
3O5F:A
321
322
2MC9:A
2ML1:A
361
362
3BZM:A
3BZN:A
203
204
205
206
207
208
209
210
4DIP:A
2Y61:A
2Y62:A
2Y63:A
3QVS:A
3QVT:A
3QVW:A
3QVX:A
243
244
245
246
247
248
249
250
3B06:A
3OE2:A
3OWS:A
3OWU:A
3OWY:A
3OX9:A
3OXA:A
3PH9:A
283
284
285
286
287
288
289
290
3O5G:A
3O5I:A
3O5J:A
3O5K:A
3O5L:A
3O5M:A
3O5O:A
3O5P:A
323
324
325
326
327
328
329
330
2ML2:A
2ML3:A
2ODO:A
2OP8:A
2ORM:A
2OTN:A
2PPN:A
2PYG:A
363
364
365
366
367
368
369
370
3C3J:A
3CIN:A
3CO8:A
3CT2:A
3CU2:A
3WH0:A
3WKF:A
3WKG:A
211
212
213
3QW2:A
3U2D:A
3U2K:A
251
252
253
3PSV:A
3PSW:A
3TLF:A
291
292
293
3O5Q:A
3O5R:A
3P12:A
331
332
333
2PYH:A
2RUC:a
2RUD:A
371
372
373
3WKH:A
3WKI:A
3WT1:A
214
215
216
217
3UU0:A
3UW1:A
3UW6:A
3UXK:A
254
255
256
257
3U3H:A
3U7J:A
3UCH:A
3UJH:A
294
295
296
297
3P13:A
3PYA:A
3PYB:A
3RMI:A
334
335
336
337
2V0T:A
2V2C:A
2V2D:A
2V2H:A
374
375
376
377
3WT2:A
3ZI4:A
3ZO8:A
3ZPO:A
218
219
220
221
222
223
224
225
3UXL:A
4A3Q:A
4DGD:A
2Y6Z:A
2Y70:A
3MHE:A
3MKI:A
3MYT:A
258
259
260
261
262
263
264
265
4A35:A
3NBU:A
3NVL:A
3NXJ:A
3O7T:A
3OOB:A
3PDK:A
3PF3:A
298
299
300
301
302
303
304
305
3RYK:A
3S5P:A
3S6M:A
2KZH:A
2Y85:A
2Y88:A
2Y89:A
3LNU:A
338
339
340
341
342
343
344
345
2VCQ:A
2VCW:A
2VCX:a
2VCZ:A
2VD0:A
2VD1:A
2VD8:A
2VD9:A
378
379
380
381
382
383
384
385
3ZPA:A
3ZP7:A
3ZPH:A
4BEQ:A
4BF5:A
4BHY:A
4BPM:A
4BZE:A
226
227
228
229
230
231
232
3NBR:A
3NHX:A
3NM2:A
3NUV:A
3T8N:A
3T8U:A
3TA6:A
266
267
268
269
270
271
272
3PH3:A
3Q37:A
3QYS:A
3QYU:A
3QZA:A
3S6D:A
3S46:A
306
307
308
309
310
311
312
3LPX:A
3M9Y:A
3OLP:A
3OVP:A
3OVQ:A
3OVR:A
3PH4:A
346
347
348
349
350
351
352
2VEI:A
2VEK:A
2VEL:A
2VEM:A
2VEN:A
2VN1:A
2VNP:A
386
387
388
389
390
391
392
4BZF:A
4BZG:A
4BZH:A
4C4R:A
4C4S:A
4C4T:A
4C9S:A
233
234
235
236
237
238
239
240
3TAO:A
3UI4:A
3UI5
4A8I:A
4A8L:A
4A8R:A
2RS4:A
3B03:A
273
274
275
276
277
278
279
280
3SDW:A
3SED:A
3SXW:A
3TH6:A
3TRJ:A
2Y78:A
3N4A:A
3O5D:A
313
314
315
316
317
318
319
320
3PVF:A
3PWA:A
3PY2:A
3QC3:A
3RMU:A
2JFY:A
2JGQ:A
2K18:A
353
354
355
356
357
358
359
360
2VNQ:A
2VOM:A
2VRE:A
2VVQ:A
2VVT:A
2ZAD:A
2ZBK:A
3BEO:A
393
394
395
396
397
398
399
400
4C9T:A
4CA9:A
4CDL:A
4CIJ:A
4CKK:A
4CKL:A
4IQ2:A
4IQC:A
22
Lanjutan
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
401
402
4JU5:A
4K9G:A
421
422
4NES:A
4NK6:A
441
442
4ORW:A
4ORX:A
461
462
4Q0U:A
4Q0V:A
481
482
4TW8:A
4TWR:A
403
404
405
406
407
408
409
410
4KQV:A
4LNC:A
4LQL:A
4LTA:A
4LUK:A
4LUL:A
4LUM:A
4LUS:A
423
424
425
426
427
428
429
430
4NK8:A
4NWY:A
4NZ7:A
4O4V:A
4O4W:A
4O8H:A
4O8I:A
4O9K:A
443
444
445
446
447
448
449
450
4ORY:A
4OS0:A
4OS3:A
4OS8:A
4OWG:A
4OZ6:A
4P8O:A
4P61:A
463
464
465
466
467
468
469
470
4Q60:A
4QDP:A
4QDW:A
4QE1:A
4QE4:A
4QE5:A
4QEE:A
4QEH:A
483
484
485
486
487
488
489
490
4TX0:A
4U1A:A
4U8I:A
4U8J:A
4U8K:A
4U8L:A
4U8M:A
4U8N:A
411
412
413
4LUY:A
4M6U:A
4MKN:A
431
432
433
4O50:A
4O52:A
4O53:A
451
452
453
4PFH:A
4PGL:A
4PPU:A
471
472
473
4QFH:A
4R1F:A
4R3E:A
491
492
493
4U8O:A
4U8P:A
4U18:A
414
415
416
417
4MO2:A
4MRQ:A
4MSP:A
4MVA:A
434
435
436
437
4O54:A
4O57:A
4ODI:A
4OJ7:A
454
455
456
457
4PPV:A
4PRV:A
4PRX:A
4PU9:A
474
475
476
477
4R3F:A
4TLO:A
4TVE:A
4TVU:A
494
495
496
497
4U19:A
4URL:A
4URM:A
4URN:A
418
419
420
4N02:A
4N19:A
4NEQ:A
438
439
440
4ORR:A
4ORS:A
4ORU:A
458
459
460
4Q0P:A
4Q0Q:A
4Q0S:A
478
479
480
4TW5:A
4TW6:A
4TW7:A
498
499
500
4URO:A
4UTT:A
4UTU:A
23
Lampiran 3 Data kelas ligase
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
1
4C8A:A
41
4K48:A
81
4HK4:A
121
3U55:A
161 4EPM:A
2
4C8C:A
42
4K87:A
82
4IOJ:A
122
3VOT:A
162 4EQ4:A
3
4C8F:A
43
4L39:A
83
4IOK:A
123
4ACF:A
163 4EQL:A
4
4C8P:A
44
4L87:A
84
4IOM:A
124
4GXQ:A
164 4EWV:A
5
4C8T:A
45
2MA6:A
85
4ISZ:A
125
4GXR:A
165 2LGV:A
6
4C8U:A
46
4BW9:A
86
2RSF:A
126
4GY5:A
166 3AW8:A
7
4C9A:A
47
4BWA:A
87
4BAX:A
127
4HV4:A
167 3RIR:A
8
4C84:A
48
4LNE:A
88
4EAT:A
128
3U16:A
168 3RKW:A
9
4C85:A
49
4M9D:A
89
4HJR:A
129
3U17:A
169 3RKX:A
10
4C86:A
50
3VU8:A
90
4HJX:A
130
4AYC:A
170 3RKY:A
11
4L78:A
51
3ZM5:A
91
4ISJ:A
131
4B0T:A
171 3RR5:A
12
4LGY:A
52
3ZM6:A
92
4IT0:A
132
4EBR:A
172 3SDB:A
13
4NKH:A
53
3ZNI:A
93
4JIM:A
133
4EG1:A
173 3SEQ:A
14
4P0B:A
54
4BUB:A
94
4JJK:A
134
4EG3:A
174 3SEZ:A
15
2M9Y:A
55
4BUC:A
95
4JJZ:A
135
4FU0:A
175 3SYT:A
16
4C9Z:A
56
4GB0:A
96
3VPB:A
136
4G84:A
176 3SZG:A
17
4CA1:A
57
4HFZ:A
97
3VPC:A
137
4G85:A
177 3VMM:A
18
4HA8:A
58
4HG7:A
98
3VPD:A
138
2LM3:A
178 3ZXR:A
19
4HPW:A
59
4I1F:A
99
4H2S
139
2LQ7:A
179 3ZXV:A
20
4HQ6:A
60
4I1H:A
100
4H2T:A
140
2RSD:A
180 4DBG:A
21
4K86:A
61
4L1M:A
101
4H2U:A
141
3B1L:A
181 4DG8:A
22
4LGC:A
62
4L6W:A
102
4H2V:A
142
3VGJ:A
182 4DQ2:A
23
4LJO:A
63
2LXN:A
103
4H2W:A
143
4AP4:A
183 4EG0:A
24
4LJP:A
64
2M48:A
104
4H2X:A
144
4ASI:A
184 4EGQ:A
25
4LJQ:A
65
4BE8:A
105
4H2Y:A
145
4DWQ:A
185 4EQ5:A
26
4LNF:A
66
4BM9:A
106
4II2:A
146
4DWR:A
186 3PT3:A
27
4LNI:A
67
4FE2:A
107
4II3:A
147
4EGJ:A
187 3R44:A
28
4LNK:A
68
4FGR:A
108
3VQV:A
148
4EO4:A
188 3T5A:A
29
4LNN:A
69
4J15:A
109
3VQW:A
149
4FUQ:A
189 3T5B:A
30
4LNO:A
70
4J75:A
110
3VQX:A
150
4FUT:A
190 3T5C:A
31
4MFD:A
71
4J76:A
111
3VQY:A
151
4G6Z:A
191 3UGQ"A
32
4MFE:A
72
4K7D:A
112
4AH6:A
152
4GRI:A
192 3UGT:A
33
4MVT:A
73
4K7U:A
113
4FH1:A
153
2LGY:A
193 3UH0:A
34
2LW7:A
74
4K7W:A
114
4HNT:A
154
3SGI:A
194 3VA7:A
35
2LXH:A
75
4K95:A
115
4HNU:A
155
3UGJ:A
195 3VBB:A
36
2LXP:A
76
4KBL:A
116
4HNV:A
156
3UJN:A
196 4DLP:A
37
3ZL8:A
77
4KC9:A
117
4HPP:A
157
3UMM:A
197 4E51:A
38
4B8E:A
78
4BJR:A
118
4IC2:A
158
3VNN:A
198 2Y1M:A
39
4C12:A
79
4H02:A
119
4IC3:A
159
4DQV:A
199 2Y1O:A
40
4C13:A
80
4H3S:A
120
3U54:A
160
4EPL:A
200 3UQ8:A
24
Lanjutan
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
201 3VIU:A
241 3RPG:A
281 1D5F:A
321
1FYF:A
361
1J21:A
202 3VK6:A
242 3SIQ:A
282 1DAD:A
322
1FYJ:A
362
1JAS:A
203 4A49:A
243 3SP1:A
283 1DAE:A
323
1FYZ:A
363
1JAT:A
204 4A91:A
244 3SZ3:A
284 1DAF:A
324
1G51:A
364
1JBB:A
205 2LDR:A
245 3TGD:A
285 1DAG:A
325
1GG4:A
365
1JBV:A
206 3PNV:A
246 3TQI:A
286 1DAH:A
326
1GGM:A
366
1JBW:A
207 3PNY:A
247 3TQO:A
287 1DAI:A
327
1GIM:A
367
1JDB:B
208 3QUS:A
248 3TQT:A
288 1DAK:A
328
1GIN:A
368
1JH3:A
209 3TEG:A
249 3TW7:A
289 1DAM:A
329
1GSA:A
369
1JII:A
210 3TEH:A
250 3TZE:A
290 1DGS:A
330
1GSO:A
370
1JIJ:A
211 3TL4:X
251 3TZL:A
291 1DJ2:A
331
1GTD:A
371
1JIK:A
212 3U9R:B
252 1A0I:A
292 1DJ3:A
332
1H3E:A
372
1JIL:A
213 3U9S:A
253 1ADI:A
293 1DV1:A
333
1H3F:A
373
1JJC:A
214 3U9T:A
254 1B04:A
294 1DV2:A
334
1H3N:A
374
1JKJ:A
215 3UOW:A
255 1B7Y:A
295 1E0D:A
335
1HOO:A
375
1JLL:A
216 3UY4:A
256 1B8A:A
296 1E1O:A
336
1HTO:A
376
1JUY:A
217 3V4Z:A
257 1B70:A
297 1E1T:A
337
1HTQ:A
377
1JZQ:A
218 3VGO:A
258 1B76:A
298 1E4E:A
338
1HXD:A
378
1JZS:A
219 3ZTG:A
259 1BBU:A
299 1E8C:A
339
1I2T:A
379
1K92:A
220 3ZVZ:B
260 1BBW:A 300 1E22:A
340
1I6K:A
380
1K97:A
221 2Y66:A
261 1BS1:A
301 1E24:A
341
1I6L:A
381
1KEE:A
222 2Y67:A
262 1BS2:A
302 1EE1:A
342
1I6M:A
382
1KH1:A
223 3PZC:A
263 1BY1:A
303 1EEH:A
34
K-NEAREST NEIGHBOR DAN ANALISIS KOMPONEN
UTAMA SEBAGAI PEREDUKSI CIRI
JEFRI HANRIKO SAPUTRA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Enzim
Protein Menggunakan Metode K-Nearest Neighbor dan Analisis Komponen
utama Sebagai Pereduksi Ciri adalah benar karya saya dengan arahan dari komisi
pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi
mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan
maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan
dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, September 2015
Jefri Hanriko Saputra
NIM G64114001
ABSTRAK
JEFRI HANRIKO SAPUTRA. Klasifikasi Enzim Protein Menggunakan Metode
K-Nearest Neighbor dan Analisis Komponen utama. Dibimbing oleh TOTO
HARYANTO.
Enzim adalah suatu protein yang berfungsi sebagai biokatalisator dan
mempunyai bentuk globular. Enzim merupakan biokatalisator yang aktif, sebab
hanya dengan jumlah yang sedikit pada kondisi yang tepat, dapat mengatur
jalannya reaksi kimia tertentu. Tujuan penelitian ini adalah untuk melakukan
klasifikasi enzim berdasarkan 6 kelas yang ditentukan oleh Enzyme Commission.
Data fasta sekuen protein enzim akan dilakukan ekstraksi fitur. Fitur yang
digunakan adalah 470 fitur yang digunakan pada penelitian Rao et al (2009). Data
yang digunakan adalah data fasta yang berjumlah 3000 data, masing-masing 500
data untuk 6 kelas. Metode yang digunakan dalam penelitian ini adalah K-Nearest
Neighbor sebagai metode klasifikasi pada enzim dan Principal Component
Analysis digunakan untuk mereduksi dimensi fitur. Penelitian ini menunjukkan
sensitivitas rata-rata tertinggi sebesar 0.79 pada K-NN dengan PCA 85% dan PCA
90%.
Kata kunci: enzim, K-NN, PCA, protein
ABSTRACT
JEFRI HANRIKO SAPUTRA. Protein Enzyme Classification Using K-Nearest
Neighbor Method and Principal Component Analysis As Dimension Reductant.
Supervised by TOTO HARYANTO.
Enzyme is a protein that, serves as biocatalyst and has a globular shape.
Enzymes are active biocatalyst, because with only small amounts in the right
conditions, can set the course of a particular chemical reaction. The purpose of
this research is to classify the enzyme based on 6 classes determined by Enzyme
Commission. The feature of enzyme protein sequences extracted from the fasta
data. The features used are 470 features used in from previous research. The
number of enzyme data used is 3000 fasta data. There are 6 classes with 500 data
for each class. The method used is K-Nearest Neighbor as classification method
on enzyme and Principal Component Analysis is used to reduce feature
dimension. This research shows the highest average sensitivity of 0.79 in the KNN with PCA85% and PCA90%.
Keywords: enzyme, K-NN, PCA, protein
KLASIFIKASI ENZIM PROTEIN MENGGUNAKAN METODE
K-NEAREST NEIGHBOR DAN ANALISIS KOMPONEN
UTAMA SEBAGAI PEREDUKSI CIRI
JEFRI HANRIKO SAPUTRA
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
Penguji: Dr Eng Wisnu Ananta Kusuma, ST MT
Muhammad Abrar Istiadi, SKom MKom
Judul Skripsi : Klasifikasi Enzim Protein Menggunakan Metode K-Nearest
Neighbor dan Analisis Komponen Utama Sebagai Pereduksi Ciri
Nama
: Jefri Hanriko Saputra
NIM
: G64114001
Disetujui oleh
Toto Haryanto, SKom MSi
Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Tanggal Lulus:
PRAKATA
Alhamdulillahi Rabbil ‘alamin, puji dan syukur penulis panjatkan kepada
Allah Subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini
berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak
bulan Desember 2013 ini ialah klasifikasi enzim protein, dengan judul :
Klasifikasi Enzim Protein Menggunakan Metode K-Nearest Neighbor dan
Analisis Komponen Utama Sebagai Pereduksi Ciri.
Terima kasih penulis ucapkan kepada seluruh pihak yang telah berperan
dalam penelitian ini, yaitu:
1 Ayahanda Jhondri Arizon, ibunda Hanifa, dan keluarga atas doa, semangat, dan
dorongan kepada penulis sehingga dapat menyelesaikan penelitian ini.
2 Bapak Toto Haryanto, SKom MSi selaku pembimbing, yang telah memberikan
arahan, ide, masukan, dan dukungan kepada penulis.
3 Bapak Dr Eng Wisnu Ananta Kusuma, ST MT dan Bapak Muhammad Abrar
Istiadi, SKom MKom yang telah bersedia menjadi penguji, dan memberikan
saran yang berharga sehingga tulisan ini menjadi lebih baik dari sebelumnya.
4 Seluruh staf pengajar Ilmu Komputer IPB yang telah memberikan ilmu semasa
perkuliahan.
5 Rekan-rekan Ilmu Komputer IPB yang saling menyemangati selama
pengerjaan penelitian di tahun yang sama.
6 Seluruh rekan satu bimbingan yang tidak dapat disebutkan satu persatu dan
pihak-pihak lainnya.
Semoga karya ilmiah ini bermanfaat.
Bogor, Agustus 2015
Jefri Hanriko Saputra
DAFTAR ISI
DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN
11
Latar Belakang
11
Perumusan Masalah
2
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE
3
Pengumpulan Data
3
Ekstraksi Ciri
3
Normalisasi Data
5
Principal Components Analysis (PCA)
5
K-Fold Cross Validation
6
K-Nearest Neighbor
6
Evaluasi
6
Ruang Lingkup Pengembangan
7
HASIL DAN PEMBAHASAN
7
Pengumpulan data
7
Ekstraksi Ciri
7
Normalisasi
11
Principal Components Analysis (PCA)
11
K-Fold Cross Validation
11
Hasil Klasifikasi KNN
12
Analisis Hasil
12
SIMPULAN DAN SARAN
16
Simpulan
16
Saran
16
DAFTAR PUSTAKA
16
LAMPIRAN
18
RIWAYAT HIDUP
36
DAFTAR TABEL
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Daftar persebaran fitur
Matriks konfusi
Asam amino penyusun protein
Distribusi asam amino dua gram
Distribusi grup pertukaran dua gram
Komposisi atomik asam amino
Hasil reduksi PCA
Hasil sensitivitas rata-rata
Matriks konfusi kelas hydrolase KNN PCA85 k=3 k-fold 1
Matriks konfusi kelas isomerase KNN PCA85 k=3 k-fold 1
Matriks konfusi kelas ligase KNN PCA85 k=3 k-fold 1
Matriks konfusi kelas lyase KNN PCA85 k=3 k-fold 1
Matriks konfusi kelas oxydoreductase KNN PCA85 k=3 k-fold 1
Matriks konfusi kelas transferase KNN PCA85 k=3 k-fold 1
Nilai akurasi, sensitivitas dan spesifisitas KNN PCA85 k=3 k-Fold 1
Matriks konfusi kelas hydrolase KNN PCA90 k=3 k-fold 2
Matriks konfusi kelas isomerase KNN PCA90 k=3 k-fold 2
Matriks konfusi kelas ligase KNN PCA90 k=3 k-fold 2
Matriks konfusi kelas lyase KNN PCA90 k=3 k-fold 2
Matriks konfusi kelas oxydoreductase KNN PCA90 k=3 k-fold 2
Matriks konfusi kelas transferase KNN PCA90 k=3 k-fold 2
Nilai akurasi, sensitivitas dan spesifisitas KNN PCA90 k=3 k-Fold 2
4
6
8
8
9
10
11
12
12
13
13
13
13
14
14
14
14
14
15
15
15
15
DAFTAR GAMBAR
1 Tahapan penelitian
2 Isoelectric point 3WKL
3 Berat molekul 3WKL
3
9
11
DAFTAR LAMPIRAN
1
2
3
4
5
6
Data kelas hydrolase
Data kelas isomerase
Data kelas ligase
Data kelas lyase
Data kelas oxydoreductase
Data kelas transferase
17
20
23
26
29
32
PENDAHULUAN
Latar Belakang
Protein terdapat di dalam semua sistem kehidupan dan merupakan suatu
komponen seluler utama yang menyusun setengah dari berat kering sel. Setiap sel
mengandung mengandung ratusan protein yang berbeda-beda dan tiap jenis sel
mengandung beberapa protein yang khas bagi sel tersebut. Sebagian besar protein
disimpan di dalam jaringan otot dan beberapa organ tubuh lainnya, sedangkan
sisanya terdapat di dalam darah. Istilah protein yang dikemukakan pertama kali
oleh pakar kimia Belanda, G.J.Mulder pada tahun 1939, berasal dari bahasa
Yunani’proteios’. Proteios mempunyai arti “yang pertama” atau “yang paling
utama”. Protein memiliki peranan penting pada organisme yaitu dalam struktur,
fungsi dan reproduksi.
Enzim adalah suatu kelompok protein yang menjalankan dan mengatur
perubahan-perubahan kimia dalam sistem biologi. Zat ini dihasilkan oleh organorgan pada makhluk hidup, yang secara katalitik menjalankan berbagai reaksi,
seperti pemecahan hidrolisis, oksidasi, reduksi, isomerasi, adisi, transfer radikal
dan terkadang pemutusan rantai karbon. Kebanyakan enzim yang terdapat di
dalam alat-alat atau organ-organ organisme hidup berupa larutan koloidal dalam
cairan tubuh, seperti air ludah, darah, cairan lambung dan cairan pankreas. Enzim
juga terdapat di bagian dalam sel. Hal ini terikat erat dengan protoplasma. Enzim
juga ada di dalam mitikondria dan ribosom.
Oleh International Commission on Enzymes, enzim secara sistematis
diklasifikasikan menjadi enam kelompok besar, menurut reaksi yang dikatalisi.
Enam kelompok besar tersebut adalah Hydrolase, Isomerase, Ligase , Lyase,
Oxydoreductase dan Transferase. Hydrolase bertugas dalam pemisahan ikatan CO, C-N atau C-S dengan penambahan H2O pada ikatan.Isomerase bertugas dalam
pemindahan gugus di dalam molekul induk untuk menghasilkan bentuk isomatik.
Ligase pembentukan ikatan C-C, C-S, C-O dan C-N disertai penguraian ikatan
berenergi tinggi seperti ATP. Lyase penambahan gugus ke ikatan rangkap atau
pembentukan ikatan rangkap. Oxydoreductase bertugas dalam pemindahan
elektron dari satu senyawa ke suatu akseptor dan Transferase bertugas
dalampemindahan sebuah gugus fungsional, misalnya gugus amino, metil atau
fosfat (Mark et al. 1996).
Rao et al. (2009) melakukan penelitian klasifikasi superfamily pada protein
menggunakan 479 buah fitur yang didapat dari mengekstrak sekuen fasta protein
tersebut. Penelitian Rao et al. menggunakan 490 protein yang termasuk dalam
tiga kelas yaitu 195 esterase, 155 lipase, dan 140 cytochrome. Metode yang
digunakan adalah metode Probabilistic Neural Network dengan hasil akurasi
98.2%, spesifisitas 98,4%, sensitivitas 98,7% pada kelas esterase. Akurasi 98.7%,
spesifisitas 99,3%, sensitivitas 96,1% pada kelas lipase. akurasi 96.7%,
spesifisitas 97,2%, sensitivitas 93,2% pada kelas cytochrome.
Simangunsong (2015) melakukan penelitian klasifikasi fragmen metagenom
menggunakan n-mers sebagai ekstrasi ciri, kemudian dilakukan pereduksian
dimensi menggunakan principal component analysis dan diklasifikasikan
2
menggunakan algoritme k-nearest neighbor. Akurasi pada organisme dikenal dari
fold terbaik dengan menggunakan PCA 95% untuk panjang fragmen 0.5 Kbp
sampai10 Kbp berkisar antara 91.6% sampai 99,9%.
Penelitian ini melakukan klasifikasi enzim dengan menggunakan 470 fitur
dari 479 fitur yang berasal dari penelitian Rao et al.(2009) dan menggunakan
metode penelitian yang digunakan oleh Simangunsong yaitu k-nearest neighbor
sebagai metode klasifikasi dan principal component analysis untuk mereduksi
fitur.
Perumusan Masalah
Berbekalkan Permasalahan yang akan menjadi bahan analisis dalam
penelitian ini adalah:
1 Berapa nilai akurasi klasifikasi enzim dengan menggunakan 470 fitur
penelitian Rao et al. (2009)?
2 Berapa akurasi yang diperoleh jika menggunakan metode KNN dengan PCA
dan tanpa seleksi fitur?
3 Bagaimana pengaruh nilai k pada metode KNN yang digunakan terhadap hasil
klasifikasi?
Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1 Mengklasifikasikan enzim dengan hanya menggunakan sekuen enzim.
2 Melakukan menerapkan klasifikasi K-nearest neighbor dan principal
component analysis dalam mengklasifikasikan enzim protein.
Manfaat Penelitian
Penelitian ini diharapkan dapat memberikan informasi mengenai akurasi
metode K-Nearest Neighbor dengan menggunakan 470 fitur Rao et al.(2009) dan
dapat melakukan klasifikasi enzim dengan lebih mudah.
Ruang Lingkup Penelitian
Ruang lingkup penelitian ini meliputi:
1 Data yang digunakan ialah fasta sekuen enzim yang berasal dari situs
http://rcsb.org.
2 Fitur yang digunakan hanya 470 fitur dari total 479 fitur Rao et al.(2009)
3 Data sekuen fasta enzim yang dipilih hanya masuk dalam salah satu dari enam
kelas klasifikasi dan tidak ada yang ganda
4 Data yang digunakan untuk pelatihan sebanyak 2400 data fasta yang termasuk
dalam 6 kelas. Tiap kelas berjumlah 400 data fasta.
5 Data uji sebanyak 600 data fasta yang termasuk dalam 6 kelas. Tiap kelas
berjumlah 100 data fasta.
3
METODE
Penelitian ini dilakukan dengan beberapa tahap, yaitu pengumpulan data,
ekstraksi ciri, normalisasi data, melakukan PCA, membagi data dengan teknik Kfold menjadi 2 bagian yaitu data latih dan data uji. Lalu melakukan klasifikasi
dengan metode K-Nearest Neighbor. Tahapan pada penelitian ini diGambarkan
pada Gambar1.
Gambar 1 Tahapan penelitian
Pengumpulan Data
Data yang digunakan adalah subtrat data fasta protein yang didapatkan dari
situs www.rcsb.org. yang berjumlah 3000 data. Terdapat 6 kelas dengan yaitu
Hydrolase, Isomerase, Ligase , Lyase, Oxydoreductase dan Transferase dengan
tiap kelas berjumlah 500 data yang dipilih secara acak. Data keenam kelas
terdapat pada Lampiran 1 sampai Lampiran 6.
Ekstraksi Ciri
Pada penelitian oleh Rao et al.(2009) telah ditentukan sebanyak 470 nilai
fitur yang akan digunakan untuk ekstraksi ciri. Persebaran fitur ditunjukan pada
Tabel 1.
4
Tabel 1 Daftar persebaran fitur
Deksripsi fitur
Distribusi asam amino
Distribusi asam amino dua gram
Distribusi grup pertukaran
Distribusi grup pertukaran dua gram
Isoelectric point (pI)
Panjang sekuen
Berat molekular
Komposisi atomik
Total fitur
Jumlah fitur
20
400
6
36
1
1
1
5
470
.
Distribusi Asam Amino
Sistem Asam amino merupakan unit dasar struktur protein. Suatu asam
amino α terdiri dari gugus amino, gugus karboksil, atom H dan gugus R tertentu
yang semuanya terikat pada atom karbon α. Atom karbon ini disebut α karena
bersebelahan dengan gugus karboksil(asam). Gusgus R menyatakan rantai
samping (Mutiara Indah Sari 2007). Terdapat 20 jenis rantai samping yang
bervariasi dalam bentuk dan ukuran.
Distibusi Asam Amino Dua Gram
Pada distribusi asam amino dua gram, tiap jenis asam amino akan
dipasangkan dengan sebuah asam amino sehingga menjadi dua sekuen. Sehingga
jumlah fitur pada distribusi sam amino dua gram berjumlah 20 x 20 atau 400 fitur
(Rao et al. 2009)
Distribusi Grup Pertukaran
Distribusi pertukaran grup. Dari 20 jenis asam amino tersebut,
dikelompokan menjadi 6 grup. 6 grup tersebut ditentukan berdasarkan kemiripan
tinggi dalam proses evolusinya. (Rao et al.2009)
Distribusi Grup Pertukaran Dua Gram
Distribusi pertukaran grup dua gram, didapat dengan mengkombinasikan 6
buah grup tersebut dalam 2 sekuen. Sehingga jumlah fitur pada distribusi grup
pertukaran adalah 36 (Rao et al. 2009).
Isoelectric Point (pI)
Isoelectric point adalah pH yang mana molekul tidak membawa muatan
listrik atau bermuatan nol. Isoelectric point dapat dihitung menggunakan
kalkulator
isoelectric
point
pada
situs
http://www.bioinformatics.org/sms2/protein_iep.html.
Panjang Sekuen
Panjang sekuen yang dimaksud ialah panjangnya rantai suatu molekul
protein. Rantai molekul protein dibentuk oleh beberapa asam amino. Panjang
sekuen adalah jumlah banyaknya asam amino yang membentuk protein.
5
Berat Molekular
Berat molekular merupakan berat dari suatu molekul. Berat suatu molekul
dapat dihitung dengan menjumlahkan massa setiap atom berdasarkan rumus
molekulnya. Berat molekular point dapat dihitung menggunakan kalkulator pada
situs http://www.bioinformatics.org/sms/prot_mw.html.
Komposisi Atomik
Komposisi atomic merupakan komposisi atom dari molekul protein. Protein
terbentuk oleh asam amino. Pada asam amino hanya terdapat 5 macam atom
yaitu : atom karbon(C), atom hidrogen(H), atom nitrogen(N), atom oksigen(O),
dan atom sulfur(S).
Normalisasi Data
Pada penelitian ini normalisasi data dilakukan dengan menggunakan teknik
normalisasi min-max. Untuk Normalisasi data dilakukan untuk membuat data
hanya bernilai dari 0 sampai satu. Normalisasi dilakukan dengan cara berikut
(Shalabi 2006):
�− � �
�′ =
� �−
� �− � �
�′
�
maxA
minA
newmaxA
newminA
� � +
� �
(1)
: Nilai data setelah normalisasi
: Nilai data awal yang akan dinormalisasikan
: Nilai data awal terbesar
: Nilai data awal terkecil
: Nilai data maksimum setelah dinormalisasi (nilainya 1)
: Nilai data minimum setelah dinormalisasi (nilainya 0)
Principal Components Analysis (PCA)
PCA adalah teknik yang biasa digunakan untuk mereduksi dimensi data dan
tetap menjaga nilai infromasi penting dari data tersebut Peubah hasil transformasi
PCA merupakan kombinasi linier dari peubah asli dan tersusun berdasarkan
infromasi kandungnya yang disebut sebagai vector eigen atau nilai komponen
utama (Abdi, William 2010)
Data matriks kovarian S dihitung dengan menggunakan persamaan :
1
= +
S
n
Xi
X
(X)T
�=1
�� − �
: matrik kovarian
: unit sampel
: jumlah vektor
: rata-rata vektor
: transpose dari x
�� − �
(2)
6
Setelah ditemukan nilai matriks kovarian, ditentukan nilai eigen. Nilai
eigen diurutkan dari teerbesar sampai terkecil. Dalam penelitian ini digunakan
nilai kontribusi 80%, 85%, dan 90%.
K-Fold Cross Validation
K-fold Cross Validation adalah metode pembagian sebuah kelompok data
yang akan dibagi ke dalam data latih dan data uji . Pembuatan partisi dilakukan
dengan cara melakukan pengolahan data sebanyak k kali dengan menggunakan k1 data latih dan sisanya data uji. Akurasi didapat dari rata-rata seluruh k
percobaan (Zhang dan Wu 2011). Pada penelitian ini akan digunakan 5 fold.
Dengan data uji berjumlah 600 data dan data latih berjumlah 2400 data.
K-Nearest Neighbor
K-Nearest Neighbor (K-NN) adalah suatu metode yang menggunakan
algoritme supervised
yang mana hasil dari query instance yang baru
klasifikasikan berdasarkan mayoritas dari kategori pada k-NN. Tujuan dari
algoritme ini adalah menglasifikasi objek baru berdasarkan atribut dan training
sample. Pada penelitian nilai k yang digunakan adalah bilangan ganji dari 3
hingga 21. Digunakan bilangan ganjil sebagai k untuk memperkecil kemungkinan
terjadinya dua kelas atau lebih yang mempunyai jumlah nilai k sama. Jika terjadi
dua kelas atau lebih memiliki jumlah nilai k yang sama maka kelas yang dipilih
merupakan kelas yang memiliki nilai jarak euclidian yang terdekat.
Jarak dengan data tetangga dihitungan dengan jarak euclidian dengan
persamaan sebagai berikut :
( , )=
d : jarak data uji ke data pembelajaran
xi : data uji ke-i
yi : data pembelajaran ke-i
n : banyak data
�=1( �
−
2
�)
(3)
Evaluasi
Penelitian diuji dengan menghitung akurasi, sensitivitas dan spesifisitas.
Perhitungan akurasi sensitivitas dan spesifisitas dilakukan dengan menggunakan
matriks konfusi. Persamaan dan Tabel 2 di bawah ini digunakan untuk
menghitung akurasi, sensitivitas dan spesifisitas (Akobeng 2007). Matriks yang
akan dibuat sejumlah kelas yang ada yaitu 6 buah.
Tabel 2 Matriks konfusi
Kelas aktual
A(tes positif)
¬ A(tes negatif)
Kelas prediksi
A (class positif)
¬ A (class negatif)
TP
FP
FN
TN
7
TP TN
Akurasi = TP TN FP FN x 100%
TP
Sensitivitas = TP FN x 100%
TN
Spesifisitas = TN FP x 100%
Ruang Lingkup Pengembangan
Penelitian ini diimplementasikan menggunakan spesifikasi perangkat keras
dan lunak sebagai berikut:
Perangkat Keras :
•
•
•
•
Spesifikasi perangkat keras yang digunakan adalah:
Intel Core i5 CPU @ 1.6 GHz., ~2,3GHz.
Harddisk 500 GB.
Memori 2 GB.
Perangkat Lunak :
•
•
•
•
Sistem operasi Windows 7.
XAMPP
Matlab
PHP
HASIL DAN PEMBAHASAN
Pengumpulan data
Data yang digunakan adalah data fasta enzim yang didapat dari situs
www.rcsb.org. pada penelitian ini terdapat 6 kelas Hydrolase, Isomerase, Lyase,
Lyase, Oxydoreductase dan Transferase. Masing-masing kelas diambil 500 data,
sehingga total data yang akan digunakan adalah 3000. Karena memungkinkan
untuk satu enzim bisa masuk lebih dari satu kelas. Maka data yang diambil yang
hanya termasuk dalam satu dari enam kelas yang ada.
Ekstraksi Ciri
Pada proses ekstraksi ciri telah ditentukan 470 fitur dari 479 fitur yang
berasal dari penelitian yang dilakukan oleh Rao et al.(2009). 20 fitur distribusi
asam amino, 400 fitur distribusi asam amino dua gram, 6 fitur distribusi grup
pertukaran, 36 fitur distribusi grup pertukaran dua gram, 1 fitur panjang sekuen, 5
fitur komposisi atomik, 1 fitur isoelectric point dan 1 fitur berat molekular. Tiaptiap dari fitur tersebut akan dijelaskan lebih lanjut di bawah ini.
8
Distribusi Asam Amino
Pada protein ada 20 jenis rantai samping. Distribusi asam amino merupakan
banyaknya kemunculan dari 20 jenis rantai samping yang ada pada suatu protein.
Nama para asam amino penyusun protein bisa dilihat pada Tabel 3.
Tabel 3 Asam amino penyusun protein
Bahasa Inggris
Singkatan
Bahasa Indonesia
3-huruf
1-huruf
Alanine
Alanin
Ala
A
Arginine
Arginin
Arg
R
Asparagine
Asparagin
Asn
N
Aspartic acid
Asam aspartat
Asp
D
Cystine
Sistein
Cys
C
Glutamine
Glutamin
Gln
Q
Glutamic acid
Asam glutamat
Glu
E
Glycine
Glisin
Gly
G
Histidine
Histidin
His
H
Isoleucine
Isoleusin
Ile
I
Leucine
Leusin
Leu
L
Lysine
Lisin
Lys
K
Methionine
Metionin
Met
M
Phenilalanine
Fenilalanin
Phe
F
Proline
Prolin
Pro
P
Serine
Serin
Ser
S
Threonine
Treonin
Thr
T
Tryptophan
Triptofan
Trp
W
Tyrosine
Tirosin
Tyr
Y
Valine
Valin
Val
V
Distibusi Asam Amino Dua Gram
Pada distribusi asam amino dua gram, tiap jenis asam amino akan
dipasangkan dengan sebuah asam amino sehingga menjadi dua sekuen. Sehingga
jumlah fitur berjumlah 20 x 20 atau 400 fitur (Rao et al. 2009) yang ditunjukan
pada Tabel 4.
Tabel 4 Distribusi asam amino dua gram
A
R
N
D
…
P
S
T
W
Y
V
A
AA
AR
AN
AD
…
AP
AS
AT
AW
AY
AV
R
RA
RR
RN
RD
…
RP
RS
RT
RW
RY
RV
N
NA
NR
NN
ND
…
NP
NS
NT
NW
NY
NV
…
…
…
…
…
…
…
…
…
…
…
…
V
VA
VR
VN
VD
…
VP
VS
VT
VW
VY
VV
9
Distribusi Grup Pertukaran
Distribusi pertukaran grup. Dari 20 jenis asam amino tersebut,
dikelompokan menjadi enam grup. Yang ditentukan berdasarkan kemiripan tinggi
dalam proses evolusinya. (Rao et al.2009). enam grup itu adalah :
o e1 = {H,R,K}
o e2 = {D,E,N,Q}
o e3 ={C}
o e4 = {A,G,P,S,T}
o e5 = {I,L,M,V}
o e6 = {F,Y,W}.
Distribusi Grup Pertukaran Dua Gram
Distribusi pertukaran grup dua gram, didapat dengan mengkombinasikan 6
buah grup tersebut dalam 2 sekuen. Sehingga jumlah fitur pada distribusi grup
pertukaran adalah 36 (Rao et al. 2009).
Tabel 5 Distribusi grup pertukaran dua gram
e1
e2
e3
e4
e5
e6
e1
e1e1
e2e1
e3e1
e4e1
e5e1
e6e1
e2
e1e2
e2e2
e3e2
e4e2
e5e2
e6e2
e3
e1e3
e2e3
e3e3
e4e3
e5e3
e6e3
e4
e1e4
e2e4
e3e4
e4e4
e5e4
e6e4
e5
e1e5
e2e5
e3e5
e4e5
e5e5
e6e5
e6
e1e6
e2e6
e3e6
e4e6
e5e6
e6e6
Panjang Sekuen
Panjang sekuen yang dimaksud ialah panjangnya rantai suatu molekul
protein. Rantai molekul protein dibentuk oleh beberapa asam amino. Panjang
sekuen adalah jumlah banyaknya asam amino yang membentuk protein. Panjang
sekuen nilainya satu fitur.
Isoelectric Point (pI)
Isoelectric point adalah pH yang mana molekul tidak membawa muatan
listrik atau bermuatan nol. Jumlah fitur hanya satu fitur yaitu nilai yang
dikeluarkan berupa pH yang besarnya antara nol dan satu. Contoh hasil isoelectric
point pada data fasta 3WKL pada Gambar 2.
Gambar 2 Isoelectric point 3WKL
10
Komposisi Atomik
Komposisi atomic merupakan komposisi atom dari molekul protein. Protein
terbentuk oleh asam amino. Pada asam amino hanya terdapat 5 macam atom yaitu,
atom karbon(C), atom hidrogen(H), atom nitrogen(N), atom oksigen(O), dan atom
sulfur(S). fitur yang berada pada komposisi atomik berjumlah 5 (Mathews et al.
2013).
Tabel 6 Komposisi atomik asam amino
no
Residu
Formula Molekular
AtomC
atomH
atomN
atomO
atomS
1
Alanine
C3H7NO2
3
7
1
2
0
2
Arginine
C6H14N4O2
6
14
4
2
0
3
Asparagine
C4H8N2O3
4
8
2
3
0
4
aspartic acid
C4H7NO4
4
7
1
4
0
5
Cysteine
C3H7NO2S
3
7
1
2
1
6
Glutamine
C5H10N2O3
5
10
2
3
0
7
glutamic acid
C5H9NO4
5
9
1
4
0
8
Glycine
C2H5NO2
2
5
1
2
0
9
Histidine
C6H9N3O2
6
9
3
2
0
10
Isoleucine
C6H13NO2
6
13
1
2
0
11
Leucine
C6H13NO2
6
13
1
2
0
12
Lysine
C6H14N2O2
6
14
2
2
0
13
Methionine
C5H11NO2S
5
11
1
2
1
14
Phenylalanine
C9H11NO2
9
11
1
2
0
15
Proline
C5H9NO2
5
9
1
2
0
16
Serine
C3H7NO3
3
7
1
3
0
17
Threonine
C4H9NO3
4
9
1
3
0
18
Tryptophan
C11H12N2O2
11
12
2
2
0
19
Tyrosine
C9H11NO3
9
11
1
3
0
20
Valine
C5H11NO2
5
11
1
2
0
Berat Molekular
Berat molekular merupakan berat dari suatu molekul. Berat suatu molekul
dapat dihitung dengan menjumlahkan massa setiap atom berdasarkan rumus
molekulnya. Berat molekular hanya satu fitur dan memiliki satuan dalton. Contoh
hasil berat molekul pada data fasta 3WKL pada Gambar 3.
11
Gambar 3 Berat molekul 3WKL
Normalisasi
Pada tahap normalisasi akan dilakukan normalisasi min-max. normalisasi
bertujuan untuk membuat nilai fitur antara nol dan satu (Shalabi 2006). Hal ini
dilakukan untuk menyeimbangkan nilai fitur. Misal nilai fitur pada panjang
sekuen bisa mencapai angka ribuan dan nilai fitur isoelectric point adalah pH
yaitu hanya berkisar 0 sampai 14. Hal ini dapat menyebabkan nilai fitur isoelectric
point tidak berarti jika dibandingkan panjang sekuen jika dilakukan klasifikasi
dengan metode K-Nearest Neighbor.
Principal Components Analysis (PCA)
Semua data yang selesai diekstraksi membentuk matriks 3000 x 470. 3000
untuk jumlah data dan 470 untuk jumlah fitur. Dilakukan PCA 80% PCA 85%
dan PCA 90% untuk mengurangi nilai fitur. Nilai kontribusi yang digunakan
untuk tiap PCA adalah yang paling mendekati dengan nilainya seperti yang
ditunjukan pada Tabel 7.
Tabel 7 Hasil reduksi PCA
PCA
Nilai Kontribusi
Jumlah Ciri
80%
80.17
136
85%
85.00
166
90%
90.09
207
K-Fold Cross Validation
K-fold Cross Validation adalah metode pembagian sebuah kelompok data
yang akan dibagi ke dalam data latih dan data uji . Pembuatan partisi dilakukan
dengan cara melakukan pengolahan data sebanyak k kali dengan menggunakan k1 data latih dan sisanya data uji. Akurasi didapat dari rata-rata seluruh k
percobaan (Zhang dan Wu 2011). Pada penelitian ini akan digunakan k=5.
Dengan data uji berjumlah 600 data dan data latih berjumlah 2400 data.
12
Hasil Klasifikasi KNN
Pada tahap Klasifikasi menggunakan metode KNN data yang digunakan
dalam klasifikasi adalah :
data ekstraksi ciri awal (sebelum di PCA).
data ekstraksi ciri PCA 80%.
data PCA 85%.
data PCA 90%.
Tiap set data tersebut dilakukan klasifikasi dengan menggunakan metode
KNN dengan k=bilangan ganjil dari 3 sampai 21.hasil percobaan klasifikasi KNN
bisa dilihat pada Tabel 8.
Tabel 8 Hasil sensitivitas rata-rata
KNN
Hasil Sensitivitas Rata-rata Pada Kelima Fold
K=3
K=5
K=7
K=9
K=11
K=13
K=15
K=17
K=19
K=21
AWAL
0.75
0.68
0.64
0.60
0.56
0.54
0.52
0.50
0.49
0.48
PCA80
0.76
0.72
0.69
0.68
0.67
0.64
0.64
0.63
0.61
0.61
PCA85
0.77
0.71
0.70
0.67
0.65
0.64
0.62
0.62
0.60
0.59
PCA90
0.77
0.73
0.70
0.67
0.66
0.64
0.62
0.61
0.60
0.58
Pada Tabel 8 nilai sensitivitas semakin turun dengan nilai k yang semakin
besar. Belum diketahui pasti apa sebabnya. Tapi 470 fitur yang digunakan ada
beberapa fitur yang kurang signifikan atau berulang. Misalnya, fitur distribusi
asam amino sistein (C) bernilai sama dengan distribusi grup pertukaran e3.
Karena e3 hanya memiliki satu anggota yaitu sistein (C) saja. Begitu juga dengan
distribusi asam amino dua gram C dengan C (CC) dibandingkan dengan distribusi
grup pertukaran dua gram e3e3 yang hanya memiliki anggota (CC). nilai
sensitivitasnya rata-rata terbesar terdapat KNN PCA85 k=3 dan KNN PCA90 k=3.
Nilai sensitivitas terbesar masing-masing pada KNN PCA85 k=3 dan KNN
PCA90 k=3 akan dibahas lebih lanjut.
Analisis Hasil
Pada Tabel 8 nilai sensitivitasnya rata-rata terbesar terdapat KNN PCA85
k=3 dan KNN PCA90 k=3. Untuk KNN PCA85 k=3 nilai tertinggi nya terdapat
pada K-fold 1. Tabel 9 merupakan matriks konfusi untuk kelas Hydrolase pada
klasifikasi KNN PCA85 k=3 K-fold 1. Pada kelas Hydrolase nilai sensitivitasnya
0.74.
Tabel 9 Matriks konfusi kelas hydrolase KNN PCA85 k=3 k-fold 1
Kelas aktual
Kelas prediksi
A
¬A
A
74
26
¬A
18
482
13
Tabel 10 merupakan untuk kelas Isomerase pada klasifikasi KNN PCA85
k=3 K-fold 1. Pada kelas Isomerase nilai sensitivitasnya 0.77.
Tabel 10 Matriks konfusi kelas isomerase KNN PCA85 k=3 k-fold 1
Kelas aktual
Kelas prediksi
A
¬A
A
77
23
¬A
27
473
Tabel 11 merupakan untuk kelas Ligase pada klasifikasi KNN PCA85 k=3
K-fold 1. Pada kelas Ligase nilai sensitivitasnya 0.86.
Tabel 11 Matriks konfusi kelas ligase KNN PCA85 k=3 k-fold 1
Kelas aktual
Kelas prediksi
A
¬A
A
86
14
¬A
24
476
Tabel 12 merupakan untuk kelas Lyase pada klasifikasi KNN PCA85 k=3
K-fold 1. Pada kelas Lyase nilai sensitivitasnya 0.85.
Tabel 12 Matriks konfusi kelas lyase KNN PCA85 k=3 k-fold 1
Kelas aktual
Kelas prediksi
A
¬A
A
85
15
¬A
26
474
Tabel 13 merupakan untuk kelas Oxydoreductase pada klasifikasi KNN
PCA85 k=3 K-fold 1. Pada kelas Lyase nilai sensitivitasnya 0.79.
Tabel 13 Matriks konfusi kelas oxydoreductase KNN PCA85 k=3 k-fold 1
Kelas aktual
Kelas prediksi
A
¬A
A
79
21
¬A
14
486
Tabel 14 merupakan untuk kelas Transferase pada klasifikasi KNN PCA85
k=3 K-fold 1. Pada kelas Transferase nilai sensitivitasnya 0.72.
14
Tabel 14 Matriks konfusi kelas transferase KNN PCA85 k=3 k-fold 1
Kelas prediksi
Kelas aktual
A
¬A
A
72
28
¬A
18
482
Nilai akurasi, sensitivitas dan spesifisitas pada klasifikasi KNN PCA85 k=3
K-fold satu bisa dilihat pada Tabel 15.
Tabel 15 Nilai akurasi, sensitivitas dan spesifisitas KNN PCA85 k=3 k-Fold 1
Hydrolase
Isomerase
Ligase
Lyase
Oxydoreductase
Transferase
rataan
Akurasi
0.93
0.92
0.94
0.93
0.94
0.92
0.93
Sensitivitas
0.74
0.77
0.86
0.85
0.79
0.72
0.79
Spesifisitas
0.96
0.95
0.95
0.95
0.97
0.96
0.96
Tabel 16 merupakan matriks konfusi untuk kelas Hydrolase pada klasifikasi
KNN PCA90 k=3 K-fold 2. Pada kelas Hydrolase nilai sensitivitasnya 0.75.
Tabel 16 Matriks konfusi kelas hydrolase KNN PCA90 k=3 k-fold 2
Kelas aktual
Kelas prediksi
A
¬A
A
75
25
¬A
20
480
.
Tabel 17 merupakan matriks konfusi untuk kelas Isomerase pada klasifikasi
KNN PCA90 k=3 K-fold 2. Pada kelas Isomerase nilai sensitivitasnya 0.86.
Tabel 17 Matriks konfusi kelas isomerase KNN PCA90 k=3 k-fold 2
Kelas aktual
Kelas prediksi
A
¬A
A
86
14
¬A
23
477
Tabel 18 merupakan matriks konfusi untuk kelas Ligase pada klasifikasi
KNN PCA90 k=3 K-fold 2. Pada kelas Ligase nilai sensitivitasnya 0.83.
Tabel 18 Matriks konfusi kelas ligase KNN PCA90 k=3 k-fold 2
Kelas aktual
Kelas prediksi
A
¬A
A
83
17
¬A
23
477
15
Tabel 19 merupakan matriks konfusi untuk kelas Lyase pada klasifikasi
KNN PCA90 k=3 K-fold 2. Pada kelas Lyase nilai sensitivitasnya 0.81.
Tabel 19 Matriks konfusi kelas lyase KNN PCA90 k=3 k-fold 2
Kelas prediksi
Kelas aktual
A
¬A
A
81
19
¬A
32
468
Tabel 20 merupakan matriks konfusi untuk kelas Oxydoreductase pada
klasifikasi KNN PCA90 k=3 K-fold 2. Pada kelas Oxydoreductase nilai
sensitivitasnya 0.82.
Tabel 20 Matriks konfusi kelas oxydoreductase KNN PCA90 k=3 k-fold 2
Kelas prediksi
Kelas aktual
A
¬A
A
82
18
¬A
11
489
Tabel 21 merupakan matriks konfusi untuk kelas Transferase pada
klasifikasi KNN PCA90 k=3 K-fold 2. Pada kelas Transferase nilai
sensitivitasnya 0.66.
Tabel 21 Matriks konfusi kelas transferase KNN PCA90 k=3 k-fold 2
Kelas prediksi
Kelas aktual
A
¬A
A
66
34
¬A
18
482
Nilai akurasi, sensitivitas dan spesifisitas pada klasifikasi KNN PCA85 k=3
K-fold satu bisa dilihat pada Tabel 15.
Tabel 22 Nilai akurasi, sensitivitas dan spesifisitas KNN PCA90 k=3 k-Fold 2
Hydrolase
Isomerase
Ligase
Lyase
Oxydoreduktase
Transferase
akurasi
0.93
0.94
0.93
0.92
0.95
0.91
sensitivity
0.75
0.86
0.83
0.81
0.82
0.66
specificity
0.96
0.95
0.95
0.94
0.98
0.96
16
Dari kedua hasil klasifikasi KNN yang memiliki sensitivitas terbesar. Kelas
transferase memiliki nilai sensitivitas yang terkecil dibandingkan dengan lima
kelas lainnya. Hal ini belum diketahui penyebabnya.
SIMPULAN DAN SARAN
Simpulan
Penelitian ini berhasil penerapan K-NN dan PCA dengan penggunaan 470
fitur Rao et al. (2009) dalam mengklasifikasikan enzim. Penggunaan PCA 85%
dan 90% menghasilkan klasifikasi KNN pada enzim dengan nilai sensitivitas ratarata tertinggi 0.79 pada nilai k=3.
Saran
Beberapa saran untuk penelitian selanjutnya yaitu:
1 Mengoptimasikan fitur, dengan menambah atau mengurangi fitur
2 Menggunakan classifier yang lain untuk mengetahui apakah classifier lain
meningkatkan nilai akurasi, sensitivitas dan spesifitas.
DAFTAR PUSTAKA
Abdi H, Williams LJ. 2010. Principal component analysis. Wiley Interdisciplinary
Reviews: Computational Statistics 2. 2: 433–459.
Akobeng AK. 2007. Understanding Diagnostic Tests 1: Sensitivitas, Spesifisitas,
and Predicting Values. Foundation Acta Paediatrica 2006, pp.338-341.
Marks DB, Marks AD, Smith CM. 1996. Biokimia Kedokteran Dasar: Sebuah
Pendekatan Klinis. Pendit BU, penerjemah; Suyono J, Sadikin V, Mandera
LI, editor. Jakarta (ID): Penerbit EGC. Terjemahan dari: Basic Medical
Biochemistry: A Clinical Approach.
Mathews CK, Van Holde KE, Appling DR, Anthony-Cahill SJ et al. 2013.
Biochemistry. ED ke-4. Toronto(US). Pearson.
Rao PN, Devi TU, Kladhar D, Sridhar G, RAO AP. 2009. A Probabilistic Neural
Network Approach for Protein Superfamily Classification. Journal of
Theoretical and Applied Information Technologi.
Sari MI. 2007. Struktur Protein. Fakultas Kedokteran, Universitas Sumatra Utara.
Shalabi LA, Shaaban Zyad, Kasasbeh B. 2006. Data Mining: A Preprocessing
Engine. Journal of Computer of Science. 2(9):735-739, 2006.
Shmueli G, Patel NR, Bruce PC. 2005. Data Mining in Excel: Lecture Notes and
Cases. Arlington (US): Resampling Stats, inc.
Simangunsong, VFR. 2015. Klasifikasi fragmen metagenon menggunakan
Principal Component Analysis dan K-Nearest Neighbor [skripsi].
Bogor(ID):Institut Pertanian Bogor.
Zhang Y, Wu L. 2011. Crop classification by Forward Neural Network with
adaptive chaotic Particle Swarm Optimization. Sensors. 11: 4721-4743. doi:
10.3390/s11050472.
17
Lampiran 1 Data kelas hydrolase
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
1
2
3WKL
3WKM:A
41
42
4IAS:A
4IAT
81
82
4MYN:A
4N2X:A
121
122
4INK:A
4INL:A
161
162
1I1E:A
1IPI:A
3
4
5
6
7
8
9
10
3ZFK : A
4BOW
4BPZ:A
4BQ1
4BTT:A
4BTU:A
4CBN:A
4CBO:A
43
44
45
46
47
48
49
50
4IAV
4ICK:A
4ICZ:A
4IKR:A
4IKS:A
4IKT:A
AIKU:A
4LK2:A
83
84
85
86
87
88
89
90
3J4G
3VYG:A
4C1S:A
4CDG:A
4HV2:A
4HXV:A
4I8S:A
4KG9:A
123
124
125
126
127
128
129
130
4JLF:A
4N8S:A
4NC5:A
3WIO:A
4BFN:A
4BFO:A
4BZB:A
4NZC:A
163
164
165
166
167
168
169
170
1JAK:A
1K1I:A
1K1J:A
1K1L:A
1K1M:A
1K1N:A
1K1O:A
1K1P:A
11
12
13
4I3E:A
4IDY
4IEC:A
51
52
53
4LZB:A
3W9U:A
3WJ8:A
91
92
93
4KLN:A
4KO8:A
4M1U
131
132
133
4ICQ:A
4ICR:A
4ICS:A
171
172
173
1K46
1KCF
3ZFZ:A
14
15
16
17
4IF7
4IIA:A
4LQY
4LR2:A
54
55
56
57
4C2C:A
4C2E:A
4C2F:A
4C2H
94
95
96
97
4MZ7:A
4NKL:A
2YOC:A
3ZPS:A
134
135
136
137
4IF6:A
4K90:A
4KXQ:A
4MB7:A
174
175
176
177
3ZG0:A
3ZG5:A
4BXJ:A
4C0J:A
18
19
20
21
22
23
24
25
4MBB:A
4N7M:A
3W2X:A
3W2Y:A
4BBJ:A
4C2N:A
4C2O:A
4C2P:A
58
59
60
61
62
63
64
65
4N9P:A
4NAQ:A
4NED:A
4NMW:A
4NMZ:A
4NP5:A
4BS5:A
4BSQ:A
98
99
100
101
102
103
104
105
3ZPT:A
3ZPU:A
4BTE:A
4IG9:A
4KH4:A
4KH5:A
4KH6:A
4KOD:A
138
139
140
141
142
143
144
145
4MKI:A
4N5U:A
4N6P:A
4N8Z:A
4N9T:A
2M5C:A
3VWL:A
3VWM:A
178
179
180
181
182
183
184
185
4C0K:A
4C0L:A
4C7L:A
4C8X:A
4HE0:A
4HE1:A
4HE2:A
4JHO:A
26
27
28
29
30
31
32
4C2Q:A
4C2R:A
4CA5:A
4CA6:A
4CA7:A
4CA8:A
4CBT:A
66
67
68
69
70
71
72
4C78:A
4HV1:A
4I3Y:A
4I35:A
4I40:A
4IIS:A
4K7M:A
106
107
108
109
110
111
112
4L6T:A
4LE6:A
4LGM:A
4M1M:A
4M9Q:A
4MZA:A
4MZE:A
146
147
148
149
150
151
152
3VWN:A
3VWP:A
3VWQ:A
3VWR:A
4BBX:A
4C7W:A
4KJD:A
186
187
188
189
190
191
192
4JIE:A
4LXI:A
4LYE:A
4M9R:A
3WB4:A
3WB5:A
3WC6:A
33
34
35
36
37
38
39
40
4CBY:A
4NAB:A
4NBI:A
4NBJ:A
1KXX
4CCC:A
4CCD:A
4CCE:A
73
74
75
76
77
78
79
80
4KPN:A
4KPO:A
4KWB:A
4L63:A
4MXR:A
4MYF:A
4MYK:A
4MYL:A
113
114
115
116
117
118
119
120
4NDX:A
3WC3
4BS7:A
4BZW:A
4BZZ:A
4C01:A
4HRZ:A
4HSF:A
153
154
155
156
157
158
159
160
4KJG:A
4MDT:A
4ME5:A
4MH8:A
4MXI:A
1EB6:A
1GM9:A
1H80:A
193
194
195
196
197
198
199
200
3WH4:A
4H34:A
4HZG:A
4IL1:A
4K3A:A
4K35:A
4KER:A
4KES:A
18
Lanjutan
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
201
4KET:A
241
4KE6:A
281
4GWS:A
321
1L9X
361
3B7U:X
202
203
204
205
206
207
208
209
4KEU:A
4KEV:A
4KEZ:A
4KF1:A
4KXH:A
4LFP:A
4LFX:A
4LGK:A
242
243
244
245
246
247
248
249
4KE7:A
4KE8:A
4KE9:A
4KEA:A
4L7J:A
4LXG:A
4LXH:A
4LYD:A
282
283
284
285
286
287
288
289
4GWU:A
4GWX:A
4GWZ:A
4GX3:A
4GX4:A
4GX6:A
4JCN:A
4JH0:A
322
323
324
325
326
327
328
329
1QO7:A
1R61:A
1RQN:A
1SQM:A
1SWV
1SWW:A
1UFO:A
1WYB:A
362
363
364
365
366
367
368
369
3B9G:A
3BPT:A
3C68:A
3CHO:A
3CHP:A
3CHQ:A
3CHR:A
3CHS:A
210
211
212
213
214
215
216
3VXK:A
3ZHH:A
4C2L:A
4GDX:A
4GG2:A
4HI1:A
4HI2:A
250
251
252
253
254
255
256
4M6G:A
4M6H:A
4M6I:A
4MJ2:A
4MJ4:A
3VX1:A
3W95:A
290
291
292
293
294
295
296
4L15:A
4L16:A
4LKO:A
3W81:A
3W82:A
4HTZ:A
4LWX:A
330
331
332
333
334
335
336
1XSQ:A
1Y7U:A
1YQC:A
2AHF:A
2BDR:A
2CJP:A
2D8L:A
370
371
372
373
374
375
376
3CNG:A
3CXU:A
3CZE:A
3CZG:A
3CZK:A
3CZL:A
3D6J:A
217
218
219
220
221
222
223
224
4ITC:A
4JF5:A
4JF6:A
4K91:A
4LGX:A
4M56:A
4MIU:A
2MC3:A
257
258
259
260
261
262
263
264
3WBA:A
3WBE:A
4B7Z:A
4B80:A
4B81:A
4BMX:A
4BMY:A
4BMZ:A
297
298
299
300
301
302
303
304
4LY4:A
4M1J:A
4M5A:A
4MAK:A
4B4Z:A
4BIN:A
4BLO:A
4BLQ:A
337
338
339
340
341
342
343
344
2DUA:A
2E00:A
2E3J:A
2E11:A
2HJP:A
2HRW:A
2JRC:A
2O2G:A
377
378
379
380
381
382
383
384
3EPR:A
3EXQ:A
3F6A:A
3FCM:A
3FTS:A
3FTU:A
3FTV:A
3FTW:A
225
226
227
228
229
3WD0:A
4BRS:A
4BTV:A
4BVJ:A
4BVK:A
265
266
267
268
269
4BN0:A
4BTL:A
4C1B:A
4GIT:A
4GPG:A
305
306
307
308
309
4BOF:A
4FU4:A
4FVL:A
4G0D:A
4GBV:A
345
346
347
348
349
385
386
387
388
389
230
231
4BVL:A
4BWC:A
270
271
4GV8:A
4GWW:A
310
311
4GBW:A
4GN2:A
350
351
2R59:A
2RF8:A
2RG2:A
2RLC:A
2VJ8:A
2W8S:A
2WNX:A
390
391
3FTX:A
3FTY:A
3FU0:A
3FU3:A
3FU5:A
3FU6:A
3FUD:A
232
233
234
235
236
237
238
239
4BXK:A
4BYM:A
4H45:A
4H46:A
4HU8:A
4M8U:A
4MAZ:A
4MB1:A
272
273
274
275
276
277
278
279
4GWY:A
4H1O:A
4HQ0:A
4ME8:A
4B82:A
4B83:A
4B84:A
4B85:A
312
313
314
315
316
317
318
319
4GOA:A
4GY0:A
4GY1:A
4GYL:A
4GYN:A
4H1U:A
1CB5
1EI6
352
353
354
355
356
357
358
359
2WPG:A
2XPY:A
2XPZ:A
2XQ0:A
2ZJF:A
2ZYL:A
2ZYC:A
3AXG:A
392
393
394
395
396
397
398
399
3FUE:A
3FUF:A
3FUH:A
3FUI:A
3FUJ:A
3FUK:A
3FUM:A
3FUN:A
240
3VX0:A
280
4GWF:A
320
1GW6
360
3B7R:L
400
3G01:A
19
Lanjutan
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
401
402
403
3GO2:A
3HB7:A
421
422
423
3LP5:A
3MKK:A
441
442
443
3SZY:A
3SZZ:A
461
462
463
4FNO:A
4FOL:A
481
482
483
4JY7:A
4L7Q:A
404
405
406
407
408
409
410
3HBC:A
3HXK:A
3I1Y:A
3I7U:A
3I7V:A
3I28:A
3IB3:A
3IPW:A
411
412
413
414
415
416
417
3IWU:A
3IWV:A
3K3S:A
418
419
420
424
425
426
427
428
429
430
3MML:A
3MPO:A
3N1U:A
3NEA:A
3OFV:A
3OM8:A
3OOS:A
3P2J:A
3P8K:A
3Q1E:A
3QJ8:A
3K3T:A
3KJZ:A
3KK0:A
3KOO:A
431
432
433
434
435
436
437
3KRV:A
3KSR:A
3KXP:A
438
439
440
444
445
446
447
448
449
450
3T00:A
3T02:A
3TCK:A
3TD2:A
3TD6:A
3U53:A
3V77:A
3VWO:A
3W0K:A
3WIW:A
3WUX:A
3QSJ:A
3R0V:A
3R03:A
3RCM:A
451
452
453
454
455
456
457
3S6J:A
3SQL:A
3SQM:A
458
459
460
464
465
466
467
468
469
470
4FOP:A
4FOT:A
4FYJ:A
4GB7:A
4GYR:A
4GYS:A
4HOY:A
4HPE:A
4IEN:A
4IJX:A
4IKO:A
4BAT:A
4BAU:A
4BAZ:A
4BB0:A
471
472
473
474
475
476
477
4CE7:A
4CP8:A
4EZE:A
478
479
480
484
485
486
487
488
489
490
4L8F:A
4L8W:B
4L8Y:A
4L9X:A
4L95:C
4LH8:A
4LWQ:A
4MAQ:A
4MKT:A
4MS6:A
4NFW:A
4INZ:A
4IOO:A
4IST:A
4JC4:A
491
492
493
494
495
496
497
4JKJ:A
4JWK:A
4JX9:A
498
499
500
4P92:A
4P93:A
4PVA:A
4NFX:A
4NZZ:A
4OLJ:A
4P7B:A
20
Lampiran 2 Data kelas isomerase
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
1
2
2M1I:A
2M2A
41
42
4JFJ:A
4JFK:A
81
82
4DYJ:A
4DZA:A
121
122
4GDD:A
4GJJ:A
161
162
3VM6:A
4DOI:A
3
4
5
6
7
8
9
10
4C20:A
4C21:A
4C22:A
4HP5:A
4IPZ:A
4LFL:A
4LFM:A
4LFN:A
43
44
45
46
47
48
49
50
4JFL:A
4JFM:A
4LAV:A
4LAW:A
4LAX:A
4LAY:A
4LXF:A
4MI2:A
83
84
85
86
87
88
89
90
4E1Q:A
4EF0:A
4EJ0:A
4FPI:A
4FS9:A
4HHL:A
4HHM:A
4I6X:A
123
124
125
126
127
128
129
130
4HJH:A
4HWG:A
2LJ4:A
3RGR:A
3VGN:A
4AU1:A
4DVO:A
4ETG:A
163
164
165
166
167
168
169
170
4DOK:A
4DRM:A
4DRN:A
4DRO:A
4DRP:A
4DRQ:A
4DX3:A
4EM6:A
11
12
13
14
15
16
17
4MGV:A
4ML1:A
4ML6:A
4MLY:A
4N7T:A
4NML:A
4NU7:A
51
52
53
54
55
56
57
4BF8:A
4G3N:A
4GUM:A
4GXZ:A
4K1U:A
4K1V:A
4L7K:A
91
92
93
94
95
96
97
4IJZ:A
4IK0:A
4IMN:A
4JCP:A
4KAE:A
3UXI:A
4AL0:A
131
132
133
134
135
136
137
4EUI:A
4EVG:A
4GDE:A
4GMK:A
4H6A:A
4H6B:A
4H6C:A
171
172
173
174
175
176
177
4EM8:A
4EMB:A
4EO9:A
2YIM:A
3RGA:A
3UVT:A
4DXK:A
18
19
20
21
22
23
24
25
4NVT:A
3VYL:A
4BAE:A
4BND:A
4HHP:A
4HNC:A
4HOW:A
4HOZ:A
58
59
60
61
62
63
64
65
4LR7:A
4LR8:A
4LR9:A
4LRA:A
4LRB:A
4LRC:A
4LRD:A
4LRE:A
98
99
100
101
102
103
104
105
4AL1:A
4B6C:A
4DDT:A
4GJI:A
4IO1:A
4IOT:A
3UI6:A
3UNL:A
138
139
140
141
142
143
144
145
4H69:A
4B1F:A
4B4K:A
4E3V:A
4G1K:A
4GIB:A
4GJ1:A
2YJG:A
178
179
180
181
182
183
184
185
4DZ2:A
4DZ3:A
4E77:A
3PA7:A
3RSM:A
3SXP:A
3TWZ:A
3TX0:A
26
27
28
29
30
4HPH:A
4JEQ:A
4LIX:A
4M8L:A
4MY4:A
66
67
68
69
70
4LRF:A
3VW5:A
4AXK:A
4BI5:A
4BI6:A
106
107
108
109
110
3USF:A
3UVA:A
3UWU:A
3UWV:A
3UWW:A
146
147
148
149
150
3QSR:A
3QST:A
3RFY:A
3SR7:A
3UHF:A
186
187
188
189
190
3UKA:A
3UKF:A
3UKH:A
3UKK:A
3UKL:A
31
32
4NZ6:A
3VWW:A
71
72
4BI7:A
4BJU:A
111
112
3UWY:A
3UWZ:A
151
152
3UHO:A
3UHP:A
191
192
3UKP:A
3UKQ:A
33
34
35
36
37
38
39
40
3ZKB:A
3ZKD:A
3ZM7:A
4BUL:A
4GNJ:A
4GWR:A
4IL8:A
4JFI:A
73
74
75
76
77
78
79
80
4EYV:A
4FAZ:A
4FDX:A
4JJ9:A
4K6A:A
4KDY:A
3VSY:A
4DDQ:A
113
114
115
116
117
118
119
120
4AAJ:A
4DBF:A
4DBH:A
4DH4:A
4FDV:A
4FRU:A
4FRV:A
4GDC:A
153
154
155
156
157
158
159
160
3UQI:A
3VKJ:A
3ZS4:A
4DRK:A
4DSG:A
4DSH:A
4DT4:A
4F2D:A
193
194
195
196
197
198
199
200
3UN2:A
3UN3:A
3UN5:A
3UNY:A
3UO0:A
3UTE:A
3UTF:A
3UTG:A
21
Lanjutan
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
201
202
3UTH:A
4A8N:A
241
242
3B04:A
3B05:A
281
282
3OSE:A
3O5F:A
321
322
2MC9:A
2ML1:A
361
362
3BZM:A
3BZN:A
203
204
205
206
207
208
209
210
4DIP:A
2Y61:A
2Y62:A
2Y63:A
3QVS:A
3QVT:A
3QVW:A
3QVX:A
243
244
245
246
247
248
249
250
3B06:A
3OE2:A
3OWS:A
3OWU:A
3OWY:A
3OX9:A
3OXA:A
3PH9:A
283
284
285
286
287
288
289
290
3O5G:A
3O5I:A
3O5J:A
3O5K:A
3O5L:A
3O5M:A
3O5O:A
3O5P:A
323
324
325
326
327
328
329
330
2ML2:A
2ML3:A
2ODO:A
2OP8:A
2ORM:A
2OTN:A
2PPN:A
2PYG:A
363
364
365
366
367
368
369
370
3C3J:A
3CIN:A
3CO8:A
3CT2:A
3CU2:A
3WH0:A
3WKF:A
3WKG:A
211
212
213
3QW2:A
3U2D:A
3U2K:A
251
252
253
3PSV:A
3PSW:A
3TLF:A
291
292
293
3O5Q:A
3O5R:A
3P12:A
331
332
333
2PYH:A
2RUC:a
2RUD:A
371
372
373
3WKH:A
3WKI:A
3WT1:A
214
215
216
217
3UU0:A
3UW1:A
3UW6:A
3UXK:A
254
255
256
257
3U3H:A
3U7J:A
3UCH:A
3UJH:A
294
295
296
297
3P13:A
3PYA:A
3PYB:A
3RMI:A
334
335
336
337
2V0T:A
2V2C:A
2V2D:A
2V2H:A
374
375
376
377
3WT2:A
3ZI4:A
3ZO8:A
3ZPO:A
218
219
220
221
222
223
224
225
3UXL:A
4A3Q:A
4DGD:A
2Y6Z:A
2Y70:A
3MHE:A
3MKI:A
3MYT:A
258
259
260
261
262
263
264
265
4A35:A
3NBU:A
3NVL:A
3NXJ:A
3O7T:A
3OOB:A
3PDK:A
3PF3:A
298
299
300
301
302
303
304
305
3RYK:A
3S5P:A
3S6M:A
2KZH:A
2Y85:A
2Y88:A
2Y89:A
3LNU:A
338
339
340
341
342
343
344
345
2VCQ:A
2VCW:A
2VCX:a
2VCZ:A
2VD0:A
2VD1:A
2VD8:A
2VD9:A
378
379
380
381
382
383
384
385
3ZPA:A
3ZP7:A
3ZPH:A
4BEQ:A
4BF5:A
4BHY:A
4BPM:A
4BZE:A
226
227
228
229
230
231
232
3NBR:A
3NHX:A
3NM2:A
3NUV:A
3T8N:A
3T8U:A
3TA6:A
266
267
268
269
270
271
272
3PH3:A
3Q37:A
3QYS:A
3QYU:A
3QZA:A
3S6D:A
3S46:A
306
307
308
309
310
311
312
3LPX:A
3M9Y:A
3OLP:A
3OVP:A
3OVQ:A
3OVR:A
3PH4:A
346
347
348
349
350
351
352
2VEI:A
2VEK:A
2VEL:A
2VEM:A
2VEN:A
2VN1:A
2VNP:A
386
387
388
389
390
391
392
4BZF:A
4BZG:A
4BZH:A
4C4R:A
4C4S:A
4C4T:A
4C9S:A
233
234
235
236
237
238
239
240
3TAO:A
3UI4:A
3UI5
4A8I:A
4A8L:A
4A8R:A
2RS4:A
3B03:A
273
274
275
276
277
278
279
280
3SDW:A
3SED:A
3SXW:A
3TH6:A
3TRJ:A
2Y78:A
3N4A:A
3O5D:A
313
314
315
316
317
318
319
320
3PVF:A
3PWA:A
3PY2:A
3QC3:A
3RMU:A
2JFY:A
2JGQ:A
2K18:A
353
354
355
356
357
358
359
360
2VNQ:A
2VOM:A
2VRE:A
2VVQ:A
2VVT:A
2ZAD:A
2ZBK:A
3BEO:A
393
394
395
396
397
398
399
400
4C9T:A
4CA9:A
4CDL:A
4CIJ:A
4CKK:A
4CKL:A
4IQ2:A
4IQC:A
22
Lanjutan
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
401
402
4JU5:A
4K9G:A
421
422
4NES:A
4NK6:A
441
442
4ORW:A
4ORX:A
461
462
4Q0U:A
4Q0V:A
481
482
4TW8:A
4TWR:A
403
404
405
406
407
408
409
410
4KQV:A
4LNC:A
4LQL:A
4LTA:A
4LUK:A
4LUL:A
4LUM:A
4LUS:A
423
424
425
426
427
428
429
430
4NK8:A
4NWY:A
4NZ7:A
4O4V:A
4O4W:A
4O8H:A
4O8I:A
4O9K:A
443
444
445
446
447
448
449
450
4ORY:A
4OS0:A
4OS3:A
4OS8:A
4OWG:A
4OZ6:A
4P8O:A
4P61:A
463
464
465
466
467
468
469
470
4Q60:A
4QDP:A
4QDW:A
4QE1:A
4QE4:A
4QE5:A
4QEE:A
4QEH:A
483
484
485
486
487
488
489
490
4TX0:A
4U1A:A
4U8I:A
4U8J:A
4U8K:A
4U8L:A
4U8M:A
4U8N:A
411
412
413
4LUY:A
4M6U:A
4MKN:A
431
432
433
4O50:A
4O52:A
4O53:A
451
452
453
4PFH:A
4PGL:A
4PPU:A
471
472
473
4QFH:A
4R1F:A
4R3E:A
491
492
493
4U8O:A
4U8P:A
4U18:A
414
415
416
417
4MO2:A
4MRQ:A
4MSP:A
4MVA:A
434
435
436
437
4O54:A
4O57:A
4ODI:A
4OJ7:A
454
455
456
457
4PPV:A
4PRV:A
4PRX:A
4PU9:A
474
475
476
477
4R3F:A
4TLO:A
4TVE:A
4TVU:A
494
495
496
497
4U19:A
4URL:A
4URM:A
4URN:A
418
419
420
4N02:A
4N19:A
4NEQ:A
438
439
440
4ORR:A
4ORS:A
4ORU:A
458
459
460
4Q0P:A
4Q0Q:A
4Q0S:A
478
479
480
4TW5:A
4TW6:A
4TW7:A
498
499
500
4URO:A
4UTT:A
4UTU:A
23
Lampiran 3 Data kelas ligase
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
1
4C8A:A
41
4K48:A
81
4HK4:A
121
3U55:A
161 4EPM:A
2
4C8C:A
42
4K87:A
82
4IOJ:A
122
3VOT:A
162 4EQ4:A
3
4C8F:A
43
4L39:A
83
4IOK:A
123
4ACF:A
163 4EQL:A
4
4C8P:A
44
4L87:A
84
4IOM:A
124
4GXQ:A
164 4EWV:A
5
4C8T:A
45
2MA6:A
85
4ISZ:A
125
4GXR:A
165 2LGV:A
6
4C8U:A
46
4BW9:A
86
2RSF:A
126
4GY5:A
166 3AW8:A
7
4C9A:A
47
4BWA:A
87
4BAX:A
127
4HV4:A
167 3RIR:A
8
4C84:A
48
4LNE:A
88
4EAT:A
128
3U16:A
168 3RKW:A
9
4C85:A
49
4M9D:A
89
4HJR:A
129
3U17:A
169 3RKX:A
10
4C86:A
50
3VU8:A
90
4HJX:A
130
4AYC:A
170 3RKY:A
11
4L78:A
51
3ZM5:A
91
4ISJ:A
131
4B0T:A
171 3RR5:A
12
4LGY:A
52
3ZM6:A
92
4IT0:A
132
4EBR:A
172 3SDB:A
13
4NKH:A
53
3ZNI:A
93
4JIM:A
133
4EG1:A
173 3SEQ:A
14
4P0B:A
54
4BUB:A
94
4JJK:A
134
4EG3:A
174 3SEZ:A
15
2M9Y:A
55
4BUC:A
95
4JJZ:A
135
4FU0:A
175 3SYT:A
16
4C9Z:A
56
4GB0:A
96
3VPB:A
136
4G84:A
176 3SZG:A
17
4CA1:A
57
4HFZ:A
97
3VPC:A
137
4G85:A
177 3VMM:A
18
4HA8:A
58
4HG7:A
98
3VPD:A
138
2LM3:A
178 3ZXR:A
19
4HPW:A
59
4I1F:A
99
4H2S
139
2LQ7:A
179 3ZXV:A
20
4HQ6:A
60
4I1H:A
100
4H2T:A
140
2RSD:A
180 4DBG:A
21
4K86:A
61
4L1M:A
101
4H2U:A
141
3B1L:A
181 4DG8:A
22
4LGC:A
62
4L6W:A
102
4H2V:A
142
3VGJ:A
182 4DQ2:A
23
4LJO:A
63
2LXN:A
103
4H2W:A
143
4AP4:A
183 4EG0:A
24
4LJP:A
64
2M48:A
104
4H2X:A
144
4ASI:A
184 4EGQ:A
25
4LJQ:A
65
4BE8:A
105
4H2Y:A
145
4DWQ:A
185 4EQ5:A
26
4LNF:A
66
4BM9:A
106
4II2:A
146
4DWR:A
186 3PT3:A
27
4LNI:A
67
4FE2:A
107
4II3:A
147
4EGJ:A
187 3R44:A
28
4LNK:A
68
4FGR:A
108
3VQV:A
148
4EO4:A
188 3T5A:A
29
4LNN:A
69
4J15:A
109
3VQW:A
149
4FUQ:A
189 3T5B:A
30
4LNO:A
70
4J75:A
110
3VQX:A
150
4FUT:A
190 3T5C:A
31
4MFD:A
71
4J76:A
111
3VQY:A
151
4G6Z:A
191 3UGQ"A
32
4MFE:A
72
4K7D:A
112
4AH6:A
152
4GRI:A
192 3UGT:A
33
4MVT:A
73
4K7U:A
113
4FH1:A
153
2LGY:A
193 3UH0:A
34
2LW7:A
74
4K7W:A
114
4HNT:A
154
3SGI:A
194 3VA7:A
35
2LXH:A
75
4K95:A
115
4HNU:A
155
3UGJ:A
195 3VBB:A
36
2LXP:A
76
4KBL:A
116
4HNV:A
156
3UJN:A
196 4DLP:A
37
3ZL8:A
77
4KC9:A
117
4HPP:A
157
3UMM:A
197 4E51:A
38
4B8E:A
78
4BJR:A
118
4IC2:A
158
3VNN:A
198 2Y1M:A
39
4C12:A
79
4H02:A
119
4IC3:A
159
4DQV:A
199 2Y1O:A
40
4C13:A
80
4H3S:A
120
3U54:A
160
4EPL:A
200 3UQ8:A
24
Lanjutan
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
No
PDB ID
201 3VIU:A
241 3RPG:A
281 1D5F:A
321
1FYF:A
361
1J21:A
202 3VK6:A
242 3SIQ:A
282 1DAD:A
322
1FYJ:A
362
1JAS:A
203 4A49:A
243 3SP1:A
283 1DAE:A
323
1FYZ:A
363
1JAT:A
204 4A91:A
244 3SZ3:A
284 1DAF:A
324
1G51:A
364
1JBB:A
205 2LDR:A
245 3TGD:A
285 1DAG:A
325
1GG4:A
365
1JBV:A
206 3PNV:A
246 3TQI:A
286 1DAH:A
326
1GGM:A
366
1JBW:A
207 3PNY:A
247 3TQO:A
287 1DAI:A
327
1GIM:A
367
1JDB:B
208 3QUS:A
248 3TQT:A
288 1DAK:A
328
1GIN:A
368
1JH3:A
209 3TEG:A
249 3TW7:A
289 1DAM:A
329
1GSA:A
369
1JII:A
210 3TEH:A
250 3TZE:A
290 1DGS:A
330
1GSO:A
370
1JIJ:A
211 3TL4:X
251 3TZL:A
291 1DJ2:A
331
1GTD:A
371
1JIK:A
212 3U9R:B
252 1A0I:A
292 1DJ3:A
332
1H3E:A
372
1JIL:A
213 3U9S:A
253 1ADI:A
293 1DV1:A
333
1H3F:A
373
1JJC:A
214 3U9T:A
254 1B04:A
294 1DV2:A
334
1H3N:A
374
1JKJ:A
215 3UOW:A
255 1B7Y:A
295 1E0D:A
335
1HOO:A
375
1JLL:A
216 3UY4:A
256 1B8A:A
296 1E1O:A
336
1HTO:A
376
1JUY:A
217 3V4Z:A
257 1B70:A
297 1E1T:A
337
1HTQ:A
377
1JZQ:A
218 3VGO:A
258 1B76:A
298 1E4E:A
338
1HXD:A
378
1JZS:A
219 3ZTG:A
259 1BBU:A
299 1E8C:A
339
1I2T:A
379
1K92:A
220 3ZVZ:B
260 1BBW:A 300 1E22:A
340
1I6K:A
380
1K97:A
221 2Y66:A
261 1BS1:A
301 1E24:A
341
1I6L:A
381
1KEE:A
222 2Y67:A
262 1BS2:A
302 1EE1:A
342
1I6M:A
382
1KH1:A
223 3PZC:A
263 1BY1:A
303 1EEH:A
34