UIN Syarif Hidayatullah Jakarta
4.3. Penghilangan Outlier
Gambar 4.5 Pensejajaran alignment beberapa data set terhadap asam Sinamat, dan  Pensejajaran alignment senyawa dengan kode S32, S33, dan S34
outlier terhadap asam sinamat
Gambar 4.6 Senyawa dengan kode S33, S32, dan S34 berturut-turut dari kiri kekanan
Dari  gambar  4.4  Dapat  dilihat  bahwa  senyawa  dengan  kode  S32, S33,  dan  S34  memiliki  konformasi  yang  berbeda  jauh  dari  asam  sinamat
sebagai senyawa penuntun. Selain itu juga terlihat bahwa senyawa dengan kode  S32,  S33,  dan  S34  memiliki  gugus  kromofor  yang  berbeda  dengan
asam  sinamat  hal  ini  menunjukan  bahwa  ketiga  senyawa  tersebut  dapat dikatakan  bukan  merupakan  turunan  dari  asam  sinamat  atau  outlier.
UIN Syarif Hidayatullah Jakarta
Karena  ketiga  senyawa  tersebut  merupakan  outlier  maka  dalam pembentukan  model  persamaan  HKSA  ketiga  senyawa  tersebut  tidak
digunakan.
4.4. Pembagian Data Set
Dari  seluruh  data  set  yang  didapatkan  sebanyak  31  senyawa dengan  aktivitas  berupa  IC50  data  set  dibagi  menjadi  2  bagian  yaitu:
training  set,  dan  test  set.  training  set  yang  digunakan  sebanyak  75  23 senyawa dan test set yang digunakan sebanyak 25 8 senyawa.
Tabel 4.5 data set berdasarkan aktivitas yang tinggi hingga rendah
Kode IC 50 µM
Log 1IC
50
S1 0.0231
1.637
S2 0.0432
1.364
S3 0.1071
0.9699
S4 0.2609
0.5834
S5 0.8639
0.0634
S6 2.2296
-0.3482
S7 2.4900
-0.3962
S8 2.82
-0.4502
S9 3.1068
-0.4923
S10 3.1700
-0.5010
S11 3.6701
-0.5646
S12 5.5142
-0.7414
S13 6.8502
-0.8357
S14 7.8901
-0.8970
S15 8.5301
-0.9309
S16 8.5501
-0.9319
S17 8.7
-0.9395
S18 8.8300
-0.9459
UIN Syarif Hidayatullah Jakarta
S19 9.6302
-0.9836
S20 11.7001
-1.0681
S21 12.9
-1.110
S22 13.1401
-1.1185
S23 14.300
-1.1553
S24 16.649
-1.2214
S25 38.517
-1.5856
S26 44.779
-1.6510
S27 72.995
-1.8632
S28 96.494
-1.9845
S29 125.477
-2.0985
S30 134.086
-2.1273
S31 329.733
-2.5181
Catatan:  warna  merah=aktivitas  tinggi,  warna  kuning=aktivitas  sedang,  dan hijau=aktivitas rendah
Pembagian  data  set  dilakukan  dengan  cara  mengurutkan  seluruh senyawa berdasarkan aktivitasnya dari yang terbesar hingga yang terkecil.
Setelah  diurutkan  berdasarkan  aktivitasnya  data  set  kemudian  dibagi menjadi  tiga  yaitu:  senyawa  dengan  aktvitas  tinggi,  sedang,  dan  rendah.
Senyawa  yang  digunakan  sebagai  test  set  diambil    2  senyawa  dari  yang memiliki  aktivitas  tinggi,  dan  masing-masing  3  senyawa  dari  yang
memiliki aktivitas sedang dan rendah. Pembagian  data  set  dilakukan  secara  random  karena  menurut
Martin  dkk  2012  model  persamaan  HKSA  dengan  pembagian  data  set secara  random  memiliki  kemampuan  memrediksi  yang  sama  dengan
pembagian data set yang dilakukan secara sistematis.
4.5. Model Persamaan Hubungan Kuantitatif Struktur Aktifitas HKSA