Penghilangan Outlier Pembagian Data Set

UIN Syarif Hidayatullah Jakarta

4.3. Penghilangan Outlier

Gambar 4.5 Pensejajaran alignment beberapa data set terhadap asam Sinamat, dan Pensejajaran alignment senyawa dengan kode S32, S33, dan S34 outlier terhadap asam sinamat Gambar 4.6 Senyawa dengan kode S33, S32, dan S34 berturut-turut dari kiri kekanan Dari gambar 4.4 Dapat dilihat bahwa senyawa dengan kode S32, S33, dan S34 memiliki konformasi yang berbeda jauh dari asam sinamat sebagai senyawa penuntun. Selain itu juga terlihat bahwa senyawa dengan kode S32, S33, dan S34 memiliki gugus kromofor yang berbeda dengan asam sinamat hal ini menunjukan bahwa ketiga senyawa tersebut dapat dikatakan bukan merupakan turunan dari asam sinamat atau outlier. UIN Syarif Hidayatullah Jakarta Karena ketiga senyawa tersebut merupakan outlier maka dalam pembentukan model persamaan HKSA ketiga senyawa tersebut tidak digunakan.

4.4. Pembagian Data Set

Dari seluruh data set yang didapatkan sebanyak 31 senyawa dengan aktivitas berupa IC50 data set dibagi menjadi 2 bagian yaitu: training set, dan test set. training set yang digunakan sebanyak 75 23 senyawa dan test set yang digunakan sebanyak 25 8 senyawa. Tabel 4.5 data set berdasarkan aktivitas yang tinggi hingga rendah Kode IC 50 µM Log 1IC 50 S1 0.0231 1.637 S2 0.0432 1.364 S3 0.1071 0.9699 S4 0.2609 0.5834 S5 0.8639 0.0634 S6 2.2296 -0.3482 S7 2.4900 -0.3962 S8 2.82 -0.4502 S9 3.1068 -0.4923 S10 3.1700 -0.5010 S11 3.6701 -0.5646 S12 5.5142 -0.7414 S13 6.8502 -0.8357 S14 7.8901 -0.8970 S15 8.5301 -0.9309 S16 8.5501 -0.9319 S17 8.7 -0.9395 S18 8.8300 -0.9459 UIN Syarif Hidayatullah Jakarta S19 9.6302 -0.9836 S20 11.7001 -1.0681 S21 12.9 -1.110 S22 13.1401 -1.1185 S23 14.300 -1.1553 S24 16.649 -1.2214 S25 38.517 -1.5856 S26 44.779 -1.6510 S27 72.995 -1.8632 S28 96.494 -1.9845 S29 125.477 -2.0985 S30 134.086 -2.1273 S31 329.733 -2.5181 Catatan: warna merah=aktivitas tinggi, warna kuning=aktivitas sedang, dan hijau=aktivitas rendah Pembagian data set dilakukan dengan cara mengurutkan seluruh senyawa berdasarkan aktivitasnya dari yang terbesar hingga yang terkecil. Setelah diurutkan berdasarkan aktivitasnya data set kemudian dibagi menjadi tiga yaitu: senyawa dengan aktvitas tinggi, sedang, dan rendah. Senyawa yang digunakan sebagai test set diambil 2 senyawa dari yang memiliki aktivitas tinggi, dan masing-masing 3 senyawa dari yang memiliki aktivitas sedang dan rendah. Pembagian data set dilakukan secara random karena menurut Martin dkk 2012 model persamaan HKSA dengan pembagian data set secara random memiliki kemampuan memrediksi yang sama dengan pembagian data set yang dilakukan secara sistematis.

4.5. Model Persamaan Hubungan Kuantitatif Struktur Aktifitas HKSA