Kajian Koefisien Kemiripan Struktur Kimia Bahan Aktif Tanaman Obat Berbasiskan Data Biner.

KAJIAN KOEFISIEN KEMIRIPAN STRUKTUR KIMIA
BAHAN AKTIF TANAMAN OBAT BERBASISKAN
DATA BINER

RIZAL BAKRI

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa tesis berjudul “Kajian Koefisien
Kemiripan Struktur Kimia Bahan Aktif Tanaman Obat Berbasiskan Data Biner”
adalah benar karya saya dengan arahan dari komisi pembimbing dan belum
diajukan dalam bentuk apapun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.

Bogor, Oktober 2015
Rizal Bakri
NIM G151130291

RINGKASAN
RIZAL BAKRI. Kajian Koefisien Kemiripan Struktur Kimia Bahan Aktif Tanaman
Obat Berbasiskan Data Biner. Dibimbing oleh HARI WIJAYANTO dan FARIT
MOCHAMAD AFENDI.
Penelitian mengenai bioaktivitas atau analisis komponen senyawa aktif yang
terdapat dalam tanaman obat yang digunakan di jamu telah banyak dilakukan
bahkan telah terdokumentasi dengan baik dalam suatu pangkalan data
bioinformatika namun penjelasan detail mengenai mekanisme kerja secara
molekuler dan aktivitas farmakologi masih perlu dikembangkan (Sari 2014).
Dalam penelitian in silico, salah satu pendekatan yang umum dilakukan untuk
melihat mekanisme kerja suatu senyawa adalah mempertimbangkan aspek
kemiripan struktur kimia antar senyawa. Pengukuran kemiripan struktur kimia
suatu senyawa mengacu pada kesamaan unsur kimia, molekul atau substruktur
senyawa. Pada prinsipnya diasumsikan bahwa senyawa yang struktur kimianya

mirip memiliki sifat biologis yang mirip (Johnson & Maggiora 1990).
Dari sudut pandang statistika, pengukuran kemiripan struktur kimia ini pada
dasarnya adalah pengukuran kemiripan objek berbasis peubah biner seperti
penelitian yang dilakukan oleh Godden et al. (2000) yaitu struktur kimia suatu
senyawa direpresentasikan sebagai peubah biner untuk menghitung kemiripan antar
senyawa menggunakan koefisien Tanimoto. Struktur kimia yang direpresentasikan
sebagai data biner merupakan fitur sidik jari molekuler seperti ada tidaknya unsur
kimia, ikatan tunggal, cincin, dan sebagainya. Sidik jari molekuler merupakan fitur
yang terdiri atas kumpulan substruktur kimia suatu senyawa. Klekota dan Roth
(2008) telah mengumpulkan 4860 fitur sidik jari molekuler unik yang merupakan
substruktur berbagai senyawa melalui berbagai jenis teknik fragmentasi.
Koefisien Tanimoto merupakan ukuran yang paling sering digunakan dalam
pengukuran kemiripan struktur kimia antar senyawa. Namun koefisien Tanimoto
memiliki kelemahan seperti dalam penelitian Willet et al. (1986) yang
menunjukkan bahwa koefisien Tanimoto menghasilkan nilai bias untuk menghitung
perbedaan pada pasangan senyawa kecil. Di sisi lain, terdapat banyak koefisien
yang bisa digunakan selain koefisien tersebut. Choi et al. (2010) telah
mengumpulkan 76 koefisien kemiripan data biner yang digunakan lebih dari satu
abad yang lalu. Sementara, Consonni dan Todeschini (2012) mengajukan 3
koefisien kemiripan data biner baru dan membutuhkan penyelidikan untuk

memahami potensialnya. Dengan demikian, jumlah koefisien kemiripan data biner
yang digunakan dalam penelitian ini sebanyak 79 koefisien.
Koefisien-koefisien kemiripan data biner tersebut digerombolkan untuk
melihat kemiripan antar koefisien. Metode penggerombolan yang digunakan adalah
metode Ward dengan matriks jarak awal berkaitan dengan matriks korelasi.
Korelasi tinggi ditemukan pada beberapa koefisien kemiripan data biner yang
mengikutsertakan ݀ (negative matches). Menurut Sokal et al. (1963) ada tidaknya
݀ dalam koefisien kemiripan data biner merupakan isu yang berkelanjutan, namun
keberadaan ݀ bukan berarti selalu ada kemiripan antara dua objek karena hampir
tak hingga jumlah fitur yang memungkinkan tidak terdapat dalam dua objek
tersebut. Penelitian ini menunjukkan bahwa rata-rata persentase ݀ pada pasangan
senyawa sebesar 98,15%. Nilai ini sangat besar dibanding dengan rata-rata

persentase ܽ, ܾ, dan ܿ namun terlihat pada dendogram bahwa koefisien kemiripan
data biner yang memuat ݀ tidak bergerombol dalam suatu kelompok tertentu
sehingga berdasarkan penelitian ini menyatakan bahwa koefisien kemiripan data
biner yang memuat ݀ memiliki performa yang berbeda untuk menghitung
kemiripan pasangan suatu senyawa. Di sisi lain, dendogram menunjukkan terdapat
5 gerombol yang terbentuk berdasarkan nilai cut off yang dipilih yaitu 1. Jumlah
gerombol yang terbentuk ini memberikan keragaman yang rendah pada koefisien

kemiripan data biner dalam kelompok yang sama dan keragaman yang tinggi antar
kelompok yang berbeda. Hal ini disebabkan karena beberapa koefisien kemiripan
data biner dalam kelompok yang sama saling berkombinasi linear serta terdapat
pula beberapa koefisien kemiripan data biner yang dibentuk dari koefisien lainnya
setelah dimodifikasi secara aljabar sehingga tingkat korelasi antar koefisien dalam
kelompok yang sama tinggi.
Kurva ROC telah dibuat untuk masing-masing koefisien kemiripan data biner
untuk membandingkan performanya namun terdapat beberapa koefisien
ketidakmiripan data biner sehingga koefisien tersebut ditransformasi ke koefisien
kemiripan data biner. AUC dari masing-masing koefisien kemiripan data biner
dibuat dengan anggapan nilai aktual adalah kesesuaian kelompok pasangan
senyawa dan nilai prediksi adalah nilai yang dihasilkan masing-masing koefisien
kemiripan data biner. Analisis ROC menunjukkan bahwa terdapat beberapa
koefisien kemiripan data biner menghasilkan nilai AUC yang mirip. Koefisien
kemiripan data biner yang menghasilkan performa yang mirip ini merupakan
koefisien kemiripan data biner yang terdapat pada gerombol yang sama. Hal ini
disebabkan karena beberapa koefisien kemiripan data biner saling berkombinasi
linear dan dapat dibentuk dari koefisien kemiripan data biner lainnya. Koefisien
kemiripan data biner yang menghasilkan nilai AUC yang tinggi adalah koefisien
kemiripan data biner Forbes-2 sebesar 0.87606 sedangkan koefisien Tanimoto

menghasilkan nilai yaitu 0.79755 dan merupakan urutan ke-35. Di sisi lain, hasil
penggerombolan menunjukkan bahwa koefisien-koefisien yang segerombol dengan
koefisien Forbes-2 adalah koefisien Simpson, Var of Correlation, Yulew, Yuleq, DYuleq, dan Pearson&Heron-2, sehingga koefisien-koefisien kemiripan data biner
tersebut dapat dijadikan sebagai alternatif lain sebagai ukuran kemiripan struktur
kimia suatu senyawa.
Kata kunci : AUC, gerombol, jamu, koefisien kemiripan, sidik jari molekuler.

SUMMARY
RIZAL BAKRI. Similarity Coefficients Study of Chemical Structure of Active
Ingredients in Medicinal Plants Based on Binary Data. Supervised by HARI
WIJAYANTO and FARIT MOCHAMAD AFENDI.
Research about bioactivity or component analysis of active compounds
contained in the medicinal plants used in Jamu have been carried out and even welldocumented in a database of bioinformatics however detailed explanation of the
action mechanism of molecular and pharmacological activity needs is developed
(Sari 2014).
In silico study, one of the most common approaches to see the action
mechanism of a compound is considering the aspects of similarity among chemical
structures of the compounds. Measurement of similarity in chemical structures of a
compound refers to the similarity of chemical elements, molecules or substructures
of compound. In principle, it is assumed that the compound similar chemical

structures have the similar biological properties (Johnson & Maggiora 1990).
From a statistical point of view, the measurement of chemical structure
similarity is essentially a similarity measurement object such as a binary variable
based on research conducted by Godden et al. (2000) is the chemical structure of a
compound represented as binary variables to calculate the similarity among the
chemical structure using Tanimoto coefficient. The chemical structure represented
as binary data is a molecular fingerprint features such as either the presence or
absence of chemical elements, a single bond, a ring, and etc. Molecular fingerprint
is a feature that consists of a collection of chemical substructure of a compound.
Klekota and Roth (2008) have collected 4860 features a unique molecular
fingerprint which is the substructure of various compounds through various types
of fragmentation techniques.
Tanimoto coefficient is a measure that is most often used in measuring
similarity among chemical structure of the compounds. But Tanimoto coefficient
has a weakness such as Willet et al. (1986) in his research showed that Tanimoto
coefficient produces an intrinsic bias toward smaller compounds. On the other hand,
there are many other coefficients that can be used besides these coefficients. Choi
et al. (2010) have collected 76 similarity coefficients of binary data used more than
a century ago. While, Consonni and Todeschini (2012) proposed three new
similarity coefficients of binary data and requires investigation to understand its

potential. Thus, the number of similarity coefficients of binary data used in this
study were 79 coefficients.
The similarity coefficients of binary data clustered to see the similarity
between the coefficients. Cluster method used is the method of Ward with initial
distance matrix relating to the correlation matrix. The dendogram showed that high
correlation found in some similarity coefficients of binary data that included d
(negative matches). According to Sokal et al. (1963) the presence or absence of d
in similarity coefficients of binary data is an ongoing issue, but the presence of d
does not mean there is always a similarity between the two objects because almost

infinite number of features that allow not contained in the two objects. This study
shows that the average percentage of ݀ in the compound pair of 98.15%. This value
is very large compared with the average percentage of a, b, and c,
however dendogram shows that the similarity coefficients of binary data contains ݀
are not clustered in a specific group that is based on this study stated that the
existence of ݀ in binary coefficients have different performance for calculating the
similarity pair of compounds. On the other hand, the dendrogram showed there are
5 cluster formed by the selected cutoff value is 1. Number cluster formed gives of
low diversity in similarity coefficients of binary data in the same group and the high
diversity between different groups. This is caused by some of the similarity

coefficients of binary data in the same group each combination of linear and there
are also some similarity coefficients of binary data formed from other coefficient
after algebraically modified so that the degree of correlation between the coefficient
in the same group is high.
ROC curve was created for each of the similarity coefficients of binary data
for comparing the performance but there are some dissimilarities binary coefficients
so that the coefficients are transformed into similarity coefficients of binary data.
AUC of each similarity coefficients of binary data created assumed the actual value
is the suitability of pair groups of compounds and predictive value is the value that
is generated each binary coefficients. ROC analysis shows that the similarity
coefficients of binary data that produced a high AUC value is a coefficient Forbes2 with value 0.87606 whereas the Tanimoto coefficient generating value is 0.79755
and it a order of 35th in Table 5. On the other hand, clusters results showed that the
coefficients are groups with the Forbes-2 coefficient are the Var of Correlation
coefficient, Yulew coefficient, and Simpson coefficient, Yuleq coefficient, and
Pearson-Heron-2 coefficient so that the similarity coefficients of binary data can
be used as an alternative as a measure of similarity the chemical structure of a
compound.
Keywords : AUC, cluster, jamu, similarity coefficient, moleculer fingerprint.

© Hak Cipta Milik IPB, Tahun 2015

Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau
menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB

KAJIAN KOEFISIEN KEMIRIPAN STRUKTUR KIMIA
BAHAN AKTIF TANAMAN OBAT BERBASISKAN
DATA BINER

RIZAL BAKRI

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Sains
pada
Program Studi Statistika


SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015

Penguji Luar Komisi pada Ujian Tesis : Dr Ir I Made Sumertajaya, MSi

Judul Tesis
Nama
NIM

: Kajian Koefisien Kemiripan Struktur Kimia Bahan Aktif Tanaman
Obat Berbasiskan Data Biner
: Rizal Bakri
: G151130291

Disetujui oleh
Komisi Pembimbing

Dr Ir Hari Wijayanto, MSi

Ketua

Dr Farit Mochamad Afendi
Anggota

Diketahui oleh

Ketua Program Studi
Statistika

Dekan Sekolah Pascasarjana

Dr Ir Kusman Sadik, MSi

Dr Ir Dahrul Syah, MScAgr

Tanggal Ujian: 09 Oktober 2015

Tanggal Lulus:

PRAKATA
Puji dan syukur kehadirat Allah SWT yang telah melimpahkan rahmat dan
hidayah-Nya, sehingga penulis dapat menyelesaikan tesis yang berjudul “Kajian
Koefisien Kemiripan Struktur Kimia Bahan Aktif Tanaman Obat Berbasiskan Data
Biner”. Keberhasilan penulisan tesis ini tidak lepas dari bantuan, bimbingan, dan
petunjuk dari berbagai pihak.
Terima kasih penulis ucapkan kepada Bapak Dr Ir Hari Wijayanto, MSi dan
Bapak Dr Farit Mochamad Afendi selaku pembimbing atas kesediaan dan
kesabaran dalam membimbing dan membagi ilmunya kepada penulis dalam
penyusunan tesis ini. Terima kasih kepada Dr Ir I Made Sumertajaya, MSi selaku
penguji luar komisi pembimbing atas masukan yang diberikan. Ucapan terima kasih
juga penulis sampaikan sebesar-besarnya kepada seluruh Dosen Departemen
Statistika IPB yang telah mengasuh dan mendidik penulis selama di bangku kuliah
hingga berhasil menyelesaikan studi, serta seluruh staf Departemen Statistika IPB
atas bantuan, pelayanan, dan kerjasamanya selama ini.
Ucapan terima kasih yang tulus dan penghargaan yang tak terhingga juga
penulis ucapkan kepada kedua orangtua Bapak Bakri dan Ibu Siti Ratna yang telah
membesarkan, mendidik dan memberikan semangat penulis di setiap langkahnya
dengan penuh kasih sayang demi keberhasilan penulis selama menjalani proses
pendidikan serta seluruh keluargaku atas doa dan semangatnya.
Terakhir tak lupa penulis juga menyampaikan terima kasih kepada seluruh
mahasiswa Pascasarjana Departemen Statistika atas segala bantuan dan
kebersamaannya selama menuntut ilmu, serta teman-teman riset “Jamu” yang telah
banyak membantu dan semua pihak yang tidak dapat penulis sebutkan satu per satu.
Semoga tesis ini dapat bermanfaat bagi semua pihak yang membutuhkan.

Bogor, Oktober 2015
Rizal Bakri

DAFTAR ISI
DAFTAR TABEL
DAFTAR GAMBAR
DAFTAR LAMPIRAN
1

PENDAHULUAN
Latar Belakang
Tujuan Penelitian

1
1
2

2

TINJAUAN PUSTAKA
Sidik Jari Molekuler
Data Biner
Penggerombolan Korelasi Hirarki
Ukuran Koefisien kemiripan data biner
Pengukuran Performa Koefisien kemiripan data biner

3
3
3
4
5
5

3

METODE PENELITIAN
Data
Metode Analisis

8
8
8

4

HASIL DAN PEMBAHASAN
Identifikasi Data dan Koefisien kemiripan data biner
Penggerombolan Korelasi Hirarki Koefisien kemiripan data biner
Pemilihan Koefisien kemiripan data biner dengan ROC

10
10
10
12

5

SIMPULAN DAN SARAN
Simpulan
Saran

16
16
16

DAFTAR PUSTAKA

17

LAMPIRAN

18

RIWAYAT HIDUP

29

DAFTAR TABEL
1
2
3
4

Kontingensi data biner
Daftar 79 koefisien kemiripan data biner
Format hubungan SMILES dengan sidik jari molekuler
Pasangan senyawa, kesesuaian kelompok senyawa,
koefisien kemiripan data biner
5 Nilai AUC koefisien kemiripan data biner

4
6
8
9
13

DAFTAR GAMBAR
1 Pengkodean struktur kimia sebagai sidik jari molekuler
2 Dendogram penggerombolan hirarki koefisien kemiripan data biner
3 Kurva ROC koefisien kemiripan biner Forbes-2 dan Tanimoto

3
11
15

DAFTAR LAMPIRAN
1 Daftar Senyawa, SMILES, dan Tanaman
2 Kurva ROC koefisien kemiripan data biner yang menghasilkan
AUC tertinggi dan terendah
3 Koefisien kemiripan data biner yang sama
4 Koefisien kemiripan data biner yang menghasilkan nilai tidak valid
5 Koefisien kemiripan data biner yang saling berkombinasi linear
6 Koefisien kemiripan data biner yang dapat dibentuk dari
koefisien kemiripan data biner lainnya
7 Kode pemrograman kemiripan struktur kimia

18
20
21
22
23
25
27