Penerapan Synthetic Minority Oversampling Technique (SMOTE) terhadap Data Tidak Seimbang pada Pembuatan Model Komposisi Jamu

PENERAPAN SYNTHETIC MINORITY OVERSAMPLING
TECHNIQUE (SMOTE) TERHADAP DATA TIDAK SEIMBANG
PADA PEMBUATAN MODEL KOMPOSISI JAMU

ROSSI AZMATUL BARRO

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Penerapan Synthetic
Minority Oversampling Technique (SMOTE) terhadap Data Tidak Seimbang pada
Pembuatan Model Komposisi Jamu adalah benar karya saya dengan arahan dari
komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan
tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang
diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks
dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, September 2013
Rossi Azmatul Barro
NIM G14090075

ABSTRAK
ROSSI AZMATUL BARRO. Penerapan Synthetic Minority Oversampling
Technique (SMOTE) terhadap Data Tidak Seimbang pada Pembuatan Model
Komposisi Jamu. Dibimbing oleh ITASIA DINA SULVIANTI dan FARIT
MOCHAMAD AFENDI.
Seiring perkembangan zaman banyak orang menggunakan obat herbal
(jamu) untuk mengatasi masalah kesehatan. Jamu dibuat dari tanaman-tanaman
dengan komposisi tertentu untuk menghasilkan khasiat tertentu, sehingga
diperlukan model komposisi yang tepat untuk membuat jamu dengan khasiat
tertentu. Pada penelitian ini yang diteliti sebagai respon adalah jamu yang
berkhasiat dalam mengatasi gangguan suasana hati dan perilaku. Model dibangun
dengan menggunakan regresi logistik. Tingkat akurasi model dapat dilihat dari
Area Under Curve (AUC). Amatan pada masing-masing kategori peubah respon
yang tidak seimbang dapat menyebabkan nilai AUC rendah. Salah satu cara

mengatasi data tidak seimbang adalah dengan menggunakan Synthetic Minority
Oversampling Technique (SMOTE). Dari penelitian ini diperoleh nilai R2
Nagelkerke yang dihasilkan model dengan SMOTE lebih rendah 3.2% dibanding
dengan R2 Nagelkerke yang dihasilkan model tanpa SMOTE. Meskipun demikian,
model dengan SMOTE lebih akurat karena nilai AUC yang dihasilkan lebih tinggi
daripada model tanpa SMOTE. Model dengan SMOTE memiliki nilai AUC
sebesar 0.976 sedangkan model tanpa SMOTE memiliki nilai AUC sebesar 0.908.
Hasil tersebut menunjukkan bahwa SMOTE dapat menaikkan tingkat akurasi
model pada data tidak seimbang.
Kata kunci: data tidak seimbang, regresi logistik, SMOTE

ABSTRACT
ROSSI AZMATUL BARRO. Application of Synthetic Minority Oversampling
Technique (SMOTE) toward Imbalanced Data on Jamu Ingredient Model.
Supervised by ITASIA DINA SULVIANTI dan FARIT MOCHAMAD AFENDI.
As the times many people use herbal remedies (jamu) to address health
issues. Herbal medicines are made from plants with a specific composition to
produce certain properties, so a model is needed to be made in order to find the
right formula to make herbal medicine with certain properties. In this study, the
response being investigated is a potent herbal medicine in treating mood and

behavior disorder. In this analysis, the model is developed using logistic
regression. The accuracy of the model can be seen from the Area Under Curve
(AUC). Imbalanced data on the response variable can cause the value of AUC
become low. One of the ways to solve it is using Synthetic Minority
Oversampling Technique (SMOTE). From this analysis, Nagelkerke R2 values
generated by the model with SMOTE 3.2% lower than model without SMOTE.
Nonetheless, the model with SMOTE is more accurate than model without
SMOTE because has higher AUC value. The resulting AUC is equal to 0.976 for

the model with SMOTE and 0.908 for model without SMOTE. The results show
that SMOTE can increase the accuracy of the model for imbalanced data.
Keyword: imbalance data, logistic regression, SMOTE

PENERAPAN SYNTHETIC MINORITY OVERSAMPLING
TECHNIQUE (SMOTE) TERHADAP DATA TIDAK SEIMBANG
PADA PEMBUATAN MODEL KOMPOSISI JAMU

ROSSI AZMATUL BARRO

Skripsi

sebagai salah satu syarat untuk memperoleh gelar
Sarjana Statistika
pada
Departemen Statistika

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

Judul Skripsi : Penerapan Synthetic Minority Oversampling Technique (SMOTE)
terhadap Data Tidak Seimbang pada Pembuatan Model Komposisi
Jamu
Nama
: Rossi Azmatul Barro
NIM
: G14090075

Disetujui oleh


Dra Itasia Dina Sulvianti, MSi
Pembimbing I

Dr Farit Mochamad Afendi, MSi
Pembimbing II

Diketahui oleh

Dr Ir Hari Wijayanto, MSi
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji syukur kehadirat Allah SWT yang telah memberikan segala karuniaNya sehingga karya tulis yang berjudul “Penerapan Synthetic Minority
Oversampling Technique (SMOTE) terhadap Data Tidak Seimbang pada
Pembuatan Model Komposisi Jamu” dapat terselesaikan. Penulis menyadari
bahwa karya tulis ini tidak lepas dari bantuan dan dukungan pihak lain. Oleh
karena itu, penulis mengucapkan terima kasih kepada : Ibu Dra Itasia Dina

Sulvianti, MSi dan Bapak Dr Farit Mochamad Afendi, MSi selaku dosen
pembimbing yang telah menuntun penulis selama penulisan karya tulis ini, abi
dan umi serta saudara-saudara yang telah memberi doa dan dukungannya, para
dosen statistika yang turut memberi ilmu dan masukan, staf departemen yang turut
membantu dalam administrasi, teman-teman statistika dan kosan yang selalu setia
memberi dukungan selama penulisan karya tulis ini. Segala sesuatu memiliki
kekurangan, begitu pula dengan karya ini sehingga diharapkan masukan dan kritik
untuk perbaikan di masa yang akan datang.
Semoga karya ilmiah ini bermanfaat.
Bogor, September 2013
Rossi Azmatul Barro

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi


DAFTAR LAMPIRAN

vi

PENDAHULUAN

1

Latar Belakang

1

Tujuan

1

TINJAUAN PUSTAKA

2


SMOTE (Synthetic Minority Oversampling Technique)

2

Analisis Regresi Logistik

3

Evaluasi Model

4

METODOLOGI

4

Data

4


Metode

5

HASIL DAN PEMBAHASAN

5

Deskripsi Tanaman Komposisi Jamu dan Khasiatnya

5

Model Tanpa SMOTE

7

Model dengan SMOTE

8


Perbandingan Model

9

SIMPULAN

10

DAFTAR PUSTAKA

10

LAMPIRAN

11

RIWAYAT HIDUP

14


DAFTAR TABEL
1
2
3
4
5
6

Kesesuaian klasifikasi
Hasil signifikansi model tanpa SMOTE
Ketepatan klasifikasi model tanpa SMOTE
Hasil signifikansi model dengan SMOTE
Ketepatan klasifikasi model dengan SMOTE
Perbandingan model

4
7
8
9
9
10

DAFTAR GAMBAR
1 Persentase jamu berdasarkan banyaknya tanaman pada jamu yang

berkhasiat dalam mengatasi gangguan suasana hati dan perilaku
2 Banyaknya tanaman pada jamu yang berkhasiat dalam mengatasi
gangguan pencernaan

6
6

DAFTAR LAMPIRAN
1 Daftar peubah penjelas

11

PENDAHULUAN
Latar Belakang
Peningkatan aktivitas yang tidak diimbangi dengan asupan gizi yang cukup
akan menyebabkan tubuh lebih mudah terserang penyakit. Perkembangan zaman
juga membuat banyak orang mudah mengalami stres atau suasana hati yang tidak
baik. Untuk mengurangi risiko terserang penyakit maupun suasana hati yang tidak
baik, beberapa orang memilih untuk mengkonsumsi obat dan tidak sedikit yang
memilih jamu. Jamu dipilih karena dianggap alami dan tidak memiliki efek
samping yang berbahaya.
Badan Pengawas Obat dan Makanan (BPOM) menyatakan bahwa jamu
adalah obat tradisional Indonesia. Obat tradisional adalah bahan atau ramuan yang
berupa bahan tumbuhan, bahan hewan, bahan mineral, sediaan sarian (galenik)
atau campuran dari bahan tersebut, yang secara turun-temurun telah digunakan
untuk pengobatan berdasarkan pengalaman. Hal tersebut tercantum pada Pasal 1
Peraturan Kepala Badan POM No. HK.00.05.4.1384 Tahun 2005. Sebagian besar
jamu dibuat menggunakan berbagai macam tanaman dengan khasiat yang
bermacam-macam. Oleh karena itu, diperlukan model agar ditemukan formulasi
yang pas untuk membuat jamu dengan khasiat tertentu. Pada penelitian ini khasiat
yang diteliti sebagai respon model adalah adanya khasiat dalam mengatasi
gangguan suasana hati dan perilaku.
Penelitian ini menggunakan model yang dibangun dengan regresi logistik.
Metode tersebut cocok digunakan karena respon yang diamati berskala kategorik.
Salah satu hal yang perlu diperhatikan dalam evaluasi model adalah tingkat
akurasi sebuah model dalam memprediksi respon dengan benar. Kebaikan model
dipengaruhi salah satunya oleh adanya keseimbangan antara kelas mayor dengan
kelas minor. Kelas mayor adalah data yang ukuran kelasnya (jumlah amatan)
lebih besar dari kelas minor berdasarkan peubah respon. Jika data yang digunakan
untuk membuat model tidak seimbang maka akan meningkatkan salah klasifikasi
kelas minor. Oleh karena itu, salah satu alternatif untuk meningkatkan akurasi
model adalah melakukan Synthetic Minority Oversampling Technique (SMOTE)
pada praposes.
Tujuan
Penelitian ini bertujuan membandingkan model komposisi jamu yang berkhasiat
dalam mengatasi gangguan suasana hati dan perilaku yang dihasilkan
menggunakan regresi logistik melalui tahap SMOTE dengan model tanpa tahap
SMOTE.

2

TINJAUAN PUSTAKA
SMOTE (Synthetic Minority Oversampling Technique)
Ketidakseimbangan data terjadi jika jumlah objek suatu kelas data lebih
banyak dibandingkan dengan kelas lain. Kelas data yang objeknya lebih banyak
disebut kelas mayor sedangkan lainnya disebut kelas minor. Pengaruh
penggunaan data tidak seimbang untuk membuat model sangat besar pada hasil
model yang diperoleh. Pengolahan algoritma yang tidak menghiraukan
ketidakseimbangan data akan cenderung diliputi oleh kelas mayor dan
mengacuhkan kelas minor (Chawla et al 2004).
Chawla et al (2002) mengusulkan metode SMOTE sebagai salah satu solusi
dalam menangani data tidak seimbang yang berbeda dengan metode oversampling
sebelumnya yaitu menduplikat data secara acak. Metode SMOTE menambah
jumlah data kelas minor agar setara dengan kelas mayor dengan cara
membangkitkan data buatan. Data buatan atau sintesis tersebut dibuat berdasarkan
k-tetangga terdekat (k-nearest neighbor). Jumlah k-tetangga terdekat ditentukan
dengan mempertimbangkan kemudahan dalam melaksanakannya. Pembangkitan
data buatan yang berskala numerik berbeda dengan kategorik. Data numerik
diukur jarak kedekatannya dengan jarak Euclidean sedangkan data kategorik lebih
sederhana yaitu dengan nilai modus. Perhitungan jarak antar contoh kelas minor
yang peubahnya berskala kategorik dilakukan dengan rumus Value Difference
Metric (VDM) yaitu (Cost dan Salzberg 1993):
N
y∑
i

dengan
Δ , Y)
wx , wy
N
r
r
i yi

dengan
V1 ,V2)
C1i
C2i
i
C1
C2
N
K

i

yi

r

: jarak antara amatan X dengan Y
: bobot amatan (dapat diabaikan)
: banyaknya peubah penjelas
: bernilai 1 (jarak Manhattan) atau 2 (jarak Euclidean)
: jarak antar kategori, dengan rumus :
∑|

|

: jarak antara nilai V1 dan V2
: banyaknya V1 yang termasuk kelas i
: banyaknya V2 yang termasuk kelas i
: banyaknya kelas; i = 1,2,...,m
: banyaknya nilai 1 terjadi
: banyaknya nilai 2 terjadi
: banyaknya kategori
: konstanta (biasanya 1)

3
Prosedur pembangkitan data buatan untuk :
1. Data Numerik
a. Hitung perbedaan antar vektor utama dengan k-tetangga terdekatnya.
b. Kalikan perbedaan dengan angka yang diacak di antara 0 dan 1.
c. Tambahkan perbedaan tersebut ke dalam nilai utama pada vektor
utama asal sehingga diperoleh vektor utama baru.
2. Data Kategorik
a. Pilih mayoritas antara vektor utama yang dipertimbangkan dengan ktetangga terdekatnya untuk nilai nominal. Jika terjadi nilai sama maka
pilih secara acak.
b. Jadikan nilai tersebut data contoh kelas buatan baru.
Analisis Regresi Logistik
Analisis ini dapat mengetahui hubungan antar respon dengan satu atau lebih
peubah penjelas. Tujuan penggunaan regresi logistik sama halnya dengan teknik
membangun model dalam statistika (Hosmer dan Lemeshow 2000). Regresi
logistik dapat juga disebut model logit karena fungsi transformasinya
menggunakan logit. Untuk respon biner peubah Y dan peubah penjelas X, maka
π
P
|
- P(Y=0|X=x). Model regresi logistik adalah
π
yang setara dengan log odd, disebut logit, yaitu
logit[π ]
-

Hosmer dan Lemeshow (2000) menyatakan bahwa metode umum
pendugaan parameter regresi logistik adalah metode kemungkinan maksimum.
Untuk menerapkan metode ini, yang pertama harus dilakukan adalah membentuk
fungsi kemungkinan:
lβ ∏
Prinsip dari metode kemungkinan maksimum adalah dengan
memaksimumkan fungsi kemungkinan yang secara matematis lebih mudah
dengan memaksimumkan logaritma fungsi kemungkinan:
}
( - )
L β ln[l β ] ∑ {
untuk mendapatkan nilai dugaan koefisien regresi logistik ( ) dilakukan dengan
penurunan L β terhadap β dan disamakan dengan nol.
Kesesuaian model digunakan untuk mengetahui peubah penjelas yang
berpengaruh nyata terhadap respon. Pengujian parameter β secara bersama dengan
uji-G yaitu uji nisbah kemungkinan. Uji-G untuk pengujian parameter βj dengan
hipotesis :
H0 : β1 β2 ... βp = 0
H1 : minimal salah satu βi 0, dengan i=1, 2,...p
Statistik uji untuk uji G adalah :
G = -2ln
Jika H0 benar, statistik G akan berdistribusi 2 dengan derajat bebas p. Oleh
karena itu, jika H0 ditolak, maka selanjutnya dilakukan uji Wald untuk menguji
parameter β secara parsial. Hipotesis yang diujikan adalah :

4
H0 : βj = 0
H1 : βj 0, dengan j=1, 2,...p
Uji Wald dihitung dengan membandingkan pendugaan slope parameter
maksimum kemungkinan dengan dugaan standar erornya, sebagai berikut :
W=

̂

Evaluasi Model
Area Under Curve (AUC)
AUC adalah luas di bawah kurva yang dalam hal ini merupakan kurva
Receiver Operating Characteristic (ROC). Menurut Fawcett (2006) bahwa kurva
ROC menggambarkan performa pengklasifikasi secara dua dimensi. Kurva
tersebut adalah plot peluang salah negatif (1-spesifitas) dengan prediksi benar
positif (sensitifitas). Nilai sensitifitas dan spesifitas dapat dilihat pada Tabel 1.
Jika ingin membandingkan beberapan performa pengklasifikasi maka ROC dapat
diubah ke dalam bentuk skalar salah satunya menjadi AUC. AUC adalah suatu
bagian dari daerah satuan persegi yang nilainya antara 0 hingga 1. Nilai AUC
semakin mendekati satu maka akurasi model atau klasifikasi semakin tinggi. AUC
dapat dihubungkan dengan koefisien Gini dengan persamaan Gini + 1 = 2 x AUC.
Tabel 1 Kesesuaian klasifikasi
Aktual
0
1

Prediksi Model
0
1
Benar (-)
Salah (+)
Spesifisitas
Benar (+)
Salah (-)
Sensitivitas

R2 Nagelkerke
R2 Nagelkerke mengukur tingkat keragaman respon yang dapat dijelaskan
model dalam regresi logistik (Nagelkerke 1991). Rumus yang digunakan yaitu
R2=1-(

METODOLOGI
Data
Data yang digunakan dalam penelitian ini adalah data mengenai status
penggunaan tanaman pada komposisi jamu untuk khasiat tertentu. Data ini terdiri
dari 1002 jenis jamu di Indonesia yang terdaftar pada Badan Pengawas Obat dan
Makanan. Tiap jenis jamu terdiri dari 294 peubah penjelas berupa tanaman yang
terlampir pada Lampiran 1. Peubah respon yang digunakan adalah khasiat jamu

5
dengan kategori (1) jamu berkhasiat dalam mengatasi gangguan suasana hati dan
perilaku dan kategori (0) jamu berkhasiat dalam mengatasi gangguan pencernaan.
Seluruh peubah penjelas bersifat kategorik dengan dua kategori yaitu tanaman
komposisi jamu dan bukan tanaman komposisi jamu. Terdapat 22 jamu atau
sekitar 2.2% jamu yang memiliki khasiat dalam mengatasi gangguan suasana hati
dan perilaku sedangkan 980 jamu sisanya tidak memiliki khasiat tersebut.
Penelitian ini lebih memfokuskan pada model dalam memprediksi khasiat jamu
untuk mengatasi gangguan suasana hati dan perilaku.
Metode
Tahapan metode yang dilakukan adalah:
1. Melakukan deskripsi data untuk mengetahui gambaran umum data jamu
yang diperoleh melalui diagram lingkaran dan batang.
2. Membangun model dengan regresi logistik dengan mencari nilai dugaan
parameternya.
3. Melakukan pengujian parameter.
4. Mengevaluasi model dengan melihat nilai AUC dan R2 Nagelkerke.
5. Melakukan SMOTE pada tahap praproses data jamu, yaitu:
a. Menghitung jarak antar amatan pada kelas minor menggunakan
rumus VDM.
b. Menentukan nilai k yaitu 5 dan persentase oversampling sebesar
4200%.
c. Dipilih satu contoh dari kelas minor secara acak.
d. Menentukan amatan k tetangga terdekat dengan mengurut jarak
contoh terpilih dengan semua amatan pada kelas minor.
e. Data sintesis dibuat dengan menentukan nilai per peubah
penjelasnya. Nilai tersebut diperoleh dari mayoritas nilai pada k
tetangga terdekat. Jika semua peubah telah dibuat maka diperoleh
satu amatan baru.
f. Langkah c hingga e dilakukan berulang hingga banyaknya
oversampling yang diinginkan telah tercapai.
6. Membangun model dengan data yang telah melalui tahap SMOTE.
7. Menguji parameternya.
8. Mengevaluasi tingkat akurasi model.
9. Membandingkan hasil model yang dihasilkan tanpa SMOTE dan dengan
SMOTE dari AUC dan R2 Nagelkerke masing-masing model.

HASIL DAN PEMBAHASAN
Deskripsi Tanaman Komposisi Jamu dan Khasiatnya
Berdasarkan data, terdapat 22 jamu atau sebanyak 2% dari total jamu yang
berkhasiat untuk mengatasi gangguan suasana hati dan perilaku, sedangkan
sisanya 980 jamu berkhasiat selain mengatasi gangguan tersebut. Setiap jamu
memiliki komposisi tanaman yang berbeda baik dari segi jumlah maupun jenis.

6
Mayoritas jamu yang berkhasiat dalam mengatasi gangguan suasana hati
menggunakan lima tanaman yang berbeda, yaitu sebanyak 36% dari total 22 jamu.
Semua jumlah tanaman yang digunakan dalam membuat jamu berkhasiat
gangguan suasana hati dan perilaku disajikan lebih lengkap pada Gambar 1
sedangkan jamu yang berkhasiat dalam mengatasi gangguan pencernaan sebagian
besar menggunakan satu tanaman seperti yang terlihat pada Gambar 2.
1

2
5%

4

5

7

8

10

12

5%

4%

14%

4%

14%
18%

36%

Banyaknya jamu

Gambar 1 Persentase jamu berdasarkan banyaknya tanaman pada jamu yang
berkhasiat dalam mengatasi gangguan suasana hati dan perilaku

400
350
300
250
200
150
100
50
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 20 26

Banyaknya tanaman dalam komposisi jamu
Gambar 2 Banyaknya tanaman pada jamu yang berkhasiat dalam mengatasi
gangguan pencernaan
Tanaman yang paling banyak digunakan sebagai komposisi jamu adalah
Curcuma xanthorrhiza yaitu sebanyak 257 jamu atau sekitar 25% dari seluruh
jamu pada data. Tanaman lain yang juga banyak digunakan adalah Foeniculum
vulgare yang dijadikan salah satu komposisi oleh 152 jamu. Sebanyak 147 jamu
menggunakan Curcuma longa sebagai salah satu komponen penyusunnya.
Penyebab tanaman tersebut banyak digunakan dalam pembuatan jamu tidak
dibahas dalam penelitian ini.

7
Model Tanpa SMOTE
Regresi logistik dapat digunakan untuk membuat model menurut Hosmer
dan Lemeshow (2002). Metode tersebut diterapkan pada data jamu dengan respon
biner yaitu khasiat jamu untuk mengatasi gangguan pencernaan (0) dan untuk
mengatasi gangguan suasana hati dan perilaku (1). Data dibagi menjadi dua yaitu
data pemodelan sebesar 70% (701 amatan) dan data prediksi sebesar 30% (301
amatan). Dugaan parameter yang dihasilkan dengan memaksimumkan fungsi
kemungkinan diuji secara bersama menggunakan uji G. Hasil uji G menunjukkan
p-value bernilai 0.0 yang artinya ada parameter beta yang berpengaruh nyata
terhadap model.
Pengujian dilanjutkan dengan uji parsial menggunakan uji Wald yang
sebelumnya dilakukan pereduksian peubah menggunakan forward stepwise. Hasil
yang diperoleh dapat dilihat pada tabel yang menunjukkan tidak ada tanaman
yang berpengaruh nyata pada model. Hal tersebut terlihat pada p-value peubah
penjelas yang lebih dari taraf nyata yaitu 5%. Pada penelitian ini terjadi
ketidakkonsistenan antara uji bersama dan uji parsial. Uji bersama menunjukkan
bahwa terdapat peubah yang signifikan pada taraf nyata 5%. Akan tetapi, setelah
dilakukan uji parsial tidak ditemukan tanaman yang berpengaruh pada taraf nyata
5%. Hal ini disebabkan galat baku yang dihasilkan pada dugaan parameter sangat
tinggi yang dapat dilihat pada Tabel 2. Peubah yang tercantum pada Tabel 2
merupakan kode peubah penjelas tanaman sebagaimana yang terlampir pada
Lampiran 1 dan tidak menunjukkan apa pun kecuali untuk mempermudah
penyebutan peubah.
Tabel 2 Hasil signifikansi model tanpa SMOTE
Peubah
P0029
P0175
P0188
P0214
P0236
P0255
P0256
P0325
P0340
P0345
P0452

Koefisien
-67.591
-71.925
-31.712
32.591
67.109
-34.276
-67.144
-34.192
49.661
-33.300
-83.313

Galat baku
2951.993
40243.654
1753.011
2550.177
3717.102
1999.518
3621.970
1859.028
5692.464
3151.496
3530.229

p-value
0.982
0.999
0.986
0.990
0.986
0.986
0.985
0.985
0.993
0.992
0.981

Persentase ketepatan model dalam mengklasifikan khasiat jamu dengan
benar sebesar 99.9% pada data pemodelan dan 98.3% pada data prediksi dengan
batas peluang sebesar 0.5 yang ditunjukkan Tabel 3. Akan tetapi, pada data
prediksi terdapat ketidakseimbangan dalam memprediksi khasiat mengatasi
gangguan suasana hati dan perilaku dengan khasiat mengatasi gangguan
pencernaan dengan perbandingan 99.3% dan 57.1%. Ketidakseimbangan tersebut
menyebabkan prediksi model lebih mengarah pada khasiat dalam mengatasi
gangguan pencernaan sehingga perlu digunakan SMOTE. Kebaikan model yang
ditunjukkan oleh nilai R2 Nagelkerke pada model tanpa SMOTE adalah sebesar

8
98.3%. Ketepatan prediksi berimplikasi pada akurasi model yang ditunjukkan oleh
nilai AUC. Nilai AUC model tanpa SMOTE adalah 0.908.
Tabel 3 Ketepatan klasifikasi model tanpa SMOTE
Prediksi
Observasi
0
1
persentase keseluruhan

0
686
1

Data pemodelan
1
% ketepatan
0
100.0
14
93.3
99.9

0
292
3

Data prediksi
1 % ketepatan
2
99.3
4
57.1
98.3

Model dengan SMOTE
Persentase awal jumlah amatan pada kelas minor sebesar 2% ditambahkan
data buatan melalui tahap SMOTE sehingga persentasenya menjadi sekitar 50%
jumlah amatan. Hal tersebut diperoleh dari oversampling sebanyak 4200%
sehingga jumlah kelas minor menjadi 946 amatan. Jumlah amatan menjadi 1926
setelah melalui tahap SMOTE. Data tersebut kemudian dibagi menjadi data
pemodelan dan data prediksi. Data pemodelan yang digunakan merupakan data
asli dan data buatan hasil SMOTE sedangkan data prediksi pada model tanpa
SMOTE sama dengan data prediksi pada model dengan SMOTE.
Reduksi peubah penjelas dengan forward stepwise dilakukan sebelum
menduga parameter. Kemudian dugaan parameter dilakukan dengan
memaksimumkan fungsi kemungkinan. Pengujian dugaan parameter secara
simultan menggunakan uji G diperoleh p-value 0.0 yang artinya ada tanaman yang
berpengaruh nyata terhadap model. Setelah itu, dilakukan uji parsial (uji Wald)
yang menghasilkan peubah-peubah yang berpengaruh nyata terhadap model.
Terdapat 17 tanaman yang berpengaruh nyata pada model komposisi jamu yang
berkhasiat dalam mengatasi gangguan suasana hati dan perilaku karena memiliki
p-value kurang dari taraf nyata (0.05). Tanaman tersebut terdapat pada peubah
dalam Tabel 4. Peubah tersebut merupakan kode tanaman untuk mempermudah
penyebutan peubah dan daftar kode tersebut dapat dilihat pada Lampiran 1.
Kebaikan model yang ditunjukkan oleh nilai R2 Nagelkerke pada model
yang telah melaui tahap SMOTE adalah 95.1%. Prediksi jamu yang berkhasiat
dengan yang tidak berkhasiat dalam mengatasi gangguan suasana hati dan
perilaku disajikan dalam Tabel 5. Ketepatan prediksi berimplikasi pada akurasi
model yang ditunjukkan oleh nilai AUC. Nilai AUC model yang telah melalui
tahap SMOTE adalah 0.976.

9
Tabel 4 Hasil signifikansi model dengan SMOTE
Peubah
P0001
P0006
P0029
P0040
P0142
P0144
P0171
P0186
P0233
P0236
P0255
P0281
P0308
P0311
P0325
P0339
P0452

Koefisien
-2.289
-3.110
-5.361
-3.964
-2.463
-2.948
-2.595
-3.623
3.371
5.378
-5.046
4.497
-3.816
-3.896
-2.529
-2.023
-8.478

Galat baku
0.549
0.635
0.922
1.007
1.080
0.487
1.006
0.646
1.160
1.021
1.074
1.080
1.434
0.811
0.834
0.628
2.178

p-value
0.000
0.000
0.000
0.000
0.023
0.000
0.010
0.000
0.004
0.000
0.000
0.000
0.008
0.000
0.002
0.001
0.000

Tabel 5 Ketepatan klasifikasi model dengan SMOTE
Prediksi
Observasi
0
1
persentase keseluruhan

0
675
26

Data pemodelan
1
% ketepatan
11
98.4
913
97.2
97.7

0
285
1

Data prediksi
1 % ketepatan
9
96.9
6
85.7
96.7

Perbandingan Model
Kedua model yang telah diperoleh dibandingkan tingkat akurasinya dengan
nilai AUC atau luas di bawah kurva ROC dan kebaikan model dengan R2
Nagelkerke (Tabel 6). Nilai R2 Nagelkerke pada model SMOTE lebih rendah
3.2% dibandingkan pada model tanpa SMOTE. Meski demikian, nilai AUC pada
model dengan SMOTE lebih tinggi 0.68 dibandingkan dengan nilai AUC yang
dihasilkan model tanpa SMOTE. Hal tersebut menunjukkan model dengan
SMOTE lebih akurat dibandingkan dengan model tanpa SMOTE. Nilai AUC
disusun oleh spesifitas dan sensitifitas. Sensitifitas atau ketepatan model dalam
memprediksi jamu berkhasiat mengatasi gangguan suasana hati dan perilaku pada
model dengan SMOTE (85.7%) lebih tinggi dibandingkan dengan model tanpa
SMOTE (57.1%). Spesifitas atau ketepatan prediksi model dalam mengklasifikan
jamu yang berkhasiat untuk mengatasi gangguan pencernaan ada model dengan
SMOTE sedikit lebih rendah dibandingkan dengan spesifitas pada model tanpa
SMOTE. Besarnya spesifitas pada model dengan SMOTE adalah sebesar 96.9%
sedangkan pada model tanpa SMOTE adalah sebesar 99.3%.

10
Tabel 6 Perbandingan model

Kriteria
R2 Nagelkerke
Sensitifitas (true positive rate)
Spesifitas (true negative rate)
AUC

Tanpa SMOTE
98.3%
57.1%
99.3%
0.908

Model
Dengan SMOTE
95.1%
85.7%
96.9%
0.976

SIMPULAN
Ukuran kebaikan model ditunjukkan oleh nilai R2 Nagelkerke. Nilai R2
Nagelkerke yang dihasilkan model dengan SMOTE lebih rendah 3.2%
dibandingkan dengan R2 Nagelkerke yang dihasilkan model tanpa SMOTE.
Meskipun demikian, model dengan SMOTE lebih akurat karena nilai AUC yang
dihasilkan lebih tinggi daripada model tanpa SMOTE. Model dengan SMOTE
memiliki nilai AUC sebesar 0.976 sedangkan model tanpa SMOTE memiliki nilai
AUC sebesar 0.908. Hasil tersebut menunjukkan bahwa SMOTE dapat
menaikkan tingkat akurasi model pada data tidak seimbang.

DAFTAR PUSTAKA
Chawla VN, Bowyer KW, Hall LO, Kegelmeyer WP. 2002. SMOTE: Synthetic
Minority Over-Sampling Technique. Journal of Artificial Intelligence
Research [Internet]. [diunduh 2013 Mei 31]; 16:321-357. Tersedia pada:
http://arxiv.org/pdf/1106.1813.pdf.
Cost S, Salzberg S. 1993. A weighted Nearest Neighbor Algorithm for Learning
with Symbolic Features. Machine Learning [Internet]. [diunduh pada 2013
Juli 17] 10:57-58. Boston (US) : Kluwer Academic Publisher. Tersedia
pada :http://parati.dca.fee.unicamp.br/media/Attachments/courseIA368Q1S
2012/Monografia/cost_1993.pdf.
Fawcett Tom. 2006. An introduction to ROC analysis. Pattern Recognition Letter
[Internet]. [diunduh pada 2013 September 6] 27:861-874. Tersedia pada:
https://ccrma.stanford.edu/workshops/mir2009/references/ROCintro.pdf
Hosmer DW, Lemeshow S. 2000. Applied Logistic Regression Second Edition.
New Jersey (US): John Wiley dan Sons.
Nagelkerke Nico JD. 1992. Maximum Likelihood Estimation of Functional
relationship, Pays-Bas, Lesture Notes in Statistics.Volume 69, Springer
Verlag.

11
Lampiran 1 Daftar peubah penjelas
Kode peubah
P1
P2
P4
P5
P6
P9
P10
P11
P12
P14
P15
P18
P19
P21
P22
P24
P25
P26
P28
P29
P30
P33
P34
P35
P36
P37
P39
P40
P41
P42
P44
P45
P46
P47
P49
P50
P51
P53
P54
P55
P56
P57
P58
P60
P61
P62
P66
P68
P70
P71

Peubah (Nama latin tanaman)
Foeniculum vulgare
Clausena anisum-olens
Glycyrrhiza uralensis
Acacia sieberiana
Imperata cylindrica
Cichorium intybus
Vitis vinifera
Pterocarpus indica
Artemisia annua
Malus domestica
Persia americana
Clematis armandii
Cynara scolimus
Tamarindus indica
Angelica keiskei
Astragalus membranaceus
Amomum kravanh
Atractylodis Macrocephala
Pinella ternata
Zingiber purpureum
Hordeum vulgare
Allium cepae
Allium sativum
Sisyrinchium striatum
Spinacia oleracea
Amaranthus spinosus
Allium ursinum
Pluchea indica
Scurrula atropurpurea
Pachyrrhizus erosus
Strychnos ligustrina
Merremia mammosa
Vaccinium myrtillus
Beta Vulgaris
Ribes nigrum
Averrhoa bilimbi
Plantago ovata
Tinospora tuberculata
Brassica oleracea
Pandanus conoideus
Phaseolus vulgaris
Platycodon grandiflorus
Helianthus annuus
Oroxylum indicum
Piper retrofractum
Capsicum annum
Santalum album
Syzygium aromaticum
Physalis peruviana
Croton tiglium

Kode peubah
P237
P238
P240
P241
P242
P243
P244
P245
P246
P247
P248
P249
P251
P252
P253
P254
P255
P256
P257
P258
P259
P262
P265
P266
P267
P268
P269
P270
P273
P274
P275
P276
P278
P279
P280
P281
P282
P285
P287
P291
P292
P293
P294
P295
P296
P297
P299
P300
P302
P303

Peubah (Nama latin tanaman)
Phoenix dactylifera
Brucea javanica
Sechium edule
Piper nigrum
Piperis Albi
Ocimum sanctum
Alpinia galanga
Vetiveria zizanioides
Gentiana macrophylla
Lavandula angustifolia
Litchi chinensis
Ledebouriella divaricata
Zingiber amaricans
Zingiber zerumbet
Zingiber littoralis
Zingiber aromaticum
Languas galanga
Leucas lavandulifolia
Alpinia officinarum
Polygala glomerata
Aloe vera
Raphanus sativus
Boswellia carteri
Phaleria papuana
Swietenia mahagoni
Swietenia macrophylla
Galla lusitania
Quercus lusitanica
Mangifera indica
Garcinia mangostana
Nothopanax scutellarium
Massoia aromatica
Rosa chinensis
Jasminum sambac
Morinda citrifolia
Phyllanthus urinaria
Mentha piperita
Azadirachta indica
Terminalia chebula
Carum copticum
Artemisia cina
Morus australis
Aucklandiae lappae
Messua ferrea
Homalomena occulta
Ananas comosus
Pogostemon cablin
Panax pseudoginseng
Ophiopogon japonicus
Eclipta prostrata

12
Lanjutan Lampiran 1 Daftar peubah penjelas
Kode peubah
P73
P74
P76
P77
P78
P79
P82
P84
P89
P91
P92
P94
P95
P97
P98
P102
P105
P106
P107
P108
P109
P111
P114
P115
P119
P121
P124
P126
P128
P129
P131
P132
P134
P135
P136
P138
P139
P142
P143
P144
P146
P147
P148
P149
P150
P151
P155
P158
P159
P160
P161

Peubah (Nama latin tanaman)
Phyllanthus acidus
Bupleurum falcatum
Ziziphus jujuba
Chlorella vulgaris
Ligustici wallichi
Ligusticum chuanxiong
Cola nitida
Anemarrhena asphodeloides
Angelica dahurica
Gynura segetum
Desmodium triquetrum
Plectranthus amboinicus
Achillea santolina
Plantago major
Punica granatum
Acorus calamus
Eucommia ulmoides
Syzygium cumini
Echinacea purpurea
Saposhnikovia divaricata
Tanacetum parthenium
Dioscorea opposite
Uncaria rhynchophylla
Gaultheria punctata
Garcinia cambogia
Gastrodia elata
Ginkgo biloba
Panax ginseng
Angelica sinensis
Eleutherococcus senticosus
Coptis chinensis
Equisetum debile
Rubus rosaefolius
Gymnema sylvestre
Asarum sieboldii
Magnolia officinalis
Coleus scutellarioides
Zea mays
Coix lacryma-jobi
Zingiber officinale
Eugenia cumini
Psidium guajava
Syzygium jambos
Anacardium occidentale
Ganoderma lucidum
Schizonepeta tenuifolia
Guazuma ulmifolia
Citrus reticulata
Citrus amblycarpa
Citrus sinensis
Citrus aurantium

Kode peubah
P308
P309
P310
P311
P314
P316
P318
P319
P320
P321
P323
P325
P326
P328
P330
P331
P334
P337
P338
P339
P340
P341
P342
P345
P347
P348
P349
P354
P355
P359
P360
P361
P362
P363
P364
P365
P368
P369
P370
P371
P372
P374
P376
P377
P378
P379
P381
P382
P383
P384
P385

Peubah (Nama latin tanaman)
Oryza sativa
Sophora japonica
Selaginella doederlinii
Myristica fragrans
Pandanus amaryllifolius
Momordica charantia
Eurycoma longifolia
Euphorbia thymifolia
Euphorbia hirta
Prunus persica
Hydrocotyle asiatica
Carica papaya
Perilla frutescens
Areca catechu
Musa paradisiaca
Musa balbisianna
Mentha arvensis
Saussurea Lappa
Calvatia gigantea
Lepiniopsis ternatensis
Alstonia scholaris
Rauvolvia serpentina
Pimpinella pruatjan
Helicteres isora
Notopterygium incisum
Taraxacum officinale
Ceiba pentandra
Paeonia veitchii
Hibiscus sabdariffa
Lophatherum gracile
Laminaria japonica
Physalis minima
Hedyotis corymbosa
Abrus precatorius
Syzygium polyanthum
Vernonia cinerea
Salvia miltiorrhiza
Hemigraphis colorata
Andrographis paniculata
Moschosma polystachium
Sindora sumatrana
Symplocos odoratissima
Brassica juncea
Brassica nigrae
Nasturtium indicum
Schisandra chinensis
Ocimum polystachyon
Apium graveolens
Prunella vulgaris
Hydrocotyle sibthorpioides
Paederia foetida

13

Lanjutan Lampiran 1 Daftar peubah penjelas
Kode peubah
P164
P166
P168
P170
P171
P172
P173
P174
P175
P176
P179
P181
P182
P184
P186
P188
P189
P190
P191
P193
P195
P198
P199
P200
P201
P202
P203
P206
P208
P210
P211
P213
P214
P217
P221
P222
P224
P225
P226
P228
P229
P230
P233
P234
P235
P236

Peubah (Nama latin tanaman)
Cuminum cyminum
Nigella sativa
Terminalia bellirica
Simmondsia chinensis
Baeckea frutescens
Gardenia Jasminoides
Phaseolus radiatus
Ipomoea aquatica
Ipomoea reptana
Amomum compactum
Alpinia katsumadai
Usnea misaminensis
Aquilaria sinensis
Archangelisia flava
Cinnamomum burmani
Melaleuca leucadendra
Parameria laevigata
Caesalpinia sappan
Grewia salutaris
Psophocarpus tetragonolobus
Brugmansia candida
Parkia roxburghii
Soya max
Strobilanthes crispus
Typhonium flagelliforme
Cocos nucifera
Rheum tanguticum
Carthamus tinctorius
Leucaena glauca
Piper cubeba
Murraya paniculata
Canarium commune
Kaempferia galanga
Sterculia foetida
Coriandrum sativum
Lindera strychnifolia
Trigonella foenum-graecum
Brassica napus
Cola acuminata
Coffea arabica
Litsea cubeba
Chrysanthemum morifolium
Orthosiphon stamineus
Kaempferia angustifolia
Kaempferia rotunda
Curcuma longa

Kode peubah
P386
P389
P390
P394
P396
P398
P400
P403
P404
P405
P407
P410
P412
P413
P414
P417
P419
P420
P421
P424
P425
P426
P427
P428
P430
P431
P432
P434
P435
P436
P437
P438
P441
P443
P444
P447
P449
P451
P452
P453
P454
P455
P458
P459
P460
P464

Peubah (Nama latin tanaman)
Blumea balsamifera
Cassia angustifolia
Cymbopogon nardus
Rehmannia preparata
Polygonatum sibiricum
Woodfordia floribunda
Silybum marianum
Cinnamomum sintok
Piper betle
Annona muricata
Talinum paniculatum
Spirulina
Stephania tetrandra
Stevia rebaudiana
Fragaria vesca
Bixa orellana
Codonopsis pilosula
Catharanthus roseus
Elephantopus scaber
Theae sinensis
Matricaria chamomilla
Melaleuca alternifolia
Cyperus rotundus
Thymus vulgaris
Scaphium affinis
Sonchus arvensis
Curcuma heyneana
Curcuma aeruginosa
Kaempferia pandurata
Curcuma xanthorrhiza
Curcuma mangga
Curcuma zedoaria
Gynura pinnatifida
Solanum lycopersicum
Tetranthera brawas
Tribulus terrestris
Wolfiporia extensa
Manihot utilissima
Valeriana javanica
Hibiscus mutabilis
Hibiscus tiliaceus
Paeonia lactiflora
Ziziphus spina-christi
Daucus carota
Corydalis yanhusuo
Olea europaea

14

RIWAYAT HIDUP
Penulis lahir di Kabupaten Pasuruan pada tanggal 19 Mei 1991. Penulis juga
merupakan anak kedua dari pasangan Fanani Husein dan Masniari Simarmata
serta memiliki dua saudara.
Tahun 2009 penulis lulus dari SMA Darul Ulum 2 Jombang dan berhasil
masuk perguruan tinggi. Institut Pertanian Bogor menerimanya sebagai
mahasiswa melalui jalur beasiswa utusan daerah yang disponsori oleh Kementrian
Agama Republik Indonesia. Penulis diterima di jurusan Statistika Fakultas
Matematika dan IPA.
Selama menjalani masa studi di perguruan tinggi penulis juga mengikuti
beberapa organisasi yaitu Himpunan Profesi Gamma Sigma Beta, CSS MoRA,
dan IKALUM. Tahun 2013 penulis melakukan praktik lapang di PT Prudential
Life Assurance Jakarta.