Study of Single and Ensemble Classifiers of Classification Tree and Support Vector Machine

i

KAJIAN PENGKLASIFIKASI TUNGGAL
DAN GABUNGAN DARI POHON KLASIFIKASI
DAN SUPPORT VECTOR MACHINE

IUT TRI UTAMI

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014

ii

PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI SERTA
PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis berjudul Kajian Pengklasifikasi
Tunggal dan Gabungan dari Pohon Klasifikasi dan Support Vector Machine adalah
benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam
bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal

atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain
telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Januari 2014

Iut Tri Utami
NRP G152110031 
 

ii

RINGKASAN
IUT TRI UTAMI. Kajian Pengklasifikasi Tunggal dan Gabungan dari Pohon
Klasifikasi dan Support Vector Machine. Dibimbing oleh KUSMAN SADIK dan
BAGUS SARTONO.
Pengklasifikasi adalah sebuah aturan yang digunakan untuk
mengelompokkan objek ke dalam kelompok atau kelas yang telah ditentukan
berdasarkan atributnya. Pendekatan metode klasifikasi ada dua yaitu parametrik

dan nonparametrik. Metode parametrik membutuhkan asumsi tertentu untuk
mendapatkan klasifikasi terbaik tetapi tidak semua asumsi dapat terpenuhi sehinga
menyulitkan para peneliti. Pelanggaran asumsi pada metode parametrik
mengakibatkan hasil yang kurang memuaskan. Berbagai metode nonparametrik
seperti support vector machine (SVM) dan pohon klasifikasi sebagai
pengklasifikasi tunggal telah dikembangkan untuk menyelesaikan masalah
pelanggaran asumsi pada metode parametrik.
Beberapa penelitian menunjukkan bahwa pengklasifikasi gabungan bisa
menjadi suatu metode yang efektif untuk meningkatkan akurasi pengklasifikasian
dan mengurangi keragaman dugaan pengklasifikasi tunggal (Valentini dan
Dietterich 2000). Pengklasifikasi gabungan adalah aturan penggabungan dugaan
beberapa pengklasifikasi tunggal menjadi satu dugaan akhir dengan suatu
algoritma yang disebut combiner. Salah satu teknik gabungan yang populer
digunakan adalah metode bagging (bootstrap agregating) yang diperkenalkan
oleh Breiman (1966). Metode ini merupakan suatu teknik yang paling sederhana
tetapi mempunyai performa yang sangat baik. Tujuan dalam penelitian ini adalah
mengkaji pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM
dengan melakukan simulasi pada berbagai struktur data. Selain itu,
membandingkan performa pengklasifikasi tunggal dan gabungan dari pohon
klasifikasi dan SVM berdasarkan salah klasifikasi pada tabel ketepatan klasifikasi.

Data yang akan digunakan pada penelitian ini adalah data simulasi dan data
terapan. Data simulasi digunakan untuk mengkaji dan membandingkan performa
pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM pada
beberapa struktur data yang berbeda dengan menggunakan tabel ketepatan
klasifikasi. Data simulasi terdiri dari data yang dibangkitkan dari dua kelas
berbeda dengan tiga skenario yaitu (1) anggota dari dua kelas berbeda yang
terpisahkan linier secara sempurna (linearly separable), (2) anggota dari dua kelas
berbeda yang terpisahkan linier secara tidak sempurna (linearly non separable)
dan (3) anggota dari dua kelas berbeda yang terpisahkan secara tidak linier
(nonlinearly separable). Pengklasifikasi tunggal dan gabungan dari pohon
klasifikasi dan SVM akan diterapkan pada data mahasiswa Pascasarjana IPB
Program Studi Statistika pada tahun masuk 2000-2010 yang bertujuan untuk
mengklasifikasi keberhasilan studi mahasiswa.
Hasil pada penelitian ini menunjukkan bahwa metode SVM pada ketiga
struktur data yang telah disimulasikan menghasilkan pengklasifikasi yang lebih
baik dibandingkan dengan pohon klasifikasi. Selain itu, metode gabungan berhasil
meningkatkan performa pengklasifikasi terutama pada penggunaan fungsi kernel
radial. Pada data terapan, ensemble SVM dengan fungsi kernel radial mempunyai

iii

performa terbaik untuk mengklasifikasikan keberhasilan studi mahasiswa
Pascasarjana Program Studi Statistika tahun masuk 2000-2010.
Kata kunci :

pohon klasifikasi, support vector machine, metode gabungan,
bagging

iv

SUMMARY
IUT TRI UTAMI. Study of Single and Ensemble Classifiers of Classification Tree
and Support Vector Machine. Supervised by KUSMAN SADIK and BAGUS
SARTONO.
A classifier is such a rule that can be used to group an object into
predetermined group or classs based on its attributes. There are two types of
approach to develop a classifier rules are a parametric and a nonparametric.
Parametric method requires certain assumptions to obtain the best classification
but not all assumptions are met so that makes it difficult for researchers. The
violation of the assumptions might lead to the lack of the effectiveness and the
validity results. Recently, people pay more attention to non parametric classifiers

such as Support Vector Machine (SVM) and Classification Tree (CT) to overcome
the violation of the assumptions of parametric method.
Some resent research figured out that an ensemble of classifiers could be an
effective way to improve the classification accuracy and reduce the prediction
variation of a single classifier (Valentini dan Dietterich 2000). The ensemble
method is combining the class predictions resulted by a set of single classifiers
into a single prediction by applying a majority vote rule. Among some popular
techniques a method of bagging (bootstrap agregating) by Breiman (1996) is the
simplest but powerful technique.
The data used in this research are simulation data and real-life data.
Simulation data are used to assess and compare the performance of single and
ensemble classifiers of classification tree and SVM in three different data
structures: (1) a situation where the members of different classes are perfectly
linear separable, (2) a situation where the members of different classes are linerseparable but not perfect and (3) a situation where the members of different
classes could not be separated by a linear function. Single and ensemble classifiers
of classification trees and SVM will be applied to classify the successful study of
postgraduate IPB students in Statistics department enrollment 2000-2010.
Our research revealed that SVM resulted better classifier compared to
Classification Tree. It is valid for all three data structure under consideration.
Moreover, ensemble treatment to the classifier succeeded in improving the

classification performance, especiality when radial kernel function is embedded in
the procedure. Ensemble SVM in real-life data with a radial kernel function has
the best performance compared to other methods and is the most appropriate
method to classify the successful study of postgraduate IPB students in Statistics
department enrollment 2000-2010.
Keywords :

classification tree, support vector machine, ensemble methods,
bagging

v

© Hak Cipta Milik IPB, Tahun 2014
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini

dalam bentuk apa pun tanpa izin IPB

i

KAJIAN PENGKLASIFIKASI TUNGGAL
DAN GABUNGAN DARI POHON KLASIFIKASI
DAN SUPPORT VECTOR MACHINE

IUT TRI UTAMI

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Sains
pada
Program Studi Statistika Terapan

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014


ii

Penguji Luar Komisi pada Ujian Tesis: Dr. Ir. Anik Djuraidah, MS

iii
Judul Tesis : Kajian Pengklasifikasi Tunggal dan Gabungan dari Pohon
Klasifikasi dan Support Vector Machine
Nama
: Iut Tri Utami
NRP
: G152110031

Disetujui oleh
Komisi Pembimbing

Dr Kusman Sadik, MSi
Ketua

Dr Bagus Sartono, MSi

Anggota

Diketahui oleh

Ketua Program Studi
Statistika Terapan

Dekan Sekolah Pascasarjana

Dr Ir Anik Djuraidah, MS

Dr Ir Dahrul Syah, MScAgr

Tanggal Ujian: 24 Desember 2013

Tanggal Lulus:

iv

v


PRAKATA
Puji dan syukur kehadirat Allah SWT yang telah melimpahkan rahmat dan
hidayah-Nya, sehingga penulis dapat menyelesaikan karya ilmiah yang berjudul
“Kajian Pengklasifikasi Tunggal dan Gabungan dari Pohon Klasifikasi dan
Support Vector Machine”. Keberhasilan penulisan karya ilmiah ini tidak lepas dari
bantuan, bimbingan, dan petunjuk dari berbagai pihak.
Terima kasih penulis ucapkan kepada:
1. Ayahanda (alm Amirul Iksan), Ibunda (Suharti), suami (Sudigdo M), anak
(Attaya Fathan M), serta seluruh keluarga atas doa, dukungan dan kasih
sayangnya.
2. Bapak Dr Kusman Sadik, MSi selaku pembimbing I dan Bapak Dr Bagus
Sartono MSi selaku pembimbing II yang telah banyak memberi bimbingan,
arahan serta saran dalam penyusunan karya ilmiah ini.
3. Penguji luar komisi dan ketua Program Studi Pascasarjana Statistika Terapan
Ibu Dr Anik Djuraidah MS pada ujian tesis yang telah memberikan kritik dan
saran dalam perbaikan penyusunan karya ilmiah ini.
4. Seluruh staf pengajar di Program Studi Statistika Terapan IPB atas ilmu yang
diberikan selama perkuliahan.
5. Teman-teman Statistika (S2 dan S3) dan Statistika Terapan (S2) atas bantuan

dan kebersamaannya.
Semoga karya ilmiah ini bermanfaat.

Bogor, Januari 2014

Iut Tri Utami

vi

DAFTAR ISI
1. PENDAHULUAN
Latar Belakang
Tujuan Penelitian

1
1
2

2. TINJAUAN PUSTAKA
SVM sebagai Pengklasifikasi Tunggal
Pohon Klasifikasi
Metode Gabungan
Ukuran Performa Pengklasifikasi Tunggal dan Gabungan

3
3
8
10
11

3. METODE
Data
Metode Analisis

12
12
15

4. HASIL DAN PEMBAHASAN
Data Simulasi
Data Terapan

17
17
21

5. SIMPULAN DAN SARAN
Simpulan
Saran

22
22
23

DAFTAR PUSTAKA

23

LAMPIRAN

26

RIWAYAT HIDUP

36

vii

DAFTAR TABEL
1
2
3
4

Ketepatan klasifikasi
Skenario data simulasi pada tiga struktur data
Karakteristik peubah penjelas pada data terapan
Persentase rataan salah klasifikasi dan simpangan baku pada data
terapan

12
14
15
22

DAFTAR GAMBAR
1
2
3
4
5
6
7

8
9

10
11
12

Ilustrasi SVM pada struktur data terpisahkan linier secara sempurna
Ilustrasi SVM pada struktur data yang terpisahkan linier secara tidak
sempurna
Pemetaan data yang terpisah secara non linier dari
ke dalam
Struktur pohon klasifikasi
Alur kerja metode penelitian
Hasil bangkitan data simulasi pada struktur data yang terpisahkan
linier secara sempurna
Plot perbandingan (a) persentase rataan salah klasifikasi dan
(b) simpangan baku pada struktur data terpisahkan linier secara
sempurna
Hasil bangkitan data simulasi pada struktur data yang terpisahkan
linier secara tidak sempurna
Plot perbandingan (a) persentase rataan salah klasifikasi dan
(b) simpangan baku pada struktur data terpisahkan linier secara tidak
sempurna
Hasil bangkitan data simulasi pada struktur data yang terpisahkan
secara tidak linier
Plot perbandingan (a) persentase rataan salah klasifikasi dan
(b) simpangan baku pada struktur data terpisahkan secara tidak linier
Plot perbandingan (a) persentase rataan salah klasifikasi dan
(b) simpangan baku pada data terapan

4
5
7
9
16
17

18
18

19
20
20
22

viii

DAFTAR LAMPIRAN
1.
2.
3.
4.
5.
6.

7.

8.

9.

10.

11.
12.
13.
14.
15.
16.
17.
18.

Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara linier sempurna (ulangan = 50)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara linier sempurna (ulangan=100)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara linier sempurna (ulangan = 500)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara linier sempurna (ulangan = 1000)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara linier sempurna (ulangan = 5000)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan linier secara tidak sempurna
(ulangan = 50)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan linier secara tidak sempurna
(ulangan = 100)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan linier secara tidak sempurna
(ulangan = 500)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan linier secara tidak sempurna
(ulangan = 1000)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan linier secara tidak sempurna
(ulangan = 5000)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara tidak linier (ulangan = 50)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara tidak linier (ulangan = 100)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara tidak linier (ulangan = 500)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara tidak linier (ulangan = 1000)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
struktur data terpisahkan secara tidak linier (ulangan = 5000)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
data terapan (ulangan = 50)
Persentase rataan dan simpangan baku kesalahan klasifikasi pada
data terapan (ulangan = 100)
Jumlah mahasiswa Pascasarjana IPB Program Studi Statistika
tahun masuk 2000-2010

26
26
27
27
28

28

29

29

30

30
31
31
32
32
33
33
34
35

1

1. PENDAHULUAN
Latar Belakang
Pengklasifikasian suatu objek sangat umum dilakukan dalam berbagai
bidang. Metode klasifikasi memungkinkan peneliti untuk mengklasifikasikan
pengamatan baru, yaitu menetapkan objek baru masuk ke dalam kelompok
tertentu berdasarkan nilai atribut-atributnya (Salazar et al. 2012). Pendekatan
metode klasifikasi ada dua yaitu parametrik dan nonparametrik. Metode
parametrik membutuhkan asumsi tertentu untuk mendapatkan klasifikasi terbaik
tetapi pada kasus riil tidak semua asumsi dapat terpenuhi sehinga menyulitkan
para peneliti dalam analisis. Terpenuhinya asumsi-asumsi pada metode parametrik
akan menghasilkan data dapat diklasifikasikan dengan baik sehingga memiliki
kesalahan klasifikasi yang kecil (Johnson & Wichern 2007).
Metode klasifikasi parametrik yang sering digunakan adalah analisis
diskriminan dan regresi logistik. Penerapan kedua metode tersebut memerlukan
asumsi-asumsi untuk mendapatkan hasil yang optimal. Analisis diskriminan linier
dikembangkan untuk populasi yang berdistribusi normal dengan matriks ragam
peragamnya sama dan digunakan hanya untuk peubah penjelas yang kuantitatif
dengan skala pengukuran interval atau rasio. Metode parametrik lain yang sering
digunakan yaitu analisis regresi logistik yang memiliki kelebihan tidak
memerlukan asumsi normalitas apabila dibandingkan dengan analisis diskriminan
tetapi diasumsikan tidak terdapat multikolinieritas antar peubah penjelas.
Metode nonparametrik merupakan metode alternatif untuk mengatasi
masalah pelanggaran asumsi tertentu dalam mengklasifikasikan data. Metode
nonparametrik yang telah dikembangkan antara lain k-nearest neighbors (k-NN),
classification and regression tree (CART), artificial neural network (ANN), dan
support vector machine (SVM) (Scholkopf & Smola 2002). Pohon klasifikasi dan
SVM merupakan metode nonparametrik yang populer digunakan dalam berbagai
penelitian, karena kedua metode tersebut memiliki kemampuan yang baik dalam
mengklasifikasikan data. Kedua metode tersebut termasuk pengklasifikasi tunggal
yang dapat digunakan pada ukuran data yang besar dengan peubah penjelas yang
banyak dan data yang terpisahkan secara tidak linier, selain itu metode ini kekar
terhadap pencilan (Steinberg & Colla 1995). Pengklasifikasi tunggal adalah aturan
mengelompokkan objek yang berbeda ke dalam kelompok tertentu.
Selama ini penelitian tentang pengklasifikasian data banyak menggunakan
pengklasifikasi tunggal karena diasumsikan cukup untuk mendapatkan pendugaan
yang baik. Namun tidak semua pengklasifikasi tunggal dapat mengklasifikasikan
data dengan baik dalam berbagai kemungkinan kasus yang terjadi sehingga
memunculkan ide tentang metode gabungan (ensemble) untuk mengklasifikasikan
data. Pengklasifikasi gabungan adalah aturan penggabungan dugaan beberapa
pengklasifikasi tunggal menjadi satu dugaan akhir dengan suatu algoritma yang
disebut combiner. Beberapa pengklasifikasi tunggal yang dapat membangun
metode gabungan antara lain naive bayes, k-NN, pohon klasifikasi, ANN, dan
SVM. Rokach (2010) menyebutkan bahwa algoritma untuk pendugaan gabungan
antara lain suara terbanyak (majority vote), rata-rata dan penjumlahan dugaan
peluang masing-masing label kelas. Metode gabungan diharapkan mampu
meningkatkan akurasi pengklasifikasian dan mengurangi ragam pada

2
pengklasifikasi tunggal (Valentini & Dietterich 2000). Metode gabungan lebih
akurat dan dipercaya mampu untuk meningkatkan performa pengklasifikasi
dibandingkan pengklasifikasi tunggal apabila pengklasifikasi tunggal yang
membangun pengklasifikasi gabungan saling bebas dan beragam (Hansen &
Salamon 1990).
Berbagai metode telah dikembangkan untuk membangun metode gabungan
diantaranya adalah memanipulasi data training untuk membangkitkan data yang
beragam yang bertujuan mengurangi korelasi antar pengklasifikasi tunggal.
Teknik yang sering digunakan untuk memanipulasi data training antara lain
bagging, boosting dan random forest. Pada penelitian ini digunakan teknik
bagging karena teknik ini merupakan teknik yang paling sederhana tetapi
mempunyai performa yang sangat baik. Prinsip metode ini adalah mengambil
contoh dari data contoh dengan teknik bootstrap yang selanjutnya
menggabungkan banyak nilai dugaan yang diperoleh menjadi satu nilai dugaan
dengan suara terbanyak. Penggunaan bagging banyak digunakan pada metode
klasifikasi untuk mengurangi ragam dan memperbaiki stabilitas dugaan seperti
pada pohon klasifikasi.
Penelitian
tentang pengklasifikasi
gabungan dengan berbagai
pengklasifikasi tunggal telah dilakukan oleh beberapa peneliti (misalnya ensemble
neural network oleh Hansen dan Salamon (1990), bagging tree oleh Breiman
(1996) dan ensemble SVM oleh Wang et al. (2009). Penelitian lain yang bisa
digunakan sebagai rujukan adalah Opitz & Maclin (1999) dan Dietterich (2000)
yang membandingkan metode yang berbeda dari beberapa metode gabungan.
Sebagian besar penelitian sebelumnya menggunakan metode gabungan pada data
terapan, penelitian ini menggunakan data simulasi dan data terapan untuk
membandingkan performa pengklasifikasi tunggal dan gabungan. Performa dari
masing-masing metode dapat dilihat dalam hal kemampuan untuk memberikan
tingkat kesalahan klasifikasi yang rendah dan stabilitas suatu metode. Evaluasi
performa dari pengklasifikasi tunggal dan gabungan dilakukan dengan
menggunakan tabel ketepatan klasifikasi.
Data yang akan digunakan pada penelitian ini adalah data simulasi dan data
terapan. Data simulasi digunakan untuk mengkaji dan membandingkan performa
pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM pada
beberapa struktur data yang berbeda. Data simulasi yang akan digunakan pada
penelitian ini merupakan data yang dibangkitkan dari dua kelas berbeda dengan
tiga struktur data yaitu struktur data yang terpisahkan secara linier sempurna
(linearly separable), struktur data yang terpisahkan linier secara tidak sempurna
(linearly non separable) dan struktur data yang terpisahkan secara tidak linier
(nonlinearly separable). Pengklasifikasi tunggal dan gabungan dari pohon
klasifikasi dan SVM akan diterapkan pada data mahasiswa Pascasarjana IPB
Program Studi Statistika pada tahun masuk 2000-2010 yang bertujuan untuk
mengklasifikasi keberhasilan studi mahasiswa.
Tujuan Penelitian
Tujuan penelitian ini adalah
1. Mengkaji pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan
SVM dengan melakukan simulasi pada berbagai struktur data.

3
2. Membandingkan performa pengklasifikasi tunggal dan gabungan dari pohon
klasifikasi dan SVM berdasarkan persentase rataan kesalahan klasifikasi pada
tabel ketepatan klasifikasi.

2. TINJAUAN PUSTAKA
SVM sebagai Pengklasifikasi Tunggal
SVM diperkenalkan oleh Vapnik (1995). Konsep dasar SVM merupakan
gabungan dari teori komputasi yang telah ada sebelumnya seperti margin
hyperplane (Cover 1965, Duda et al. 1973) dan teori kernel yang dikembangkan
oleh Aronszjan (1950). Ide dasar dari SVM adalah pencarian hyperplane terbaik
yang berfungsi sebagai pemisah dua kelas data. Hyperplane terbaik antara kedua
kelas terletak di tengah-tengah diantara dua bidang kendala kelas dan untuk
mendapatkan hyperplane terbaik dilakukan dengan cara memaksimalkan jarak
antara hyperplane dari titik terdekat (support vector) dari masing-masing kelas.
Andaikan M adalah jarak tersebut, didefinisikan besaran margin sebagai 2M.
SVM pada Struktur Data Terpisahkan Linier secara Sempurna
Misalkan sebuah gugus data berisi n pasangan data pengamatan yang
dinotasikan sebagai (x1,y1), (x2,y2), ..., (xn,yn) dengan xiRp untuk i = 1, 2, ..., n.
Label kelas dinotasikan sebagai: yi{-1,1}. Bentuk umum hyperplane adalah

w xb

(2.1)

dengan w adalah vektor normal dengan ukuran 1p dan tegak lurus dengan
hyperplane dan x merupakan vektor data pengamatan yang berukuran p1. Skalar
b disebut dengan simpangan. Fungsi klasifikasi didefinisikan sebagai:

f (x)  sign(w  x  b)

(2.2)

Keckman (2005) menyatakan bahwa apabila f(x) > 0, maka data
pengamatan diklasifikasikan ke dalam Grup 1, sedangkan apabila f(x) < 0, maka
data pengamatan diklasifikasikan ke dalam Grup 2. Hyperplane dengan margin
maksimum diperoleh dengan menemukan solusi dari permasalahan primal (Cortes
& Vapnik 1995) yaitu :
min

1 2
w
2

(2.3)

dengan kendala
yi (w  xi  b)  1 , i = 1, ..., n

(2.4)

Notasi w, b merupakan parameter-parameter yang akan dicari nilainya. Ilustrasi
SVM pada struktur data terpisahkan linier secara sempurna dapat dilihat pada
Gambar 1.

4
x2

w  x  b 1
Grup 1

w  x  b  1

M
support vectors
M
Margin = 2M =
Grup 2

2
w

wxb  0
x1

Gambar 1 Ilustrasi SVM pada struktur data terpisahkan linier secara sempurna
SVM pada Data Terpisahkan Linier Tidak secara Sempurna
Masalah SVM dapat diperoleh dengan menyelesaikan pemrograman
kuadratik dengan menggunakan fungsi optimasi Lagrangian sebagai berikut :
L(w, b,  ) 

n
1
2
w   i  yi  w  xi   1
2
i 1

(2.5)

dengan i adalah pengali Lagrange non negatif. Dengan memperhatikan sifat
gradien maka diperoleh :
n
L(w, b,  )
L(w, b,  ) n
 w   i yi xi  0 dan
  i yi  0
w
b
i 1
i 1

(2.6)

Persamaan (2.5) dapat dimodifikasi dengan memaksimumkan
.
Modifikasi ini memudahkan untuk menyelesaikan fungsi obyektif pada persamaan
(2.3) dengan mengubah masalah primal menjadi masalah dual. Masalah pada dual
mempunyai nilai yang sama dengan masalah primal (Strang 1986). Fungsi
Lagrange akan diubah menjadi:

L(w, b,  ) 

n
n

1 2  n
w    i yi xi  w   b i yi   i
2
i 1
 i 1
 i 1

(2.7)

Substitusikan persamaan (2.6) ke dalam fungsi Lagrange (2.5) sehingga menjadi:
n
n
n
  n

1 n
L(w, b,  )    i yi xi   j y j x j     i yi xi   j y j x j   0   i
  i 1

2  i 1
j 1
j 1
i 1
 


  n n
 n
1 n n
   i j yi y j (xi  x j )     i j yi y j (xi  x j )    i
  i 1 j 1
 i 1
2  i 1 j 1
 

n

1 n n
  i    i j yi y j (xi  x j ) 

2  i 1 j 1
i 1


(2.8)

5
dengan kendala ∑ni
, i  0 , i, j = 1, ..., n. Persamaan (2.8) merupakan
fungsi masalah pengoptimuman dual. Nilai i didapatkan dengan cara
memaksimumkan fungsi Lagrange pada persamaan (2.8). Gugus data yang
memiliki nilai i > 0 dinamakan support vector. Gugus data tersebut akan

digunakan untuk menghitung bobot
i dan b = (w  xi) – yi untuk
i = 1, ..., nSV, dengan nSV adalah banyaknya support vector.
SVM pada Struktur Data Terpisahkan Linier secara Tidak Sempurna
Masalah klasifikasi sesungguhnya muncul pada ruang dimensi tinggi
terutama pada data yang terpisahkan linier tidak secara sempurna. Struktur data
yang terpisahkan linier tidak secara sempurna adalah data yang berada di dalam
margin atau berada pada sisi yang salah dari batas keputusan. Hal ini
menyebabkan proses optimisasi tidak dapat diselesaikan, karena tidak ada w dan b
yang memenuhi pertidaksamaan (2.5).
Persamaan (2.3) dan (2.4) akan dimodifikasi dengan memasukkan peubah
slack i (i > 0), sehingga menjadi :
n
1
2
min w  C  i
(2.9)
2
i 1
dengan kendala :
yi (w  x  b)  1  i , i  0 ; i = 1, ..., n
(2.10)
C adalah parameter yang menentukan besar penalti akibat kesalahan klasifikasi.
Nilai C yang besar akan menghasilkan kesalahan klasifikasi yang kecil. Pada
struktur data yang dapat dipisahkan linier secara tidak sempurna, peubah slack
didefinisikan sebagai penyimpangan dari batas margin. Ilustrasi SVM pada
struktur data terpisahkan linier secara tidak sempurna dapat dilihat pada Gambar 2.
x2

Grup 1
Margin

k

xk

l
xl

Grup 2
x1

Gambar 2 Ilustrasi SVM pada struktur data yang terpisahkan linier secara tidak
sempurna
Dua titik data xl dan xk pada Gambar 2 memperlihatkan dua titik yang
menggambarkan kasus pada data terpisahkan linier secara tidak sempurna dengan

6
penambahan peubah slack l dan k. Titik xl adalah kesalahan klasifikasi karena
berada di sisi yang salah batas keputusan. Titik xk merupakan titik yang berada di
dalam margin tetapi diklasifikasikan dengan benar. Fungsi Lagrange dengan i
dan βi untuk masalah primal pada kasus data terpisahkan secara linier tidak
sempurna adalah :
n
n
n
1
2
L(w, b,  ,  ,  )  w  C  i  i  yi (w  xi  b)  1  i    ii (2.11)
2
i 1
i 1
i 1
Dengan memperhatikan sifat gradien diperoleh :
n
L(w, b,  ,  ,  )
L(w, b,  ,  ,  ) n
 w   i yi xi  0 dan
  i yi  0
w
b
i 1
i 1
L(w, b,  ,  ,  )
 0 menghasilkan i  i  C


(2.12)

i ([(w  x)  b] 1  i )  0 , i = 1,..., n

ii  0 , untuk i = 1,..., n
0  i  C ,

i  0 , i  0 , i  0 untuk i = 1, ..., n

Substitusi persamaan (2.12) ke dalam persamaan fungsi Lagrange (2.11)
akan didapatkan fungsi tujuan masalah dual sebagai berikut :
n

n n

max L( )   i   i j yi y j (xi  x j )
i 1

(2.13)

i 1 j 1

dengan kendala : ∑
, 0  i  C untuk i = 1, ..., n. Fungsi keputusan
dari struktur data yang terpisahkan linier secara tidak sempurna adalah sama
dengan struktur data yang dapat dipisahkan secara linier sempurna yaitu :
 nSV

(2.14)
f (x)  sign   i yi xi  x  b 
 i 1

dengan koefisien i merupakan solusi dari masalah dual dan SV merupakan
himpunan dari support vector. Nilai didapatkan dari persamaan :
nSV

b  yi (1   )   i yi (xi  x j )
i 1

SVM pada Struktur Data Terpisahkan secara Tidak Linier
Hyperplane yang optimal mempunyai kemampuan generalisasi yang baik
termasuk pada dimensi yang tinggi. Gugus data yang tidak dapat dipisahkan
secara linier dapat menghasilkan hyperplane yang optimal tetapi belum tentu
sebagai alat klasifikasi dengan kemampuan generalisasi yang baik. SVM dapat
memetakan data ke ruang dimensi lebih tinggi dengan mengunakan metode kernel
sehingga data pada ruang tersebut dapat dipisahkan secara linier dengan
transformasi non linier  (Burges 1998).

7
Secara umum metode kernel memiliki dua bagian utama. Bagian pertama
adalah sebuah modul yang mentransformasikan data dari ruang awal ke dalam
ruang baru yang berdimensi tinggi. Bagian kedua adalah suatu algoritma yang
berfungsi untuk menemukan pola linier di dalam ruang baru yang terbentuk
(Cristianini & Shawe-Taylor 2004). Ilustrasi pemetaan data yang terpisahkan
secara non linier dari
ke dalam
dapat dilihat pada Gambar 3.





Gambar 3 Pemetaan data yang terpisah secara non linier dari

ke dalam

Pada Gambar 3 memperlihatkan tentang pemisahan non linier dalam ruang
input
yang dipetakan ke dalam ruang berdimensi tinggi
dengan fungsi non
linier  yang disebabkan oleh fungsi kernel k sehingga didapatkan permukaan
yang linier. Misalkan fungsi vektor non linier (x) = (1(x1), 2(x2), …, n(xn))‟
yang memetakan vektor ruang awal x ke dalam ruang yang berdimensi tinggi
melalui fungsi vektor non linier . Fungsi keputusan pada ruang berdimensi tinggi
adalah:
f (x)  sign(w   (x)  b)

(2.15)

Pada struktur data terpisahkan linier secara tidak sempurna, vektor w merupakan
kombinasi linier dari support vector di ruang berdimensi tinggi. Hal ini berarti :
n

w   i yi (xi )
i 1

Fungsi klasifikasi f(x) pada persamaan (2.15) bergantung pada hasil kali dalam
(xi) dan (xj) yaitu :
 n

f (x)  sign(w   (x)  b)  sign   i yi  (xi ),  (x)  b 
(2.16)


 i 1

SVM dibangun berdasarkan bentuk umum dari hasil kali dalam ruang
Hilbert (Anderson & Bahadur 1966) yaitu :

 (u)   (v)  K (u, v)
Fungsi pemetaan (x) yang memetakan ruang awal ke dalam ruang berdimensi
tinggi memenuhi:
K (xi , x j )   (xi )   (x j )

8
dengan (xi) dan (xj) gambaran dari ruang berdimensi tinggi dan vektor xi dan xj
sebagai ruang awal. Keuntungan menggunakan fungsi kernel adalah
memperlihatkan transformasi non linier  secara eksplisit. Teknik ini biasa
dikenal kernel trick. Gunakan kernel trick untuk memaksimumkan masalah dual
pada ruang berdimensi tinggi yaitu :
n

n n

i 1

i 1 j 1

max L( )   i   i j yi y j K (xi  x j )
dengan kendala : ∑
dari masalah dual adalah

, 0  i  C untuk i = 1, ..., n. Fungsi keputusan

 nSV

f (x)  sign   i yi K (xi  x)  b 
 i 1

dengan b diperoleh dari :

b  yi 

(2.17)

(2.18)

nSV

 i yi K (xi  x)
i 1

Fungsi kernel K (xi , x j ) yang biasa digunakan dalam SVM (Meyer 2013) adalah :





: K (xi , x j )  (xi  x j )  1

1) Polinomial

d

dengan d adalah derajat polinom. Pada software R i386 3.0.1 dengan package
e1071 digunakan default dengan d = 3.
2
2) Radial basis function (RBF)
: K (xi , x j )  exp   xi  x j 


dengan  merupakan parameter positif yang mengontrol radius. Pada software
R i386 3.0.1 dengan package e1071 menggunakan default  = (1/dimensi).
: K (xi , x j )  tanh[v(xi  x j )  b]
untuk nilai parameter v, b telah ditentukan. Pada software R i386 3.0.1 dengan
package e1071 menggunakan default dengan v = (1/dimensi) dan b = 0.

3) Tangent hyperbolic (sigmoid)

Pohon Klasifikasi
Algoritma penyusunan pohon klasifikasi dan pohon regresi telah banyak
diusulkan oleh banyak penulis. Beberapa yang banyak digunakan antara lain
adalah ID3 (Quinlan 1986) yang selanjutnya dikembangkan menjadi algoritma
C4.5 dan C5, CHAID, CART dan QUEST (Loh dan Shih 1997). Pada penelitian
ini digunakan CART sebagai algoritma penyusunan pohon klasifikasi. CART
merupakan salah satu metode eksplorasi nonparametrik yang dikembangkan untuk
topik analisis klasifikasi, baik untuk peubah respon kategorik maupun kontinu
(Breiman et al. 1993). Tujuan utama CART adalah untuk mendapatkan suatu
kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian. Pohon
klasifikasi merupakan penyekatan data secara berulang (rekursif) dan
menghasilkan sekatan yang biner, karena selalu membagi kumpulan data menjadi
dua sekatan. Hal ini dapat ditunjukkan dalam suatu gambar struktur pohon
klasifikasi seperti pada Gambar 4.

9

Node/simpul

a
Ya

Tidak
xi  

c

b
Ya

Cabang

xi  

d

Tidak

Simpul akhir

e

Gambar 4 Struktur pohon klasifikasi
Langkah-langkah yang digunakan dalam pembentukan pohon klasifikasi
(Breiman et al. 1993) adalah :
1. Pemilihan pemilah
Pada tahap ini dicari pemilah dari setiap simpul yang menghasilkan penurunan
tingkat keheterogenan paling tinggi. Keheterogenan suatu simpul diukur
berdasarkan nilai impurity-nya. Fungsi impuritas () yang dapat digunakan
adalah indeks Gini. Semakin besar impuritas suatu simpul maka semakin
heterogen simpul tersebut (Breiman et al. 1993). Nilai impuritas menggunakan
indeks Gini pada simpul t yang dinotasikan dengan i(t) dan diformulasikan
sebagai berikut:
i(t )    p(1| t ), p(2 | t ),..., p( j | t ) 

(2.20)

dengan p(j|t) adalah dugaan peluang unit pengamatan dalam kelas ke-j dan
berada pada simpul t yang dinyatakan sebagai berikut:
p( j t ) 

 j N j (t ) / N j

 j N j (t ) / N j

(2.21)

j

dengan j adalah peluang awal kelas ke-j dan Nj adalah banyaknya unit
pengamatan dalam kelas ke-j, dan Nj(t) adalah banyaknya unit pengamatan
dalam kelas ke-j pada simpul t. Misalkan terdapat calon pemilah s yang
memilah simpul t menjadi tL (dengan proporsi pL) dan tR (dengan proporsi pR),
maka kebaikan dari s didefinisikan sebagai penurunan impuritas:
Δi(s,t) = i(t) – pL i(tL) – pR i(tR)

(2.22)

Pengembangan pohon dilakukan dengan cara, pada simpul t1 carilah s* yang
memberikan nilai penurunan impuritas tertinggi yaitu:
i(s* , t )  max i(s, t1 )
(2.23)
sS

maka t1 dipilah menjadi t2 dan t3 dengan menggunakan s*. Dengan cara yang
sama dilakukan juga pemilah terbaik pada t2 dan t3 secara terpisah, dan
seterusnya.
2. Penentuan simpul terminal
Suatu simpul t akan menjadi simpul terminal atau tidak akan dipilah kembali,
apabila banyaknya pengamatan kurang dari batas minimum yang telah

10
ditentukan. Pada umumnya banyak pengamatan minimum pada simpul sebesar
5 dan terkadang sebesar 1 (Breiman et al. 1993). Selanjutnya t tidak akan
dipilah lagi tetapi dijadikan simpul terminal dan hentikan pembuatan pohon.
3. Penandaan label kelas
Label kelas dari simpul terminal ditentukan berdasarkan aturan jumlah
terbanyak, yaitu jika P(j0|t) = maxj P(j|t) dengan j = 1, ..., j maka label kelas
untuk simpul terminal t adalah j0. Andaikan max� P(�|�) dicapai oleh dua atau
lebih kelas yang berbeda, maka label kelas untuk simpul terminal t dipilih
secara acak dari kelas maksimum tersebut (Breiman et al. 1993).
4. Penentuan pohon optimum
Pohon klasifikasi tidak dibatasi jumlahnya. pohon terbesar memiliki nilai salah
pengklasifikasian terkecil, sehingga kita cenderung memilih pohon tersebut
untuk perkiraan. Pohon yang besar cukup kompleks dalam menggambarkan
struktur data sehingga perlu dipilih pohon optimal yang lebih sederhana tetapi
memiliki kesalahan pengklasifikasian yang cukup kecil. Breiman et al. (1993)
menyatakan bahwa salah satu cara mendapatkan pohon optimum yaitu dengan
pemangkasan (pruning). Pemangkas berturut-turut memangkas pohon bagian
yang kurang penting dengan tujuan untuk memperoleh pohon yang berukuran
sederhana. Ukuran pemangkasan yang digunakan untuk memperoleh ukuran
pohon yang optimum adalah biaya kompleksitas (cost-complexity). Persamaan
ukuran biaya kompleksitas adalah:
|̃ |

(2.24)

dengan
adalah tingkat salah klasifikasi pada pohon bagian Tk untuk k = 1,
̃ adalah himpunan simpul terminal pada Tk, |̃ | adalah banyaknya simpul
terminal pada Tk, dan adalah parameter biaya kompleksitas. Hasil proses
pemangkasan berupa sederet pohon klasifikasi Tk dan dengan validasi silang vlipatan (RCV(Tk)) dapat ditentukan pohon optimum Tko (Venables & Ripley
2002) sebagai berikut:
RCV (Tko )  min RCV (Tk )

(2.25)

k

Metode Gabungan
Gagasan utama metodologi gabungan adalah mengkombinasikan beberapa
pola pengklasifikasi tunggal seperti NN, SVM dan lain-lain dan menggabungkan
pola tersebut menjadi satu nilai dugaan. Proses penggabungan yang biasa
digunakan untuk kasus klasifikasi adalah suara terbanyak. Keberhasilan penerapan
metode gabungan dapat ditemukan di berbagai bidang, seperti: keuangan (Leigh et
al. 2002), bioinformatika (Tan et al. 2003), kesehatan (Mangiameli et al. 2004),
geografi (Bruzzone et al. 2004) dan lain-lain.
Bagging merupakan singkatan dari bootstrap aggregrating. Berdasarkan
namanya, maka dapat diperkirakan ada dua tahapan utama dalam analisis ini,
yaitu bootstrap dan aggregating yaitu menggabungkan banyak nilai dugaan
menjadi satu nilai dugaan. Teknik bootstrap diperkenalkan oleh Efron (1979).
Bootstrap adalah teknik memperkirakan sifat penaksir (rata-rata, median dan lainlain) dengan menggunakan teknik pengambilan contoh dengan pemulihan

11
(resampling). Bootstrap meletakkan dasar pada dua metode gabungan yaitu
bagging dan random forest. Bagging pertama kali diperkenalkan oleh Breiman
(1996). Ide dasar dari bagging adalah menggunakan teknik bootstrap pada data
asli, membuat dugaan klasifikasi terpisah pada setiap data contoh bootstrap, dan
menggabungkan dugaan klasifikasi tersebut dengan menggunakan suara terbanyak
(Breiman 1996).
Misalkan terdapat himpunan data = {(xn; yn)|i = n … N}, dengan y
berupa label kelas atau respon kategorik. Jika input adalah x maka y diduga
dengan φ(x, ) dengan φ(x, ) merupakan prediktor yang diperoleh dengan
menggunakan pengulangan bootstrap yang dinotasikan dengan
Pengulangan bootstrap dilakukan sebanyak k kali sehingga menjadi
dan
dibentuk prediktor φ(x, ) dengan teknik pengambilan contoh dengan pemulihan
(resampling) (Breiman 1996).
Prosedur pada teknik Bagging menurut Breiman (1996) adalah :
1) Data dibagi menjadi dua yaitu gugus data tes T dan gugus data training .
2) Tarik contoh acak dengan pengembalian sebanyak n* dari gugus data training
(tahapan bootstrap) dengan n* adalah ukuran contoh bootstrap.
3) Bentuk pengklasifikasi tunggal seperti SVM dan pohon klasifikasi berdasarkan
contoh acak tersebut.
4) Ulangi langkah 2 dan 3 sebanyak k kali sehingga sehingga diperoleh k buah
pengklasifikasi tunggal dan dugaan.
5) Lakukan pendugaan gabungan berdasarkan k buah pengklasifikasi tunggal
tersebut dengan menggunakan suara terbanyak (tahapan aggregasi).
Hastie et al. (2008) menyatakan bahwa proses bagging dapat mengurangi
galat baku dugaan yang dihasilkan oleh pengklasifikasi tunggal. Hal ini jelas
terlihat karena dengan melakukan rata-rata misalnya maka ragam dugaan akan
mengecil sedangkan tingkat bias dugaan tidak terpengaruh. Breiman (1996)
mencatat bahwa pada banyak gugus data yang telah dicobakan, bagging mampu
mengurangi tingkat kesalahan klasifikasi pada kasus klasifikasi. Hal ini tentu
tidak berlaku secara keseluruhan. Berk (2008) mencatat beberapa kasus yang
mungkin menyebabkan dugaan bagging memiliki ragam dugaan yang lebih besar
atau juga bias yang lebih besar pula. Hal ini terjadi antara lain pada kasus dengan
kategori peubah respon yang sangat tidak seimbang. Breiman (1996)
menyebutkan bahwa banyaknya pengulangan bootstrap yang diperlukan
menunjukkan bahwa 50 kali untuk kasus klasifikasi dan 25 kali untuk kasus
regresi dapat memberikan hasil yang memuaskan. Semakin banyak resampling
dan pengulangan dilakukan maka akurasi pengklasifikasi semakin meningkat
walaupun peubahannya tidak terlalu signifikan.
Ukuran Performa Pengklasifikasi Tunggal dan Gabungan
Secara umum, kinerja pengklasifikasi klasifikasi dapat diukur dengan tabel
klasifikasi yang merupakan tabel kontingensi 2  2 untuk peubah respon biner yang
diilustrasikan pada Tabel 1 (Hosmer & Lemeshow 2000). Ketepatan klasifikasi
terdiri atas specificity dan sentisivity. Specificity atau ketepatan klasifikasi dalam
menduga kejadian bahwa respon tidak memiliki kriteria yang diharapkan yaitu
pada y = 0 sebesar d/n0  100%. Sensitivity digunakan untuk mengevaluasi
ketepatan klasifikasi dalam menduga kejadian bahwa respon memiliki kriteria

12
yang diharapkan yaitu y = 1 sebesar a/n1  100%. Ketepatan klasifikasi total
(akurasi) dalam menduga kejadian secara tepat dapat diduga oleh pengklasifikasi
yang nilainya (a + d)/n  100%.

Amatan
1
0
Total
Proporsi Kesalahan

Tabel 1 Ketepatan klasifikasi
Dugaan
Total
1
0
a
b
n1
c
d
n0
n
n1
n0
c / n1

d / n0

Proporsi
Ketepatan
a / n1
d / n0
(a + d) / n
(b + c) / n

Selain ketepatan klasifikasi dapat pula diketahui persentase besarnya
kesalahan klasifikasi (misclassification rate atau MCR). Kesalahan positif
nilainya sebesar c/n1 100% adalah persentase besarnya kesalahan ketika respon
yang diduga adalah y = 1 tapi amatan sebenarnya bernilai y = 0 dan kesalahan
negatif yang bernilai d/n0 100% dinyatakan sebagai persentase besarnya
kesalahan ketika respon diduga adalah y = 0 namun amatan sebenarnya bernilai y
= 1. Kesalahan klasifikasi total diartikan sebagai besarnya kesalahan klasifikasi
terhadap kesalahan keseluruhan kejadian yang dapat diperoleh dengan cara
merasiokan total klasifikasi yang tidak terkoreksi dengan jumlah keseluruhan data
yaitu sebesar (b+c) 100%.

3. METODE
Data
Data Simulasi
Data simulasi yang digunakan untuk mengkaji dan membandingkan metode
pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan SVM terdiri dari
tiga skenario yaitu (1) apabila anggota kelas berbeda dapat dipisahkan secara
linier sempurna, (2) apabila anggota kelas berbeda dapat dipisahkan linier secara
tidak sempurna dan (3) anggota kelas berbeda dipisahkan secara tidak linier.
Ukuran data simulasi yang digunakan pada penelitian ini adalah 120 data
pengamatan. Data simulasi terdiri dari dua kelompok yaitu Grup 1 dan 2.
Pada skenario pertama, ukuran contoh pada Grup 1 sebanyak 60 data
pengamatan dan Grup 2 sebanyak 60 data pengamatan. Data dibangkitkan dari
dua sebaran yang berdistribusi normal ganda sebagai Grup 1 dan Grup 2 dengan
vektor rataan masing-masing adalah
 2
8
μ1    , μ 2   
 2
8

dengan matriks ragam peragam yang sama yaitu
2 0
Σ1  Σ2  Σ  

0 2

13
Pemilihan vektor rataan pada skenario pertama disebabkan karena jarak antara
dua populasi yang berjauhan menyebabkan data dapat terpisahkan secara linier
sempurna tanpa ada error didalamnya sehingga tidak terdapat salah klasifikasi.
Dengan menggunakan ragam yang sama maka ragam peubah penjelas akan
merata pada setiap populasi.
Ukuran contoh pada Grup 1 pada skenario kedua adalah 60 data pengamatan
dan 60 data pengamatan pada Grup 2. Data dibangkitkan dari dua sebaran yang
berdistribusi normal ganda dengan vektor rataan masing-masing adalah
 2
 3
μ1    , μ 2   
 2
 3

dengan matriks ragam peragam yang sama yaitu
2 0
Σ1  Σ2  Σ  

0 2
Pemilihan vektor rataan pada skenario kedua disebabkan karena jarak antara
kedua populasi yang berdekatan menyebabkan terdapat beberapa titik yang
tumpang tindih sehingga struktur data sulit dipisahkan secara linier sempurna.
Dengan menggunakan ragam yang sama maka ragam peubah penjelas akan
merata pada setiap populasi.
Pada skenario yang ketiga, ukuran contoh pada Grup 1 sebanyak 40 data
pengamatan dan 80 data pengamatan sebagai Grup 2. Pada Grup 1, data
dibangkitkan dari sebaran yang berdistribusi normal ganda dengan vektor rataan
dan matriks ragam peragam masing-masing adalah
 1 0.7 
 1
μ1    , dan Σ1  

0.7 1 
 1
sedangkan pada Grup 2 dengan ukuran contoh sebanyak 80 data pengamatan.
Data dibangkitkan dari campuran dua sebaran berdistribusi normal ganda dengan
vektor rataan masing-masing adalah
 3
1
μ 2    dan μ3   
1
 3
dan matriks ragam peragam
 1 0.7 
Σ2  Σ3  

0.7 1 
sehingga:
x | w, μ2 , μ3 , Σ2 , Σ3 ~ 0.5 MVN (x ; μ2 , Σ2 )  0.5MVN (x ; μ3 , Σ3 )
dengan MVN(x; i, i) adalah fungsi kepadatan peluang yang berdistribusi normal
ganda dengan i adalah vektor rataan ke-i dan i adalah matriks ragam peragam
ke-i. Pemilihan vektor rataan pada skenario ketiga didasarkan sebagai ilustrasi
untuk struktur data terpisahkan secara tidak linier pada dimensi dua. Dengan
menggunakan ragam yang sama maka ragam peubah penjelas akan merata pada
setiap populasi.
Data simulasi dibagi menjadi dua yaitu data untuk membangun suatu
pengklasifikasi (gugus data training) sebanyak 70% dan data untuk menguji
performa pengklasifikasi (gugus data tes) sebanyak 30% dari keseluruhan data
simulasi. Pada setiap gugus data tes akan dicatat tingkat kesalahan klasifikasi dari
pengklasifikasi tunggal dan gabungan yang dihasilkan.

14
Simulasi dilakukan dengan dua kondisi ukuran contoh bootstrap (n*) dan
ukuran contoh data training (n). Kondisi tersebut adalah ukuran contoh yang sama
antara bootstrap dan data trainingnya dan ukuran contoh bootstrap lebih kecil
daripada data trainingnya. Teknik bootstrap sebagai bagian dari pendekatan
metode gabungan dilakukan dengan melakukan resampling sebanyak 50, 100, dan
500 kali. Prosedur resampling digunakan untuk mengenali pengaruh frekuensi
resampling terhadap performa klasifikasi. Langkah-langkah pada pembentukan
pengklasifikasi gabungan akan diulang sebanyak 50, 100, 500, 1000 dan 5000
kali. Ketiga skenario data simulasi terangkum pada Tabel 2.
Tabel 2 Skenario data simulasi pada tiga struktur data
Skenario
Struktur
data
terpisahkan
linier
secara
sempurna
Struktur
data
terpisahkan
linier
secara tidak
sempurna

Parameter

Ukuran
contoh

 2

Grup 1 : μ1   
2

 
8
Grup 2 : μ 2   
8

n1 = 60
n2 = 60
 2 0

 0 2

Matriks ragam-peragam: Σ1  Σ2  Σ  
 2

Grup 1 : μ1   
2

 
 3
Grup 2 : μ 2   
 3

n1 = 60
n2 = 60
 2 0

 0 2

Matriks ragam-peragam: Σ1  Σ2  Σ  
 2

Struktur
data
terpisahkan
tidak secara
linier

Grup 1 : μ1   
2

 
1
 3
Grup 2 : μ 2    dan μ3   
3
 
1
 1 0.7 
 sehingga:
 0.7 1 

n1 = 40
n2 = 80

Matriks ragam-peragam: Σ1  Σ2  Σ  

xi | w, μ2 , μ3 , Σ2 , Σ3 ~ 0.5 MVN ( xi ; μ2 , Σ2 )  0.5MVN ( xi ; μ3 , Σ3 )

Data Terapan
Data terapan yang akan digunakan pada penelitian ini adalah data
mahasiswa Pascasarjana IPB Program Studi Statistika yang diperoleh dari Divisi
Akademik Sekolah Pascasarjana IPB. Data tersebut akan digunakan untuk
mengklasifikasikan keberhasilan studi mahasiswa Pascasarjana IPB Program
Studi Statistika. Data terapan yang digunakan adalah semua data mahasiswa
Pascasarjana IPB Program Studi Statistika yang berhasil lanjut ke semester dua.
Kriteria mahasiswa yang berhasil lanjut ke semester dua adalah mahasiswa
dengan IPK 3.00 yang berstatus percobaan dan mahasiswa dengan status biasa.
Peubah respon yang akan diteliti adalah IPK mahasiswa program
Pascasarjana IPB Program Studi Statistika yang dikelompokan menjadi dua
bagian, yaitu : (i) mahasiswa yang berhasil dengan kriteria IPK ≥ 3.
y = 1) dan
(ii) mahasiswa yang kurang berhasil dengan kriteria IPK < 3.00 (y = -1) pada

15
akhir semester 2. Data mahasiswa Pascasarjana IPB Program Studi Statistika
berjumlah 188 mahasiswa tetapi hanya 162 mahasiswa yang memenuhi syarat
lanjut ke semester dua dengan kriteria mahasiswa yang berhasil sebanyak 143
mahasiswa dan 19 mahasiswa kurang berhasil. Karakteristik peubah penjelas yang
digunakan pada penelitian ini terangkum pada Tabel 3.
Tabel 3 Karakteristik peubah penjelas pada data terapan
Peubah Penjelas
Jenis Kelamin

Keterangan
1 = Laki-laki
2 = Perempuan

Usia
Pada
Saat
Masuk
Sekolah
Pascasarjana IPB
Status Perkawinan Pada Saat Masuk 1 = Menikah
Sekolah Pascasarjana IPB
2 = Belum Menikah
Pekerjaan pada saat tahun masuk
1 = Dosen
2 = Non Dosen
Asal Perguruan Tinggi Pada Saat Sarjana
1 = PTN Jawa
2 = PTS Jawa
3 = PTN/PTS Non Jawa
Program Studi Pada Saat Sarjana
1 = Statistika
2 = Matematika
3 = Pendidikan Matematika
4 = Lainnya
IPK Pada Saat Sarjana
Sponsor Pendidikan Pada Saat Menjadi 1 = Sendiri
Mahasiswa Pascasarjana IPB
2 = BPPS/BU
3 = Instansi/Lembaga

Metode Analisis
Kajian Simulasi
Pada data simulasi langkah-langkah yang akan dilakukan dalam
menganalisis pengklasifikasi tunggal dan gabungan dari pohon klasifikasi dan
SVM adalah :
1) Menggunakan data simulasi yang dibangkitkan dengan ketiga struktur data
2) Membentuk pengklasifikasi tunggal yaitu SVM dan pohon klasifikasi
3) Membentuk pengklasifikasi gabungan yaitu ensemble tree dan ensemble SVM.
Tahapan ini terdiri dari beberapa lang
kah-langkah sebagai berikut :
i. Membagi data menjadi dua yaitu gugus data training dan data tes.
ii. Menarik contoh acak dengan pengembalian sebanyak n* dari gugus data
training (tahapan bootstrap). Ukuran contoh bootsrap yang dicobakan
adalah 84 dan 60 data pengamatan.
iii. Membuat dugaan pada pengklasifikasi SVM dan pohon klasifikasi
berdasarkan data tersebut.
iv. Mengulangi langkah (ii) dan (iii) sebanyak k kali sehingga diperoleh k buah
pengklasifikasi tunggal dan dugaan.

16
v. Melakukan pendugaan gabungan berdasarkan k buah pengklasifikasi
tunggal tersebut dengan menggunakan suara terbanyak (tahapan aggregasi).
4) Mengevaluasi dan membandingkan performa pengklasifikasi tunggal dan
gabungan dengan menggunakan tabel ketepatan klasifikasi dengan
menggunakan gugus data tes.
Keseluruhan proses analisis dilakukan menggunakan software R i386 3.0.1
dengan package MASS, e1071 dan rpart. Alur kerja metode penelitian disajikan
pada Gambar 5.
Data

Pengklasifikasi tunggal

Pengklasifikasi Gabungan
Data training

Contoh 1

Contoh 2

Contoh k

Pengklasifikasi
tunggal 1

Pengklasifikasi
tunggal 2

Pengklasifikasi
tunggal k

Agregasi

Evaluasi performa

Evaluasi performa

Perbandingan

Gambar 5 Alur kerja metode penelitian
Kajian Terapan
Prosedur yang dilakukan untuk contoh penera