Perbandingan Metode Klasifikasi Antara Analisis Diskriminan Verteks Dan Diskriminan Fisher.

PERBANDINGAN METODE KLASIFIKASI ANTARA ANALISIS
DISKRIMINAN VERTEKS DAN DISKRIMINAN FISHER

NURMALENI

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis berjudul Perbandingan Metode
Klasifikasi antara Analisis Diskriminan Verteks dan Diskriminan Fisher adalah
benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan
dalam bentuk apapun kepada perguruan tinggi mana pun. Sumber informasi yang
berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari
penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di
bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.

Bogor, Februari 2015

Nurmaleni
NIM G151120171

RINGKASAN
NURMALENI. Perbandingan Metode Klasifikasi antara Analisis Diskriminan
Verteks dan Diskriminan Fisher. Dibimbing oleh I MADE SUMERTAJAYA dan
BAGUS SARTONO.
Permasalahan klasifikasi banyak dijumpai dalam bidang sosial, bidang
perbankkan dan bidang kedokteran. Metode klasifikasi terus berkembang sebagai
cabang penting dari statistika. Salah satu metode klasifikasi yang berkembang
adalah analisis diskriminan. Analisis diskriminan adalah salah satu metode terbaik
yang digunakan dalam pengklasifikasian objek. Analisis diskriminan bertujuan
untuk mengenali faktor apa saja yang dapat membedakan dua kelompok atau lebih
yang digunakan sebagai cara terbaik untuk memisahkan kelompok individu.
Johnson dan Wichern (2007) menjelaskan bahwa fungsi diskriminan pertama
kali diperkenalkan oleh Ronald A. Fisher pada tahun 1936. Analisis diskriminan
Fisher (ADF) tidak dapat mengklasifikasikan objek pada saat matriks X
berpangkat tidak penuh, karena matriks ragam-peragam bersifat singular sehingga

tidak memiliki matriks kebalikan. Lange dan Wu (2008) memperkenalkan metode
pembelajaran untuk klasifikasi multikategori yang dikenal dengan analisis
diskriminan verteks (ADV). ADV dapat mengklasifikasikan objek pada saat
matriks X berpangkat penuh dan matriks X berpangkat tidak penuh. Klasifikasi
pada ADV dilakukan dengan meminimumkan fungsi tujuan yang melibatkan
-insensitive loss dan penalti kuadrat. Penelitian ini mengkaji kinerja metode
ADV pada saat matriks X berpangkat penuh, dimana kondisi ini tercapai pada saat
banyak observasi n jauh lebih besar dari banyak peubah p. Hasil kesalahan
klasifikasi (nilai APER) metode ADV dibandingkan dengan nilai APER yang
dihasilkan metode ADF untuk melihat kinerja dua metode.
Data dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan
data kasus terapan. Pada kajian simulasi ada 8 kelompok skenario simulasi yaitu
berdasarkan korelasi antar peubah, berdasarkan jarak nilai tengah antar kelompok
dan nilai keragaman. Hasil simulasi menujukan pada saat ukuran observasi n jauh
lebih besar dari banyak peubah p, dengan asumsi kenormalan dan kehomogenan
matriks ragam-peragam terpenuhi, pada saat peubah berkorelasi ADF lebih baik
dalam pengklasifikasian daripada ADV. Jika peubah tidak ada korelasi metode
ADF dan ADV memiliki kemampuan sama dalam klasifikasi. Metode ADF lebih
baik dari ADV jika jarak nilai tengah antar kelompok berjauhan dan metode ADV
dan ADF memiliki kemampuan klasifikasi yang sama jika nilai tengah antar

kelompok berdekatan. Berdasarkan keragaman memperlihatkan pola yaitu
semakin besar nilai keragaman maka kesalahan klasifikasi juga akan meningkat,
tetapi kesalahan klasifikasi pada metode ADV dan ADF tidak jauh berbeda dalam
pengklasifikasian. Oleh karena itu dapat disimpulkan bahwa metode ADV dan
ADF mempunyai kemampuan yang sama dalam pengklasifikasian.
Data terapan pada penelitian ini terdiri dari dua jenis kasus yaitu data
terapan untuk kasus matriks X berpangkat penuh dan data terapan untuk matriks
X berpangkat tidak penuh. Data terapan untuk matriks X berpangkat penuh
diambil dari data kabupaten/kota untuk seluruh provinsi yang ada di Pulau
Sumatera yang terdiri dari 151 kabupaten/kota dan 19 peubah. Hasil analisis
menujukkan pada kondisi ini metode ADV dan ADF memiliki kemampuan

klasifikasi yang sama. Sedangkan untuk matriks X berpangkat tidak penuh
diambil dari data kabupaten/kota yang ada di Provinsi Riau yang terdiri dari 12
kabupaten/kota dan 19 peubah. Metode ADV lebih baik dari ADF dalam
pengklasifikasian, karena pada kondisi ini ADF tidak dapat digunakan.
Kata kunci : analisis diskriminan Fisher, analisis diskriminan verteks

SUMMARY
NURMALENI. Comparison of Classification Method of Analisis diskriminan

verteks and Fisher‟s Discriminant Analysis. Supervised by I MADE
SUMERTAJAYA and BAGUS SARTONO.
Classification problems are often found in the social sector, a banking field,
and the field of medicine. Classification methods continue to evolve as an
important branch of statistics. One method of classification is developed
discriminant analysis. Discriminant analysis is one of the best methods used in
object classification. Discriminant analysis aims to identify factors that can
differentiate two or more groups are used as the best way to separate groups of
individuals.
Johnson dan Wichern (2007) explained that the first of discriminant
function was introduced by Ronald A. Fisher in 1936. Fisher‟s discriminant
analysis (FDA) can not classify object if the matrix X not full rank. In this case,
FDA gives singularity in the variance-covariance matrix that affecting the
existence of invers. Lange and Wu (2008) introduced a new method of supervised
learning control for multicategory classification. It is called the vertex
discriminant analysis (VDA). VDA can classify object when the matrix X full
rank and matrix X not full rank. VDA classifications is performed by minimizing
the objective of functions involving -insensitive loss and quadratic penalty. In
this study, we will be showed the performance of the VDA when the matrix X full
rank. This condition is reached at a time when observations n larger than

variables p. The performance of Fisher discriminant analysis and Multicategory
Analisis diskriminan verteks were compared by value of APER.
Research data, there are two types of data are simulated data and case data.
In the simulation study, there are 8 groups of simulation scenarios are based on
the correlation between variables, based on the distance of the midpoint between
the group and the value of diversity. The results of simulation showed that
Fisher‟s discriminant analysis was better than VDA when the assumption of
normality and homogeneity of variance-covariance matrix were satisfied,
variables have correlation. If there is no correlation variables, FDA and VDA
have the same ability in classification. If the centriod between the groups apart,
FDA is better than VDA, but VDA and FDA have the same ability on the apposite.
Based on the variaty of data simulation, VDA and FDA have the same ability in
the classification. It can be seen the classification error on VDA and FDA are not
much different in the classification.
The data applied in this study consists of two types cases, that is case data
when the matrix X full rank and matrix X not full rank. Case data when the matrix
X full rank is taken from data of regencies/district for all provinces in Sumatera,
which consists of 151 regencies/cities and 19 variables. Results of the analysis
showed that VDA and FDA method have the same classification ability. whereas
when the matrix X not full rank is taken from data of regencies/cities in Riau,

which consists of 12 regencies/cities and 19 variables. The previously analysis
was concluded that VDA was better than the FDA in classification. In condition,
We can not used the FDA methods. FDA can not classify object because the

matrix X not full rank. In this case, FDA gives singularity in the variancecovariance matrix that affecting the existence of invers.

Keywords: Fisher‟s discriminant analysis, vertex discriminant analysis

© Hak Cipta Milik IPB, Tahun 2015
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB

PERBANDINGAN METODE KLASIFIKASI ANTARA ANALISIS
DISKRIMINAN VERTEKS DAN DISKRIMINAN FISHER


NURMALENI

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Sains
pada
Program Studi Statistika

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015

Penguji pada Ujian Tertutup: Dr Anang Kurnia SSi, MSi

Judul Tesis
Nama
NIM


: Perbandingan Metode Klasifikasi antara Analisis diskriminan
verteks dan Diskriminan Fisher
: Nurmaleni
: G151120171

Disetujui oleh
Komisi Pembimbing

Dr Ir I Made Sumertajaya, MSi
Ketua

Dr Bagus Sartono, SSi, MSi
Anggota

Diketahui oleh

Ketua Program Studi
Statistika

Dekan Sekolah Pascasarjana


Dr Ir Anik Djuraidah, MS

Dr Ir Dahrul Syah, MScAgr

Tanggal Ujian: 5 Januari 2015

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis ucapkan kehadirat Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga penulis dapat menyelesaikan karya ilmiah ini.
Shalawat serta salam semoga tetap tercurah kepada junjungan kita Nabi besar
Muhammad Shalallahu „Alaihi Wassallam beserta keluarga Beliau, para Shahabat,
para tabi‟in, tabi‟ut tabi‟in dan para penerus perjuangan Beliau hingga akhir
zaman. Karya ilmiah ini berjudul “Perbandingan Metode Klasifikasi antara
Analisis diskriminan verteks dan Diskriminan Fisher”.
Keberhasilan penulisan karya ilmiah ini tidak lepas dari bantuan,
bimbingan, dan petunjuk dari berbagai pihak. Oleh karena itu, penulis
menyampaikan penghargaan dan ucapan terima kasih yang sebesar-besarnya

khususnya kepada:
1. Bapak Dr Ir I Made Sumertajaya, MSi selaku pembimbing I dan Bapak Dr
Bagus Sartono, SSi, MSi selaku pembimbing II yang dengan kesabaran telah
banyak memberi bimbingan, arahan, serta saran kepada penulis selama
penyusunan karya ilmiah ini.
2. Bapak Dr Anang Kurnia SSi, MSi selaku penguji luar komisi yang telah
banyak memberikan kritikan, masukan, dan arahan yang sangat membangun
dalam penyusunan karya ilmiah ini.
3. Seluruh staf pengajar pascasarjana Departemen Statistika IPB yang telah
banyak memberikan ilmu dan arahan selama perkuliahan sampai dengan
penyusunan karya ilmiah ini.
4. Teman-teman statistika angkatan 2012 atas kebersamaan, kekompakannya,
bantuan dan masukannya selama bersama-sama menempuhkuliah.
5. Kedua orang tua serta seluruh keluarga atas do‟a, dukungan, dan kasih
sayangnya.
6. Seluruh pihak yang namanya tidak dapat disebutkan satu per satu, terima kasih
atas bantuannya.
Atas segala bantuan yang diberikan, penulis hanya bisa berdoa dengan
harapan semoga semua kebaikan yang penuh keikhlasan tersebut dicatat sebagai
amal ibadah dan mendapatkan balasan berupa pahala disisi Allah Subhanahu wa

ta’ala, Aamiin Ya Rabbal Alamin. Semoga karya ilmiah ini bermanfaat serta
dapat menambah wawasan bagi para pembaca. Kritikan yang membangun sangat
penulis harapkan demi perbaikan karya ilmiah ini dimasa yang akan datang.

Bogor, Februari 2015

Nurmaleni

DAFTAR ISI
DAFTAR TABEL
DAFTAR GAMBAR
DAFTAR LAMPIRAN

vi
vi
vi

PENDAHULUAN
Latar Belakang
Tujuan Penelitian

1
1
2

TINJAUAN PUSTAKA
Analisis Diskriminan Verteks (ADV)
Fungsi Tujuan pada ADV
Algoritma MM (Majorize-Minimize)
Mayorisasi Fungsi Kerugian dan Fungsi Tujuan
Ukuran Kesalahan Pengklasifikasian dalam Analisis Diskriminan

2
2
3
3
4
5

METODE PENELITIAN
Data
Metode Analisis

6
6
8

HASIL DAN PEMBAHASAN
Kajian Simulasi
Kajian Terapan

9
10
13

SIMPULAN DAN SARAN
Simpulan
Saran

21
21
21

DAFTAR PUSTAKA

22

LAMPIRAN

23

RIWAYAT HIDUP

42

DAFTAR TABEL
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Contoh nilai titik simpul
Perbedaan delapan kelompok skenario
Deskripsi data simulasi untuk banyak kelompok 3
Rata-rata APER dari semua rata-rata simulasi berdasarkan hubungan
antar peubah
Rata-rata APER dari semua rata-rata simulasi berdasarkan jarak nilai
tengah antar kelompok
Rata-rata APER dari semua rata-rata simulasi berdasarkan kergaman
data
Deskripsi data persentase penduduk per-kabupaten/kota di Pulau
Sumatera untuk masing-masing peubah pada setiap kelompok
Deskripsi data tingkat kemiskinan Kabupaten/Kota untuk masingmasing kelompok
Kebaikan model diskriminan untuk metode ADV untuk 106 data
training pada kasus matriks X berpangkat penuh
Nilai peubah untuk objek pertama data testing ( Kepulauan Mentawai)
Titik simpul, jarak antara objek dan titik simpul
Hasil klasifikasi model diskriminan ADV untuk 45 data testing pada
kasus matriks X berpangkat penuh
Kebaikan model diskriminan untuk metode ADF untuk 106 data
training pada kasus matriks X berpangkat penuh
Hasil klasifikasi model diskriminan Fisher untuk 45 data testing pada
kasus matriks X berpangkat penuh
Kebaikan model diskriminan ADV untuk 12 data training pada kasus
matriks X berpangkat tidak penuh

3
7
10
12
12
13
15
15
16
17
17
18
19
19
20

DAFTAR GAMBAR
1
2
3

Diagram alir perbandingan efisiensi motode ADV dan ADF
Nilai APER antara metode ADF dan ADV dengan berbagai nilai S2
pada kelompok skenario 1
Histogram dan kurva normal data tingkat kemiskinan kabupaten/kota di
Pulau Sumatera

8
11
14

DAFTAR LAMPIRAN
1
2
3
4
5

Ringkasan simulasi
Nilai APER antara metode ADF dan metode ADV
dengan berbagai nilai S2 pada kelompok skenario 2
Nilai APER antara metode ADF dan metode ADV
dengan berbagai nilai S2 pada kelompok skenario 5
Nilai APER antara metode ADF dan metode ADV
dengan berbagai nilai S2 pada kelompok skenario 6
Nilai APER antara metode ADF dan metode ADV
dengan berbagai nilai S2 pada kelompok skenario 7

24
untuk 100 ulangan
27
untuk 100 ulangan
28
untuk 100 ulangan
28
untuk 100 ulangan
29

6
7
8
9
10
11
12
13
14
15

16

Nilai APER antara metode ADF dan metode ADV untuk 100 ulangan
dengan berbagai nilai S2 pada kelompok skenario 8
Rangkuman hasil analisis kedelapan kelompok skenario
Data persentase penduduk kabupaten/kota di Pulau Sumatera dengan 19
peubah indikator kesejahteraan masyarakat
Output ADV untuk data training
Dugaan koefisien fungsi diskriminan yang dibentuk oleh ADV
Kabupaten/kota, Jarak objek ketitik simpul, kelompok awal, dugaan
kelompok dengan ADV
Output analisis diskriminan Fisher untuk data training
Output ADV untuk data ukuran objek n besar dari banyak peubah p
(Provinsi Riau)
Deskripsi data simulasi untuk banyak kelompok 8
Perbandingan persentase antara metode ADV dan ADF dalam
melakukan pengklasifikasian dengan nilai APER lebih kecil dari 100
kali ulangan
Data persentase penduduk per kabupaten/kota berdasarkan indikator
kesejahteraan masyarakat di Provinsi Riau

29
30
31
35
35
36
37
38
40

41
41

PENDAHULUAN
Latar Belakang
Metode klasifikasi banyak digunakan di berbagai bidang ilmu seperti sosial,
ekonomi, perbankan, dan kedokteran. Metode klasifikasi adalah sebuah metode
dari data mining yang digunakan untuk memprediksi kelompok suatu data pada
kelompok kelas yang sudah ada sebelumnya (Izenman 2008). Metode klasifikasi
terus berkembang sebagai cabang penting dari statistika. Salah satu metode
klasifikasi yang banyak digunakan untuk pengklasifikasian objek (observasi)
adalah analisis diskriminan. Analisis diskriminan yang berkembang sampai saat
ini ada beberapa yaitu analisis diskriminan linier Fisher (ADF), analisis
diskriminan kuadratik, analisis diskriminan kanonik dan analisis diskriminan
linier yang terbaru adalah analisis diskriminan verteks (ADV). Pada karya ilmiah
ini, peneliti membandingkan dua metode diskriminan linier yaitu ADF dan ADV.
Analisis diskriminan merupakan teknik statistika yang umum digunakan
dalam pengklasifikasian (memisahkan) suatu objek dan mengalokasikan objek
baru ke dalam suatu kelompok yang telah didefinisikan sebelumnya. Analisis
diskriminan menghasilkan fungsi pembeda yang digunakan untuk memisahkan
kelompok. Menurut Mattjik dan Sumertajaya (2011), analisis diskriminan adalah
salah satu teknik statistik yang digunakan pada kasus peubah respon berupa data
kualitatif dan peubah penjelas berupa data kuantitatif. Menurut Rencher (2002),
fungsi diskriminan merupakan kombinasi linier peubah asal yang akan
menghasilkan cara terbaik dalam pemisahan kelompok. Fungsi ini memberikan
nilai sedekat mungkin bagi objek-objek dalam kelompok yang sama dan sejauh
mungkin bagi objek-objek antar kelompok.
Johnson dan Wichern (2007) menjelaskan bahwa fungsi diskriminan
pertama kali diperkenalkan oleh Ronald A. Fisher pada tahun 1936. Analisis
diskriminan Fisher (ADF) dapat digunakan untuk klasifikasi dua kategori dan
klasifikasi multikategori dengan mensyaratkan beberapa asumsi. ADF memiliki
keterbatasan dalam penggunaannya yaitu tidak dapat mengklasifikasikan objek
pada saat matriks X berpangkat tidak penuh. Kondisi tersebut biasanya tercapai
jika ukuran observasi n kecil dari banyak peubah p. Pada kondisi ini pembentukan
fungsi diskriminan tidak dapat dilakukan karena matriks ragam-peragam akan
bersifat singular sehingga tidak memiliki matriks kebalikan.
Lange dan Wu (2008) memperkenalkan metode klasifikasi multikategori
yang dikenal dengan ADV. Dibandingkan dengan ADF, ADV dapat
mengklasifikasikan objek pada saat matriks X berpangkat tidak penuh. Masingmasing verteks pada ADV mewakili kategori yang berbeda pada masing-masing
kelompok. Klasifikasi pada ADV dilakukan dengan meminimumkan fungsi tujuan
yang melibatkan -insensitive loss dan penalti kuadrat. Penambahan penalti
kuadrat digunakan dalam seleksi peubah dengan cara memperkecil koefisien
parameter yang berkorelasi, yakni menuju nilai nol (Hastie et al. 2008).
Fungsi tujuan pada ADV dapat diminimumkan dengan menggunakan
algoritma Majorize-Minimize (Lange 2004; Hunter dan Lange 2004). Algoritma
MM digunakan untuk mendekatkan fungsi kerugian dengan fungsi kuadrat dan
diminimumkan dengan menggunakan reweighted least squares (Lange 2004).

2
Pada penelitian ini dikaji kinerja dari metode ADV untuk matriks X
berpangkat penuh. Kondisi ini biasanya tercapai pada saat banyaknya observasi n
jauh lebih besar dari banyak peubah p. Hasil kesalahan klasifikasi (nilai APER)
metode ADV akan dibandingkan dengan nilai APER yang dihasilkan metode
ADF. Selain itu, pada data kasus akan dilakukan analisis metode ADV untuk
banyak observasi n jauh lebih kecil dari banyak peubah p.
Tujuan Penelitian
Tujuan dari penelitian ini, antara lain :
1. Mendapatkan tahapan proses dan salah pengklasifikasian suatu objek ke dalam
suatu kelompok menggunakan ADF dan ADV.
2. Membandingkan hasil salah klasifikasi antara metode ADF dengan ADV untuk
memperoleh hasil terbaik berdasarkan salah klasifikasi yang minimum.

TINJAUAN PUSTAKA
ADV
ADV merupakan metode pembelajaran untuk klasifikasi multikategori
seperti yang telah dijelaskan oleh Lange dan Wu (2008). Verteks adalah suatu titik
simpul berjarak sama pada ruang simplek dalam ruang Euclide yang digunakan
untuk pengkodean atau pelabelan indikator kelas dari masing-masing kelompok.
Masing-masing titik simpul menunjukan kategori yang berbeda.
Titik Berjarak Sama di
Proposisi 1. Sangat mungkin untuk memilih k+1 titik berjarak sama di
tetapi
tidak untuk k+2 titik berjarak sama di bawah Norm Euclide.
Kasus yang paling sederhana dari analisis diskriminan adalah klasifikasi
biner (klasifikasi dua kategori). Indikator kelompok umumnya dilabelkan dengan
titik -1 dan 1 pada garis nyata untuk membedakan kedua kelompok. Pemilihan
tiga titik simpul berjarak sama dilakukan pada bidang datar (segitiga sama sisi).
Hal ini disebabkan karena pemilihan tiga titik tidak dapat dilakukan dalam satu
garis. Secara umum, kita dapat memilih (k+1) titik simpul ( 1,..., k+1) pada
simpleks regular dalam k (ruang dimensi k) dan banyak kategori (k+1)>3.
Penentuan titik simpul pada simpleks reguler menurut Lange dan Wu (2008) salah
satunya adalah sebagai berikut:
{
dengan



c

, d √

d

,

, untuk

untuk

(1)

, ej adalah standar unit vektor bernilai 1 pada saat

k
. Titik simpul sebanyak k+1 selalu
ke-j dan 0 untuk lainnya dalam
mempertahankan sifat berjarak sama pada saat dicerminkan atau diperbesar.

3
Beberapa contoh nilai titik simpul untuk beberapa kategori di ruang
pada Tabel 1.

k

disajikan

Tabel 1 Contoh nilai titik simpul
Banyak kategori (k+1)

Keterangan
= 1.000

2

=-1.000
0.
=[
]
0.
0
=[
]
-0.
=[-0. ]
0.

3

c

c -









,d √ ,

,d √
[ ],
0

0
[ ]

: titik simpul kelompok ke-j

Memaksimumkan atau meminimumkan fungsi tujuan merupakan suatu
proses optimasi. Fungsi tujuan sama dengan nilai harapan dari fungsi kerugian.
Meminimumkan fungsi tujuan sama dengan meminimumkan nilai harapan
kerugian. Analisis diskriminan juga bertujuan meminimumkan nilai harapan
kerugian
,
, |
dengan y dan x masing-masing
menunjukan indikator kelas dan vektor penciri untuk kasus acak, dan
,
adalah fungsi kerugian. Hal ini sulit dilakukan, sehingga untuk pendugaan
parameter dilakukan dengan cara meminimumkan rata-rata kondisi kerugian
∑n
dengan menambahkan batas penalti. Pengklasifikasian ADV
n i
dilakukan dengan meminimumkan fungsi tujuan yang melibatkan fungsi kerugian
untuk mengukur kesalahan empirik dalam fungsi tujuan, dan penalti kuadrat
bertujuan memperkecil nilai dugaan menuju nol untuk peubah-peubah yang
berkorelasi.
Fungsi Tujuan pada ADV
Pendugaan parameter pada ADV untuk proses klasifikasi diduga dengan
cara meminimumkan fungsi tujuan yang didefinisikan dengan persamaan:










‖ ‖ ,

(2)

Dengan n = n1+n2 … nj, i
,…,n1,n2,…,n1+1,…,n2,…,nj,…,n, θ(A,b) adalah
himpunan semua parameter yang tidak diketahui, b matriks berukuran k 1, A
matriks berukuran k p dengan p adalah banyaknya peubah X dan k adalah banyak
kategori dikurangi 1,
adalah tugas titik simpul ke-j pada observasi ke-i (k 1),
∑ ‖ ‖ adalah penalti pada matriks A dari parameter slope ( baris ke-j dari
matriks A(kxp)), ‖
‖ adalah fungsi kerugian, dan konstansta
-insensitive jarak Euclid
pemulus λ≥0. Fungsi kerugian yang digunakan adalah
yang didefinisikan sebagai berikut:

4


dengan = √

.



‖ ‖

‖ ‖
‖ ‖

{
‖ ‖

(3)

Algoritma MM

Algoritma MM (Majorize-Minimize) memiliki potensi dalam memecahkan
masalah optimasi dan estimasi dimensi tinggi. Algoritma MM berhasil
menyederhanakan masalah optimasi yang sulit dengan cara iterasi (Hunter &
Lange, 2003; Lange dan Wu, 2010). Algoritma MM melibatkan majorize
(mayorisasi) fungsi tujuan f dengan fungsi pengganti g | m . Fungsi g | m
dikatakan mayorisasi fungsi f pada m apabila
f
f

m

g m| m
g | m ,

(4)

m

untuk

pada m jika –g | m
Fungsi g | m minimize (minimisasi) dari f
m
yang optimum diperoleh dari
mayorisasi f ). Mencari fungsi pengganti g |
tahapan mayorisasi dan diminimumkan pada tahap minimisasi yang menghasilkan
nilai dugaan m . Mengoptimalkan fungsi pengganti akan mendorong fungsi
tujuan keatas atau kebawah sampai optimum lokal. Jika m meminimalkan
g | m maka tahapan minimisasi memaksa sifat turun f( m ) f m . Fakta ini
mengikuti bentuk pertidaksamaan
f(

m

) g( m | m ) f(
g m| m f m
,

m

)
g

g( m |
| m

m

m

)

yang menjelaskan g( m | m ) g m | m dan persamaan (4). Sifat turun ini
membuat algoritma MM sangat stabil.
Fungsi pengganti yang sangat ideal digunakan untuk tujuan komputasi
adalah fungsi kuadrat (Lange dan Wu, 2008). Algoritma MM diharapkan dapat
mencapai konvergen minimum global untuk fungsi tujuan yang sangat cembung
sehingga dapat menghasilkan solusi yang unik.
Mayorisasi Fungsi Kerugian dan Fungsi Tujuan
‖ ‖ yang didefinisikan pada
Mayorisasi fungsi kerugian
persamaan (3) dihasilkan dari penggunaan pertidaksamaan Cauchy-Schwarz.
‖ ‖
Pertidaksamaan Cauchy-Schwarz g | m untuk mayorisasi fungsi
(Lange dan Wu, 2008) adalah sebagai berikut:

5

g |

c

m

dan c



m

‖ m‖

m‖

m‖



‖ ‖

{

.

‖ ‖







m‖

,

m‖

untuk ‖



untuk



untuk ‖





(6)


Berdasarkan persamaan (6) mayorisasi fungsi tujuan dapat ditulis sebagai berikut:



untuk



[ ∑





∑‖ ‖

(r -s )

, dengan bobot kasus

{

dengan

{

(




m‖



m‖



,

m‖

untuk ‖

,

untuk

untuk ‖
untuk ‖

m

m‖

)

λ‖ ‖ ]

untuk ‖

,

m

(7)

untuk

m ‖≥
m‖



m ‖≥

m ‖≥
m‖



m ‖≥

dan d adalah konstanta yang bergantung pada residual pada iterasi ke-m.
Golud dan Van Loan (1996) menjelaskan bahwa minimalisasi pada fungsi
pengganti memperkecil dugaan pembobot kuadrat terkecil. Meminimumkan
fungsi pengganti pada algoritme MM dilakukan untuk mendapatkan penduga
pada iterasi (m+1) yang dilakukan dengan memecahkan k
pasang persamaan linier. Untuk memecahkan k pasang persamaan linier cukup
menggunakan Cholesky Decomposition tunggal untuk setiap iterasi karena
matriks
untuk semua k sama, dengan adalah baris ke-i
dan
adalah matriks diagonal dengan nilai diagonalnya adalah . Prediksi k pasang
pada observasi ke-i adalah
persamaan linier
a
(

) (
ak,

a

p

ak,p

b
) ( )
ip
bk
i

)(

(8)

6
sedangkan untuk n obsevasi
t
t

ip

(

n

a

a

)(
ak,
np

t

p

ak,p

)

b t
( )
bk

(9)

Bentuk persamaan (11) jika diperhatikan sama dengan model regresi multivariat
untuk n observasi. Klasifikasi respon untuk kasus baru pada metode ADV
diprediksi dengan
(10)
̂ argmin
‖ ̂ ̂‖
Ukuran Kesalahan Pengklasifikasian dalam Analisis Diskriminan

Apparent error rate (APER) adalah salah satu metode untuk
mengevaluasi Analisis Diskriminan dalam pengklasifikasian. Nilai APER
menurut Johnson dan Wichern (2002) adalah banyaknya persentase yang salah
dalam pengelompokannya oleh fungsi klasifikasi.
A

jumlah total objek ang salah dalam pengklasifikasian
jumlah total objek

METODE PENELITIAN
Data
Data dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan
data kasus terapan. Lang dan Wu (2008) telah menjelaskan bahwa metode ADV
dapat mengklasifikasikan objek pada saat matriks X berpangkat tidak penuh. Pada
kondisi tersebut metode ADF tidak dapat mengklasifikasikan objek karena
matriks ragam-peragamnya bersifat singular, sehingga tidak memiliki matriks
kebalikan. Tujuan dari peneltian ini adalah melihat kinerja dari metode ADV pada
saat matriks X pangkat penuh dan membandingkan dengan metode ADF. Oleh
karena itu, data simulasi dibangkitkan dengan kondisi banyak objek n jauh lebih
besar dari p. Masing-masing simulasi diulang 100 kali. Data simulasi digunakan
untuk mengukur dan membandingkan kinerja antara metode ADV dan ADF
dengan menggunakan nilai kesalahan klasifikasi (APER). Data kasus terapan
digunakan sebagai penerapan contoh kasus untuk metode ADV dan ADF.
Data Simulasi
Langkah-langkah analisis data pada proses pembangkitan data simulasi
terbagi atas 2 tahap, yaitu:
Tahap I : Membangkitkan data
Langkah dalam membangkitkan data adalah sebagai berikut:
a. Menentukan banyak kelompok yang akan dibentuk yaitu 3 dan 8 kelompok
b. Menentukan ukuran contoh yaitu 50 untuk masing-masing kelompok
c. Menentukan banyak peubah bebas (X) yaitu 3 peubah (X1,X2,X3)

7
d. Menentukan vektor rataan untuk masing-masing kelompok (µ1,µ2,µ3 dan
µ1,µ2,…,µ8)
e. Menentukan matriks ragam-peragam (1,2,3) untuk banyak kelompok 3
dan (1,2,3,4,5,6,7,8) untuk banyak kelompok 8 dengan formula
j = Sj1/2RjSj1/2, Rj adalah matriks korelasi antar peubah X dan Sj1/2 adalah
matriks diagonal yang elemen diagonalnya merupakan simpangan baku
masing-masing peubah X, berdimensi 3 3
f. Membangkitkan peubah acak normal baku Z1,Z2,Z3 untuk banyak
kelompok 3 dan Z1,Z2,Z3,Z4,Z5,Z6,Z7,Z8 untuk banyak kelompok 8 dengan
Zj~N3(0,1) sebanyak 50 untuk masing-masing kelompok dengan j=1, 2, 3
dan j , , …,
g. Menguraikan setiap matriks j menjadi HTH
h. Membangkitkan peubah acak normal ganda Gj sebanyak nj untuk kelompok
ke-j, dengan Gj ~ Np(µj,j) dan Gj=ZjH+1 µjT
i. Menggabungkan data semua kelompok menjadi satu data simulasi.
Tahap II: Menyusun skenario simulasi
Ada 8 kelompok skenario simulasi yang akan dilakukan. Pada setiap
simulasi, data dibangkitkan secara acak mengukuti normal ganda. banyak
observasi 50 untuk masing-masing kelompok dan banyak peubah bebas 3.
Perbedaan kedelapan kelompok skenario tersaji pada Tabel 2.

Tabel 2 Perbedaan kedelapan kelompok skenario
Kelompok
Skenario

Banyak
Kelompok

1
2
3
4
5
6
7
8

3
3
3
3
8
8
8
8

Jarak Nilai
Tengah Antar
Kelompok
Dekat
Dekat
Jauh
Jauh
Dekat
Dekat
Jauh
Jauh

Korelasi
Antar
Peubah
Tidak Ada
Ada
Tidak Ada
Ada
Tidak Ada
Ada
Tidak Ada
Ada

Ragam
Kecil, Besar, berbeda
Kecil, Besar, berbeda
Kecil, Besar, berbeda
Kecil, Besar, berbeda
Kecil, Besar, berbeda
Kecil, Besar, berbeda
Kecil, Besar, berbeda
Kecil, Besar, berbeda

Masing-masing skenario diulang sebanyak 100 kali ulangan. Secara
lengkap skenario simulasi dapat dilihat pada Lampiran 1.
Data Kasus Terapan
Tingkat kemiskinan adalah persentase penduduk miskin dari seluruh
penduduk pada suatu daerah (Berita Resmi Statistik, 2014). Semakin besar
persentase tingkat kemiskinan maka jumlah penduduk miskin pada daerah
tersebut semakin banyak, sehingga dapat dikatakan daerah tersebut adalah daerah
dengan masalah kemiskinan terparah dan begitu juga sebaliknya.
Data terapan yang digunakan dalam penelitian ini adalah data sekunder yang
diperoleh dari data SUSENAS 2010. Data sekunder yang digunakan adalah data
persentase penduduk per-kabupaten/kota berdasarkan indikator kesejahteraan

8
masyarakat di Pulau Sumatera yang digunakan sebagai peubah X untuk mengukur
tingkat kemiskinan Y. Data diambil pada level provinsi di Pulau Sumatera yang
terdiri dari 9 provinsi dan 151 kabupaten/kota. Data terapan pada penelitian ini
terdiri dua jenis kasus yaitu data terapan untuk kasus matriks X berpangkat penuh
dan data terapan untuk matriks X berpangkat tidak penuh.
Matriks X berpangkat penuh seperti yang telah dijelaskan biasanya tercapai
pada saat banyak observasi n jauh lebih besar dari banyak peubah p. Oleh karena
itu, data terapan untuk matriks X berpangkat penuh diambil dari data
kabupaten/kota untuk seluruh provinsi yang ada di Pulau Sumatera yang terdiri
dari 151 kabupaten/kota dan 19 peubah.
Sedangkan untuk matriks X berpangkat tidak penuh biasanya tercapai pada
saat banyak observasi n lebih kecil dari banyak peubah p. Berdasarkan hal
tersebut, data terapan untuk kasus matriks X berpangkat tidak penuh diambil dari
data kabupaten/kota yang ada di Provinsi Riau yang terdiri dari 12 kabupaten/kota
dan 19 peubah.
Oleh karena tidak adanya teori atau penelitian sebelumnya yang mendasari
pengelompokan tingkat kemiskinan per-kabupaten/kota, maka peneliti
mengelompokan tingkat kemiskinan Y menjadi 3 kelompok berdasarkan sebaran
empirik data. Kelompok 1 adalah kabupaten/kota dengan tingkat kemiskinan di
bawah 7.5% (daerah tidak miskin), kelompok 2 adalah kabupaten/kota dengan
tingkat kemiskinan antara 7.5% sampai dengan 22.5% (daerah dengan masalah
kemiskinan sedang) dan kelompok 3 adalah kabupaten/kota dengan tingkat
kemiskinan di atas 22.5% (daerah dengan masalah kemiskinan terparah). Peubah
yang digunakan dalam penelitian ini adalah (BPS, 2010):
X1 : tingkat pengangguran terbuka (%)
X2 : angka partisipasi angkatan kerja (%)
X3 : pekerja yang bekerja selama kurang dari 14 jam seminggu (%)
X4 : pekerja yang bekerja selama kurang dari 35 jam seminggu (%)
X5 : pekerja disektor informal (%)
X6 : persentase balita kekurangan gizi (%)
X7 : angka kematian bayi per 1000 kelahiran hidup
X8 : kelahiran ditolong oleh tenaga medis (%)
X9 : penduduk dengan keluhan kesehatan (%)
X10 : angka morbiditas (terkena penyakit) (%)
X11 : rata-rata lama sakit (%)
X12 : penduduk yang melakukan pengobatan sendiri (%)
X13 : angka putus sekolah penduduk usia (7-15) tahun (%)
X14 : angka partisipasi pendidikan sekolah dasar (APM)
X15 : angka partisipasi pendidikan sekolah menengah pertama (APM)
X16 : angka partisipasi pendidikan sekolah menengah atas (APM)
X17 : proporsi rumah tangga dengan akses air bersih (%)
X18 : proporsi rumah tangga tanpa akses sanitasi (%)
X19 : angka harapan hidup per tahun (%)
Metode Analisis
Langkah-langkah analisis data yang dilakukan adalah sebagai berikut:
1. Membandingkan efisiensi dua metode klasifikasi ADV dan ADF.

9

Gambar 1 Diagram alir untuk membandingkan efisiensi metode ADV dab ADF

a. Pembentukan fungsi ADV dengan tahapan: (Lange dan Wu 2008)
1. Menetapkan iterasi awal m=0 dengan A(0)=0 dan b(0)=0
2. Menentukan nilai titik simpul dari masing-masing kelompok dengan
persamaan (1) dan mendefinisikan
3. Majorize fungsi kerugian yang diregularisasi pada persamaan (7) dengan
residual ke-i
4. Meminimumkan fungsi pengganti dengan menentukan A(m+1) dan b(m+1)
yang diperoleh dari memecahkan k pasang persamaan linier
5. Jika ‖

dan |
|
dengan
maka stop, Jika tidak ulangi langkah 3 sampai 5
6. Setelah mendapatkan fungsi diskriminan untuk membedakan masingmasing kelompok dilakukan tahapan pengklasifikasian metode ADV
dengan persamaan 10.
7. Menghitung nilai APER
b. Pembentukan fungsi diskriminan Fisher dengan tahapan: (Johnson dan
Wichern 2002)
1. Mengecek asumsi ADF
a. Pengecekan asumsi data berdistribusi normal ganda menggunakan plot
kuantil khi kuadrat
b. Menguji kehomogenan matriks ragam-peragam (
)
menggunakan statistik Bo ‟s M
c. Menguji multikolinieritas
d. Menguji tidak adanya pencilan

10
2. Membentuk fungsi diskriminan Fisher
, vektor koefisien pembobot
fungsi diskriminan a(px1) adalah vektor ciri dari
, x adalah vektor
peubah bebas yang diidentifikasi dalam fungsi diskriminan.


dengan

∑( ̅

;

̅) ( ̅

̅)



̅

̅

3. Mengklasifikasikan observasi baru berdasarkan persamaan diskriminan
linier Fisher, alokasikan x ke kelompok j jika



̅̅̅ ]
̅
̅ )]
̂

[̂(

4. Menghitung nilai APER untuk semua data simulasi.
5. Membandingkan hasil kesalahan klasifikasi dari kedua metode, yaitu ADV
dan ADF menggunakan APER untuk masing-masing metode.

2. Penerapan data kasus untuk metode ADV dengan tahapan analisis:
1. Membagi data kemiskinan menjadi dua, yaitu data training dan data testing
dengan persentase masing-masing 70% dan 30%. Data training digunakan
untuk membentuk fungsi diskriminan dan data testing digunakan untuk
evaluasi kesalahan pengklasifikasian.
2. Melakukan proses pembentukan fungsi diskriminan dengan metode ADV
seperti diagram alir tahapan metode ADV
3. Mengklasifikasikan objek berdasarkan fungsi diskriminan
4. Menghitung kesalahan klasifikasi berdasarkan nilai APER

HASIL DAN PEMBAHASAN
Pada bab ini dibahas mengenai kajian simulasi dan kajian terapan. Lang
dan Wu (2008) menjelaskan bahwa metode ADV dapat mengklasifikasikan objek
pada saat pangkat dari matriks data X lebih kecil dari banyak peubah p. Kondisi
ini biasanya terjadi jika banyak objek n kecil dari peubah p. Pada kondisi ini
metode ADF tidak dapat mengklasifikasikan objek karena matriks ragam
peragamnya bersifat singular, sehingga tidak memiliki matriks kebalikan. Karena
tujuan dari peneltian ini adalah membandingkan kinerja antara metode ADV dan
ADF, maka data simulasi dibangkitkan pada saat pangkat dari matriks data X
lebih besar dari banyak peubah p. Evaluasi dilakukan dengan cara melihat nilai
APER. Metode yang menghasilkan nilai APER yang paling kecil adalah metode
yang paling baik dalam pengklasifikasian.

11
Kajian Simulasi
Pada kajian simulasi ada 8 kelompok skenario simulasi. Masing-masing
kelompok skenario simulasi terdiri dari 5 simulasi. Masing-masing simulasi
dianalisis dengan metode ADV dan ADF dengan 100 kali ulangan. Metode ADV
dan ADF menghasilkan 100 nilai APER. Selajutnya nilai APER masing-masing
metode dirata-ratakan dan dibandingkan untuk melihat kinerja dari metode ADV
dan ADF. Gambaran data hasil bangkitan untuk semua simulasi dengan banyak
kelompok 3 dapat dilihat pada Tabel 3 dan banyak kelompok 8 tersaji pada
Lampiran 14.

Tabel 3 Deskripsi data simulasi untuk banyak kelompok 3
Simu
lasi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Nilai Tengah Setiap Kelompok Untuk Masing-Masing Peubah
Kelompok 1
Kelompok 2
Kelompok 3
x1
x2
x3
x1
x2
x3
x1
x2
x3
11.250 12.680 14.008 14.264 12.687 11.199 12.486 11.149 14.164
11.529 12.846 13.971 14.509 12.786 11.248 12.331 11.178 14.553
11.697 12.956 13.962 14.670 12.877 11.326 12.277 11.234 14.728
11.828 13.042 13.955 14.797 12.948 11.388 12.235 11.278 14.866
11.515 13.015 13.964 14.496 12.926 11.311 12.335 11.264 14.695
11.300 12.782 14.191 14.354 12.795 11.302 12.618 11.142 14.238
11.534 13.002 14.339 14.630 13.025 11.538 12.710 11.252 14.423
11.703 13.161 14.447 14.830 13.191 11.708 12.776 11.332 14.557
11.836 13.286 14.531 14.986 13.322 11.842 12.829 11.395 14.662
11.508 13.194 14.397 14.609 13.228 11.651 12.749 11.409 14.577
5.298 10.195 49.984 10.286 50.161 40.139 39.905 5.100 30.311
5.529 10.346 49.971 10.509 50.286 40.248 39.831 5.177 30.553
5.697 10.456 49.962 10.670 50.377 40.326 39.777 5.234 30.728
5.828 10.542 49.955 10.797 50.448 40.388 39.735 5.278 30.866
5.515 10.515 49.964 10.496 50.426 40.311 39.835 5.264 30.695
5.300 10.282 50.191 10.354 50.295 40.302 40.118 5.142 30.238
5.534 10.502 50.339 10.630 50.525 40.538 40.210 5.252 30.423
5.703 10.661 50.447 10.830 50.691 40.708 40.276 5.332 30.557
5.836 10.786 50.531 10.986 50.822 40.842 40.329 5.395 30.662
5.508 10.694 50.397 10.609 50.728 40.651 40.249 5.409 30.577

Berdasarkan deskripsi data simulasi pada Tabel 3 terlihat bahwa untuk
kelompok skenario1,2,3,4 nilai tengah setiap kelompok mendekati nilai tengah
masing-masing kelompok pada skenario simulasi yang dibentuk. Hal ini
menunjukan bahwa simulasi yang dibentuk sudah sesuai.
Kelompok Skenario 1
Pada kelompok skenario 1 data dibangkitkan secara acak mengukuti
normal ganda, banyak objek 50 untuk masing-masing kelompok dan banyak
kelompok (k+1=3). banyak peubah bebas (p=3), µ untuk masing-masing
kelompok berdekatan (µ1=(11,12.5,14) µ2=(14,12.5,11) µ3=(12.5,11,14)) dan

12
tidak ada korelasi antar peubah. Hasil analisis data untuk kelompok skenario 1
tersaji pada Gambar 2.

(1) S2=(1,1,1)

(3) S2=(√





(2) S2=(√

)

(4) S2=(√









)

)

(5) S2=(√ √ √ )
Gambar 2 Nilai APER antara metode ADF dan metode ADV dengan berbagai
nilai S2 pada kelompok skenario1

Gambar 2 memperlihatkan bahwa pada simulasi (1) dari 100 kali ulangan
63% nilai APER untuk metode ADF lebih kecil dari metode ADV, 28% nilai
APER untuk metode ADV lebih kecil dari ADF, dan 9% memiliki kemampuan
yang sama dalam pengklasifikasian. Rata-rata nilai APER untuk metode ADV
0.13 dan ADF 0.12. Simulasi (2) memperlihatkan bahwa sebanyak 24% nilai
APER dari 100 kali ulangan metode ADV lebih kecil dalam pengklasifikasian
dari ADF, 62% nilai APER metode ADF lebih kecil dari ADV, dan 14% memiliki
kemampuan klasifikasi yang sama. Rata-rata nilai APER untuk metode ADV 0.30
dan ADF 0.29. Simulasi (3) menunjukan bahwa sebanyak 32% dari 100 kali
ulangan nilai APER metode ADV lebih kecil dalam pengklasifikasian dari ADF,
61% ADF lebih kecil dari ADV, dan 7% memiliki kemampuan klasifikasi yang
sama. Rata-rata nilai APER untuk metode ADV 0.37 dan ADF 0.36. Simulasi (4)

13
menunjukan bahwa sebanyak 35% dari 100 kali ulangan nilai APER metode
ADV lebih kecil dalam pengklasifikasian dari ADF, 55% ADF lebih kecil dari
ADV, dan 10% memiliki kemampuan klasifikasi yang sama. Rata-rata nilai APER
untuk metode ADV 0.39 dan ADF 0.39. Begitu juga pada simulasi (5) S2=(3,7,5)
dengan ulangan 100 kali, perbandingan nilai APER metode ADV 21% lebih kecil
dari ADF, 73% nilai APER dengan metode ADF lebih kecil dari ADV, dan 6%
memiliki kemampuan klasifikasi yang sama. Rata-rata nilai APER utnuk metode
ADV 0.40 dan ADF 0.40. Dari kelima simulasi rata-rata kesalahan klasifikasi dari
kedua metode hampir sama, sehingga dapat disimpulkan bahwa jika asumsi
kenormalan dipenuhi dan peubah X tidak berkorelasi, maka metode ADF dan
ADV memiliki kemampuan klasifikasi yang sama. Semakin besar ragam data nilai
APER juga semakin besar. Nilai APER dari metode ADF dan metode ADV
dengan berbagai nilai S2 dengan 100 kali ulangan pada kelompok skenario
2,3,4,5,6,7,dan 8 tersaji dalam bentuk gambar pada Lampiran 2,3,4,5,dan 6.
Gambaran rata-rata hasil analisis data dari kedelapan kelompok skenario simulasi
secara umum tersaji pada Tabel 4, Tabel 5, Tabel 6, dan gambaran rata-rata hasil
analisis data dari kedelapan kelompok skenario untuk masing-masing simulasi
secara lengkap tersaji pada Lampiran 7.

Tabel 4 Gambaran rata-rata APER dari semua rata-rata simulasi berdasarkan
hubungan korelasi antar peubah
Hubungan Antar
Peubah
Ada Korelasi
Tidal Ada Korelasi

Rata-rata dari rata-rata nilai
APER untuk ADV
0.32
0.35

Rata-rata dari rata-rata nilai
APER untuk ADF
0.21
0.30

Tabel 4 menunjukan rata-rata APER metode ADF (0.21) lebih kecil dari
ADV (0.32) pada saat peubah berkorelasi. Jika peubah tidak ada korelasi rata-rata
nilai APER kedua metode sama. Hal ini berarti metode ADF dan ADV memiliki
kemampuan sama dalam klasifikasi.
Jika dilihat dari rata-rata APER untuk masing-masing skenario simulasi
yang terdapat pada Lampiran 7. Pada saat peubah berkorelasi ADV dan ADF
memiliki kemampuan klasifikasi yang sama jika nilai tengah berdekatan. Jika nilai
tengah berjauhan maka ada 2 kemungkinan yaitu kedua metode dapat
mengklasifikasikan dengan sempurna untuk banyak kelompok 3 dan metode ADF
lebih baik dari ADV dalam pengklasifikasian untuk banyak kelompok 8.

Tabel 5 Gambaran rata-rata APER dari semua rata-rata simulasi berdasarkan
jarak nilai tengah antar kelompok
Jarak nilai tengah
antar kelompok
Dekat
Jauh

Rata-rata dari rata-rata nilai
APER untuk ADV
0.53
0.14

Rata-rata dari rata-rata nilai
APER untuk ADF
0.47
0.04

14
Jarak nilai tengah antar kelompok mempengaruhi nilai kesalahan klasifikasi
dari metode ADV dan ADF. Berdasarkan jarak nilai tengah antar kelompok dari
kedelapan kelompok skenario simulasi disimpulkan metode ADF lebih baik dari
ADV jika jarak nilai tengah antar kelompok berjauhan. Hal ini ditunjukan pada
Tabel 5 bahwa rata-rata APER metode ADF (0.04) dan ADV (0.14). Rata-rata
APER metode ADF (0.47) dan ADV (0.53) pada saat nilai tengah antar kelompok
berdekatan. Oleh karena itu dapat disimpulkan pada saat nilai tengah antara
kelompok dekat metode ADV dan ADF memiliki kemampuan klasifikasi yang
sama. Lampiran 7 menunjukkan untuk masing-masing skenario jika jarak nilai
tengah berjauhan maka ada terdapat 2 kesimpulan yang dapat kita ambil yaitu
untuk banyak kelompok ada 3 maka ADV dan ADF dapat mengklasifikasikan
objek dengan sempurna tanpa ada salah klasifikasi. Tetapi untuk banyak
kelompok 8 ADF lebih baik dari ADV dalam pengklasifikasian.

Tabel 6 Gambaran rata-rata APER dari semua rata-rata simulasi berdasarkan
keragaman data
Keragaman data
1,1,1
10,10,10
30,30,30
60,60,60
3,7,5

Rata-rata dari rata-rata nilai
APER untuk ADV
0.26
0.39
0.33
0.35
0.33

Rata-rata dari rata-rata nilai
APER untuk ADF
0.18
0.24
0.27
0.30
0.27

Berdasarkan keragaman data kedelapan kelompok skenario simulasi
memperlihatkan pola yaitu semakin besar nilai keragaman maka kesalahan
klasifikasi juga akan meningkat. Tetapi kesalahan klasifikasi pada metode ADV
dan ADF tidak jauh berbeda dalam pengklasifikasian. Oleh karena itu dapat
disimpulkan bahwa metode ADV dan ADF mempunyai kemampuan yang sama
dalam pengklasifikasian.
Dari rata-rata untuk masing-masing skenario simulasi yang terdapat pada
Lampiran 7 dapat disimpulkan bahwa pada saat nilai tengah berdekatan untuk
semua nilai ragam yang telah dicobakan ADV dan ADF memiliki kemampuan
klasifikasi yang sama. Jika nilai tengah antara kelompok berjauhan ada 2
simpulan yang dapat kita ambil yaitu ADV dan ADF dapat mengklasifikasikan
objek dengan sempurna untuk banyak kelompok 3 dan ADF lebih baik dari ADV
dalam mengklasifikasikan objek untuk banyak kelompok 8.
Perbandingan persentase nilai APER antara metode ADV dan ADF dalam
melakukan pengklasifikasian dari 100 kali ulangan data simulasi dapat dilihat
pada Lampiran 15.
Pembentukan Model Diskriminan pada Kasus Terapan
Subbab ini membahas tentang penerapan metode ADV dan metode ADF
pada pengklasifikasian Kabupaten/kota di Pulau Sumatera berdasarkan tingkat
kemiskinan. Data persentase penduduk per-kabupaten/kota berdasarkan indikator

15
kesejahteraan masyarakat di Pulau Sumatera tersebut dapat dilihat pada Lampiran
8 dengan penentuan kelompok awal dari masing-masing kabupaten/kota
dilakukan berdasarkan sebaran data. Gambar 3 menyajikan histogram dengan
kurva normal dari tingkat kemiskinan kabupaten/kota di Pulau Sumatera.

Gambar 3 Histogram dan kurva normal data tingkat kemiskinan kabupaten/kota
di Pulau Sumatera

Berdasarkan Gambar 3 peneliti akan membagi data menjadi 3 kelompok,
dimana kelompok 1 adalah kabupaten/kota dengan tingkat kemiskinan kurang dari
7.5% adalah sebanyak 24 kabupaten/kota, kelompok 2 adalah kabupaten/kota
dengan tingkat kemiskinan berkisar 7.5% sampai dengan 22.5% adalah sebanyak
112 kabupaten/kota dan kelompok 3 adalah kabupaten/kota dengan tingkat
kemiskinan lebih dari 22.5% adalah sebanyak 15 kabupaten/kota. Secara lengkap
tersaji pada Lampiran 8. Selain itu, Gambar 3 juga menjelaskan rata-rata tingkat
kemiskinan kabupaten/kota di Sumatera adalah 13.85 dan standar deviasi 6.5.
Deskripsi data persentase per kabupaten/Kota berdasarkan indikator
kesejahteraan masyarakat di Pulau Sumatera untuk masing-masing peubah pada
setiap kelompok dapat dilihat pada Tabel 7.
Tabel 7 menjelaskan bahwa rata-rata peubah X1 untuk kelompok 1 pada
data persentase penduduk per kabupaten/kota di Pulau Sumatera adalah 7.86
dengan standar deviasi sebesar 3.76, sampai dengan rata-rata dan standar deviasi
peubah X19 untuk kelompok 3. Deskripsi data tingkat kemiskinan kabupaten/kota
untuk masing-masing kelompok tersaji pada Tabel 8.
Tabel 8 menjelaskan bahwa rata-rata tingkat kemiskinan kabupaten/kota
pada kelompok 1 berkisar 5.89, kelompok 2 dengan rata-rata 13.74, dan kelompok
3 berkisar 27.32.

16

Tabel

Peubah

7

Deskripsi data persentase penduduk per-kabupaten/kota di Pulau
Sumatera untuk masing-masing peubah pada setiap kelompok
Kelompok 1
Rata-rata
Standar
deviasi

X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
X16
X17
X18
X19

7.86
64.80
3.79
28.21
50.79
17.48
29.27
83.98
33.61
18.63
5.37
66.29
2.15
92.34
65.45
54.82
56.62
16.80
69.56

3.76
5.09
2.24
12.72
14.37
4.98
5.37
15.46
7.62
4.73
0.69
8.62
1.64
4.77
8.36
14.14
17.60
12.14
2.60

Kelompok 2
Rata-rata
Standar
deviasi
6.42
68.73
4.76
37.32
65.03
20.51
34.07
81.16
32.90
18.92
5.56
72.70
2.33
94.91
70.38
50.54
46.59
28.10
68.78

Kelompok 3
Rata-rata
Standar
deviasi

3.23
7.57
2.60
12.13
15.89
6.80
7.18
14.08
7.71
5.31
0.86
8.91
1.43
2.82
8.41
12.42
19.73
18.99
1.84

5.50
67.54
5.71
44.88
69.39
25.55
35.78
80.36
32.53
20.41
5.27
74.57
1.55
95.86
75.13
60.13
40.15
33.76
68.27

3.56
7.54
2.46
9.29
11.69
7.24
7.59
12.83
5.23
3.75
0.55
8.14
1.19
2.82
5.24
8.23
10.12
16.64
1.90

Tabel 8 Deskripsi data tingkat kemiskinan kabupaten/kota untuk masing-masing
kelompok
Kelompok
1
2
3
Total

N
24
112
15
151

Rata-rata Standar Deviasi
5.897
1.249
13.742
3.849
27.324
5.497

Maksimal
7.33
21.68
42.46

Minimal
2.47
7.60
22.62

Kasus Terapan untuk Matriks X Berpangkat Penuh
Data terapan untuk matriks X berpangkat penuh diambil dari data
kabupaten/kota untuk seluruh provinsi yang ada di Pulau Sumatera yang terdiri
dari 151 kabupaten/kota. Data ini digunakan untuk pembentukan model
diskriminan verteks dan diskriminan Fisher. Tahap pertama pembentukan model
diskriminan adalah membagi data persentase penduduk per-kabupaten/kota
berdasarkan indikator kesejahteraan masyarakat di Pulau Sumatera menjadi 2 data
yaitu data training sebanyak 106 kabupaten/kota dan data testing sebanyak 45

17
kabupaten/kota. Data training digunakan untuk pembentukan fungsi diskriminan
dan data testing digunakan untuk mengevaluasi model diskriminan.
Pembentukan Model Diskriminan Verteks
Metode ADV membentuk fungsi diskriminan dengan bentuk dan hasil
analisis dapat dilihat pada Lampiran 9. ADV membentuk 2 fungsi diskriminan
untuk membedakan 3 kelompok berdasarkan banyak objek 106 kabupaten/kota,
banyak kelompok 3, dan besar lamda 0.009434. Dugaan koefisien yang dibentuk
oleh ADV disajikan pada Lampiran 10 .
Berdasarkan dugaan koefisien pada Lampiran 10 didapatkan bentuk fungsi
diskriminan pertama (Y1) dan fungsi diskriminan kedua (Y2) sebagai berikut:
Y1= 0.094 + 0.109X1 + 0.073X2 - 0.036X3 + 0.018X4 - 0.073X5 - 0.015X6 0.021X7 - 0.043X8 – 0.031X9 + 0.027X10 + 0.049X11 - 0.053X12 + 0.015X13 –
0.008X14 - 0.115X15 + 0.009X16 - 0.004X17 - 0.061X18 - 0.026X19
Y2= -0.165 - 0.028X1 - 0.024X2 -0.029X3 + 0.027X4 - 0.002X5 + 0.009X6 –
0.039X7 - 0.017X8 + 0.00007X9 + 0.013X10 + 0.004X11 - 0.035X12 -0.017X13
-0.006X14 - 0.043X15 + 0.021X16 + 0.009X17 - 0.041X18 - 0.028X19
Kebaikan model diskriminan untuk metode ADV dapat dilihat dari
ketepatan klasifikasi masing-masing kelompok yang dapat dilihat pada Tabel 9.

Tabel

9

Kebaikan model diskriminan untuk metode ADV untuk 106 data
training pada kasus matriks X berpangkat penuh

Klasifikasi Sebenarnya

Kelompok
1
2
3
Banyak objek

Klasifikasi Model
1
2
3
11
7
0
2
78
0
0
4
4
13
89
4

Banyak objek
18
80
8
106

Tabel 9 memperlihatkan bahwa banyak objek yang diklasifikasikan secara
tepat oleh kedua model diskriminan untuk metode ADV adalah sebanyak 93 objek
(88%), dan banyak objek yang salah klasifikasi sebanyak 13 objek (12%). Nilai
persentase probabilita pengelompokan awal sebesar 17%. Evaluasi tingkat akurasi
fungsi diskriminan dilakukan dengan memperhatikan persentase tepat
pengklasifikasian dan probabilita pengelompokan awal. Model diskriminan
dikatakan cukup baik karena persen tepat klasifikasi (88%) besar dari (1.25 kali
persen probabilita pengelompokan awal) yaitu sebesar 21.2 %. Dari Lampiran 9
terlihat bahwa kesalahan klasifikasi (nilai APER) metode ADV sebesar 0.1226415.
Hal ini menunjukan bahwa metode ADV memiliki kemampuan dalam
mengklasifikasian objek dengan tepat pada