2.6 Analisis Diskriminan
Analisis diskriminan mirip regresi linier berganda multivariable regression. Perbedaannya, analisis diskriminan dipakai kalau variabel dependennya kategori
maksudnya kalau menggunakan skala ordinal ataupun nominal dan variabel independennya menggunakan skala metrik interval dan rasio. Sedangkan dalam
regresi berganda variabel dependentnya harus metrik, dan jika variabelnya independen, bisa metrik maupun nonmetrik. Sama seperti regresi berganda, dalam
analisis diskriminan variabel independen hanya satu, sedangkan variabel independen banyak multiple. Misalnya, variabel dependen adalah pilihan merek mobil: Kijang,
Kuda, dan Panther. Variabel independen adalah rating setiap merek pada sejumlah atribut yang memakai skala 1 sampai 7, Simamora, 2005.
Analisis diskriminan adalah metode statistik untuk mengelompokkan atau mengklasifikasi sejumlah obyek ke dalam beberapa kelompok, berdasarkan beberapa
variabel, sedemikian hingga setiap obyek yang menjadi anggota lebih dari pada satu kelompok. Pada prinsipnya analisis diskriminan bertujuan untuk mengelompokkan
setiap obyek ke dalam dua atau lebih kelompok berdasarkan pada kriteria sejumlah variabel bebas. Pengelompokkan ini bersifat mutually exclusive, dalam artian jika
obyek A sudah masuk kelompok 1, maka ia tidak mungkin juga dapat menjadi anggota kelompok 2. Analisis kemudian dapat dikembangkan pada ‘variabel mana
saja yang membuat kelompok 1 berbeda dengan kelompok 2, berapa persen yang masuk ke kelompok 1, berapa persen yang masuk ke kelompok 2. Oleh karena ada
sejumlah variabel independen, maka akan terdapat satu variabel dependen tergantung, ciri analisis diskriminan adalah jenis data dari variabel dependent bertipe
nominal kategori, seperti kode 0 dan 1, atau kode 1, 2 dan 3 serta kombinasi lainnya Overall and Klett, 1972.
Universitas Sumatera Utara
2.6.1 Hal-hal Pokok Tentang Analisis Diskriminan
Bentuk multivariat dari analisis diskriminan adalah dependen sehingga variabel dependen adalah variabel yang menjadi dasar analisis diskriminan. Variabel dependen
bisa berupa kode grup 1 atau grup 2 atau lainnya, Santoso, 2010.
Tujuan diskriminan secara umum adalah: 1.
Ingin mengetahui apakah ada perbedaan yang jelas antar-grup pada variabel dependen? Atau bisa dikatakan apakah ada perbedaan antara anggota Grup 1
dengan anggota Grup 2? 2.
Jika ada perbedaan, variabel independen manakah pada fungsi diskriminan yang membuat perbedaan tersebut?
3. Membuat fungsi atau model diskriminan, yang pada dasarnya mirip dengan
persamaan regresi. 4.
Melakukan klasifikasi terhadap objek dalam terminology SPSS disebut baris, apakah suatu objek bisa nama orang, nama tumbuhan, benda atau lainnya
termasuk pada grup 2, atau lainnya.
Proses dasar dari analisis diskriminan ialah: •
Memisah variabel-variabel menjadi Variabel Dependen dan Variabel Independen. •
Menentukan metode untuk membuat Fungsi Diskriminan. Pada prinsipnya ada dua metode dasar untuk itu, yakni :
1. Simultaneous Estimation, dimana semua variabel dimasukkan secara bersama-
sama kemudian dilakukan proses analisis diskriminan. 2.
Step-Wise Estimation, dimana variabel dimasukkan satu persatu kedalam model diskriminan. Pada proses ini, tentu ada variabel yang tetap ada pada model, dan
ada kemungkinan satu atau lebih variabel independen yang ‘dibuang’ dari model.
• Menguji signifikansi dari fungsi diskriminan yang telah terbentuk, menggunakan
Wilk’s lambda, pilai, F test dan lainnya. •
Menguji ketepatan klasifikasi dari fungsi diskriminan, termasuk mengetahui ketepatan klasifikasi secara individual dengan Casewise Diagnostics.
Universitas Sumatera Utara
• Melakukan interpretasi terhadap fungsi diskriminan tersebut.
• Melakukan uji validitas fungsi diskriminan.
Berikut ini beberapa asumsi yang harus dipenuhi agar model diskriminan dapat digunakan:
1. Multivariate Normality, atau variabel independen seharusnya berdistribusi normal,
hal ini akan menyebabkan masalah pada ketepatan fungsi model diskriminan. Regresi logistic Logistic Regression bisa dijadikan alternative metode jika
memang data tidak berdistribusi normal. Tujuan uji normal adalah ingin mengetahui apakah distribusi data dengan bentuk lonceng bell shaped. Data yang
‘baik’ adalah data yang mempunyai pola seperti distribusi normal, yakni distribusi data tersebut tidak menceng ke kiri atau menceng ke kanan. Uji normalitas pada
multivariat sebenarnya sangat kompleks, karena harus dilakukan pada seluruh variabel secara bersama-sama. Namun, uji ini bisa juga dilakukan pada setiap
variabel dengan logika bahwa jika secara individual masing-masing variabel memenuhi asumsi normalitas, maka secara bersama-sama multivariat variabel-
variabel tersebut juga bisa dianggap memenuhi asumsi normalitas. Adapun criteria pengujiannya adalah:
• Angka signifikansi Sig 0,05, maka data tersebut berdistribusi normal.
• Angka signifikansi Sig 0,05, maka data tidak berdistribusi normal.
Jika sebuah variabel mempunyai sebaran data yang tidak normal, maka perlakuan yang dimungkinkan agar menjadi normal, Santoso, 2010:
Menambah jumlah data. Seperti pada kasus, bisa dicari 20 atau 30 atau sejumlah data baru untuk menambah ke-75 data berat badan konsumen
yang sudah ada. Kemudian dengan jumlah data yang baru, dilakukan pengujian sekali lagi.
Menghilangkan data yang dianggap penyebab tidak normalnya data. Seperti pada variabel berat, jika dua data yang outlier dibuang, yakni berat 100 dan
120, kemudian diulang proses pengujian, mungkuin data bisa menjadi normal. Jika belum normal, ulangi pengurangan data yang dianggap
penyebab ketidaknormalan data. Namun demikian, pengurangan data harus
Universitas Sumatera Utara
dipertimbangkan apakah tidak mengaburkan tujuan penelitian karena hilangnya data-data yang seharusnya ada.
Dilakukan transformasi data, misal mengubah data ke logaritma atau kebentuk natural ln atau bentuk lainnya, kemudian dilakukan pengujian
ulang. Data diterima apa adanya, memang dianggap tidak normal dan tidak perlu
dilakukan berbagai treatment. Untuk itu, alat analisis yang dipilih harus diperhatikan, seperti untuk multivariate mungkin faktor analisis tidak begitu
mementingkan asumsi kenormalan. Atau pada kasus statistik univariat, bisa dilakukan alat analisis nonparametrik, Santoso, 2010.
2.6.2 Klasifikasi dengan Dua Populasi Multivariat Normal
Dalam buku Johnson and Wichern 2007, dijelaskan bahwa fungsi diskriminan pertama kali diperkenalkan oleh Ronald A. Fisher 1936 dengan menggunakan
beberapa kombinasi linier dari pengamatan yang cukup mewakili populasi. Menurut Fisher, untuk mencari kombinasi linier dari p variabel bebas tersebut dapat dilakukan
dengan pemilihan koefisien-koefisiennya yang menghasilkan hasil bagi maksimum antara matrik peragam antar kelompok between-group dan matrik peragam dalam
kelompok within-group. Adapun asumsi-asumsi yang harus dipenuhi sebelum melakukan analisis
diskriminan, antara lain yaitu: •
Variabel independen berdistribusi normal multivariat multivariates normal distribution
• Varians dalam setiap kelompok adalah sama equal variances
Prosedur–prosedur klasifikasi yang didasarkan pada populasi normal lebih unggul dalam statistik karena tidak rumit dan tingkat efisiensi yang tinggi yang
melibatkan banyak model variasi populasi. Sekarang asumsikan bahwa f
1
x dan f
2
x
kepadatan multivariat normal, pertama dengan vektor rata-rata
1
dan matriks
kovarian
1
dan yang kedua dengan vector rata-rata
2
dan matriks kovarian
2
.
Universitas Sumatera Utara
Klasifikasi populasi normal ketika
1
=
2
= anggap bahwa kepadatan
bersama dari X’ = [X
1
,
,
X
2
,
. .
,
.
X
P
] untuk populasi
1
dan
2
diberikan oleh:
f
i
x =
3
4 5
6 6
7 5
exp 8
9 :
;
9 : untuk i = 1,2 2.1
Anggap juga bahwa parameter-parameter populasi
1, 2,
dan diketahui. Kemudian,
setelah cancelasi dari istilah =
5
? ?
5
daerah Expected Cost of Misclassification
ECM minimum pada region R
1
dan R
2
yang meminimalisir ECM didefenisikan oleh nilai x untuk ketidaksamaan yang berlaku sebagai berikut:
R
1
=
7
9 9
A B
C DE C D E
F B
7
F R
2
=
7
9 9
G B
C DE C D E
F B
7
F menjadi :
≥ −
− +
− −
−
− −
2 1
2 1
1 1
1
2 1
2 1
exp :
x x
x x
R B
C DE C D E
F B
7
F
− −
+ −
− −
− −
2 1
2 1
1 1
2
2 1
2 1
exp :
x x
x x
R B
C DE C D E
F B
7
F 2.2 Diberikan daerah R
1
dan R
2
, sehingga dapat membentuk aturan klasifikasi yang
diberikan pada hasil berikut: Anggap populasi
1
dan
2
dideskripsikan oleh idensitas multivariate normal dengan bentuk pada persamaan 2.1. Kemudian aturan alokasi yang meminimalisir ECM
sebagai berikut :
Alokasikan x ke
1
jika
: :
;
9 :
:
;
: : A L 8B
C DE C D E
F B
7
F 2.3
Dengan cara lain alokasikan x ke
2.
Bukti: karena quantitas pada persamaan 2.2 tidak negatif untuk semua x
,
maka dapat diambil logaritma naturalnya dan menyiapkan pertidaksamaan. Selanjutnya
Universitas Sumatera Utara
9 :
;
9 : 9 :
;
9 : =
: :
;
9 :
:
;
: :
2.4 dan akibatnya
R
1
:
2 1
1 2
1 1
2 1
+ −
− −
− −
2 1
x
A L 8B
C DE C D E
F B
7
F
R
2
:
2 1
1 2
1 1
2 1
+ −
− −
− −
2 1
x
G L 8B
C DE C D E
F B
7
F
2.5
Pada kebanyakan situasi, quantitas populasi
1, 2,
dan tidak diketahui, sehingga
aturan 2.3 harus dimodifikasi. Wald dan Anderson menyarankan mengganti
parameter-parameter populasi dengan sampel mereka. Kemudian, anggap kita memiliki
n
1
observasi dari variabel acak multivariat X
’ =
[
X
1,
X
2
, …,
X
p
] dari
1
dan
n
2
pengukuran quantitas ini dari
2,
dengan
n
1
+ n
2
–
2 p.
Kemudian matriks data respektif sebagai berikut:
=
×
x x
x
X
1 1
1 12
11
1
n p
n
; =
×
x x
x
X
2 2
1 22
21
2
n p
n
2.6
Dari data matriks tersebut, vektor sampel rata-rata dan matriks kovarians adalah:
= ×
=
1
1 1
1 1
1
1
n j
j p
n
x
X
;
= ×
− −
− =
1 1
1 1
1 1
1
1 1
1
n j
j j
p p
n
x x
x x
S
= ×
=
2
1 2
2 1
1
2
n j
j p
n
x
X
;
= ×
− −
− =
2 2
1 2
2 2
2
1 1
2
n j
j j
p p
n
x x
x x
S
2.7
Karena diasumsikan bahwa populasi memiliki matriks kovarian yang sama , sampel
matriks kovarian S
1
dan S
2
dikombinasikan untuk diturunkan menjadi perkiraan objektif tunggal dari
. Secara umum, berat rata-rata
2 1
2
S S
S −
+ −
− +
− +
− −
= 1
1 1
1 1
1
2 1
2 1
1
n n
n n
n n
pooled
2.8
Universitas Sumatera Utara
Adalah suatu estimasi unbias dari jika matriks data X
1
dan X
2
memuat sampel- sampel acak dari populasi
1
dan
2
berturut-turut. Substitusikan 9M
1
untuk
1,
9M
2
untuk
2,
dan S
pooled
untuk pada persamaan 2.3 menjadi “sampel” aturan klasifikasi.
Estimasi aturan Expected Cost of Misclassification ECM minimum untuk dua populasi normal:
Alokasikan x ke
1
jika
9M
1
- 9M
2
N O
PPQRS
9 9M
1
- 9M
2
N O
PPQRS
9M
1
+ 9M
2
A L 8B
C DE C D E
F B
7
F 2.9
Alokasikan x ke
2,
jika pada 2.9, B
C DE C D E
F B
7
F = 1 Kemudian ln 1 = 0, dan estimasi aturan ECM minimum untuk 2 populasi normal
ditotalkan untuk membandingkan variabel scalar: T = 9M
1
- 9M
2
N O
PPQRS
9 UTN9
Dievaluasi pada , dengan jumlah :
VT = 9M
1
- 9M
2
N O
PPQRS
9M
1
+ 9M
2
= W
W dimana :
W =
9M
1
- 9M
2
N O
PPQRS
9M UTN9M
dan W
= 9M
1
- 9M
2
N O
PPQRS
9M UTN9M
Oleh karena itu, estimasi aturan ECM minimum untuk dua populasi normal sama dengan membentuk dua populasi univariat untuk nilai y dengan mengambil suatu
kombinasi linier yang sesuai dari observasi-observasi populasi
1
dan
2
dan kemudian
menandai suatu observasi baru x ke
1
atau
2,
bergantung pada apakah T = UTN9M
jatuh kekanan atau kekiri titik tengah VT antara dua rata-rata univariat W
dan W . Sekali estimasi parameter disisipkan pada kuantitas populasi tak diketahui yang
bersesuaian, tidak ada jaminan bahwa aturan hasil akan meminimalisir biaya ekspektasi kesalahan klasifikasi pada klasifikassi yang umum. Hal ini karena aturan
optimal di 2.3 telah diturunkan menghasilkan bahwa kepadatan multivariat normal
Universitas Sumatera Utara
f
1
x dan f
2
x diketahui secara lengkap. Persamaan 2.9 adalah satu estimasi
sederhana dari aturan optimal. Akan tetapi, kelihatannya beralasan untuk mengekspektasi bahwa hal tersebut harusnya ada dengan baik jika ukuran sampel
besar. Sebagai hasilnya, jika data muncul menjadi multivariat normal, statistik klasifikasi bergeser kekiri dari pertidaksamaan di 2.9 dapat dihitung untuk setiap
observasi baru x
0.
Observasi-observasi ini diklasifikasikan dengan membandingkan nilai-nilai statistik dengan nilai-nilai dari ln
XY D E ZY DE Z [.
2.6.3 Format Data Dasar dan Program Komputer yang Digunakan
Data dasar yang digunakan otomatis adalah data yang kontinu karena adanya asumsi kenormalan untuk variabel penjelas X
j
dan data kategorikkualitatifnonmetrik untuk variabel respon Y.
Tabel 2.1 Tabel Format Data untuk Analisis Diskriminan
X
1
X
2
. .
. X
p
Y …
… …
… …
… …
… …
… …
… …
…
Beberapa software yang bisa digunakan adalah SPSS, SAS, dan Minitab.
2.6.4 Algoritma dan Model Matematis
Secara ringkas, langkah-langkah dalam analisis diskriminan adalah sebagai berikut :
1 Pengecekan adanya kemungkinan hubungan linier antara variabel penjelas. Untuk
point ini, dilakukan dengan bantuan matriks korelasi pembentukan matriks korelasi sudah difasilitasi pada analisis diskriminan. Pada output SPSS, matriks
korelasi bisa dilihat pada pooled Within-Groups Matrices.
Universitas Sumatera Utara
2
Uji vektor rata-rata kedua kelompok
2 1
: 2
1 :
≠ =
1
H H
Angka signifikan : Jika Sig. 0,05 berarti tidak ada perbedaan antar-grup
Jika Sig. 0,05 berarti ada perbedaan antar-grup
Diharapkan dalam uji ini adalah hipotesis nol ditolak, sehingga kita mempunyai informasi awal bahwa variabel yang sedang diteliti memang membedakan kedua
kelompok. Pada SPSS, uji ini dilakukan secara univariate jadi yang diuji bukan berupa vektor, dengan bantuan table Tests of Equality of Group Means.
3
Dilanjutkan pemeriksaan asumsi homoskedastisitas dengan uji Box’s M. Diharapkan dalam uji ini hipotesis nol tidak ditolak
:
2 1
= H
.
Hipotesis:
H
: matriks kovarians grup adalah sama
H
1
:
matriks kovarians grup adalah berbeda secara nyata
Keputusan dengan dasar signifikansi lihat angka signifikan Jika Sig. 0,05 berarti H
diterima Jika Sig. 0,05 berarti H
ditolak Sama tidaknya
grup kovarians matriks juga bisa dilihat dari tabel output Log Determinant.
Jika dalam pengujian ini H ditolak maka proses lanjutan seharusnya
tidak bisa dilakukan. 4
Pembentukan model diskriminan Kriteria Fungsi Linier Fisher
a. Pembentukan fungsi Linier teoritis
Fisher mengelompokkan suatu observasi berdasarkan nilai skor yang dihitung dari suatu fungsi linier Y = X dimana menyatakan vektor yang berisi
koefisien-koefisien variabel penjelas yang membentuk persamaan linier terhadap variabel respon,
Universitas Sumatera Utara
= [
1, 2,
…,
p
] X
= 8
X
k
menyatakan matriks data pada kelompok ke-k
X
k
= .
2 1
2 21
21 1
12 11
npk k
n k
n pk
k k
pk k
k
x x
x x
x x
x x
x
i = 1, 2, …, n
j = 1, 2,…, p
k = 1 dan 2
x
ijkk
menyatakan observasi ke-i variabel ke-j pada kelompok ke-k. Dibawah asumsi X
k
\ N
k k
, µ
maka ]
__` a
a bc 8
] ] dan
k
_ a
d
]
d
a
d
]
d
N ;
1
=
2
=
]
d
=
pk pk
µ µ
. .
. ;
]
d
adalah vekor rata-rata tiap variabel X pada kelompok ke-k.
e
pp p
p
σ σ
σ σ
σ σ
. .
. .
. .
. .
. .
. .
. .
2 22
1 12
11
Universitas Sumatera Utara
j1j2
=
{
fg hg i fg hgjkL l g gjhLg l l
mnfg hg i fg hgjkL l g l g gjhLgl
o l Fisher mentransformasikan observasi-observasi x yang multivariate menjadi
observasi y yang univariate. Dari persamaan Y = ’X diperoleh: ]
dp
EY
k
= E ’X = ’
k
; q
r
= var ’X = ’ ]
dp
adalah rata-rata Y yang diperoleh dari X yang termasuk dalam kelompok ke- k.
q
r
= adalah varians Y dan diasumsikan sama untuk kedua kelompok. Kombinasi linier yang menarik menurut Fisher adalah yang dapat
memaksimumkan rasio antara jarak kuadrat rata-rata Y yang diperoleh dari X kelompok 1 dan 2 dengan varians Y, atau dirumuskan sebagai berikut:
]
r
]
r
q
r
s
;
] ] ]
]
;
s s
;
s
Jika ]
] = maka persamaan diatas menjadi
t
u
v t
u
t
karena adalah
matriks definit positif maka menurut teori pertidaksamaan Cauchy-Schwartz, rasio
t
u
v t
u
t
dapat dimaksimumkan jika s
;
Y =
Y ]
] dengan memilih c = 1, menghasilkan kombinasi linier yang disebut kombinasi linier
Fisher sebagai berikut :
X X
Y
1 2
1 −
− =
=
b. Pembentukan Fungsi Linier dengan bantuan SPSS
Pada output SPSS, koefisien untuk tiap variabel yang masuk dalam model dapat dilihat pada tabel Canonical Discriminant Function Coefficient. Tabel
ini akan dihasilkan pada output apabila pilihan Function Coefficient bagian Unstandardized
diaktifkan.
Universitas Sumatera Utara
c. Menghitung discriminant score
Setelah dibentuk fungsi liniernya, maka dapat dihitung skor diskriminan untuk tiap observasi dengan memasukkan nilai-nilai variabel penjelasnya.
d. Menghitung Cutting Score
Untuk memprediksi responden mana masuk golongan mana, kita dapat menggunakan optimum cutting score. Memang dari computer informasi ini
sudah diperoleh. Sedangkan cara mengerjakan secara manual Cutting Score m dapat dihitung dengan rumus sebagai berikut dengan ketentuan untuk dua
grup yang mempunyai ukuran yang sama cutting score dinyatakan dengan rumus, Simamora, 2005:
Z
ce
=
w
x
yw
z
dengan : Z
ce
= cutting score untuk grup yang sama ukuran Z
A
= centroid grup A Z
B
= Centroid grup B Apabila dua grup berbeda ukuran, rumus cutting score yang digunakan
adalah : Z
CU
=
x
w
z
y
z
w
x x
y
z
dengan : Z
CU
= Cutting score untuk grup tak sama ukuran N
A
= Jumlah anggota grup A N
B
= Jumlah anggota grup B Z
A
= Centroid grup A Z
B
= Centroid grup B Kemudian nilai-nilai discriminant score tiap obsservasi akan dibandingkan
dengan cutting score, sehingga dapat diklasifikasikan suatu obsevasi akan termasuk kedalam kelompok yang mana. Suatu observasi dengan
karakteristik x akan diklasifikasikan sebagai anggota kelompok kode 1 jika
, x
Y m
≥ −
=
−1 2
1
selain itu dimasukkan dalam kelompok 2 kode
Universitas Sumatera Utara
nol perhitungan m dilakukan secara manual, karena SPSS tidak mengeluarkan output m. Namun, dapat di hitung nilai m dengan bantuan
tabel Function at Group Centroids dari output SPSS. e.
Perhitungan Hit Ratio setelah semua observasi diprediksi keanggotaannya, dapat dihitung hit ratio, yaitu rasio antara observasi yang tepat
pengklasifikasiannya dengan total seluruh observasi. Misalkan ada sebanyak n
observasi, akan dibentuk fungsi linier dengan observasi sebanyak n-1. Observasi yang tidak disertakan dalam pembentukan fungsi linier ini akan
diprediksi keanggotaannya dengan fungsi yang sudah dibentuk tadi. Proses ini akan diulang dengan kombinasi observasi yang berbeda-beda, sehingga
fungsi linier yang dibentuk ada sebanyak n. Inilah yang disebut dengan metode Leave One Out.
f. Kriteria posterior probability
Aturan pengklasifikasian yang ekivalen dengan model linier Fisher adalah berdasarkan nilai peluang suatu observasi dengan karakteristik tertentu x
berasal dari suatu kelompok. Nilai peluang ini disebut posterior probability dan bisa ditampilkan pada sheet SPSS dengan mengaktifkan option
probabilities of group membership pada bagian Save di kotak dialog utama. p D
mE
k k
k k
k
x f
p x
f p
,
dimana : p
k
adalah prior probability kelompok ke-k dan f
k
x =
3
4 {
6 6
7 {
exp 9 :
d ;
9 :
d
| m }
suatu observasi dengan karakteristik x akan diklasifikasikan sebagai anggota kelompok 0 jika p
m }E D ~ m E D . Nilai-nilai posterior probability
inilah yang mengisi kolom dis1_1 dan kolom di 1_2 pada sheet SPSS.
g. Akurasi statisik, dapat di uji secara statistik apakah klasifikasi yang di
lakukan dengan menggunakan fungsi diskriminan akurat atau tidak. Uji statistik tersebut adalah prees-Q Statistik. Ukuran sederhana ini
Universitas Sumatera Utara
membandingkan jumlah kasus yang diklasifikasi secara tepat dengan ukuran sampel dan jumlah grup. Nilai yang diperoleh dari perhitunngan kemudian
dibandingkan dengan nilai kritis critical velue yang diambil dari tabel Chi- Square
dan tingkat keyakinan sesuai yang diinginkan. Statistik Q ditulis dengan rumus:
Prees-Q =
• €• ‚
2
•
dengan : N = ukuran total sampel
n = jumlah kasus yang diklasifikasi secara tepat
K = jumlah grup
2.7 Pengujian Hipotesis