ANALISIS DISKRIMINAN LINEAR MENGGUNAKAN LIKELIHOOD RATIO TEST

ABSTRAK
ANALISIS DISKRIMINAN LINEAR MENGGUNAKAN
LIKELIHOOD RATIO TEST

Oleh
Meri Handayani

Analisis diskriminan adalah suatu teknik peubah ganda yang digunakan untuk
mengelompokkan suatu objek ke dalam satu populasi dari beberapa populasi yang
ada berdasarkan pengamatan pada beberapa variabel atau karakteristik individu.
Penelitian ini bertujuan untuk megkaji analisis diskriminan linear menggunakan
likelihood ratio test, dan melihat seberapa baik pengklasifikasian dengan
menghitung total probability of misclassification (TPM) yang mempertimbangkan
peluang prior, kemudian diterapkan pada contoh kasus dengan dua populasi.
Berdasarkan kajian tersebut diperoleh bahwa pengklasifikasian data semakin baik
(kesalahan klasifikasi minimum) ketika peluang prior masing-masing populasi
berbeda (dipertimbangkan).

Kata kunci : analisis diskriminan, analisis diskriminan linear, klasifikasi,
likelihood ratio test, total probability of misclassification.


ABSTRACT
LINEAR DISCRIMINANT ANALYSIS USING
LIKELIHOOD RATIO TEST

Oleh
Meri Handayani

Discriminant analysis is a technique used multiple variables to classify an object
into a population of some existing population based on observations on some
variables or characteristics of the individual. This study aims to assess linear
discriminant analysis using the likelihood ratio test, and to assess how to correct
the classification by calculating the total probability of misclassification (TPM)
that consider opportunities prior, then applied to the case with the two
populations. Based on these studies data classification will be better (minimum
classification error) when a prior opportunity each distinct population (be
considered).

Keywords: discriminant analysis, linear discriminant analysis, classification,
likelihood ratio test, total probability of misclassification.


ANALISIS DISKRIMINAN LINEAR
MENGGUNAKAN LIKELIHOOD RATIO TEST
(Skripsi)

Oleh
Meri Handayani

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS LAMPUNG
BANDAR LAMPUNG
2016

ABSTRAK
ANALISIS DISKRIMINAN LINEAR MENGGUNAKAN
LIKELIHOOD RATIO TEST

Oleh
Meri Handayani

Analisis diskriminan adalah suatu teknik peubah ganda yang digunakan untuk

mengelompokkan suatu objek ke dalam satu populasi dari beberapa populasi yang
ada berdasarkan pengamatan pada beberapa variabel atau karakteristik individu.
Penelitian ini bertujuan untuk megkaji analisis diskriminan linear menggunakan
likelihood ratio test, dan melihat seberapa baik pengklasifikasian dengan
menghitung total probability of misclassification (TPM) yang mempertimbangkan
peluang prior, kemudian diterapkan pada contoh kasus dengan dua populasi.
Berdasarkan kajian tersebut diperoleh bahwa pengklasifikasian data semakin baik
(kesalahan klasifikasi minimum) ketika peluang prior masing-masing populasi
berbeda (dipertimbangkan).

Kata kunci : analisis diskriminan, analisis diskriminan linear, klasifikasi,
likelihood ratio test, total probability of misclassification.

ABSTRACT
LINEAR DISCRIMINANT ANALYSIS USING
LIKELIHOOD RATIO TEST

Oleh
Meri Handayani


Discriminant analysis is a technique used multiple variables to classify an object
into a population of some existing population based on observations on some
variables or characteristics of the individual. This study aims to assess linear
discriminant analysis using the likelihood ratio test, and to assess how to correct
the classification by calculating the total probability of misclassification (TPM)
that consider opportunities prior, then applied to the case with the two
populations. Based on these studies data classification will be better (minimum
classification error) when a prior opportunity each distinct population (be
considered).

Keywords: discriminant analysis, linear discriminant analysis, classification,
likelihood ratio test, total probability of misclassification.

ANALISIS DISKRIMINAN LINEAR
MENGGUNAKAN LIKELIHOOD RATIO TEST

Oleh
Meri Handayani

Skripsi

Sebagai Salah Satu Syarat Untuk Memperoleh Gelar
Sarjana Sains
Pada
Jurusan Matematika
Fakultas Matematika dan Ilmu Pengetahuan Alam

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS LAMPUNG
BANDAR LAMPUNG
2016

RIWAYAT HIDUP

Penulis dilahirkan di Tanjung Karang tanggal 11 Maret 1993, anak pertama dari
tiga bersaudara pasangan Bapak Romli dan Ibu Yuli Yanti.

Penulis telah menempuh pendidikan di TK Handayani pada tahun 1999, kemudian
menyelesaikan Sekolah Dasar di SD Negeri 4 Gedong Air pada tahun 2005,
Sekolah Menengah Pertama Negeri 10 Bandarlampung pada tahun 2008, Sekolah
Menengah Atas Negeri 3 Bandarlampung pada tahun 2011.


Penulis terdaftar sebagai mahasiswa S1 Jurusan Matematika Fakultas Matematika
dan Ilmu Pengetahuan Alam Universitas Lampung pada tahun 2011. Selama
menjadi mahasiswa penulis pernah menjadi anggota muda HIMATIKA tahun
2011/2012. Pengurus HIMATIKA sebagai anggota Bidang Eksternal tahun
2012/2013 dan tahun 2013/2014.

Sebagai bentuk pengabdian mahasiswa kepada masyarakat penulis telah
mengikuti Karya Wisata Ilmiah (KWI) pada tahun 2012 di Desa Sukabanjar,
Tanggamus, Kuliah Praktik (KP) di Badan Pusat Statistika (BPS) Kota
Bandarlampung pada tahun 2014, dan Kuliah Kerja Nyata (KKN) yang
merupakan mata kuliah wajib untuk strata satu di Desa Sendang Baru Kecamatan
Sendang Agung Kabupaten Lampung Tengah, yang dilaksanakan pada tahun
2015.

PERSEMBAHAN

Alhamdulillah hirobbil alamin
Terima kasih sudah menunggu dengan sabar
Teruntuk orang tua tercinta

Ibu Yuli Yanti & Bapak Romli

serta tak lupa teruntuk keluarga, sahabat, teman, dan semua yang mendoakan

SANWACANA

Bismillahirrahmaniirahim
Alhamdulillah, puji syukur kehadirat Allah SWT yang telah melimpahkan berkah
dan rahmat-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul
“Analisis Diskriminan Linear menggunakan Likelihood Ratio Test”. Oleh karena
itu, penulis ingin mengucapkan terima kasih kepada:
1.

Orang Tua tercinta, yang telah memberikan dukungan, doa, dan restu tulus
untuk keberhasilan penulis serta telah menunggu dengan sabar.

2.

Ibu Widiarti, M.Si. selaku dosen pembimbing utama yang telah meluangkan
waktu dari padatnya kesibukkan beliau untuk membimbing, mengoreksi, dan

memberi pengarahan kepada penulis hingga skripsi ini selesai.

3.

Bapak Rudi Ruswandi, M.Si. selaku dosen pembimbing kedua yang telah
banyak membantu, mengoreksi dan memberikan pengarahan dalam proses
penyusunan skripsi ini.

4.

Bapak Eri Setiawan, M.Si. selaku dosen penguji bukan pembimbing yang
memberi penulis masukan dan saran untuk skripsi ini.

5.

Bapak Drs. Tiryono Ruby, M.Sc., Ph.D. selaku Ketua Jurusan Matematika
FMIPA Universitas Lampung.

6.


Bapak Agus Sutrisno, M.Si. selaku pembimbing akademik yang telah
memberi nasihat serta pengarahan selama penulis berkuliah.

7.

Bapak Prof. Warsito, S.Si., DEA., Ph.D. selaku Dekan FMIPA Universitas
Lampung.

8.

Dosen, staf dan karyawan Jurusan Matematika FMIPA Universitas Lampung
yang telah memberikan ilmu pengetahuan dan bantuan kepada penulis.

9.

Kedua adik tersayang, Firman dan Tya yang selalu menghibur dengan segala
macam tingkah laku.

10. Tari, Ayu, Putri, Meta, Lala, Dela, Nova, Novia, Ona, Rika, dan Yanti yang
selalu memberi keceriaan dalam suka duka penulis.

11. Ica, Dhia (Acong), Anis, Ita, Khairil, Gusti, Sepria, Andzirni, Joko, Wesly,
Bang Edo, Guna, Mba Recan, Bunda Lucy, dan pak Drajat yang telah
menghibur, memotivasi, dan banyak membantu penulis dimasa-masa penulis
berjuang menyelesaikan skripsi ini.
12. Teman - teman seperjuangan Matematika 2011, serta pengurus HIMATIKA.
Terima kasih atas keakraban dan kebersamaan selama ini.
13. Muhammad Zulnis Firmansyah yang tidak pernah lelah mendengarkan,
menyemangati, serta mendokan penulis dalam keadaan apapun.
14. Untuk orang-orang yang jauh, tapi doanya tidak pernah putus.

Akhir kata, Penulis menyadari bahwa skripsi ini masih jauh dari kesempurnaan,
akan tetapi sedikit harapan semoga skripsi yang sederhana ini dapat berguna dan
bermanfaat bagi kita semua. Aamiin.
Bandar Lampung,
Penulis,

Meri Handayani

DAFTAR ISI


Halaman
DAFTAR TABEL
DAFTAR GAMBAR
I.

PENDAHULUAN
1.1.
1.2.
1.3.
1.4.

II.

Latar Belakang ..............................................................................
Perumusan Masalah.......................................................................
Tujuan Penelitian...........................................................................
Manfaat Penelitian.........................................................................

1
3
4
4

TINJAUAN PUSTAKA
2.1

2.2
2.3
2.4

2.5
2.6
2.7
2.8
2.9

2.10
2.11
2.12

Konsep Matriks .............................................................................
2.1.1 Matriks .................................................................................
2.1.2 Transpose Matriks ................................................................
2.1.3 Invers Matriks ......................................................................
2.1.4 Trace Matriks .......................................................................
Analisis Peubah Ganda dan Vektor acak ......................................
Distribusi Normal Multivariat ......................................................
Parameter Distribusi Normal Multivariat .....................................
2.4.1 Vektor Nilai Tengah .............................................................
2.4.2 Matriks Ragam-peragam ......................................................
Kombinasi Linear ..........................................................................
Jarak Mahalanobis .........................................................................
Analisis Diskriminan .....................................................................
Analisis Diskriminan Linear .........................................................
Asumsi Analisis Diskriminan Linear ............................................
2.9.1 Uji Distribusi Normal Multivariat.........................................
2.9.2 Uji Kehomogenan Matriks Ragam-peragam ........................
Metode Kemungkinan Maksimum Likelihood .............................
Likelihood Ratio Test ....................................................................
Total Probability of Misclasification ............................................

5
5
5
6
6
6
7
8
8
10
11
12
12
13
14
14
16
17
18
19

III. METODOLOGI PENELITIAN
3.1
3.2
3.3

Waktu dan Tempat Penelitian ......................................................
Data Penelitian ..............................................................................
Metode Penelitian ..........................................................................

21
21
23

IV. HASIL DAN PEMBAHASAN
4.1
4.2
4.3
4.4
4.5
4.6

4.7

V.

Fungsi Diskriminan Linear menggunakan
Likelihood Ratio Test ....................................................................
Analisis Diskriminan Linear .........................................................
Total Probability of Misclassification untuk Dua Kelompok ......
Pendugaan Parameter Distribusi Normal Multivariat ..................
Aplikasi Analisis Diskriminan Linear menggunakan
Likelihood Ratio Test ....................................................................
Uji Asumsi Analisis Diskriminan .................................................
4.6.1 Uji Normal Multivariat ........................................................
4.6.2 Uji Kehomogenan Matriks Ragam Peragam ........................
Analisis Diskriminan Linear .........................................................
4.7.1 Analisis Diskriminana Linear untuk = .......................
4.7.2 Analisis Diskriminana Linear untuk < .......................
4.7.3 Analisis Diskriminana Linear untuk > .......................

KESIMPULAN

DAFTAR PUSTAKA
LAMPIRAN

27
29
31
32
36
37
37
38
39
40
43
47

DAFTAR TABEL

Tabel
halaman
3.1 Struktur Data pada Analisis Diskriminan .........................................
23
4.1 Data Penelitian .................................................................................
37
4.1 Hasil Klassifikasi untuk
......................................................
42
4.2 Hasil Klassifikasi untuk
......................................................
46
4.3 Hasil Klassifikasi untuk
......................................................
49

DAFTAR GAMBAR

Gambar
halaman
3.1 Diagram Alir Pengklasifikasian Data Dua Kelompok menggunakan
Analisis Diskriminan Linear ...........................................................
26
4.1 Grafik QQ Plot Normal Multivariat .................................................
38

I.

1.1

PENDAHULUAN

Latar Belakang

Analisis diskriminan merupakan suatu teknik analisis peubah ganda yang
digunakan untuk mengelompokkan atau mengklasifikasi suatu objek ke dalam
salah satu populasi dari beberapa populasi yang ada berdasarkan pengamatan pada
beberapa variabel atau karakteristik individu. Analisis diskriminan adalah salah
satu teknik statistik yang digunakan pada hubungan dependensi (hubungan antar
variabel yang sudah bisa dibedakan antara peubah respon dan peubah penjelas).
Analisis ini digunakan pada kasus dengan peubah respon berupa data kualitatif
dan peubah penjelas berupa data kuantitatif. Peubah respon dalam analisis
diskriminan berupa data berskala ordinal atau nominal, sedangkan peubah
penjelas dalam analisis diskriminan berupa data berskala interval atau rasio.
Peubah penjelas ini yang digunakan sebagai pertimbangan dan berpengaruh untuk
mengklasifikasikan suatu objek baru ke dalam suatu populasi.
Sebagai metode klasifikasi, fungsi diskriminan dapat digunakan di berbagai
bidang terapan, seperti dalam bidang pendidikan. Misalnya pengelola pendidikan
tingkat tinggi ingin mengembangkan kriteria penerimaan calon mahasiswa secara
objektif. Dari sejumlah variabel bebas, misalnya dalam hal ini adalah nilai raport

2

beberapa mata pelajaran sebagai variabel penjelas, ingin diketahui variabel mana
yang dapat dijadikan sebagai variabel peramal keberhasilan studi mahasiswa dan
variabel mana yang dapat dijadikan prediksi untuk mengelompokkan mahasiswa
ke dalam kelompok berhasil atau gagal (Widiarti, 2003).
Terdapat beberapa metode dalam analisis diskriminan yaitu, analisis diskriminan
linear, analisis diskriminan kuadratik, analisis diskriminan fisher, dan analisis
diskriminan nonparametrik. Setiap kasus analisis diskriminan memiliki
penggunaan yang berbeda dalam menganalisis data. Analisis diskriminan linear
digunakan jika data berdistribusi normal multivariat dan setiap kelompoknya
memiliki matriks ragam peragam yang homogen. Analisis diskriminan kuadratik
digunakan jika data berdistribusi normal multivariat tetapi matriks ragam peragam
tidak homogen dalam setiap kelompoknya. Analisis diskriminan fisher digunakan
jika data tidak berdistribusi normal multivariat tetapi matriks ragam peragamnya
homogen dalam setiap kelompoknya. Analisis diskriminan nonparametrik
digunakan jika data tidak berdistribusi normal multivariat dan matriks ragam
peragamnya tidak homogen setiap kelompoknya.
Pada analisis diskriminan linear, fungsi diskriminan linear terbentuk dari
kombinasi linear variabel-variabel penjelasnya. Metode lain yang dikembangkan
dari analisis diskriminan linear yaitu dengan likelihood ratio test. Likelihood ratio
test adalah metode uji perbandingan antara dua model yang bertujuan untuk
melihat model mana yang lebih baik untuk diterapkan pada suatu kasus tertentu.
Satu model di bawah H0, dan model lain di bawah H1. Tes ini didasarkan pada
perbandingan nilai maksimum fungsi likelihood dari suatu distribusi. Daerah kritis

3

untuk uji hipotesis H0:
lainnya) dengan
oleh

=

̂
̂

(kelompok satu) melawan H1:

(kelompok

adalah subset ruang sampel Ω. Ratio likelihood test dinotasikan

yang kemudian dapat dibandingkan dengan nilai kritis untuk

memutuskan apakah akan menolak H0, di mana dikatakan tolak H0 ketika nilai
rasio

. Namun,

kaidah pengklasifikasian berdasarkan indeks atau kriteria

apapun tidak selalu bisa diharapkan memiliki ketepatan yang sempurna. Dengan
kata lain, dengan penyusunan indeks atau kriteria apapun tetap selalu ada peluang
kesalahan klasifikasi. Sedangkan, pengklasifikasian yang baik memiliki peluang
kesalahan klasifikasi yang minimum.
Berdasarkan uraian tersebut, penulis tertarik untuk mengkaji lebih dalam tentang
analisis diskriminan linear menggunakan likelihood ratio test dan melihat
seberapa baik pengklasifikasian dengan mencari total peluang kesalahan/ Total
Probability of Misclasification, kemudian dengan menggunakan software R akan
dikaji penerapan analisis pada contoh data.

1.2

Perumusan Masalah

Mengingat banyaknya metode pengklasifikasian data yang dapat digunakan, maka
fokus penelitian ini adalah mengkaji secara teori mengenai teknik
pengklasifikasian suatu data dengan metode analisis diskriminan linear
menggunakan likelihood ratio test. Analisis diskriminan linear dibatasi dengan
data berdistribusi normal ganda dan ragam-peragam homogen, kemudian
diaplikasikan pada contoh data dengan dua kelompok.

4

1.3

Tujuan Penelitian

Berdasarkan latar belakang yang telah dijelaskan sebelumnya, maka tujuan dari
penelitian ini adalah:
1. Mengkaji analisis diskriminan menggunakan likelihood ratio test.
2. Menghitung total probability of misclassification (TPM) dan melihat
apakah ada pengaruh nilai peluang prior yang berbeda pada TPM untuk
pengklasifikasian dua kelompok.
3. Menerapkan pada contoh data.

1.4

Manfaat Penelitian

Adapun manfaat yang diharapkan dari hasil penelitian ini adalah:
1.

Memperdalam pengetahuan mengenai metode pengklasifikasian data,
khususnya mengenai metode analisis diskriminan linear.

2.

Memberikan motivasi bagi pembaca teori analisis diskriminan agar dapat
mengkaji lebih jauh permasalahan yang berhubungan dengan
pengklasifikasian data.

II.

2.1

TINJAUAN PUSTAKA

Konsep Matriks

Menurut S. Srivastava dan M. Caster (1983), ada beberapa konsep dasar matriks,
yaitu sebagai berikut.

2.1.1

Matriks

Misalkan a11, a12, ..., apq adalah susunan bilangan real dari pq. Susunan persegi
panjang elemen ini terdiri dari p baris dan q kolom, ini dinamakan matriks pxq.

A=[

]

Bilangan-bilangan dalam susunan persegi panjang tersebut dinamanan entri dalam
matriks.

2.1.2

Transpose Matriks

Jika A adalah sebarang matriks p x q, maka transpose A dinyatakan oleh A’ dan
didefinisikan dengan matriks q x p yang kolom pertamanya adalah baris pertama

6

dari A, kolom keduanya adalah baris kedua dari A, demikian juga dengan kolom
selanjutnya merupakan baris selanjutnya dari A.
Demikian jika Ap x q, maka A’q x p.

2.1.3

Invers Matriks

Jika A adalah matriks kuadrat, dan jika kita dapat mencari matriks B sehingga
AB = BA = I, maka A dikatakan dapat dibalik (invertible) dan B dinamakan
invers dari A.

2.1.4

Trace Matriks

Suatu matriks yang jumlah baris dan kolomnya sama dikatakan matriks bujur
sangkar, jika A matriks n x n maka trace (A) didefinisikan sebagai berikut :


Dengan

2.2

adalah unsur diagonal utama.

Analisis Peubah Ganda dan Vektor Acak

Menurut Johnson dan Wichern (2002), analisis peubah ganda digunakan untuk
menganalisa data penelitian yang dikumpulkan dari sejumlah objek dengan setiap
objek diukur lebih dari satu peubah respon. Secara umum dalam n buah amatan

7

dilakukan pengukuran p peubah. Data tersebut digambarkan sebagai matriks X
yang berukuran

:

[

]

(2.1)

Matriks X memuat data yang terdiri dari seluruh data pengamatan terhadap
seluruh peubah penjelasnya.
Pengukuran pada baris ke-i yaitu

merupakan pengukuran pada

individu yang sama, jika disusun sebagai vektor kolom

[
maka

2.3

diperoleh:

]

(2.2)

disebut sebagai pengamatan vektor acak.

Distribusi Normal Multivariat

Menurut Johnson dan Wichern (2002), kepekatan normal multivariat merupakan
generalisasi dari kepekatan normal univariat untuk dimensi ≥ 2.
Variabel acak X dikatakan berdistribusi normal univariat jika fungsi kepekatan
peluangnya adalah :



Misalkan

[

];

(2.3)

(2.4)

8

adalah fungsi kepekatan normal univariat yang mengukur jarak dari x ke

dalam

satuan standar deviasi. Jarak ini dapat digeneralisasikan untuk vektor pengamatan
x berukuran p x 1 pada beberapa variabel sebagai:


(2.5)

berukuran p x l merupakan nilai harapan vektor acak x dan matriks ∑

Vektor

berukuran p x p merupakan matriks ragam-peragam. Kita asumsikan matriks
simetris ∑ adalah definit positif, sehingga persamaan (2.5) merupakan jarak

kuadrat dari x ke .

Kepekatan normal multivariat diperoleh dengan mengganti jarak kuadrat univariat
dalam persamaan (2.4) dengan jarak multivariat dalam persamaan (2.5). Sehingga
fungsi kepekatan normal p-dimensi untuk variabel acak X adalah:
⁄ |∑| ⁄

Sehingga dapat ditulis X Np ( , ∑).
2.4



(2.6)

Parameter Distribusi Normal Multivariat

Parameter dari distribusi normal multivariat adalah vektor nilai tengah dan
matriks ragam peragam.

2.4.1

Vektor Nilai Tengah

Misalkan

menggambarkan suatu vektor acak dari

sampel. Jika ada

pengamatan dalam sampel, maka

dinotasikan oleh

,

, ...,

peubah pada suatu unit
vektor pengamatan

. Secara umum dapat dituliskan sebagai:

9

]

[

(2.7)

Vektor nilai tengah sampel

bisa diperoleh dari rata-rata

atau dengan perhitungan rata-rata dari

vektor pengamatan

peubah lainnya secara terpisah (Rencher,

2002).

̅



[
̅

̅

̅

]

dengan ̅ merupakan rata-rata dari

(2.8)

pengamatan pada peubah pertama, ̅ rata-

rata dari peubah kedua, dan seterusnya.

Nilai kemungkinan secara kesuluruhan rata-rata dari

dalam populasi disebut

vektor rataan populasi atau nilai harapan dari . Hal ini didefinisikan sebagai
suatu vektor nilai harapan dari setiap peubah.

[
dimana

]

[ (

)]

[

]

adalah rata-rata populasi dari

(2.9)

peubah.

Hal ini bisa memperlihatkan bahwa nilai harapan dari ̅ di ̅ adalah
( ̅ )

sehingga

. Dengan demikian, nilai harapan ̅ adalah:
[
̅

̅

̅

]

̅

̅

[ ( ̅ )]

[

]

Oleh karena itu, ̅ adalah penduga tak bias bagi µ.

(2.10)

10

2.4.2

Matriks Ragam-peragam

Menurut Raykov dan Marcoulides (2008), matriks ragam peragam merupakan
suatu matriks simetris yang berisi ragam pada diagonal utamanya dan koragam
pada elemen lainnya. Koefisien ragam menggambarkan sebuah indeks tidak baku
dari hubungan linear antara dua peubah penjelas.
Menurut Everitt (2005), ragam populasi dari dua peubah,

dan

didefinisikan

oleh:
(
Koragam dari

)
dan

)]

,

, ...,

[

. Jadi, ragam dari peubah

.

dari pada

, ada p ragam dan

koragam. Secara umum,

matriks simetris ∑, yaitu:

perhitungan ini dihasilkan dari suatu


(2.11)

biasanya dinotasikan oleh

sering dinotasikan oleh

Dengan p peubah,

(

[

]
][

[

])
(

[ (

[

(

)

(

)

(

)

)

(

(

)
(

)

) ]

(

(

)
)

)

]

11

[

]

dengan

(2.12)

. Matriks ini biasanya disebut matriks ragam peragam atau

matriks koragam. Matriks ∑ diduga oleh matriks S.
S adalah penduga matriks ragam peragam kelompok ke-i yang didefinisikan oleh:

̅

[

dengan

̅

(2.13)

] adalah vektor pengamatan untuk i pengamatan.

Diagonal utama dari matriks S berisi ragam dari peubah lainnya.

2.5

Kombinasi Linear

Pada analisis diskriminan, fungsi diskriminan terbentuk dari kombinasi linear
variabel-variabel penjelasnya.
Menurut Howard dan Romes (2003) sebuah vektor Y dinamakan kombinasi linear
dari vektor-vektor

,

, ...,

jika vektor tersebut dapat diungkapkan dalam

bentuk
Y=
Dengan

,

, ...,

+

+ ... +

adalah skalar.

=

12

2.6

Jarak Mahalanobis

Menurut Seber (1983), jarak mahalanobis adalah ukuran jarak yang didasarkan
pada korelasi antar variabel-variabel, khususnya invers matriks kovariansi.
Kuadrat jarak mahalanobis antara dua vektor
∑, adalah

2.7

√(

dan

)∑ (

, dengan matriks kovariansi

)

Analisis Diskriminan

Menurut Johnson & Wichern (2002) analisis diskriminan merupakan suatu teknik
peubah ganda yang digunakan untuk memisahkan pengamatan atau objek ke
dalam kelompok atau himpunan yang berbeda dan untuk mengklasifikasikan
objek baru ke dalam salah satu kelompok yeng telah ditentukan sebelumnya.
Analisis diskriminan adalah salah satu teknik statistik yang bisa digunakan pada
hubungan dependensi (hubungan antarvariabel dimana sudah bisa dibedakan
mana variabel respon dan mana variabel penjelas). Lebih spesifik lagi, analisis
diskriminan digunakan pada kasus dimana variabel respon berupa data kualitatif
dan variabel penjelas berupa data kuantitatif. Ide dasar dari analisis diskriminan
adalah untuk menghasilkan aturan yang memungkinkan kita untuk
memperkirakan dari populasi mana pengamatan tersebut lebih mungkin berasal.

Menurut Giri (2004), ide dasar analisis diskriminan yaitu dari pengelompokan
suatu individu ke salah satu dari beberapa populasi berbeda yang ada berdasarkan

13

pengamatan pada beberapa karakter individu. Misalkan diberikan k populasi
berbeda
(

, ...,

, akan diklasifikasikan suatu individu dengan pengamatan
) ke salah satu dari populasi

, ...,

.

Analisis diskriminan merupakan suatu fungsi yang terdiri dari kombinasi linear
dari dua atau lebih peubah bebas yang paling baik dalam membedakan antara dua
kelompok atau lebih (Sartono, 2003). Jika X merupakan peubah acak berdimensi
p-variat dan bk merupakan koefesien diskriminan yang akan diduga, maka fungsi
diskriminan dapat dituliskan:
(2.14)

Dengan
= nilai diskriminan ke-k dengan k = 1,2, ..., s dan s ≤ min (n-1,p)

2.8

p

= jumlah peubah penjelas

n

= jumlah populasi

b

= koefisien diskriminan

X

= peubah penjelas

Analisis Diskriminan Linear

Analisis diskriminan linear merupakan metode analisis diskriminan yang
digunakan pada kondisi data berdistribusi normal multivariat dan asumsi
keidentikan/homogen matriks ragam peragam antar kelompok terpenuhi. Fungsi
diskriminan linear merupakan kombinasi linear variabel-variabel asal yang akan
menghasilkan cara terbaik dalam pemisahan kelompok. Banyaknya fungsi

14

diskriminan yang terbentuk secara umum tergantung dari g kelompok dan p
banyaknya variabel bebas.
Misalkan dua populasi normal peubah ganda mempunyai matriks ragam peragam
sama (∑1 = ∑2), serta
populasi

dan

dan

, di mana

masing-masing merupakan nilai harapan dari
= populasi 1 dan

pilih

jika b’x – h > 0 dan

pilih

selainnya

= populasi 2, maka:
(2.15)

dimana
b = ∑-1 (µ 1 - µ 2)

h=



fungsi b’x disebut koefisien fungsi diskriminan linear pada x (Johnson &
Wichern, 2002).

2.9

Asumsi Analisis Diskriminan Linear

Beberapa asumsi yang mendasari fungsi diskriminan linear adalah:

2.9.1

Uji Distribusi Normal Multivariat

Asumsi kenormalan peubah ganda dibutuhkan untuk uji signifikan pembeda peubah
dan fungsi diskriminan. Pengujian data berdistribusi normal multivariat dapat
dilakukan dengan menggunakan plot jarak mahalanobis
(

) (Johnson dan Wichern, 2002).

dan khi-kuadrat

15

dengan

Setiap vektor pengamatan dapat dihitung jarak mahalanobisnya
persamaan:
̅

di mana
,

, . . .,

̅

i = 1,2, ...., n

(2.16)

adalah sampel pengamatan

S-1 adalah kebalikan (inverse) matrik kovarians S.

Kemudian
(

dibuat plot

dengan nilai Khi-Kuadrat

⁄ )⁄ , di mana i = urutan = 1, 2, ...n, dan p = banyaknya peubah

diurutkan dari kecil ke besar. Bila hasil plot dapat didekati dengan garis lurus atau
berada di sekitar garis lurus, maka dapat disimpulkan bahwa data menyebar secara
normal ganda. Jika asumsi kenormalan tidak dipenuhi, maka kita dapat melakukan
pemilihan jenis transformasi terhadap data tersebut.
Selain itu, statistik uji Shapiro Wilk juga dapat digunakan untuk menguji
kenormalan dengan hipotesis berdasarkan sampel acak berukuran n,

,

, . . .,

Secara umum, untuk pengujian data berdistribusi normal mutivariat,
digunakan hipotesis:
H0 = X1, X2, ... , Xn berdistribusi multivariat normal
H1 = X1, X2, ... , Xn tidak berdistribusi multivariat normal
Pengujian asumsi yang digunakan adalah Shapiro-Wilk’s Test. Uji Statistik
Shapiro-Wilk didasarkan pada suatu sampel acak berukuran ,

, ...,

yang

didefiniskan sebagai:
̃

(2.17)

16



dengan

̅

] dimana

[∑

dan ̃

anggota ke- dari koefisiean uji shapiro wilk.
Uji ini akan tolak H0 dengan suatu ukuran taraf nyata
merupakan persentil 100 % dari distribusi

2.9.2

jika

adalah

dengan

(Alva dan Estrada, 2009).

Uji Kehomogenan Matriks Ragam-peragam

Selain uji kenormalan peubah ganda, uji kehomogenan suatu matriks ragamperagam juga dibutuhkan untuk uji signifikan pembeda peubah dan fungsi
diskriminan. Untuk menguji kehomogenan matriks ragam (∑) antar kelompok,
dapat digunakan hipotesis:
H0 : ∑1 =∑2 = ... = ∑k

H1 : ∑i ≠ ∑j (sedikitnya ada dua kelompok yang berbeda)

i ≠ j = 1,2, ...,k

Statistik uji yang digunakan adalah statistik Box’s M, yaitu:


dengan:

|



|

∏| |


|

|





| |

(2.18)



= banyaknya kelompok
= matriks ragam-peragam dalam kelompok gabungan
= matriks ragam-peragam kelompok ke-

Bila hipotesis nol benar, maka:

17

akan mengikuti sebaran F dengan derajat bebas

dan

pada taraf

nyata α, dimana:

dengan,
[∑

]

[∑

]

= jumlah variabel penjelas dalam fungsi diskriminan
Karena itu, apabila

maka H0 ditolak dan dapat

disimpulkan bahwa terdapat kelompok yang memiliki matriks ragam-peragam
yang tidak homogen (Mattjik & Sumertajaya, 2011).

2.10

Metode Kemungkinan Maksimum Likelihood

Menurut Rencher (2002), ketika suatu distribusi seperti normal multivariat
diasumsikan untuk semua populasi, nilai dugaan bagi parameter sering diperoleh
dengan metode kemungkinan maksimum likelihood (maximum likelihood
estimation). Vektor pengamatan

,

, ...,

dianggap diketahui dan nilai µ dan

∑ dicari dengan memaksimumkan densitas bersamanya yang disebut fungsi
likelihood, yaitu:
L (X; , ∑) = ∏



18

=



=|

|∑| ⁄


|

|∑|











(2.19)

Untuk normal multivariat, penduganya adalah:
̅

̂

̂




̅

̅
(2.20)



dengan

yang didefiniskan:

S

2.11

̅

[

̅ dan S adalah matriks varian kovarian sampel

]

(2.21)

Likelihood Ratio Test

Misalkan

,

, . . .,

melambangkan n peubah acak independen yang

memiliki masing-masing fungsi kepekatan peluang

, dengan

i = 1, 2, ..., n. Himpunan yang terdiri dari semua titik parameter
dinotasikan oleh , yang disebut dengan ruang sampel dari semua observasi
yang mungkin. Misalkan ω menjadi sebuah subset dari ruang sampel .
Misalkan hipotesis H0:
dan H1:

ω
.

19

Definisi fungsi likelihood maksimum:

dan

L(ω) = ∏

,

L( ) = ∏

,

ω

Misalkan L( ̂ dan L( ̂ maksimum, yang diasumsikan ada dari dua fungsi

kemungkinan. Rasio dari L( ̂ dan L( ̂ disebut rasio kemungkinan (likelihood
ratio) dan dinotasikan oleh
(

=

̂
̂

(2.22)

Menurut Hogg dan Craig (1978), tes dikatakan menolak hipotesis H0 ketika nilai
rasio λ ini kecil, katakan λ

2.12

k.

Total Probability of Misclassification (TPM)

Menurut Giri (2004), misalkan seluruh ruang berdimensi
, akan ditentukan aturan untuk membagi
sehingga jika x jatuh di
sebagai anggota populasi

di mana

ke dalam

= 1, ..., k, maka

dari X dilambangkan
daerah yaitu

yang seharusnya

diklasifikasikan menjadi anggota populasi

Peluang kesalahan klasifikasi suatu individu dengan pengamatan
populasi

tetapi seharusnya masuk ke populasi
|



,

akan diklasifikasikan

. Namun ada kemungkinan bahwa

merupakan anggota populasi

, ...,

.

masuk ke

adalah

(2.23)

20

Misalkan

dilambangkan sebagai peluang prior dari

,

Jika

diketahui, dapat ditetapkan rata-rata kesalahan klasifikasi suatu individu. Karena
peluang yang menggambarkan suatu pengamatan dari populasi
pengelompokan ke dalam populasi

adalah

dan

secara tepat (tidak terjadi kesalahan

klasifikasi) dengan bantuan dari aturan daerah L, peluang klasifikasi dapat
|

dituliskan dengan

. Sedangkan peluang yang

menggambarkan suatu pengamatan x masuk ke populasi
masuk ke populasi

(

tetapi seharusnya

), dengan cara yang sama peluang kesalahan

klasifikasi dapat dituliskan dengan

|

.

Sehingga Total Probality of Misclassification (TPM) yang merupakan total dari
peluang kesalahan pengklasifikasian L dengan mempertimbangkan peluang prior
dituliskan sebagai berikut:




|

(2.24)

`

III.

3.1

METODOLOGI PENELITIAN

Waktu dan Tempat Penelitian

Penelitian ini dilakukan pada semester genap tahun akademik 2015/2016,
bertempat di Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan
Alam Universitas Lampung.

3.2

Data Penelitian

Dalam penelitian ini, data yang digunakan diambil dari Jurnal Analisis
Diskriminan dalam Penelitian Ekonomi oleh Purwo Susongko dan Inayah Adi
Sari (2012) tentang rumah tangga yang mengunjungi suatu tempat rekreasi
terkenal dengan data yang sedikit diubah. Rumah tangga dibagi dua, yaitu
kelompok 1 yang dua tahun terakhir mengujungi tempat rekreasi dan
kelompok 2 yang tidak. Data sebanyak 42 rumah tangga ini, diukur oleh tiga
peubah penjelas, yaitu

= penghasilan/pendapatan tahunan keluarga ($ 000),

= banyaknya anggota rumah tangga (beberapa orang),

= usia kepala rumah

tangga (tahun). Pada jurnal tersebut dibahas mengenai pengklasifikasian dengan
analisis diskriminan menggunakan cross validation, sedangkan pada penelitian

20

ini, penulis hanya menggunakan data dari skripsi tersebut untuk menerapkan suatu
pengklasifikasian dengan analisis diskriminan menggunakan likelihood ratio test.
Pengamatan dilakukan sebanyak tiga kali. Pertama, ukuran
= 21. Yang kedua ukuran
21. Dan yang ketiga

>

, dengan
, dengan

=

sebanyak 15 dan

sebanyak 21 dan

, dengan

=

sebanyak

sebanyak 18. Untuk

ukuran data yang kedua dan ketiga diperoleh dengan melakukan sampling pada
kelompok 1 dan kelompok 2 pengamatan pertama (tentang rumah tangga yang
mengunjungi suatu tempat rekreasi terkenal) dengan bantuan software R.
Pada penelitian ini, alasan dilakukan sampling adalah untuk mendapatkan nilai
peluang prior yang berbeda (
dan

), nilai prior ini diperoleh dari

. Nilai

dibutuhkan untuk melihat apakah ada pengaruh besarnya total probability

of misclassification pada saat peluang prior kedua kelompok berbeda. Total
probability of misclassification pada penelitian ini digunakan untuk melihat
seberapa baik pengklasifikasian data yang telah dilakukan dengan metode analisis
diskriminan menggunakan likelihood ratio test. Secara lengkap data tersaji pada
Lampiran 2.
Struktur data pada analisis diskriminan linear ini terdiri dari dua populasi yang
disimbolkan dalam

dan

. Nilai pengamatan pada kelompok ke-i untuk

pengulangan ke-j dan variabel ke-k disimbolkan dalam
pada kelompok ke-i disimbolkan dalam .

, dan Pengamatan ke-j

21

Struktur data pada analisis diskriminan tersaji pada Tabel 3.1.

Tabel 3.1 Struktur Data Pada Analisis Diskriminan
Populasi

Pengamatan

X1

X2

X3

Xk

1
2
Y1

1
2

Y2

3.3

Metode Penelitian

Metode yang digunakan dalam penulisan skripsi ini adalah studi pustaka, yaitu
dengan mempelajari buku-buku teks penunjang yang berhubungan dengan tugas
akhir ini. Kemudian digunakan software R dalam pengujian asumsi dan analisis
data.

Dalam penelitian ini, langkah-langkah yang dilakukan adalah sebagai berikut.
1.

Mencari fungsi diskriminan menggunakan likelihood rasio test.

2.

Membentuk klasifikasi fungsi analisis diskriminan linear.

22

3.

Mencari total peluang kesalahan klasifikasi /total probability misclasification
pada analisis fungsi diskriminan untuk dua kelompok.

4.

Menduga parameter distribusi normal multivariat dengan menggunakan
metode penduga likelihood maksimum dengan langkah-langkah sebagai
berikut.
a.

Membentuk fungsi likelihood yang berasal dari fungsi kepekatan peluang
distribusi normal multivariat.

b.

Memaksimumkan fungsi yang diperoleh untuk mendapatkan dugaan
parameter.

c.

Dugaan yang diperoleh dari metode penduga kemungkinan maksimum
diperoleh dengan mencari turunan pertama dari logaritma fungsi
kepekatan peluang terhadap parameter-parameter yang hendak diduga
dan menyamakannya dengan nol.

5.

Menguji asumsi analisis diskriminan, yaitu uji distribusi normal multivariat
dan kehomogenan matriks ragam peragam seluruh kelompok dengan
menggunakan software R.

6.

Menerapkan pada data.
a.

Mencari nilai dugaan parameter dengan menghitung nilai rata-rata
data ̅ dan matriks ragam peragam

. Nilai rata-rata dan matriks

ragam peragam diperoleh dengan menggunakan persamaan:

b.

̅



dan



(

̅ )(

̅)

Membentuk model fungsi diskriminan linear berdasarkan contoh data
dengan jumlah data tiap kelompok yaitu
.

= 21, sehingga

23

c.

Mengklasifikasi data menggunakan aturan klasifikasi analisis
diskriminan linear.

d.

Menghitung total probability of misclassification dua kelompok.

e.

Melakukan resampling pada data awal untuk memperoleh jumlah data
kelompok

f.

sehingga

.

Mencari nilai dugaan parameter dengan menghitung nilai rata-rata
data ̅ dan matriks ragam peragam

. Nilai rata-rata dan matriks

ragam peragam diperoleh dengan menggunakan persamaan:

g.



̅

dan



(

̅ )(

Membentuk model fungsi diskriminan linear berdasarkan contoh data
dengan jumlah data tiap kelompok yaitu

h.

̅)

.

Mengklasifikasi data menggunakan aturan klasifikasi analisis
diskriminan linear.

i.

Menghitung total probability of misclassification dua kelompok.

j.

Melakukan resampling pada data awal untuk memperoleh jumlah data
kelompok

k.

sehingga

.

Mencari nilai dugaan parameter dengan menghitung nilai rata-rata
data ̅ dan matriks ragam peragam

. Nilai rata-rata dan matriks

ragam peragam diperoleh dengan menggunakan persamaan:

l.

̅



dan



(

̅ )(

Membentuk model fungsi diskriminan linear berdasarkan data contoh
data dengan jumlah data tiap kelompok yaitu

m.

̅)

.

Mengklasifikasi data menggunakan aturan klasifikasi analisis
diskriminan linear.

24

n.

Menghitung total probability of misclassification dua kelompok.

Secara garis besar langkah-langkah penelitian yang dilakukan dapat tersaji dalam
Gambar 3.1.

Gambar 3.1 Diagram Alir Pengklasifikasian Data Dua Kelompok menggunakan
Analisis Diskriminan Linear.

V.

KESIMPULAN

Dari hasil analisis dan pembahasan, maka dapat diambil kesimpulan sebagai
berikut:
1.

Analisis diskriminan linear menggunakan Likelihood Ratio Test diperoleh
dengan membandingkan nilai maksimum fungsi likelihoodnya.

2.

Total Probality of Misclassification (TPM) atau total peluang kesalahan
klasifikasi suatu pengelompokkan akan minimum jika nilai prior
dipertimbangkan ( ≠

3.

).

Berdasarkan contoh data, diperoleh aturan klasifikasi sebagai berikut:
a. Untuk
L(x) = [

]

]

[

b. Untuk
L(x) = [

]

[

]

]

[

]

c. Untuk
L(x) = [

DAFTAR PUSTAKA

Alva, J.A.V., and Estrada, E.G. 2009. A Generalization of Shapiro Wilk’s Test for
Multivariate Normality. Taylor and Francis, Mexico.

Ansori, A. Mattjik dan Made, I Sumertajaya. 2011. Sidik Peubah Ganda dengan
menggunakan SAS. IPB PRESS, Bogor.

Anton, Howard dan Chris Romes. 2003. Aljabar Linear Elementer, Edisi Kelima.
(Alih bahasa: Irzam Harmein, Julian Gressando, editor Amalia Safitri).
Erlangga, Jakarta.

C., Nayan Giri. 2004. Multivariate Statistical Analysis Second Edition, Revised
and Expanded. University of Monstreal, Monstreal, Quebec, Canada.
Everitt, B.,S. 2005. An Rand S-PLUS Companion to Multivariate Analysis.
Spinger, London.

Johnson, R.A., dan Wichern, D.W. 2002. Applied Multivariate Statistical Analisis,
Fifth Edition. Prentice-Hall, Inc., New Jersey.

Purwo Susongko dan Sari, Inayah Adi, 2012. Analisis Diskriminan dalam
Penelitian Ekonomi. Jurnal. Universitas Pancasakti Tegal, Tegal.

Raycov, T., dan Marcoulides, G. 2008. A.An Introduction to Applied Multivariate
Analysis. Taylor and Fracis Group, New York.

Rencher, A., C. 2002. Methods of Multivariate Analysis, Second Edition. John
Wiley and Sons, Inc., New York.

S. Srivastava, S., dan M. Caster. E. 1983. An Introduction to Applied Multivariate

Statistics. Elsevier Science Publishing Co., Inc., New York.

Sartono, B. dkk. 2003. Analisis Peubah Ganda. Institut Pertanian Bogor, Bogor.
Seber, G.A.F., 1983. Multivariate Observations. John Wiley and Sons, Inc., New
York.
Widiarti, 2003. Landasan Teori Fungsi Diskriminan dan Aplikasinya dengan
Matlab. Skripsi. Jurusan Matematika FMIPA UNILA, Bandar Lampung.