Materi Analisis Data Kategori

REGRESI LOGISTIK BINER
ENI SUMARMININGSIH

• Model regresi logistik adalah salah satu
model yang digunakan untuk mencari
hubungan antara peubah respon kategori
dengan satu atau lebih peubah penjelas
yang kontinyu ataupun kategori.
• Peubah respon yang terdiri atas dua
kategori yaitu “ya (sukses)” dan “tidak
(gagal)”, dan dinotasikan dengan 1 =
“sukses” dan 0 = “gagal”, maka akan
mengikuti sebaran Bernoulli.

• Jika pi menyatakan peluang
suatu individu ke-i memiliki nilai
Y = 1, maka model regresi
logistik dengan k buah variabel
bebas dapat dituliskan sebagai

• Interpretasi: Peluang kejadian tertentu dari

peubah respons kategori (misalnya membeli)
jika nilai peubah pejelas diketahui
• Koefisien  selanjutnya diduga menggunakan
metode maximum likelihood.
• Secara sederhana dapat disebutkan bahwa
metode ini berusaha mencari nilai koefisien
yang memaksimumkan fungsi likelihood.

Dengan nilai Y yang bersifat biner, kita
dapat menggunakan Bernoulli sebagai
sebaran variabel Y sehingga fungsi
likelihood akan berbentuk

Nilai maksimum dari fungsi
kemungkinan dapat dicari dengan
melogaritmakan kedua ruas.
Maksimum dari fungsi �(��) disebut
sebagai log likelihood.

Karena βj yang akan diduga bersifat

nonlinier, maka penyelesaian
persamaan dapat menggunakan
metode iterasi Gauss Newton atau
Metode Marquardt.

Pengujian Terhadap Pendugaan
Parameter
•a.  Pengujian pendugaan
parameter () secara parsial.
Untuk memeriksa peranan koefisien
regresi dari masing-masing variabel
prediktor secara individu dalam model.
Hipotesis yang digunakan adalah :

Statistik uji yang digunakan adalah
statistik uji Wald yang dapat ditulis:

Untuk sampel besar statistik uji Wald mengikuti
sebaran normal (Z)


•b.  Pengujian pendugaan
parameter ()
secara simultan
Untuk memeriksa pengaruh koefisien
regresi dari variabel prediktor secara
bersama-sama. Hipotesisnya adalah:

Uji
•   yang digunakan adalah uji nisbah
kemungkinan(Likelihood Ratio Test) yaitu:

dengan:
L0= nilai log likelihood model regresi logistik
tanpa variabel prediktor
Lp = nilai log likelihood model regresi logistik
dengan variabel prediktor
Likelihood ratio test berdistribusi

Interpretasi untuk variabel
independen polikotomus

Misalkan peubah bebas memiliki
kategori lebih dari 2.
Contoh:
Penelitian dilakukan untuk meneliti
adakah pengaruh ras (White, Black,
Hispanic, Other) terhadap terjadinya
CHD (Coronary Hearth Disease)

Data dari penelitian adalah sebagai
berikut:

Karena Variabel bebas memiliki
kategori lebih dari 2 maka kita
gunakan design variabel seperti pada
tabel berikut:

Hasil estimasi adalah sebagai berikut:

Sehingga didapatkan


Interpretasi untuk variabel
Independen Kontinu
• Asumsikan
 
logit = g(x) adalah linier.
• Persamaan logit adalah
• 1 merupakan perubahan log odds
(logit) untuk setiap peningkatan
sebesar 1 satuan x
• 1 =g(x+1) – g(x) = untuk setiap
nilai x.

umum jika x berubah sebesar c
• Secara
 

satuan maka logit akan berubah sebesar
c1,
• Didapatkan dari
= c1

• Sehingga OR(c)=OR(x+c,x) = exp(c1)

: pada penelitian pengaruh usia
•Contoh
 

terhadap terjadinya CHD didapatkan model
Odd Ratio duga untuk kenaikan usia 10
tahun adalah
Artinya setiap kenaikan usia sebesar 10
tahun maka resiko terjadinya CHD
meningkat sebesar 3.03 kali

Multivariable Model
penelitian dilakukan untuk mengetahui
•Suatu
 

pengaruh usia (AGE), jenis kelamin dan level
cathecolamin (CAT) terhadap terjadinya CHD.

Model yang digunakan adalah
Dimana X1 = usia
X2 = jenis kelamin (0 = perempuan, 1=laki –
laki)
X3 = level cathecolamin ( 0= rendah, 1=tinggi)

•Odd
  ratio untuk variabel 0-1 adalah
dengan asumsi variabel yang lain
tetap.
Sedangkan untuk variabel kontinu,
Odd ratio didapatkan dari
Secara umum rumus untuk Odd Ratio
adalah

Model Multivariabel dengan
interaksi

Goodness of fit
Misalkan

model kita terdiri dari p peubah bebas
•  
J adalah banyaknya nilai pengamatan x yang
berbeda.
Jika beberapa subjek memiliki nilai x yang sama
maka J < n
Notasikan banyaknya subjek dengan nilai x=xj
dengan mj, j = 1, 2, …, J. Maka
Yj adalah banyaknya y=1 diantara mj subjek
dengan x=xj. Sehingga yaitu banyaknya subjek
dengan y=1

Pearson Residual didefinisikan sebagai

Dan statistik 2 Pearson adalah

Residual didefinisikan sebagai
•Deviance
 


Tanda + atau – , sama dengan tanda dari
Statistik Deviance adalah

Statistik 2 dan Deviance menyebar 2
dengan derajat bebas J – (p+1)

Diagnostic Residual Plot
•Jika
  model regresi logistik benar, maka
E(Yi) = I
Sehingga E(Yi - = E(ei) = 0.
Jadi jika model benar maka plot antara
dan residual akan menunjukkan pola
garis horisontal dengan intersep nol

Title

TERIMA KASIH