Kecocokan Model
5.4.2. Kecocokan Model
Kecocokan model ditentukan dengan membandingkan model yang di-
317 dari 490
ajukan dengan model lengkap atau model maksimal maximal model/ saturated model. Model maksimal didefinisikan sebagai:
Cari Halaman
(i) GLM/LMT yang mempunyai distribusi yang sama dengan mo- del yang diajukan; Kembali
(ii) model menggunakan fungsi link yang sama dengan model yang
Layar Penuh
diajukan; dan diajukan; dan
L(b; y)
atau Judul
log λ = l(b max ; y) − l(b; y).
Distribusi dari persamaan ( 5.47 ) dapat diturunkan dengan menggu-
nakan pendekatan Taylor ordo dua dari likelihood l ada titik penduga
β = b. ˆ
318 dari 490
l(β; y) = l(b; y) + (β − b)U(b) + Cari Halaman
2 (β − b) H(b)(β − b). (5.48)
Dengan argumen analog dengan persamaan ( 5.43 ), persamaan
Kembali
( 5.48 ) dapat disederhanakan menjadi:
T Layar Penuh
l(b; y) − l(β; y) = (b − β) I(b − β).
Devian dan Distribusinya
Judul
Statistik pada persamaan ( 5.47 ) dapat dimodifikasi dengan cara ber-
ikut sehingga pendekatan distribusinya dapat dikenali.
D = 2 log λ = 2[l(b max ; y) − l(b; y)].
D disebut devian (the deviance). Persamaan persamaan ( 5.51 ) dapat
319 dari 490
disusun lagi menjadi:
D = 2[l(b Cari Halaman
max ; y) − l(β max ; y)
(5.52a)
−(l(b; y) − l(β; y))
(5.52b)
+(l(β Kembali
max ; y) − l(β; y))].
(5.52c)
Berdasar persamaan ( 5.50 ), bagian pertama dari ruas kanan,
Layar Penuh
persamaan, ( 2 5.52a ) berdistribusi χ
n karena memiliki N parameter.
gunakan untuk menguji apakah suatu model sama baiknya dengan
model yang lainnya (yang memiliki parameter berbeda, lihat [ 11 , hal.
60-64]). Misalnya, untuk menentukan apakah model dengan jumlah
Judul
parameter p secara signifikan lebih baik dari model dengan jumlah parameter q (dengan q < p), kita menggunakan statistik berikut:
320 dari = 2[l(b 490
max ; y) − l(b q ; y)]
(5.53b)
− 2[l(b max ; y) − l(b p ; y)]
(5.53c)
= 2[l(b Cari Halaman
p ; y) − l(b q ; y)].
(5.53d)
Berdasar persamaan ( 5.51 ) bagian pertama dari persamaan ( 5.53b )
Kembali 2
adalah ∼ χ 2 N −q dan bagian kedua, ( 5.53c ) adalah ∼ χ N −p . Oleh karena itu sepanjang kedua bagian ini saling bebas, maka persamaan ( 5.53d )
Layar Penuh
adalah ∼ χ 2 p−q .
Cari Halaman
Kembali
Layar Penuh Layar Penuh
Judul
sukses(S)-gagal(G) dan sebagainya; atau respon dengan k kategori). Untuk respon biner yang diukur adalah rasio peluang sukses dan tidak
◭◭ ◭ ◮ sukses, yang biasa disebut odd. Log odd ini dianggap bergantung se- ◮◮ cara linier pada beberapa veriabel penjelas.
logit(Y i = S) = log
Cari Halaman
atau
X Kembali P robit(Y i = S) = Φ (Y i = S) =
p Odd = Layar Penuh
1−p 1−p
Judul
pakan respon hasil pencacahan (count data), dengan jumlah maksi- mum yang tidak bisa ditentukan, maka distribusi yang paling cocok
dengan respon ini adalah distribusi Poisson dengan fungsi hubungan log. Model ini lebih dikenal dengan model atau regresi Log-linier.
323 dari 490
Cari Halaman
Kembali
2 Banyaknya Total maupun G tidak perlu ditulis eksplisit dalam tabel jika total
Layar Penuh
masing-masing kelompok sama
Tabel 5.3: Jumlah Sukses(S) dan Gagal dalam Berbagai Kelompok Faktor
Perlakuan
Judul
Faktor Kategori (Biner) P 1 ... P k
324 dari Total 490 N
21 ... N 2p
F3 S
n 31 ... n 3p Total Cari Halaman N 31 ... N 3p
Kembali
Layar Penuh Layar Penuh
Judul
jadi kita menghadapi data dengan besarnya dispersi jauh melebihi besarnya rerata. Kondisi ini disebut dispersi berlebih overdispersion.
◭◭ ◭ ◮ Salah satu indikasi adanya dispersi berlebih ini adalah besarnya sisaan ◮◮
deviansi jauh melebihi besarnya derajat kebebasannya [ 8 ].
325 dari 490
Cari Halaman
Kembali
Layar Penuh Layar Penuh
Judul
statistics => models => Generalized Linear Model
Sedangkan dengan menggunakan skrip, fungsi glm() dapat di- pangil dengan mengunakan format berikut:
326 dari 490
glm(formula, family = (link=), data, x = FALSE, y = TRUE, contrasts =, ...)
Cari Halaman
1. formula. Seperti umumnya pada model linier, formula berben-
Kembali
tuk y x1+x2 ....Pada dasarnya penulisan yang berlaku pada fungsi lm(), misalnya penulisan formula untuk peubah faktor
Layar Penuh
(kualitatif), juga berlaku pada fungsi glm ().
poisson(link = "log") quasi(link = "identity", variance = "constant")
Judul
quasibinomial(link = "logit") quasipoisson(link = "log")
3. Objek glm. ADa beberapainformasi yang dapat diekstrak terkait dengan objek yang dihasilkan melalui analisis glm, di antaranya:
327 dari 490
(a) coef(objek) untuk mengekstrak koefisien regresi ˆ β .
Cari Halaman
(b) deviance(objek) untuk mengekstrak jumlah kuadrat sisa. (c) formula(objek) untuk mengekstrak rumusan model yang
Kembali
dipergunakan (d) plot(objek) untuk menghasilkan grafik yaitu seperti gra-
Layar Penuh
fik sisa, grafik fitted value dan beberapa disgnostik.
Selain itu, objek glm memuat beberapa komponen penting diantara-
[1] "coefficients" "residuals" "fitted.values" [4] "effects"
"R"
"rank"
328 dari [7] "qr" 490 "family" "linear.predictors" [10] "deviance"
"aic"
"null.deviance"
[13] "iter" "weights"
"prior.weights"
Cari Halaman
[16] "df.residual" "df.null"
"y"
[19] "converged" "boundary"
"model"
Kembali
[22] "call" "formula"
"terms"
[25] "data" "offset"
"control"
Layar Penuh
[28] "method" "contrasts" "xlevels" [28] "method" "contrasts" "xlevels"
× Judul × × probit
X X 329 dari 490 inverse
Cari Halaman
Keterangan K: fungsi hubungan kanonik; X: fungsi yang dimungkinkan; × fungsi yang tidak bisa dilakukan.
Kembali
Regresi logistik, selain dapat diakses melalui fungsi glm() de-
Layar Penuh
ngan pilihan distribusi dan link yang sesuai, pada R juga dapat diak-
Analisis model linier tergereralisir dengan sebaran Binomial dapat di-
Judul
lakukan dengan dua macam pendekatan, yaitu ◭◭ ◭ ◮ 1. Data dalam bentuk tabel kontingensi yang menunjukkan ba- ◮◮
nyaknya subjek dalam Sukses dan Gagal.
330 dari 490
2. Data dengan respon yang langsung terkategori Sukses atau Ga- gal.
Cari Halaman
Contoh 5.1. Berikut adalah contoh data fiktif yang dimodifikasi dari
Venables & Ripley [ 47 ]. Ada tujuh perlakuan yang dibedakan un-
Kembali
tuk jenis kelamin laki-laki dan perempuan. Tiap tiap kelompok ada
30 subjek. Jumlah yang dicatat adalah jumlah subjek yang dinya-
Layar Penuh
takan lulus dari masing-masing kelompok. Data asli diberikan pada takan lulus dari masing-masing kelompok. Data asli diberikan pada
Judul
Tabel 5.5: Jumlah Kelulusan dalam Berbagai Kelompok Perlakuan
Perlakuan
J. Kelamin P1 P2 P3 P4 P5 P6 P7 P8 331 dari L 490 1 4 9 13 18 20 24 27
Cari Halaman
Jumlah peserta masing-masing kelompok adalah 30. Selanjutnya data kelulusan dan kegagalan dikelompokkan men- Kembali jadi 1 matriks respon berordo 16× 2 (cbind(Lulus, Gagal). Analisis
data selanjutnya dilakukan dengan
Layar Penuh
resp<-cbind(Lulus, Gagal)
J. Kelamin Perlakuan Lulus Gagal L
1 29 Judul L
0 30 332 dari 490 P
Cari Halaman
Layar Penuh
J.Kelamin[T.P]:Perl -0.13109 0.11526
--- Judul Significant code ❵***✬ 0.001 ❵**✬ 0.01 ❵*✬ 0.05 ❵.✬ 0.1 ❵ ✬ 1
(Dispersion parameter for binomial family taken to be 1)
333 dari 490
Null deviance: 170.5715 on 15 degrees of freedom Residual deviance: 9.3193 Cari Halaman on 12 degrees of freedom
AIC: 68.881
Kembali
Sepintas tidak begitu nampak signifikan adanya pengaruh je-
Layar Penuh
nis kelamin, tetapi ada baiknya jika grafik diagram pencar dipisahkan nis kelamin, tetapi ada baiknya jika grafik diagram pencar dipisahkan
Judul
Ada kalanya kita dihadapkan pada data yang setiap subjeknya sudah dikategorikan sebagai kondisi Sukses atau Gagal. Misalnya
muncul tidaknya gejala suatu penyakit pada individu. Dalam jenis data ini respon sudah dalam kategori biner, misalnya Sukses atau Ga-
334 dari gal, ada atau tidak tidak ada gejala. Berikut adalah Contoh dari 490 data klasik yang ada pada R yaitu kyphosis. Data ini berisi tentang
muncul tidaknya penyakit kyphosis pada anak yang pernah mengalami Cari Halaman operasi. Untuk mengaktifkan data tersebut dapat dilakukan perintah
berikut:
Kembali
library(gam) data(kyphosis)
Layar Penuh
print(summary(kyphosis))
Cari Halaman
0.2 P
L Kembali
PL 1 2 3 4 5 6 7 8 Layar Penuh
Perlakuan Perlakuan
1st Qu.: 26.00
1st Qu.: 3.000
1st Qu.: 9.00
Judul
Median :13.00 Mean
3rd Qu.:16.00 Max.
3rd Qu.:130.00
3rd Qu.: 5.000
Cari Halaman
call: glm(formula = Kyphosis ~ Age + Number + Start, family = binomial(logit),
data = kyphosis) Kembali
Deviance Residuals:
Layar Penuh
Min 1Q
Median
3Q
Max
Start -0.206510
0.067699 -3.050 0.00229 **
Judul
--- Signif. codes:
(Dispersion parameter for binomial family taken to be 1)
337 dari 490
Null deviance: 83.234 on 80 degrees of freedom Residual deviance: 61.380 Cari Halaman on 77 degrees of freedom
AIC: 69.38
Kembali
Number of Fisher Scoring iterations: 5
Layar Penuh Layar Penuh
menggunakan kriteria AIC.
Dengan model ini semua koefisien regresi signifikan yang berarti ada beda signifikan dari jumlah kerusakan dilihat baik dari jenis wool
338 dari 490
maupun tingkat tekanan. Model ini mempunyai nilai AIC 497,36
Cari Halaman
glm(formula = breaks ~ wool + tension, family = poisson(link = identity), data = warpbreaks)
Kembali
Deviance Residuals: Min
1Q Median
3Q Max
Layar Penuh
-3.8266 -1.5822 -0.4776 1.1656 4.5603
---
Signif. codes: 0 ✬***✬ 0.001 ✬**✬ 0.01 ✬*✬ 0.05 ✬.✬ 0.1 ✬ ✬ 1
Judul
(Dispersion parameter for poisson family taken to be 1) ◭◭ ◭ ◮ ◮◮
Null deviance: 297.37 on 53 degrees of freedom 339 dari Residual deviance: 214.70 490 on 50 degrees of freedom
AIC: 497.36
Cari Halaman
Distribusi Poisson dengan hubungan log
Kembali
Model ini juga menunjukkan beda signifikan antara jumlah kerusakan dilihat dari jenis wool dan tingkattekanan, tetapi model ini memi-
Layar Penuh
liki AIC yang sedikit lebih rendah 493,06. Ini berarti model dengan
Deviance Residuals: Min
1Q Median
3Q Max
-3.6871 Judul -1.6503 -0.4269 1.1902 4.2616
Coefficients: ◭◭ ◭ ◮ ◮◮ Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.69196 0.04541 81.302 < 2e-16 ***
340 dari 490
woolB -0.20599 0.05157 -3.994 6.49e-05 *** tensionM -0.32132 0.06027 -5.332 9.73e-08 ***
Cari Halaman
tensionH -0.51849 0.06396 -8.107 5.21e-16 *** ---
Signif. codes: 0 ✬***✬ 0.001 ✬**✬ 0.01 ✬*✬ 0.05 ✬.✬ 0.1 ✬ ✬ 1 Kembali (Dispersion parameter for poisson family taken to be 1)
Layar Penuh Layar Penuh
ngan usia anak (Age) dalam bulan, tingkat operasi mulai (Start) Lihat Judul
Chamber & Hastie[ 5 ].
Respon muncul tidaknya Khyposis merupakan data biner yang berdistribusi binomial. Kita dapat menggunakan Khyposis sebagai
341 dari 490
respon dan variabel lainnya sebagai veriabel penjelas dengan menggu- nakan fungsi hubungan logit. Kita dapat mulai dengan model yang
Cari Halaman
agak lengkap dan selanjutnya memerintahkan R untuk menghitung model terbaik dengan kriteria AIC.
Kembali
glm(formula = Kyphosis ~ Age + Number + Start, family = binomial(link = logit), data = kyphosis)
Layar Penuh
Signif. codes: 0 ✬***✬ 0.001 ✬**✬ 0.01 ✬*✬ 0.05 ✬.✬ 0.1 ✬ ✬ 1
Judul
(Dispersion parameter for binomial family taken to be 1) ◭◭ ◭ ◮ ◮◮
Null deviance: 83.234 on 80 degrees of freedom Residual deviance: 61.380 on 77 degrees of freedom
342 dari AIC: 69.38 490
Model ini memiliki AIC 69,38 tetapi dari koefisien regresinya
Cari Halaman
terlihat hanya ada satu koefisienyang signifikan. Untuk itu kita akan lakukan penelusuran alternatif model dengan menggunakan perintah
Kembali
step() . Ternyata dari segi nilai AIC, alternatif model- model yang lain tidak menyebabkan adanya oenurunan AIC yang berarti dan di-
Layar Penuh
anggap model lengkap ini sudah cukup baik.
type = c("link", "response", "terms"), se.fit = FALSE, dispersion = NULL, terms = NULL,
Judul
na.action = na.pass, ...)
Tipe yang merupakan default adalah ”link”, yaitu R menghi-
tung hasil kombinasi linier
x ij β ˆ j . Pada contoh di atas diperoleh
β ˆ j masing-masing adalah (-2,036934, 0,010930; 0.410601;-0,206510),
343 dari 490
sehingga untuk x 1 = 70, x 2 = 3, x 3 = 10 diperoleh η = −2, 105097.
Untuk prediksi respon yang ditafsirkan sebagai peluang munculnya Cari Halaman kyphosis ketika Age=70, Number=3, Start=10, diperoleh dengan memilih
type=”response” yang menghasilkan 0,1086024. Kembali > predict(glm2,data.frame(Age=70,Number=3,Start=10)
Layar Penuh
[1] -2.105097
Cari Halaman
Kembali
Layar Penuh Layar Penuh
linier atau kuadratik).
3. Ada tida komponen penting model linier tergeneralisir yaitu: (i) komponen respon dengan sebaranpada anggota keluarga ekspo-
345 dari 490
nensial, (ii) ada komponen kombinasi linier antara peubah pen- jelas dengan parameter regresi, dan (iii) ada fungsi (kontinu dan
diferensiabel) yang menghubungkan antara nilai tengah dengan Cari Halaman kombinasi linier tadi.
Kembali
4. Beberapa bentuk khusus regresi yang termasuk model linierter- generalisir diantaranya adalah regresi logistik (logit, probit de-
Layar Penuh
ngan respon bersebaran Binomial), regresi log-linier (dengan re-
Cari Halaman
Kembali
Layar Penuh Layar Penuh
Cari Halaman
Kembali
Layar Penuh Layar Penuh
Judul
3. Jelaskan manfaatdan fungsi dari fungsi link pada model linier
tergeneralisir (kaitkan dengan skala peubah penjelas dan peubah respon).
348 dari 490
4. Jelaskan apa yang dimaksud dengan regresi logistik dan log- linier.
Cari Halaman
5. Suatu data dianalisis dengan model linier tergeneralisir dengan sebaran Poisson dan fungsi link log. Dari hasil analisi diperoleh
Kembali
β ˆ 0 ,ˆ β 1 dan ˆ β 2 . Tuliskan bentuk model (persamaan regresi) yang diperoleh.
Layar Penuh
Judul