Model dengan Variabel Kualitatif
3.8.3. Model dengan Variabel Kualitatif
218 dari 490
Andaikan selain variabel penjelas X data juga mengandung variabel kualitatif G, maka variabel kualitatif ini pun perlu diperiksa apakah
Cari Halaman
berpengaruh pada hubungan variabel X dan Y . Untuk menghadapi data yang mengandung peubah kualitatif, secara umum dapat di-
lakukan lengkah-langkah berikut ini. Kembali
1. Lakukan eksplorasi secara grafis dengan menggambar Diagram
Layar Penuh
Pencar (Scattergram) data, untuk melihat secara intuitif apakah
Ada beberapa cara (yang biasa disebut formula) untuk memasukkan
Judul
variabel kualitatif (misalnya grup) pada R seperti diuraikan berikut ini.
1. Y ∼ X ∗ G. Dengan formula ini kita mencoba model paling lengkap yaitu memeriksa kemungkinan bahwa setiap kelompok
219 dari 490
memiliki model yang berbeda.
2. Y ∼ X + G. Formula ini adalah untuk memeriksa kemungkinan Cari Halaman model regresi sejajar (dengan gradien sama tetapi kemungkinan
konstanta berbeda). Kembali
3. Y ∼ G/X. Formula ini adalah untuk memeriksa signifikansi mo-
Layar Penuh
del masing-masing kelompok dengan memaksa model dengan del masing-masing kelompok dengan memaksa model dengan
kualitatif Judul Contoh 3.4.
Suatu data yang mengandung peubah kuantitatif X, Y dan peu-
bah kualitatif g sebarannya ditunjukkan oleh Gambar 3.8 . Pada Gam-
220 dari 490
bar terlihat bahwa data mengandung variabel kualitatif g tetapi kedua subkelompok data terlihat cukup membaur dan tidak perlu dibedakan
Cari Halaman
antara kedua sub kelompok datatersebut. Call:
lm(formula = y ~ g * x, data = sim.data.reg) Kembali
Coefficients:
Layar Penuh
Estimate Std. Error t value Pr(>|t|)
Judul Y
35 40 45 50 55 60 65 70 Cari Halaman
Kembali
Gambar 3.8: Diagram Pencar X dengan Y yang mengandung kelompok yang dapat digabung
Layar Penuh
Dengan formula di atas (Y ∼ G ∗ X) kita ingin mendapat gam- baran perlu tidaknya memisahkan konstanta dan gradien garis regresi Judul
masing-masing kelompok. Dari hasil di atas diperoleh: ◭◭ ◭ ◮ 1. koefisien g[T.P] tidak signifikan, berarti selisih konstanta dua ◮◮
kelompok tidak signifikan;
222 dari 490
2. koefisien g[T.P]:x tidak signifikan, berarti selisih gradien dua kelompok tidak signifikan.
Cari Halaman
Jadi untuk data ini tidak perlu dipisahkan model atau garis regresi dari masing-masing kelompok.
Kembali
Call: lm(formula = y ~ g + x, data = sim.data.reg)
Layar Penuh
Signif. codes: 0 ✬***✬ 0.001 ✬**✬ 0.01 ✬*✬ 0.05 ✬.✬ 0.1 ✬ ✬ 1
Dengan formula ini (Y ∼ G + X) kita memaksa untuk menggu-
Judul
nakan gradien yang sama (regresi sejajar), tetapi hanya melihat kemu- ngkinan perlu tidaknya memisahkan konstantanya. Hasil di atas me-
nunjukkan kita tidak perlu memisahkan konstanta dari masing-masing kelompok.
223 dari 490
Call: lm(formula = y ~ g/x, data = sim.data.reg)
Cari Halaman
Coefficients:
Estimate Std. Error t value Pr(>|t|) Kembali (Intercept) 6.1061
0.7936 7.694 2.47e-10 ***
g[T.P] -0.3479
1.1224 -0.310 0.758
Layar Penuh
gL:x 3.8866 0.0837 46.433 < 2e-16 ***
Dengan formula ini (Y ∼ G/X) kita memaksa memeriksa model atau regressi terpisah untuk masing-masing kelompok. Hasil menun-
jukkan bahwa regresi masing-masing kelompok sama-sama signifikan,
Judul
tetapi tidak ada informasi apakah kedua model atau garis regresi itu dapat digabung atau tidak. Karena model menggunakan model de-
◭◭ ◭ ◮ ngan konstanta, kita masih bisa melihat bahwa selisih konstanta dari ◮◮ kelompok L dan kelompok P tidak signifikan.
224 dari Secara keseluruhan bentuk model yang dapat dimasukan dalam 490
formula R dapat dirangkum dalam Tabel 3.1 (lihat juga Kuhnert &
Venables [ 18 ]). Pada notasi tersebut x menunjukkan variabel kuanti-
Cari Halaman
tatif sedangkan G menunjukan variabel kualitatif (faktor), sedangkan y dapat berupa kualitatif atau faktor (pada regresi logistik yang akan
Kembali
dibahas kemudian). Pada model G/(x1+x2) kelompok yang ada di- paksa memiliki regresi yang berbeda, sedangkan pada y~G*(x1+x2)
Layar Penuh
kelompok dilihat semua kemungkinannya apakah perlu regresi ber-
2 y~x-1
regresi tanpa konstanta
3 log(y)~x
regresi dengan transformasi pada Y
Judul
4 y~log(x)
regresi dengan transformasi pada X
5 y~x1+x2+... regresi multivariat ◭◭ ◭ ◮ 6 ◮◮
y~G+x1+x2
regresi paralel
7 y~G/(x1+x2) regresi berbeda 225 dari 8 490 y~G*(x1+x2) regresi dengan interaksi
Cari Halaman
Contoh 3.5. Data berikut mengandung peubah kuantitatif X, Y dan peu-
Kembali
bah kualitatif G dengan kategori (L, P ), sebarannya ditunjukkan oleh Gambar 3.9 . Pada Gambar terlihat bahwa data mengandung vari-
Layar Penuh
abel kualitatif g dan kedua subkelompok data terlihat memiliki ke- abel kualitatif g dan kedua subkelompok data terlihat memiliki ke-
Call: ◭◭ ◭ ◮ lm(formula = y ~ x, data = DataSimReg) ◮◮
Residuals:
226 dari 490
Min 1Q Median
3Q Max
-11.2012 -2.1944 0.1407 2.9430 11.2207
Cari Halaman
Coefficients: Estimate Std. Error t value Pr(>|t|) Kembali
(Intercept) -8.73271 3.53350 -2.471 0.0164 * x
Layar Penuh
---
Judul Y
35 40 45 50 55 60 65 70 Cari Halaman
Kembali
Gambar 3.9: Diagram Pencar X dengan Y mengandung kelompok yang perlu dipisah
Layar Penuh
Terlihat bahwa gradien atau koefisien regresi(koefisien X)tidak sig- nifikan dan koefisien determinasinya juga sangat kecil (0,02).
Judul
2. Model paralel. Model berikutnya yang banyak umum dicoba orang ◭◭ ◭ ◮ adalah model regresi paralel, (Y ∼ X + G), dengan model ini kita ◮◮
memberi ruang perbedaan konstanta tetapi tidak pada gradien re- gresi.
228 dari 490
Call: lm(formula = y ~ x + g, data = DataSimReg) Cari Halaman
Residuals:
Kembali
Min 1Q Median
3Q
Max
-10.55982 -2.81816 -0.09043 2.73765 10.66159
Layar Penuh
Residual standard error: 4.682 on 57 degrees of freedom
Judul
Multiple R-squared: 0.03616,Adjusted R-squared: 0.002345 F-statistic: 1.069 on 2 and 57 DF, p-value: 0.35
Dari hasil terlihat bahwa gradien masih tetap tidak signifikan, demikian
229 dari 490
juga selisih konstanta (g[T.P]) tidak signifikan, dan koefisien deter- minasi hanya membaik sedikit menjadi 0,04.
Cari Halaman
3. Model terpisah. Diagram pencar mengindikasikan kelompok memi- liki kecenderungan berbeda, karena itu sebenarnya yang paling ma-
Kembali
suk akal adalah mencoba regresi berbeda dan sekaligus memisahkan konstanta secara eksplisit, Y ∼ X/G − 1.
Layar Penuh
Estimate Std. Error t value Pr(>|t|) gL
15.39683 2.07712 7.413 7.20e-10 ***
Judul
gP -31.43454 2.04057 -15.405 < 2e-16 *** gL:x -0.41683 0.04056 -10.276 1.69e-14 ***
◭◭ ◭ ◮ ◮◮ gP:x 0.52931 0.03933 13.457 < 2e-16 *** ---
230 dari Signif.codes:0 490 ✬***✬ 0.001 ✬**✬ 0.01 ✬*✬ 0.05 ✬.✬ 0.1✬✬1 Residual standard error: 1.927 on 56 degrees of freedom
Cari Halaman
Multiple R-squared: 0.9258,Adjusted R-squared: 0.9205 F-statistic: 174.7 on 4 and 56 DF, p-value: < 2.2e-16
Kembali
Hasil menunjukkan bahwa baik konstanta maupun gradien untuk
Layar Penuh
masing-masing kelompok semuanya signifikan. Sementara itu koe- masing-masing kelompok semuanya signifikan. Sementara itu koe-
Judul