=
−
2
∑ −
∑
=
−
2
∑ −
∑
=
2 = 1
− ∑
= 1 2
.
Dalam bentuk matriks dapat dituliskan sebagai berikut:
=
− ∑
.
Selanjutnya untuk mencari jumlah kuadrat sisa
dari suatu persamaan regresi adalah sebagai berikut :
= −
2 = 1
=
2 = 1
= ′ .
Substitusi
=
− ,
sehingga
=
−
′
−
=
− −
+ =
−
+
.
Karena
= ,
akibatnya
=
− .
Untuk mencari formula jumlah kuadrat regresi
dapat digunakan formula umum dari
, yaitu :
= +
maka
= +
=
− ∑
−
+
=
−
∑
. Montgomery Peck 1991
2.6 Hipotesis Statistik dan Taraf Nyata α
Hipotesis statistik adalah pernyataan atau dugaan mengenai satu atau lebih populasi.
Hipotesis yang dirumuskan dengan harapan akan ditolak disebut sebagai hipotesis nol,
dilambangkan dengan
.
Penolakan mengakibatkan penerimaan suatu hipotesis
alternatif, yang dilambangkan dengan .
Hipotesis nol
suatu parameter
harus menyatakan suatu nilai dari parameter
tersebut, sedangkan hipotesis alternatifnya merupakan kemungkinan nilai lainnya. Jadi
bila menyatakan hipotesis nol
= 0,5
maka hipotesis alternatifnya adalah ≠
0,5.
Taraf nyata adalah besarnya batas toleransi dalam menerima kesalahan hasil hipotesis
terhadap nilai parameter populasinya. Taraf nyata
dilambangkan dengan
alpha. Semakin tinggi taraf nyata yang digunakan,
semakin tinggi pula penolakan hipotesis nol atau hipotesis yang diuji, padahal hipotesis nol
benar. Besarnya nilai bergantung pada
keberanian dalam menentukan besarnya kesalahan yang akan ditolerir. Besarnya
kesalahan disebut sebagai daerah kritis pengujian critical region of test atau daerah
penolakan region of rejection.
Walpole 1995
2.7 Koefisien Determinasi , Rataan
Kuadrat Sisa s
2
, dan -Mallows
Definisi Koefisien Determinasi Koefisien determinasi
merupakan suatu ukuran kelayakkan model regresi. Nilai
menunjukkan besarnya pengaruh peubah bebas secara serempak terhadap peubah
terikat. Misalkan
adalah koefisien
determinasi berganda dengan
=
banyaknya parameter dalam model, maka
dapat didefinisikan sebagai:
= =
+ =
⁄
1 + .
Salah satu kelemahan adalah besarnya
nilai dipengaruhi oleh banyaknya peubah
bebas di dalam model. Jika banyaknya peubah bebas bertambah maka nilai
akan membesar, sehingga sulit untuk memperoleh
nilai optimum. Akan tetapi jika model
yang dibandingkan mempunyai peubah bebas yang sama maka
mudah untuk digunakan. Salah satu cara untuk mengatasi kelemahan
adalah dengan menggunakan yang
disesuaikan adjusted yang didefinisikan
sebagai :
= 1
− −
⁄ −
1
⁄
= 1
− −
1
−
1
−
= 1
−
1
− .
Penyesuaian ini membuat tidak selalu
membesar apabila banyaknya peubah bebas meningkat.
Sembiring 1995
Definisi Rataan Kuadrat Sisa s
2
Ukuran ini
menggambarkan atau
memperhitungkan banyaknya parameter di dalam model melalui pembagian derajat
kebebasannya. Semakin kecil nilai s
2
maka model yang ditunjukkan semakin baik. Rataan
kuadrat sisa s
2
membesar jika terjadi penurunan dalam
akibat penambahan peubah bebas ke dalam model. Penambahan
peubah bebas ke dalam model akan menurunkan
dan derajat bebasnya. Kuadrat sisa s
2
dapat dinyatakan sebagai :
=
−
.
Sembiring 1995
Definisi Statistik -Mallows
Ukuran statistik ini diperkenalkan oleh Colin L. Mallows yang digunakan untuk
menilai kecocokan model regresi yang telah diperkirakan dengan menggunakan kuadrat
terkecil biasa. Tujuannya adalah untuk menemukan model terbaik yang melibatkan
subset dari semua peubah bebas yang tersedia. Misalkan
menunjukkan jumlah kuadrat sisa
dari model dengan parameter termasuk
β . Sementara
menunjukkan ukuran amatan, dan
menunjukan rataan kuadrat sisa. Statistik
dapat dinyatakan sebagai
= + 2
−
.
Semakin banyak suku yang disertakan ke dalam model biasanya penurunan Cp akan
semakin tinggi. Model terbaik ditentukan setelah memeriksa pola perubahan Cp.
Selanjutnya cari persamaan regresi dengan nilai Cp terendah yang kira-kira sama dengan
Cp = p.
Sembiring 1995
III DESKRIPSI METODE VARIABLE SELECTION
Prinsip utama dari metode variable selection adalah menentukan peubah yang
akan dimasukkan ke dalam model regresi. Dalam metode ini pula dapat ditentukan
peubah yang tidak perlu dimasukkan ke dalam model. Sehingga pada akhirnya
diperoleh model regresi dengan peubah yang lebih sedikit Rawlings et al. 1998.
3.1 Uji Signifikansi Persamaan Regresi
Uji signifikansi
persamaan regresi
merupakan suatu uji yang digunakan untuk menunjukkan adanya suatu hubungan linear
antara peubah respon y dan peubah bebas
, , …,
. Hipotesis yang sesuai adalah: H
:
= 0
H
1
: ≠
minimal ada satu ≠
. Penolakan
H menandakan
bahwa setidaknya ada satu dari peubah bebas
, , …,
yang berkontribusi
secara signifikan terhadap model. Jumlah kuadrat
total dipartisi menjadi jumlah kuadrat
regresi dan Jumlah Kuadrat Sisa
, yang dapat dinyatakan dalam bentuk:
= +
.
Jika H :
= 0
benar, maka
~
dimana nilai derajat bebas dari setara
dengan banyaknya peubah bebas yang ada di dalam model. Selain itu pula dapat dinyatakan
bahwa
~
, serta dan
saling bebas. Prosedur pengujian untuk H :
= 0
dilakukan dengan menghitung :
=
⁄ − −
1
⁄
= .
Penolakkan H terjadi jika nilai
=
, ,
dengan α merupakan taraf
nyata, misalkan
α=0.05 atau α=0.1 Montgomery Peck 1991.
Untuk menguji pengaruh setiap peubah bebas terhadap peubah terikat digunakan uji F
parsial. Uji F parsial dapat dilakukan terhadap semua koefisien regresi dengan menganggap
semua peubah bebas telah masuk ke dalam model kecuali peubah yang ingin diuji
pengaruhnya. Uji F parsial juga digunakan untuk
memilih peubah
bebas yang
keberadaannya memberikan
sumbangan keragaman yang cukup besar terhadap model
regresi. Peubah bebas yang keberadaannya dapat diwakili oleh peubah lain tidak perlu
dimasukkan ke dalam model.
Misalkan
∗
,
∗
, …,
∗
adalah peubah bebas di luar model yang akan diuji
pengaruhnya. Sementara
, , …,
adalah peubah bebas yang telah ada di dalam model.
Model regresi penuh full dapat ditulis sebagai:
= +
+ + …+
+
∗ ∗
+
∗ ∗
+ …+
∗ ∗
+
. Hipotesis nol yang sesuai dengan Uji F
parsial adalah : H
: ∗
=
H
1
:
∗
≠ minimal ada satu
∗
= 0
. Tahapan pertama dari uji F parsial adalah
mencari jumlah kuadrat akibat penambahan atau
pengurangan peubah
∗
,
∗
, …,
∗
terhadap model. Jumlah kuadrat ini dapat dinyatakan dalam bentuk :
∗
,
∗
, …,
∗
|
, , …,
= Model full
−
Model Tereduksi
= ,
, …, ,
∗
,
∗
, …,
∗
−
, , …,
= ,
, …,
−
, , …,
,
∗
,
∗
, …,
∗
.
Dengan menggunakan jumlah kuadrat tambahan di atas, maka nilai
dapat ditentukan sebagai berikut :
∗
,
∗
,…,
∗
|
, , …,
= [
model penuh
−
tereduksi]
⁄
Kuadrat tengah sisa model full
= [
model tereduksi
−
model full]
⁄
Kuadrat tengah sisa model full
=
∗
,
∗
, …,
∗
, , …,
⁄
∗
,
∗
,…,
∗
| ,
,…,
Jika
=
, ,
maka H ditolak dan dapat disimpulkan bahwa
peubah bebas tersebut berpengaruh nyata terhadap model.
Kleinbaum et al. 2008
3.2 Prosedur Variable Selection
3.2.1 Metode Seleksi Maju Forward Elimination
Menurut metode
ini peubah
bebas dimasukkan satu demi satu menurut urutan
besar pengaruhnya terhadap model dan berhenti jika semua peubah bebas yang
memenuhi syarat telah masuk ke dalam model. Didefinisikan k adalah banyaknya
peubah bebas x yang akan dimasukkan ke dalam model. Pada keadaan awal model tidak
mengandung peubah bebas, sehingga model awal dapat ditulis sebagai
=
.
Algoritma forward selection :
Langkah 0:
Menentukan model regresi awal
=
. Langkah 1:
Menentukan matriks korelasi R dari semua peubah yang tersedia.
=
⎣ ⎢
⎢ ⎡
1
⋯
1
⋯ ⋮
⋮ ⋱
⋮ ⋯
1
⎦ ⎥
⎥ ⎤
.
Langkah 2 : Memilih
peubah bebas
, , …,
dengan korelasi
= 1,2, …,
tertinggi terhadap peubah terikat y. Langkah 3:
Masukkan peubah bebas terpilih pertama ke dalam model, misalkan
. Sehingga membentuk suatu model regresi :
= +
Langkah 4:
Uji F terhadap peubah pertama yang terpilih.
Jika maka
peubah terpilih dibuang dan proses dihentikan. Jika
maka peubah terpilih memiliki pengaruh nyata
terhadap peubah terikat y, sehingga layak untuk dipertahankan di dalam model.
Langkah 5:
Memilih peubah bebas tersisa dengan kuadrat korelasi parsial tertinggi.
Langkah 6:
Masukkan peubah bebas terpilih kedua ke dalam model, misalkan
.
sehingga membentuk suatu model regresi :
= +
+
Langkah 7:
Uji F parsial, jika maka
proses dihentikan dan model terbaik adalah model sebelumnya. Namun jika
≥ peubah bebas layak
untuk dimasukkan ke dalam model dan kembali ke langkah 5. Proses berakhir jika
tidak ada lagi peubah tersisa yang bisa dimasukkan ke dalam model.
Montgomery Peck 1991
3.2.2 Metode Seleksi Mundur Backward Elimination
Metode ini dimulai dengan memasukkan semua peubah bebas ke dalam model sehingga
terbentuk suatu model regresi penuh full. Kemudian satu demi satu peubah bebas
tersebut direduksi sampai semua peubah tidak memenuhi patokan keluar model. Misalkan k
adalah banyaknya peubah bebas. Maka model lengkap dapat dituliskan dalam bentuk :
= +
+ + …+
.
Algoritma backward elimination :
Langkah 0:
Menentukan model regresi penuh full
= +
+ + …+
.
Langkah 1:
Uji F parsial masing-masing peubah bebas terhadap model.
Langkah 2 : Memilih peubah bebas
, , …,
dengan nilai terendah.
Langkah 3:
Jika terendah
≥ maka
proses dihentikan dan persamaan regresi tersebut merupakan persamaan terbaik.
Tetapi jika nilai terendah
maka peubah bebas yang memiliki nilai F parsial terendah dibuang dari model.
Langkah 5: Kembali ke langkah 1 dengan model awal
yang tidak menyertakan peubah yang dibuang k-1 peubah bebas.
Draper Smith 1985
3.2.3 Metode Seleksi Bertahap Stepwise Elimination
Metode ini merupakan gabungan dari metode seleksi maju dan metode seleksi
mundur yang diterapkan secara bergantian. Pada tahap pertama digunakan seleksi maju,
dan tahap kedua digunakan seleksi mundur. Pada setiap tahap jika peubah yang ada dalam
model tidak berpengaruh setelah dimasukkan peubah baru, maka peubah tersebut akan
dikeluarkan dari model. Sebaliknya jika peubah yang ada dalam model masih
berpengaruh setelah peubah lain dimasukkan, maka peubah tersebut akan dipertahankan
sampai pengujian tahap berikutnya.
Didefinisikan k adalah banyaknya peubah bebas x yang akan dimasukkan ke dalam
model. Pada keadaan awal model tidak mengandung peubah bebas, sehingga model
awal dapat ditulis sebagai
=
.
Algoritma stepwise elimination :
Langkah 0:
Menentukan model regresi awal
=
. Langkah 1:
Menentukan matriks korelasi R dari semua peubah yang tersedia.
=
⎣ ⎢
⎢ ⎡
1
⋯
1
⋯ ⋮
⋮ ⋱
⋮ ⋯
1
⎦ ⎥
⎥ ⎤
.
Langkah 2 : Memilih
peubah bebas
, , …,
dengan korelasi
= 1,2, …,
tertinggi terhadap peubah terikat y. Langkah 3:
Masukkan peubah bebas terpilih pertama ke dalam model, misalkan
. Sehingga membentuk suatu model regresi :
= +
.
Langkah 4:
Uji F terhadap peubah terpilih pertama. Jika
maka peubah terpilih dibuang dan proses
dihentikan. Namun jika maka peubah terpilih layak
dipertahankan di dalam model.
Langkah 5:
Memilih peubah bebas dengan kuadrat korelasi parsial
- parsial tertinggi.
Langkah 6:
Masukkan peubah bebas terpilih kedua ke dalam model, misalkan
.
Sehingga membentuk suatu model regresi :
= +
+ .
Langkah 7:
Uji F parsial masing-masing peubah bebas yang terdapat di dalam model.
Langkah 8: Uji F parsial masuk, jika
peubah bebas terpilih kedua
maka proses dihentikan dan model terbaik adalah model sebelumnya. Namun jika
≥ peubah
bebas terpilih layak untuk dipertahankan dalam model.
Langkah 9:
Uji F parsial ke luar, jika nilai terendah
maka peubah bebas yang memiliki F parsial
terendah dibuang
dari model.
Jika terendah
≥ maka peubah
bebas dipertahankan. Langkah 10:
Kembali ke langkah 5 untuk menguji peubah bebas tersisa. Proses dihentikan
jika tidak ada lagi peubah bebas yang dapat dimasukan atau dikeluarkan.
Sembiring 1995
3.2.4 Metode Semua Kemungkinan Regresi All Possible Regression
Sesuai dengan namanya metode ini dirancang
untuk menjalankan
semua kemungkinan regresi antara peubah terikat
dengan semua kombinasi dari peubah bebas. Jika terdapat k peubah bebas yang tersedia,
maka ada 2
k
persamaan. Jika k=10 maka ada 2
10
= 1024 persamaan yang harus diperiksa. Itulah sebabnya prosedur ini memerlukan
komputer berkecepatan tinggi. Dalam menilai kebaikan suatu kombinasi atau pasangan
peubah bebas biasanya sering digunakan salah satu patokan dari:
1. Koefisien determinasi R
2
2. Rataan kuadrat sisa s
2
, dan 3. C
p
Mallows. Algoritma all possible regression :
Langkah 1:
Mengelompokkan persamaan ke dalam kelompok-kelompok
berdasarkan pada banyaknya peubah bebas. Kelompok
terdiri dari
persamaan yang
tidak mengandung
peubah bebas
sampai persamaan yang mengandung semua
peubah bebas.
Pengelompokkan persamaan regresi tersebut adalah sebagai
berikut : a. Kelompok 1 terdiri dari persamaan
regresi dengan hanya nilai tengah Model
=
b. Kelompok 2 terdiri dari persamaan regresi dengan 1 peubah bebas
Contoh:
= +
c. Kelompok 3 terdiri dari persamaan regresi dengan 2 peubah bebas
Contoh:
= +
+
d. Kelompok ke-n
= 4,5, …, + 1
terdiri dari persamaan regresi dengan n-1 atau semua peubah bebas.
Contoh :
= +
+
⋯
+
.
Langkah 2: Pengamatan terhadap pola perubahan nilai
, , dan C
p
dari setiap persamaan setelah ditambahkan peubah. Peubah yang
memiliki pengaruh
besar akan
meningkatkan dan menurunkan
, dan C
p
yang cukup signifikan. Jika setelah penambahan peubah bebas tidak terjadi
perubahan yang cukup signifikan, maka peubah tersebut dianggap tidak terlalu
berpengaruh. Sehingga model sebelumnya lebih baik.
Draper Smith 1985
IV APLIKASI METODE VARIABLE SELECTION PADA BIDANG
PENDIDIKAN DAN KESEHATAN
4.1 Formulasi peubah bebas dan peubah terikat
Dalam mengukur dimensi pendidikan dan kesehatan penduduk digunakan beberapa
indikator. Indikator yang digunakan untuk menentukan derajat kesehatan dalam karya
ilmiah ini adalah :
= Angka Harapan Hidup = Angka Kematian Bayi.
Sedangkan peubah bebas atau faktor yang berpengaruh terhadap kedua indikator di atas
yaitu : = Distribusi air
= Jumlah bidan = Jumlah dokter
= Jumlah mantri = Jumlah puskesmas
= Jumlah Rumah Sakit RS.
Indikator yang
digunakan untuk
menentukan derajat pendidikan yaitu : = Rata-rata lama sekolah
= Angka Melek Huruf. Sedangkan peubah bebas atau faktor yang
berpengaruh terhadap kedua indikator di atas yang yang digunakan yaitu :
= Jumlah SD SD = Jumlah SMP SMP
= Jumlah SMA SMA = Jumlah Perguruan tinggi
= Jumlah guru SD = Jumlah guru SMP
= Jumlah guru SMA = Jumlah dosen
= Pendidikan S-1 keatas guru SD = Pendidikan S-1 keatas guru SMP
= Pendidikan S-1 keatas guru SMA = Angka Partisipasi Kasar SD
= Angka Partisipasi Kasar SMP = Angka Partisipasi Kasar SMA
= Angka Partisipasi Murni SD = Angka Partisipasi Murni SMP
= Angka Partisipasi Murni SMA. Data yang digunakan pada karya ilmiah ini
adalah data sekunder indikator pendidikan dan kesehatan dari 33 provinsi di Indonesia pada
tahun 2008 yang diambil dari Biro Pusat Statistik BPS.
4.2 Ilustrasi pemilihan peubah dominan