Hipotesis Statistik dan Taraf Nyata α Formulasi peubah bebas dan peubah terikat

= − 2 ∑ − ∑ = − 2 ∑ − ∑ = 2 = 1 − ∑ = 1 2 . Dalam bentuk matriks dapat dituliskan sebagai berikut: = − ∑ . Selanjutnya untuk mencari jumlah kuadrat sisa dari suatu persamaan regresi adalah sebagai berikut : = − 2 = 1 = 2 = 1 = ′ . Substitusi = − , sehingga = − ′ − = − − + = − + . Karena = , akibatnya = − . Untuk mencari formula jumlah kuadrat regresi dapat digunakan formula umum dari , yaitu : = + maka = + = − ∑ − + = − ∑ . Montgomery Peck 1991

2.6 Hipotesis Statistik dan Taraf Nyata α

Hipotesis statistik adalah pernyataan atau dugaan mengenai satu atau lebih populasi. Hipotesis yang dirumuskan dengan harapan akan ditolak disebut sebagai hipotesis nol, dilambangkan dengan . Penolakan mengakibatkan penerimaan suatu hipotesis alternatif, yang dilambangkan dengan . Hipotesis nol suatu parameter harus menyatakan suatu nilai dari parameter tersebut, sedangkan hipotesis alternatifnya merupakan kemungkinan nilai lainnya. Jadi bila menyatakan hipotesis nol = 0,5 maka hipotesis alternatifnya adalah ≠ 0,5. Taraf nyata adalah besarnya batas toleransi dalam menerima kesalahan hasil hipotesis terhadap nilai parameter populasinya. Taraf nyata dilambangkan dengan alpha. Semakin tinggi taraf nyata yang digunakan, semakin tinggi pula penolakan hipotesis nol atau hipotesis yang diuji, padahal hipotesis nol benar. Besarnya nilai bergantung pada keberanian dalam menentukan besarnya kesalahan yang akan ditolerir. Besarnya kesalahan disebut sebagai daerah kritis pengujian critical region of test atau daerah penolakan region of rejection. Walpole 1995

2.7 Koefisien Determinasi , Rataan

Kuadrat Sisa s 2 , dan -Mallows Definisi Koefisien Determinasi Koefisien determinasi merupakan suatu ukuran kelayakkan model regresi. Nilai menunjukkan besarnya pengaruh peubah bebas secara serempak terhadap peubah terikat. Misalkan adalah koefisien determinasi berganda dengan = banyaknya parameter dalam model, maka dapat didefinisikan sebagai: = = + = ⁄ 1 + . Salah satu kelemahan adalah besarnya nilai dipengaruhi oleh banyaknya peubah bebas di dalam model. Jika banyaknya peubah bebas bertambah maka nilai akan membesar, sehingga sulit untuk memperoleh nilai optimum. Akan tetapi jika model yang dibandingkan mempunyai peubah bebas yang sama maka mudah untuk digunakan. Salah satu cara untuk mengatasi kelemahan adalah dengan menggunakan yang disesuaikan adjusted yang didefinisikan sebagai : = 1 − − ⁄ − 1 ⁄ = 1 − − 1 − 1 − = 1 − 1 − . Penyesuaian ini membuat tidak selalu membesar apabila banyaknya peubah bebas meningkat. Sembiring 1995 Definisi Rataan Kuadrat Sisa s 2 Ukuran ini menggambarkan atau memperhitungkan banyaknya parameter di dalam model melalui pembagian derajat kebebasannya. Semakin kecil nilai s 2 maka model yang ditunjukkan semakin baik. Rataan kuadrat sisa s 2 membesar jika terjadi penurunan dalam akibat penambahan peubah bebas ke dalam model. Penambahan peubah bebas ke dalam model akan menurunkan dan derajat bebasnya. Kuadrat sisa s 2 dapat dinyatakan sebagai : = − . Sembiring 1995 Definisi Statistik -Mallows Ukuran statistik ini diperkenalkan oleh Colin L. Mallows yang digunakan untuk menilai kecocokan model regresi yang telah diperkirakan dengan menggunakan kuadrat terkecil biasa. Tujuannya adalah untuk menemukan model terbaik yang melibatkan subset dari semua peubah bebas yang tersedia. Misalkan menunjukkan jumlah kuadrat sisa dari model dengan parameter termasuk β . Sementara menunjukkan ukuran amatan, dan menunjukan rataan kuadrat sisa. Statistik dapat dinyatakan sebagai = + 2 − . Semakin banyak suku yang disertakan ke dalam model biasanya penurunan Cp akan semakin tinggi. Model terbaik ditentukan setelah memeriksa pola perubahan Cp. Selanjutnya cari persamaan regresi dengan nilai Cp terendah yang kira-kira sama dengan Cp = p. Sembiring 1995 III DESKRIPSI METODE VARIABLE SELECTION Prinsip utama dari metode variable selection adalah menentukan peubah yang akan dimasukkan ke dalam model regresi. Dalam metode ini pula dapat ditentukan peubah yang tidak perlu dimasukkan ke dalam model. Sehingga pada akhirnya diperoleh model regresi dengan peubah yang lebih sedikit Rawlings et al. 1998. 3.1 Uji Signifikansi Persamaan Regresi Uji signifikansi persamaan regresi merupakan suatu uji yang digunakan untuk menunjukkan adanya suatu hubungan linear antara peubah respon y dan peubah bebas , , …, . Hipotesis yang sesuai adalah: H : = 0 H 1 : ≠ minimal ada satu ≠ . Penolakan H menandakan bahwa setidaknya ada satu dari peubah bebas , , …, yang berkontribusi secara signifikan terhadap model. Jumlah kuadrat total dipartisi menjadi jumlah kuadrat regresi dan Jumlah Kuadrat Sisa , yang dapat dinyatakan dalam bentuk: = + . Jika H : = 0 benar, maka ~ dimana nilai derajat bebas dari setara dengan banyaknya peubah bebas yang ada di dalam model. Selain itu pula dapat dinyatakan bahwa ~ , serta dan saling bebas. Prosedur pengujian untuk H : = 0 dilakukan dengan menghitung : = ⁄ − − 1 ⁄ = . Penolakkan H terjadi jika nilai = , , dengan α merupakan taraf nyata, misalkan α=0.05 atau α=0.1 Montgomery Peck 1991. Untuk menguji pengaruh setiap peubah bebas terhadap peubah terikat digunakan uji F parsial. Uji F parsial dapat dilakukan terhadap semua koefisien regresi dengan menganggap semua peubah bebas telah masuk ke dalam model kecuali peubah yang ingin diuji pengaruhnya. Uji F parsial juga digunakan untuk memilih peubah bebas yang keberadaannya memberikan sumbangan keragaman yang cukup besar terhadap model regresi. Peubah bebas yang keberadaannya dapat diwakili oleh peubah lain tidak perlu dimasukkan ke dalam model. Misalkan ∗ , ∗ , …, ∗ adalah peubah bebas di luar model yang akan diuji pengaruhnya. Sementara , , …, adalah peubah bebas yang telah ada di dalam model. Model regresi penuh full dapat ditulis sebagai: = + + + …+ + ∗ ∗ + ∗ ∗ + …+ ∗ ∗ + . Hipotesis nol yang sesuai dengan Uji F parsial adalah : H : ∗ = H 1 : ∗ ≠ minimal ada satu ∗ = 0 . Tahapan pertama dari uji F parsial adalah mencari jumlah kuadrat akibat penambahan atau pengurangan peubah ∗ , ∗ , …, ∗ terhadap model. Jumlah kuadrat ini dapat dinyatakan dalam bentuk : ∗ , ∗ , …, ∗ | , , …, = Model full − Model Tereduksi = , , …, , ∗ , ∗ , …, ∗ − , , …, = , , …, − , , …, , ∗ , ∗ , …, ∗ . Dengan menggunakan jumlah kuadrat tambahan di atas, maka nilai dapat ditentukan sebagai berikut : ∗ , ∗ ,…, ∗ | , , …, = [ model penuh − tereduksi] ⁄ Kuadrat tengah sisa model full = [ model tereduksi − model full] ⁄ Kuadrat tengah sisa model full = ∗ , ∗ , …, ∗ , , …, ⁄ ∗ , ∗ ,…, ∗ | , ,…, Jika = , , maka H ditolak dan dapat disimpulkan bahwa peubah bebas tersebut berpengaruh nyata terhadap model. Kleinbaum et al. 2008 3.2 Prosedur Variable Selection 3.2.1 Metode Seleksi Maju Forward Elimination Menurut metode ini peubah bebas dimasukkan satu demi satu menurut urutan besar pengaruhnya terhadap model dan berhenti jika semua peubah bebas yang memenuhi syarat telah masuk ke dalam model. Didefinisikan k adalah banyaknya peubah bebas x yang akan dimasukkan ke dalam model. Pada keadaan awal model tidak mengandung peubah bebas, sehingga model awal dapat ditulis sebagai = . Algoritma forward selection : Langkah 0: Menentukan model regresi awal = . Langkah 1: Menentukan matriks korelasi R dari semua peubah yang tersedia. = ⎣ ⎢ ⎢ ⎡ 1 ⋯ 1 ⋯ ⋮ ⋮ ⋱ ⋮ ⋯ 1 ⎦ ⎥ ⎥ ⎤ . Langkah 2 : Memilih peubah bebas , , …, dengan korelasi = 1,2, …, tertinggi terhadap peubah terikat y. Langkah 3: Masukkan peubah bebas terpilih pertama ke dalam model, misalkan . Sehingga membentuk suatu model regresi : = + Langkah 4: Uji F terhadap peubah pertama yang terpilih. Jika maka peubah terpilih dibuang dan proses dihentikan. Jika maka peubah terpilih memiliki pengaruh nyata terhadap peubah terikat y, sehingga layak untuk dipertahankan di dalam model. Langkah 5: Memilih peubah bebas tersisa dengan kuadrat korelasi parsial tertinggi. Langkah 6: Masukkan peubah bebas terpilih kedua ke dalam model, misalkan . sehingga membentuk suatu model regresi : = + + Langkah 7: Uji F parsial, jika maka proses dihentikan dan model terbaik adalah model sebelumnya. Namun jika ≥ peubah bebas layak untuk dimasukkan ke dalam model dan kembali ke langkah 5. Proses berakhir jika tidak ada lagi peubah tersisa yang bisa dimasukkan ke dalam model. Montgomery Peck 1991 3.2.2 Metode Seleksi Mundur Backward Elimination Metode ini dimulai dengan memasukkan semua peubah bebas ke dalam model sehingga terbentuk suatu model regresi penuh full. Kemudian satu demi satu peubah bebas tersebut direduksi sampai semua peubah tidak memenuhi patokan keluar model. Misalkan k adalah banyaknya peubah bebas. Maka model lengkap dapat dituliskan dalam bentuk : = + + + …+ . Algoritma backward elimination : Langkah 0: Menentukan model regresi penuh full = + + + …+ . Langkah 1: Uji F parsial masing-masing peubah bebas terhadap model. Langkah 2 : Memilih peubah bebas , , …, dengan nilai terendah. Langkah 3: Jika terendah ≥ maka proses dihentikan dan persamaan regresi tersebut merupakan persamaan terbaik. Tetapi jika nilai terendah maka peubah bebas yang memiliki nilai F parsial terendah dibuang dari model. Langkah 5: Kembali ke langkah 1 dengan model awal yang tidak menyertakan peubah yang dibuang k-1 peubah bebas. Draper Smith 1985

3.2.3 Metode Seleksi Bertahap Stepwise Elimination

Metode ini merupakan gabungan dari metode seleksi maju dan metode seleksi mundur yang diterapkan secara bergantian. Pada tahap pertama digunakan seleksi maju, dan tahap kedua digunakan seleksi mundur. Pada setiap tahap jika peubah yang ada dalam model tidak berpengaruh setelah dimasukkan peubah baru, maka peubah tersebut akan dikeluarkan dari model. Sebaliknya jika peubah yang ada dalam model masih berpengaruh setelah peubah lain dimasukkan, maka peubah tersebut akan dipertahankan sampai pengujian tahap berikutnya. Didefinisikan k adalah banyaknya peubah bebas x yang akan dimasukkan ke dalam model. Pada keadaan awal model tidak mengandung peubah bebas, sehingga model awal dapat ditulis sebagai = . Algoritma stepwise elimination : Langkah 0: Menentukan model regresi awal = . Langkah 1: Menentukan matriks korelasi R dari semua peubah yang tersedia. = ⎣ ⎢ ⎢ ⎡ 1 ⋯ 1 ⋯ ⋮ ⋮ ⋱ ⋮ ⋯ 1 ⎦ ⎥ ⎥ ⎤ . Langkah 2 : Memilih peubah bebas , , …, dengan korelasi = 1,2, …, tertinggi terhadap peubah terikat y. Langkah 3: Masukkan peubah bebas terpilih pertama ke dalam model, misalkan . Sehingga membentuk suatu model regresi : = + . Langkah 4: Uji F terhadap peubah terpilih pertama. Jika maka peubah terpilih dibuang dan proses dihentikan. Namun jika maka peubah terpilih layak dipertahankan di dalam model. Langkah 5: Memilih peubah bebas dengan kuadrat korelasi parsial - parsial tertinggi. Langkah 6: Masukkan peubah bebas terpilih kedua ke dalam model, misalkan . Sehingga membentuk suatu model regresi : = + + . Langkah 7: Uji F parsial masing-masing peubah bebas yang terdapat di dalam model. Langkah 8: Uji F parsial masuk, jika peubah bebas terpilih kedua maka proses dihentikan dan model terbaik adalah model sebelumnya. Namun jika ≥ peubah bebas terpilih layak untuk dipertahankan dalam model. Langkah 9: Uji F parsial ke luar, jika nilai terendah maka peubah bebas yang memiliki F parsial terendah dibuang dari model. Jika terendah ≥ maka peubah bebas dipertahankan. Langkah 10: Kembali ke langkah 5 untuk menguji peubah bebas tersisa. Proses dihentikan jika tidak ada lagi peubah bebas yang dapat dimasukan atau dikeluarkan. Sembiring 1995

3.2.4 Metode Semua Kemungkinan Regresi All Possible Regression

Sesuai dengan namanya metode ini dirancang untuk menjalankan semua kemungkinan regresi antara peubah terikat dengan semua kombinasi dari peubah bebas. Jika terdapat k peubah bebas yang tersedia, maka ada 2 k persamaan. Jika k=10 maka ada 2 10 = 1024 persamaan yang harus diperiksa. Itulah sebabnya prosedur ini memerlukan komputer berkecepatan tinggi. Dalam menilai kebaikan suatu kombinasi atau pasangan peubah bebas biasanya sering digunakan salah satu patokan dari: 1. Koefisien determinasi R 2 2. Rataan kuadrat sisa s 2 , dan 3. C p Mallows. Algoritma all possible regression : Langkah 1: Mengelompokkan persamaan ke dalam kelompok-kelompok berdasarkan pada banyaknya peubah bebas. Kelompok terdiri dari persamaan yang tidak mengandung peubah bebas sampai persamaan yang mengandung semua peubah bebas. Pengelompokkan persamaan regresi tersebut adalah sebagai berikut : a. Kelompok 1 terdiri dari persamaan regresi dengan hanya nilai tengah Model = b. Kelompok 2 terdiri dari persamaan regresi dengan 1 peubah bebas Contoh: = + c. Kelompok 3 terdiri dari persamaan regresi dengan 2 peubah bebas Contoh: = + + d. Kelompok ke-n = 4,5, …, + 1 terdiri dari persamaan regresi dengan n-1 atau semua peubah bebas. Contoh : = + + ⋯ + . Langkah 2: Pengamatan terhadap pola perubahan nilai , , dan C p dari setiap persamaan setelah ditambahkan peubah. Peubah yang memiliki pengaruh besar akan meningkatkan dan menurunkan , dan C p yang cukup signifikan. Jika setelah penambahan peubah bebas tidak terjadi perubahan yang cukup signifikan, maka peubah tersebut dianggap tidak terlalu berpengaruh. Sehingga model sebelumnya lebih baik. Draper Smith 1985 IV APLIKASI METODE VARIABLE SELECTION PADA BIDANG PENDIDIKAN DAN KESEHATAN

4.1 Formulasi peubah bebas dan peubah terikat

Dalam mengukur dimensi pendidikan dan kesehatan penduduk digunakan beberapa indikator. Indikator yang digunakan untuk menentukan derajat kesehatan dalam karya ilmiah ini adalah : = Angka Harapan Hidup = Angka Kematian Bayi. Sedangkan peubah bebas atau faktor yang berpengaruh terhadap kedua indikator di atas yaitu : = Distribusi air = Jumlah bidan = Jumlah dokter = Jumlah mantri = Jumlah puskesmas = Jumlah Rumah Sakit RS. Indikator yang digunakan untuk menentukan derajat pendidikan yaitu : = Rata-rata lama sekolah = Angka Melek Huruf. Sedangkan peubah bebas atau faktor yang berpengaruh terhadap kedua indikator di atas yang yang digunakan yaitu : = Jumlah SD SD = Jumlah SMP SMP = Jumlah SMA SMA = Jumlah Perguruan tinggi = Jumlah guru SD = Jumlah guru SMP = Jumlah guru SMA = Jumlah dosen = Pendidikan S-1 keatas guru SD = Pendidikan S-1 keatas guru SMP = Pendidikan S-1 keatas guru SMA = Angka Partisipasi Kasar SD = Angka Partisipasi Kasar SMP = Angka Partisipasi Kasar SMA = Angka Partisipasi Murni SD = Angka Partisipasi Murni SMP = Angka Partisipasi Murni SMA. Data yang digunakan pada karya ilmiah ini adalah data sekunder indikator pendidikan dan kesehatan dari 33 provinsi di Indonesia pada tahun 2008 yang diambil dari Biro Pusat Statistik BPS.

4.2 Ilustrasi pemilihan peubah dominan