Penduga Regresi Bolak-balik yang Kekar terhadap Pencilan

37 selanjutnya tulis sebagai LS dalam indeks adalah meminimumkan jumlah kuadrat sisaan: ̂ � ∑ ∑ ̂ dan menghasilkan nilai dugaan ̂ yang dapat dilihat sebagai pendekatan “terbaik” dalam kacamata kuadrat terkecil terhadap matriks data Y oleh matriks dengan rank = k. Teorema Eckart-Young Gower Hand 1996 menyebutkan bahwa aproksimasi terbaik ini dapat diperoleh melalui dekomposisi nilai singular SVD terhadap matriks data Y = UDV T . Dengan mengganti seluruh nilai singular dalam matriks D dengan nol, kecuali untuk k buah nilai singular terbesar pertama, dapat diperoleh D k dan akhirnya ̂ = UD k V T . Dan dengan menyatakan ̂ √� dan ̂ √� ⁄ kita memperoleh apa yang disebut solusi komponen utama untuk masalah faktor analisis Johnson Wichern 1998. Selanjutnya, matriks peragam contoh dari vektor skor dugaan adalah ̂ ̂ dimana hal ini konsisten dengan asumsi awal yaitu CovF = I k . Penting untuk kita catat bahwa nilai dugaan ̂ dan ̂ hanya dinyatakan secara khusus untuk suatu transformasi linear. Dan karena ̂ ̂ ̂ untuk sembarang matriks T non-singular berukuran k × k, maka ̂ dan ̂ mendapat nilai yang sama bagi fungsi tujuan ̂ . Meski demikian nilai dugaan ̂ yang diperoleh bersifat unik. Selanjutnya, jika kita menambahkan kendala bahwa dugaan matriks peragam bagi vektor skor adalah matriks satuan, maka dugaan ̂ dan ̂ menjadi suatu transformasi orthogonal, sehingga matriks ̂ ̂ juga unik. Karena kriteria kuadrat terkecil memberikan pembobot yang berlebih kepada sisaan yang bernilai besar, gagasan awal mengatasinya adalah menggunakan kriteria simpangan mutlak terkecil Least Absolute Deviations atau disebut kriteria L1, yang memberikan penduga aditif bagi tabel dua arah yang robust Terbeck Davies, 1998. Kriteria L1 ini menghasilkan penduga yang meminimumkan simpangan mutlak ̂ � ∑ ∑ ̂ . Untuk memperoleh ̂ dan ̂ yang optimal, haruslah dipenuhi bahwa nilai dugaan ̂ meminimumkan ∑ | ̂| dan ̂ meminimumkan ∑ | ̂ | . Oleh karena itu, pendekatan ini tidaklah meminimumkan kedua jumlah mutlak pada kriteria L1 secara bersamaan, melainkan dengan menetapkan indeks j dan skor f i kemudian mencari  j yang meminimumkan ∑ | | . Masalah ini sekarang bukan lagi masalah bilinear tetapi regresi linear dengan algoritma simpangan mutlak terkecil. Sehubungan dengan hal tersebut, segera dapat kita lihat bahwa meminimumkan ∑ | | dilakukan satu persatu untuk setiap j = 1, . . , p berkenaan dengan kriteria L1 untuk skor yang ditetapkan. Analog dengan itu, untuk loading  j yang ditetapkan, mencari f i yang meminimumkan ∑ | | untuk setiap i = 1, . . . , G bergantian berkenaan dengan meminimumkan kriteria L1 pada nilai loadings yang diberikan. Bergantian bolak-balik pada peminimuman ∑ | ̂ | dan ∑ | | membawa kita pada skema pendugaan iteratif yang disebut alternating regression regresi bolak-balik. Catatlah bahwa nilai kriteria L1 menurun pada setiap langkah iteratif itu. Algoritma yang serupa, tetapi berbasis pada regresi kuadrat terkecil klasik yang bolak-balik, dilakukan oleh de Falguerolles dan Francis 1992, sedangkan Gabriel 1998 menggunakan regresi bolak-balik dengan basis GLM untuk GBM. Sayangnya, regresi L1 sensitif terhadap pengamatan pengungkit leverage points . Jika terdapat skor atau loading yang memencil maka regresi L1 dapat sangat terpengaruh olehnya. Dengan memberikan pembobot yang bernilai lebih rendah downweighting terhadap pengamatan tersebut kita mendapatkan regresi L1 terboboti weighted L1 regression, dan menghasilkan penduga sebagai berikut : ̂ � ∑ ∑ ̂ Satu fungsi objektif tunggal menduga ̂ dan ̂ secara simultan dari baris-baris dan kolom-kolom matriks Y. Untuk mendapatkan nilai dugaan ̂ digunakan regresi bolak-balik robust Robust Alternating Regressions, disingkat RAR. Penduga ̂ tidak akan salah arah mislead oleh adanya pengamatan pencilan. Pembobot bagi baris, didefinisikan oleh � untuk i = 1, . . . , G dimana  2 k ;0.95 adalah batas atas bagi nilai kritis 5 sebaran 39 khi-kuadrat dengan derajat bebas k, dan jarak kekar robust distance √ untuk i = 1, . . . , G adalah jarak yang dihitung dari koleksi vektor skor { } pada ruang berdimensi k Rousseeuw van Zomeren, 1990. Dan analog dengan itu, segugus pembobot bagi kolom v j didefinisikan dengan cara yang sama menggunakan vektor loading. Catatlah bahwa karena loading dan skor yang sebenarnya tidak teramati, w i dan v j bergantung pada vektor parameter  yang tidak diketahui.

3.4.2 Pengepasan Model melalui FANOVA dengan Penduga RAR

Secara umum model untuk tabel dua arah genotipe × lingkungan pada model ANOVA dapat dituliskan sebagai ij j i ij e g y      μ dengan rata-rata umum, g i merepresentasi pengaruh genotipe baris dan e j pengaruh lingkungan kolom. Pada ANOVA biasa, pengaruh baris dan kolom diasumsikan memiliki rataan nol. Suku  ij dapat dipandang sebagai sisaan dari model pengaruh utama, atau suku interaksi antara baris dan kolom. Ekspresi ini disebut model aditif. Meski demikian, pada model aditif ini masih mungkin untuk mengekspresikan suku  ij dalam komponen sistematik oleh struktur pada model faktor: ∑ Sehingga keseluruhan model dituliskan sebagai: ∑ Ide awal pengepasan model ini, dilakukan secara sequensial dengan menduga model aditif terlebih dahulu, dan kemudian melakukan dekomposisi pada suku sisaan dengan analisis faktor. Namun pengepasan yang lebih baik diperoleh dengan menduga seluruh parameter secara bersamaan. Pada pendugaan dengan metode kuadrat terkecil, pengepasan secara sequensial maupun bersamaan simultan tidak memberikan hasil yang berbeda. Tetapi untuk model robust dengan kriteria least absolute kesamaan tersebut tidak lagi berlaku. Pendekatan robust akan menduga suku-suku aditif dan multiplikatif secara simultan. Penduga RAR untuk model FANOVA dapat didefinisikan sebagaimana subbab sebelumnya. Anggap  sebagai vektor merupakan koleksi dari semua parameter, yaitu scores, loadings, pengaruh baris dan kolom, juga rataan umum, µ. Untuk menduga sebanyak k + 1 G + E + 1 elemen dari  yang tidak diketahui, dari sebanyak GE data yang tersedia akan digunakan penduga RAR sebagaimana subbab 3.4.1: ̂ � ∑ ∑ ̂ Pembobot w i dan v j sebagaimana juga pada 3.4.1 adalah pembobot yang menurunkan downweighting scores dan loadings yang “memencil” dalam ruang dimensi k dari vektor scores dan loadings. Untuk mengidentifikasi secara unik parameter-parameter dalam y ij , fungsi penduga ̂ diminimumkan dengan kendala median median constraints: i g j e d � il f jl  � Kendala ini konsisten dengan pendekatan robust. Algoritma untuk menghitung penduga RAR dalam model FANOVA didasarkan pada regresi bolak-balik alternating regressions sebagaimana disajikan dalam Croux et al. 2003. Perbedaan dengan model multiplikatif pada subab 3.4.1 adalah bahwa regresi pada model robust-FANOVA bukan lagi regresi melalui titik asal, melainkan regresi dengan intersep.

3.4.3 Algoritma Kekar untuk Regresi Bolak-balik Robust Alternating

Regression Algorithm Penduga RAR dapat didekati melalui algoritma bolak-balik alternating sebagai berikut Croux et al. 2003: Langkah 0: Inisialisasi. Data terlebih dahulu ditransformasi mengikuti ukuran yang kekar yaitu: dengan MAD adalah Median Absolute Deviation. Sifat keortogonalan dan ragam yang sama dengan satu tidak diperlukan