Penduga Regresi Bolak-balik yang Kekar terhadap Pencilan
37 selanjutnya tulis sebagai LS dalam indeks adalah meminimumkan jumlah kuadrat
sisaan: ̂
� ∑
∑ ̂
dan menghasilkan nilai dugaan ̂ yang dapat dilihat sebagai pendekatan “terbaik”
dalam kacamata kuadrat terkecil terhadap matriks data Y oleh matriks dengan rank = k. Teorema Eckart-Young Gower Hand 1996 menyebutkan bahwa
aproksimasi terbaik ini dapat diperoleh melalui dekomposisi nilai singular SVD terhadap matriks data Y = UDV
T
. Dengan mengganti seluruh nilai singular dalam matriks D dengan nol, kecuali untuk k buah nilai singular terbesar pertama, dapat
diperoleh D
k
dan akhirnya ̂ = UD
k
V
T
. Dan dengan menyatakan ̂ √� dan
̂ √�
⁄ kita memperoleh apa yang disebut solusi komponen utama untuk masalah faktor analisis Johnson Wichern 1998. Selanjutnya, matriks peragam
contoh dari vektor skor dugaan adalah ̂
̂ dimana hal ini konsisten dengan
asumsi awal yaitu CovF = I
k
. Penting untuk kita catat bahwa nilai dugaan ̂ dan
̂ hanya dinyatakan secara khusus untuk suatu transformasi linear. Dan karena
̂ ̂ ̂
untuk sembarang matriks T non-singular berukuran k × k, maka
̂ dan
̂ mendapat nilai yang sama bagi fungsi tujuan
̂ . Meski
demikian nilai dugaan ̂ yang diperoleh bersifat unik. Selanjutnya, jika kita
menambahkan kendala bahwa dugaan matriks peragam bagi vektor skor adalah matriks satuan, maka dugaan
̂ dan ̂ menjadi suatu transformasi orthogonal,
sehingga matriks ̂ ̂
juga unik. Karena kriteria kuadrat terkecil memberikan pembobot yang berlebih
kepada sisaan yang bernilai besar, gagasan awal mengatasinya adalah menggunakan kriteria simpangan mutlak terkecil Least Absolute Deviations atau
disebut kriteria L1, yang memberikan penduga aditif bagi tabel dua arah yang robust Terbeck Davies, 1998. Kriteria L1 ini menghasilkan penduga yang
meminimumkan simpangan mutlak ̂
� ∑
∑ ̂
. Untuk memperoleh
̂ dan ̂ yang optimal, haruslah dipenuhi bahwa nilai dugaan
̂ meminimumkan
∑ | ̂|
dan ̂
meminimumkan ∑ |
̂ |
. Oleh karena itu, pendekatan ini tidaklah meminimumkan kedua jumlah mutlak pada
kriteria L1 secara bersamaan, melainkan dengan menetapkan indeks j dan skor f
i
kemudian mencari
j
yang meminimumkan ∑ |
| . Masalah ini
sekarang bukan lagi masalah bilinear tetapi regresi linear dengan algoritma simpangan mutlak terkecil.
Sehubungan dengan hal tersebut, segera dapat kita lihat bahwa meminimumkan
∑ | |
dilakukan satu persatu untuk setiap j = 1, . . , p berkenaan dengan kriteria L1 untuk skor yang ditetapkan. Analog dengan itu,
untuk loading
j
yang ditetapkan, mencari f
i
yang meminimumkan ∑ |
| untuk setiap i = 1, . . . , G bergantian berkenaan dengan meminimumkan kriteria L1 pada nilai loadings yang diberikan. Bergantian bolak-balik pada
peminimuman ∑ |
̂ |
dan ∑ |
| membawa kita pada skema
pendugaan iteratif yang disebut alternating regression regresi bolak-balik. Catatlah bahwa nilai kriteria L1 menurun pada setiap langkah iteratif itu.
Algoritma yang serupa, tetapi berbasis pada regresi kuadrat terkecil klasik yang bolak-balik, dilakukan oleh de Falguerolles dan Francis 1992, sedangkan
Gabriel 1998 menggunakan regresi bolak-balik dengan basis GLM untuk GBM. Sayangnya, regresi L1 sensitif terhadap pengamatan pengungkit leverage
points . Jika terdapat skor atau loading yang memencil maka regresi L1 dapat
sangat terpengaruh olehnya. Dengan memberikan pembobot yang bernilai lebih rendah downweighting terhadap pengamatan tersebut kita mendapatkan regresi
L1 terboboti weighted L1 regression, dan menghasilkan penduga sebagai berikut :
̂ �
∑ ∑
̂ Satu fungsi objektif tunggal menduga
̂ dan ̂ secara simultan dari baris-baris
dan kolom-kolom matriks Y. Untuk mendapatkan nilai dugaan ̂
digunakan regresi bolak-balik robust Robust Alternating Regressions, disingkat RAR.
Penduga ̂
tidak akan salah arah mislead oleh adanya pengamatan pencilan. Pembobot bagi baris,
didefinisikan oleh �
untuk i = 1, . . . , G dimana
2 k
;0.95 adalah batas atas bagi nilai kritis 5 sebaran
39 khi-kuadrat dengan derajat bebas k, dan jarak kekar robust distance
√ untuk i = 1, . . . , G adalah jarak yang
dihitung dari koleksi vektor skor {
} pada ruang berdimensi k Rousseeuw van Zomeren, 1990. Dan analog dengan itu, segugus pembobot
bagi kolom v
j
didefinisikan dengan cara yang sama menggunakan vektor loading. Catatlah bahwa karena loading dan skor yang sebenarnya tidak teramati, w
i
dan v
j
bergantung pada vektor parameter yang tidak diketahui.