Partial Least Squares Robust Regression Approach to Handle Outliers in Calibration Data

PENDEKATAN REGRESI KUADRAT TERKECIL PARSIAL
KEKAR UNTUK PENANGANAN PENCILAN PADA
DATA KALIBRASI

ENNY KERISTIANA SINAGA

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN
BOGOR
2011

PERNYATAAN MENGENAI TESIS
DAN SUMBER INFORMASI
Dengan ini saya menyatakan bahwa tesis Pendekatan Kuadrat Terkecil
Parsial Kekar untuk Penanganan Pencilan pada Data Kalibrasi adalah karya saya
dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun
kepada perguruan tinggi dimana pun. Sumber informasi yang berasal atau dikutip
dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah
disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
tesis ini.


Bogor, Mei 2011
Enny Keristiana Sinaga
NIM G151080141

ABSTRACT
ENNY KERISTIANA SINAGA. Partial Least Squares Robust Regression
Approach to Handle Outliers in Calibration Data. Under direction of ANIK
DJURAIDAH and AJI HAMIM WIGENA.
The serious problems in the calibration multivariate estimation are
multicollinearity and outliers. Partial Least Squares (PLS) is one of the statistical
method used in chemometrics, to handle high or perfect multicollinearity in
independent variables. Straightforward Implementation Partial Least Squares
(SIMPLS) is the extension of PLS regression proposed by De Jong (1993). The
SIMPLS algorithm is based on the empirical cross-variance matrix between the
independent variables and the regressors. This method does not resistant toward
outlier observations. Robust PLS method is used to handle the multicollinearity
and outliers in the data sets. This method can be classified in two groups, there are
iteratively reweighting technique and robustication of covariance matrix. Partial
Regression-M (PRM) method is one of the robust PLS methods used the idea of
iteratively reweighting technique that proposed by Serneels et al. (2005). Robust

SIMPLS (RSIMPLS) method is one of the robust PLS methods used the idea of
robustication of covariance that proposed by Huber and Branden (2003). A
modified RSIMPLS used M estimator with the Huber weight function called
RSIMPLS-M was proposed by Ismah (2010). These two methods (RSIMPLS-M
and PRM) are applied to Fish data (Naes, 1985) to know their performances. The
research results indicated that the values of R2 and RMSEP of RSIMPLS-M are
higher than those of PRM method. Whereas based on the confidence interval
estimation of the regression coefficients by jackknife method, estimation of PRM
is narrower than that RSIMPLS-M method. Therefore RSIMPLS-M method is
better than PRM method for prediction, whereas PRM method is better than
RSIMPLS-M method for estimation.
Keywords : Partial least squares regression robust (PLSRR), partial robust Mregression (PRM), straightforward implementation partial least squares robust
(RSIMPLS)

RINGKASAN
ENNY KERISTIANA SINAGA. Pendekatan Kuadrat Terkecil Parsial Kekar
untuk Penanganan Pencilan pada Data Kalibrasi. Dibimbing oleh ANIK
DJURAIDAH dan AJI HAMIM WIGENA.
Pada pendugaan kalibrasi ganda permasalahan serius akan muncul jika
diantara peubah bebas (X) saling berkorelasi (multikolinieritas) dan pengamatan

yang jauh dari pusat data (pencilan). Ada dua tipe pengamatan pencilan yakni
pencilan sisaan dan pengamatan berpengaruh (leverage point). Pencilan sisaan
adalah pengamatan pencilan yang mempunyai sisaan baku yang besar, sedangkan
pengamatan berpengaruh merupakan pencilan berganda (multivariate outliers)
yang terdapat dalam ruang peubah bebas (Liebmann et al. 2009).
Sebuah teknik prediktif yang mampu mengatasi masalah multikolinieritas
adalah Regresi Kuadrat Terkecil Parsial (Partial Least Squares/PLS). Salah satu
algoritma pendugaan PLS adalah Implementasi Langsung Kuadrat Terkecil
Parsial (Straightforward Implementation Partial Least Squares/SIMPLS) yang
dapat diterapkan dalam mengatasi multikolinieritas, tetapi tidak resisten terhadap
pencilan. Pengembangan dari metode PLS dengan menggunakan algoritma
SIMPLS sebagai alternatif untuk mengatasi pencilan adalah dengan menggunakan
regresi kekar. Secara umum, PLS kekar (PLS Robust) dapat dibagi kedalam dua
kelompok yaitu menggunakan teknik memboboti kembali secara iteratif dan
penggunaan matriks peragam kekar (Turkmen, 2008). Salah satu metode yang
termasuk dalam kelompok pertama adalah Regresi-M Kekar Parsial (Partial
Robust M-Regression/PRM) yang diperkenalkan oleh Serneels et al. (2005) dan
salah satu metode yang termasuk dalam kelompok kedua adalah RSIMPLS-M
(Robust SIMPLS-M) yang diperkenalkan oleh Huber dan Branden (2003).
Dalam regresi kekar terdapat beberapa metode pendugaan parameternya,

diantaranya adalah penduga-M. Penduga-M merupakan generalisasi dari metode
kemungkinan maksimum, yaitu penduga yang meminimumkan fungsi objektif
tertentu dalam data. Fungsi pembobot dari penduga-M telah banyak tersedia,
diantaranya adalah fungsi pembobot Huber dan fungsi pembobot Fair.
Metode PRM merupakan pendekatan PLS kekar berdasarkan penduga-M
dengan fungsi pembobot Fair. Pembobot yang dibutuhkan agar pendugaan PRM
resisten terhadap pencilan sisaan dan pengamatan berpengaruh adalah dengan
mengalikan bobot pencilan sisaan dan bobot untuk setiap pengamatan
berpengaruh dengan pembobotan kembali secara iteratif dan memberikan bobot
kecil (downweighting) pada pengamatan berpengaruh. Sedangkan metode
RSIMPLS-M merupakan pendekatan PLS kekar dengan memodifikasi pembobot
RSIMPLS berdasarkan penduga-M dengan fungsi pembobot Huber. Besarnya
bobot tergantung pada jarak ortogonal dan jarak skor setiap pengamatan yaitu
antara 0 dan 1. Dalam penelitian ini diusulkan metode PRM dan metode
RSIMPLS-M untuk penanganan pencilan. Fungsi pembobot yang digunakan pada
metode PRM yaitu fungsi pembobot Fair dan Huber. Bobot yang dibutuhkan agar
pendugaan PRM resisten pencilan sisaan dan pengamatan berpengaruh ditentukan
dengan dua cara yakni, (1) mengalikan bobot pencilan sisaan dengan bobot untuk
setiap pengamatan berpengaruh dan (2) mengambil nilai minimum dari bobot
pencilan sisaan dan bobot untuk setiap pengamatan berpengaruh.


Untuk melihat performansi dari metode PRM dan RSIMPLS-M, dalam
penelitian ini kedua metode tersebut diterapkan pada data kalibrasi dengan satu
peubah respon. Analisis data dilakukan dengan 3 langkah : (1) analisis
menggunakan seluruh data pengamatan, (2) validasi model, dan (3) pendugaan
selang kepercayaan parameter dengan metode Jackknife. Dalam validasi, data
sebanyak n dibagi kedalam dua kelompok. Kelompok yang pertama sebanyak n1 =
32 (70% dari jumlah data) digunakan untuk membentuk model dan kelompok
kedua sebanyak n2 = 13 (30% dari jumlah data) untuk validasi model. Pemilihan
n1 dan n2 dilakukan secara acak sebanyak 20 pengambilan tanpa pemulihan.
Berdasarkan kriteria R2 dan nilai rata-rata RMSEP, dengan metode
RSIMPLS-M diperoleh nilai R2 terbesar (90.8%) dan nilai rata-rata RMSEP
terkecil (2,168). Sedangkan berdasarkan pendugaan selang kepercayaan parameter
pada taraf 5% mengunakan metode Jackknife, selang kepercayaan parameter
dengan metode PRM lebih sempit dari pada RSIMPLS-M. Sehingga dapat
disimpulkan bahwa metode RSIMPLS-M lebih baik dibanding metode PRM
untuk prediksi, sedangkan metode PRM lebih baik dibanding metode RSIMPLSM untuk pendugaan dalam kasus data lemak ikan yang berkorelasi tinggi dan
adanya pencilan.

© Hak Cipta Milik IPB, tahun 2011

Hak Cipta dilindungi Undang-undang
Dilarang mengutip sebagian atau seluruh hasil karya tulis ini tanpa
mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk
kepentingan pendidikan, penelitian karya ilmiah, penyusunan laporan, penulisan
kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan
kepentingan yang wajar bagi IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh Karya tulis
dalam bentuk apa pun tanpa izin IPB

PENDEKATAN REGRESI KUADRAT TERKECIL PARSIAL
KEKAR UNTUK PENANGANAN PENCILAN
PADA DATA KALIBRASI

ENNY KERISTIANA SINAGA

Tesis
Sebagai salah satu syarat memperoleh gelar
Magister Sains pada
Program Studi Statistika


SEKOLAH PASCASARJANA
INSTITUT PERTANIAN
BOGOR
2011

Penguji Luar Komisi pada Ujian Tesis : Dr. Ir. Erfiani, M.Si

Judul Tesis
Nama
NIM

: Pendekatan Kuadrat Terkecil Parsial Kekar untuk Penanganan
Pencilan pada Data Kalibrasi
: Enny Keristiana Sinaga
: G151080141

Disetujui
Komisi Pembimbing

Dr. Ir. Anik Djuraidah, M.S.

Ketua

Dr. Ir. Aji Hamim Wigena, M.Sc.
Anggota

Diketahui

Ketua Program Studi Statistika

Dr. Ir. Erfiani, M.Si.

Tanggal Ujian: 18 April 2011

Dekan Sekolah Pasca Sarjana IPB

Dr. Ir. Dahrul Syah, M.Sc. Agr.

Tanggal Lulus:

PRAKATA

Puji dan syukur penulis panjatkan kepada Tuhan atas segala rahmat dan
karunia-Nya sehingga tesis ini dapat diselesaikan. Judul tesis ini adalah
“Pendekatan Kuadrat Terkecil Parsial Kekar untuk Penanganan Pencilan pada
Data Kalibrasi”.
Terima kasih yang sedalam-dalamnya penulis sampaikan kepada Dr. Ir.
Anik Djuraidah, M.S selaku pembimbing I dan Dr. Ir. Aji Hamim Wigena, M.Sc
selaku pembimbing II yang senantiasa memberikan bimbingan, arahan dan waktu
yang sangat berarti bagi penulis dalam menyelesaikan tesis ini. Disamping itu
penulis juga mengucapkan terima kasih kepada Dr. Ir. Erfiani, M.Si selaku
penguji luar komisi dan Dr. Ir. Hari Wijayanto selaku perwakilan Program Studi
Statistika pada ujian tesis dan seluruh staf Program Studi Statistika.
Ungkapan terima kasih juga disampaikan kepada Bapak, Mama, Kakak,
Abang dan Adik serta seluruh keluarga atas doa, dukungan dan kasih sayangnya.
Terima kasih kepada teman-teman Statistika dan Statistika Terapan, terkhusus
buat angkatan 2008 dan Ismah M.Si, terima kasih atas bantuan dan
kebersamaannya.
Penulis menyadari masih banyak kekurangan dalam penyusunan tesis ini,
oleh karena itu kritik, saran dan masukan sangat penulis harapkan demi
penyempurnaan dan perbaikan tulisan ini. Semoga karya ilmiah ini dapat
bermanfaat untuk semua pembaca.


Bogor, Mei 2011

Enny Keristiana Sinaga

RIWAYAT HIDUP
Penulis dilahirkan di Aeknabara, Sumatera Utara pada tanggal 27 Oktober
1983 sebagai anak keempat dari enam bersaudara, anak dari pasangan Bapak
D.M. Sinaga dan Ibu H. Hombing. Pada tahun 2002 penulis masuk program
sarjana di Jurusan Pendidikan Matematika, Fakultas Keguruan dan Ilmu
Pendidikan, Universitas Riau (UR) melalui jalur Seleksi Penerimaan Mahasiswa
Baru (SPMB) dan lulus pada tahun 2007. Pada tahun 2008 penulis diterima di
Program Studi Statistika, Sekolah Pascasarjana Institut Pertanian Bogor.

DAFTAR ISI
Halaman

DAFTAR TABEL ............................................................................................

vi


DAFTAR GAMBAR ....................................................................................... vii
DAFTAR LAMPIRAN .................................................................................... viii
PENDAHULUAN
Latar Belakang ........................................................................................
Tujuan Penelitian ....................................................................................
TINJAUAN PUSTAKA
Kalibrasi Ganda ......................................................................................
Regresi Kuadrat Terkecil Parsial (Partial Least Squares/PLS) .............
Regresi Penduga-M ................................................................................
Regresi-M Kekar Parsial (Partial Robust Regression-M/PRM) ............
Implementasi Langsung Kuadrat Terkecil Parsial M Kekar (Robust
Straightforward Implementation Partial Least Square-M/RSIMPLSM) ...........................................................................................................
Validasi Model........................................................................................
Pendugaan Parameter dengan Jackknife .................................................

1
3
5
4
8
11

13
15
16

METODOLOGI PENELITIAN
Data ........................................................................................................ 19
Metode Analisis ...................................................................................... 19
HASIL DAN PEMBAHASAN
Deskripsi Data ........................................................................................
Penentuan Jumlah Peubah Laten ............................................................
Identifikasi Pecilan .................................................................................
Validasi Model .......................................................................................
Pendugaan Selang Kepercayaan Parameter dengan Metode Jackknife ..

25
26
27
30
31

SIMPULAN
Simpulan ................................................................................................. 33
DAFTAR PUSTAKA ..................................................................................... 35
LAMPIRAN ..................................................................................................... 37

DAFTAR TABEL
Halaman

1.

Korelasi antar peubah penjelas ............................................................ 25

2.

Hasil validasi silang untuk menentukan banyaknya komponen k........ 26

3.

Perbandingan identifikasi pencilan dan pendugaan model data lemak
ikan ....................................................................................................... 29

4.

Rata-rata RMSE dan RMSEP dari 10 kombinasi pengambilan
contoh ................................................................................................... 30

5.

Bias dan simpangan baku koefisien regresi menggunakan metode
PRM dengan fungsi pembobot Fair (minimum) .................................. 32

6.

Bias dan simpangan baku koefisien regresi menggunakan metode
PRMdengan fungsi pembobot Huber (minimum)................................ 32

7.

Bias dan simpangan baku koefisien regresi menggunakan metode
RSIMPLS-M ....................................................................................... 32

DAFTAR GAMBAR
Halaman

1.

Fungsi pembobot penduga-M Huber .................................................. 12

2.

Fungsi pembobot penduga-M Fair ....................................................... 12

3.

Diagram alur penelitian ........................................................................ 24

4.

Diagram kotak-garis ............................................................................. 25

5.

Nilai RMSECV pada beberapa jumlah komponen .............................. 26

DAFTAR LAMPIRAN
Halaman
1.

Tabel konsentrasi lemak (%) dan 9 absorban dari 45 contoh ikan ..... 37

2.

Tabel konsentrasi lemak (%) dan 9 absorban dari 45 contoh ikan
yang sudah dipusatkan ......................................................................... 38

3.

Gambar plot antara wy dan wx dari 45 contoh ikan dengan metode
PRM menggunakan (a) fungsi pembobot Fair (perkalian) untuk k =
3, (b) fungsi pembobot Fair (perkalian) untuk k = 6, (c) fungsi
pembobot Fair (minimum) untuk k =3, (d) fungsi pembobot Fair
(minimum) untuk k = 6 ........................................................................ 39

4.

Nilai bobot pencilan sisaan (wy) dan bobot pengamatan berpengaruh
(wx) untuk k = 3 dan k = 6 dengan fungsi pembobot Fair (perkalian)… 40

5.

Nilai bobot pencilan sisaan (wy) dan bobot pengamatan berpengaruh
(wx) untuk k = 3 dan k = 6 dengan fungsi pembobot Fair (minimum)... 41

6.

Gambar plot antara wy dan wx dari 45 contoh ikan dengan fungsi
pembobot Huber (perkalian) (a) k =3 dan c = 1,345, (b) k = 6 dan c =
1,345, (a) k = 3 dan c = 2, (d) k = 6 dan c = 1,345 ............................... 42

7.

Gambar plot antara wy dan wx dari 45 contoh ikan dengan fungsi
pembobot Huber (minimum) (a) k =3 dan c = 1,345, (b) k = 6 dan c
= 1,345, (a) k = 3 dan c = 2, (d) k = 6 dan c = 1,345 ............................ 43

8.

Nilai bobot pencilan sisaan (wy) dan bobot pengamatan berpengaruh
(wx) untuk k = 3 dan k = 6
dengan fungsi pembobot
Huber(perkalian) dimana c = 1,345 ..................................................... 44

9.

Nilai bobot pencilan sisaan (wy) dan bobot pengamatan berpengaruh
(wx) untuk k = 3 dan k = 6
dengan fungsi pembobot
Huber(perkalian) dimana c = 2 ............................................................ 45

10.

Nilai bobot pencilan sisaan (wy) dan bobot pengamatan berpengaruh
(wx) untuk k = 3 dan k = 6 dengan fungsi pembobot Huber
(minimum) dimana c = 1,345 ............................................................... 46

11.

Nilai bobot pencilan sisaan (wy) dan bobot pengamatan berpengaruh
(wx) untuk k = 3 dan k = 6 dengan fungsi pembobot Huber
(minimum) dimana c = 2 ...................................................................... 47

12.

Gambar plot antara jarak ortogonal (OD) dan Jarak skor (D) dari 45
contoh ikan dengan metode RSIMPLS-M (a) k =3 dan (b) k = 6 ........ 48

13.

Nilai jarak ortogonal (OD) dan Jarak skor (D) serta bobot (w) pada
setiap pengamatan dengan metode RSIMPLS-M untuk k = 3 ............. 49

14.

Nilai jarak ortogonal (OD) dan Jarak skor (D) serta bobot (w) pada
setiap pengamatan dengan metode RSIMPLS-M untuk k = 6 ............. 50

15.

Replikasi Jackknife ke-i dari b dengan metode PRM menggunakan
metode PRM dengan fungsi pembobot Fair (minimum) ..................... 51

16.

Replikasi Jackknife ke-i dari b dengan metode PRM menggunakan
fungsi pembobot Huber (minimum) c = 2 ........................................... 52

17.

Replikasi Jackknife ke-i dari b dengan menggunakan metode
RSIMPLS-M ....................................................................................... 53

PENDAHULUAN

Latar Belakang
Analisis regresi merupakan bagian dalam analisis yang digunakan untuk
memodelkan hubungan peubah tak bebas (Y) dengan satu atau beberapa peubah
bebas (X). Bila dalam analisisnya hanya melibatkan sebuah peubah bebas, maka
analisis yang digunakan adalah analisis regresi sederhana. Sedangkan bila dalam
analisisnya melibatkan dua atau lebih peubah bebas, maka analisis yang
digunakan adalah analisis regresi berganda.
Permasalahan dalam analisis regresi berganda adalah terjadinya korelasi
yang tinggi antar dua atau lebih peubah bebas (multikolinieritas). Adanya masalah
multikolinieritas mengakibatkan ketidakstabilan pendugaan parameter (Myers,
1990). Selain masalah multikolinieritas pada analisis regresi linier berganda juga
sering muncul masalah pencilan. Pencilan adalah pengamatan yang jauh dari
pusat data. Adanya pencilan dapat menyebabkan sisaan yang besar dari model
yang diperoleh, ragam pada data menjadi lebih besar dan

taksiran interval

memiliki rentang yang lebar. Pengamatan pencilan mungkin saja mempengaruhi
pendugaan parameter, tetapi memberikan informasi penting yang diperlukan.
Sehingga keputusan untuk menghilangkan pencilan harus dilandasi alasan yang
kuat. Menurut Liebmann et al. (2009), ada dua tipe pengamatan pencilan yakni
pencilan sisaan dan pengamatan berpengaruh (leverage point). Pencilan sisaan
adalah pengamatan pencilan yang mempunyai sisaan baku yang besar, sedangkan
pengamatan berpengaruh merupakan pencilan berganda (multivariate outliers)
yang terdapat dalam ruang peubah bebas.
Dalam bidang kimia yaitu kemometrik, sering dijumpai data dengan
kondisi adanya multikolinieritas antar peubah bebas dan masalah pencilan.
Masalah multikolinieritas dapat diatasi dengan beberapa metode, antara lain
metode Regresi Komponen Utama (Principal Component Analysis/PCA), metode
Regresi Gulud (Ridge Regression), dan metode Regresi Kuadrat Terkecil Parsial
(Partial Least Squares/PLS). Menurut Wigena dan Aunuddin (1997), PLS
memberikan hasil yang lebih baik daripada metode lainnya dalam mengatasi
masalah multikolinieritas. Salah satu algoritma pendugaan PLS adalah

2

Implementasi

Langsung

Kuadrat

Terkecil

Partial

(Straightforward

Implementation Partial Least Square/SIMPLS). Algoritma SIMPLS tidak resisten
terhadap pengamatan pencilan, dikarenakan perhitungannya didasarkan pada
matriks peragam contoh yang peka terhadap pencilan. Untuk mengatasi pencilan
pada pendugaan SIMPLS dapat diatasi dengan menggunakan metode pendugaan
yang resisten terhadap pencilan yang dikenal dengan regresi kekar (robust).
Secara umum, PLS kekar dapat dibagi kedalam dua kelompok, yaitu
menggunakan teknik memboboti kembali secara iteratif dan penggunaan matriks
peragam kekar (Turkmen, 2008). Salah satu metode yang termasuk kelompok
pertama adalah Regresi-M Kekar Parsial (Partial Robust Regression-M/PRM)
yang dikenalkan oleh Serneels et al. (2005). Metode PRM merupakan pendekatan
PLS kekar berdasarkan penduga-M dengan pembobotan kembali secara iteratif
dan memberikan bobot terkecil (downweighting) pada pengamatan berpengaruh.
Sedangkan salah satu metode yang termasuk kelompok kedua adalah SIMPLS
kekar (Robust SIMPLS/RSIMPLS) yang dikenalkan oleh Huber dan Branden
(2003). RSIMPLS merupakan pendekatan PLS kekar berdasarkan penduga-M
dengan menduga matriks kovarian menggunakan MCD (minimum covariance
determinant) dan konsep projection pursuit.
Dalam regresi kekar terdapat beberapa metode pendugaan parameternya,
antara lain adalah penduga-R (R-estimators), penduga-L (L-estimators) dan
penduga-M (M-estimators). Penduga kekar yang dikaji dalam penelitian ini adalah
penduga-M. Penduga-M merupakan generalisasi dari metode kemungkinan
maksimum, yaitu penduga yang meminimumkan fungsi objektif tertentu dalam
data (Huber, 1981). Metode ini banyak digunakan dalam praktiknya dibandingkan
metode lainnya. Hal ini disebabkan karena dalam pendugaan parameter regresi
sifat penduga-M sama dengan metode kuadrat terkecil. Perbedaan diantara kedua
metode terletak pada fungsi pembobotnya. Dalam metode kuadrat terkecil semua
pengamatan akan mendapat bobot yang sama yaitu 1, sedangkan metode pendugaM setiap pengamatan tidak selalu mendapat pembobot yang sama tergantung dari
perilaku datanya. Jika datanya termasuk pencilan maka akan mendapat bobot yang
kecil. Fungsi pembobot dari metode penduga-M telah banyak tersedia,
diantaranya adalah fungsi pembobot Huber dan fungsi pembobot Fair.

3
Ismah (2009) telah melakukan kajian mengenai RSIMPLS dan RSIMPLSM. RSIMPLS-M merupakan pendekatan PLS kekar dengan memodifikasi
pembobot RSIMPLS berdasarkan penduga-M dengan fungsi pembobot Huber.
Hasil analisis yang diperoleh oleh Ismah (2009) menunjukkan bahwa RSIMPLSM lebih baik daripada RSIMPLS untuk satu peubah tak bebas dan jumlah
pencilan yang dideteksi RSIMPLS-M lebih kecil atau sama dengan jumlah
pencilan yang dideteksi RSIMPLS. Metode PRM yang dikaji oleh Serneels et al.
(2005) merupakan pendekatan PLS kekar dengan fungsi pembobot Fair. Bobot
yang digunakan pada pendugaan PRM agar resisten terhadap pencilan sisaan dan
pengamatan berpengaruh adalah dengan mengalikan bobot pencilan sisaan dan
bobot untuk setiap pengamatan berpengaruh.
Pada penelitian ini akan dilakukan kajian mengenai metode RSIMPLS-M
dan metode PRM untuk penanganan pencilan pada data kalibrasi. Fungsi
pembobot yang digunakan pada metode PRM yaitu fungsi pembobot Fair dan
Huber. Bobot yang dibutuhkan pada pendugaan PRM agar resisten terhadap
pencilan sisaan dan pengamatan berpengaruh ditentukan dengan dua cara yakni,
(1) mengalikan bobot pencilan sisaan dengan bobot untuk setiap pengamatan
berpengaruh dan (2) mengambil nilai minimum dari bobot pencilan sisaan dan
bobot untuk setiap pengamatan berpengaruh. Menilai baik tidaknya hasil dugaan
pada kedua metode (PRM dan RSIMPLS-M) akan dilakukan pendugaan selang
kepercayaan parameter dengan menggunakan pendekatan nonparametrik yaitu
dengan metode Jackknife.

Tujuan Penelitian
Tujuan penelitian ini yaitu:
1.

Mengkaji metode RMKP dengan fungsi pembobot Huber

2.

Membandingkan metode RMKP dan metode RSIMPLS-M dalam menangani
pencilan pada data kalibrasi.

4

TINJAUAN PUSTAKA

Kalibrasi Ganda
Kalibrasi adalah suatu fungsi matematik dengan data empirik dan
pengetahuan untuk menduga informasi pada Y yang tidak diketahui berdasarkan
informasi pada X yang tersedia (Martens dan Naes, 1989). Dalam bidang kimia,
model kalibrasi merupakan suatu fungsi hubungan antara absorban (X) dari
spectrometer dengan konsentrasi (Y) larutan unsur atau senyawa yang akan
dianalisis (Nur dan Adijuwana, 1989). Dengan kalibrasi, konsentrasi larutan
contoh dapat diketahui berdasarkan absorbannya.
Pendugaan model kalibrasi tergantung pada jenis spektrometer yang
digunakan. Spektrometer UV-VIS menghasilkan spektrum yang berbentuk satu
puncak absorban, sehingga model kalibrasinya adalah model peubah tunggal.
Spektrometer NIR (Near Infrared) menghasilkan spektrum dengan banyak puncak
absorban, sehingga terbentuk suatu model kalibrasi peubah ganda. Model
kalibrasi suatu senyawa lebih tepat menggunakan spektrum dengan banyak
puncak daripada satu puncak absorban (Nur dan Adijuwana, 1989). Pada
pendugaan model kalibrasi ganda sering timbul masalah kolinieritas diantara
peubah absorban (Naes, 1985), sehingga metode baku seperti Metode Kuadrat
Terkecil tidak dapat digunakan. Salah satu metode yang mampu mengatasi
masalah kolinieritas diantara peubah absorban adalah Regresi Kuadrat Terkecil
Parsial (PLS) (Martens dan Naes, 1989).
Regresi Kuadrat Terkecil Parsial (Partial Least Squares/PLS)
1.

Model PLS
PLS adalah salah satu metode di kemometrik, dengan proses pembentukan

model melalui struktur keragaman peubah bebas (X) dan struktur keragaman
peubah tak bebas (Y) yang dilakukan secara iterasi. Menurut Skokes dan
Rodriguez (1998), prosedur PLS mencari kombinasi linier dari peubah bebas
(yang disebut faktor atau komponen) yang menjelaskan secara optimal keragaman
peubah bebas ataupun keragaman peubah tak bebas. Proses penentuan model
dilakukan secara iteratif dimana struktur ragam dalam Y mempengaruhi
perhitungan komponen kombinasi linier dalam X dan sebaliknya struktur ragam

6

dalam X berpengaruh terhadap kombinasi linier dalam Y. Pemodelan dilakukan
tanpa asumsi sebaran (Wigena dan Aunuddin, 1997).
PLS mendekomposisikan matrik X dalam bentuk faktor bilinier :
X = t1p1' + t2p2' + … + tApA' + EA
dimana ta adalah vektor skor yang berdimensi n, ta saling ortogonal di ruang Rn.
Sedangkan pa adalah vektor loading yang berdimensi k, saling ortogonal di ruang
Rk. Matriks EA adalah matriks sisaan yang berukuran n x k.
Dasar dari PLS adalah hubungan antara X dan Y melalui peubah internal t
sehingga :
Y = t1q1 + t2q2 + … + tAqA + fA
dengan qa, a = 1,2,…,A skalar dan fA vektor sisaan.
Matriks X dengan vektor-vektor kolomnya x1,x2,…,xk masing-masing berdimensi
n seperti halnya dengan vektor Y, yang berkaitan dengan n buah pengamatan.
Vektor skor ta, vektor loading pa maupun skalar qa diperoleh secara iteratif.
2.

Algoritma PLS
Salah satu algoritma pendugaan regresi kuadrat terkecil parsial adalah

SIMPLS (Straightforward Implementation Partial Least Square). Algoritma
SIMPLS ini dikemukakan oleh De Jong pada tahun 1993(Norliza, 2006).
Algoritma ini didasarkan pada matriks peragam empiris antara peubah tak bebas
dan peubah bebas pada regresi linier.
Metode SIMPLS mengasumsikan peubah-peubah X dan Y dihubungkan
dalam model bilinier seperti berikut ini :
(1)
(2)
Dalam model tersebut,

dan

merupakan rata-rata dari peubah X dan Y. ti adalah

skor berdimensi k, dengan k < p dan i = 1,…,n. P adalah matriks loading X
berdimensi pxk, sedangkan sisaan dalam model ini dinotasikan dengan gi dan fi.
Matriks A direpresentasikan sebagai matriks koefisien regresi (2) berdimensi qxk.
Berdasarkan struktur model bilinier (1) dan (2), algoritma SIMPLS adalah sebagai
berikut (Norliza, 2006) :
1.

Pusatkan data peubah

dan

7

2.

Untuk setiap a = 1,2,…,k vektor bobot SIMPLS ra dan qa, didefinisikan
sebagai vektor yang memaksimumkan
,
adalah matriks peragam antara peubah X dan

dimana

Y, dengan normalisasi ra dan qa

terdapat restriksi bahwa

tidak berkorelasi (ortogonal) agar diperoleh solusi lebih dari

komponen

satu dan menghindari multikolinieritas antara peubah-peubah bebas.
3.

Hitung skor SIMPLS:
dengan
skor pertama SIMPLS yaitu :

4.

Periksa restriksi:

dimana komponen

ortogonal agar diperoleh solusi lebih dari satu dan

menghindari multikolinieritas antara peubah-peubah bebas.
5.

Hitung loading-X yaitu pj yang menggambarkan hubungan linier antara
peubah X dan komponen

dimana

ke-j.

merupakan matriks ragam peragam dari peubah X dan j = 1,…k.
untuk a > j.

6.

Langkah 5 terpenuhi ketika

7.

Hitung sebuah basis ortonormal {v1,…,va-1} terhadap loading-x {p1,…,pa-1}
untuk 2 ≤ a ≤ k
Basis,

8

8.

Hitung matriks peragam silang

dan
9.

, untuk

2≤a≤k

Tentukan vektor bobot SIMPLS ra dan qa, untuk 2 ≤ a ≤ k
Vektor-vektor bobot SIMPLS yang pertama, q1 adalah vektor ciri dari SyxSxy
dan r1 adalah vektor ciri dari SxySyx. Sedangkan sepasang vektor bobot
SIMPLS (ra,qa) dengan 2 ≤ a ≤ k adalah vektor ciri

dan

.

10. Hitung skor SIMPLS berikutnya untuk 2 ≤ a ≤ k
11. Ulangi langkah 3 untuk 2 ≤ a ≤ k
12. Regresikan skor SIMPLS dengan peubah tak bebas. Model regresi secara
matematis diberikan seperti berikut :

Penduga koefisien regresi diperoleh dengan menggunakan metode kuadrat
terkecil.
13. Hitung pendugaan algoritma SIMPLS

dimana Sy dan St merupakan matriks peragam peubah y dan t
14. Hitung koefisien regresi SIMPLS terhadap peubah asli (penduga paremeter
untuk regresi linier yi = β0+qB'p xi + ei)

Proses untuk menentukan banyaknya komponen (peubah laten) yang
diperlukan (k) digunakan validasi silang. Pada setiap iterasi kumpulan data dibagi
ke dalam M kelompok. Sebuah kelompok dihapus dan dilakukan kalibrasi
terhadap (M-1) kelompok sisanya. Kemudian dilakukan pendugaan terhadap titik
data dalam kelompok yang dihapus. Jumlah kuadrat dari selisih Y dan

(dugaan

y) dari titik-titik data yang dihapus disebut PRESS (Prediction Sum of Squares).
Langkah berikutnya kelompok data ke-dua dihapus, lakukan seperti langkah

9
sebelumnya, jumlah kuadrat selisih Y dan

dalam langkah ke-dua ini

ditambahkan pada PRESS sebelumnya, demikian seterusnya sampai kelompok
data ke-M dihapus (Wold et al. 1984). Banyaknya komponen k sesuai dengan
iterasi yang memberikan PRESS minimal (Geladi dan Kowalski, 1986).

Regresi Penduga-M
Model analisis regresi berganda yang melibatkan p peubah bebas adalah
y = Xβ + ε

(3)

dengan y adalah vektor berukuran n x 1 yang unsur-unsurnya merupakan nilainilai amatan peubah tak bebas. X adalah matriks berukuran n x p yang unsurunsurnya merupakan peubah bebas, β adalah vektor berukuran p x 1 yang elemenelemennya berupa parameter regresi yang tidak diketahui dan ε adalah vektor
galat berukuran n x 1, dengan asumsi bahwa galat menyebar normal dengan E(ε)
= 0 dan Var(ε) = Iσ2 untuk

i = 1,2,…,n.

Salah satu metode yang digunakan untuk menduga parameter regresi
dalam analisis regresi berganda adalah Metode Kuadrat Terkecil (OLS). Konsep
dasar dari OLS adalah menduga parameter regresi dengan meminimumkan
kuadrat sisaan

Akan tetapi, jika galat menyebar tidak normal, sekalipun sebarannya mirip dengan
normal namun memiliki ekor lebih panjang, maka OLS tidak tepat digunakan
untuk menduga parameter regresi. Masalah ini, dapat diatasi dengan
menggunakan metode pendugaan yang bersifat kekar yaitu penduga-M.
Penduga-M diperoleh dengan mengganti fungsi kuadrat dalam (4) dengan
fungsi kerugian (loss function) ρ sebagai berikut :

dengan fungsi kerugian ρ simetrik dan merupakan fungsi tidak turun. Dengan
mengambil ρ(u) = u2, untuk u sembarang fungsi, maka kriteria meminimumkan
akan sama dengan persamaan (4), sehingga penduga kuadrat terkecil tampak

10

sebagai kasus khusus. Untuk mengurangi pengaruh sisaan yang besar dipilih
fungsi kerugian ρ tertentu sehingga menghasilkan penduga yang lebih kekar dari
kuadrat terkecil. Misalkan ri = yi - xiβ merupakan sisaan model dan wy adalah
bobot dari sisaan yang didefinisikan sebagai berikut:

Persamaan (5) dapat ditulis kembali sebagai

Pendugaan koefisien regresi dengan penduga-M dilakukan dengan metode
pendugaan kuadrat terkecil dengan pembobot yang dilakukan secara iteratif (Lu
2004). Nilai wy akan berubah pada tiap iterasinya sehingga diperoleh

.

Penduga-M hanya resisten terhadap pencilan sisaan. Oleh karena itu, agar
resisten terhadap tipe pencilan lain yaitu pengamatan berpengaruh (leverage
point) maka bobot pada persamaan (6) akan dikalikan dengan bobot pengamatan
berpengaruh wx (Serneels et al. 2005), yaitu :

Pengamatan

berpengaruh

adalah

pengamatan

yang

menyebabkan

terjadinya perubahan koefisien regresi bila pengamatan tersebut disisihkan dari
pemodelan data, sehingga suatu pencilan belum tentu menjadi pengamatan
berpengaruh. Pengamatan berpengaruh dapat didiagnosa berdasarkan nilai
leverage, yakni pencilan ditinjau dari nilai-nilai peubah bebas. Semakin besar
nilai leverage-nya, pengamatan tersebut semakin berpotensi berpengaruh dalam
pendugaan parameter regresi.
Pengamatan berpengaruh (pengamatan peubah bebas) yang berada dekat
dengan pusat data akan diberi bobot wx mendekati atau sama dengan satu, dan
sebaliknya untuk data yang jauh dari pusatnya akan diboboti mendekati nol.
Dengan demikian penduga parameter pada persamaan (8) akan resisten terhadap
pencilan sisaan dan pengamatan berpengaruh. Penduga ini selanjutnya disebut
Penduga-M kekar.

11

Regresi-M Kekar Parsial (Partial Robust Regression-M/PRM)
Jika terdapat masalah multikolinieritas pada kalibrasi ganda, maka model
yang sesuai adalah model Regresi Kuadrat Terkecil Parsial (Serneels et al. 2005).
Idenya adalah bahwa cukup meregresikan peubah bebas pada jumlah peubah laten
k terbatas. Nilai peubah laten ini ditempatkan bersama dalam matriks skor Tn,k,
yang mempunyai vektor ti sebagai kolom, dengan 1 ≤ i ≤ n. Model regresi laten
diberikan sebagai berikut:

dengan mengasumsikan bahwa Y dan X telah dipusatkan. Karena dimensi A
rendah, yakni k, vektor A dapat diduga sama dengan sebelumnya yaitu dengan
meregresikan peubah bebas terhadap peubah laten dengan bantuan penduga-M
kekar. Perbedaan utamanya adalah bahwa bobot wy dihitung dari sisaan, yaitu
dan bobot wx untuk pengamatan berpengaruh akan dihitung dari
skor ti, sebagai ganti dari peubah bebas asli. Pembobot yang dibutuhkan agar
resisten terhadap pencilan sisaan dan pengamatan berpengaruh, adalah :
wi = wy*wx atau

wi = min (wy ,wx )

dan menghasilkan penduga yang disebut dengan Penduga-M Kekar Parsial.
Selanjutnya adalah untuk memperoleh matriks Tn,k yang tidak dapat diamati
secara langsung. Matriks Tn,k diperoleh dengan menggunakan algoritma SIMPLS.
Sewaktu

dihasilkan, maka akhir pendugaan bagi β adalah

.

PLS tampak sebagai kasus khusus jika semua bobot wi yang diambil sama,
sehingga menghasilkan penduga tak kekar. Dengan menganggap bahwa bobot
telah ditetapkan, maka tidak akan sulit untuk mendapatkan
penduga PLS yang dihitung dari amatan berbobot

yang merupakan
.

Beberapa fungsi pembobot yang dapat digunakan, antara lain :
1)

1,
,

untuk
untuk

12

wy

u
Gambar 1. Fungsi Pembobot Penduga-M Huber
fungsi pembobot f disebut fungsi pembobot Huber dan konstanta c disebut
tuning constant dan u adalah pengukur simpangan relatif dari Huber.
2)

wy

u
Gambar 2. Fungsi Pembobot Penduga-M Fair
fungsi pembobot f disebut fungsi pembobot Fair,

adalah penduga skala

sisaan, c disebut tuning constant dan u adalah pengukur simpangan relatif dari
Fair.
Cummins dan Andrews (1995) telah melakukan kajian bahwa penduga-M Fair
akan efektif digunakan ketika c = 4, penduga-M Huber akan efektif digunakan
ketika c = 1.345 (Kuzmic et al. 2004) dan sebagai pembanding akan digunakan c
= 2. Pengukur simpangan relatif u pada persamaan (10) dan (11) dihitung dari
standar sisaan (standardized residuals) yaitu sisaan dibagi dengan penduga skala
agar prosedur regresi mempunyai skala ragam yang sama (scale equivariant).
Salah satu penduga skala

yang paling kekar dan sederhana adalah MAD

(Median Absoblute Deviation) yang diperkenalkan oleh Hampel pada tahun 1974.
MAD dapat dihitung sebagai berikut :
A

13

Bobot wx setelah dilakukan penskalaan setiap vektor skor ti dihitung sebagai
berikut :

merupakan norm vektor dan pembobot f sama seperti persamaan (10)

dimana

dan (11).

T

merupakan median-L1 yang dihitung dari vektor skor

{t1,…,tn}, yaitu penduga kekar dari pusat data awan dari vektor skor berdimensih. Median-L1 merupakan median contoh berganda, juga disebut spatial median.

Implementasi Langsung Kuadrat Terkecil Partial M Kekar (Robust
Straightforward Implementation Partial Least Square-M/RSIMPLS-M)
Kajian mengenai RSIMPLS-M terdiri dari Analisis Komponen Utama
Kekar (Robust Principal Component Analysis/ROBPCA) dengan menggabungkan
konsep projection pursuit (PP) dengan penduga ragam kekar, yaitu Determinan
Peragam Minimum (Minimum Covariance Determinant, MCD) (Ismah, 2010).
MCD merupakan penduga yang sangat kekar untuk menduga parameter
nilai tengah dan matriks peragam dengan konsep menentukan subhimpunan yang
memiliki nilai determinan peragam minimum. Dengan kata lain, MCD bertujuan
untuk mendapatkan h pengamatan dari n pengamatan yang memiliki determinan
peragam terkecil. Misalkan X = {x1, x2,…, xn,} merupakan suatu contoh dari n
pengamatan dalam Rk dan h, dengan

, cari subhimpunan J* berukuran h

sedemikian hingga:
=
dimana

det

adalah matriks peragam berdasarkan pada pengamatan xi dengan

(Notiragayu, 2008). Penduga MCD diberikan sebagai berikut :
dan
Metode MCD yang lebih efisien adalah dengan menggantikan rataan dan
matriks peragam klasik dengan penduga pusat dan ragam MCD terboboti.
dan

14

dimana masing-masing xi diberikan bobot wi, wi = 1 apabil
untuk lainnya (Rousseeuw et al. 2004).

dan

Metode PP bertujuan untuk mendapatkan struktur data peubah ganda
dengan memproyeksikan pada subhimpunan berdimensi rendah (Huber, 1985). PP
tepat digunakan untuk menganalisis data dengan jumlah peubah yang besar.
Subhimpunan berdimensi rendah dipilih dengan memaksimumkan indeks
proyeksi tertentu. Untuk menghasilkan komponen utama yang kekar, indeks
proyeksi diganti dengan penduga peragam yang kekar. Metode MCD diterapkan
ke dalam jumlah komponen yang terbentuk, untuk memperoleh penduga pusat
kekar

dari

dan peragamnya

, dimana

dapat

didekomposisikan sebagai berikut :

dengan vektor ciri Z yaitu

dan akar ciri Z yaitu diag(Lk,k).

Langkah-langkah dalam metode RSIMPLS-M adalah sebagai berikut:
1.

Pembentukan skor kekar RSIMPLS-M
Pembentukan skor-skor kekar,

berdimensi k, berdasarkan penduga pusat

kekar dan ragamnya yang diperoleh menggunakan metode ROBPCA. Vektor
bobot RSIMPLS-M, ra dan qa diperoleh menggunakan metode SIMPLS,
tetapi matriks peragam S diganti dengan

. Sedangkan vektor loading X

, kemudian

didefinisikan

diperoleh serupa pada

tahap SIMPLS. Dan pada masing-masing tahap skor kekar dihitung
.
2.

Pendugaan model regresi
Sama seperti pada SIMPLS dimana skor-skor kekar yang diperoleh pada
langkah 1 diregresikan dengan peubah tak bebas. Model regresi secara
matematis ditulis sebagai berikut :
dimana penduga pusat μ dan peragam ∑ dari
peragam terboboti

yaitu rataan dan matriks

15

dengan wi = 1 apabila pengamatan ke-i tidak didentifikasi sebagai pencilan
dengan metode ROBPCA dalam (x,y) dan wi ≈ 0 untuk lainnya.
Fungsi pembobot pada metode RSIMPLS-M adalah sebagai berikut:
jika





dimana
jika
jika





jika
jika
jika





dimana

(18)
(jarak kekar)
(jarak ortogonal)

dan
2010). Setelah

adalah penduga rataan dan ragam dengan MCD (Ismah,
dan

diperoleh, proses selanjutnya penduga koefisien regresi

diperoleh menggunakan metode kuadrat terkecil. Penentuan jumlah komponen k
menggunakan kriteria RMSECV (Root Mean Squared Error Cross Validation).
Jumlah komponen ditentukan dari komponen k yang memiliki nilai RMSECV
minimum.

Validasi Model
Salah satu jenis validasi model yaitu dengan menghitung nilai Root Mean Squared
Error of Prediction (RMSEP) dengan rumus:
RMSEP 

1
np

np

 ŷ

 yi 

2

i

(19)

i 1

dimana yi menyatakan nilai pengamatan ke-i pada kelompok data validasi, ŷi
menyatakan nilai dugaan pengamatan ke-i dan np menyatakan banyak sampel
yang digunakan dalam model validasi.

16

Pendugaan Parameter dengan Jackknife
Pendekatan jackknife diperkenalkan oleh Maurice Henry Quenouille pada
tahun 1949 untuk mengoreksi bias suatu penduga. Kemudian pada tahun 1958,
John Wilder Tukey mengusulkan penduga ragam. Ide dasar metode jackknife
dengan menghapus pengamatan ke-i untuk i = 1,..,n dan melakukan pendugaan
parameter. Misalkan X1,…,Xn merupakan contoh acak berukuran n pengamatan
yang menyebar secara bebas stokastik dan identik dari suatu sebaran peluang F
yang tidak diketahui. Dari contoh tersebut dilakukan penarikan contoh kembali
(resample) sebanyak n kali dimana setiap resample terdiri dari n-1 pengamatan
(terhapus 1 pengamatan secara berturut-turut).
Misalkan penaksir β yang diperoleh dengan menyisihkan data ke-i dan
diperoleh penduga b(i), yang disebut statistik jackknife, untuk i = 1,..,n (Dudewicz
dan Mishra, 1988). Penduga bias Jackknife

dihitung dengan menggunakan

persamaan berikut :
Biasjack = (n - 1) (b(i) – b) dan

ataan ias

(20)

b adalah dugaan dari parameter β dan b(i) adalah dugaan dari parameter β yang
dihitung dari penghapusan pengamatan ke-i (statistik jackknife).
Selanjutnya penduga bias Jackknife ini digunakan untuk menghasilkan

bias

terkoreksi penduga Jackknife (bj)yang disebut sebagai penduga Pseudo,
ias

didefinisikan dengan :

(21)
sedangkan penduga Jackknife (bJ) didefinisikan sebagai :
, dengan

(22)

Penduga ragam Jackknife dengan mengapus pengamatan ke-i berdasarkan pada
nilai pseudo, didefinisikan sebagai berikut :

17

Selang kepercayaan untuk (1 - α)% bagi koefisien regresi adalah :
(24)
dimana

adalah sebaran t dengan derajat bebas n – 1.

18

METODOLOGI
Data
Data yang digunakan dalam penelitian ini berasal dari Journal Technometrics
(Naes, 1985), mengenai konsentrasi lemak ikan. Data ini berisi hasil pengukuran
konsentrasi lemak 45 contoh ikan dan absorbsinya dari 9 panjang gelombang yang
diukur dengan spektrometer NIR. Konsentrasi lemak ikan (%) sebagai peubah
respon dan absorban-absorbannya sebagai peubah penjelas (Tabel Lampiran 1).
Menurut Naes (1985), tujuh pengamatan ektrim terletak pada bagian akhir, yakni
dari pengamatan ke-39 sampai 45.

Metode Penelitian
Langkah-langkah analisis data yang dilakukan berkaitan dengan tujuan
penelitian sebagai berikut :
I. Analisis menggunakan seluruh data pengamatan
1. Algoritma Regresi-M Kekar Parsial (PRM) dengan fungsi pembobot Fair dan
Huber
a. Menentukan data terpusat peubah

dan

dengan menggunakan

b. Menentukan bobot kekar awal, yaitu wi = wy*wx dan wi = min(wy ,wx)
dengan menggunakan penduga-M Huber dan penduga-M Fair.
, c = 4 (fungsi pembobot Fair)

, c = 1,345 dan c = 2
(fungsi pembobot Huber)
dengan

, untuk 1≤ i ≤ n.

20

dengan

merupakan norm vektor, fungsi pembobot f sama seperti fungsi
merupakan median-L1 yang

pembobot Huber dan Fair dan
dihitung dari vektor skor {x1,…,xn}.

c. Lakukan analisis regresi dengan algortitma SIMPLS pada matriks data
dan

terboboti yang diperoleh dengan mengalikan setiap kolom

dan

dengan

.

c1. Menentukan vektor bobot X (ra) dan Y (qa), untuk a = 1.
c2. Menghitung skor SIMPLS (ta) :
, untuk untuk a = 1 yang didefinisikan

dengan
sebagai t
c3. Menghitung loading-X,

c4. Menghitung sebuah basis ortonormal {v1,…,va-1} terhadap loading-x
{p1,…,pa-1} untuk 2 ≤ a ≤ k
c5. Menghitung matriks peragam silang

dan
, untuk 2 ≤ a ≤ k

c6. Menghitung vektor bobot X (ra) dan Y (qa), untuk 2 ≤ a ≤ k
c7. Menghitung skor SIMPLS (ta), untuk 2 ≤ a ≤ k
c8. Ulangi tahap c3.
d. Periksa skor SIMPLS (ta) dengan membagi (ta) dengan

.

e. Regresikan skor SIMPLS dengan peubah respon (y) :
f. Menghitung
g. Uji kekonvergenan
h. Jika kekonvergenan tidak tercapai, hitung kembali bobot wi = wy*wt dan
wi = min(wy ,wt) dengan menggunakan penduga-M Huber dan penduga-M
Fair, dimana
i. Kembali ke langkah 3 sampai

konvergen. Konvergensi tercapai apabila

perbedaan relatif (relative difference) dalam norm antara dua berturut-turut
perkiraan

lebih kecil daripada ambang batas yang ditentukan yaitu 10-5

21

j. Pendugaan akhir dari

secara langsung diperoleh dari langkah RKTP

terboboti terakhir.
k. Menghitung koefisien regresi SIMPLS terhadap peubah asli (penduga
paremeter untuk regresi linier yi = β0+qB'p xi + ei)

l. Menghitung PRESS (Prediction Sum of Squares).
2. Algoritma Robust Straightforward Implementation Partial Least Square-M
(RSIMPSL-M).
a. Menentukan data terpusat peubah

dan

dengan menggunakan

b. Pembentukan skor kekar
b1. Menentukan matriks peragam kekar menggunakan metode AKUK
b2. Menentukan vektor bobot kekar X (ra) dan Y (qa), untuk a = 1.
Vektor bobot RSIMPLS-M, ra dan qa diperoleh menggunakan metode
SIMPLS, tetapi matriks peragam S diganti dengan .
b3. Menghitung skor SIMPLS (ta) :
dengan

, untuk untuk a = 1 yang didefinisikan

sebagai t
b4. Menghitung loading-X,
b5. Menghitung sebuah basis ortonormal {v1,…,va-1} terhadap loading-x
{p1,…,pa-1} untuk 2 ≤ a ≤ k
b6. Menghitung matriks peragam silang

dan
, untuk 2≤ a≤ k

b7. Menghitung skor RSIMPLS-M untuk 2 ≤ a ≤ k
b8. Menentukan vektor bobot kekar X (ra) dan Y (qa), untuk 2 ≤ a ≤ k
b9. Ulangi tahap b3 untuk 2 ≤ a ≤ k

22

c. Pembentukan regresi kekar : hitung

, dimana penduga

pusat μ dan peragam ∑ dari

yaitu rataan dan matriks peragam

terboboti

dengan wi = 1 apabila pengamatan ke-i tidak didentifikasi sebagai pencilan
dengan metode AKUK dalam (x,y) dan

untuk lainnya.

Fungsi pembobot pada metode RSIMPLS-M adalah sebagai berikut:
jika


dimana

jika

jika



jika
jika
jika



dengan

,

D = jarak kekar dan OD = jarak orogonal.

dan

adalah penduga

rataan dan ragam dengan MCD (Ismah, 2010)
d. Menghitung koefisien regresi RSIMPLS-M terhadap peubah asli (penduga
paremeter untuk regresi linier yi = β0+qB'p xi + ei)

e. Menghitung RMSECV (Root Mean Squared Error Cross Validation).
II. Validasi Model
1. Lakukan pemilihan data (n1) untuk membentuk model dan kelompok data
(n2) untuk validasi model secara acak.
2. Lakukan analisis data n1 seperti pada langkah I bagian 1 dan bagian 2.
3. Menghitung RMSE.

23

4. Lakukan prediksi nilai y pada kelompok data validasi n2 dengan
menggunakan model yang dihasilkan pada langkah II bagian 2.
Selanjutnya validasi model dengan kriteria RMSEP.
5. Ulangi langkah 2 tahap a sebanyak 20 kali dengan memilih kelompok data
n1 dan n2 yang berbeda dari sebelumnya.
6. Menghitung rata-rata RMSE dari langkah 3 dan RMSEP dari langkah 4.

III. Pendugaan selang kepercayaan parameter dengan metode jackknife. Ide dasar
metode jackknife dengan menghapus pengamatan ke-i untuk i = 1,..,n dan
melakukan pendugaan parameter. Penduga bias Jackknife :
Biasjack = (n - 1) (b(i) – b) dan

ataan ias

. b adalah

dugaan dari parameter β dan b(i) adalah dugaan dari parameter β yang
dihitung dari penghapusan pengamatan ke-i (statistik jackknife). Penduga
Jackknife (bJ) didefinisikan sebagai :

, dengan

. Penduga ragam Jackknife dengan mengapus pengamatan
. Selang

ke-i didefinisikan sebagai berikut :
kepercayaan

u

(1

-

α)%

bagi

koefisien
, dimana

regresi

adalah

:

adalah sebaran t

dengan derajat bebas n – 1.
Analisis data untuk metode PRM dan RSIMPLS-M diimplementasikan dengan
program MATLAB.

24

Mulai
Analisis dengan
n Pengamatan
(Seluruh Data Pengamatan)
PRM

Pemilihan
Jumlah Komponen k

RSIMPLS-M

Fungsi Pembobot
Fair dan Huber

Fungsi Pembobot
Huber

Deteksi pencilan

Deteksi Pencilan

Pemberian Bobot

Pemberian Bobot

Identifikasi
Pencilan

Identifikasi
Pencilan

Pemilihan Kelompok
Data Uji dan Model
RMSE

Pemodelan

RMSEP

Uji Model

Pendugaan Selang Kepercayaan
Parameter dengan Metode
Jackknife

Selesai

Gambar 3 Diagram alur penelitian

HASIL DAN PEMBAHASAN

Deskripsi Data
Berdasarkan data yang digunakan dalam penelitian ini, akan dilakukan
pengidentifikasian multikolinieritas. Nilai korelasi antar peubah bebas yang cukup
tinggi dengan nilai p > 0.1 tertera pada Tabel 1.
Tabel 1 Korelasi (r) antar peubah bebas data ikan
Korelasi
X1
X2
X3
X4
X2
0,906
X3
0,998 0,905
X4
0,998 0,905 1,000
X5
0,993 0,896 0,997 0,998
X6
0,987 0,890 0,988 0,991
X7
0,988 0,891 0,989 0,992
X8
0,990 0,896 0,991 0,993
X9
0,973 0,871 0,976 0,979

X5

X6

X7

0,995
0,995 1,000
0,996 1,000
0,989 0,995

X8

1,000
0,995 0,994

Adanya data pencilan sering kali memperbesar nilai ragam bagi model, sehingga
menyebabkan

dugaan

bagi

selang

kepercayaannya

Pengidentifikasian pencilan berdasarkan

makin

lebar.

diagram kotak-garis pada data

pengamatan Y menunjukkan bahwa pencilan pada pengamatan ke-1. Sedangkan
pengidentifikasian pencilan berdasarkan data pengamatan X menunjukkan
terdapat beberapa pengamatan yang merupakan pencilan yaitu pengamatan ke-8,
39, 40, 42, 43, 44, dan 45. Deteksi pengamatan pencilan berdasarkan diagram
kotak-garis ditunjukkan pada Gambar 4.

50

2.5

Kandungan zat aktif (absorban)

Konsentrasi lemak ikan (%)

43
44

45

40

35

45

44
43

40
39

45

2.0

8

44
43
45

44
43
45

40
39

1.5

40
39

43
44
45

43
44
45
39
40

43
44
45
39

43
44
45

40
39

1.0
43
45
44

0.5
30

1

x1

(a)

x2

x3

x4

x5

x6

x7

x8

(b)

Gambar 4 Diagram kotak-garis (a) Pengamatan Y dan (b) Pengamatan X

x9

26

Penentuan Jumlah Peubah Laten
Jumlah peubah laten (komponen) k ditentukan berdasarkan analisis
menggunakan metode PRM terhadap data tertera pada Tabel 2.
Tabel 2 Hasil Validasi Silang untuk menentukan banyaknya komponen k
Banyak
Pengaruh Model
Peubah Bebas
Peluang >
PRESS
Peubah
PRESS
Persentase Kumulatif Persentase Kumulatif
Laten
0
1.0688
0.0001
1
0.8074
0 .0001
97.4293
97.4293
45.7099
45.7099
2
0.6901
0.0470
1.6800
99.1092
20.8394
66.5493
3
0.5281
0.1970
0.7861
99.8953
14.9791
81.5284
4
0.4627
1.0000
0.0735
99.9688
7.5427
89.0711
5
0.5579
0.2400
0.0254
99.9942
1.4707
90.5418
6
1.2330
0.3240
0.0055
99.9997
0.2780
90.8198
7
2.1853
0.0740
0.0001
99.9999
1.5838
92.4035
8
1.4553
0.0280
0.0001
99.9999
0.2844
92.6880
9
1.4141
0.0250
0.0001
100.0000
0.0665
92.7545
Dari hasil perhitungan PRESS diperoleh model kalibrasi dengan 4 peubah
laten (komponen) dengan akar rataan PRESS terkecil, yak