Penerapan Regresi Komponen Utama Kekar dan Regresi Kuadrat Terkecil Parsial Kekar dalam Pemodelan Kalibrasi Multirespon Kayu Jati

PENERAPAN REGRESI KOMPONEN UTAMA KEKAR DAN
REGRESI KUADRAT TERKECIL PARSIAL KEKAR DALAM
PEMODELAN KALIBRASI MULTIRESPON KAYU JATI

LENY YULIYANI

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Penerapan Regresi
Komponen Utama Kekar dan Regresi Kuadrat Terkecil Parsial Kekar dalam
Pemodelan Kalibrasi Multirespon Kayu Jati adalah benar karya saya dengan
arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada
perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya
yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam
teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Februari 2014
Leny Yuliyani
NIM G14080053

ABSTRAK
LENY YULIYANI. Penerapan Regresi Komponen Utama Kekar dan Regresi
Kuadrat Terkecil Parsial Kekar dalam Pemodelan Kalibrasi Multirespon Kayu
Jati. Dibimbing oleh HARI WIJAYANTO, AJI HAMIM WIGENA dan LINA
KARLINASARI.
Pemodelan kalibrasi merupakan suatu metode yang sering digunakan
untuk menduga kandungan kimia suatu bahan dari ukuran spektra. Permasalahan
yang sering muncul dalam pemodelan kalibrasi adalah banyaknya peubah bebas
jauh lebih besar daripada banyaknya pengamatan, multikolinearitas antar peubah
bebas,serta terdapat pencilan. RPCR dan RSIMPLS merupakan metode kekar
yang didasari dari algoritma RKU (Regresi Komponen Utama) dan RKTP
(Regresi Kuadrat Terkecil Parsial) yang mampu mengatasi permasalahan tersebut.
Sebuah modifikasi RPCR dan RSIMPLS, diberi nama RPCR-M dan RSIMPLSM. Kedua metode modifikasi tersebut merupakan sebuah metode alternatif dengan
menggunakan pembobot pada RPCR dan RSIMPLS berdasarkan penduga-M

dengan fungsi pembobot Huber. Kedua metode modifikasi tersebut diterapkan
pada data multirespon untuk menduga kandungan kimia pada kayu jati dan
dibandingkan keduanya. Hasil dari valiasi dan simulasi menunjukkan bahwa
RPCR-M lebih baik ketika jumlah pencilan ekstrim kurang dari dua, sedangkan
RSIMPLS-M lebih baik dan lebih stabil ketika jumlah pencilan ekstrim lebih dari
dua.
Kata kunci: kalibrasi multirespon, metode kekar, RPCR-M, RSIMPLS-M

ABSTRACT
LENY YULIYANI. Application of Robust Principal Component Regression and
Robust Partial Least Square in Multirespon Calibration Modeling of Teak Wood.
Supervised by HARI WIJAYANTO, AJI HAMIM WIGENA and LINA
KARLINASARI.
Calibration modeling is a method which often be used to estimate chemical
contents of a material from measured spectra. The problems in calibration
modeling are the number of independent variables larger than the number of
observations, multicollinearity between independent variables, and outliers. RPCR
and RSIMPLS are robust methods based on PCR (Principal Component
Regression) and PLS (Partial Least Square) algorithms capable to solve those
problems. A modified method of RPCR and RSIMPLS, called RPCR-M and

RSIMPLS-M. They are alternative methods used weight in RPCR and RSIMPLS
based on M-estimators with Huber weight function. Both modified methods are
applied to multirespon data to estimate chemical contents of teak wood and
compared. The results of validation and simulation showed that RPCR-M is better
when the number of extreme outliers are less then two, whereas RSIMPLS-M is
better and more stable when extreme outliers in the data are more then two.
Keywords : multiresponse calibration, robust method, RPCR-M, RSIMPLS-M

PENERAPAN REGRESI KOMPONEN UTAMA KEKAR DAN
REGRESI N KUADRAT TERKECIL PARSIAL KEKAR DALAM
PEMODELAN KALIBRASI MULTIRESPON KAYU JATI

LENY YULIYANI

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Statistika
pada
Departemen Statistika


DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014

Judul Skripsi : Penerapan Regresi Komponen Utama Kekar dan Regresi Kuadrat
Terkecil Parsial Kekar dalam Pemodelan Kalibrasi Multirespon
Kayu Jati
Nama
: Leny Yuliyani
NIM
: G14080053

Disetujui oleh

Dr Ir Hari Wijayanto, MS
Pembimbing I

Dr Ir Aji Hamim Wigena, MSc

Pembimbing II

Dr Lina Kalinasari, MScF
Pembimbing III

Diketahui oleh

Dr Ir Hari Wijayanto, MS
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Desember 2012 ini ialah
kalibrasi, dengan judul Penerapan Regresi Komponen Utama Kekar dan Regresi
Kuadrat Terkecil Parsial Kekar dalam Pemodelan Kalibrasi Multirespon Kayu
Jati.
Terima kasih penulis ucapkan kepada Bapak Dr Ir Hari Wijayanto, MS,

Bapak Dr Ir Aji Hamim Wigena, MSc dan Ibu Dr Lina Karlinasari, MSc.F selaku
pembimbing yang telah banyak memberi arahan dan bimbingan dalam penulisan
skripsi ini, serta penulis berterimakasih kepada Ibu Ismah, MSi yang telah
mengajarkan penggunaan software. Di samping itu, ungkapan terima kasih juga
disampaikan kepada ayah, ibu, dan adikku imma atas segala doa dan kasih
sayangnya. Ungkapan terima kasih juga tidak lupa untuk Riki Andriatna, S.Pd
yang telah memberikan masukan dan semangat dalam penulisan ini, serta untuk
teman-teman STK45 dan teman-teman kosan An-Nahla atas motivasi dan
dukungan kepada penulis. Tak lupa pula ucapan terima kasih untuk keluarga
bidadari Nabila (Ira, Iin, Umul) atas kebersamaan dan canda tawa yang diberikan
selama di Bogor.
Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak yang
membutuhkan. Penulis mohon maaf atas segala kekurangan dan kesalahan yang
terdapat dalam karya ilmiah ini.

Bogor, Februari 2014
Leny Yuliyani

DAFTAR ISI


DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi

PENDAHULUAN

1

Latar Belakang

1


Tujuan Penelitian

2

METODOLOGI

3

Metode Pengumpulan Data

3

Metode Analisis

3

HASIL DAN PEMBAHASAN
Deskripsi Data

9

9

Penentuan Jumlah Komponen

11

Identifikasi Pencilan

12

Validasi Data

15

Simulasi

16

SIMPULAN DAN SARAN


17

Simpulan

17

Saran

17

DAFTAR PUSTAKA

17

LAMPIRAN

19

RIWAYAT HIDUP


30

DAFTAR TABEL
Nilai korelasi Pearson antar peubah respon
Nilai batas (cut off) jarak skor dan jarak ortogonal
Kategori pengamatan pencilan berdasarkan plot ROBPCA
Nilai RMSE dan R2 dari data keseluruhan
Rata-rata RMSE, RMSEP, R2 model dan R2 validasi dari 10 kombinasi
pengambilan contoh
6 Rata-rata korelasi dari 10 kombinasi pengambilan contoh
7 Perbandingan nilai RMSE dan RMSEP metode RPCR-M dan
RSIMPLS-M dengan jumlah pencilan yang beragam

1
2
3
4
5

10
13
14
15
15
15
16

DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10

Diagram alir penelitian
Spektrum Absorbsi NIR 45 kayu jati di Jawa
Diagram kotak-garis data pengamatan Y
Diagram kotak-garis sebagian data pengamatan X
Nilai RMSECV metode RPCR-M pada beberapa jumlah komponen
Nilai R2 metode RPCR-M pada beberapa jumlah komponen
Nilai RMSECV metode RSIMPLS-M pada beberapa jumlah komponen
Nilai R2 metode RSIMPLS-M pada beberapa jumlah komponen
Jarak skor dan jarak ortogonal metode RPCR-M
Jarak skor dan jarak ortogonal metode RSIMPLS-M

8
9
9
10
11
11
12
12
13
13

DAFTAR LAMPIRAN
1 Skema Algoritma ROBPCA
2 Nilai jarak skor (SD) dan jarak ortogonal (OD) serta besar bobot (w)
metode RPCR-M
3 Nilai jarak skor (SD) dan jarak ortogonal (OD) serta besar bobot (w)
metode RSIMPLS-M
4 Plot nilai dugaan dengan nilai aktual dari masing-masing respon dengan
metode RPCR-M
5 Plot nilai dugaan dengan nilai aktual dari masing-masing respon dengan
metode RSIMPLS-M

19
20
24
28
29

PENDAHULUAN
Latar Belakang
Jati (Tectona grandis L.f.) terkenal sebagai kayu komersil bermutu tinggi,
termasuk dalam famili Verbenaceae. Penyebaran alami meliputi negara-negara
India, Birma, Kamboja, Thailand, Malaysia dan Indonesia. Di Indonesia jati
terdapat di beberapa daerah seperti Jawa, Muna, Buton, Maluku dan Nusa
Tenggara. Karakteristik dari kayu jati yang paling dikenal orang adalah keawetan
dan daya tahannya terhadap perubahan cuaca dibandingkan dengan jenis kayu
lain. Selain itu pula karakter serat dan warnanya memiliki ciri khas tersendiri.
Oleh karena itu harga kayu jati lebih mahal. Kayu jati termasuk kelas kuat I dan
kelas awet II. Komponen kimia utama kayu terdiri dari komponen-komponen
makromolekul berupa selulosa, hemiselulosa, dan lignin (Kholik 2008).
Komponen-komponen tersebut menentukan kualitas bahan dari kayu jati. Oleh
karena itu untuk memperoleh kualitas yang baik perlu dikaji kandungan senyawa
kimia dalam kayu jati.
Kandungan senyawa kimia kayu dianalisis dengan menggunakan prosedur
standar Tappi (1988), prosedur ini memerlukan waktu yang lama dan kurang
praktis. Metode lain untuk mengetahui kandungan kimia dalam kayu adalah
dengan menggunakan spektroskopi NIR (Near Infrared). NIR merupakan salahsatu teknik spektroskopi yang menggunakan wilayah panjang gelombang
inframerah pada spektrum elektromagnetik sekitar 780 nm sampai 2500 nm (Naes
et al. 2002). Panjang gelombang yang dihasilkan menggunakan spektroskopi NIR
umumnya sangat lebar, sehingga terbentuk spektrum-spektrum yang rumit. Hal ini
menyulitkan penentuan kandungan kimia yang spesifik, sehingga alternatif untuk
mengatasinya yaitu dengan membuat model kalibrasi peubah ganda.
Model kalibrasi yang akan dibentuk menyatakan hubungan antara
konsentrasi zat aktif (Y) hasil pengukuran kimia kayu dengan prosedur Tappi
(1988) dengan absorbansi (X) yang diukur dengan menggunakan NIR. Namun ada
beberapa masalah yang sering muncul dalam proses kalibrasi, diantaranya
banyaknya peubah bebas jauh lebih besar daripada banyaknya pengamatan
(p>>n).
Menurut Naes et al. (2002) masalah yang juga sering muncul dalam teknik
kalibrasi diantaranya adalah masalah kolinearitas antar peubah bebas, ini terjadi
jika terdapat korelasi yang tinggi diantara peubah bebas. Teknik regresi standar
yang biasa digunakan adalah metode kuadrat terkecil, menghasilkan koefisisen
regresi dan prediksi yang tidak stabil dan tidak dapat diandalkan jika terdapat
multikolinearitas antar peubah bebas, sehingga metode lain harus digunakan.
Beberapa teknik kalibrasi terbaik yang dikenal, misalnya RKU (Regresi
Komponen Utama) dan RKTP (Regresi Kuadrat Terkecil Parsial) adalah
pengembangan untuk memecahkan masalah multikolinearitas.
Masalah lain yang muncul adalah adanya pencilan. Pencilan merupakan
pengamatan atau peubah yang dalam beberapa hal berbeda dari sisa data (Naes et
al. 2002). Pengamatan pencilan mungkin saja mempengaruhi pendugaan
parameter, tetapi memberikan informasi penting yang diperlukan sehingga
keputusan untuk menghilangkan pencilan tersebut harus dilandasi alasan yang

2
kuat (Ismah 2010), sehingga perlu adanya metode yang kekar untuk mengatasi
masalah tersebut.
Regresi Komponen Utama (RKU) dan Regresi Kuadrat Terkecil Parsial
(RKTP) merupakan salah satu teknik prediktif yang mampu mengatasi peubah
bebas berdimensi besar dan terdapat masalah multikolinearitas. Metode kekar
dengan menggunakan algoritma RKU untuk data multirespon diantaranya adalah
RPCR (Robust Principal Component Regression) yang diperkenalkan oleh Hubert
dan Verboven (2002), sedangkan metode kekar dengan menggunakan algoritma
RKTP yang resisten terhadap pencilan untuk data multirespon diantaranya adalah
RSIMPLS (Robust Straightforward Implementation Partial Least Square) yang
diperkenalkan oleh Hubert dan Branden (2003).
Metode RPCR merupakan kombinasi antara metode AKU (Analisis
Komponen Utama) kekar yang diterapkan pada peubah bebas dengan
menggunakan ROBPCA (Robust Principal Component Analysis) (Hubert et al.
2003) dan metode regresi kekar, yaitu menggunakan regresi LTS (Least Trimmed
Squares) untuk satu peubah respon dan regresi MCD (Minimum Covariance
Determinant) untuk peubah respon lebih dari satu (Moller et al. 2006). Sedangkan
RSIMPLS merupakan kombinasi antara metode matriks peragam kekar yang
didapat dari ROBPCA dan regresi kekar. Keduanya menggunakan metode yang
sama yaitu ROBPCA namun algoritmanya berbeda.
Setiap pengamatan yang dideteksi sebagai pencilan oleh kedua metode
tersebut akan diberi nilai bobot nol dan diberi bobot satu untuk pengamatan
lainnya. Pemberian bobot nol berarti pengamatan tersebut dihilangkan, ini berarti
mengurangi jumlah pengamatan. Alternatif fungsi bobot untuk mengatasi pencilan
yaitu berdasarkan penduga-M dengan fungsi pembobot Huber (1964), seperti
yang telah dilakukan Ismah (2010), yaitu pembobot yang diberikan untuk setiap
pengamatan bergantung pada jarak sisaan dan koefisien. Metode alternatif RPCR
dan RSIMPLS berdasarkan konsep penduga M dengan pembobot Huber
selanjutnya dalam penelitian ini diberi nama RPCR-M dan RSIMPLS-M.
Pada penelitian ini akan dilakukan kajian mengenai metode RPCR-M dan
RSIMPLS-M untuk menduga kandungan kimia pada kayu jati dan
membandingkan keduanya dalam menangani data pencilan pada data kalibrasi
multirespon.

Tujuan Penelitian
Penelitian ini bertujuan untuk membuat model pendugaan kandungan kimia
pada kayu jati dengan menggunakan metode RPCR-M dan RSIMPLS-M
berdasarkan penduga-M dengan fungsi pembobot Huber serta membandingkan
kedua metode tersebut dalam menangani pencilan pada data kalibrasi.

3

METODOLOGI
Metode Pengumpulan Data
Data yang digunakan dalam penelitian ini merupakan data sekunder dari
penelitian Kholik (2008), berupa data kayu jati yang terdiri atas 1557 peubah
bebas dan 4 peubah respon. Peubah bebas (X) berupa data absorbansi yang diukur
menggunakan spektrometer NIR (Near Infrared) dengan panjang gelombang
1000-2550 nm. Peubah respon (Y) berupa konsentrasi kandungan kimia kayu jati
struktural menggunakan prosedur standar Tappi (1988), diantaranya selulosa,
holoselulosa, hemiselulosa, dan lignin. Contoh kayu diambil dari sembilan lokasi
Kesatuan Pemangku Hutan (KPH) Perum Perhutani yang masih produktif dan
merupakan sentra jati di Jawa, yaitu Jawa Barat-Banten, Jawa Tengah, dan Jawa
Timur.
KPH Perum Perhutani yang dipilih sebagai populasi adalah
1. Unit I Jawa Tengah : KPH Cepu (Cu), KPH Kendal (Kl), KPH Kebonharjo
(Kh) dan KPH Randublatung (Rb),
2. Unit II Jawa Timur : KPH Bojonegoro (Bo) dan KPH Ngawi (N),
3. Unit III Jawa Barat-Banten : KPH Banten (B), KPH Indramayu (I), dan
KPH Ciamis (Cs).
Sebanyak lima individu dipilih secara acak dari areal tebangan pada tiap
KPH terpilih, sehingga terdapat 45 kayu jati dan masing-masing individu diukur
sebanyak 3 kali ulangan.

Metode Analisis
RPCR dan RSIMPLS sama-sama didasari atas metode ROBPCA, yaitu
dengan menggabungkan konsep Projection Pursuit (PP) dengan penduga peragam
kekar, yaitu Determinan Peragam Minimum (Minimum Covariance Determinant,
MCD). PP digunakan untuk mendapatkan struktur data peubah ganda dengan
memproyeksikan pada subhimpunan berdimensi rendah sehingga didapat k
komponen. MCD diterapkan ke dalam jumlah komponen yang terbentuk untuk
memperoleh penduga pusat dan peragam kekar. ROBPCA dijelaskan secara rinci
oleh Hubert et al. (2003) dan Suryana (2007).
Perbedaan antara metode RPCR dan RSIMPLS terletak pada penentuan
komponen k yang membentuk skor kekar. PCR ditentukan hanya bedasarkan
variabel x, sedangkan RSIMPLS ditentukan dari kombinasi linear variabel x yang
mempunyai peragam maksimum dengan kombinasi variabel y (Hubert dan
Branden 2003). Selain itu, tahapan regresi yang digunakan pada metode RPCR
menggunakan regresi MCD sedangkan RSIMPLS menggunakan tambahan
informasi dari metode ROBPCA.
Setiap kondisi data pada metode RPCR dan RSIMPLS akan dihitung Root
Mean Squared Error Cross Validation (RMSECV) untuk menentukan jumlah
komponen (k). Jumlah komponen ditentukan dari komponen k yang memiliki
nilai RMSECV minimum. Mengukur kebaikan model menggunakan Root Mean
Squared Error (RMSE) dan R2kalibrasi, sedangkan untuk menguji kemampuan

4
model dalam memprediksi (validasi) menggunakan Root Mean Square Error of
Prediction (RMSEP), R2 validasi dan korelasi (r).
Langkah-langkah penelitian ini adalah sebagai berikut:
Eksplorasi data untuk mengetahui karakteristik data dan mencari
permasalahan yang mungkin terdapat multikolinearitas dan pencilan.
II. Tentukan data terpusat peubah n,p dan Ỹn,q dengan menggunakan
i= ii=
III. Dilakukan tahapan metode RPCR-M dan RSIMPLS-M dengan
menggunakan keseluruhan data. Tahapan–tahapan metode RPCR-M dan
RSIMPLS-M secara rinci adalah sebagai berikut:
A. RPCR-M, yaitu modifikasi RPCR menurut Hubert dan Verboven (2002)
berdasarkan penduga-M dengan fungsi pembobot Huber (1964) :
1. Pembentukan skor kekar, menggunakan metode ROBPCA
a. Mereduksi ruang data menjadi subruang yang direntang oleh n
observasi menggunakan Singular Value Decomposition (SVD)
terhadap matriks data yang telah dipusatkan dengan rumus
X , − 1 �′ = U , 0 D 0 , 0 V ′0 ,
dengan � adalah vektor rataan klasik, 0 = rank (X , − 1 �′ ), D
adalah matriks diagonal berukuran r0 x r0, dan UtU=I 0 =VtV, dengan
I 0 adalah matriks identitas berukuran r0 x r0. Untuk p>n, dilakukan
pendekatan kernel berdasarkan penghitungan vektor dan nilai dari
( − 1 �′ )( − 1 �′ )′, sehingga didapat data berada pada
subruang yang dibangkitkan oleh 0 kolom V, yaitu X , 0 = UD.
b. Menemukan h keterpencilan terkecil, tahap ini dilakukan dengan
memilih
½

OD


>



b. Menghitung parameter kekar
A

jika OD ≤

,





= Ʃ−1
� Ʃt





2
2

+�

+�

2

0.975

2

0.975

6
�0 = � − A′ �
Ʃ� = Ʃ − A′Ʃt A
Model regresi dapat ditulis sebagai berikut
= A′ , t + �
= A′ , P ′ ,
−�
c. Menghitung koefisien regresi dengan peubah asli
B , =P, A ,
β0 = � – B

,

+�



d. Menghitung RMSECV (Root Mean Squared Error Cross Validation)
B. RSIMPLS-M, yaitu modifikasi RSIMPLS menurut Hubert dan Branden
(2003) berdasarkan penduga-M dengan fungsi pembobot Huber (1964) :
1. Pembentukan skor kekar
a. Menentukan penduga pusat kekar � dan matriks peragam kekar Ʃ
menggunakan metode ROBPCA seperti pada tahap RPCR namun
menggunakan data Zn,m = (Xn,p,Yn,q), sehingga Ʃ dapat
didekomposisi sebagai berikut :
Ʃ
Ʃ
= P z L z (P z )′
Ʃ =
Ʃ
Ʃ
( )

b.

c.

d.
e.
f.

dengan vektor ciri Z yaitu P , dan akar ciri Z yaitu diag ( , ).
Menentukan vektor bobot X (r ) dan Y q , untuk
= 1, yang
didefinisikan sebagai vektor yang memaksimumkan
= q′ Ʃ r
, q ,
, r
dengan Ʃ adalah matriks peragam silang antara peubah X dan
peubah Y yang didapat dari metode ROBPCA, dengan normalisasi
dan
terdapat batasan bahwa komponen r tidak berkorelasi
(ortogonal) agar diperoleh solusi lebih dari satu. Secara tidak
langsung q1 adalah vektor ciri Ʃ Ʃ dan r1 = Ʃ 1 .
Menghitung skor kekar, untuk a=1
t = ′ r = ( − � )′r
Skor pertama RSIMPLS yaitu : �1 = 1′ 1
Menghitung loading-X = (r Ʃ r )−1 Ʃ r
Menghitung sebuah basis ortonormal {v1,...,va-1} terhadap loading-x
{p1,...,pa-1) untuk 2≤ ≤
( )
Menghitung matriks pergam silang Ʃ , dengan 2 ≤ ≤
Ʃ



−1

(1)





Ʃ

−1

= � −



Ʃ

−1

Peragam silang Ʃ = Ʃ
g. Ulangi tahap b sampai f, untuk 2 ≤ ≤ .
2. Pembentukan regresi kekar: hitung k,q = ( � )-1 � , yang penduga
pusat μ dan peragam Σ dari (t, ) yaitu rataan dan matriks peragam
terboboti. Modifikasi fungsi bobot untuk RSIMPLS sama dengan
RPCR namun perhitungan jarak skor dan jarak ortogonal menggunakan
data Zn,m = (Xn,p,Yn,q)

7
SDi(k)=

(t

)′ (L

)−1 t

(jarak skor)
( )

ODi = (zi – μ′z ) – P (z) t
(jarak ortogonal)
a. Hitung koefisisen regresi RSIMPLS-M terhadap peubah asli
diperoleh menggunakan metode kuadrat terkecil (penduga parameter
untuk regresi linier � = β0 + qBʹpxi+ ei)
Bktp = Rp,k k,q
β0 =

- Bʹktp

b. Hitung RMSECV
IV. Mendeteksi pencilan menggunakan metode RPCR-M dan RSIMPLS-M.
V. Validasi model
a. Lakukan secara acak pemilihan data n1 untuk membentuk model dan n2
untuk validasi model.
b. Lakukan analisis data n1 seperti langkah III
c. Hitung RMSE dan R2 kalibrasi,
= banyak sampel yang digunakan
untuk membentuk model
1
=
( − )2
= nilai pengamatan kelompok ke-i
=1
pada kelompok data model
= nilai dugaan pengamatan ke-i
d. Lakukan prediksi nilai y pada kelompok data validasi n2 dengan
menggunakan model yang dihasilkan pada data n1. Selanjutnya validasi
model dengan kriteria RMSEP,R2 validasi, dan korelasi (r).
e. Ulangi tahap a sampai d sebanyak 10 kali dengan memilih kelompok data
n1 dan n2 yang berbeda dari sebelumnya.
f. Menghitung rata-rata RMSE dan R2 seperti tahap c serta rata-rata
RMSEP,R2 validasi, dan korelasi (r) pada tahap d.
g. Bandingkan kedua metode berdasarkan nilai RMSEP, R2validasi dan
korelasi(r).
VI. Simulasi
a. Membuat data pencilan dengan memperbesar jarak ortogonal dan jarak
skor menggunakan data kayu tersebut dengan mengacak jumlah
pengamatan dan jumlah peubah bebas sebanyak 10 kali, untuk
menghasilkan 10 buah data pencilan.
b. Membuat variasi jumlah pencilan yang berbeda yaitu sebanyak 1, 2, 3, 5,
dan 9 buah pencilan yang masing-masing sebanyak 10 kali.
c. Menerapkan metode RPCR-M dan RSIMPLS-M pada data pencilan
tersebut.
d. Menghitung rata-rata dari nilai RMSE dan RMSEP yang dihasilkan dari
kedua metode tersebut.
e. Membandingkan kedua metode tersebut dari rata-rata nilai RMSE dan
RMSEP
Analisis data dilakukan dengan menggunakan program MATLAB®7.7.0
(R2008b) dan Minitab®14. Metode RSIMPLS dan RPCR diimplementasikan
dengan program MATLAB yang telah dipublikasikan oleh Verboven dan Hubert

8
(2004) dan dapat diakses di alamat http://wis.kuleuven.be/stat/robust.html.
Tahapan penelitian secara ringkas dapat dilihat pada diagram alir penelitian
(Gambar 1).

Gambar 1 Diagram alir penelitian

9

HASIL DAN PEMBAHASAN
Deskripsi Data
Gambar 2 menyajikan grafik keluaran NIR kayu jati. Secara umum terlihat
bahwa keseluruhan spektrum memiliki pola yang sama. Oleh karena itu, untuk
keseluruhan contoh spektra kayu jati dapat dimodelkan dengan satu model
kalibrasi. Berdasarkan gambar tersebut dapat dilihat pula pengamatan yang diduga
sebagai pencilan, ditunjukkan dengan grafiknya yang terpisah dari yang lainnya,
dan ditandai dengan garis putus-putus, yaitu pengamatan 17 dan 24 (KL2 dan I4).

Gambar 2 Sprektrum Absorbsi NIR 45 kayu Jati di Jawa (Kholik 2008)
Identifikasi pencilan berdasarkan diagram kotak-garis pada data pengamatan
Y menunjukkan tidak adanya pencilan, ini terlihat pada Gambar 3, sedangkan
identifikasi pencilan berdasarkan data pengamatan X terdapat 2 buah pengamatan
yang merupakan pencilan yaitu pengamatan Kl2 dan I4 (Gambar 4).

Konsentrasi kimia kayu jati (%)

80

70

60

50

40

30

20
Selulosa

Holoselulosa

Lignin

Gambar 3 Diagram kotak-garis data pengamatan Y

10

0,34

A bsorban kayu jati

0,32

I4
Kl2

0,30

0,28

0,26

0,24

0,22

11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
x5 x5 x5 x 5 x5 x5 x5 x5 x5 x5 x5 x5 x5 x5 x5 x 5 x5 x5 x5 x 5

Gambar 4 Diagram kotak-garis sebagian data pengamatan X
Adanya pencilan dapat mengakibatkan besarnya nilai ragam bagi model,
sehingga dugaan koefisien regresi menjadi tidak tepat. Menghilangkan
pengamatan yang mengandung pencilan bukan merupakan penyelesaian yang
tepat, sehingga untuk mengatasi pencilan digunakan RKU kekar dan RKTP kekar
yaitu RPCR-M dan RSIMPLS-M yang keduanya menggunakan penduga-M
dengan fungsi pembobot Huber.
Berdasarkan data kandungan kimia kayu, dihitung nilai korelasi antar
peubah respon. Jika antar peubah respon saling berkorelasi maka model yang
digunakan adalah model multirespon. Peubah respon yang memiliki nilai korelasi
kecil terhadap peubah respon lainnya akan dipisahkan dari model. Nilai korelasi
Pearson antar peubah respon tertera pada Tabel 1.
Tabel 1 Nilai korelasi Pearson antar peubah respon
Korelasi
Selulosa
Holoselulosa
Hemiselulosa
Selulosa
1
0.816
-0.646
Holoselulosa
0.816
1
-0.084
Hemiselulosa
-0.646
-0.084
1
Lignin
-0.547
-0.550
0.216

Lignin
-0.547
-0.550
0.216
1

Hasil uji korelasi menyatakan bahwa selulosa, holoselulosa dan lignin saling
berkorelasi, namun hemiselulosa memiliki nilai korelasi yang kecil terhadap
holoselulosa dan lignin yaitu -0.084 dan 0.216. Oleh karena itu, hemiselulosa
dipisahkan dari analisis multirespon. Selanjutnya, untuk tahapan analisis yang
digunakan adalah selulosa ( 1 ), holoselulosa ( 2 ) dan lignin ( 3 ).

11
Penentuan Jumlah Komponen
Jumlah komponen k dengan metode RPCR-M dan RSIMPLS-M, ditentukan
menggunakan data keseluruhan yang diperoleh melalui nilai RMSECV.
Berdasarkan hasil perhitungan nilai RMSECV dengan menggunakan metode
RPCR diperoleh model kalibrasi 10 komponen dengan RMSECV minimum,
yaitu 1.3204 dan R2=0.7377. Penentuan komponen k dengan metode RPCR-M
dari nilai RMSECV dan R2 tampak pada Gambar 5 dan Gambar 6.

Gambar 5 Nilai RMSECV metode RPCR-M pada beberapa jumlah komponen

Gambar 6 Nilai R2 metode RPCR-M pada beberapa jumlah komponen
Penentuan jumlah komponen k berdasarkan analisis menggunakan
RSIMPLS-M terhadap keseluruhan data tampak pada Gambar 7 dan 8.
Berdasarkan perhitungan nilai RMSECV diperoleh model kalibrasi 8 komponen
dengan nilai RMSECV minimum, yaitu 1.3522 dan R2 tertinggi, yaitu 0.6866.
Selanjutnya, untuk analisis data jumlah komponen yang digunakan adalah
sebanyak k=10 untuk metode RPCR-M dan k=8 untuk metode RSIMPLS-M.

12

Gambar 7 Nilai RMSECV metode RSIMPLS-M pada beberapa jumlah
Komponen

Gambar 8 Nilai R2 metode RSIMPLS-M pada beberapa jumlah komponen

Identifikasi Pencilan
Pencilan diidentifikasi dengan menggunakan metode ROBPCA.
Pengamatan dikategorikan sebagai pencilan dilihat dari jarak skor dan jarak
ortogonal. Deteksi pengamatan pencilan berdasarkan plot ROBPCA antara jarak
skor dan jarak ortogonal dengan metode RPCR-M dan RSIMPLS-M ditunjukkan
pada Gambar 9 dan Gambar 10.

13

Gambar 9 Jarak skor dan jarak ortogonal metode RPCR-M

Gambar 10 Jarak skor dan jarak ortogonal metode RSIMPLS-M
Tabel 2 Nilai batas (cut off) jarak skor dan jarak ortogonal
Nilai Batas
Jarak
RPCR-M
RSIMPLS-M
Jarak skor (SD)
4.5258
4.6819
Jarak Ortogonal (OD)
0.0147
0.0239
Gambar 9 dan Gambar 10 tampak bahwa pengamatan yang diidentifikasi
sebagai pencilan yaitu pengamatan yang memiliki nilai jarak melebihi nilai batas
(cut off) yang ditentukan. Nilai batas untuk kedua metode ditunjukkan pada Tabel
2. Analisis menggunakan RPCR-M menunjukkan terdapat 14 buah pengamatan
yang dideteksi sebagai pencilan atau sekitar 31.11% dari jumlah seluruh data,
yaitu pengamatan Bo5, Cu4, Cu5, I2, I4, Kh1, Kh3, Kh4, Kh5, Kl2, Kl4, Kl5, N5,
dan Rb3 seperti terlihat pada Gambar 8. Pengamatan I4 diidentifikasi sebagai
pencilan dengan nilai rata-rata jarak skor dan jarak ortogonal yang sangat besar
yaitu 7.855 dan 0.026, yang kedua nilai jarak tersebut melebihi nilai batas yang
ditentukan yaitu 4.5258 untuk jarak skor dan 0.0147 untuk jarak ortogonal. Nilai

14
jarak skor dan jarak ortogonal untuk masing-masing pengamatan dengan metode
RPCR-M dapat dilihat pada Lampiran 2.
Jumlah pengamatan pencilan berdasarkan metode RSIMPLS-M lebih
banyak daripada jumlah pencilan yang diidentifikasi dengan metode RPCR-M,
yaitu sekitar 33.3%. Gambar 9 menunjukkan bahwa analisis menggunakan metode
RSIMPLS-M terdapat 15 buah pengamatan yang dideteksi sebagai pencilan, yaitu
pengamatan B4, Bo5, Cu4, Cu5, Cs3, I4, Kh1, Kh2, Kh3, Kh4, Kh5, N1, N5, Rb1
dan Rb3. Pengamatan Kh5 memiliki nilai jarak skor dan jarak ortogonal yang
sangat besar yaitu rata-rata sekitar 6.939 dan 0.0646 seperti dapat dilihat pada
Lampiran 3. Pengamatan bersama yang diidentifikasi sebagai pencilan
berdasarkan kedua metode diantaranya pengamatan Bo5, Cu4, Cu5, I4, Kh1, Kh3,
Kh4, Kh5, N5, dan Rb3 atau sekitar 52.63% menghasilkan pencilan yang sama
oleh kedua metode. Pengamatan I4, dan KL2 yang diidentifikasi pencilan oleh
diagram kotak-garus juga diidentifikasi pencilan oleh metode RPCR-M, namun
dengan metode RSIMPLS-M hanya I4 yang diidentifikasi sebagai pencilan. Hal
ini dikarenakan meskipun keduanya merupakan metode kekar namun tingkat
sensitifitas metode RSIMPLS-M lebih kecil dibandingkan metode RPCR-M.
Berdasarkan plot ROBPCA antara jarak skor dan jarak ortogonal terbagi
menjadi 3 kategori pencilan, yaitu kategori pengamatan berpengaruh PCA baik,
berpengaruh PCA buruk dan pencilan ortogonal. Pengamatan pencilan
dikategorikan berpengaruh PCA baik terhadap keragaman data, jika pengamatan
tersebut terletak diluar nilai batas jarak skor namun berada didalam nilai batas
jarak ortogonal. Pengamatan pencilan dikategorikan pencilan ortogonal, yaitu jika
pengamatan berada diluar nilai batas jarak ortogonal namun didalam nilai batas
jarak skor. Sedangkan, pengamatan pencilan dikategorikan berpengaruh PCA
buruk terhadap keragaman data, jika pengamatan tersebut berada diluar nilai batas
jarak skor dan jarak ortogonal. Ketiga pembagian pencilan tersebut untuk metode
RSIMPLS-M dan RPCR-M dapat dilihat pada Tabel 3.
Tabel 3 Kategori pengamatan pencilan berdasarkan plot ROBPCA
Kategori Pengamatan
Metode
RPCR-M
RSIMPLS-M
Berpengaruh PCA baik
Cu4, Cu5, Kl5, Kh3, Cu4, Cu5, Kh1, Kh2,
Kh4, Kh5, Bo5, Rb3
Kh3, Kh4, B4, Rb3
Berpengaruh PCA buruk
I4, N5
Kh5, I4
Pencilan ortogonal
I2, Kh1, Kl2, Kl4
Cs3, Bo5, Rb1, N1, N5
Tabel 3 terlihat bahwa ketegori pengamatan berpengaruh PCA buruk
dengan menggunakan metode RPCR-M sama banyak dengan metode RSIMPLSM. Selanjutnya, pemberian nilai bobot (w) untuk setiap pengamatan dengan
metode RPCR-M dan RSIMPLS-M dapat dilihat pada Lampiran 2 dan Lampiran
3. Setiap pengamatan akan diberikan nilai bobot mendekati nol (wi ≈ 0) jika jarak
skor dan jarak ortogonal setiap pengamatan melebihi nilai batas (cut off) yang
ditentukan, dan nilai bobot sama dengan satu (wi =1) untuk lainnya.
Setelah dilakukan pengidentifikasian pencilan berdasarkan metode RPCRM dan RSIMPLS-M dilakukan juga pendugaan model. Nilai koefisien determinasi
(R2) dan nilai RMSE pada ketiga metode menggunakan data keseluruhan pada
masing-masing respon tertera pada Tabel 4.

15
Tabel 4 Nilai RMSE dan R2 dari data keseluruhan
RMSE

Metode
RPCR-M
RSIMPLS-M
Keterangan:

1 =Selulosa,

1

2

3

1,9737
1,9483

1,1688
1,2097

1,1504
1,1992

2 =Holoselulosa,

R2
0,8751
0,8409

3 =Lignin.

Nilai koefisien determinasi (R2) pada metode RPCR-M lebih baik daripada
metode RSIMPLS-M, terlihat dari nilai R2 pada metode RPCR-M lebih besar
daripada nilai R2 pada metode RSIMPLS-M. Berdasarkan nilai RMSEP tampak
bahwa secara umum dari ketiga respon, nilai RMSE dengan metode RPCR-M
lebih kecil dibandingkan dengan metode RSIMPLS-M. Selain itu, apabila dilihat
dari plot antara nilai dugaan dengan nilai aktual dari masing-masing respon kedua
metode pada Lampiran 4 dan Lampiran 5, tampak bahwa dari ketiga respon
metode RPCR-M menghasilkan R2 yang lebih tinggi dibandingkan dengan
metode RSIMPLS-M. Selanjutnya untuk menilai baik atau tidaknya hasil dugaan
akan dilakukan validasi model.

Validasi Data
Banyaknya pengamatan (n=134) pada tahapan validasi data, dibagi dalam
dua kelompok dengan perbandingan 2/3 untuk data model dan 1/3 untuk data
validasi. Kelompok pertama diperoleh sebanyak n1= 90 untuk pembentukan
model dan kelompok kedua sebanyak n2=44 untuk validasi model. Pemilihan
kelompok yang berbeda dilakukan sebanyak 10 kali pengambilan tanpa
pemulihan, sehingga diperoleh 10 kombinasi contoh yang berbeda. Hal ini
dilakukan agar pencilan yang terambil bersifat acak. Nilai rata-rata RMSE dan R2
dari metode RPCR-M dan RSIMPLS-M untuk membentuk model kalibrasi serta
rata-rata RMSEP dan R2 dari hasil validasi model tertera pada Tabel 5. Sedangkan
nilai rata-rata korelasi antara dan untuk i=1,2,3 tertera pada Tabel 6.
Tabel 5 Rata-rata RMSE, RMSEP, R2 model, dan R2 validasi dari 10 kombinasi
pengambilan contoh
Kalibrasi (n1=90)
RMSE

Metode
1

2

R

Validasi (n2=45)
RMSEP

2

3

1

RPCR-M
1.9168 1.1441 1.1217 0.8854 2.1780
RSIMPLS-M 1.9488 1.1913 1.1865 0.8557 2.2546
Keterangan: 1 =Selulosa, 2 =Holoselulosa, 3 =Lignin.

2

1.2889
1.3720

R2

3

1.2810
1.3254

0.7593
0.6975

Tabel 6 Rata-rata korelasi dari 10 kombinasi pengambilan contoh
Rata-rata Korelasi
Metode
1 vs 1
2 vs 2
3 vs 3
RPCR-M
0.6987
0.824
0.6365
RSIMPLS-M
0.6725
0.7984
0.5959
Keterangan:

1 =Selulosa,

2 =Holoselulosa,

3 =Lignin.

16
Tabel 5 menunjukkan nilai rata-rata RMSE dan RMSEP untuk kandungan
selulosa ( 1 ), holoselulosa ( 2 ), dan lignin ( 3 ) dengan metode RPCR-M lebih
kecil dibandingkan metode RSIMPLS-M. Berdasarkan nilai koefisien determinasi
(R2) secara umum tampak bahwa dengan metode RPCR-M diperoleh nilai ratarata R2 model dan R2 validasi tertinggi, yaitu 0.8854 dan 0.7593..
Dilihat dari korelasi antara y aktual dengan y duga yang tertera pada Tabel
6, diperoleh nilai rata-rata korelasi tertinggi untuk masing-masing respon adalah
dengan menggunakan metode RPCR-M. Hal ini menunjukkan bahwa dalam kasus
data ini metode RPCR-M lebih baik dibandingkan metode RSIMPLS-M.

Simulasi
Khusus kasus ini pengamatan yang dideteksi sebagai pencilan cenderung
berada tidak terlalu jauh dari pusat data. Hal ini ditunjukkan pada Lampiran 2 dan
Lampiran 3, tampak bahwa selang nilai bobot yang diberikan pada setiap
pengamatan berkisar antara 0.3666 dan 1, nilai selang tersebut masih jauh
mendekati 0. Oleh karena itu, dilakukan simulasi menggunakan data kayu jati
dengan pencilan yang ekstrim yaitu jarak pencilan yang jauh dari pusat data.
Kedua metode kekar tersebut dibandingkan dengan jumlah pencilan yang beragam
yang dilakukan secara acak dengan 10 kali ulangan.
Tabel 7
Jumlah
Pencilan

Perbandingan Nilai RMSE dan RMSEP metode RPCR-M dan
RSIMPLS-M dengan jumlah pencilan yang beragam.
RMSE

Metode

RPCR-M
1
RSIMPLS-M
RPCR-M
2
RSIMPLS-M
RPCR-M
3
RSIMPLS-M
RPCR-M
5
RSIMPLS-M
RPCR-M
9
RSIMPLS-M
Keterangan: 1 =Selulosa,

1

2

RMSEP
3

1.9722 1.2572
1.4938
1.9902 1.3362
1.5967
2.0480 1.3756
1.1906
1.9553 1.2377
1.2130
2.1880 1.4904
1.2201
1.9574 1.2293
1.1541
2.3464 1.6636
1.2856
1.9857 1.2819
1.1779
2.5917 1.8228
1.3549
2.0578 1.4025
1.2256
2 =Holoselulosa, 3 =Lignin.

1

2.2653
2.2727
2.2752
2.2192
2.4140
2.2232
2.5263
2.2113
2.7608
2.2695

2

1.5025
1.5363
1.6877
1.5597
1.6711
1.4265
1.8553
1.4594
1.9593
1.6125

3

1.4350
1.4965
1.4798
1.4800
1.3750
1.3391
1.4265
1.3349
1.4626
1.3854

Tabel 7 menampilkan rata-rata nilai RMSE dan RMSEP metode RPCR-M
dan RSIMPLS-M mengenai keberadaan pencilan dengan jumlah pencilan yang
beragam. Berdasarkan tabel tersebut dapat disimpulkan bahwa semakin banyak
pencilan yang terdapat pada data maka nilai RMSE dan RMSEP dari kedua
metode cenderung semakin besar. Perbandingan kedua metode dengan jumlah
pencilan yang berbeda menunjukkan bahwa untuk jumlah pencilan ekstrim yang
sedikit (