Kovariat Dari Fungsional Prinsipal Komponen Analisis Untuk Data Longitudinal
KOVARIAT DARI FUNGSIONAL PRINSIPAL
KOMPONEN ANALISIS UNTUK DATA
LONGITUDINAL
TESIS
Oleh
AGUSMAN
097021053/MT
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SUMATERA UTARA
MEDAN
2011
Universitas Sumatera Utara
KOVARIAT DARI FUNGSIONAL PRINSIPAL
KOMPONEN ANALISIS UNTUK DATA
LONGITUDINAL
TESIS
Diajukan Sebagai Salah Satu Syarat
Untuk Memperoleh Gelar Magister Sains dalam
Program Studi Magister Matematika pada
Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Sumatera Utara
Oleh
AGUSMAN
097021053/MT
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SUMATERA UTARA
MEDAN
2011
Universitas Sumatera Utara
Judul Tesis
: KOVARIAT DARI FUNGSIONAL PRINSIPAL
KOMPONEN ANALISIS UNTUK
DATA LONGITUDINAL
Nama Mahasiswa : Agusman
Nomor Pokok
: 097021053
Program Studi
: Matematika
Menyetujui,
Komisi Pembimbing
(Dr. Sutarman, M.Sc)
Ketua
(Prof. Dr. Herman Mawengkang)
Anggota
Ketua Program Studi,
Dekan
(Prof. Dr. Herman Mawengkang)
(Dr. Sutarman, M.Sc)
Tanggal lulus: 15 Juni 2011
Universitas Sumatera Utara
Telah diuji pada
Tanggal 15 Juni 2011
PANITIA PENGUJI TESIS
Ketua
:
Dr. Sutarman, M.Sc
Anggota
:
1. Prof. Dr. Herman Mawengkang
2. Prof. Dr. Tulus, M.Si
3. Drs. Open Darnius, M.Sc
Universitas Sumatera Utara
ABSTRAK
Analisa komponen utama multivariat klasik diperluas untuk data fungsional dan
disebut dengan istilah fungsional prinsipal komponen analisis (FPCA). Sebagian
besar pendekatan FPCA yang ada tidak mengakomodir informasi kovariat, dan
tujuan dari tulisan ini adalah untuk mengembangkan dua metode yang mengakomodir informasi tersebut. Dengan pendekatan ini, baik fungsi mean maupun fungsi
kovariansi tergantung pada kovariat Z dan skala waktu t sementara dengan pendekatan kedua hanya fungsi mean yang tergantung pada kovariat Z. Kedua pendekatan baru mengakomodir kesalahan pengukuran tambahan dan data fungsional
sampelnya diambil pada kisi waktu yang teratur dan juga data longitudinal yang
jarang diambil sampelnya pada kisi waktu yang tidak teratur. Pendekatan pertama untuk menyesuaikan sepenuhnya baik fungsi mean maupun fungsi kovariansi
beradaptasi lebih besar terhadap data tetapi lebih intensif perhitungan daripada
pendekatan untuk menyesuaikan efek kovariat hanya pada fungsi mean. Di kembangkan teori asymptot umum untuk kedua pendekatan dan dibandingkan kinerja
keduanya secara numerik melalui studi simulasi dan suatu kumpulan data.
Kata kunci : Estimasi, Seleksi Bandwidth dan jumlah eigen fungsi, Hasil-hasil
asimtot
i
Universitas Sumatera Utara
ABSTRACT
Classical multivariate principal component analysis has been extended to functional
data and termed functional principal componentanalysis (FPCA). Most existing
FPCA approaches do not accommodate covariate information, and it is the goal of
this paper to develop two methods that do. In the ?rst approach, both the mean and
covariance functions depend on the covariate Z and time scale t while in the second
approach only the mean function depends on the covariate Z .Both new approaches
accommodate additional measurement errors and functional data sampled at regular
time grids as well as sparse longitudinal data sampled at irregular time grids. The
first approach to fully adjust both the mean and covariance functions adapts more
to the data but is computationally more intensive than the approach to adjust the
covariate effects on the mean function only. We develop general asymptotic theory
for both approaches and compare their performance numerically through simulation
studies and a data set.
Keywords : Estimation, Bandwidth selection and number of eigenfunctions,
Asymtotic results
ii
Universitas Sumatera Utara
KATA PENGANTAR
Puji syukur penulis ucapkan kepada Sang Maha Pencipta,Allah SWT yang
telah memberikan begitu banyak nikmat sehingga tesis ini dapat terselesaikan dengan baik.
Dalam menyelesaikan pendidikan di Sekolah Pasca Sarjana USU ini penulis
banyak mendapat dukungan dari berbagai pihak, maka pada kesempatan ini penulis
mengucapakan terimakasih dan penghargaan yang sebesar-besarnya kepada:
Dr. Sutarman, MSc, selaku Dekan F.MIPA dan selaku Dosen Pembimbing I
yang telah memberikan bimbingan dan petunjuk sehingga tesis ini dapat terselesaikan dengan baik.
Prof. Dr. Herman Mawengkang, selaku Ketua Program Studi Magister Matematika FMIPA USU dan selaku Dosen Pembimbing II yang banyak memberikan
banyak bimbingan dan motivasi kepada penulis sehingga pendidikan ini dapat terselesaikan dengan baik.
Seluruh Dosen pada Program Studi Magister Matematika FMIPA USU, yang
telah memberikan ilmu pengetahuan kepada penulis selama perkuliahan hingga
selesai.
Drs. Lukman Hakim, MPd, selaku Kepala Sekolah SMA Swasta Al-Ulum
Medan yang telah memberikan kesempatan kepada penulis untuk mengikuti Program Studi Magister Matematika di Program Studi Magister Matematika FMIPA
USU ini.
Dr. Hasratudin, MPd, selaku Bapak angkat saya dan selaku Dosen MIPA
Unimed Medan yang telah memberikan dukungan dan motivasi kepada penulis
untuk mengikuti Program Studi Magister Matematika di FMIPA USU ini.
Secara khusus penulis menyampaikan terima kasih yang tak terhingga kepada
Ayahanda tercinta yaitu Jakiman dan Ibunda tercinta Sanis yang doa-doanya selalu menyertai penulis. Kepada Papa Dr. Irwan Fahri Rangkuti,SpKK yang selalu
menjadi motivator penulis dan selalu membantu moril dan materil yang tak terhingga selama perkuliahan dan sampai tesis ini dapat terselesaikan.
iii
Universitas Sumatera Utara
Kepada semua pihak yang telah turut membantu baik langsung maupun tidak
langsung yang penulis dapatkan selama ini.
Semoga tesis ini bermanfaat bagi pembaca dan pihak-pihak yang membutuhkannya.
Medan, 15 Juni 2011
Penulis,
Agusman
iv
Universitas Sumatera Utara
RIWAYAT HIDUP
Agusman dilahirkan di Tanjung Morawa Kabupaten Deli Serdang pada tanggal 17 Oktober 1982 dan merupakan anak ke sembilan dari sembilan bersaudara
dari ayah Jakiman dan Ibu Sanis. Menamatkan Sekolah Dasar di SD Negeri No.
106179 Desa Limau Manis Kecamatan Tanjung Morawa Kabupaten Deli Serdang
pada tahun 1994, Sekolah Lanjutan Tingkat Pertama pada SLTP Negeri 2 Tanjung Morawa Deli Serdang pada tahun 1997, Sekolah menengah Umum pada SMU
Swasta Dwitunggal Tanjung Morawa Deli Serdang pada tahun 2000. Pada tahun
2000 memasuki Perguruan Tinggi pada Universitas Muslim Nusantara ( UMN )
Al Washliyah Medan dan memperoleh gelar Sarjana Pendidikan pada tahun 2006.
Pada tahun 2009 mengikuti Program Studi Magister Matematika di Sekolah Pascasarjana Universitas Sumatera Utara.
v
Universitas Sumatera Utara
DAFTAR ISI
Halaman
ABSTRAK
i
ABSTRACT
ii
KATA PENGANTAR
iii
RIWAYAT HIDUP
v
DAFTAR ISI
vi
DAFTAR TABEL
viii
DAFTAR GAMBAR
ix
BAB 1 PENDAHULUAN
1
1.1 Latar Belakang
1
1.2 Rumusan Masalah
2
1.3 Tujuan Penelitian
2
1.4 Manfaat Penelitian
2
1.5 Metodologi
3
BAB 2 BEBERAPA KAJIAN TENTANG FUNGSIONAL PRINSIPAL KOMPONEN ANALISIS
4
BAB 3 PENGERTIAN TEORITIS FPCA
7
3.1 Estimasi
9
3.1.1 fFPCA
10
3.1.2 mFPCA
13
3.1.3 Seleksi Bandwidth dan Jumlah Eigenfungsi
14
vi
Universitas Sumatera Utara
3.2 Hasil-hasil Asymtot untuk Fungsi Mean dan Fungsi Kovarian
15
BAB 4 PENERAPAN KOVARIAT PADA FUNGSIONAL PRINSIPAL KOMPONEN ANALISIS
19
4.1 Aplikasi Data
23
BAB 5 KESIMPULAN DAN SARAN
27
5.1 Kesimpulan
27
5.2 Saran
27
DAFTAR PUSTAKA
28
vii
Universitas Sumatera Utara
DAFTAR TABEL
Nomor
Judul
Halaman
4.1
Hasil Simulasi fFPCA
21
4.2
Rata-rata MISE dan MSFE dalam 100simulasi berjalan untuk tiga
22
4.3
MSFEs dari mFPCA, fFPCA, uFPCA dan rFPCA berdasarkan data
24
viii
Universitas Sumatera Utara
DAFTAR GAMBAR
Nomor
Judul
Halaman
4.1
Dua eigenfunctions kovariansi dan estimasi dengan. mFPCA
21
4.2
Dari dua eigenfunctions pertama diperkirakan melalui fFPCA
pada lima nilai yang berbeda dari covarite tersebut
22
4.3
Estimasi rata-rata permukaan untuk data jarang dan lengkap
25
4.4
Estimasi kovarians permukaan mFPCA untuk jarang dan
26
ix
Universitas Sumatera Utara
ABSTRAK
Analisa komponen utama multivariat klasik diperluas untuk data fungsional dan
disebut dengan istilah fungsional prinsipal komponen analisis (FPCA). Sebagian
besar pendekatan FPCA yang ada tidak mengakomodir informasi kovariat, dan
tujuan dari tulisan ini adalah untuk mengembangkan dua metode yang mengakomodir informasi tersebut. Dengan pendekatan ini, baik fungsi mean maupun fungsi
kovariansi tergantung pada kovariat Z dan skala waktu t sementara dengan pendekatan kedua hanya fungsi mean yang tergantung pada kovariat Z. Kedua pendekatan baru mengakomodir kesalahan pengukuran tambahan dan data fungsional
sampelnya diambil pada kisi waktu yang teratur dan juga data longitudinal yang
jarang diambil sampelnya pada kisi waktu yang tidak teratur. Pendekatan pertama untuk menyesuaikan sepenuhnya baik fungsi mean maupun fungsi kovariansi
beradaptasi lebih besar terhadap data tetapi lebih intensif perhitungan daripada
pendekatan untuk menyesuaikan efek kovariat hanya pada fungsi mean. Di kembangkan teori asymptot umum untuk kedua pendekatan dan dibandingkan kinerja
keduanya secara numerik melalui studi simulasi dan suatu kumpulan data.
Kata kunci : Estimasi, Seleksi Bandwidth dan jumlah eigen fungsi, Hasil-hasil
asimtot
i
Universitas Sumatera Utara
ABSTRACT
Classical multivariate principal component analysis has been extended to functional
data and termed functional principal componentanalysis (FPCA). Most existing
FPCA approaches do not accommodate covariate information, and it is the goal of
this paper to develop two methods that do. In the ?rst approach, both the mean and
covariance functions depend on the covariate Z and time scale t while in the second
approach only the mean function depends on the covariate Z .Both new approaches
accommodate additional measurement errors and functional data sampled at regular
time grids as well as sparse longitudinal data sampled at irregular time grids. The
first approach to fully adjust both the mean and covariance functions adapts more
to the data but is computationally more intensive than the approach to adjust the
covariate effects on the mean function only. We develop general asymptotic theory
for both approaches and compare their performance numerically through simulation
studies and a data set.
Keywords : Estimation, Bandwidth selection and number of eigenfunctions,
Asymtotic results
ii
Universitas Sumatera Utara
BAB 1
PENDAHULUAN
1.1 Latar Belakang
Dalam beberapa penelitian tentang Fungsional Prinsipal Component Analisis
(FPCA) tidak banyak yang melibatkan informasi kovariat. Kovariat yang digunakan dalam FPCA dengan asumsi bahwa fungsi keseluruhan dari fungsi acak bisa
diamati tanpa kesalahan, kovariat digunakan untuk memprediksi status dari satu
atau lebih variabel terikatnya.
Ada dua cara untuk memperluas pendekatan FPCA untuk mengakomodir
informasi kovariat. Kedua pendekatan terdiri dari dua bagian: bagian sistematik
yang bersesuaian dengan fungsi mean (mFPCA) dan bagian stokastik yang terdiri dari komponen-komponen acak yang mencerminkan struktur kovariansi data
longitudinal (fFPCA).
Fungsional prinsipal komponen analisis (FPCA) merupakan alat pengurangan
dimensi standar untuk data multivariat dan diperluas untuk data fungsional yang
diberikan dalam bentuk kurva acak. Karena data fungsional pada hakekatnya
berdimensi tak hingga, pengurangan dimensi penting untuk menganalisa data
demikian. Selain Ferraty dan Vieu (2006) dan Wu dan Zhang (2006), rangkaian tulisan Ramsay dan Silverman (2002, 2005) memberikan kajian khusus tentang
metodologi dan aplikasi ”Analisa Data Fungsional” (FDA).
Kneip dan Utikal (2001) menggunakan metode FDA untuk menilai variabilitas kepadatan bagi kumpulan-kumpulan data dari populasi yang berbeda-beda.
Apabila data fungsional diamati pada beberapa titik waktu, misalnya hanya beberapa titik waktu per subjek, maka data demikian ini disebut data longitudinal
kartena timbul dari kajian longitudinal. Rice (2004) dan Hall et al. (2006) membahas persamaan dan perbedaan intrinsik antara FDA dan analisa data longitudinal.
Data longitudinal seringkali jarang (sparse) dengan sedikit pengukuran persubjek dan gangguan dengan kesalahan pengukuran (atau fluktuasi acak). Akan
tetapi, kesulitan ini bisa diatasi dalam sebagian besar situasi, karenanya tetap
1
Universitas Sumatera Utara
2
dimungkinkan melaksanakan FPCA. [lihat; Shi et al (1996), Yao et al (2005), Paul
dan Peng (2009), serta Peng dan Paul (2009)].
Mengingat pentingnya metode ini maka penulis ingin meneliti dan menjabarkannya pada ” Kovariat Dari Fungsional Prinsipal Komponen Analisis Untuk
Data Longitudinal ”.
1.2 Rumusan Masalah
Asumsi kunci yang diajukan para peneliti dalam menyelesaikan FPCA adalah
bahwa trajektori data fungsional lengkap teramati atau tercatat padat terhadap
waktu, Asumsi demikian ini jarang terpenuhi dalam kajian data longitudinal oleh
karena itu masalahnya adalah bagaimana mengikutsertakan informasi kovariat
dalam FPCA untuk data longitudinal jarang.
1.3 Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk Memadukan informasi kovariat yang
berlaku pada data fungsional dan data longitudinal dengan mengembangkan dua
pendekatan yang mengakomodir informasi tersebut yaitu pendekatan fFPCA dan
mFPCA.
1.4 Manfaat Penelitian
Manfaat dalam Penelitian ini adalah
1. Sebagai bahan informasi bagi peneliti dalam menyesuaikan efek kovariat untuk data longitudinal.
2. Untuk menambah wawasan dan literatur dalam berbagai bidang, dalam bidang matematika secara umum, bidang Tekhnik, dan kesehatan.
3. Sebagai bahan pertimbangan dan masukan bagi peneliti yang berkaitan.
Universitas Sumatera Utara
3
1.5 Metodologi
Adapun langkah-langkah yang dilakukan pada penelitian ini adalah:
1. Mengestimasi fungsi mean dan fungsi kovarian.
2. Memilih jumlah eigen fungsi.
3. Menentukan asymtot untuk fungsi mean dan fungsi kovarian.
4. Menyesuaikan efek kovariat dengan pendekatan FPCA.
Universitas Sumatera Utara
BAB 2
BEBERAPA KAJIAN TENTANG FUNGSIONAL PRINSIPAL
KOMPONEN ANALISIS
Banyak penelitian ilmiah menghasilkan data longitudinal dengan pengukuran
ulang dijumlah titik waktu, dan data peristiwa yang mempertimbangkan perubahan dari waktu ke peristiwa, yaitu, ” kegagalan ” atau ” bertahan hidup ”, serta
informasi kovariat tambahan.Sebuah contoh adalah bahwa uji klinis HIV, di mana
biomarker seperti jumlah limfosit CD4 diukur sesekali waktu dan untuk pengembangan menjadi AIDS atau kematian juga dicatat, dengan kemungkinan awal DO
atau kegagalan. Hal ini penting dan diperlukan untuk menyelidiki pola perubahan
CD4, dan untuk menandai hubungan antara CD4 dan waktu untuk pengembangan
atau kematian (Pawitan dan Self (1993), Tsiatis et al. (1995), Wulfsohn dan Tsiatis
(1997).
Dalam prakteknya proses longitudinal yang tersembunyi sering tidak teramati
karena kesalahan pengukuran dan tidak tersedia pada saat diperlukan, terutama
bila terjadi kegagalan. Diketahui bahwa sebagian kemungkinan pendekatan konvensional yang digunakan untuk model Cox tidak dapat menghindari kesimpulan
yang memihak dari proses tersembunyi longitudinal, seperti nilai terakhir dilakukan
ke depan metode (Prentice (1982)), teknik pemulusan (Raboud et al. (1993)),
atau pendekatan ” dua tahap ” (Bycott dan Taylor (1998), Tsiatis et al. (1995)).
Ini disebut perhitungan longitudinal dan proses secara bersamaan, yaitu, ” yang
disebut ” pemodelan bersama. Pendekatan standar pemodelan bersama adalah
karakterisasi proses longitudinal dengan model efek parametric acak yang berfokus
pada kelancaran perkembangan yang ditentukan oleh sejumlah kecil efek acak dan
yang telah digunakan untuk menggambarkan lintasan CD4 (Tsiatis et al. (1995),
Wulfsohn dan Tsiatis (1997), Bycott dan Taylor (1998), Dafni dan Tsiatis (1998))
Selain perbaikan penyimpangan, pemodelan bersama juga berpotensi meningkatkan efisiensi estimasi parameter karena inferensi simultan pada kedua model longitudinal dan model survival, lihat Faucett dan Thomas (1996); Slasor dan Laird
(2003), Hsieh et al. (2006) untuk diskusi lebih lanjut tentang masalah ini.
4
Universitas Sumatera Utara
5
Meskipun model parametrik yang disebutkan di atas menemukan fitur-fitur
dalam data yang sudah tergabung secara apriori dalam model, model ini mungkin
tidak cukup jika program waktu tidak didefinisikan dengan baik dan tidak masuk
ke dalam bagian yang terbentuk sebelumnya dari fungsi. Dalam situasi analisis
melalui metode nonparametric. Telah ada peningkatan kepentingan analisis nonparametrik data yang berupa sampel untuk kurva atau lintasan, yaitu, ” analisis
data fungsional”, lihat Ramsay dan Silverman (1997) untuk ringkasan. Fungsional
Analisis komponen utama (FPCA) mencoba untuk menemukan modus dominan
variasi sekitar fungsi secara keseluruhan, dan dengan demikian merupakan kunci
dalam teknik analisis data fungsional (Berkey dan Kent (1983); Besse dan Ramsay
(1986), Castro et al. (1986), Rice dan Silverman (1991); Silverman (1996), James
et al. (2000), Yao et al. (2003, 2005); Yao dan Lee (2006).
Sebaliknya, model berkaitan erat yang diajukan oleh Rice dan Wu (2000)
tidak memperhatikan dimensi pengurangan dan mungkin tidak berlaku jika data
jarang, lihat James et al. (2000) untuk perbandingan dari dua pendekatan. Hal
ini membuat perbedaan antara yang diusulkan model dan yang dalam Brown et
al. (2005 ) eksplisit. Keuntungan lain dari model gabungan dengan FPCs adalah
efisiensi perhitungan dicapai dengan pengurangan dimensi menggunakan FPCs dengan matriks kovarians diagonal, sementara model bersama dalam Brown et al.
(2005) dengan B-splines biasanya berisi koefisien yang lebih acak dengan kovarian matriks terstruktur. Interpretasi yang tepat dari eigenfunctions orthogonal
dan nilai FPC sering menyediakan lebih wawasan dari model B-spline. Wang dan
Taylor (2001) mendirikan sebuah proses stokastik Integrated Ornstein Uhlenbeck
(IOU) untuk model yang tidak ditentukan arah lintasan longitudinal dalam konteks model bersama, dalam semangat yang sama dengan lintasan splines. Secara khusus, proses IOU menyajikan struktur kovariansi gabungan dengan model
efek acak dan Brown motion sebagai kasus yang khusus. Keterkaitan keberhasilan
lainnya yang dimasukkan angka nol berarti proses untuk model fluktuasi individu
meliputi Henderson et al. (2000), Xu dan Zeger (2001)
Chiou et al. (2003) mengkaji suatu pendekatan umum yang memadukan
efek kovariat vektor melalui model semiparametrik. Pendekatan itu terdiri dari
dua tahap. Dalam tahap pertama, FPCA dilaksanakan atas semua subjek de-
Universitas Sumatera Utara
6
ngan mengabaikan informasi kovariat. Ini menghasilkan ekspansi Karhunen-Loeve
[lihat (3.1)] untuk setiap subjek X(t) yang mana ekspektasi bersyarat dari X(t)
yang memberikan kovariat Z diperoleh dan selanjutnya ditaksir melalui pendekatan
semiparametrik. Suatu pendekatan yang berbeda ada diajukan Cardot (2006),
yang mengkaji FPCA bersyarat melalui estimator kernal nonparametrik atas fungsi
mean bersyarat dan fungsi variansi bersyarat.
Asumsi utama untuk kedua pendekatan adalah bahwa trayektori data fungsional diamati secara total atau dicatat secara padat seiring berjalannya waktu.
Kedua asumsi jarang dipenuhi dalam studi medis atau sosial longitudinal. Pada
prinsipnya, pendekatan dalam Chiou et al. (2003) tidak cocok untuk perluasan
pada data longitudinal yang tidak padat karena komponen utama bersyarat tidak
bisa ditaksir atau diaproksimasi dengan konsisten untuk data longitudinal yang
tidak padat. Diajukan suatu pendekatan gabungan untuk memodelkan fungsi mean
dan dua pendekatan yang berbeda untuk memodelkan fungsi kovariansi.
Yau dan Muller (2010) memperluas model regresi fungsi linier untuk data
longitudinal terhadap kasus dimana ketergantungan skalar respon pada prediktor
fungsional yang berbentuk polinomial.
Universitas Sumatera Utara
BAB 3
PENGERTIAN TEORITIS FPCA
Prosedur FPCA pada dasarnya adalah bertujuan untuk menyederhanakan
variable yang diamati dengan cara menyusutkan ( mereduksi ) dimensinya. Hal
ini dilakukan dengan cara menghilangkan korelasi diantara variable bebas melalui
transformasi variable bebas asal ke variable baru yang tidak berkorelasi sama sekali
atau biasa disebut dengan principal component analysis.
Ada dua cara untuk memperluas pendekatan FPCA untuk mengakomodir
informasi kovariat. Kedua pendekatan terdiri dari dua bagian : bagian sistematik yang bersesuaian dengan fungsi mean dan bagian stokastik yang terdiri dari
komponen-komponen acak yang mencerminkan struktur kovariansi data lingitudinal. Pada kedua pendekatan tidak mengasumsikan bahwa tidak diketahui struktur µ(t,z ) selain bahwa µ(t,z ) adalah fungsi mulus, karenanya perlu menaksirnya
secara nonparametrik. Perbedaan antara kedua pendekatan adalah dalam penanganan struktur kovariansi. Secara konseptual, kovariat Z bisa berupa suatu vektor
yang mempunyai distribusi kontinu, tetapi karena aturan dimensionalitas hanya Z
berdimensi-rendah yang bisa digunakan. Akan diperlukan beberapa pendekatan
penurunan dimensi untuk Z berdimensi-tinggi dan sudah di luar ruang lingkup
tulisan ini.
Dalam pendekatan pertama, diasumsikan bahwa eigenfungsi dari Γ(t, s, z)
bervariasi sesuai dengan z sehingga terdapat ekspansi ortogonal Γ (dalam artian
L2 ) dalam bentuk eigenfungsi φk (t, z) dan eigenvalue tak naik λk (z) : Γ(t, s, z) =k
λk (z)φk (t, z)φk
(s, z). Dengan demikian, trayektori acak X (t,z ) dapat dituliskan
sebagai
X(t,z) = µ (t, z) +
X
k=1
Ak (z) ∅k(t, z)
(3.1)
7
Universitas Sumatera Utara
8
di mana Ak (z) adalah variabel-variabel acak tidak berkorelasi dengan mean 0
dan variansi λk (z).Selain itu, akan dimodelkan permukaan kovariansi secara nonparametrik, dengan mengasumsikan bahwa permukaan kovariansi tersebut adalah
fungsi mulus dari t, s dan z. Karena fungsi mean maupun fungsi kovariansi disesuaikan oleh kovariat Z, ini disebut fully adjusted functional principal component
analysis dan disingkat fFPCA.
Pendekatan untuk menyesuaikan efek kovariat ini ekuivalen secara konseptual
dengan pendekatan FPCA bersyarat dalam Cardot (2006) tetapi berbeda secara
berarti dalam cara penaksiran disebabkan perbedaan dalam rancangan data yang
dikaji. Perbedaan penting dalam rancangan data juga memicu kerangka teoritis
yang sangat berbeda. Untuk Z satu-dimensi, hanya pemulusan satu-dimensi dibutuhkan dalam Cardot (2006) untuk menaksir fungsi mean maupun fungsi kovariansi sepanjang arah-Z pada masing-masing lokasi waktu karena fungsi keseluruhan
X(t,z) diamati.
P
Bila µ(t,z ) = β(t )z dan komponen-komponen stokastik k=1 Ak (z) ∅k(t, z)
P
dalam model X (t,z )=µ (t, z) +
k=1 Ak (z) ∅k (t, z) mengadopsi struktur linier
bervariasi-waktu b(t)z untuk fungsi β dan fungsi acak b yang tidak diketahui,
P
model X (t,z)=µ (t, z) +
k=1 Ak (z) ∅k (t, z) menghasilkan model efek acak koefisien bervariasi dalam Guo (2002). Bila µ(t,z) berbentuk linier parsial f (t ) +
βz dan komponen stokastik jua berbentuk linier parsial u(t ) + bZ, untuk fungsi
tak diketahui f dan u, parameter β dan variabel acak b, model X (t,z )=µ (t, z) +
P
k=1 Ak (z) ∅k (t, z) direduksi menjadi model campuran linier parsial dalam Zhang
et al. (1998).
Dalam pendekatan kedua, bisa mengambil keuntungan dari fakta Z bahwa kovariat Z adalah variabel acak dan mengumpulkan semua subjek setelah memusatkan
masing-masing kurva pada nol. Ini menghasilkan fungsi kovariansi gabungan Γ* (t,s)
= z E {(X (t,z ) – µ(t,z ))(X (s,z ) – µ(s,z ))}g(z )dz di mana g adalah pdf dari Z
atas Z, dan Γ* (t,s) diasumsikan merupakan fungsi mulus dari t dan s. Akibatnya,
terdapat ekspansi ortogonal (dalam artian L2 ) dalam bentuk eigenfungsi φk ∗ dan
eigenvalue tak naik λk ∗ sedemikian sehingga
Γ∗(t, s) =k φ∗k (t)φ∗k (s), dan
Universitas Sumatera Utara
9
X(t, z) = µ (t, z) +
X
k=1
A∗k ∅∗k (t)
(3.2)
Di mana A∗k adalah variabel acak yang tidak berkorelasi dengan E{A∗k } = 0 dan
var{A∗k } = λ∗k . Pendekatan ini mempunyai keuntungan bahwa fungsi kovariansi
bisa ditaksir dengan pemulus berdimensi lebih rendah, yang mempercepat laju
konvergensi dibandingkan dengan fFPCA disingkat mean adjusted functional principal component analysis ini atas X (t,z ) – µ(t,z ) sebagai ”mFPCA” di mana ”m”
menyatakan operasi penyesuaian mean.
Prosedur penaksiran untuk mFPCA dijelaskan pada bagian selanjutnya Secara konseptual, pendekatan fFPCA akan mencocokkan data dengan lebih baik
apabila beradaptasi terhadap informasi kovariat dalam penaksiran kovariansi sementara mFPCA tidak.
Keuntungan ini bisa diimbangi dengan kinerja praktis yang lebih buruk jika
data tidak padat. Hasil simulasi mencerminkan keuntungan terbatas dari fFPCA,
oleh karenanya mungkin lebih menyukai pendekatan mFPCA dalam banyak aplikasi atau mencoba kedua pendekatan, kecuali eigenfungsi bervariasi secara berarti
atas nilai-nilai kovariat.
3.1 Estimasi
Dalam banyak situasi hanya bisa mengamati proses X (t,z ) secara tak kontinu
dan kemungkinan dengan kesalahan pengukuran. Misalkan Yij adalah pengamatan
ke-j atas fungsi acak Xi , yang dilakukan atas waktu acak Tij ∈ T dengan kovariat
Zi ∈ Z dan kesalahan pengukuran ǫij di mana i = 1, . . . , n dan j = 1, . . .,Ni .
Dalam hal ini di asumsikan bahwa skedul pengukuran Tij adalah sampel acak
berukuran Ni dan Ni diasumsikan dan tak tergantung pada variabel acak lainnya. Juga di asumsikan bahwa kesalahan pengukuran dengan mean 0 dan variansi
konstan σ 2 dan tidak tergantung pada koefisien acak Ak (z ) atau A∗k masing-masing
berdasarkan model (3.1) atau (3.2)
Universitas Sumatera Utara
10
Dengan demikian, data yang diamati adalah
Yij= Xi (Tij, Zi ) + ∈ij.
(3.3)
Tahap-tahap utama dalam pendekatan FPCA adalah untuk menaksir fungsi
mean dan fungsi kovariansi. Eigenvalue dan eigenfungsi yang bersesuaian bisa
diperoleh dengan mudah melalui persamaan-eigen setelah fungsi kovariansi ditaksir. Fungsi mean untuk fFPCA dan mFPCA sama dan bisa ditaksir dengan
menggunakan pemulus diagram-pencar dua-dimensi Yij terhadap (Tij ,Zi ), untuk
j = 1, . . . , Ni , i = 1, . . . , n. Diberikan sifat-sifat asymptot umum dari pemulus
diagram-pencar linier dari fungsi mean µ(t,z) dan membuktikan sifat-sifat asymptot ini atas dua pemulus linier, estimator Nadaraya-Watson (3.8) dan estimator
linear lokal (3.9)
Sama halnya, estimator kovariansi juga bisa dinyatakan sebagai pemulus
diagram-pencar dari apa yang disebut dengan ”kovarian Baku” yang didefinisikan
di bawah ini terhadap (Tij ,Tik ):
Cijk = (Yij − µ
b (Tij , Zi )) (Yik − µ
b(Tik , Z i ))
(3.4)
Estimator kovariansi berbeda untuk fFPCA dan mFPCA. Untuk Z satu dimensi, yang pertama melibatkan pemulus tiga-dimensi Cijk terhadap (Tij ,Tik .Zi )
untuk j,k = 1,. . .,Ni , i = 1,. . .,n sementara yang disebut terakhir hanya membutuhkan pemulus dua-dimensi Cijk terhadap (Tij ,Tik ) untuk j,k = 1,. . .,Ni, i =
1,. . .,n. Pada prinsipnya, bisa menggunakan pemulus linier.
3.1.1 fFPCA
Catatan bahwa cov (Yij , Yik |Tij , Tik , Zi ) = cov (X (Tij , Zi ) , X (Tik , Zi ))+σ 2δjk
di mana δjk sama dengan 1 jika j = k dan 0 untuk lainnya, diagonal dari kovariansi
”mentah” Cijk pada Cijk = (Yij − µ
b (Tij , Zi )) (Yik − µ
b(Tik , Z i )) tidak boleh dima-
sukkan dalam tahap pemulusan fungsi kovariansi. Dalam hal ini pemulus linier
lokal untuk fungsi kovariansi Γ(t,s,z) adalah bL (t, s, z) = βb0
Universitas Sumatera Utara
11
Dimana,
βb = arg β min
n
X
X
K3
i=1 1≤j6=k≤Ni
t − Tij s − Tik z − Zi
,
,
hG,t
hG,t
hG,z
x[Cijk −
(3.5)
+β2 (Tik − s) + β3(Zi − z))]2
dan K3 adalah fungsi kernel tiga-dimensi yang memenuhi
RR k k k
u 1 v 2 w 3 K3 (u, v, w) du dv dw
=
0≤
0,
(−1)|v| |v|!,
P3
i=1
ki < k, ki 6= vi untuk i = 1, 2, 3
ki = v1 , k2 = v2, k3 = v3,
6= 0,
k1 + k2 + k3 = k,
Tujuan selanjutnya menaksir variansi V(t,z ) = Γ(t,t,z ) + σ 2 dari Y(t) untuk
z tertentu. Misalkan K2 adalah fungsi kernel dua-dimensi yang memenuhi
RR
=
uk1 v k2 K2 (u, v) du dv
0
0 ≤ k1 + k2 < k, k1 6= v1, k2 6= v2
(−1)|v| |v|!
k1 = v1, k2 = v2
6= 0
k1 + k2 k1 = k
dan V (t,z ) adalah pemulus linier lokal yang hanya menggunakan elemen-elemen
waktu diagonal; maka
Vˆ (t,z) = βb0, dimana
P P i
βb = argβ min ni=1 N
j=1 K2
t−Tij z−Zi
, hV,z
hV,t
x [Cijj − β0 − β1 (Tij − t) − β2(Zi − z)]2
Variansi σ 2 dari kesalahan pengukuran bisa ditaksir dengan merata-ratakan (V (t,z )
– ΓL (t,t,z )) atas rentang t. Untuk stabilitas, mungkin lebih baik menggunakan
pemotongan mean yang membatasi perata-rataan atas bagian pusat dari domain
Universitas Sumatera Utara
12
waktu. Ditemukan rekomendasi dalam Yao et al.(2005) untuk menggunakan pemotongan mean yang didasarkan pada 50% pusat domain waktu yang memuaskan.
Pada prinsipnya, ini menghasilkan
1
σ
b=
|T1| |Z|
Z
Z
Z
τ1
Vˆ (t,z) −bL (t, t, z)} dt dz ,
(3.6)
di mana T1 adalah interval [inf {t : t ∈ T} + T/4, sup{t : t ∈ T} - T / 4]
dengan notasi I menotasikan panjang interval umum I. Jika variansi dari kesalahan
pengukuran bervariasi seiring berjalannya waktu dan z , fungsi variansi σ 2 (t,s) bisa
ditaksir secara langsung sebagai V (t,z ) – Γ(t,t,z ).
R
bL (t, s, z) b
Penyelesaian persamaan-eigen, Γ
∅k (s, z) ds = b
λk (z) b
∅k (t, z) , di
R 2
mana φˆk (t, z) memenuhi φˆ (t, z) = 1 dan φˆk (t, z)φˆm(t, z)dt = 0 untuk m < k, dik
gunakan untuk menaksir eigenfungsi dan eigenvalue. Sekarang masih harus ditaksir
R
R
skor komponen utama Aik (Zi ) = ∅k (t, Zi ) [Xi (t, Zi ) − µ (t, Zi )] dt untuk subjek ke-i. Karena kesalahan pengukuran dan skedul pengukuran tak kontinu, pen-
dekatan dalam Chiou et al.(2003) dan Cardot (2006) tidak berlaku untuk menaksir
skor ini. Sebagai gantinya, pendekatan dalam Yao et al.(2005) yang bertujuan
menaksir ekspektasi bersyarat E (Aik (Zi )Yi ) cukup cocok untuk menaksir skor
komponen utama di mana Yi = (Yi1 , . . .,YiN i )T . Dengan asumsi bahwa Yi adalah
normal multivariat, ini menghasilkan taksiran
−1
X
d
Aˆik (zi) = b
(Yi − µ
∅Tik
bi ),
Yi
di mana ,
dan
µ
bi = (b
µ (Ti1,Zi ))T , (
X
d
Yi
)j,k = bL (Tij,Tik, Zi ) + σ
b2δjk
b
∅ik = (b
∅k (Ti1,Zi ) , . . . , b
∅k (TiNi , Zi ))T
Universitas Sumatera Utara
13
3.1.2 mFPCA
Penaksiran Γ*(s,t) serupa dengan prosedur dalam Yao, Muller dan Wang
(2005) kecuali bahwa kita gunakan Cijk sebagai kovariansi mentah. Misalkan
ˆ ∗ (t, s) adalah estimator kovariansi yang didasarkan pada pemulus linier lokal,
Γ
ˆ ∗ (t, s) menjadi estimator kovarian berdasarkan linear lokal yang halus,
maka Γ
∧
maka Γ ∗(t, s) = β0
P P
t−T
ik
untuk, βb = arg β min{ ni=1 1≤j6=k≤Ni K2 ( hG∗ij , s−T
x[Cijk −
h G∗
(β0 + β1 (Tij − t) + β2 (Tik − s))]2},
Dimana t,s ∈ T dan K2 didefinisikan dalam
ZZ
uk1 v k2 wk3 K3 (u, v, w) du dv dw
=
0≤
0,
|v|
(−1) |v|!,
P3
i=1
ki < k, ki 6= vi untuk i = 1, 2, 3
ki = v1, k2 = v2, k3 = v3,
6= 0,
k1 + k2 + k3 = k,
Misalkan Vˆ ∗ (t)
adalah pemulus linier lokal yang fokus pada nilai-nilai diagonal
∧
Γ ∗(t, t) + σ 2
maka Vˆ ∗ (t) = βb0, dimana,
P P i
t−Tij
[Cijj − β0 − β1 (Tij − t)]2,
K
βb = argβ min ni=1 N
1
j=1
hV ∗
di mana K1 adalah fungsi kernel dengan pendukung kompak, simetris dan kontinu.
ˆ ∗ (t, t)) digunakan untuk menaksir
Sekali lagi, mean ”terpotong” dari (Vˆ ∗ (t) - Γ
σ 2 sama dengan
σ
b= |T11||Z|
R R
Z
τ1
Vˆ (t,z ) -bL (t, t, z)} dt dz ,
R
ˆ ∗ φˆ∗ (t), di mana
ˆ ∗ (t, s)φˆk ∗ (s)ds = λ
Penyelesaian dari persamaan-eigen, Γ
k k
∗
∗
2
∗
∗
ˆ
ˆ
ˆ
ˆ
φ (t) memenuhi (φ (t)) dt = 1 dan φ (t)φ (t)dt = 0 untuk m < k, digunakan
k
k
k
m
untuk menaksir eigenfungsi dan eigenvalue. Skor komponen utama A∗ ik untuk
Universitas Sumatera Utara
14
Subjek ke-i ditaksir seperti dalam Yao et al.(2005) melalui
−1
T X
∗
ˆ
∗
∗
∗
b b
bi ),
(Yi − µ
Aˆik = λ
k ∅ik
Yi
P∗
di mana Yi dan µi didefinisikan seperti dalam Bagian 3.1.1, dan ˆ Yˆi
j,k
dan φˆ∗ik (t) didefinisikan sebagai
(
dan
X
ˆ ∗
Yi
)j,k =b∗ (Tij,Tik ) + (b
σ ∗)2 δjk
(∅∗k (Ti1) , . . . , ∅∗k (TiN i))T
3.1.3 Seleksi Bandwidth dan Jumlah Eigenfungsi
Bandwidth untuk taksiran fungsi mean dipilih melalui pengesahan silang
menyisakan satu kurva yang diajukan Rice dan Silverman (1991). Akan tetapi
bandwidth dari estimator fungsi kovariansi dipilih melalui prosedur pengesahansilang k-fold untuk menghemat waktu penghitungan. Di bawah ini di definisikan
metode pengesahan-silang k-fold untuk seleksi bandwidth dari Γ* (t,s). Rumus
untuk Γ(t,s,z ) sama.
Andaikan bahwa subjek dialokasikan secara acak ke k himpunan (S1, S2 , . . . , Sk ).
h = argh min
k X
X
X
ℓ=1 i∈Sℓ 1≤j6=m≤Ni
{Cijm −ˆ∗(−Sℓ ) (Tij, Tim )}2
(3.7)
ˆ (St )(Tij , Tim ) adalah taksiran fungsi kovariansi pada (Tij ,Tim ) bila subjekdi mana Γ
subjek di dalam Sl tidak digunakan untuk menaksir Γ*(t,s). Ditemukan metode
Ten-fold (k = 10) yang mempunyai kinerja yang memuaskan.
Tiga kriteria yang menggunakan bilangan eigenfungsi K adalah membicarakan
pada bagian study simulasi. Andaikan bahwa K eigenfungsi pertama digunakan
untuk memprediksi trayektori; diberikan t T dan z Z, prediksi trayektori Xi(t,z)
yang didasarkan pada K eigenfungsi pertama akan menjadi
Universitas Sumatera Utara
15
ˆ K (t, z) = µ
bL (t, z) +
(fFPCA) X
i
PK
k=1
∅k (t, z) ,
Aˆik (z) b
P
ˆ K (t, z) = µ
ˆ∗ b∗
bL (t, z) + K
(mFPCA) X
i
k=1 Aik ∅k (t) ,
3.2 Hasil-hasil Asymtot untuk Fungsi Mean dan Fungsi Kovarian
Untuk penyederhanaan, kovariat Z dalam bagian ini berupa univariat, dan
N1,...Nn adalah dari suatu variabel acak N. Mula-mula fokus pada distribusi asymtot dari pemulus-pemulus linier fungsi mean.
Teori umum untuk estimator berbobot kernel dua dimensi:
Lemma 1: Misal H:RQ → R suatu fungsi dengan orde kontinu turunan pertama
ˆ =
DH(v)=( ∂x∂ 1 H (v) , . . . , ∂x∂Q H(v))T , dan N
Bahwa asumsi
1
n
Pn
i=1
Ni
1. hµ,t ≍ hµ,z ≍ h, h → 0, nE (N ) h|v|+2 → ∞, E (N ) h → 0 dan nE (N ) x h2k+2 <
∞
2. Jumlah observasi Ni (n) untuk subjek i adalah variabel acak dengan Ni (n)˜
N (n) dimana N(n) adalah bilangan bulat positif-nilai acak variabel dengan
2
4
EN (n)
EN (n)
keduanya terbatas. Selain itu,
dan lim supn→∞ (EN
lim supn→∞ [EN
(n)]2
(n)2 )2
Ni(n), i = 1, ..., N
3. Observasi waktu Tij dan pengukuran Yij independen terhadap jumlah pengukuran N (n).
4.
dk
dtk1 dz k2
f2 (t, z) dan kontinu pada (t, z) untuk k1 + k2 = k, 0 ≤ k1, k2 ≤ k, dan
f2 (t, z) > 0
5.
dk
dtk1 dzk2
µ (t, z) dan kontinu pada {(t, z)}, untuk k1 + k2 = k, = 0 ≤ k1, k2 ≤ k.
6. ψq (t, z, y) kontinu pada U ({t, z})diy ∈ R; ;
7. Fungsi
∂p
ψ (t, z, y)
∂tp1 ∂z p2 q
ada untuk semua argumen ( t , y , z ) dan kontinu
pada U ({ t , z }) seragam di y ∈ R untuk P1 + P2 = P dan 0≤ P1 , P2 ≤ P
dan asumsi
hµ,z
hµ,t
2k+2
→ ρµ dan nE(N)hµ,t
→ τµ2 untuk beberapa 0 < ρµ, τµ < ∞,
Universitas Sumatera Utara
16
q
P
T
1 +1
nh2v
[H ψ1 n,..., ψQn −H (α1,..., αQ )]D
[DH (α1,..., αQ )] ,
µ,t
→ N(βH, [ DH(α1,..., αQ )]
Dimana
dan
βH =
P
= (σqr )1 ≤ q, r ≤ 1,
X
k1 +k2 =k
(−1)k
k1 + k2 !
Z
sk11 sk22 K2
(s1,s2 ) ds1 ds2
Q
X
∂H
x{
[ α1 , . . . , αQ )T
∂αq
q=1
q
∂ k1 +k2 −v1 −v2
2 +1
α
(t,
z)}τ
ρ2k
µ
q
µ
∂tk1 −αq ∂z k2 −v2
dari teori di atas diperoleh normalitas asymptot dari estimator kernel NadarayaWatson µ
ˆN W (t, z) dan estimator linier lokal µ
ˆ L (t, z) dari µ(t,z).
Pada prinsipnya,
Pn PNi
i=1
j=1
i=1
j=1
µ
bN W (t, z) = Pn PNi
K2 ((t − Tij )/hµ,t, (z − Zi )/hµ,z )
K2 ((t − Tij )/hµ,t, (z − Zi )/hµ,z )
(3.8)
dimana
µ
bL (t, z) = βb0
∧
β = argβ min
Ni
n X
X
i=1 j=1
K2 (
t − Tij z − Zi
,
)x[Yij −β0 −β1 (Tij − t)−β2(Zi −z)]2 (3.9)
hµ,t
hµ,z
Hasil asymptot untuk fungsi kovariansi,Perlu mempertimbangkan pemulus
tiga-dimensi untuk menaksir fungsi kovariansi. Selain itu, normalitas asymptot dari
estimator kernel Nadaraya-Watson dan estimator linier lokal dari fungsi kovariansi
diperoleh dari Lemma 2. ( Misalkan H:RQ → R menjadi fungsi dengan urutan
pertama yang kontinu Derivative
DH (v) = ( ∂x∂ 1 H (v) , . . . , ∂x∂ 0 H (v))T , dan N =
1
n
Pn
i=1
Ni .Di sini estimator kernel
Nadaraya-Watson atas kovariansi Γ(t,s,z) didefinisikan sebagai
Universitas Sumatera Utara
17
P P
t−Tij s−Tik
n
b
ΓN W (t, s, z) =
, hG,t ,
i=1
1≤j6=k≤Ni K3
hG,t
n
X
X
i=1 1≤j6=k≤Ni
K3
z−Zi
hG,z
Cijk )x
t − Tij s − Tik z − Zi
,
,
hG,t
hG,t
hG,z
!−1
(3.10)
Untuk kemudahan notasional, kita fokus pada kasus kernel konvensional
berorde (0,2) dan di notasikan
σ12 =
RRR
µ21 K3 (µ1,µ2, µ3 ) dµ1 dµ2 dµ3 untuk i = 1 , 2 , 3,
nE (N (N − 1)) h6G,t hG,z → τ12 ,
nE(N (N − 1))h2G,t h5G,z → τ22
Dan
v3 (t, s, z) = V ar((Y1 − µ (T1, Z))(Y2 − µ (T2 , Z))|T1 = t, T2 = s, Z = z)
Hasil-hasil asymptot di atas menunjukkan bahwa angka konvergen optimal
standar untuk data independen dicapai untuk semua estimator bila E(N) berhingga.
Sebagai contoh misalnya, laju konvergensi untuk taksiran Nadaraya-Watson dan
taksiran linier lokal untuk fungsi mean adalah n1/3 yang merupakan laju konvergensi optimal untuk pemulus dua-dimensi dengan syarat keteraturan serupa, dan
laju konvergensi untuk kedua estimator fungsi kovariansi adalah n2/7, juga optimal
untuk pemulus tiga-dimensi serupa.
Laju konvergen dari semua estimator lebih cepat bila perkiraan jumlah pengukuran per subjek E(N) → ∞ apabila semakin banyak data tersedia per subjek.
Sebagai contoh misalnya, laju konvergensi untuk kedua taksiran fungsi mean dan
kedua taksiran fungsi kovariansi bisa secara sebarang mendekati n2/5 bila E(N) →
∞. Catat bahwa n2/5 adalah laju optimal konvergensi bila proses longitudinal ke-
seluruhan Y(.,zi) bisa diamati untuk semua subjek i = 1,...,n; karena itu pemulusan
hanya diharuskan pada arah-z yang menghasilkan laju pemulusan satu-dimensi.
Universitas Sumatera Utara
18
Normalitas asymptot dari estimator kovariansi mFPCA bisa ditangani seperti
dalam Teorema 1. Dengan asumsi
1. hµ,t ≍ hµ,z ≍ h, h → 0, nE (N ) h|v|+2 → ∞, E (N ) h → 0 dan nE (N ) x h2k+2 <
∞
2. Jumlah observasi Ni (n) untuk subjek i adalah variabel acak dengan Ni (n)˜
N (n) di mana N (n) adalah bilangan bulat positif-nilai acak variabel dengan
2
4
EN (n)
EN (n)
dan lim?supn→∞ (EN
keduanya terbatas. Selain itu,
lim?supn→∞ [EN
(n)]2
(n)2 )2
Ni (n), i = 1,. . . , N
3. Observasi waktu Tij dan pengukuran Yij independen terhadap jumlah pengukuran N (n).
4.
dk
dtk1 dz k2
f2 (t, z) dan kontinu pada (t, z) untuk k1 + k2 = k, 0 ≤ k1, k2 ≤
k, dan f2 (t, z) > 0
5.
dk
dtk1 dzk2
µ (t, z) dan kontinu pada {(t, z)}, untuk k1 + k2 = k, 0 ≤ k1,k2 ≤ k.
dan dengan mengasumsikan hhµ,s
→ ρµ dan nE(N)h6µ,t→ τ 2 µ untuk suatu 0
µ,t
p
P
µL (t, z) − µ (t, z)] D
= ρµ ,τ µ < ∞, nhµ,t hµ,z [b
→ N(βL ,
L ),
di mana
βL =
X
k1 +k2 =2
1
k1 !k2 !
Z
sk21 sk22 K2
(s1,s2 ) ds1 ds2
∂2
µ(t, z)τµ
∂tk1 ∂z k2
q
2 +1
ρ2k
µ
f2(t,z ) adalah kepadatan gabungan dari (T,Z ).
Distribusi asymptot estimator yang didasarkan pada ”kovariansi mentah”, Cijk ,
identik dengan yang didasarkan pada Cˆijk = {Yij – µ(Tij ,Zi )}{Yik – µ(Tik ,Zi )}.
Dengan demikian estimator Nadaraya-Watson dan estimator linier lokal dari kovariansi yang didasarkan pada Cijk ekuivalen secara asymptotik dengan estimator
yang didasarkan pada Cˆijk .
Universitas Sumatera Utara
BAB 4
PENERAPAN KOVARIAT PADA FUNGSIONAL PRINSIPAL
KOMPONEN ANALISIS
Perbandingan kinerja kedua pendekatan FPCA yang disesuaikan kovariat dengan estimator dalam Yao, Muller dan Wang (2005) yang disebut dengan istilah
uFPCA dengan awalan “u” yang menunjukkan bahwa itu adalah FPCA “tak disesuaikan” suatu contoh simalusi yang terdiri dari 100 putaran, dan jumlah subjek
adalah 100 pada setiap putaran.
Skema simulasi adalah sebagai berikut: untuk setiap subjek, kovariat z dihasilkan dari U (0,1 ), fungsi mean-nya adalah µ(t,z ) = t + z sin(t ) + (1 – z )cos(t )
dan fungsi variansi-kovariansi diperoleh dari dua eigenfungsi φ1(t,z) = -cos(π(t +
√
√
z/2)) 2 dan φ2 (t,z) = sin(π(t + z/2)) 2, untuk 0 = t = 1 dengan eigenvalue
λ1 (z) = z/9, λ2 (z) = z/36 dan λk = 0 untuk k = 3. Skor komponen utama
spesifik Aik (z) dihasilkan dari N(0,λk (z)), dan kesalahan pengukuran tambahan diasumsikan berdistribusi normal dengan mean 0 dan variansi (0,05)2 . Untuk skema
pengukuran {tij } digunakan rancangan “jittered” nonequidistant. Pada pokoknya,
kisi berjarak sama {c0,...,c50} atas [0,1] dengan c0 = 0 dan c50 = 1 dipilih dan
jittered menurut rencana si = ci + ǫi di mana ǫi adalah i.i.d. dengan N(0, 0,0001)
dan kemudian dibatasi menjadi si = 0 jika si < 0 dan si = 1 jika si > 1. Setiap
kurva diambil sampelnya atas sejumlah acak titik,
{tij }, j = 1,...,Ni, di mana Ni dipilih dari distribusi bilangan acak {2,...,10}, dan
lokasi pengukuran dipilih secara acak dari {s1,...,s49} tanpa penggantian.
Kernel Epanechniknov digunakan dalam tahap-tahap pemulusan. bandwidth
untuk estimator permukaan mean dipilih dengan pengesahan silang sisakan-satukurva sementara lebar pita untuk estimator kovariansi dipilih dengan metode pengesahan silang Tine-fold untuk menghemat waktu penghitungan. Tiga kriteria
(AIC, BIC dan metode fraksi variasi dijelaskan (FVE)) untuk memilih nilai K juga
dibandingkan. AIC dan BIC didefinisikan seperti dalam Yao, Muller dan Wang
(2005).
19
Universitas Sumatera Utara
20
Metode FVE didefinisikan sebagai jumlah minimum komponen yang dibutuhkan untuk menjelaskan setidaknya suatu fraksi yang ditetapkan dari total variasi. Dalam simulasi, kami pilih K untuk uFPCA dan mFPCA sebagai bilangan
P
P
minimum k yang memenuhi ( ki=1 λi )/( i=1 λi ) = 0, 80, dan untuk pendekatan
P
P
fFPCA, ini bersesuaian dengan pemilihan k terkecil yang memenuhi ki=1 λi (z)/ i=1
λi (z) = 0, 80 untuk setiap subjek dengan nilai kovariat z. Perbedaan utama adalah
bahwa FVE tipe ini akan memungkinkan pilihan spesifik-subjek untuk jumlah komponen utama dalam fFPCA. Masalahnya adalah bahwa taksiran kovariansi yang
didasarkan pada jumlah komponen utama yang dipilih secara individual mungkin
tidak menghasilkan permukaan kovariansi mulus. Untuk meluruskan hal ini dan
untuk mempermudah platform seragam guna membandingkan ketiga pendekatan,
kami ajukan pilihan global K yang didasarkan pada persentil ke-90 dari k yang
dipilih secara individual untuk fFPCA. Pilihan global ini bersifat objektif dan
bisa memberikan sedikit keuntungan untuk fFPCA dalam pencocokan data yang
diamati sebagaimana dibandingkan dengan menggunakan nilai mean atau median
dari k sebagai pilihan global. Pendekatan AIC dan BIC cenderung memilih terlalu
banyak eigenfungsi sehingga bisa memprediksi data dengan baik, sementara FVE
adalah yang terbaik untuk memilih model yang tepat. Akan tetapi, pendekatan
ini diungguli oleh pendekatan lain untuk prediksi seperti yang tampak jelas dalam
Tabel 2.
Kuadrat kesalahan terpadu mean dari estimator kovariansi untuk mFPCA
adalah 0,00046, bias dan standard error dari kedua eigenvalue masing-masing
adalah -0,0102 (s.d. = 0,0121) dan -0,0035 (s.d. = 0,0052). Taksiran eigenfungsi
rata-rata dari 100 simulasi mendekati eigenfungsi yang sebenarnya seperti yang
diperlihatkan dalam Gambar 1. Ini menunjukkan bahwa estimator kovariansi dari
mFPCA cukup akurat. Dari Tabel 1 dan Gambar 2, kinerja fFPCA umumnya
memuaskan walaupun akurasi bervariasi dengan kovariat. Taksiran untuk eigenfungsi kedua pada Z = 0,1 buruk disebabkan eigenvalue kecil 0,0028, karenanya
mungkin tidak perlu memasukkan lebih dari satu eigenfungsi untuk Z = 0,1.
Selanjutnya, di bandingkan tiga kriteria pemilihan model yang berbeda dalam
memilih jumlah K eigenfungsi. Kita gunakan kuadrat error terpadu mean (MISE)
untuk kurva yang sebenarnya Xi (t,zi),
Universitas Sumatera Utara
21
MISE =
1
n
Pn R 1
i=1
0
ˆ K (t, zi))2 dt
(Xi (t, zi) − X
i
sebagai kriteria di mana K adalah jumlah eigenfungsi yang digunakan untuk memprediksi trayektori setiap subjek. Kuadrat error pencocokan mean yang bersesuaian
Gambar 4.1 Dua eigenfunctions kovariansi dan estimasi dengan. mFPCA
(Sumber : C.-R. Jiang and J.-L Wang 2010)
P
P i
ˆ 2
MSFE = n1 ni=1 N1i N
j=1 (Yij − Yij )
Sebuah outlier terdeteksi dalam jangka 6 untuk mFPCA diprediksi trayektori, sehingga termasuk dua hasil dalam Tabel 4.2
Tabel 4.1 Hasil Simulasi fFPCA
Covariate z
ˆL
LSE untuk Γ
LSE untuk φˆ1(t, z)
LSE untuk φˆ2(t, z)
ˆ 1 (z)
λ
ˆ 2 (z)
λ
0.1
0.00015
0.0294
0.2720
0.0047
(0.0073)
0.0034
(0.0045)
0.3
0.00025
0.0076
0.0305
-0.0041
(0.0106)
0.0001
(0.0039)
0.5
0.00071
0.0071
0.0242
-0.0113
(0.0181)
0.0005
(0.0057)
0.7
0.0014
0.0074
0.0179
-0.0202
(0.0205)
-0.0002
(0.0077)
0.9
0.0030
0.0112
0.0300
-0.0242
(0.0333)
-0.0037
(0.0094)
(Sumber : C.-R. Jiang and J.-L Wang 2010)
Universitas Sumatera Utara
22
Tabel 4.2 Rata-rata MISE dan MSFE dalam 100simulasi berjalan untuk tiga
pendekatan
uFPCA
mFPCA
fFPCA
FVE
0.0339
(0.0325)
0.1075
(0.0103)
0.0085
(0.0085)
MISE
AIC
0.0215
(0.0198)
0.0077
(0.0063)
0.0077
(0.0077)
BIC
0.0215
(0.0197)
0.0076
(0.0063)
0.0077
(0.0077)
FVE
0.0047
0.0067)
0.0039
(0.0050)
0.0039
(0.0022)
MSFE
AIC
0.0035
(0.0065)
0.0024
(0.0017)
(0.0027)
(0.0015)
BIC
0.0036
0.0025
0.0025
(0.0017)
0.0027
(0.0015)
(Sumber : C.-R. Jiang and J.-L Wang 2010)
Outlier terdeteksi pada putaran ke-6 untuk trayektori yang diprediksi mFPCA,
karenanya kita masukkan dua hasil dalam Tabel 4.2, satu dengan semua simulasi
dan satu dengan putaran outlier ini dicoret. Tidak aneh, uFPCA lebih unggul
pada umumnya dengan kedua pendekatan yang disesuaikan kovariat. Bila menggunakan metode FVE sebagai kriteria dalam memilih K, fFPCA sedikit lebih baik
daripada mFPCA. Akan tetapi, bila menggunakan AIC atau BIC sebagai kriteria
dalam memilih K,di tampilkan dari
Gambar 4.2 Dari dua eigenfunctions pertama diperkirakan melalui fFPCA pada
lima nilai yang berbeda dari covarite tersebut
(Sumber : C.-R. Jiang and J.-L Wang 2010)
Universitas Sumatera Utara
23
Kinerja mFPCA sebanding, jika tidak lebih baik dari kinerja fFPCA. akibatnya, jika tujuannya adalah untuk memprediksi trayektori subjek, direkomendasikan
mFPCA dengan BIC karena kesederhanaannya. Untuk tujuan pemodelan, fFPCA
dengan metode FVE lebih diinginkan.
4.1 Aplikasi Data
Dijelaskan suatu pendekatan FPCA yang disesuaikan-kovariat melalui data
reproduksi untuk lalat buah Mexico. Studi dilaksanakan di fasilitas penangkaran
lalat buah di dekat Metapa, Chiapas, Mexico. Produksi telur (jumlah telur) per
hari dicatat untuk sebanyak 1151 betina sampai lalatnya mati. Tujuannya di sini
adalah untuk mengkaji pengaruh reproduksi dini, sebagaimana diukur menurut
total reproduksi hingga usia 30 (dalam hari), pada pola reproduksi hingga usia
50. Dikesampingkan lalat yang mandul dan lalat yang hidup kurang dari 50 hari.
ini memberikan platform seragam untuk melaksanakan FPCA dan hanya mengkaji
lalat yang hidup setidaknya sekitar lama hidup rata-rata (≈ 50,9 hari) lalat yang
subur. Dari 567 lalat tersisa, di pilih secara acak 2 sampai 10 pengamatan dalam
50 hari pertama, karenanya bisa dibandingkan hasil-hasil untuk data yang jarang
dengan data lengkap untuk mengesahkan pendekatan mFPCA dan fFPCA yang
baru.
Selain itu, dibandingkan pendekatan baru dengan tiga pendekatan FPCA
yang berbeda yang tidak memasukkan informasi kovariat. Yang pertama adalah
uFPCA dalam Yao et al. (2005), yang kedua adalah pendekatan rank tereduksi
dalam James et al. (2000), yang disebut dengan istilah rFPCA dengan ”r” menyatakan rank tereduksi, dan yang ketiga adalah pendekatan geometrik dalam Peng
dan Paul (2009) yang sama dengan metode rank tereduksi tetapi dengan algoritma yang berbeda. Kita sebut pendekatan ini dengan istilah ”gFPCA” dengan
”g” menyatakan geometrik. Baik rFPCA maupun gFPCA mengasumsikan bahwa
X(t) adalah suatu proses Gauss, error pengukuran berdistribusi normal, dan menggunakan basis natural atau B-spline untuk mengekspansikan eigenfungsi. Kedua
pendekatan ini bertujuan memaksimalkan fungsi likelihood, tetapi rFPCA menggunakan algoritma EM untuk mencapainya dan gFPCA menghambat fungsi likelihood secara langsung dengan metode Newton-Raphson dengan mengeksploitasi
Universitas Sumatera Utara
24
struktur geometrik dari eigenfungsi begitu berada di manifol Stiefel. Karena rFPCA
berfungsi sebagai taksiran awal untuk gFPCA, kode awal untuk rFPCA meningkat
dan dimasukkan dalam paket R, fpca, yang tersedia pada proyek CRAN.
Seperti yang diajukan dalam James et al.(2000), jumlah basis di dalam rFPCA
dipilih dengan likelihood pengesahan-silang Ten-fold dan jumlah eigenfungsi dikurangi dengan metode FVE yang biasa (fraksi dari variasi yang dijelaskan). Untuk
data Medfly, dipilih 15 basis dan jumlah eigenfungsi yang dihasilkan bersesuaian
dengan 80% dan 90% FVE, seperti yang dilaporkan dalam Tabel 3, masing-masing
adalah 9 dan 11. Pilihan fungsi basis B-spline dan jumlah eigenfungsi untuk
gFPCA dipilih dengan metode likelihood disahkan-silang baru yang diajukan dalam
Peng dan Paul (2009) dan ini menghasilkan 8 basis dan 5 eigenfungsi.
Tabel 4.3 MSFEs dari mFPCA, fFPCA, uFPCA dan rFPCA berdasarkan data
jarang
mFPCA
fFPCA
uFPCA
rFPCA
uFPCA
gFPCA
FVE(80%)
MSFE K
614.1(465.9)4
614.9(464.4)4
648.6(499.8)2
720.2(136.6)9
681.0(477.3)
untuk K=4
7.85.1(684.6)
untuk K=5(dasar
dalam metode CV)
FVE(90%)
MSFE K
612.8(447.9)6
613.9(454.4)5
684.6(499.8)2
719.1(131.5)11
680.8(472.1)
untuk K=10
784.8(647.1)
untuk K=6
AIC
MSFE K
611.8(433.7)14
612.8(441.3)11
680.8(471.6)8
BIC
MSFE K
612.0(436.4)10
613.2(445.7)7
680.9(473.6)6
680.7(471.6)
untuk K=14
(Sumber : C.-R. Jiang and J.-L Wang 2010)
Gambar 4.1.2 menunjukkan taksiran permukaan mean dari mFPCA dan fFPCA
untuk data jarang dan data lengkap; ini mengindika
KOMPONEN ANALISIS UNTUK DATA
LONGITUDINAL
TESIS
Oleh
AGUSMAN
097021053/MT
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SUMATERA UTARA
MEDAN
2011
Universitas Sumatera Utara
KOVARIAT DARI FUNGSIONAL PRINSIPAL
KOMPONEN ANALISIS UNTUK DATA
LONGITUDINAL
TESIS
Diajukan Sebagai Salah Satu Syarat
Untuk Memperoleh Gelar Magister Sains dalam
Program Studi Magister Matematika pada
Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Sumatera Utara
Oleh
AGUSMAN
097021053/MT
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SUMATERA UTARA
MEDAN
2011
Universitas Sumatera Utara
Judul Tesis
: KOVARIAT DARI FUNGSIONAL PRINSIPAL
KOMPONEN ANALISIS UNTUK
DATA LONGITUDINAL
Nama Mahasiswa : Agusman
Nomor Pokok
: 097021053
Program Studi
: Matematika
Menyetujui,
Komisi Pembimbing
(Dr. Sutarman, M.Sc)
Ketua
(Prof. Dr. Herman Mawengkang)
Anggota
Ketua Program Studi,
Dekan
(Prof. Dr. Herman Mawengkang)
(Dr. Sutarman, M.Sc)
Tanggal lulus: 15 Juni 2011
Universitas Sumatera Utara
Telah diuji pada
Tanggal 15 Juni 2011
PANITIA PENGUJI TESIS
Ketua
:
Dr. Sutarman, M.Sc
Anggota
:
1. Prof. Dr. Herman Mawengkang
2. Prof. Dr. Tulus, M.Si
3. Drs. Open Darnius, M.Sc
Universitas Sumatera Utara
ABSTRAK
Analisa komponen utama multivariat klasik diperluas untuk data fungsional dan
disebut dengan istilah fungsional prinsipal komponen analisis (FPCA). Sebagian
besar pendekatan FPCA yang ada tidak mengakomodir informasi kovariat, dan
tujuan dari tulisan ini adalah untuk mengembangkan dua metode yang mengakomodir informasi tersebut. Dengan pendekatan ini, baik fungsi mean maupun fungsi
kovariansi tergantung pada kovariat Z dan skala waktu t sementara dengan pendekatan kedua hanya fungsi mean yang tergantung pada kovariat Z. Kedua pendekatan baru mengakomodir kesalahan pengukuran tambahan dan data fungsional
sampelnya diambil pada kisi waktu yang teratur dan juga data longitudinal yang
jarang diambil sampelnya pada kisi waktu yang tidak teratur. Pendekatan pertama untuk menyesuaikan sepenuhnya baik fungsi mean maupun fungsi kovariansi
beradaptasi lebih besar terhadap data tetapi lebih intensif perhitungan daripada
pendekatan untuk menyesuaikan efek kovariat hanya pada fungsi mean. Di kembangkan teori asymptot umum untuk kedua pendekatan dan dibandingkan kinerja
keduanya secara numerik melalui studi simulasi dan suatu kumpulan data.
Kata kunci : Estimasi, Seleksi Bandwidth dan jumlah eigen fungsi, Hasil-hasil
asimtot
i
Universitas Sumatera Utara
ABSTRACT
Classical multivariate principal component analysis has been extended to functional
data and termed functional principal componentanalysis (FPCA). Most existing
FPCA approaches do not accommodate covariate information, and it is the goal of
this paper to develop two methods that do. In the ?rst approach, both the mean and
covariance functions depend on the covariate Z and time scale t while in the second
approach only the mean function depends on the covariate Z .Both new approaches
accommodate additional measurement errors and functional data sampled at regular
time grids as well as sparse longitudinal data sampled at irregular time grids. The
first approach to fully adjust both the mean and covariance functions adapts more
to the data but is computationally more intensive than the approach to adjust the
covariate effects on the mean function only. We develop general asymptotic theory
for both approaches and compare their performance numerically through simulation
studies and a data set.
Keywords : Estimation, Bandwidth selection and number of eigenfunctions,
Asymtotic results
ii
Universitas Sumatera Utara
KATA PENGANTAR
Puji syukur penulis ucapkan kepada Sang Maha Pencipta,Allah SWT yang
telah memberikan begitu banyak nikmat sehingga tesis ini dapat terselesaikan dengan baik.
Dalam menyelesaikan pendidikan di Sekolah Pasca Sarjana USU ini penulis
banyak mendapat dukungan dari berbagai pihak, maka pada kesempatan ini penulis
mengucapakan terimakasih dan penghargaan yang sebesar-besarnya kepada:
Dr. Sutarman, MSc, selaku Dekan F.MIPA dan selaku Dosen Pembimbing I
yang telah memberikan bimbingan dan petunjuk sehingga tesis ini dapat terselesaikan dengan baik.
Prof. Dr. Herman Mawengkang, selaku Ketua Program Studi Magister Matematika FMIPA USU dan selaku Dosen Pembimbing II yang banyak memberikan
banyak bimbingan dan motivasi kepada penulis sehingga pendidikan ini dapat terselesaikan dengan baik.
Seluruh Dosen pada Program Studi Magister Matematika FMIPA USU, yang
telah memberikan ilmu pengetahuan kepada penulis selama perkuliahan hingga
selesai.
Drs. Lukman Hakim, MPd, selaku Kepala Sekolah SMA Swasta Al-Ulum
Medan yang telah memberikan kesempatan kepada penulis untuk mengikuti Program Studi Magister Matematika di Program Studi Magister Matematika FMIPA
USU ini.
Dr. Hasratudin, MPd, selaku Bapak angkat saya dan selaku Dosen MIPA
Unimed Medan yang telah memberikan dukungan dan motivasi kepada penulis
untuk mengikuti Program Studi Magister Matematika di FMIPA USU ini.
Secara khusus penulis menyampaikan terima kasih yang tak terhingga kepada
Ayahanda tercinta yaitu Jakiman dan Ibunda tercinta Sanis yang doa-doanya selalu menyertai penulis. Kepada Papa Dr. Irwan Fahri Rangkuti,SpKK yang selalu
menjadi motivator penulis dan selalu membantu moril dan materil yang tak terhingga selama perkuliahan dan sampai tesis ini dapat terselesaikan.
iii
Universitas Sumatera Utara
Kepada semua pihak yang telah turut membantu baik langsung maupun tidak
langsung yang penulis dapatkan selama ini.
Semoga tesis ini bermanfaat bagi pembaca dan pihak-pihak yang membutuhkannya.
Medan, 15 Juni 2011
Penulis,
Agusman
iv
Universitas Sumatera Utara
RIWAYAT HIDUP
Agusman dilahirkan di Tanjung Morawa Kabupaten Deli Serdang pada tanggal 17 Oktober 1982 dan merupakan anak ke sembilan dari sembilan bersaudara
dari ayah Jakiman dan Ibu Sanis. Menamatkan Sekolah Dasar di SD Negeri No.
106179 Desa Limau Manis Kecamatan Tanjung Morawa Kabupaten Deli Serdang
pada tahun 1994, Sekolah Lanjutan Tingkat Pertama pada SLTP Negeri 2 Tanjung Morawa Deli Serdang pada tahun 1997, Sekolah menengah Umum pada SMU
Swasta Dwitunggal Tanjung Morawa Deli Serdang pada tahun 2000. Pada tahun
2000 memasuki Perguruan Tinggi pada Universitas Muslim Nusantara ( UMN )
Al Washliyah Medan dan memperoleh gelar Sarjana Pendidikan pada tahun 2006.
Pada tahun 2009 mengikuti Program Studi Magister Matematika di Sekolah Pascasarjana Universitas Sumatera Utara.
v
Universitas Sumatera Utara
DAFTAR ISI
Halaman
ABSTRAK
i
ABSTRACT
ii
KATA PENGANTAR
iii
RIWAYAT HIDUP
v
DAFTAR ISI
vi
DAFTAR TABEL
viii
DAFTAR GAMBAR
ix
BAB 1 PENDAHULUAN
1
1.1 Latar Belakang
1
1.2 Rumusan Masalah
2
1.3 Tujuan Penelitian
2
1.4 Manfaat Penelitian
2
1.5 Metodologi
3
BAB 2 BEBERAPA KAJIAN TENTANG FUNGSIONAL PRINSIPAL KOMPONEN ANALISIS
4
BAB 3 PENGERTIAN TEORITIS FPCA
7
3.1 Estimasi
9
3.1.1 fFPCA
10
3.1.2 mFPCA
13
3.1.3 Seleksi Bandwidth dan Jumlah Eigenfungsi
14
vi
Universitas Sumatera Utara
3.2 Hasil-hasil Asymtot untuk Fungsi Mean dan Fungsi Kovarian
15
BAB 4 PENERAPAN KOVARIAT PADA FUNGSIONAL PRINSIPAL KOMPONEN ANALISIS
19
4.1 Aplikasi Data
23
BAB 5 KESIMPULAN DAN SARAN
27
5.1 Kesimpulan
27
5.2 Saran
27
DAFTAR PUSTAKA
28
vii
Universitas Sumatera Utara
DAFTAR TABEL
Nomor
Judul
Halaman
4.1
Hasil Simulasi fFPCA
21
4.2
Rata-rata MISE dan MSFE dalam 100simulasi berjalan untuk tiga
22
4.3
MSFEs dari mFPCA, fFPCA, uFPCA dan rFPCA berdasarkan data
24
viii
Universitas Sumatera Utara
DAFTAR GAMBAR
Nomor
Judul
Halaman
4.1
Dua eigenfunctions kovariansi dan estimasi dengan. mFPCA
21
4.2
Dari dua eigenfunctions pertama diperkirakan melalui fFPCA
pada lima nilai yang berbeda dari covarite tersebut
22
4.3
Estimasi rata-rata permukaan untuk data jarang dan lengkap
25
4.4
Estimasi kovarians permukaan mFPCA untuk jarang dan
26
ix
Universitas Sumatera Utara
ABSTRAK
Analisa komponen utama multivariat klasik diperluas untuk data fungsional dan
disebut dengan istilah fungsional prinsipal komponen analisis (FPCA). Sebagian
besar pendekatan FPCA yang ada tidak mengakomodir informasi kovariat, dan
tujuan dari tulisan ini adalah untuk mengembangkan dua metode yang mengakomodir informasi tersebut. Dengan pendekatan ini, baik fungsi mean maupun fungsi
kovariansi tergantung pada kovariat Z dan skala waktu t sementara dengan pendekatan kedua hanya fungsi mean yang tergantung pada kovariat Z. Kedua pendekatan baru mengakomodir kesalahan pengukuran tambahan dan data fungsional
sampelnya diambil pada kisi waktu yang teratur dan juga data longitudinal yang
jarang diambil sampelnya pada kisi waktu yang tidak teratur. Pendekatan pertama untuk menyesuaikan sepenuhnya baik fungsi mean maupun fungsi kovariansi
beradaptasi lebih besar terhadap data tetapi lebih intensif perhitungan daripada
pendekatan untuk menyesuaikan efek kovariat hanya pada fungsi mean. Di kembangkan teori asymptot umum untuk kedua pendekatan dan dibandingkan kinerja
keduanya secara numerik melalui studi simulasi dan suatu kumpulan data.
Kata kunci : Estimasi, Seleksi Bandwidth dan jumlah eigen fungsi, Hasil-hasil
asimtot
i
Universitas Sumatera Utara
ABSTRACT
Classical multivariate principal component analysis has been extended to functional
data and termed functional principal componentanalysis (FPCA). Most existing
FPCA approaches do not accommodate covariate information, and it is the goal of
this paper to develop two methods that do. In the ?rst approach, both the mean and
covariance functions depend on the covariate Z and time scale t while in the second
approach only the mean function depends on the covariate Z .Both new approaches
accommodate additional measurement errors and functional data sampled at regular
time grids as well as sparse longitudinal data sampled at irregular time grids. The
first approach to fully adjust both the mean and covariance functions adapts more
to the data but is computationally more intensive than the approach to adjust the
covariate effects on the mean function only. We develop general asymptotic theory
for both approaches and compare their performance numerically through simulation
studies and a data set.
Keywords : Estimation, Bandwidth selection and number of eigenfunctions,
Asymtotic results
ii
Universitas Sumatera Utara
BAB 1
PENDAHULUAN
1.1 Latar Belakang
Dalam beberapa penelitian tentang Fungsional Prinsipal Component Analisis
(FPCA) tidak banyak yang melibatkan informasi kovariat. Kovariat yang digunakan dalam FPCA dengan asumsi bahwa fungsi keseluruhan dari fungsi acak bisa
diamati tanpa kesalahan, kovariat digunakan untuk memprediksi status dari satu
atau lebih variabel terikatnya.
Ada dua cara untuk memperluas pendekatan FPCA untuk mengakomodir
informasi kovariat. Kedua pendekatan terdiri dari dua bagian: bagian sistematik
yang bersesuaian dengan fungsi mean (mFPCA) dan bagian stokastik yang terdiri dari komponen-komponen acak yang mencerminkan struktur kovariansi data
longitudinal (fFPCA).
Fungsional prinsipal komponen analisis (FPCA) merupakan alat pengurangan
dimensi standar untuk data multivariat dan diperluas untuk data fungsional yang
diberikan dalam bentuk kurva acak. Karena data fungsional pada hakekatnya
berdimensi tak hingga, pengurangan dimensi penting untuk menganalisa data
demikian. Selain Ferraty dan Vieu (2006) dan Wu dan Zhang (2006), rangkaian tulisan Ramsay dan Silverman (2002, 2005) memberikan kajian khusus tentang
metodologi dan aplikasi ”Analisa Data Fungsional” (FDA).
Kneip dan Utikal (2001) menggunakan metode FDA untuk menilai variabilitas kepadatan bagi kumpulan-kumpulan data dari populasi yang berbeda-beda.
Apabila data fungsional diamati pada beberapa titik waktu, misalnya hanya beberapa titik waktu per subjek, maka data demikian ini disebut data longitudinal
kartena timbul dari kajian longitudinal. Rice (2004) dan Hall et al. (2006) membahas persamaan dan perbedaan intrinsik antara FDA dan analisa data longitudinal.
Data longitudinal seringkali jarang (sparse) dengan sedikit pengukuran persubjek dan gangguan dengan kesalahan pengukuran (atau fluktuasi acak). Akan
tetapi, kesulitan ini bisa diatasi dalam sebagian besar situasi, karenanya tetap
1
Universitas Sumatera Utara
2
dimungkinkan melaksanakan FPCA. [lihat; Shi et al (1996), Yao et al (2005), Paul
dan Peng (2009), serta Peng dan Paul (2009)].
Mengingat pentingnya metode ini maka penulis ingin meneliti dan menjabarkannya pada ” Kovariat Dari Fungsional Prinsipal Komponen Analisis Untuk
Data Longitudinal ”.
1.2 Rumusan Masalah
Asumsi kunci yang diajukan para peneliti dalam menyelesaikan FPCA adalah
bahwa trajektori data fungsional lengkap teramati atau tercatat padat terhadap
waktu, Asumsi demikian ini jarang terpenuhi dalam kajian data longitudinal oleh
karena itu masalahnya adalah bagaimana mengikutsertakan informasi kovariat
dalam FPCA untuk data longitudinal jarang.
1.3 Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk Memadukan informasi kovariat yang
berlaku pada data fungsional dan data longitudinal dengan mengembangkan dua
pendekatan yang mengakomodir informasi tersebut yaitu pendekatan fFPCA dan
mFPCA.
1.4 Manfaat Penelitian
Manfaat dalam Penelitian ini adalah
1. Sebagai bahan informasi bagi peneliti dalam menyesuaikan efek kovariat untuk data longitudinal.
2. Untuk menambah wawasan dan literatur dalam berbagai bidang, dalam bidang matematika secara umum, bidang Tekhnik, dan kesehatan.
3. Sebagai bahan pertimbangan dan masukan bagi peneliti yang berkaitan.
Universitas Sumatera Utara
3
1.5 Metodologi
Adapun langkah-langkah yang dilakukan pada penelitian ini adalah:
1. Mengestimasi fungsi mean dan fungsi kovarian.
2. Memilih jumlah eigen fungsi.
3. Menentukan asymtot untuk fungsi mean dan fungsi kovarian.
4. Menyesuaikan efek kovariat dengan pendekatan FPCA.
Universitas Sumatera Utara
BAB 2
BEBERAPA KAJIAN TENTANG FUNGSIONAL PRINSIPAL
KOMPONEN ANALISIS
Banyak penelitian ilmiah menghasilkan data longitudinal dengan pengukuran
ulang dijumlah titik waktu, dan data peristiwa yang mempertimbangkan perubahan dari waktu ke peristiwa, yaitu, ” kegagalan ” atau ” bertahan hidup ”, serta
informasi kovariat tambahan.Sebuah contoh adalah bahwa uji klinis HIV, di mana
biomarker seperti jumlah limfosit CD4 diukur sesekali waktu dan untuk pengembangan menjadi AIDS atau kematian juga dicatat, dengan kemungkinan awal DO
atau kegagalan. Hal ini penting dan diperlukan untuk menyelidiki pola perubahan
CD4, dan untuk menandai hubungan antara CD4 dan waktu untuk pengembangan
atau kematian (Pawitan dan Self (1993), Tsiatis et al. (1995), Wulfsohn dan Tsiatis
(1997).
Dalam prakteknya proses longitudinal yang tersembunyi sering tidak teramati
karena kesalahan pengukuran dan tidak tersedia pada saat diperlukan, terutama
bila terjadi kegagalan. Diketahui bahwa sebagian kemungkinan pendekatan konvensional yang digunakan untuk model Cox tidak dapat menghindari kesimpulan
yang memihak dari proses tersembunyi longitudinal, seperti nilai terakhir dilakukan
ke depan metode (Prentice (1982)), teknik pemulusan (Raboud et al. (1993)),
atau pendekatan ” dua tahap ” (Bycott dan Taylor (1998), Tsiatis et al. (1995)).
Ini disebut perhitungan longitudinal dan proses secara bersamaan, yaitu, ” yang
disebut ” pemodelan bersama. Pendekatan standar pemodelan bersama adalah
karakterisasi proses longitudinal dengan model efek parametric acak yang berfokus
pada kelancaran perkembangan yang ditentukan oleh sejumlah kecil efek acak dan
yang telah digunakan untuk menggambarkan lintasan CD4 (Tsiatis et al. (1995),
Wulfsohn dan Tsiatis (1997), Bycott dan Taylor (1998), Dafni dan Tsiatis (1998))
Selain perbaikan penyimpangan, pemodelan bersama juga berpotensi meningkatkan efisiensi estimasi parameter karena inferensi simultan pada kedua model longitudinal dan model survival, lihat Faucett dan Thomas (1996); Slasor dan Laird
(2003), Hsieh et al. (2006) untuk diskusi lebih lanjut tentang masalah ini.
4
Universitas Sumatera Utara
5
Meskipun model parametrik yang disebutkan di atas menemukan fitur-fitur
dalam data yang sudah tergabung secara apriori dalam model, model ini mungkin
tidak cukup jika program waktu tidak didefinisikan dengan baik dan tidak masuk
ke dalam bagian yang terbentuk sebelumnya dari fungsi. Dalam situasi analisis
melalui metode nonparametric. Telah ada peningkatan kepentingan analisis nonparametrik data yang berupa sampel untuk kurva atau lintasan, yaitu, ” analisis
data fungsional”, lihat Ramsay dan Silverman (1997) untuk ringkasan. Fungsional
Analisis komponen utama (FPCA) mencoba untuk menemukan modus dominan
variasi sekitar fungsi secara keseluruhan, dan dengan demikian merupakan kunci
dalam teknik analisis data fungsional (Berkey dan Kent (1983); Besse dan Ramsay
(1986), Castro et al. (1986), Rice dan Silverman (1991); Silverman (1996), James
et al. (2000), Yao et al. (2003, 2005); Yao dan Lee (2006).
Sebaliknya, model berkaitan erat yang diajukan oleh Rice dan Wu (2000)
tidak memperhatikan dimensi pengurangan dan mungkin tidak berlaku jika data
jarang, lihat James et al. (2000) untuk perbandingan dari dua pendekatan. Hal
ini membuat perbedaan antara yang diusulkan model dan yang dalam Brown et
al. (2005 ) eksplisit. Keuntungan lain dari model gabungan dengan FPCs adalah
efisiensi perhitungan dicapai dengan pengurangan dimensi menggunakan FPCs dengan matriks kovarians diagonal, sementara model bersama dalam Brown et al.
(2005) dengan B-splines biasanya berisi koefisien yang lebih acak dengan kovarian matriks terstruktur. Interpretasi yang tepat dari eigenfunctions orthogonal
dan nilai FPC sering menyediakan lebih wawasan dari model B-spline. Wang dan
Taylor (2001) mendirikan sebuah proses stokastik Integrated Ornstein Uhlenbeck
(IOU) untuk model yang tidak ditentukan arah lintasan longitudinal dalam konteks model bersama, dalam semangat yang sama dengan lintasan splines. Secara khusus, proses IOU menyajikan struktur kovariansi gabungan dengan model
efek acak dan Brown motion sebagai kasus yang khusus. Keterkaitan keberhasilan
lainnya yang dimasukkan angka nol berarti proses untuk model fluktuasi individu
meliputi Henderson et al. (2000), Xu dan Zeger (2001)
Chiou et al. (2003) mengkaji suatu pendekatan umum yang memadukan
efek kovariat vektor melalui model semiparametrik. Pendekatan itu terdiri dari
dua tahap. Dalam tahap pertama, FPCA dilaksanakan atas semua subjek de-
Universitas Sumatera Utara
6
ngan mengabaikan informasi kovariat. Ini menghasilkan ekspansi Karhunen-Loeve
[lihat (3.1)] untuk setiap subjek X(t) yang mana ekspektasi bersyarat dari X(t)
yang memberikan kovariat Z diperoleh dan selanjutnya ditaksir melalui pendekatan
semiparametrik. Suatu pendekatan yang berbeda ada diajukan Cardot (2006),
yang mengkaji FPCA bersyarat melalui estimator kernal nonparametrik atas fungsi
mean bersyarat dan fungsi variansi bersyarat.
Asumsi utama untuk kedua pendekatan adalah bahwa trayektori data fungsional diamati secara total atau dicatat secara padat seiring berjalannya waktu.
Kedua asumsi jarang dipenuhi dalam studi medis atau sosial longitudinal. Pada
prinsipnya, pendekatan dalam Chiou et al. (2003) tidak cocok untuk perluasan
pada data longitudinal yang tidak padat karena komponen utama bersyarat tidak
bisa ditaksir atau diaproksimasi dengan konsisten untuk data longitudinal yang
tidak padat. Diajukan suatu pendekatan gabungan untuk memodelkan fungsi mean
dan dua pendekatan yang berbeda untuk memodelkan fungsi kovariansi.
Yau dan Muller (2010) memperluas model regresi fungsi linier untuk data
longitudinal terhadap kasus dimana ketergantungan skalar respon pada prediktor
fungsional yang berbentuk polinomial.
Universitas Sumatera Utara
BAB 3
PENGERTIAN TEORITIS FPCA
Prosedur FPCA pada dasarnya adalah bertujuan untuk menyederhanakan
variable yang diamati dengan cara menyusutkan ( mereduksi ) dimensinya. Hal
ini dilakukan dengan cara menghilangkan korelasi diantara variable bebas melalui
transformasi variable bebas asal ke variable baru yang tidak berkorelasi sama sekali
atau biasa disebut dengan principal component analysis.
Ada dua cara untuk memperluas pendekatan FPCA untuk mengakomodir
informasi kovariat. Kedua pendekatan terdiri dari dua bagian : bagian sistematik yang bersesuaian dengan fungsi mean dan bagian stokastik yang terdiri dari
komponen-komponen acak yang mencerminkan struktur kovariansi data lingitudinal. Pada kedua pendekatan tidak mengasumsikan bahwa tidak diketahui struktur µ(t,z ) selain bahwa µ(t,z ) adalah fungsi mulus, karenanya perlu menaksirnya
secara nonparametrik. Perbedaan antara kedua pendekatan adalah dalam penanganan struktur kovariansi. Secara konseptual, kovariat Z bisa berupa suatu vektor
yang mempunyai distribusi kontinu, tetapi karena aturan dimensionalitas hanya Z
berdimensi-rendah yang bisa digunakan. Akan diperlukan beberapa pendekatan
penurunan dimensi untuk Z berdimensi-tinggi dan sudah di luar ruang lingkup
tulisan ini.
Dalam pendekatan pertama, diasumsikan bahwa eigenfungsi dari Γ(t, s, z)
bervariasi sesuai dengan z sehingga terdapat ekspansi ortogonal Γ (dalam artian
L2 ) dalam bentuk eigenfungsi φk (t, z) dan eigenvalue tak naik λk (z) : Γ(t, s, z) =k
λk (z)φk (t, z)φk
(s, z). Dengan demikian, trayektori acak X (t,z ) dapat dituliskan
sebagai
X(t,z) = µ (t, z) +
X
k=1
Ak (z) ∅k(t, z)
(3.1)
7
Universitas Sumatera Utara
8
di mana Ak (z) adalah variabel-variabel acak tidak berkorelasi dengan mean 0
dan variansi λk (z).Selain itu, akan dimodelkan permukaan kovariansi secara nonparametrik, dengan mengasumsikan bahwa permukaan kovariansi tersebut adalah
fungsi mulus dari t, s dan z. Karena fungsi mean maupun fungsi kovariansi disesuaikan oleh kovariat Z, ini disebut fully adjusted functional principal component
analysis dan disingkat fFPCA.
Pendekatan untuk menyesuaikan efek kovariat ini ekuivalen secara konseptual
dengan pendekatan FPCA bersyarat dalam Cardot (2006) tetapi berbeda secara
berarti dalam cara penaksiran disebabkan perbedaan dalam rancangan data yang
dikaji. Perbedaan penting dalam rancangan data juga memicu kerangka teoritis
yang sangat berbeda. Untuk Z satu-dimensi, hanya pemulusan satu-dimensi dibutuhkan dalam Cardot (2006) untuk menaksir fungsi mean maupun fungsi kovariansi sepanjang arah-Z pada masing-masing lokasi waktu karena fungsi keseluruhan
X(t,z) diamati.
P
Bila µ(t,z ) = β(t )z dan komponen-komponen stokastik k=1 Ak (z) ∅k(t, z)
P
dalam model X (t,z )=µ (t, z) +
k=1 Ak (z) ∅k (t, z) mengadopsi struktur linier
bervariasi-waktu b(t)z untuk fungsi β dan fungsi acak b yang tidak diketahui,
P
model X (t,z)=µ (t, z) +
k=1 Ak (z) ∅k (t, z) menghasilkan model efek acak koefisien bervariasi dalam Guo (2002). Bila µ(t,z) berbentuk linier parsial f (t ) +
βz dan komponen stokastik jua berbentuk linier parsial u(t ) + bZ, untuk fungsi
tak diketahui f dan u, parameter β dan variabel acak b, model X (t,z )=µ (t, z) +
P
k=1 Ak (z) ∅k (t, z) direduksi menjadi model campuran linier parsial dalam Zhang
et al. (1998).
Dalam pendekatan kedua, bisa mengambil keuntungan dari fakta Z bahwa kovariat Z adalah variabel acak dan mengumpulkan semua subjek setelah memusatkan
masing-masing kurva pada nol. Ini menghasilkan fungsi kovariansi gabungan Γ* (t,s)
= z E {(X (t,z ) – µ(t,z ))(X (s,z ) – µ(s,z ))}g(z )dz di mana g adalah pdf dari Z
atas Z, dan Γ* (t,s) diasumsikan merupakan fungsi mulus dari t dan s. Akibatnya,
terdapat ekspansi ortogonal (dalam artian L2 ) dalam bentuk eigenfungsi φk ∗ dan
eigenvalue tak naik λk ∗ sedemikian sehingga
Γ∗(t, s) =k φ∗k (t)φ∗k (s), dan
Universitas Sumatera Utara
9
X(t, z) = µ (t, z) +
X
k=1
A∗k ∅∗k (t)
(3.2)
Di mana A∗k adalah variabel acak yang tidak berkorelasi dengan E{A∗k } = 0 dan
var{A∗k } = λ∗k . Pendekatan ini mempunyai keuntungan bahwa fungsi kovariansi
bisa ditaksir dengan pemulus berdimensi lebih rendah, yang mempercepat laju
konvergensi dibandingkan dengan fFPCA disingkat mean adjusted functional principal component analysis ini atas X (t,z ) – µ(t,z ) sebagai ”mFPCA” di mana ”m”
menyatakan operasi penyesuaian mean.
Prosedur penaksiran untuk mFPCA dijelaskan pada bagian selanjutnya Secara konseptual, pendekatan fFPCA akan mencocokkan data dengan lebih baik
apabila beradaptasi terhadap informasi kovariat dalam penaksiran kovariansi sementara mFPCA tidak.
Keuntungan ini bisa diimbangi dengan kinerja praktis yang lebih buruk jika
data tidak padat. Hasil simulasi mencerminkan keuntungan terbatas dari fFPCA,
oleh karenanya mungkin lebih menyukai pendekatan mFPCA dalam banyak aplikasi atau mencoba kedua pendekatan, kecuali eigenfungsi bervariasi secara berarti
atas nilai-nilai kovariat.
3.1 Estimasi
Dalam banyak situasi hanya bisa mengamati proses X (t,z ) secara tak kontinu
dan kemungkinan dengan kesalahan pengukuran. Misalkan Yij adalah pengamatan
ke-j atas fungsi acak Xi , yang dilakukan atas waktu acak Tij ∈ T dengan kovariat
Zi ∈ Z dan kesalahan pengukuran ǫij di mana i = 1, . . . , n dan j = 1, . . .,Ni .
Dalam hal ini di asumsikan bahwa skedul pengukuran Tij adalah sampel acak
berukuran Ni dan Ni diasumsikan dan tak tergantung pada variabel acak lainnya. Juga di asumsikan bahwa kesalahan pengukuran dengan mean 0 dan variansi
konstan σ 2 dan tidak tergantung pada koefisien acak Ak (z ) atau A∗k masing-masing
berdasarkan model (3.1) atau (3.2)
Universitas Sumatera Utara
10
Dengan demikian, data yang diamati adalah
Yij= Xi (Tij, Zi ) + ∈ij.
(3.3)
Tahap-tahap utama dalam pendekatan FPCA adalah untuk menaksir fungsi
mean dan fungsi kovariansi. Eigenvalue dan eigenfungsi yang bersesuaian bisa
diperoleh dengan mudah melalui persamaan-eigen setelah fungsi kovariansi ditaksir. Fungsi mean untuk fFPCA dan mFPCA sama dan bisa ditaksir dengan
menggunakan pemulus diagram-pencar dua-dimensi Yij terhadap (Tij ,Zi ), untuk
j = 1, . . . , Ni , i = 1, . . . , n. Diberikan sifat-sifat asymptot umum dari pemulus
diagram-pencar linier dari fungsi mean µ(t,z) dan membuktikan sifat-sifat asymptot ini atas dua pemulus linier, estimator Nadaraya-Watson (3.8) dan estimator
linear lokal (3.9)
Sama halnya, estimator kovariansi juga bisa dinyatakan sebagai pemulus
diagram-pencar dari apa yang disebut dengan ”kovarian Baku” yang didefinisikan
di bawah ini terhadap (Tij ,Tik ):
Cijk = (Yij − µ
b (Tij , Zi )) (Yik − µ
b(Tik , Z i ))
(3.4)
Estimator kovariansi berbeda untuk fFPCA dan mFPCA. Untuk Z satu dimensi, yang pertama melibatkan pemulus tiga-dimensi Cijk terhadap (Tij ,Tik .Zi )
untuk j,k = 1,. . .,Ni , i = 1,. . .,n sementara yang disebut terakhir hanya membutuhkan pemulus dua-dimensi Cijk terhadap (Tij ,Tik ) untuk j,k = 1,. . .,Ni, i =
1,. . .,n. Pada prinsipnya, bisa menggunakan pemulus linier.
3.1.1 fFPCA
Catatan bahwa cov (Yij , Yik |Tij , Tik , Zi ) = cov (X (Tij , Zi ) , X (Tik , Zi ))+σ 2δjk
di mana δjk sama dengan 1 jika j = k dan 0 untuk lainnya, diagonal dari kovariansi
”mentah” Cijk pada Cijk = (Yij − µ
b (Tij , Zi )) (Yik − µ
b(Tik , Z i )) tidak boleh dima-
sukkan dalam tahap pemulusan fungsi kovariansi. Dalam hal ini pemulus linier
lokal untuk fungsi kovariansi Γ(t,s,z) adalah bL (t, s, z) = βb0
Universitas Sumatera Utara
11
Dimana,
βb = arg β min
n
X
X
K3
i=1 1≤j6=k≤Ni
t − Tij s − Tik z − Zi
,
,
hG,t
hG,t
hG,z
x[Cijk −
(3.5)
+β2 (Tik − s) + β3(Zi − z))]2
dan K3 adalah fungsi kernel tiga-dimensi yang memenuhi
RR k k k
u 1 v 2 w 3 K3 (u, v, w) du dv dw
=
0≤
0,
(−1)|v| |v|!,
P3
i=1
ki < k, ki 6= vi untuk i = 1, 2, 3
ki = v1 , k2 = v2, k3 = v3,
6= 0,
k1 + k2 + k3 = k,
Tujuan selanjutnya menaksir variansi V(t,z ) = Γ(t,t,z ) + σ 2 dari Y(t) untuk
z tertentu. Misalkan K2 adalah fungsi kernel dua-dimensi yang memenuhi
RR
=
uk1 v k2 K2 (u, v) du dv
0
0 ≤ k1 + k2 < k, k1 6= v1, k2 6= v2
(−1)|v| |v|!
k1 = v1, k2 = v2
6= 0
k1 + k2 k1 = k
dan V (t,z ) adalah pemulus linier lokal yang hanya menggunakan elemen-elemen
waktu diagonal; maka
Vˆ (t,z) = βb0, dimana
P P i
βb = argβ min ni=1 N
j=1 K2
t−Tij z−Zi
, hV,z
hV,t
x [Cijj − β0 − β1 (Tij − t) − β2(Zi − z)]2
Variansi σ 2 dari kesalahan pengukuran bisa ditaksir dengan merata-ratakan (V (t,z )
– ΓL (t,t,z )) atas rentang t. Untuk stabilitas, mungkin lebih baik menggunakan
pemotongan mean yang membatasi perata-rataan atas bagian pusat dari domain
Universitas Sumatera Utara
12
waktu. Ditemukan rekomendasi dalam Yao et al.(2005) untuk menggunakan pemotongan mean yang didasarkan pada 50% pusat domain waktu yang memuaskan.
Pada prinsipnya, ini menghasilkan
1
σ
b=
|T1| |Z|
Z
Z
Z
τ1
Vˆ (t,z) −bL (t, t, z)} dt dz ,
(3.6)
di mana T1 adalah interval [inf {t : t ∈ T} + T/4, sup{t : t ∈ T} - T / 4]
dengan notasi I menotasikan panjang interval umum I. Jika variansi dari kesalahan
pengukuran bervariasi seiring berjalannya waktu dan z , fungsi variansi σ 2 (t,s) bisa
ditaksir secara langsung sebagai V (t,z ) – Γ(t,t,z ).
R
bL (t, s, z) b
Penyelesaian persamaan-eigen, Γ
∅k (s, z) ds = b
λk (z) b
∅k (t, z) , di
R 2
mana φˆk (t, z) memenuhi φˆ (t, z) = 1 dan φˆk (t, z)φˆm(t, z)dt = 0 untuk m < k, dik
gunakan untuk menaksir eigenfungsi dan eigenvalue. Sekarang masih harus ditaksir
R
R
skor komponen utama Aik (Zi ) = ∅k (t, Zi ) [Xi (t, Zi ) − µ (t, Zi )] dt untuk subjek ke-i. Karena kesalahan pengukuran dan skedul pengukuran tak kontinu, pen-
dekatan dalam Chiou et al.(2003) dan Cardot (2006) tidak berlaku untuk menaksir
skor ini. Sebagai gantinya, pendekatan dalam Yao et al.(2005) yang bertujuan
menaksir ekspektasi bersyarat E (Aik (Zi )Yi ) cukup cocok untuk menaksir skor
komponen utama di mana Yi = (Yi1 , . . .,YiN i )T . Dengan asumsi bahwa Yi adalah
normal multivariat, ini menghasilkan taksiran
−1
X
d
Aˆik (zi) = b
(Yi − µ
∅Tik
bi ),
Yi
di mana ,
dan
µ
bi = (b
µ (Ti1,Zi ))T , (
X
d
Yi
)j,k = bL (Tij,Tik, Zi ) + σ
b2δjk
b
∅ik = (b
∅k (Ti1,Zi ) , . . . , b
∅k (TiNi , Zi ))T
Universitas Sumatera Utara
13
3.1.2 mFPCA
Penaksiran Γ*(s,t) serupa dengan prosedur dalam Yao, Muller dan Wang
(2005) kecuali bahwa kita gunakan Cijk sebagai kovariansi mentah. Misalkan
ˆ ∗ (t, s) adalah estimator kovariansi yang didasarkan pada pemulus linier lokal,
Γ
ˆ ∗ (t, s) menjadi estimator kovarian berdasarkan linear lokal yang halus,
maka Γ
∧
maka Γ ∗(t, s) = β0
P P
t−T
ik
untuk, βb = arg β min{ ni=1 1≤j6=k≤Ni K2 ( hG∗ij , s−T
x[Cijk −
h G∗
(β0 + β1 (Tij − t) + β2 (Tik − s))]2},
Dimana t,s ∈ T dan K2 didefinisikan dalam
ZZ
uk1 v k2 wk3 K3 (u, v, w) du dv dw
=
0≤
0,
|v|
(−1) |v|!,
P3
i=1
ki < k, ki 6= vi untuk i = 1, 2, 3
ki = v1, k2 = v2, k3 = v3,
6= 0,
k1 + k2 + k3 = k,
Misalkan Vˆ ∗ (t)
adalah pemulus linier lokal yang fokus pada nilai-nilai diagonal
∧
Γ ∗(t, t) + σ 2
maka Vˆ ∗ (t) = βb0, dimana,
P P i
t−Tij
[Cijj − β0 − β1 (Tij − t)]2,
K
βb = argβ min ni=1 N
1
j=1
hV ∗
di mana K1 adalah fungsi kernel dengan pendukung kompak, simetris dan kontinu.
ˆ ∗ (t, t)) digunakan untuk menaksir
Sekali lagi, mean ”terpotong” dari (Vˆ ∗ (t) - Γ
σ 2 sama dengan
σ
b= |T11||Z|
R R
Z
τ1
Vˆ (t,z ) -bL (t, t, z)} dt dz ,
R
ˆ ∗ φˆ∗ (t), di mana
ˆ ∗ (t, s)φˆk ∗ (s)ds = λ
Penyelesaian dari persamaan-eigen, Γ
k k
∗
∗
2
∗
∗
ˆ
ˆ
ˆ
ˆ
φ (t) memenuhi (φ (t)) dt = 1 dan φ (t)φ (t)dt = 0 untuk m < k, digunakan
k
k
k
m
untuk menaksir eigenfungsi dan eigenvalue. Skor komponen utama A∗ ik untuk
Universitas Sumatera Utara
14
Subjek ke-i ditaksir seperti dalam Yao et al.(2005) melalui
−1
T X
∗
ˆ
∗
∗
∗
b b
bi ),
(Yi − µ
Aˆik = λ
k ∅ik
Yi
P∗
di mana Yi dan µi didefinisikan seperti dalam Bagian 3.1.1, dan ˆ Yˆi
j,k
dan φˆ∗ik (t) didefinisikan sebagai
(
dan
X
ˆ ∗
Yi
)j,k =b∗ (Tij,Tik ) + (b
σ ∗)2 δjk
(∅∗k (Ti1) , . . . , ∅∗k (TiN i))T
3.1.3 Seleksi Bandwidth dan Jumlah Eigenfungsi
Bandwidth untuk taksiran fungsi mean dipilih melalui pengesahan silang
menyisakan satu kurva yang diajukan Rice dan Silverman (1991). Akan tetapi
bandwidth dari estimator fungsi kovariansi dipilih melalui prosedur pengesahansilang k-fold untuk menghemat waktu penghitungan. Di bawah ini di definisikan
metode pengesahan-silang k-fold untuk seleksi bandwidth dari Γ* (t,s). Rumus
untuk Γ(t,s,z ) sama.
Andaikan bahwa subjek dialokasikan secara acak ke k himpunan (S1, S2 , . . . , Sk ).
h = argh min
k X
X
X
ℓ=1 i∈Sℓ 1≤j6=m≤Ni
{Cijm −ˆ∗(−Sℓ ) (Tij, Tim )}2
(3.7)
ˆ (St )(Tij , Tim ) adalah taksiran fungsi kovariansi pada (Tij ,Tim ) bila subjekdi mana Γ
subjek di dalam Sl tidak digunakan untuk menaksir Γ*(t,s). Ditemukan metode
Ten-fold (k = 10) yang mempunyai kinerja yang memuaskan.
Tiga kriteria yang menggunakan bilangan eigenfungsi K adalah membicarakan
pada bagian study simulasi. Andaikan bahwa K eigenfungsi pertama digunakan
untuk memprediksi trayektori; diberikan t T dan z Z, prediksi trayektori Xi(t,z)
yang didasarkan pada K eigenfungsi pertama akan menjadi
Universitas Sumatera Utara
15
ˆ K (t, z) = µ
bL (t, z) +
(fFPCA) X
i
PK
k=1
∅k (t, z) ,
Aˆik (z) b
P
ˆ K (t, z) = µ
ˆ∗ b∗
bL (t, z) + K
(mFPCA) X
i
k=1 Aik ∅k (t) ,
3.2 Hasil-hasil Asymtot untuk Fungsi Mean dan Fungsi Kovarian
Untuk penyederhanaan, kovariat Z dalam bagian ini berupa univariat, dan
N1,...Nn adalah dari suatu variabel acak N. Mula-mula fokus pada distribusi asymtot dari pemulus-pemulus linier fungsi mean.
Teori umum untuk estimator berbobot kernel dua dimensi:
Lemma 1: Misal H:RQ → R suatu fungsi dengan orde kontinu turunan pertama
ˆ =
DH(v)=( ∂x∂ 1 H (v) , . . . , ∂x∂Q H(v))T , dan N
Bahwa asumsi
1
n
Pn
i=1
Ni
1. hµ,t ≍ hµ,z ≍ h, h → 0, nE (N ) h|v|+2 → ∞, E (N ) h → 0 dan nE (N ) x h2k+2 <
∞
2. Jumlah observasi Ni (n) untuk subjek i adalah variabel acak dengan Ni (n)˜
N (n) dimana N(n) adalah bilangan bulat positif-nilai acak variabel dengan
2
4
EN (n)
EN (n)
keduanya terbatas. Selain itu,
dan lim supn→∞ (EN
lim supn→∞ [EN
(n)]2
(n)2 )2
Ni(n), i = 1, ..., N
3. Observasi waktu Tij dan pengukuran Yij independen terhadap jumlah pengukuran N (n).
4.
dk
dtk1 dz k2
f2 (t, z) dan kontinu pada (t, z) untuk k1 + k2 = k, 0 ≤ k1, k2 ≤ k, dan
f2 (t, z) > 0
5.
dk
dtk1 dzk2
µ (t, z) dan kontinu pada {(t, z)}, untuk k1 + k2 = k, = 0 ≤ k1, k2 ≤ k.
6. ψq (t, z, y) kontinu pada U ({t, z})diy ∈ R; ;
7. Fungsi
∂p
ψ (t, z, y)
∂tp1 ∂z p2 q
ada untuk semua argumen ( t , y , z ) dan kontinu
pada U ({ t , z }) seragam di y ∈ R untuk P1 + P2 = P dan 0≤ P1 , P2 ≤ P
dan asumsi
hµ,z
hµ,t
2k+2
→ ρµ dan nE(N)hµ,t
→ τµ2 untuk beberapa 0 < ρµ, τµ < ∞,
Universitas Sumatera Utara
16
q
P
T
1 +1
nh2v
[H ψ1 n,..., ψQn −H (α1,..., αQ )]D
[DH (α1,..., αQ )] ,
µ,t
→ N(βH, [ DH(α1,..., αQ )]
Dimana
dan
βH =
P
= (σqr )1 ≤ q, r ≤ 1,
X
k1 +k2 =k
(−1)k
k1 + k2 !
Z
sk11 sk22 K2
(s1,s2 ) ds1 ds2
Q
X
∂H
x{
[ α1 , . . . , αQ )T
∂αq
q=1
q
∂ k1 +k2 −v1 −v2
2 +1
α
(t,
z)}τ
ρ2k
µ
q
µ
∂tk1 −αq ∂z k2 −v2
dari teori di atas diperoleh normalitas asymptot dari estimator kernel NadarayaWatson µ
ˆN W (t, z) dan estimator linier lokal µ
ˆ L (t, z) dari µ(t,z).
Pada prinsipnya,
Pn PNi
i=1
j=1
i=1
j=1
µ
bN W (t, z) = Pn PNi
K2 ((t − Tij )/hµ,t, (z − Zi )/hµ,z )
K2 ((t − Tij )/hµ,t, (z − Zi )/hµ,z )
(3.8)
dimana
µ
bL (t, z) = βb0
∧
β = argβ min
Ni
n X
X
i=1 j=1
K2 (
t − Tij z − Zi
,
)x[Yij −β0 −β1 (Tij − t)−β2(Zi −z)]2 (3.9)
hµ,t
hµ,z
Hasil asymptot untuk fungsi kovariansi,Perlu mempertimbangkan pemulus
tiga-dimensi untuk menaksir fungsi kovariansi. Selain itu, normalitas asymptot dari
estimator kernel Nadaraya-Watson dan estimator linier lokal dari fungsi kovariansi
diperoleh dari Lemma 2. ( Misalkan H:RQ → R menjadi fungsi dengan urutan
pertama yang kontinu Derivative
DH (v) = ( ∂x∂ 1 H (v) , . . . , ∂x∂ 0 H (v))T , dan N =
1
n
Pn
i=1
Ni .Di sini estimator kernel
Nadaraya-Watson atas kovariansi Γ(t,s,z) didefinisikan sebagai
Universitas Sumatera Utara
17
P P
t−Tij s−Tik
n
b
ΓN W (t, s, z) =
, hG,t ,
i=1
1≤j6=k≤Ni K3
hG,t
n
X
X
i=1 1≤j6=k≤Ni
K3
z−Zi
hG,z
Cijk )x
t − Tij s − Tik z − Zi
,
,
hG,t
hG,t
hG,z
!−1
(3.10)
Untuk kemudahan notasional, kita fokus pada kasus kernel konvensional
berorde (0,2) dan di notasikan
σ12 =
RRR
µ21 K3 (µ1,µ2, µ3 ) dµ1 dµ2 dµ3 untuk i = 1 , 2 , 3,
nE (N (N − 1)) h6G,t hG,z → τ12 ,
nE(N (N − 1))h2G,t h5G,z → τ22
Dan
v3 (t, s, z) = V ar((Y1 − µ (T1, Z))(Y2 − µ (T2 , Z))|T1 = t, T2 = s, Z = z)
Hasil-hasil asymptot di atas menunjukkan bahwa angka konvergen optimal
standar untuk data independen dicapai untuk semua estimator bila E(N) berhingga.
Sebagai contoh misalnya, laju konvergensi untuk taksiran Nadaraya-Watson dan
taksiran linier lokal untuk fungsi mean adalah n1/3 yang merupakan laju konvergensi optimal untuk pemulus dua-dimensi dengan syarat keteraturan serupa, dan
laju konvergensi untuk kedua estimator fungsi kovariansi adalah n2/7, juga optimal
untuk pemulus tiga-dimensi serupa.
Laju konvergen dari semua estimator lebih cepat bila perkiraan jumlah pengukuran per subjek E(N) → ∞ apabila semakin banyak data tersedia per subjek.
Sebagai contoh misalnya, laju konvergensi untuk kedua taksiran fungsi mean dan
kedua taksiran fungsi kovariansi bisa secara sebarang mendekati n2/5 bila E(N) →
∞. Catat bahwa n2/5 adalah laju optimal konvergensi bila proses longitudinal ke-
seluruhan Y(.,zi) bisa diamati untuk semua subjek i = 1,...,n; karena itu pemulusan
hanya diharuskan pada arah-z yang menghasilkan laju pemulusan satu-dimensi.
Universitas Sumatera Utara
18
Normalitas asymptot dari estimator kovariansi mFPCA bisa ditangani seperti
dalam Teorema 1. Dengan asumsi
1. hµ,t ≍ hµ,z ≍ h, h → 0, nE (N ) h|v|+2 → ∞, E (N ) h → 0 dan nE (N ) x h2k+2 <
∞
2. Jumlah observasi Ni (n) untuk subjek i adalah variabel acak dengan Ni (n)˜
N (n) di mana N (n) adalah bilangan bulat positif-nilai acak variabel dengan
2
4
EN (n)
EN (n)
dan lim?supn→∞ (EN
keduanya terbatas. Selain itu,
lim?supn→∞ [EN
(n)]2
(n)2 )2
Ni (n), i = 1,. . . , N
3. Observasi waktu Tij dan pengukuran Yij independen terhadap jumlah pengukuran N (n).
4.
dk
dtk1 dz k2
f2 (t, z) dan kontinu pada (t, z) untuk k1 + k2 = k, 0 ≤ k1, k2 ≤
k, dan f2 (t, z) > 0
5.
dk
dtk1 dzk2
µ (t, z) dan kontinu pada {(t, z)}, untuk k1 + k2 = k, 0 ≤ k1,k2 ≤ k.
dan dengan mengasumsikan hhµ,s
→ ρµ dan nE(N)h6µ,t→ τ 2 µ untuk suatu 0
µ,t
p
P
µL (t, z) − µ (t, z)] D
= ρµ ,τ µ < ∞, nhµ,t hµ,z [b
→ N(βL ,
L ),
di mana
βL =
X
k1 +k2 =2
1
k1 !k2 !
Z
sk21 sk22 K2
(s1,s2 ) ds1 ds2
∂2
µ(t, z)τµ
∂tk1 ∂z k2
q
2 +1
ρ2k
µ
f2(t,z ) adalah kepadatan gabungan dari (T,Z ).
Distribusi asymptot estimator yang didasarkan pada ”kovariansi mentah”, Cijk ,
identik dengan yang didasarkan pada Cˆijk = {Yij – µ(Tij ,Zi )}{Yik – µ(Tik ,Zi )}.
Dengan demikian estimator Nadaraya-Watson dan estimator linier lokal dari kovariansi yang didasarkan pada Cijk ekuivalen secara asymptotik dengan estimator
yang didasarkan pada Cˆijk .
Universitas Sumatera Utara
BAB 4
PENERAPAN KOVARIAT PADA FUNGSIONAL PRINSIPAL
KOMPONEN ANALISIS
Perbandingan kinerja kedua pendekatan FPCA yang disesuaikan kovariat dengan estimator dalam Yao, Muller dan Wang (2005) yang disebut dengan istilah
uFPCA dengan awalan “u” yang menunjukkan bahwa itu adalah FPCA “tak disesuaikan” suatu contoh simalusi yang terdiri dari 100 putaran, dan jumlah subjek
adalah 100 pada setiap putaran.
Skema simulasi adalah sebagai berikut: untuk setiap subjek, kovariat z dihasilkan dari U (0,1 ), fungsi mean-nya adalah µ(t,z ) = t + z sin(t ) + (1 – z )cos(t )
dan fungsi variansi-kovariansi diperoleh dari dua eigenfungsi φ1(t,z) = -cos(π(t +
√
√
z/2)) 2 dan φ2 (t,z) = sin(π(t + z/2)) 2, untuk 0 = t = 1 dengan eigenvalue
λ1 (z) = z/9, λ2 (z) = z/36 dan λk = 0 untuk k = 3. Skor komponen utama
spesifik Aik (z) dihasilkan dari N(0,λk (z)), dan kesalahan pengukuran tambahan diasumsikan berdistribusi normal dengan mean 0 dan variansi (0,05)2 . Untuk skema
pengukuran {tij } digunakan rancangan “jittered” nonequidistant. Pada pokoknya,
kisi berjarak sama {c0,...,c50} atas [0,1] dengan c0 = 0 dan c50 = 1 dipilih dan
jittered menurut rencana si = ci + ǫi di mana ǫi adalah i.i.d. dengan N(0, 0,0001)
dan kemudian dibatasi menjadi si = 0 jika si < 0 dan si = 1 jika si > 1. Setiap
kurva diambil sampelnya atas sejumlah acak titik,
{tij }, j = 1,...,Ni, di mana Ni dipilih dari distribusi bilangan acak {2,...,10}, dan
lokasi pengukuran dipilih secara acak dari {s1,...,s49} tanpa penggantian.
Kernel Epanechniknov digunakan dalam tahap-tahap pemulusan. bandwidth
untuk estimator permukaan mean dipilih dengan pengesahan silang sisakan-satukurva sementara lebar pita untuk estimator kovariansi dipilih dengan metode pengesahan silang Tine-fold untuk menghemat waktu penghitungan. Tiga kriteria
(AIC, BIC dan metode fraksi variasi dijelaskan (FVE)) untuk memilih nilai K juga
dibandingkan. AIC dan BIC didefinisikan seperti dalam Yao, Muller dan Wang
(2005).
19
Universitas Sumatera Utara
20
Metode FVE didefinisikan sebagai jumlah minimum komponen yang dibutuhkan untuk menjelaskan setidaknya suatu fraksi yang ditetapkan dari total variasi. Dalam simulasi, kami pilih K untuk uFPCA dan mFPCA sebagai bilangan
P
P
minimum k yang memenuhi ( ki=1 λi )/( i=1 λi ) = 0, 80, dan untuk pendekatan
P
P
fFPCA, ini bersesuaian dengan pemilihan k terkecil yang memenuhi ki=1 λi (z)/ i=1
λi (z) = 0, 80 untuk setiap subjek dengan nilai kovariat z. Perbedaan utama adalah
bahwa FVE tipe ini akan memungkinkan pilihan spesifik-subjek untuk jumlah komponen utama dalam fFPCA. Masalahnya adalah bahwa taksiran kovariansi yang
didasarkan pada jumlah komponen utama yang dipilih secara individual mungkin
tidak menghasilkan permukaan kovariansi mulus. Untuk meluruskan hal ini dan
untuk mempermudah platform seragam guna membandingkan ketiga pendekatan,
kami ajukan pilihan global K yang didasarkan pada persentil ke-90 dari k yang
dipilih secara individual untuk fFPCA. Pilihan global ini bersifat objektif dan
bisa memberikan sedikit keuntungan untuk fFPCA dalam pencocokan data yang
diamati sebagaimana dibandingkan dengan menggunakan nilai mean atau median
dari k sebagai pilihan global. Pendekatan AIC dan BIC cenderung memilih terlalu
banyak eigenfungsi sehingga bisa memprediksi data dengan baik, sementara FVE
adalah yang terbaik untuk memilih model yang tepat. Akan tetapi, pendekatan
ini diungguli oleh pendekatan lain untuk prediksi seperti yang tampak jelas dalam
Tabel 2.
Kuadrat kesalahan terpadu mean dari estimator kovariansi untuk mFPCA
adalah 0,00046, bias dan standard error dari kedua eigenvalue masing-masing
adalah -0,0102 (s.d. = 0,0121) dan -0,0035 (s.d. = 0,0052). Taksiran eigenfungsi
rata-rata dari 100 simulasi mendekati eigenfungsi yang sebenarnya seperti yang
diperlihatkan dalam Gambar 1. Ini menunjukkan bahwa estimator kovariansi dari
mFPCA cukup akurat. Dari Tabel 1 dan Gambar 2, kinerja fFPCA umumnya
memuaskan walaupun akurasi bervariasi dengan kovariat. Taksiran untuk eigenfungsi kedua pada Z = 0,1 buruk disebabkan eigenvalue kecil 0,0028, karenanya
mungkin tidak perlu memasukkan lebih dari satu eigenfungsi untuk Z = 0,1.
Selanjutnya, di bandingkan tiga kriteria pemilihan model yang berbeda dalam
memilih jumlah K eigenfungsi. Kita gunakan kuadrat error terpadu mean (MISE)
untuk kurva yang sebenarnya Xi (t,zi),
Universitas Sumatera Utara
21
MISE =
1
n
Pn R 1
i=1
0
ˆ K (t, zi))2 dt
(Xi (t, zi) − X
i
sebagai kriteria di mana K adalah jumlah eigenfungsi yang digunakan untuk memprediksi trayektori setiap subjek. Kuadrat error pencocokan mean yang bersesuaian
Gambar 4.1 Dua eigenfunctions kovariansi dan estimasi dengan. mFPCA
(Sumber : C.-R. Jiang and J.-L Wang 2010)
P
P i
ˆ 2
MSFE = n1 ni=1 N1i N
j=1 (Yij − Yij )
Sebuah outlier terdeteksi dalam jangka 6 untuk mFPCA diprediksi trayektori, sehingga termasuk dua hasil dalam Tabel 4.2
Tabel 4.1 Hasil Simulasi fFPCA
Covariate z
ˆL
LSE untuk Γ
LSE untuk φˆ1(t, z)
LSE untuk φˆ2(t, z)
ˆ 1 (z)
λ
ˆ 2 (z)
λ
0.1
0.00015
0.0294
0.2720
0.0047
(0.0073)
0.0034
(0.0045)
0.3
0.00025
0.0076
0.0305
-0.0041
(0.0106)
0.0001
(0.0039)
0.5
0.00071
0.0071
0.0242
-0.0113
(0.0181)
0.0005
(0.0057)
0.7
0.0014
0.0074
0.0179
-0.0202
(0.0205)
-0.0002
(0.0077)
0.9
0.0030
0.0112
0.0300
-0.0242
(0.0333)
-0.0037
(0.0094)
(Sumber : C.-R. Jiang and J.-L Wang 2010)
Universitas Sumatera Utara
22
Tabel 4.2 Rata-rata MISE dan MSFE dalam 100simulasi berjalan untuk tiga
pendekatan
uFPCA
mFPCA
fFPCA
FVE
0.0339
(0.0325)
0.1075
(0.0103)
0.0085
(0.0085)
MISE
AIC
0.0215
(0.0198)
0.0077
(0.0063)
0.0077
(0.0077)
BIC
0.0215
(0.0197)
0.0076
(0.0063)
0.0077
(0.0077)
FVE
0.0047
0.0067)
0.0039
(0.0050)
0.0039
(0.0022)
MSFE
AIC
0.0035
(0.0065)
0.0024
(0.0017)
(0.0027)
(0.0015)
BIC
0.0036
0.0025
0.0025
(0.0017)
0.0027
(0.0015)
(Sumber : C.-R. Jiang and J.-L Wang 2010)
Outlier terdeteksi pada putaran ke-6 untuk trayektori yang diprediksi mFPCA,
karenanya kita masukkan dua hasil dalam Tabel 4.2, satu dengan semua simulasi
dan satu dengan putaran outlier ini dicoret. Tidak aneh, uFPCA lebih unggul
pada umumnya dengan kedua pendekatan yang disesuaikan kovariat. Bila menggunakan metode FVE sebagai kriteria dalam memilih K, fFPCA sedikit lebih baik
daripada mFPCA. Akan tetapi, bila menggunakan AIC atau BIC sebagai kriteria
dalam memilih K,di tampilkan dari
Gambar 4.2 Dari dua eigenfunctions pertama diperkirakan melalui fFPCA pada
lima nilai yang berbeda dari covarite tersebut
(Sumber : C.-R. Jiang and J.-L Wang 2010)
Universitas Sumatera Utara
23
Kinerja mFPCA sebanding, jika tidak lebih baik dari kinerja fFPCA. akibatnya, jika tujuannya adalah untuk memprediksi trayektori subjek, direkomendasikan
mFPCA dengan BIC karena kesederhanaannya. Untuk tujuan pemodelan, fFPCA
dengan metode FVE lebih diinginkan.
4.1 Aplikasi Data
Dijelaskan suatu pendekatan FPCA yang disesuaikan-kovariat melalui data
reproduksi untuk lalat buah Mexico. Studi dilaksanakan di fasilitas penangkaran
lalat buah di dekat Metapa, Chiapas, Mexico. Produksi telur (jumlah telur) per
hari dicatat untuk sebanyak 1151 betina sampai lalatnya mati. Tujuannya di sini
adalah untuk mengkaji pengaruh reproduksi dini, sebagaimana diukur menurut
total reproduksi hingga usia 30 (dalam hari), pada pola reproduksi hingga usia
50. Dikesampingkan lalat yang mandul dan lalat yang hidup kurang dari 50 hari.
ini memberikan platform seragam untuk melaksanakan FPCA dan hanya mengkaji
lalat yang hidup setidaknya sekitar lama hidup rata-rata (≈ 50,9 hari) lalat yang
subur. Dari 567 lalat tersisa, di pilih secara acak 2 sampai 10 pengamatan dalam
50 hari pertama, karenanya bisa dibandingkan hasil-hasil untuk data yang jarang
dengan data lengkap untuk mengesahkan pendekatan mFPCA dan fFPCA yang
baru.
Selain itu, dibandingkan pendekatan baru dengan tiga pendekatan FPCA
yang berbeda yang tidak memasukkan informasi kovariat. Yang pertama adalah
uFPCA dalam Yao et al. (2005), yang kedua adalah pendekatan rank tereduksi
dalam James et al. (2000), yang disebut dengan istilah rFPCA dengan ”r” menyatakan rank tereduksi, dan yang ketiga adalah pendekatan geometrik dalam Peng
dan Paul (2009) yang sama dengan metode rank tereduksi tetapi dengan algoritma yang berbeda. Kita sebut pendekatan ini dengan istilah ”gFPCA” dengan
”g” menyatakan geometrik. Baik rFPCA maupun gFPCA mengasumsikan bahwa
X(t) adalah suatu proses Gauss, error pengukuran berdistribusi normal, dan menggunakan basis natural atau B-spline untuk mengekspansikan eigenfungsi. Kedua
pendekatan ini bertujuan memaksimalkan fungsi likelihood, tetapi rFPCA menggunakan algoritma EM untuk mencapainya dan gFPCA menghambat fungsi likelihood secara langsung dengan metode Newton-Raphson dengan mengeksploitasi
Universitas Sumatera Utara
24
struktur geometrik dari eigenfungsi begitu berada di manifol Stiefel. Karena rFPCA
berfungsi sebagai taksiran awal untuk gFPCA, kode awal untuk rFPCA meningkat
dan dimasukkan dalam paket R, fpca, yang tersedia pada proyek CRAN.
Seperti yang diajukan dalam James et al.(2000), jumlah basis di dalam rFPCA
dipilih dengan likelihood pengesahan-silang Ten-fold dan jumlah eigenfungsi dikurangi dengan metode FVE yang biasa (fraksi dari variasi yang dijelaskan). Untuk
data Medfly, dipilih 15 basis dan jumlah eigenfungsi yang dihasilkan bersesuaian
dengan 80% dan 90% FVE, seperti yang dilaporkan dalam Tabel 3, masing-masing
adalah 9 dan 11. Pilihan fungsi basis B-spline dan jumlah eigenfungsi untuk
gFPCA dipilih dengan metode likelihood disahkan-silang baru yang diajukan dalam
Peng dan Paul (2009) dan ini menghasilkan 8 basis dan 5 eigenfungsi.
Tabel 4.3 MSFEs dari mFPCA, fFPCA, uFPCA dan rFPCA berdasarkan data
jarang
mFPCA
fFPCA
uFPCA
rFPCA
uFPCA
gFPCA
FVE(80%)
MSFE K
614.1(465.9)4
614.9(464.4)4
648.6(499.8)2
720.2(136.6)9
681.0(477.3)
untuk K=4
7.85.1(684.6)
untuk K=5(dasar
dalam metode CV)
FVE(90%)
MSFE K
612.8(447.9)6
613.9(454.4)5
684.6(499.8)2
719.1(131.5)11
680.8(472.1)
untuk K=10
784.8(647.1)
untuk K=6
AIC
MSFE K
611.8(433.7)14
612.8(441.3)11
680.8(471.6)8
BIC
MSFE K
612.0(436.4)10
613.2(445.7)7
680.9(473.6)6
680.7(471.6)
untuk K=14
(Sumber : C.-R. Jiang and J.-L Wang 2010)
Gambar 4.1.2 menunjukkan taksiran permukaan mean dari mFPCA dan fFPCA
untuk data jarang dan data lengkap; ini mengindika