FUNGSI GOODNESS OF FIT DALAM KRITERIA PENALIZED SPLINE PADA ESTIMASI REGRESI NONPARAMETRIK BIRESPON UNTUK DATA LONGITUDINAL
FUNGSI GOODNESS OF FIT DALAM KRITERIA
PENALIZED SPLINE PADA ESTIMASI REGRESI
NONPARAMETRIK BIRESPON UNTUK DATA
LONGITUDINAL
Anna Islamiyati 1)Keywords— bi-respon, data longitudinal, fungsi goodness of fit, knot, penalized spline, regresi nonparametrik I.
melibatkan parameter smoothing dalam mengontrol kemulusan kurva regresi. Biasanya dalam analisis data riil, selain kurva yang smooth juga sangat dibutuhkan kurva regresi yang dapat diinterpretasikan secara visual. Oleh sebab itu, untuk kebutuhan tersebut, artikel ini memaparkan penggunaan estimator penalized spline dalam kasus data longitudinal birespon.
smoothing. Estimator spline smoothinghanya
Sunaryo dan Ismaini (2012) dengan estimator polinomial lokal. Chamidah dan Saifuddin (2013) menggunakan estimator kernel. Chamidah dan Eridani (2015) menggunakan model regresi semiparametrik dengan estimator P-spline. Lestari, Budiantara, Sunaryo dan Mashuri (2010) menggunakan estimator splinesmoothing. Adapun kasus birespon pada data longitudinal telah diteliti oleh Wang, Guo dan Brown (2000) dan Fernandez, Budiantara dan Otok (2014) yang memodelkan data longitudinal birespon dengan spline
section yang dilakukan olehChamidah, Budiantara,
Penelitian regresi nonparametrik pada data longitudinal telah dibahas oleh Wu dan Zhang (2002) menggunakan estimator polinomial lokal,Cardot, Crambes, Kneip dan Sarda (2007) menggunakan estimator splinesmoothing.Yao danLee (2006),Liang dan Xiao (2006), Chen dan Wang (2011), Heckman, Lockhart dan Nielsen (2013) menggunakan estimator penalizedsplinedalam model efek acak campuran. Namun, penelitian tersebut hanya melibatkan satu respon dalam model regresi. Sementara dalam beberapa kasus, sering melibatkan respon lebih dari satu. Seperti dalam penelitian data cross
Data longitudinal adalah data yang diukur berulang kali berdasarkan waktu pengukuran. Data longitudinal diasumsikan bahwa setiap subyek yang diukur tidak saling berkorelasi, tetapi antar data pengamatan di dalam subyek yang sama saling berkorelasi. Wang (2003) merekomendasikan penggunaan regresi nonparametrik untuk data longitudinal. Regresi nonparametrik digunakan ketika pola data tidak mengikuti fungsi parametrik, atau terdapat informasi-informasi awal penelitian mengenai kondisi data yang diteliti.
PENDAHULUAN
Abstract— Kriteria regresi penalized spline terdiri atas dua fungsi yaitu fungsi goodness of fit yang memuat titik knot dan fungsi penalti yang memuat parameter smoothing. Fungsi goodness of fit menyatakan ketepatan kurva regresi dengan mempertimbangkan nilai mean square error. Artikel ini menguraikan fungsi goodness of fit dari estimator penalized spline yang digunakan dalam estimasi model regresi nonparametrik dengan melibatkan dua respon pada data longitudinal.Berdasarkan studi simulasi, diperoleh estimasi kurva regresi dengan beberapa pola perubahan data berdasarkan titik knot. Pola perubahan yang terjadi pada data terlihat secara visual, sehingga memudahkan peneliti dalam menginterpretasikan data.
, Fatmawati
2) , Nur Chamidah 3)3)
2)
2)3) Departemen Matematika Fakultas Sains dan Teknologi Universitas Airlangga
Kampus C Mulyorejo, Surabaya, Surabaya
1)
1)
Mahasiswa Program S3 Departemen Matematika Fakultas Sains dan Teknologi Universitas Airlangga
Kampus C Mulyorejo, Surabaya, Surabaya
Jl. Perintis Kemerdekaan KM. 10 Tamalanrea, Makassar
1)1)
Program Studi Statistika Departemen Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Hasanuddin
Sejauh ini, penelitian tentang estimator penalized spline masih sebatas pada penggunaan satu respon dengan data cross section. Ruppert (1997, 2002), Claeskens, Kribovokova dan Opsomer (2007), dan Montoya, Ulloa dan Miller (2014) mengembangkan estimatorpenalizedsplinedengan mengambil bentuk
truncated sebagai dasar pembentukan fungsi penalizedspline dalam goodness of fit, serta
y f t
T y f t y f t N
ˆ ˆ GCV . trace
1
2
Kriteria GCV pada model regresi nonparametrik untuk data longitudinal adalah sebagai berikut:
(3) PLS adalah penalized least square, dengan adalah parameter smoothing dan β adalah koefisien regresi spline.
1 PLS . n d i i q v i v
1
2 ( )
2
nonparametrik untuk data cross section adalah sebagai berikut:
penalized spline dalam model regresi
dan matriks variansi-kovariansi W. Claeskens, dkk (2009) membuat kriteria
, dan adalah vektor error yang diasumsikan berdistribusi normal, dengan mean
2
penalized spline. Apabila r ij f t diasumsikan
yang tidak diketahui bentuknya pada data longitudinal dan diestimasi dengan estimator
r ij f t adalah fungsi
r ij f t .
dalam persamaan (2) dapat dinyatakan sebagai
IV. HASIL DAN PEMBAHASAN Fungsi f
Kemampuan fungsi goodness of fit dalam estimasi kurva regresi nonparametrik birespon pada data longitudinal ditunjukkan melalui studi simulasi dalam bentuk linear dan kuadratik. Diasumsikan bahwa orde dan jumlah knot pada setiap fungsi spline adalah sama.
W
f t dt
1 PWLS . r h b T c r r r a
1
2
.
dilakukan dengan estimator smoothingspline melalui optimasi penalized weighted least square (PWLS) yang melibatkan pembobot dalam bentuk matriks variansi-kovariansi W.Kriteria PWLS tersebut adalah sebagai berikut:
III. METODE PENELITIAN Penelitian ini merupakan pengembangan teori dari regresi nonparametrik birespon yang digunakan dalam menganalisis data longitudinal. Estimator yang digunakan adalah penalized spline yang memuat fungsi goodness of fit dan fungsi penalti. Estimasi fungsi regresi nonparametrik f
, dengan N n m (Wu & Zhang, 2006).
adalah matriks hat yang berukuran N N
A
(4) ( )
I A
T m n n nm T m n n nm
matriks roughness dalam fungsi roughnessnya. Jadi, penalizedspline selain menggunakan titik knot dalam estimasi fungsi spline, juga menggunakan parameter smoothing. Hal ini yang menjadi keunggulan dari penalizedspline, karena memperhitungkan titik knot dan parameter penghalus secara bersamaan, sehingga menghasilkan ketepatan dan kehalusan bentuk kurva secara simultan.
y f
2.12 2.1 2. 1 2. 2 2.
2.11
2
1.12 1.1 1. 1 1. 2 1.
1.11
1
2
1
1 1
, (2) dengan
Model regresi nonparametrik birespon pada data longitudinal seperti pada persamaan (1), dapat dinyatakan dalam bentuk vektor yaitu:
T m n n nm T m n n nm y y y y y y y y y y y y y y y y y
adalah variabel error respon r pada subjek ke-i.
. r ij
bersesuaian dengan respon r pada subjek ke-i, dan
r f adalah fungsi regresi yang
menunjukkan variabel respon r pada subjek ke-i dalam waktu ke-j,
r ij y
. .
i r i n j m
(1) dengan 1,2; 1,2, , ; 1,2, ,
( ) , r ij r ij r ij y f t
II. TINJAUAN PUSTAKA Permasalahan dalam data longitudinal sama halnya dengan kasus data cross section, bahwa terdapat kasus riil yang melibatkan beberapa variabel respon yang saling berkorelasi. Fernandez dkk, (2014) telah meneliti kasus dua respon yang saling berkorelasi pada data longitudinal, yang disebut model regresi nonparametrik birespon dan diestimasi dengan smoothing spline. Model regresi nonparametrik birespon untuk data longitudinal dinyatakan sebagai berikut: . .
Artikel ini menguraikan fungsi goodness of fit dalam kriteria penalized spline pada kasus data longitudinal birespon. Fungsi goodness of fit terkait dengan ketepatan kurva regresi yang mempertimbangkan nilai mean square error. Keunggulan metode ditunjukkan melalui studi simulasi dari fungsi respon linear dan kuadrat.
, , , , , , , , , , , , , , , , , , , . n n
, , , , , , , , , , , , , , , , , , , . n n
2.12 2.1 2. 1 2. 2 2.
2.11
2
1.12 1.1 1. 1 1. 2 1.
1.11
1
2
1
1 1
T m n n nm T m n n nm f f f f f f f f f f f f f f f f f
, , , , , , , , , , , , , , , , , , , . n n
2.12 2.1 2. 1 2. 2 2.
2.11
2
1.12 1.1 1. 1 1. 2 1.
1.11
1
2
1
1 1
memiliki orde dan jumlah knot yang sama pada
q q q
setiap respon 1 dan respon 2, maka fungsi spline
1
1 t t ( t K ) ( t K )
1
1 1 1 d
birespon dapat dinyatakan sebagai berikut: q d q q q u q 1 t t ( t K ) ( t K
2
2
2 1 2 d
) ,
X
1
f t t t K (6) r ij r u . ij r q v .( ) ij v .
u v 1
q q q
Bila persamaan (6) dinyatakan dalam bentuk
t t t K t K
1 ( ) ( ) n n n
1 n d
matriks, maka diperoleh:
q q q
1 t t ( t K ) ( t K )
1
1
1 1 1 d
f t X . (7)
q q q
1 t t ( t K ) ( t K
2
2
2 1 2 d
X
2
Berdasarkan persamaan (7), model regresi ) .
nonparametrik birespon pada data longitudinal berdasarkan estimator penalized spline seperti
q q q
t t t K t K
1 ( ) ( ) n n n
1 n d
persamaan (1) dapat dinyatakan dalam bentuk
T
matriks sebagai berikut: Selanjutnya adalah error random
y X . (8)
pada respon ke-1 dan respon ke-2
T
adalah vektor respon yang memuat dua variabel
y
, , , , , , , , ,
1
1.11
1.12 1.1 m 1. 1 n 1. 2 n 1 n 1. nm T
respon yaitu y y y , , dengan vektor respon
T
1 2
, , , , , , , , .
2
2.11
2.12 2.1 m 2. 1 n 2. 2 n 1 n 2. nm
pertama adalah
T
Model regresi nonparametrik birespon pada
y y , y , , y , , y , y , , y 1
1.11
1.12 1.1 m 1. 1 n 1. 2 n 1 n 1. nm
data longitudinal dalam persamaan (8) diestimasi dan vektor respon kedua adalah melalui kriteria PWLS. Kriteria PWLS memuat
T
fungsi goodness of fit dan fungsi penalti, yaitu:
y y y y y y y , , , , , , , , .
m n n nm b
2
2.11
2.12 2.1 2. 1 2. 2 1 n 2.
2
2 T 1 c
r h .
PWLS W f t dt . (9)
r r
adalah vektor koefisien regresi spline pada
r
1 a
T
Fungsi goodness of fit dinyatakan oleh respon ke-1 dan respon 2 yaitu ,
1
2 1 T
W yang menyatakan nilai mean square
adalah koefisien regresi spline pada respon ke-
1 error dari model regresi nonparametrik birespon.
1 T 1,
Misalkan , fungsi goodness of fit
G W T
, , , , , , , , dapat diuraikan berdasarkan persamaan (8), yaitu:
1.0
1.1
1.2 1. q 1.( 1) q 1.( q d ) T
1
T
1
1
adalah koefisien regresi spline pada respon 2, G W y
X W y X . (10)
2
T
Apabila persamaan (10) diuraikan maka diperoleh:
, , , , , , , .
2.0
2.1
2.2 2. q 2.( 1) q 2.( q d ) T
2
1 T T
1 T T
1
G y W y
2 X W y
X W X .(11)
Selanjutnya
X dinyatakan sebagai matriks X W adalah matriks variansi kovariansi yang
pada respon 1 dan matriks
X pada respon 2, yaitu
dinyatakan sebagai :
X
1 .
X Σ Σ
11
12
, (12)
0 X
W
2
Σ Σ
21 22
dengan Σ adalah matriks variansi pada respon 1,
11
Σ Σ adalah matriks kovariansi antara respon
21
12
1 dengan respon 2 dan Σ adalah matriks variansi
22 pada respon 2.
Titik knot yang termuat dalam matriks X menunjukkan titik atau lokasi terjadinya perubahan pola data. Pada estimator penalized
spline, perubahan pola data terlihat secara visual
sehingga lebih mudah dalam kepentingan interpretasi hasil analisis data.
Selanjutnya dalam artikel ini, fungsi penalti yang digunakan berdasarkan fungsi penalti yang diusulkan oleh Ruppert dan Carrol (2000) pada data cross section unirespon yaitu :
b
2 c T
f t dt D (13) .
a Berdasarkan persamaan (11) dan (13), kriteria linear menunjukkan hasil estimasi kurva regresi PWLS dalam model regresi nonparametrik bi- tidak tepat dalam menggambarkan kondisi
2
respon data longitudinal adalah: perubahan data. Hal ini ditunjukkan oleh nilai R
T
sangat kecil dan banyaknya data yang jauh dari
PWLS G D . (14) garis taksiran regresi. G adalah fungsi goodness of fit seperti pada persamaan (11), parameter adalah koefisien y1 = 5.156 + 0.05707 tij Fitted Line Plot
7.5 S 1.06732
regresi spline yang memuat koefisien regresi pada R-Sq 1.4% 7.0 R-Sq(adj) 0.0% respon 1 dan respon 2, adalah parameter 6.0 6.5
smoothing. diag , adalah matriks D D D , D
1
1
2 y1 5.0 5.5
diagonal (0,1) pada respon ke-1 atau 4.0 4.5 D a a a a a a 1 diag 1.0 , 1.1 , , 1. , 1.( 1) , 1.( 2) , , 1.( )
q q q q d 1 2 3 4 5 6 7 8 9 a a , , , a , a , a , , a 1.0 1.1 1. 1.( 1) 1.( 2) 1.( ) 1 . tij q q q q d
Gambar 1. Kurva linear dari fungsi respon pertama (f ) 1
D diag a a , , , a a , , a , , a 2 2.0 2.1 2. 2.( 1) 2.( 2) 2.( ) q q q q d
adalah matriks diagonal (0,1) pada respon ke-2 , Fitted Line Plot y2 = 9.686 + 0.0618 tij
a a , , , a a , a , , a 2.0 2.1 2. 2.( 1) 2.( 2) 2.( ) 1 . S 1.31299 q q q q d 12 13 R-Sq(adj) 0.0% R-Sq 1.1%
Selanjutnya melalui persamaan (14), estimasi 11 koefisien regresi diperoleh :
1 y2 10 T
1 T
1
ˆ
X W X D X W y . (15) 9
8 Berdasarkan persamaan (15), estimasi fungsi 7 regresi nonparametrik bi-respon pada data 1 2 3 4 tij 5 6 7 8 9 longitudinal berdasarkan estimator penalized
spline adalah sebagai berikut. Gambar 2. Kurva linear dari fungsi respon kedua (f ) 2
1 T
1 T
ˆ ˆ
1 Selanjutnya data dianalisis dengan
f t
X X X W X D X W y .(16)
menggunakan regresi nonparametrik birespon
Selanjutnya matriks smoothing dari model melalui penalized spline linear. Ditentukan titik regresi nonparametrik birespon dinyatakan oleh knot yang digunakan adalah 2 dengan melibatkan yaitu : A pembobot matriks variansi kovariansi.
1 T
1 T
1
A
X X W X D X W . (19)
Matriks parameter smoothing terkait dengan nilai GCV, dan GCV dari model regresi nonparametrik birespon pada data longitudinal berdasarkan estimator penalized spline adalah sebagai berikut:
T T y
I A
I A y
, (20)
GCV 1 n 2
2 m tr
I A
i i 1
Gambar 3. Estimasi kurva regresi nonparametrik birespon
dengan A adalah matriks parameter smoothing
melalui penalized spline linear 2 titik knot pada respon pertama T
seperti pada persamaan (19), y y y , m 1 , 2 i
adalah jumlah pengukuran berulang pada subyek ke-i.
Selanjutnya, studi simulasi dilakukan dalam artikel ini untuk menunjukkan keunggulan titik knot dalam fungsi goodness of fit pada kriteria PWLS. Simulasi fungsi dibuat pada fungsi linear dan fungsi kuadratik. Fungsi linear dari setiap respon, dinyatakan sebagai berikut:
1
1 f 3.5 2.1 t 2.2 t
2 2 t
4
1 ij ij ij
1
1 f t t t
6.5 1.5
1.5
2
1.5
4 2 ij ij ij Gambar 4. Estimasi kurva regresi nonparametrik birespon melalui penalized spline linear 2 titik knot pada respon kedua
Bentuk fungsi linear seperti pada Gambar 1 dan 2 menunjukkan kecenderungan data meningkat secara linear. Namun, hasil analisis dengan regresi
Berdasarkan Gambar 3 dan 4, terlihat pola perubahan data secara visual berdasarkan titik knot yang terpilih. Pola data kadang meningkat, kadang pula mengalami penurunan drastis. Ada perbedaan pola yang terjadi pada respon 1 dengan respon 2, akan tetapi kecenderungan data untuk naik turun dalam interval tertentu terlihat hampir sama. Pola tersebut sangat berbeda dengan Gambar 1 dan 2 yang terlihat kedua fungsi meningkat secara linear.
2.1
Hasil estimasi kurva regresi bi-respon pada data simulasi menunjukkan bahwa titik knot yang terlibat dalam fungsi goodness of fit memberikan estimasi kurva yang lebih tepat dalam menjelaskan pola perubahan data. Kemampuan estimator penalized spline dalam estimasi model regresi nonparametrik birespon ditunjukkan dengan plot residual yang menyebar secara acak seperti yang ditunjukkan pada Gambar 9 dan 10.
Gambar 7 dan 8 menunjukkan pola perubahan pada fungsi respon pertama dan respon kedua tidak monoton naik secara kuadrat, tapi terlihat tiga pola data yang berbeda pada setiap interval waktu pengamatan.
Gambar 7.Estimasi kurva regresi nonparametrik birespon melalui penalized splinekuadratik 2 titik knot pada respon pertama Gambar 8.Estimasi kurva regresi nonparametrik birespon melalui penalized splinekuadratik 2 titik knotpada respon kedua
Selanjutnya data dianalisis dengan menggunakan regresi nonparametrik birespon melalui penalized spline kuadrat, seperti pada Gambar 7 dan 8.
Gambar 5. Kurva kuadrat dari fungsi respon pertama (f 1 ) Gambar 6. Kurva kuadrat dari fungsi respon kedua (f 2 )
yang kecil. Hal ini menyebabkan, hasil taksiran kurva regresi tersebut tidak dapat digunakan untuk menjelaskan kondisi data.
2
Bentuk fungsi kuadratik pada respon pertama dan respon kedua ditunjukkan pada Gambar 5 dan 6. Pada fungsi respon pertama dan kedua, data cenderung meningkat secara kuadratik.Namun, hasil taksiran kurva tersebut memberikan nilai R
5 ij ij ij ij ij ij ij ij f t t t t
1.5
3
1.5
5 6.5 1.5
Selanjutnya simulasi kedua dilakukan pada fungsi kuadratik, yaitu sebagai berikut:
2
3
2.2
1.5
2 3.5 2.1
2
2
2
1
2
2
2
Gambar 9. Plot residual dari regresi nonparametrik birespon melalui penalized spline linear 2 titik knot 7 6 5 4 3 2 1 8 7 6 5 4 3 S 1.19313 R-Sq 3.2% R-Sq(adj) 0.0% tij y1 Fitted Line Plot y1 = 5.279 - 0.0894 tij + 0.02660 tij^2 7 6 5 4 3 2 1 13 12 11 10 9 8 7 S 1.50863 R-Sq 0.6% R-Sq(adj) 0.0% tij y2 Fitted Line Plot y2 = 9.631 - 0.0697 tij + 0.01706 tij^2
Spline Estimators”,Biometrik, 96(3), 529- 544. Fernandes, A.A.R., Budiantara, I.N., Otok, B.W., dan Suhartono, 2014. “Spline Estimators for Bi-
Responses Nonparametrik Regression Model for Longitudinal Data”,Applied Mathematical Sciences, 8 (114), 5653 – 5665.
Lestari, B., Budiantara, I.N., Sunaryo. S., dan Mashuri, M., 2010,“Spline Estimator in Multiresponse Nonparametrik Regression Model”. J. Basic Sci., 11: 17-22. Liang, H., dan Xiao, Y., 2006,“Penalized for Longitudinal Data with an Application in
AIDS Studies”,Journal of Modern Applied Gambar 10. Plot residual dari regresi nonparametrik birespon Statistical Methods, 73, 13 – 22. melalui penalized splinekuadrat 2 titik knot
Heckman, N., Lockhart R., dan Nielsen J.D., 2013,“Penalized Regression, Mixed Effect Models and Appropriate
V. KESIMPULAN DAN SARAN
Modelling”,Electronic Journal of Statistics,
Fungsi goodness of fit dalam kriteria penalized 7, 1517-1552.
spline mampu menghasilkan estimasi kurva yang Montoya, L.E., Ulloa, N., dan Miller, V., 2014,“A
lebih akurat. Selain itu, estimasi kurva mampu
Simulation Study Comparing Knot
menjelaskan pola perubahan yang terjadi pada data
Selection Methods with Equally Spaced Knot in a Penalized Regression
berdasarkan waktu pengukuran.
Spline”,International Journal of Statistic
Pada penelitian selanjutnya, perlu diteliti fungsi and Probability, 3(3), 96-110. penalti yang terdapat dalam kriteria penalized
Ruppert, D., 1997,“Penalized Spline”,Australian and spline. Fungsi penalti dalam penalized spline
New Zealand Journal of Statistics, 42(2),
melibatkan parameter smoothing dan titik knot 205-223. secara simultan dalam mengontrol kemulusan
Ruppert, D., dan Carrol, R.J., 2000,“Spatially-Adaptive kurva.
Penalties for Spline Fitting”,Australian and
AFTAR USTAKA
D P
New Zealand Journal of Statistics, 42(2), 205-223.
Cardot, H., Crambes, C., Kneip, A.,dan Sarda., P., 2007,“Smoothing Splines Estimators in Ruppert, D., 2002,“Selecting The Number of Knot for Functional Linear Regression with Errors in Penalized Spline”,Journal of Computational
Variables”,Comput. Stat. Data Anal., 51, and Graphical Statistics,11(4), 735-757. 4832-4848.
Wang, Y., Guo, W., dan Brown, M.B., 2000,“Spline Chamidah, N., Budiantara, I.N., Sunaryo, S., dan Smoothing for Bivariate Data with Ismaini, Z., 2012,“Designing of Child Application to Association Between Growth Chart Based on Multi Response Hormones”,Statistica Sinica. 10 : 377-397. Local Polynomial Modeling”,Journal of Wang, Y., 2003, Nonparametrik Regression Analysis of Mathematics and Statistics, 8 (3), 342-347.
Longitudinal Data. Technical Report. Chamidah, N., dan Saifudin, T., 2013,“Estimation of Department of Statistics, University Of
Children Growth Based on Kernel California, Davis, USA. Smoothing in Multi response Wu, H., & Zhang, J.T., 2002,“Local Polynomial Mixed Nonparametrik Regression”,Applied Effects Models for Longitudinal Data”.
Mathematical Sciences, 7 (37), 1839-1847.
Journal of America Statistical Association, Chamidah, N. dan Eridani., 2015,“Designing of Growth 97, 883-897.
Reference Chart by Using Bi-Response
Wu, H., dan Zhang, J.T., 2006,Nonparametrik
Semiparametrik Regression Approach Regression Methods for Longitudinal Based on P-Spline Estimator”, Internat. J.
Data Analysis, John Wiley & Sons, Appl. Math. Statist, 53(3), 150-158.
Chen, H., dan Wang, Y., 2011,“A Penalized Spline New Jersey.
Approach to Functional Mixed Effects Yao dan Lee., 2006,“Penalized Spline Models for Model Analysis”,Biometrics, 67, 861-870. Functional Principal Component Claeskens, G., Kribovokova, T., dan Opsomer, J.D. ,
Analysis”,Journal Royal Statistical Society, 2009,“Asymptotic Properties of Penalized Series B, 68 (1), 3 – 25.