Multivariate Adaptive Regression Splines MARS

Spline adalah salah satu jenis potongan polinomial, yaitu polinomial yang memiliki sifat tersegmen. Sifat tersegmen ini memberikan fleksibilitas lebih dari polinomial biasa, sehingga memungkinkan untuk menyesuaikan diri secara lebih efektif terhadap karakteristik lokal dari suatu fungsi atau data. Secara umum, fungsi spline berorde adalah sembarang fungsi yang dinyatakan sebagai berikut. | = ∑ + − = ∑ − + − ℎ = ��ngan, − + − = { − − , , dengan : �an adalah konstanta riil , … , ℎ adalah titik-titik knot. Maka fungsi spline di atas menunjukkan fungsi S merupakan potongan polinomial berorde k pada subinterval [ , + ], memiliki turunan kontinu tingkat − , − merupakan fungsi tangga dengan titik –titik lompatan , … , ℎ , dan fungsi adalah adalah suatu polinomial dengan orde di luar [ , ]. Recursive Partitioing Regression RPR merupakan pendekatan dari fungsi ft yang tidak diketahui. ̂ = ∑ = . . dengan, = [ ], I[. ] menunjukkan fungsi indikator yang mempunyai nilai 1 satu jika pernyataan benar dan 0 nol jika salah, merupakan koefisien konstanta yang ditentukan dalam subregion. Penentuan knots pada regresi dummy atau regresi kategori dilakukan secara manual, karena memiliki dimensi data yang rendah dan hal ini tidak akan mengalami kesulitan, sedangkan untuk data yang berdimensi tinggi terdapat kesulitan. Untuk mengatasi hal tersebut digunakan model Recursive Partitioning Regression RPR karena penentuan knots tergantung otomatis dari data. Namun demikian model ini masih terdapat kelemahan yaitu model yang dihasilkan tidak kontinu pada knots, dan untuk mengatasinya digunakan model MARS. Multivariate Adaptive Regression Splines MARS merupakan pendekatan untuk regresi multivariate nonparametrik yang dikembangkan oleh Friedman. Model MARS merupakan salah satu metode yang fleksibel untuk pemodelan regresi dengan data berdimensi tinggi dengan variabel prediktor dimana dan ukuran sampel . MARS merupakan pengembangan dari pendekatan Recursive Partitioning Regression RPR dan rekursif. Beberapa hal yang perlu diperhatikan dalam menggunakan model MARS sebagai berikut Nisa’ dan Budiantara, 2012. 1. Knot Knot yaitu akhir dari sebuah garis regresi region dan awal dari sebuah garis regresi region yang lain. Di setiap titik knot, diharapkan adanya kontinuitas dari fungsi basis antar satu region dengan region lainnya. 2. Basis Function Fungsi Basis BF Basis Function yaitu suatu fungsi yang digunakan untuk menjelaskan hubungan antara variabel respon dan variabel prediktor. Fungsi basis ini merupakan fungsi parametrik yang didefinisikan pada tiap region. Pada umumnya fungsi basis yang dipilih adalah berbentuk polinomial dengan turunan yang kontinu pada setiap titik knot. Friedman menyarankan jumlah maksimum fungsi basis BF adalah 2-4 kali jumlah variabel prediktornya. 3. Interaction Interaksi Interaksi merupakan hasil perkalian silang antara variabel yang saling berkorelasi. Friedman membatasi jumlah maksimum interaksi MI yang diperbolehkan yaitu 1, 2, dan 3. Apabila terdapat lebih dari 3 interaksi, maka akan menimbulkan interpretasi model yang sangat kompleks dan sulit untuk diinterpretasikan. Maksimum interaksi MI yaitu untuk maksimum garis BF yang dapat melewati knotnya. MI = artinya bahwa di dalam modelnya maksimum garis BF dapat melewati 1 titik knot, MI = artinya bahwa di dalam modelnya maksimum garis BF dapat melewati 2 titik knot, dan MI = artinya bahwa di dalam modelnya maksimum garis BF dapat melewati 3 titik knot. Pemodelan MARS ditentukan berdasarkan trial and error untuk kombinasi BF, MI, dan MO untuk mendapatkan nilai dari parameter pemulus yang minimum. MO yaitu minimum jarak antara knot atau minimum observasi antara knot MO sebesar 0, 1, 2, dan 3. M = artinya bahwa di dalam modelnya jarak antara titik knot 0, M = artinya bahwa di dalam modelnya minimum jarak antara titik knot 1, M = artinya bahwa di dalam modelnya minimum jarak antara titik knot 2, dan M = artinya bahwa di dalam modelnya minimum jarak antara titik knot 3 Nisa’ dan Budiantara, 2012. Didefinisikan variabel respon dan variabel prediktor , , �an maka estimator model MARS dapat ditulis sebagai berikut Otok et al., 2008. ̂ = + ∑ ∏[ . , − ] = = dengan : : fungsi basis induk : koefisien dari fungsi basis ke-m : maksimum fungsi basis nonconstant fungsi basis : derajat interaksi ke m : nilainya atau − jika data berada di sebelah kanan atau kiri titik knot , : variabel prediktor dari dengan observasi m : nilai knots dari variabel prediktor , MARS merupakan pengembangan dari pendekatan Recursive Partitioning Regression RPR yang dikombinasikan dengan metode spline, menggunakan algoritma forward stepwise untuk memperoleh fungsi basis dengan cara memodifikasi Algoritma 1 dengan fungsi basis truncated power pada orde = seperti yang terlihat pada Algoritma 2 berikut. Algoritma 2 ← ; ← � ∶ ∗ ← ∞ . = − �o: { , ⃒ { ⃒ } ← ∑ + [+ − ] + + + [− − ] + − = ← min ,…, + ∗ ← ; ∗ ← ; ∗ ← ; ∗ ← �n� if �n� for �n� for �n� for ← ∗ [+ ∗ − ∗ ] + + ← ∗ [− ∗ − ∗ ] + �n� loop �n� algorithm setelah mendapatkan sejumlah fungsi basis pada Algoritma 2, maka untuk menyederhanakan fungsi basis dilakukan algoritma backward stepwise agar memenuhi fungsi basis yang memiliki kontribusi kecil terhadap respon dari forward stepwise seperti yang tertera pada Algoritma 3. Algoritma 3 ∗ = [ , , … , � ]; ∗ ← ∗ ∗ ← {� ⃒ ∗ } ∑ ∗ = � to �o; � ← ∞; ← ∗ = ; ← − { } ← ⃒ � LOF ∑ ∗ , ℎ ← ; ∗ ← ∗ , ℎ ∗ ← ; ; ∗ ← �n� for �n� for �n� for ← ∗ [+ ∗ − ∗ ] + + ← ∗ [− ∗ − ∗ ] + �n� loop �n� algorithm sehingga model MARS dinyatakan dalam persamaan berikut: = + ∑ ∏[ . , − ] = = + i = + ∑ + i = dengan = ∏ [ . , − ] = Dari model MARS pada persamaan 2.22 dalam bentuk matriks dapat ditulis sebagai berikut Otok et al., 2008. = � + . . dengan : = . , , … , = , , , … , � = [ ∏[ . , − ] = … ∏[ . , − ] = ∏[ . , − ] = … ∏[ . , − ] = ⋱ ∏[ . , − ] = … ∏[ . , − ] = ] Menurut Budiantara et al. 2006 penjabaran model MARS yaitu ̂ = + ∑ ∏ [ . , − ] = = ̂ = + ∑ [ . , − ] = + ∑ [ . , − ][ . , − ] = + ∑ [ . , − ] = [ . , − ][ . , − ] + ̂ = + + , + , , + Misal diambil BF = 6 dan MI = 2, maka persamaan 2.30 dapat ditulis sebagai berikut. ̂ = + ∑ ∏[ . , − ] = = . . ̂ = + [ . , − ] + [ . , − ] + [ . , − ] + [ . , − ] + [ . , − ] + [ . , − ] + [ . , − ][ . , − ] + [ . , − ][ . , − ] + [ . , − ][ . , − ] + [ . , − ][ . , − ] + [ . , − ][ . , − ] + [ . , − ][ . , − ] Menurut Budiantara et al. 2006 dari persamaan 2.28 menunjukkan bahwa penjumlahan pertama meliputi semua fungsi basis untuk satu variabel, penjumlahan kedua meliputi semua fungsi basis untuk interaksi antara dua variabel, penjumlahan ketiga meliputi semua fungsi basis untuk interaksi antara tiga variabel dan seterusnya. Dari model MARS pada persamaan 2.27 dapat dijabarkan berikut. = ∑ = merupakan penjumlahan semua fungsi basis untuk satu variabel dan merupakan spline dengan derajat = yang merepresentasikan fungsi univariat. Setiap fungsi bivariat dapat ditulis sebagai berikut. , = ∑ , = . . yang merepresentasikan penjumlahan semua fungsi basis dua variabel �an . Untuk fungsi trivariat pada penjumlahan yang ketiga diperoleh dengan menjumlahkan semua fungsi basis untuk tiga variabel, yang dituliskan sebagai berikut. , , = ∑ , , =

2.4 Pengujian Parameter Model Regresi

Regresi parametrik memiliki asumsi-asumsi yang harus terpenuhi dan apabila salah satu asumsi tidak terpenuhi maka merupakan regresi nonparametrik. Asumsi regresi klasik terdiri dari sebagai berikut. 1. Normalitas Apabila asumsi ini terpenuhi, berarti data yang diambil berasal dari populasi normal yang berarti bahwa ~ , � . Asumsi kenormalan data diuji dengan menggunakan uji Kolmogorov-Smirnov. - Hipotesis : : Residual berdistribusi normal : Residual tidak berdistribusi normal - Tingkat signifikansi =0,05 - Statistik uji : D = supremum |S x − F | S x = probabilitas kumulatif normal F = probabilitas kumulatif empiris - Daerah kritis : di tolak apabila nilai D D t e ,� atau sign . . Kenormalan distribusi dari residual dapat pula dilakukan dengan melihat grafik Normal P-P Plot. Jika asumsi kenormalan dipenuhi, maka harga-harga residual akan didistribusikan secara random dan terkumpul disekitar garis lurus yang melalui titik nol. 2. Kesamaan Varian Homoskedastisitas Uji Heterokedastisitas bertujuan menguji apakah dalam model regresi terjadi ketidaksamaan variansi dari residual satu pengamatan yang lain. Jika variansi dari residual satu pengamatan ke pengamatan lain tetap, maka disebut dengan Homoskedastisitas. Sedangkan, apabila antara pengamatan satu ke pengamatan lain berbeda disebut dengan Heteroskedastisitas. Model yang baik adalah model yang Homoskedastisitas dan tidak terjadi Heterokedastisitas. Ada beberapa cara untuk mendeteksi ada atau tidaknya heterokedastisitas : a. Uji Glejser Uji Glejser menggunakan nilai mutlak dari residual absolut residual sebagai variabel dependen untuk diregresikan dengan variabel independen. Jika nilai signifikansi antara variabel independen dengan absolut residual lebih dari 0,05 maka tidak terjadi masalah heteroskedastisitas. - Hipotesis : : Tidak ada gejala heteroskedastisitas : Ada gejala heteroskedastisitas - Tingkat signifikansi = , - Statistik uji : | | = + + - Daerah kritis : di tolak bila nilai sign .