Recursive Partitioning RP Bootstrap Agregating Bagging

terdiri dari satu atau lebih variabel. Pada umumnya fungsi basis yang dipilih berbentuk polinomial dengan derivatif yang kontinu pada setiap knot. Fungsi basis dapat digambarkan sebagai fungsi truncated seperti berikut : Dimana t k adalah letak titik knot, dan x adalah variabel prediktor. Sedangkan l adalah derajat spline. Pada data yang bersifat kategorik, knotnya terletak pada nilai kategorinya tersebut. Fungsi basisnya dapat dinyatakan sebagai berikut : BF =

2.7 Recursive Partitioning RP

Recursive partitioning merupakan pendugaan fungsi dengan cara melakukan pemilahan iteratif pada daerah asal D menjadi himpunan bagian yang saling lepas. Dari persamaan : , misalkan terdapat n contoh dari y dan x = dinotasikan dengan . Dengan daerah asal domain dari persamaan diatas diambil dimana merupakan subregion himpunan bagian dari daerah asal D. Universitas Sumatera Utara Penduga fungsi fx dengan pendekatan Recursive partitioning adalah 2.4 dengan : = koefisien dalam subregion, = fungsi dari . menunjukkan fungsi indikator yang mempunyai nilai 1satu jika pernyataan benar dan 0 nol jika pernyataan salah. Penentuan nilai setiap subregion berdasarkan pada model terbaik bagi data, dimana nilai dipilih yang memberikan jumlah kuadrat sisaan terkecil Friedman, 1991. Recursive partitioning merupakan metode yang menjanjikan, tetapi secara umum Recursive partitioning memiliki kekurangan dalam pemodelan regresi, diantaranya Friedman, 1991: a. Model Recursive partitioning menghasilkan subregion yang saling lepas dan diskontinu pada batas subregion. b. Recursive partitioning tidak cukup mampu dalam menduga fungsi fx linier atau aditif. c. Sulit untuk menginterpretasikan model Recursive partitioning jika peubah prediktornya banyak.

2.8 Multivariate Adaptive Regression Spline MARS

Beberapa modifikasi dilakukan Friedman untuk mengatasi kelemahan metode Recursive partitioning. Untuk mengatasi kelemahan Recurrsive Partitionin dalam Universitas Sumatera Utara mengidentifikasi fungsi linier dan aditif, Friedman mengusulkan untuk tidak menghapus fungsi basis awal atau induk parent selama pemilihan subregion berlangsung. Jadi pada iterasi berikutnya parent dan pilahan subregion dapat dipilah lebih lanjut, sehingga diperoleh subregion yang saling tumpah tindih. Dengan modifikasi ini, recursive partitioning dapat menghasilkan model linier dengan pemilihan berulang pada peubah prediktor yang berbeda. Disamping itu dihasilkan pula model yang lebih fleksibel. Untuk mengatasi adanya diskontinu pada titik knot yang disebabkan perkalian fungsi peubah tunggal H [η], Friedman mengusulkan untuk mengganti H [η] dengan regresi linier splines berordo satu dengan sisi kiri - dan sisi kanan + Friedman, 1991.

2.8.1 Metode MARS

Fungsi basis dalam MARS dapat dinyatakan dengan , 2.5 dengan m jumlah pilahan himpunan bagian ke-m dari domain D, knot dari peubah prediktor dan nilainya +1 jika knotnya terletak dikanan subregion dan -1 jika terletak dikiri subregion. Setelah modifikasi Friedman , model MARS menjadi : , 2.6 dengan : = konstanta regresi dari fungsi basis = koefisien dari fungsi basis ke-m, m = 1,…,M Universitas Sumatera Utara M = maksimum fungsi basis nonconstant fungsi basis, km = derajat interaksi, S km = , x vk,m = variabel prediktor ke-v, pilahan ke-k dan subregion ke –m t km = nilai knots dari variabel prediktor x vk,m . Model MARS juga dapat ditulis dalam bentuk sebagai berikut : 2.7 dengan : = konstanta regresi dari fungsi basis = koefisien dari fungsi basis ke-m, m = 1,…,M B m = fungsi basis basis function ke-m, m = 1,…,M.

2.8.2 Algoritma MARS

Pembentukan model MARS Multivariate Adaptive Regression Spline diawali menentukan knot dan fungsi basis setiap variabel prediktor dengan cara mem-plot setiap variabel prediktor dengan variabel respon. Jumlah knot yang optimum akan menghasilkan model MARS yang baik sehingga kemudian dilakukan tahap maju forward dan tahap mundur backward algoritma recursive partitioning yang dimodifikasi, dimana jumlah knot yang optimum disesuaikan dengan perilaku data. Gambaran secara umum algoritma MARS adalah sebagai berikut Friedman, 1991: 1. Forward stepwise Universitas Sumatera Utara Pada tahap ini dimungkinkan untuk memasukkan fungsi basis baru ke dalam model. Maksimal fungsi basis yang akan masuk di dalam model ditentukan oleh peneliti. Berikut adalah langkah yang dilakukan dalam forward stepwise : a. Misalkan B = 1 sebagai fungsi basis awal. b. Tentukan pasangan fungsi basis dan yang merupakan kombinasi prediktor x i dan knot sehingga model memiliki jumlah kuadrat sisaan minimum. , dan . Misalkan B m adalah salah satu fungsi basis yang sudah ada didalam model sebelumnya. Jika m fungsi basis telah dimasukkan, tentukan perkalian dari B m dengan atau sehingga jika B m dan B m ditambahkan ke dalam model maka akan dihasilkan model dengan jumlah kuadrat sisaan terkecil. c. Ulangi langkah c sehingga banyaknya fungsi basis dalam model lebih atau sama dengan maksimum banyaknya fungsi basis yang telah ditetapkan. 2. Backward stepwise Prosedur forward seperti yang dijelaskan sebelumnya akan menghasilkan model dengan fungsi basis dengan jumlah yang sangat banyak. Dalam prakteknya, biasanya maksimum banyaknya fungsi basis yang akan digunakan dalam model dibatasi. Demikian juga dengan derajat interaksi, yang seringkali hanya dibatasi hanya sampai derajat tiga. Dengan pembatasan tersebut, prosedur forward tersebut tetap memberikan model dengan fungsi basis yang sangat banyak. Terkait dengan model yang kompleks ini, harus dilakukan penghapusan beberapa fungsi Universitas Sumatera Utara basis, sehingga dapat dihasilkan model yang lebih sederhana. Prosedur backward dilakukan untuk tujuan ini. Prosedur backward dilakukan dengan tahap-tahap berikut: a. Mulai dari model yang diperoleh pada tahap prosedur forward yang memiliki m fungsi basis. b. Hapus salah satu fungsi basis tidak konstan yang memiliki kontribusi terkecil. Berdasarkan kriteria kuadrat terkecil, fungsi basis yang memiliki kontribusi terkecil adalah fungsi basis yang jika dihilangkan dari model sebelumnya akan menyebabkan terjadinya penurunan jumlah kuadrat sisaan terkecil. c. Ulangi langkah b, sampai model hanya mengandung fungsi basis konstan. Prosedur backward ini menghasilkan sekuens model yang tersarang, f m m =1,2,…. Model terbaik ditentukan berdasarkan kriteria Generalized Cross Validation GCV yang diperkenalkan oleh Wahba pada tahun 1979. Fungsi GCV didefinisikan sebagai berikut : 2.8 dengan : M = jumlahfungsi basis = variabel prediktor = variabel respon N = banyaknya pengamatan Universitas Sumatera Utara Trace +1

2.8.3 Uji Signifikansi Basis Fungsi Model MARS

Pada model MARS dilakukan uji signifikansi Basis Fungsi yang meliputi uji secara bersamaan dan uji individu. Uji signifikansi yang dilakukan secara bersamaan terhadap basis fungsi-basis fungsi yang terdapat dalam model MARS ini bertujuan untuk mengetahui apakah secara umum model MARS terpilih merupakan model yang sesuai dan menunjukkan hubungan yang tepat antara variabel prediktor dengan variabel respon. Hipotesis yang digunakan adalah : Statistik uji yang digunakan pada pengujian ini adalah statistik uji F yang diperoleh dari Nilai F hitung ini kemudian dibandingkan dengan yaitu nilai F dengan tingkat signifikansi α serta v 1 = k dan v 2 = dengan n adalah banyaknya sampel dan k adalah banyaknya fungsi basis yang berkontribusi terhadap model. Universitas Sumatera Utara Jika F hitung F α v 1 ,v 2 maka H ditolak, artinya paling sedikit ada satu α j yang tidak sama dengan nol. Bila pada pengujian secara bersamaan disimpulkan untuk tolak H , selanjutnya akan dilakukan pengujian untuk masing-masing basis fungsi yang bertujuan untuk mengetahui apakah basis fungsi yang terbentuk mempunyai pengaruh signifikan terhadap model, selain itu ingin diketahui pula apakah model yang memuat parameter tersebut telah mampu menggambarkan keadaan data yang sebenarnya. Hipotesisnya adalah sebagai berikut : : Tidak ada hubungan antara variabel Y dan variabel X : Ada hubungan antara variabel Y dan Variabel X Nilai statistik hitung diperoleh dari , dengan merupakan standar error yang diperoleh dari Nilai ini dibandingkan dengan nilai tabel distribusi t dengan derajat bebas dan tingkat signifikansi α. Jika daerah kritis|t hitung | t α2, v, maka H ditolak, artinya ada pengaruh variabel prediktor pada fungsi basis tersebut terhadap variabel respon.

2.8.4 Apparent Error Rate APER

Universitas Sumatera Utara APER adalah ukuran evaluasi yang digunakan untuk melihat peluang kesalahan klasifikasi yang dihasilkan oleh suatu fungsi klasifikasi. Nilai APER ini menunjukkan proporsi observasi yang salah diklasifikasikan oleh fungsi klasifikasi. Dalam penelitian kali ini digunakan respon biner sehingga penentuan kesalahan klasifikasi dapat dihitung dari tabel Klasifikasi berikut : Tabel 2.1 Klasifikasi APER kelas actual kelas prediksi kelas 1 kelas 2 kelas 1 n 11 n 12 kelas 2 n 21 n 22 Keterangan : n 11 = Jumlah kelas aktual 1 yang tepat diklasifikasikan sebagai kelompok 1. n 12 = Jumlah kelas aktual 1 yang salah diklasifikasikan sebagai kelompok 2. n 21 = Jumlah kelas aktual 2 yang salah diklasifikasikan sebagai kelompok 1 . n 22 = Jumlah kelas aktual 2 yang tepat diklasifikasikan sebagai kelompok 2. Nilai APER dihitung sebagai berikut , 2.10

2.9 Bootstrap Agregating Bagging

Metode bagging pertama kali digunakan oleh Breiman 1994 sebagai alat untuk membentuk pengklasifikasi yang lebih stabil. Bagging predictor adalah metode untuk membangkitkan multiple version dari prediktor dan menggunakannya untuk agregate prediktor. Multiple versions dibentuk dengan replikasi bootstrap dari sebuah dataset. Pada beberapa kasus, bagging pada dataset menyebabkan Universitas Sumatera Utara perubahan yang signifikan sehingga bagging dapat meningkatkan akurasi. Ide dasar dari bagging adalah menggunakan bootstrap resampling untuk membangkitkan prediktor dengan banyak versi, dimana ketika dikombinasikan memberikan hasil yang lebih baik dibandingkan dengan prediktor tunggal yang dibangun untuk menyelesaikan masalah yang sama. Misalkan sebuah data set £ terdiri dari . Dari data set tersebut, dilakukan pengambilan sampel berukuran n dengan pengembalian sehingga didapatkan . Pengembalian sampel semacam ini dilakukan sebanyak B kali, sehingga didapatkan . Penentuan besarnya jumlah replikasi B sangat variatif karena besar kecilnya B dapat memberikan hasil yang berbeda pada setiap tahapan analisis. Sutton 2005 merekomendasikan replikasi sebanyak 25 atau 50 kali. Sementara itu, Efron dan Tibshirani 1993 merekomendasikan nilai B yang kecil, misalnya 25 kali. Algoritma bagging untuk MARS adalah sebagai berikut: 1. Mengambil sampel bootstrap sebanyak n dari data set£ dengan pengulangan sebanyak n. 2. Memodelkan MARS dari data set hasil sampel bootstrap . 3. Mendapatkan nilai ketepatan klasifikasi pada setiap pengambilan sampel B replikasi bootstrap. Kesalahan klasifikasi pada langkah ini disebut . 4. Ulangi langkah 1-3 sebanyak B kali replikasi bootstrap. Universitas Sumatera Utara 5. Mendapatkan ketepatan klasifikasi bagging dari rata-rata ketepatan klasifikasi pada setiap pengambilan sampel B. sehingga kesalahan klasifikasi bagging untuk replikasi B kali adalah . Universitas Sumatera Utara BAB 3 METODOLOGI PENELITIAN

3.1 Merumuskan Masalah