Latar Belakang Pendekatan Regresi Kontinum dalam Model Kalibrasi

1 PENDAHULUAN

1.1 Latar Belakang

Analisis regresi ganda merupakan metode statistika yang digunakan untuk memodelkan hubungan matematis antara peubah respon Y dengan p buah peubah bebas X 1 , X 2 , ..., X p . Metode pendugaan yang paling populer adalah kuadrat terkecil dan disebut regresi kuadrat terkecil RKT, karena mudah dari aspek analitiknya. Kemudahan tersebut akibat dari serangkaian asumsi yang sangat ketat guna mendapatkan suatu penduga terbaik yang memenuhi syarat-syarat best linear unbiased estimator BLUE. Asumsi-asumsi yang berkaitan dengan peubah respon adalah : Y merupakan peubah acak yang menyebar normal dengan ragam konstan, serta di antara y i dengan y j saling bebas ,..., 2 , 1 n j i = ≠ . Sedangkan asumsi yang terkait dengan peubah bebas adalah : X merupakan matriks peubah tetap fixed variable, tidak ada korelasi yang tinggi di antara peubah bebas, serta banyaknya peubah bebas lebih kecil dari pada banyaknya pengamatan . n p Apabila salah satu di antara asumsi-asumsi tersebut tidak dipenuhi, maka RKT tidak dapat digunakan. Jika terjadi pelanggaran asumsi pada matriks peubah bebas X, yaitu terdapat kolerasi yang tinggi di antara peubah bebas kolinearitas ganda, maka penggunaan RKT akan menyebabkan ill conditioned yang berakibat galat baku dugaan membesar over estimate. Dengan kata lain, kolinearitas ganda dapat menyebabkan ketelitian accuracy dari dugaan parameter sangat rendah Notodiputro 2003. Sedangkan bila banyaknya peubah bebas lebih besar dari pada banyaknya pengamatan, maka struktur matriks peubah bebas menjadi singular masalah singularitas. Hal ini berakibat matriks X T X tidak mempunyai kebalikan unik khas yang merupakan syarat utama dalam RKT. Beberapa metode statistika telah dikembangkan untuk mengatasi masalah ill conditioned dan singularitas, antara lain : Regresi Komponen Utama RKU, Regresi Kuadrat Terkecil Parsial RKTP, Regresi Ridge RR, pendekatan Bayes, Regresi atas Koefisien Fourier RKF, Jaringan Syaraf Tiruan JST, serta Transformasi Wavelet. Metode lain yang diperkenalkan Stone dan Brooks 1990 2 adalah Regresi Kontinum RK yang merupakan pengembangan dari RKT, RKU, serta RKTP. Penyelesaian masalah ill conditioned dan singularitas dilakukan dengan cara mengurangi banyaknya peubah bebas yakni memampatkan data ke dalam peubah baru peubah latent yang saling bebas dan dimensinya jauh lebih kecil. Peubah baru pada RKU merupakan kombinasi linear dari matriks peubah bebas X yang mempunyai ragam maksimal. Notodiputro 2003 menjelaskan bahwa dalam prakteknya metode RKU, khususnya dalam kalibrasi, memiliki dua kelemahan, yaitu : a informasi tentang konstituen tertentu seringkali tidak dapat dicerminkan secara unik dalam satu komponen, b informasi yang terkandung dalam data spektra Fourier Transform Infrared FTIR tidak dapat direduksi ke dalam satu atau dua komponen walaupun kedua komponen tersebut menerangkan keragaman X sampai lebih dari 99 persen. Dengan demikian dalam model seringkali dibutuhkan komponen utama dalam jumlah yang besar yang berakibat terjadinya overfitting. Hasil kajian empirik Herwindiati 1997 menyimpulkan bahwa RKTP memberikan hasil yang lebih baik dari pada RKU. Peubah baru pada RKTP dikonstruksi dengan memaksimumkan koragam peubah bebas dengan peubah respon. Sejumlah kecil faktor dikonstruksi sebagai kombinasi linear dari matriks peubah bebas X. Selanjutnya regresi atas skor faktor tersebut digunakan untuk menurunkan persamaan prediksinya. Perbedaan pokok RKTP dengan RKU adalah pada RKTP mengkonstruksi faktor yang mampu menerangkan keragaman data spektra FTIR X dan pada saat yang sama faktor tersebut mempunyai hubungan dengan data Y. Konsekwensinya, RKTP cenderung menghasilkan faktor yang lebih sedikit dari pada RKU. Seperti halnya dalam RKU, RKTP juga akan menghadapi masalah overfitting jika untuk mendapatkan model kalibrasi yang baik diperlukan jumlah faktor yang besar. Hasil kajian secara empirik Notodiputro 2003 dengan menggunakan data simulasi dan data Naes tentang konsentrasi lemak diperoleh bahwa pendekatan Bayes dan JST lebih unggul dari pada RKTP. Peubah baru pada RK dikonstruksi dengan memaksimumkan keragaman peubah bebas serta koragam antara peubah bebas dengan peubah respon. Dengan kata lain, RK merupakan kombinasi antara prinsip RKT, RKU serta RKTP 3 sehingga diharapkan metode ini lebih baik dari pada RKU maupun RKTP untuk mengatasi masalah ill conditioned. Stone dan Brooks 1990 memperkenalkan regresi kontinum yang digunakan untuk penyelesaian model kalibrasi pada beberapa contoh kasus. Dengan menggunakan kriteria Indeks Validasi Silang I, dibandingkan berbagai tingkat parameter penyesuaian δ , yang kesimpulannya adalah RK lebih unggul dibandingkan dengan RKT, RKU maupun RKTP. Namun dari aspek statistika, yang dihasilkan hanya dugaan parameter regresi, belum dilakukan pendekatan secara analitik. Sunberg 1993 membuktikan bahwa regresi ridge adalah bentuk khas dari RK jika banyaknya komponen utama dalam model hanya satu. Usaha secara analitik dilakukan De Jong et al. 2001 dengan menggunakan metode Continuum Power Regressión CPR, yakni matriks X didekomposisikan ke matriks singular dengan menggunakan algoritma kanonik. Serneels et al. 2005 memberikan alternatif dalam penyelesaian masalah pendugaan parameter RK. Ada dua metode yaitu Regresi Kontinum Klasik RKK atau RK, serta Regresi Kontinum dengan Pursuit Proyeksi RK-PP. Lebih lanjut, jika ada data pencilan Serneels et al. 2005 mengusulkan suatu Regresi Kontinum Kekar dengan Pursuit Proyeksi RKK-PP. Dari aspek komputasi, seringkali RK maupun RK-PP mengalami kendala jika dimensi matriks data X sangat besar n p dan terdapat kolinearitas ganda. Oleh karena itu perlu dilakukan pemampatan penyusutan data dengan cara melakukan dekomposisi nilai singular pada matriks X secara penuh Serneels et al. 2005. Terdapat beberapa metode pemampatan data di antaranya : analisis komponen utama, transformasi Fourier, transformasi wavelet serta pursuit proyeksi. Pemampatan dimensi peubah yang semula berdimensi tinggi nxp menjadi peubah baru, misalkan berdimensi x p n sehingga p n p − 1 , disebut metode prapemrosesan. Keuntungan analisis komponen utama sebagai metode prapemrosesan adalah komponen utama yang dihasilkan dapat diinterpertasikan. Sedangkan kelemahannya adalah bila dimensi matriks peubah bebas sangat besar akan mengalami kendala dalam komputasi. Transformasi wavelet dan transformasi Fourier pada dasarnya adalah pereduksian dimensi data dengan cara mendekomposisi T ip i i i x x x x , ... , , 2 1 = 4 ke dalam sekumpulan fungsi basis. Transformasi Fourier dikembangkan dari deret Fourier. Pada deret Fourier sebuah fungsi periodik dapat direpresentasikan dengan mengkombinasikan penjumlahan tak hingga dari fungsi sinus dan kosinus. Beberapa tahun setelah penemuan ini, deret Fourier dikembangkan menjadi bentuk yang lebih umum sehingga dapat diterapkan pada fungsi yang non-periodik dan dikenal sebagai transformasi Fourier. Sejak penemuan ini, transformasi Fourier menjadi metode yang sangat cocok untuk menganalisis fungsi, karena transformasi Fourier dapat memberikan informasi tentang frekuensi suatu sinyal. Pada tahun 1909 seorang matematikawan Hungaria, Alfred Haar mengembangkan sebuah basis fungsi dan dikenal sebagai wavelet Haar. Transformasi wavelet dikenal sejak tahun 1980-an sebagai solusi yang dapat menangani kekurangan pada transformasi Fourier dalam menganalisis berbagai fungsi. Prinsip-prinsip yang ada pada metode wavelet merupakan perpaduan antara ide pada wavelet Haar dan ide baru yang muncul dengan adanya perkembangan perangkat lunak komputer, seperti penerapan Multi Resolution Analysis untuk menghitung koefisien-koefisien wavelet dengan algoritma piramid Mallat 1989. Transformasi wavelet dapat mengatasi kekurangan transformasi Fourier, karena metode ini dapat memberikan informasi tentang kombinasi skala dan frekuensi. Dengan transformasi wavelet, sebuah fungsi dapat digambarkan dalam sumbu x yang menunjukkan waktu translasi dan sumbu y menunjukkan frekuensi skala, dan dapat juga ditambahkan dengan informasi amplitudo dalam sumbu z. Transformasi wavelet merepresentasikan suatu kurva, misal spektrum, sebagai kombinasi linear kurva-kurva lain yang relatif lebih sederhana yang disebut fungsi basis atau fungsi wavelet Fearn 1999. Fungsi basis tersebut diperoleh dengan dilatasi dan translasi dua jenis fungsi wavelet yang disebut father wavelet dan mother wavelet Nason dan Silverman 1994. Dalam analisis Fourier fungsi basis yang digunakan adalah fungsi sinus dan kosinus, sehingga metode wavelet dapat dipandang sebagai perluasan dari analisis Fourier. Wavelet berasal dari fungsi skala, dari fungsi ini dapat dibuat sebuah mother wavelet. Wavelet- wavelet lainnya akan muncul dari hasil penskalaan, dilatasi dan translasi pergeseran mother wavelet. 5 Terdapat dua macam wavelet, jika suatu fungsi yang didekomposisi ke dalam fungsi-fungsi wavelet diambil bilangan dilatasi dan translasi yang kontinu maka akan termasuk dalam transformasi wavelet kontinu TWK. Sedangkan jika bilangan dilatasi dan translasi berupa bilangan bulat positif, maka termasuk dalam transformasi wavelet diskret TWD Nason dan Silverman 1994. Pada penelitian ini metode prapemrosesan yang digunakan adalah transformasi wavelet diskret TWD. Hal ini dikarenakan TWD merupakan metode yang paling unggul dibandingkan metode lain. Transformasi Fourier sangat baik digunakan pada fungsi yang stasioner dan gelombang besar, tetapi tidak efektif pada fungsi yang non-stasioner. TWD dapat menutupi kekurangan yang terdapat pada transformasi Fourier, yaitu efektif digunakan pada fungsi yang non-stasioner dan gelombang yang kecil. Selain itu sifat-sifat matriks transformasi wavelet diskret mempunyai keunggulan dibandingkan dengan transformasi Fourier maupun analisis komponen utama, khususnya dalam hal besarnya proporsi keragaman peubah asal X yang dapat diterangkan oleh peubah baru hasil transformasi, sehingga hasil reduksi masih mendekati peubah asal. Sedangkan kelemahannya adalah secara matematis tidak ada jaminan bahwa korelasi di antara koefesien wavelet menjadi relatif kecil, sehingga masih dimungkinkan terjadi masalah kolinearitas ganda dalam pemodelan regresi. Akibatnya transformasi wavelet diskret sebaiknya digabung dengan metode lainnya dalam pemodelan regresi Sunaryo 2005. Dengan demikian masih ada dua masalah penting dalam RK yang belum diungkap dalam penelitian-penelitian terdahulu, yaitu : a bagaimana sifat-sifat statistik dari regresi kontinum, b bagaimana mengatasi masalah jika dimensi dari peubah bebas sangat besar n p . Dua masalah inilah yang menjadi pertanyaan yang akan dijawab dalam penelitian ini. Masalah ill conditioned dan singularitas sering dijumpai pada model kalibrasi. Model kalibrasi pada umumnya menggunakan model matematik dengan data empirik dan pengetahuan untuk menduga Y yang tidak diketahui berdasarkan informasi pada X yang tersedia Martens dan Naes 1989. Model kalibrasi banyak digunakan di bidang kimia, khususnya Chemometrics, yaitu suatu bidang ilmu yang merupakan gabungan antara matematika, statistika, dan kimia. 6 Salah satu penerapan model kalibrasi di bidang kimia adalah untuk menduga senyawa aktif suatu contoh yang diukur melalui Fourier Transform Infrared FTIR atau Near Infrared NIR. Model kalibrasi yang mempunyai tingkat akurasi tinggi dapat digunakan untuk menentukan kandungan senyawa aktif suatu bahan tanaman obat hanya dengan melakukan analisis spektroskopi FTIR suatu contoh bahan. Selain itu penentuan ini dapat dilakukan berdasarkan serbuk kasar atau ekstrak kasar sehingga tidak diperlukan proses yang panjang. Dengan demikian ada penghematan waktu, proses, serta biaya yang cukup berarti. Hal ini akan menunjang industri yang menggunakan bahan baku tanaman obat. Penelitian ini mengkaji model kalibrasi untuk dua jenis tanaman obat yaitu jahe dan temulawak. Dewasa ini penggunaan tanaman obat tidak terbatas pada pembuatan jamu, tetapi juga pada perusahaan farmasi, produk makanan suplemen nutraceuticals, ekstrak herbal dan lain-lain. Agar produk-produk yang dihasilkan perusahaan jamu maupun farmasi terjamin kualitasnya, maka kualitas dari bahan baku tanaman obat juga harus memenuhi standar yang dibutuhkan Danutirto 2001. Informasi tentang kegunaan dan penggunaan tanaman obat dapat dilihat dari kandungan senyawa aktif. Oleh karena itu kajian mengenai kandungan senyawa aktif atau senyawa penciri sangat diperlukan. Proses penentuan konsentrasi senyawa aktif atau senyawa penciri yang dikandung oleh suatu tanaman obat perlu dilakukan secara cepat dan akurat. Untuk itu sangat diperlukan metode yang handal tetapi relatif mudah untuk dioperasikan. Secara kualitatif dan kuantitatif suatu senyawa aktif dapat diketahui antara lain melalui metode HPLC High Performance Liquid Chromatography dengan mengetahui pola kromatogram dan memperbandingkan luas area terhadap suatu standar senyawa yang diketahui. Metode kualitatif lain yang juga sering digunakan adalah spektroskopi FTIR Fourier Transform Infrared yang pada dasarnya memberikan informasi mengenai keragaan gugus fungsi, yang dapat menjadi penanda stabilitas suatu proses untuk melihat pola tapak finger print yang dapat berulang reproducable. Setiap jenis senyawa aktif atau senyawa identitas marker compound secara kimiawi akan memberikan pola tapak FTIR dan juga pola kromatogram yang tertentu tergantung responnya. Kedua peubah ini dapat dimanfaatkan untuk melihat konsistensi respons suatu proses kalibrasi atau standarisasi mutu bahan baku maupun stabilitas proses. 7 Penggunaan HPLC untuk mengetahui kandungan senyawa aktif secara kualitatif dan kuantitatif membutuhkan persiapan yang lama meliputi penghancuran bahan, pelarutan serta biaya yang mahal. Pengukuran lain yang lebih sederhana dan murah adalah spektroskopi FTIR. Kandungan senyawa aktif dalam suatu bahan memiliki pola hubungan dengan panjang gelombang bila senyawa aktif tersebut diamati dengan alat ukur tertentu, misalnya spektroskopi FTIR. Hasil pengukuran FTIR berupa spektrum yang merupakan sederetan ukuran persen transmitans yang diamati pada p buah titik bilangan gelombang dari spektrum yang sama. Hal ini menyebabkan jumlah p cukup banyak, sehingga dalam model kalibrasi selalu timbul permasalahan yang khas yaitu banyaknya pengamatan jauh lebih kecil dari pada banyaknya peubah penjelas p n serta terjadinya kolinearitas ganda Naes 1985. Jenis senyawa aktif dalam rimpang jahe disebut gingerol, sedangkan pada rimpang temulawak disebut kurkuminoid. Contoh rimpang jahe dan temulawak yang digunakan dalam penelitian ini diambil secara acak dari tiga sumber, yaitu : a petani di sentra produksi tanaman obat di daerah Kulonprogo Jawa Tengah dan Karanganyar DIY, b hasil percobaan di kebun percobaan Biofarmaka IPB Bogor, serta c pembelian dari BALITRO, Bogor, Majalengka dan Sukabumi. Selanjutnya rimpang jahe dan temulawak tersebut dilakukan analisis kimia di Laboratorium Kimia Analitik Jurusan Kimia IPB, Laboratorium Terpadu IPB, dan Laboratorium Pusat Studi Biofarmaka IPB. Penelitian ini merupakan rangkaian penelitian Hibah Pascasarjana 2003- 2005 yang merupakan kerjasama antara Departemen Statistika dan Biofarmaka IPB. Dengan data dan masalah yang sama telah dilakukan penelitian oleh dua peneliti dalam rangka penulisan disertasi program Doktor Statistika IPB untuk mengembangkan model kalibrasi dengan menggunakan pendekatan Bayes Erfiani 2005 dan transformasi wavelet diskret Sunaryo 2005. Dari hasil kajian Sunaryo 2005 transformasi wavelet diskret ternyata mempunyai potensi yang lebih unggul dibandingkan dengan metode transformasi yang lain dalam upaya untuk mereduksi dimensi peubah. Oleh karena itu penulis memanfaatkan hasil kajian tersebut, sehingga transformasi wavelet diskret digunakan sebagai langkah awal prapemrosesan dalam regresi kontinum. 8 Disertasi ini terdiri dari tujuh bab, beberapa bab di antaranya bab 3 sampai bab 5 merupakan topik-topik penelitian yang dapat berdiri sendiri tetapi membentuk suatu kesatuan. Topik-topik tersebut telah disajikan pada forum seminar nasional dan diterbitkan pada jurnal ilmiah nasional terakreditasi. Dengan demikian, disertasi ini merupakan rangkaian penelitian yang telah penulis lakukan selama menempuh studi program Doktor Statistika di Sekolah Pascasarjana IPB. Pada bab 3 dilakukan kajian eksplorasi empirik terhadap kinerja dan permasalahan yang ada pada RK. Kajian tentang kinerja RK dimaksudkan untuk melihat potensi RK dalam mengatasi masalah kolinearitas ganda pada berbagai struktur korelasi matriks peubah bebas X pada kasus . p n Setelah diperoleh kesimpulan bahwa kinerja RK sangat bagus, kajian berikutnya adalah bagaimana mengatasi masalah pada RK jika p n . Selain itu juga dikaji bagaimana menentukan optimasi pada fungsi kriteria umum pada RK. Harapan dari kajian ini adalah menemukan suatu metode yang dapat mengatasi masalah ill conditioned dan singularitas. Kajian teoritis pada RK dibahas pada bab 4, khususnya mengkaji sifat-sifat statistik dari regresi kontinum terutama sifat-sifat dari yˆ . Hal ini untuk melihat apakah model yang dihasilkan metode RK atau RK-TWD mempunyai tingkat akurasi yang tinggi. Setelah diperoleh kesimpulan bahwa RK-TWD merupakan metode yang potensial dalam mengatasi masalah ill conditioned dan singularitas serta mempunyai tingkat akurasi yang tinggi, penelitian dilanjutkan dengan menerapkan metode tersebut pada model kalibrasi pada kasus data real, yaitu data senyawa aktif temulawak dan jahe yang disajikan pada bab 5. Pada bab 6 dilakukan pembahasan secara umum, selanjutnya bab 7 membuat simpulan dan saran yang dihasilkan dari penelitian ini.

1.2 Tujuan Penelitian