1 PENDAHULUAN
1.1 Latar Belakang
Analisis regresi ganda merupakan metode statistika yang digunakan untuk memodelkan hubungan matematis antara peubah respon Y dengan p buah peubah
bebas X
1
, X
2
, ..., X
p
. Metode pendugaan yang paling populer adalah kuadrat terkecil dan disebut regresi kuadrat terkecil RKT, karena mudah dari aspek
analitiknya. Kemudahan tersebut akibat dari serangkaian asumsi yang sangat ketat guna mendapatkan suatu penduga terbaik yang memenuhi syarat-syarat best linear
unbiased estimator BLUE. Asumsi-asumsi yang berkaitan dengan peubah respon
adalah : Y merupakan peubah acak yang menyebar normal dengan ragam konstan, serta di antara y
i
dengan y
j
saling bebas ,...,
2 ,
1 n
j i
= ≠
. Sedangkan asumsi
yang terkait dengan peubah bebas adalah : X merupakan matriks peubah tetap
fixed variable, tidak ada korelasi yang tinggi di antara peubah bebas, serta banyaknya peubah bebas lebih kecil dari pada banyaknya pengamatan
. n
p Apabila salah satu di antara asumsi-asumsi tersebut tidak dipenuhi, maka RKT
tidak dapat digunakan.
Jika terjadi pelanggaran asumsi pada matriks peubah bebas X, yaitu
terdapat kolerasi yang tinggi di antara peubah bebas kolinearitas ganda, maka penggunaan RKT akan menyebabkan ill conditioned yang berakibat galat baku
dugaan membesar over estimate. Dengan kata lain, kolinearitas ganda dapat menyebabkan ketelitian accuracy dari dugaan parameter sangat rendah
Notodiputro 2003. Sedangkan bila banyaknya peubah bebas lebih besar dari pada banyaknya pengamatan, maka struktur matriks peubah bebas menjadi
singular masalah singularitas. Hal ini berakibat matriks X
T
X tidak mempunyai
kebalikan unik khas yang merupakan syarat utama dalam RKT. Beberapa metode statistika telah dikembangkan untuk mengatasi masalah
ill conditioned dan singularitas, antara lain : Regresi Komponen Utama RKU,
Regresi Kuadrat Terkecil Parsial RKTP, Regresi Ridge RR, pendekatan Bayes, Regresi atas Koefisien Fourier RKF, Jaringan Syaraf Tiruan JST, serta
Transformasi Wavelet. Metode lain yang diperkenalkan Stone dan Brooks 1990
2 adalah Regresi Kontinum RK yang merupakan pengembangan dari RKT, RKU,
serta RKTP. Penyelesaian masalah ill conditioned dan singularitas dilakukan dengan
cara mengurangi banyaknya peubah bebas yakni memampatkan data ke dalam peubah baru peubah latent yang saling bebas dan dimensinya jauh lebih kecil.
Peubah baru pada RKU merupakan kombinasi linear dari matriks peubah bebas
X yang mempunyai ragam maksimal. Notodiputro 2003 menjelaskan bahwa
dalam prakteknya metode RKU, khususnya dalam kalibrasi, memiliki dua kelemahan, yaitu : a informasi tentang konstituen tertentu seringkali tidak dapat
dicerminkan secara unik dalam satu komponen, b informasi yang terkandung dalam data spektra Fourier Transform Infrared FTIR tidak dapat direduksi ke
dalam satu atau dua komponen walaupun kedua komponen tersebut menerangkan
keragaman X sampai lebih dari 99 persen. Dengan demikian dalam model
seringkali dibutuhkan komponen utama dalam jumlah yang besar yang berakibat terjadinya overfitting. Hasil kajian empirik Herwindiati 1997 menyimpulkan
bahwa RKTP memberikan hasil yang lebih baik dari pada RKU. Peubah baru pada RKTP dikonstruksi dengan memaksimumkan koragam
peubah bebas dengan peubah respon. Sejumlah kecil faktor dikonstruksi sebagai
kombinasi linear dari matriks peubah bebas X. Selanjutnya regresi atas skor faktor
tersebut digunakan untuk menurunkan persamaan prediksinya. Perbedaan pokok RKTP dengan RKU adalah pada RKTP mengkonstruksi faktor yang mampu
menerangkan keragaman data spektra FTIR X dan pada saat yang sama faktor
tersebut mempunyai hubungan dengan data Y. Konsekwensinya, RKTP cenderung menghasilkan faktor yang lebih sedikit dari pada RKU. Seperti halnya dalam
RKU, RKTP juga akan menghadapi masalah overfitting jika untuk mendapatkan model kalibrasi yang baik diperlukan jumlah faktor yang besar. Hasil kajian secara
empirik Notodiputro 2003 dengan menggunakan data simulasi dan data Naes tentang konsentrasi lemak diperoleh bahwa pendekatan Bayes dan JST lebih
unggul dari pada RKTP. Peubah baru pada RK dikonstruksi dengan memaksimumkan keragaman
peubah bebas serta koragam antara peubah bebas dengan peubah respon. Dengan kata lain, RK merupakan kombinasi antara prinsip RKT, RKU serta RKTP
3 sehingga diharapkan metode ini lebih baik dari pada RKU maupun RKTP untuk
mengatasi masalah ill conditioned. Stone dan Brooks 1990 memperkenalkan regresi kontinum yang
digunakan untuk penyelesaian model kalibrasi pada beberapa contoh kasus. Dengan menggunakan kriteria Indeks Validasi Silang I, dibandingkan berbagai
tingkat parameter penyesuaian δ , yang kesimpulannya adalah RK lebih unggul
dibandingkan dengan RKT, RKU maupun RKTP. Namun dari aspek statistika, yang dihasilkan hanya dugaan parameter regresi, belum dilakukan pendekatan
secara analitik. Sunberg 1993 membuktikan bahwa regresi ridge adalah bentuk khas dari RK jika banyaknya komponen utama dalam model hanya satu. Usaha
secara analitik dilakukan De Jong et al. 2001 dengan menggunakan metode Continuum Power Regressión
CPR, yakni matriks X didekomposisikan ke
matriks singular dengan menggunakan algoritma kanonik. Serneels et al. 2005 memberikan alternatif dalam penyelesaian masalah
pendugaan parameter RK. Ada dua metode yaitu Regresi Kontinum Klasik RKK atau RK, serta Regresi Kontinum dengan Pursuit Proyeksi RK-PP. Lebih lanjut,
jika ada data pencilan Serneels et al. 2005 mengusulkan suatu Regresi Kontinum Kekar dengan Pursuit Proyeksi RKK-PP.
Dari aspek komputasi, seringkali RK maupun RK-PP mengalami kendala
jika dimensi matriks data X sangat besar
n p
dan terdapat kolinearitas ganda. Oleh karena itu perlu dilakukan pemampatan penyusutan data dengan cara
melakukan dekomposisi nilai singular pada matriks X secara penuh Serneels et
al. 2005. Terdapat beberapa metode pemampatan data di antaranya : analisis
komponen utama, transformasi Fourier, transformasi wavelet serta pursuit proyeksi. Pemampatan dimensi peubah yang semula berdimensi tinggi nxp
menjadi peubah baru, misalkan berdimensi x
p n
sehingga p
n p
− 1
, disebut metode prapemrosesan.
Keuntungan analisis komponen utama sebagai metode prapemrosesan adalah komponen utama yang dihasilkan dapat diinterpertasikan. Sedangkan
kelemahannya adalah bila dimensi matriks peubah bebas sangat besar akan mengalami kendala dalam komputasi.
Transformasi wavelet dan transformasi Fourier pada dasarnya adalah pereduksian dimensi data dengan cara mendekomposisi
T ip
i i
i
x x
x x
, ...
, ,
2 1
=
4 ke dalam sekumpulan fungsi basis. Transformasi Fourier dikembangkan dari deret
Fourier. Pada deret Fourier sebuah fungsi periodik dapat direpresentasikan dengan mengkombinasikan penjumlahan tak hingga dari fungsi sinus dan kosinus.
Beberapa tahun setelah penemuan ini, deret Fourier dikembangkan menjadi bentuk yang lebih umum sehingga dapat diterapkan pada fungsi yang non-periodik dan
dikenal sebagai transformasi Fourier. Sejak penemuan ini, transformasi Fourier menjadi metode yang sangat cocok untuk menganalisis fungsi, karena transformasi
Fourier dapat memberikan informasi tentang frekuensi suatu sinyal. Pada tahun 1909 seorang matematikawan Hungaria, Alfred Haar
mengembangkan sebuah basis fungsi dan dikenal sebagai wavelet Haar. Transformasi wavelet dikenal sejak tahun 1980-an sebagai solusi yang dapat
menangani kekurangan pada transformasi Fourier dalam menganalisis berbagai fungsi. Prinsip-prinsip yang ada pada metode wavelet merupakan perpaduan
antara ide pada wavelet Haar dan ide baru yang muncul dengan adanya perkembangan perangkat lunak komputer, seperti penerapan Multi Resolution
Analysis untuk menghitung koefisien-koefisien wavelet dengan algoritma piramid
Mallat 1989. Transformasi wavelet dapat mengatasi kekurangan transformasi Fourier,
karena metode ini dapat memberikan informasi tentang kombinasi skala dan frekuensi. Dengan transformasi wavelet, sebuah fungsi dapat digambarkan dalam
sumbu x yang menunjukkan waktu translasi dan sumbu y menunjukkan frekuensi skala, dan dapat juga ditambahkan dengan informasi amplitudo dalam sumbu z.
Transformasi wavelet merepresentasikan suatu kurva, misal spektrum, sebagai kombinasi linear kurva-kurva lain yang relatif lebih sederhana yang
disebut fungsi basis atau fungsi wavelet Fearn 1999. Fungsi basis tersebut diperoleh dengan dilatasi dan translasi dua jenis fungsi wavelet yang disebut father
wavelet dan mother wavelet Nason dan Silverman 1994. Dalam analisis Fourier
fungsi basis yang digunakan adalah fungsi sinus dan kosinus, sehingga metode wavelet
dapat dipandang sebagai perluasan dari analisis Fourier. Wavelet berasal dari fungsi skala, dari fungsi ini dapat dibuat sebuah mother wavelet. Wavelet-
wavelet lainnya akan muncul dari hasil penskalaan, dilatasi dan translasi
pergeseran mother wavelet.
5 Terdapat dua macam wavelet, jika suatu fungsi yang didekomposisi ke
dalam fungsi-fungsi wavelet diambil bilangan dilatasi dan translasi yang kontinu maka akan termasuk dalam transformasi wavelet kontinu TWK. Sedangkan jika
bilangan dilatasi dan translasi berupa bilangan bulat positif, maka termasuk dalam transformasi wavelet diskret TWD Nason dan Silverman 1994.
Pada penelitian ini metode prapemrosesan yang digunakan adalah transformasi wavelet diskret TWD. Hal ini dikarenakan TWD merupakan
metode yang paling unggul dibandingkan metode lain. Transformasi Fourier sangat baik digunakan pada fungsi yang stasioner dan gelombang besar, tetapi
tidak efektif pada fungsi yang non-stasioner. TWD dapat menutupi kekurangan yang terdapat pada transformasi Fourier, yaitu efektif digunakan pada fungsi yang
non-stasioner dan gelombang yang kecil. Selain itu sifat-sifat matriks transformasi wavelet diskret mempunyai
keunggulan dibandingkan dengan transformasi Fourier maupun analisis komponen
utama, khususnya dalam hal besarnya proporsi keragaman peubah asal X yang
dapat diterangkan oleh peubah baru hasil transformasi, sehingga hasil reduksi masih mendekati peubah asal. Sedangkan kelemahannya adalah secara matematis
tidak ada jaminan bahwa korelasi di antara koefesien wavelet menjadi relatif kecil, sehingga masih dimungkinkan terjadi masalah kolinearitas ganda dalam
pemodelan regresi. Akibatnya transformasi wavelet diskret sebaiknya digabung dengan metode lainnya dalam pemodelan regresi Sunaryo 2005.
Dengan demikian masih ada dua masalah penting dalam RK yang belum diungkap dalam penelitian-penelitian terdahulu, yaitu : a bagaimana sifat-sifat
statistik dari regresi kontinum, b bagaimana mengatasi masalah jika dimensi dari peubah bebas sangat besar
n p
. Dua masalah inilah yang menjadi pertanyaan yang akan dijawab dalam penelitian ini.
Masalah ill conditioned dan singularitas sering dijumpai pada model kalibrasi. Model kalibrasi pada umumnya menggunakan model matematik dengan
data empirik dan pengetahuan untuk menduga Y yang tidak diketahui berdasarkan
informasi pada X yang tersedia Martens dan Naes 1989. Model kalibrasi banyak
digunakan di bidang kimia, khususnya Chemometrics, yaitu suatu bidang ilmu yang merupakan gabungan antara matematika, statistika, dan kimia.
6 Salah satu penerapan model kalibrasi di bidang kimia adalah untuk
menduga senyawa aktif suatu contoh yang diukur melalui Fourier Transform Infrared
FTIR atau Near Infrared NIR. Model kalibrasi yang mempunyai tingkat akurasi tinggi dapat digunakan untuk menentukan kandungan senyawa aktif
suatu bahan tanaman obat hanya dengan melakukan analisis spektroskopi FTIR suatu contoh bahan. Selain itu penentuan ini dapat dilakukan berdasarkan serbuk
kasar atau ekstrak kasar sehingga tidak diperlukan proses yang panjang. Dengan demikian ada penghematan waktu, proses, serta biaya yang cukup berarti. Hal ini
akan menunjang industri yang menggunakan bahan baku tanaman obat. Penelitian ini mengkaji model kalibrasi untuk dua jenis tanaman obat yaitu jahe dan
temulawak. Dewasa ini penggunaan tanaman obat tidak terbatas pada pembuatan jamu,
tetapi juga pada perusahaan farmasi, produk makanan suplemen nutraceuticals, ekstrak herbal dan lain-lain. Agar produk-produk yang dihasilkan perusahaan
jamu maupun farmasi terjamin kualitasnya, maka kualitas dari bahan baku tanaman obat juga harus memenuhi standar yang dibutuhkan Danutirto 2001.
Informasi tentang kegunaan dan penggunaan tanaman obat dapat dilihat dari kandungan senyawa aktif. Oleh karena itu kajian mengenai kandungan senyawa
aktif atau senyawa penciri sangat diperlukan.
Proses penentuan konsentrasi senyawa aktif atau senyawa penciri yang dikandung oleh suatu tanaman obat perlu dilakukan secara cepat dan akurat. Untuk itu
sangat diperlukan metode yang handal tetapi relatif mudah untuk dioperasikan. Secara kualitatif dan kuantitatif suatu senyawa aktif dapat diketahui antara lain melalui
metode HPLC High Performance Liquid Chromatography dengan mengetahui pola kromatogram dan memperbandingkan luas area terhadap suatu standar senyawa yang
diketahui. Metode kualitatif lain yang juga sering digunakan adalah spektroskopi FTIR Fourier Transform Infrared yang pada dasarnya memberikan informasi mengenai
keragaan gugus fungsi, yang dapat menjadi penanda stabilitas suatu proses untuk melihat pola tapak finger print yang dapat berulang reproducable. Setiap jenis
senyawa aktif atau senyawa identitas marker compound secara kimiawi akan memberikan pola tapak FTIR dan juga pola kromatogram yang tertentu tergantung
responnya. Kedua peubah ini dapat dimanfaatkan untuk melihat konsistensi respons suatu proses kalibrasi atau standarisasi mutu bahan baku maupun stabilitas proses.
7 Penggunaan HPLC untuk mengetahui kandungan senyawa aktif secara
kualitatif dan kuantitatif membutuhkan persiapan yang lama meliputi penghancuran bahan, pelarutan serta biaya yang mahal. Pengukuran lain yang
lebih sederhana dan murah adalah spektroskopi FTIR. Kandungan senyawa aktif dalam suatu bahan memiliki pola hubungan dengan panjang gelombang bila
senyawa aktif tersebut diamati dengan alat ukur tertentu, misalnya spektroskopi FTIR.
Hasil pengukuran FTIR berupa spektrum yang merupakan sederetan ukuran persen transmitans yang diamati pada p buah titik bilangan gelombang dari
spektrum yang sama. Hal ini menyebabkan jumlah p cukup banyak, sehingga dalam model kalibrasi selalu timbul permasalahan yang khas yaitu banyaknya
pengamatan jauh lebih kecil dari pada banyaknya peubah penjelas p
n serta
terjadinya kolinearitas ganda Naes 1985. Jenis senyawa aktif dalam rimpang jahe disebut gingerol, sedangkan pada
rimpang temulawak disebut kurkuminoid. Contoh rimpang jahe dan temulawak yang digunakan dalam penelitian ini diambil secara acak dari tiga sumber, yaitu :
a petani di sentra produksi tanaman obat di daerah Kulonprogo Jawa Tengah dan Karanganyar DIY, b hasil percobaan di kebun percobaan Biofarmaka IPB Bogor,
serta c pembelian dari BALITRO, Bogor, Majalengka dan Sukabumi. Selanjutnya rimpang jahe dan temulawak tersebut dilakukan analisis kimia di
Laboratorium Kimia Analitik Jurusan Kimia IPB, Laboratorium Terpadu IPB, dan Laboratorium Pusat Studi Biofarmaka IPB.
Penelitian ini merupakan rangkaian penelitian Hibah Pascasarjana 2003- 2005 yang merupakan kerjasama antara Departemen Statistika dan Biofarmaka
IPB. Dengan data dan masalah yang sama telah dilakukan penelitian oleh dua peneliti dalam rangka penulisan disertasi program Doktor Statistika IPB untuk
mengembangkan model kalibrasi dengan menggunakan pendekatan Bayes Erfiani 2005 dan transformasi wavelet diskret Sunaryo 2005. Dari hasil kajian Sunaryo
2005 transformasi wavelet diskret ternyata mempunyai potensi yang lebih unggul dibandingkan dengan metode transformasi yang lain dalam upaya untuk mereduksi
dimensi peubah. Oleh karena itu penulis memanfaatkan hasil kajian tersebut, sehingga transformasi wavelet diskret digunakan sebagai langkah awal
prapemrosesan dalam regresi kontinum.
8 Disertasi ini terdiri dari tujuh bab, beberapa bab di antaranya bab 3 sampai
bab 5 merupakan topik-topik penelitian yang dapat berdiri sendiri tetapi membentuk suatu kesatuan. Topik-topik tersebut telah disajikan pada forum
seminar nasional dan diterbitkan pada jurnal ilmiah nasional terakreditasi. Dengan demikian, disertasi ini merupakan rangkaian penelitian yang telah penulis lakukan
selama menempuh studi program Doktor Statistika di Sekolah Pascasarjana IPB. Pada bab 3 dilakukan kajian eksplorasi empirik terhadap kinerja dan
permasalahan yang ada pada RK. Kajian tentang kinerja RK dimaksudkan untuk melihat potensi RK dalam mengatasi masalah kolinearitas ganda pada berbagai
struktur korelasi matriks peubah bebas X pada kasus .
p n
Setelah diperoleh kesimpulan bahwa kinerja RK sangat bagus, kajian berikutnya adalah bagaimana
mengatasi masalah pada RK jika p
n . Selain itu juga dikaji bagaimana
menentukan optimasi pada fungsi kriteria umum pada RK. Harapan dari kajian ini adalah menemukan suatu metode yang dapat mengatasi masalah ill conditioned
dan singularitas. Kajian teoritis pada RK dibahas pada bab 4, khususnya mengkaji sifat-sifat
statistik dari regresi kontinum terutama sifat-sifat dari yˆ . Hal ini untuk melihat apakah model yang dihasilkan metode RK atau RK-TWD mempunyai tingkat
akurasi yang tinggi. Setelah diperoleh kesimpulan bahwa RK-TWD merupakan metode yang potensial dalam mengatasi masalah ill conditioned dan singularitas
serta mempunyai tingkat akurasi yang tinggi, penelitian dilanjutkan dengan menerapkan metode tersebut pada model kalibrasi pada kasus data real, yaitu data
senyawa aktif temulawak dan jahe yang disajikan pada bab 5. Pada bab 6 dilakukan pembahasan secara umum, selanjutnya bab 7 membuat simpulan dan
saran yang dihasilkan dari penelitian ini.
1.2 Tujuan Penelitian