PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASINYA

REGRESI PROSES GAUSSIAN UNTUK PEMODELAN KALIBRASI MOCH. ABDUL MUKID SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009

PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASINYA

Dengan ini saya menyatakan bahwa tesis dengan judul Regresi Proses Gaussian untuk Pemodelan Kalibrasi adalah karya saya sendiri dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam daftar pustaka dibagian akhir tesis ini.

Bogor, Agustus 2009

Moch. Abdul Mukid NIM G151070011

ABSTRACT

MOCH. ABDUL MUKID. Gaussian Process Regression for Calibration Modeling. Under the Supervision of AJI HAMIM WIGENA and ERFIANI.

Multivariate calibration models have been developed usually by using principal component regression and partial least squares regression. This research proposes the application of Gaussian process regression as an alternative method to develop a calibration model. Gaussian process regression is one of the nonparametric regression methods that do not determine the mathematical relationship between exploratory and response variables. This method is applied to the measurement of curcumin concentration based on FTIR spectra. To handle the high dimensionality of spectra data, principal component analysis was initially performed, followed by applying the Gaussian process regression. Using three principal components, 99,03% of the original data’s variability can be explained. Based on the leverage value, few spectra were detected as outliers and will not be used for the final calculation. This model was attempted for various covariance functions. The results indicate that the most relevant and suitable covariance function for curcumin concentration measurement was Square Exponential – isotropic (SE–iso). The hyperparameter values for SE–iso were estimated by Maximum Marginal Likelihood 2 Method. Based on R

Yvs Y ˆ and RMSE criteria, the performance of Gaussian process regression is better than that of principal component regression.

Keywords: Spectroscopic Calibration , Gaussian Process Regression, Covariance Function, Hyperparameter, Maximum Marginal Likelihood

RINGKASAN

MOCH. ABDUL MUKID. Regresi Proses Gaussian untuk Pemodelan Kalibrasi. Dibawah bimbingan AJI HAMIM WIGENA dan ERFIANI.

Di Indonesia tanaman obat telah lama digunakan oleh masyarakat dan industri dalam pembuatan jamu. Penggunaan tanaman obat yang semakin meluas sudah selayaknya diikuti dengan usaha untuk menjamin kualitas tanaman obat tersebut. Hal ini untuk menjamin agar produksinya dapat bersaing dan diterima oleh masyarakat. Salah satu indikator kualitas tanaman obat adalah konsentrasi senyawa aktifnya. Proses penentuan konsentrasi senyawa aktif yang dikandung oleh suatu tanaman obat perlu dilakukan secara cepat dan akurat. Salah satu metodenya adalah dengan membuat model kalibrasi yang diperoleh dari contoh tanaman obat.

Pada pemodelan kalibrasi spektroskopi kendala yang sering dihadapi adalah banyaknya peubah penjelas yang jauh lebih besar dari pada banyaknya pengamatan. Hal ini cenderung akan menyebabkan adanya multikolinearitas antar peubah penjelas yang pada akhirnya menyebabkan penduga parameter yang tidak stabil dan mengurangi ketepatan prediksi model. Untuk mengatasi hal tersebut, biasanya model-model kalibrasi peubah ganda dikembangkan dengan menggunakan regresi komponen utama maupun regresi kuadrat terkecil parsial (Erfiani, 2005).

Dalam penelitian ini diusulkan penerapan regresi proses Gaussian sebagai sebuah metode alternatif untuk mengembangkan sebuah model kalibrasi. Metode ini diterapkan pada pengukuran konsentrasi kurkumin berdasarkan atas data spektra yang diukur dengan menggunakan FTIR. Untuk mengatasi besarnya dimensi dari data spectra, prapemrosesan dilakukan dengan menggunakan Analisis Komponen Utama (AKU). Dengan menggunakan tiga komponen utama yang pertama diketahui bahwa 99,03% keragaman data asal dapat dijelaskan. Berdasarkan nilai leverage, beberapa pengamatan terdeteksi sebagai pencilan dan dikeluarkan dalam perhitungan selanjutnya. Model ini telah dicobakan pada berbagai jenis fungsi peragam dan hasilnya mengindikasikan bahwa fungsi peragam yang cocok dan relevan untuk memodelkan pengukuran konsentrasi kurkumin adalah Kuadrat Eksponensial – isotropik (KE-iso). Selanjutnya nilai- nilai hiperparamater dari fungsi peragam KE-iso diduga dengan menggunakan metode kemungkinan marginal maksimum. Berdasarkan atas kriteria nilai-nilai

R 2 Yvs Y ˆ dan RMSE, kinerja regresi proses Gaussian jauh lebih baik jika dibandingkan dengan regresi komponen utama. Pada regresi proses Gaussian nilai

R 2 Yvs Y ˆ mencapai 88,77% dan nilai RMSE sebesar 0,1753 sedangkan pada regresi komponen utama nilai 2 R Yvs Y ˆ hanya mencapai 40,18% dan nilai RMSE sebesar

© Hak Cipta milik IPB, tahun 2009 Hak Cipta dilindungi Undang-Undang

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan yang wajar IPB. Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis dalam bentuk apa pun tanpa izin IPB.

REGRESI PROSES GAUSSIAN UNTUK PEMODELAN KALIBRASI MOCH. ABDUL MUKID

Tesis

Sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Statistika

SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR

2009

Penguji Luar Komisi pada Ujian Tesis: Dr. Ir. I Gusti Putu Purnaba, DEA

Judul Tesis : Regresi Proses Gaussian untuk Pemodelan Kalibrasi Nama

: Moch. Abdul Mukid NIM : G151070011

Disetujui Komisi Pembimbing

Dr. Ir. Aji Hamim Wigena, M.Sc. Dr. Ir Erfiani, M.Si. Ketua Anggota

Diketahui

Ketua Program Studi Statistika Dekan Sekolah Pascasarjana

Dr. Ir. Aji Hamim Wigena, M.Sc. Prof. Dr. Ir. Khairil Anwar Notodiputro, M.S.

Tanggal Ujian : 5 Agustus 2009 Tanggal Lulus:

PRAKATA

Alhamdulillah, puji syukur penulis panjatkan kepada Allah SWT atas berkat, rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan penelitian dan penulisan tesis ini.

Tesis ini berjudul “Regresi Proses Gaussian Untuk Pemodelan Kalibrasi“ disusun berdasarkan penelitian yang dilakukan di Departemen Statistika FMIPA- IPB. Penelitian yang dilakukan penulis merupakan bagian dari payung penelitian Hibah Pascasarjana ”Pengembangan Model Kalibrasi Multirespon dan Teknik Adulterasi Obat Bahan Alam” 2008-2010 yang merupakan kerjasama antara Departemen Statistika dan Biofarmaka, Institut Pertanian Bogor yang didanai oleh Dirjen Pendidikan Tinggi, Departemen Pendidikan Nasional.

Terima kasih yang sedalam-dalamnya penulis sampaikan kepada Bapak Dr. Ir. Aji Hamim Wigena, M.Sc selaku ketua Program Studi Statistika Sekolah Pascasarjana IPB yang sekaligus sebagai ketua komisi pembimbing dalam penyusunan tesis ini. Rasa terima kasih juga penulis sampaikan kepada Dr. Ir. Erfiani, M.Si selaku anggota dalam komisi pembimbing yang senantiasa memberikan masukan dan arahan dalam penelitian ini . Penulis juga mengucapkan terima kasih yang sebesar-besarnya kepada Prof. Dr. Khairil Anwar Notodiputro, M.S selaku ketua tim peneliti Hibah Pascasarjana tahun 2003-2005 dengan topik ”Pengembangan Model untuk Pendugaan Kandungan Senyawa Bioaktif atau Senyawa Penciri Beberapa Tanaman Obat”, atas izin yang telah diberikan kepada penulis untuk menggunakan sebagian data hasil penelitiannya. Tidak lupa pula ungkapan terima kasih penulis sampaikan kepada seluruh teman-teman STK 2007 atas diskusi dan dukungan morilnya selama menyelesaikan penulisan tesis ini.

Penulis menyadari bahwa masih banyak kekurangan dalam penyusunan tesis ini, oleh karena itu kritik, saran dan masukan sangat penulis harapkan demi penyempurnaan dan perbaikan tulisan ini. Semoga karya ilmiah ini bermanfaat untuk semua pembaca. Amin.

Bogor, Agustus 2009

Penulis

RIWAYAT HIDUP

Penulis dilahirkan di Grobogan, Jawa Tengah pada tanggal 17 Agustus 1978. Tahun 1996 penulis masuk program sarjana di Jurusan Matematika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Diponegoro melalui jalur UMPTN dan lulus pada tahun 2001. Pada tahun 2007 penulis mendapat kesempatan untuk mengikuti program magister pada program studi statistika, Sekolah Pascasarjana, Institut Pertanian Bogor. Beasiswa pendidikan pascasarjana penulis peroleh dari Direktorat Jenderal Pendidikan Tinggi Departemen Pendidikan Nasional.

DAFTAR TABEL

1. Ragam kumulatif komponen utama .......................................................... 15

2. Nilai leverage untuk masing-masing contoh ........................................... 17

3. Nilai RMSEP setiap jenis fungsi peragam ............................................... 19

DAFTAR GAMBAR

1. Diagram alur penelitian ............................................................................. 14

2. Spektra kurkumin serbuk temulawak ....................................................... 15

3. Dendogram penggerombolan berdasarkan 3 komponen utama ............... 18

4. Plot antara Y dan Y prediksi untuk model regresi proses Gaussian ........ 21

5. Plot antara Y dan Y prediksi untuk model regresi komponen utama ...... 21

6. Plot peluang normal peubah acak galat .................................................... 22

DAFTAR LAMPIRAN

1. Data Konsentrasi Kurkumin dan Tiga Komponen Utama Transmitan .... 28

2. Syntax program MATLAB untuk menghitung nilai RMSEP .................. 29

3. Syntax program MATLAB untuk menghitung nilai RMSE .................... 31

PENDAHULUAN

Latar Belakang

Di Indonesia tanaman obat telah lama digunakan oleh masyarakat dan industri dalam pembuatan jamu. Akhir-akhir ini perusahaan farmasi pun telah memanfaatkan tanaman obat tradisional pada produk-produknya. Penggunaan tanaman obat yang semakin meluas sudah selayaknya diikuti dengan usaha untuk menjamin kualitas tanaman obat tersebut. Hal ini untuk menjamin agar produksinya dapat bersaing dan diterima oleh masyarakat. Salah satu indikator kualitas tanaman obat adalah konsentrasi senyawa aktifnya.

Proses penentuan konsentrasi senyawa aktif yang dikandung oleh suatu tanaman obat perlu dilakukan secara cepat dan akurat. Secara kuantitatif dan kualitatif suatu senyawa aktif dapat diketahui antara lain melalui metode HPLC (High Performance Liquid Chromatography) dan FTIR (Fourier Trasform Infrared ). Penentuan konsentrasi senyawa aktif dilakukan melalui proses yang panjang meliputi penghancuran bahan, pelarutan, dan pengukuran dengan HPLC. Proses ini memerlukan waktu dan biaya yang relatif mahal. Untuk itu sangat diperlukan metode yang handal tetapi relatif mudah untuk digunakan. Salah satu metodenya adalah dengan membuat sebuah model kalibrasi. Model ini menyatakan hubungan antara konsentrasi senyawa aktif hasil pengukuran HPLC dengan persen transmitan (absorban) yang diukur dengan menggunakan FTIR. Tujuan dari pembentukan model ini adalah untuk memprediksi konsentrasi senyawa aktif dengan akurasi yang tinggi dari nilai persen transmitan yang secara ekonomi lebih murah dan mudah diperoleh (Erfiani, 2005).

Beberapa penulis telah mengembangkan model kalibrasi untuk kasus yang berbeda. Atok (2005) menggunakan Jaringan Syaraf Tiruan dengan metode pra pemrosesan Analisis Komponen Utama, sedangkan Djuraidah (2003) membandingkan kinerja model PLS non-linear dengan Jaringan Syaraf Tiruan pada model kalibrasi. Erfiani (2005) mengembangkan model kalibrasi dengan pendekatan Bayes dimana reduksi peubahnya melalui pendekatan regresi terpenggal, sedangkan Sony (2005) menggunakan Regresi Komponen Utama dimana metode wavelet digunakan untuk pra pemrosesan. Selain pendekatan parametrik, beberapa penulis juga mengembangkan model kalibrasi dengan Beberapa penulis telah mengembangkan model kalibrasi untuk kasus yang berbeda. Atok (2005) menggunakan Jaringan Syaraf Tiruan dengan metode pra pemrosesan Analisis Komponen Utama, sedangkan Djuraidah (2003) membandingkan kinerja model PLS non-linear dengan Jaringan Syaraf Tiruan pada model kalibrasi. Erfiani (2005) mengembangkan model kalibrasi dengan pendekatan Bayes dimana reduksi peubahnya melalui pendekatan regresi terpenggal, sedangkan Sony (2005) menggunakan Regresi Komponen Utama dimana metode wavelet digunakan untuk pra pemrosesan. Selain pendekatan parametrik, beberapa penulis juga mengembangkan model kalibrasi dengan

Pada penelitian ini penulis menggunakan pendekatan regresi proses Gaussian untuk membangun model kalibrasi pada pengukuran konsentrasi kurkumin berdasarkan data persen transmitannya. Aspek penting yang harus diketahui dalam pemodelan dengan pendekatan regresi proses Gaussian adalah fungsi peragam. Fungsi peragam adalah sebuah fungsi dari input-input model yang menghasilkan sebuah nilai peragam bagi output-output yang bersesuaian (Rasmussen, 1996). Regresi proses Gaussian pada awalnya diusulkan oleh O’Hagan (1978) yang memandang sebagai sebuah alternatif pendekatan untuk jaringan syaraf tiruan. Regresi proses Gaussian dapat juga diturunkan dari perspektif regresi nonparametrik Bayesian dengan penempatan secara langsung sebaran prior Gaussian bagi fungsi-fungsi regresi f(x) (MacKay 1998, diacu dalam Williams 2002).

Regresi proses Gaussian telah digunakan oleh beberapa peneliti untuk pemodelan. Rasmussen dan Williams (2006) menggunakan regresi proses Gaussian untuk pemodelan pembelajaran gerak lengan tangan robot sedangkan Chen et al. (2007) menggunakan regresi proses Gaussian untuk pemodelan kalibrasi spektroskopi dan membandingkan hasilnya dengan regresi komponen utama, jaringan syaraf tiruan dan regresi PLS.

Tujuan Penelitian

Penelitian ini bertujuan untuk menerapkan regresi proses Gaussian pada pemodelan kalibrasi spektroskopi dengan melakukan kajian terhadap penggunaan berbagai fungsi peragam.

TINJAUAN PUSTAKA

Spektroskopi FTIR (Fourier Transform Infrared)

FTIR merupakan salah satu teknik spektroskopi infra merah. Instrumentasi spektrum infra merah dibagi kedalam tiga jenis radiasi yaitu infra merah dekat (bilangan gelombang 12800-4000 cm -1 ), infra merah pertengahan (bilangan gelombang 4000-200 cm -1 ), dan infra merah jauh (bilangan gelombang 200-10 cm -1 ) (Nur dan Adijuawana, 1989). FTIR termasuk dalam kategori radiasi infra merah pertengahan (bilangan gelombang 4000-200 cm -1 ).

Hampir setiap senyawa yang memiliki ikatan kovalen akan menyerap berbagai frekuensi radiasi elektromagnetik dalam daerah spektrum inframerah. Setiap tipe ikatan yang berbeda mempunyai sifat frekuensi vibrasi yang berbeda, dan karena tipe ikatan yang sama dalam dua senyawa yang berbeda terletak dalam lingkungan yang sedikit berbeda, maka tidak akan ada dua molekul yang berbeda strukturnya akan mempunyai bentuk serapan inframerah atau spektrum inframerah yang tepat sama.

Jika I 0 adalah intensitas IR yang masuk kedalam contoh dan I adalah intensitas IR yang diteruskan (transmitted) oleh contoh, maka :

Absorban (A) = Log (I 0 / I) dan transmitan (T) = 100 (I/I 0 ).

Sehingga hubungan absorban dengan transmitan adalah :

A = - log ( T/100). Karena kekuatan serapan proporsional terhadap konsentrasi, maka FTIR dapat digunakan untuk analisis kuantitatif yang menghubungkan konsentrasi dengan absorban atau persen transmitan. Untuk menduga konsentrasi suatu senyawa tertentu dalam contoh, diperlukan pengukuran nilai-nilai absorban dari contoh pada berbagai bilangan gelombang.

Plot antara transmitan dengan bilangan gelombang menghasilkan spektrum infra merah. Karena setiap tipe ikatan yang berbeda mempunyai sifat frekuensi vibrasi yang berbeda, maka tidak ada molekul yang berbeda strukturnya akan mempunyai bentuk serapan infra merah atau spektrum infra merah yang tepat sama. Dengan membandingkan spektrum infra merah dari dua senyawa yang diperkirakan identik maka dapat dikatakan bahwa kedua senyawa tersebut identik Plot antara transmitan dengan bilangan gelombang menghasilkan spektrum infra merah. Karena setiap tipe ikatan yang berbeda mempunyai sifat frekuensi vibrasi yang berbeda, maka tidak ada molekul yang berbeda strukturnya akan mempunyai bentuk serapan infra merah atau spektrum infra merah yang tepat sama. Dengan membandingkan spektrum infra merah dari dua senyawa yang diperkirakan identik maka dapat dikatakan bahwa kedua senyawa tersebut identik

High Performance Liquid Chromatography (HPLC)

Kromatografi adalah suatu metode pemisahan komponen-komponen suatu campuran, komponen-komponen tersebut akan terdistribusi diantara dua fase. Salah satu fase dibuat diam dan dinamakan fase diam atau fase stasioner, fase lainnya disebut fase gerak atau fase mobil yang bergerak diantara celah-celah atau pada permukaan fase stasioner. Pergerakan fase mobil ini mengakibatkan pergerakan diferensial dari komponen-komponen contoh (Nur dan Adijuwana, 1989). Metode pemisahaan ini memerlukan waktu sangat singkat dan lebih efektif dibandingkan dengan pemisahaan lain. Fase diam pada kromatografi dapat berupa cair atau padatan sedangkan fase gerak dapat berupa cair atau gas. Berdasarkan jenis fasenya kromatografi dapat digolongkan menjadi empat jenis yaitu: cair- padatan, gas-padatan, cair-cair, dan gas-cair.

Kromatografi cair adalah semua metode kromatografi yang menggunakan cairan sebagai fase mobil. Kromatografi cair meliputi metode kromatografi sederhana dan kromatografi modern. HPLC adalah salah satu metode kromatografi yang termasuk kromatografi cair modern. HPLC adalah kromatografi yang menggunakan cairan sebagai fase gerak dan sebagai fase diam dapat berupa suatu padatan atau senyawa tertentu yang terikat secara kimia dengan padatan pendukungnya.

HPLC biasanya digunakan untuk memisahkan senyawa yang tidak dapat dipisahkan dengan kromatografi gas, karena sifatnya yang tidak mudah menguap, sehingga tidak mampu melewati kolom dan sample tidak tahan pada suhu tinggi sehingga akan mengalami dekomposisi pada kondisi pemisahan. HPLC dapat mengatasi permasalahan tersebut, karena HPLC mampu memisahkan senyawa yang tidak mudah menguap dan stabil pada suhu tinggi. Selain itu berbagai macam fase diam dan fase gerak dapat digunakan pada HPLC yang memungkinkan metode ini memisahkan berbagai jenis senyawa.

HPLC pada dasarnya adalah suatu kromatografi kolom yang menggunakan kolom yang terbuat dari bahan kemasan, maka untuk mendapatkan laju alir yang memadai, digunakan tekanan sampai 5000 lb/inci atau sekitar 2000 kg/cm. Teknik pemisahan HPLC dilakukan dengan menginjeksikan sedikit sampel yang berbentuk cairan ke dalam aliran cairan (fase mobil/fase gerak) yang berjalan melalui kolom yang berisi partikel dari suatu fase stasioner. Pemisahan campuran kedalam komponennya tergantung pada tingkat retensi masing-masing komponen di dalam kolom. Kecendrungan suatu komponen ditahan di dalam kolom ditentukan oleh partisinya diantara cairan fase mobil dan fase stasioner.

HPLC digunakan terutama untuk golongan senyawa tak atsiri, misalnya terpenoid tinggi, segala jenis fenol, alkaloid, lipid dan gula. HPLC berhasil paling baik untuk senyawa yang dapat dideteksi pada daerah spektrum UV atau spektrum sinar tampak.

HPLC berbeda dengan kromatografi lainnya terutama dalam penggunaan partikel padatan sebagai pengisi kolom yang mempunyai ukuran partikel seragam dengan diameter kecil, dengan demikian diharapkan akan diperoleh efisiensi kolom yang tinggi tetapi sebagai akibatnya diperlukan dan dibutuhkan pompa bertekanan tinggi yang berfungsi mengalirkan pelarut fasa gerak secara terus menerus. Dengan alasan tersebut HPLC sering disebut dengan kromatografi cair kinerja tinggi. Dalam kromatografi cair kinerja tinggi selain proses pemisahan terkait pula proses penginderaan, pemantauan dan perhitungan hasil. Proses penginderaan dapat dilakukan oleh beberapa macam alat detektor dan pemilihannya bergantung pada senyawa yang diteliti. HPLC dapat digunakan untuk analisis kualitatif dan kuantitatif sebagai sarana untuk pemurnian memalui pemurnian secara preparatif (Lindsay 1992, diacu dalam Erfiani 2005).

Kandungan Senyawa Aktif pada Temulawak

Menurut Sinambela (1985), komposisi rimpang temulawak dapat dibagi menjadi dua fraksi utama yaitu zat warna kurkuminoid dan minyak atsiri. warna kekuningan temulawak disebabkan adanya kurkuminoid. Kandungan utama kurkuminoid terdiri dari senyawa kurkumin, desmetoksikurkumin dan bisdesmetoksikurkumin. Rimpang temulawak segar, selain terdiri dari senyawa Menurut Sinambela (1985), komposisi rimpang temulawak dapat dibagi menjadi dua fraksi utama yaitu zat warna kurkuminoid dan minyak atsiri. warna kekuningan temulawak disebabkan adanya kurkuminoid. Kandungan utama kurkuminoid terdiri dari senyawa kurkumin, desmetoksikurkumin dan bisdesmetoksikurkumin. Rimpang temulawak segar, selain terdiri dari senyawa

Temulawak mempunyai berbagai macam khasiat, yaitu sebagai: analgesik, anthelmintik, antibakteri, antijamur, antidiabetik, antidiare, antiinflamasi, anti- hepatotoksik, antioksidan, antitumor, antidepresan, diuretik, hipotermik, hipolipidemik, insektisida, dan lain-lain. Khasiat temulawak tersebut telah dibuktikan melalui teknik ilmu pengetahuan modern baik oleh ilmuwan dalam maupun luar negeri.

Regresi Proses Gaussian

Proses stokastik adalah suatu kumpulan dari peubah-peubah acak

{ Y x x ∈ X } yang diindekskan dengan sebuah himpunan X yang beranggotakan d

peubah penjelas. Proses-proses stokastik ditentukan oleh pemberian sebaran peluang bersama untuk setiap himpunan bagian manapun dari Y x 1 ,K , Y x k dengan

sebuah cara yang konsisten. Proses Gaussian adalah suatu proses stokastik dimana himpunan berhingga manapun dari himpunan peubah acak Y mempunyai sebaran bersama Gaussian ganda (Williams, 2002). Sebuah proses Gaussian secara

lengkap ditentukan oleh fungsi rataan μ () x = E [] Y x dan fungsi peragam

k ( x i , x j ) = E [ ( Y x i − μ () x i ) ( Y x j − μ () x j ) ] .

Regresi proses Gaussian dapat diturunkan dari sudut pandang regresi nonparametric Bayesian yaitu dengan penempatan secara langsung sebaran prior Gaussian bagi fungsi-fungsi regresi f(x) (MacKay 1998, diacu dalam Williams

2002). Misal untuk setiap output y i bergantung pada input x i dibawah sebuah fungsi f i sebagai berikut :

y i = f () x i + ε i (1)

dimana ε i adalah peubah acak galat yang secara bebas dan identik menyebar

Gaussian dengan rataan nol dan ragam 2 σ , sedangkan x

i adalah vektor input ke-i dimana i = 1,......,n. Apabila fungsi-fungsi f dikumpulkan dalam sebuah vektor f = i adalah vektor input ke-i dimana i = 1,......,n. Apabila fungsi-fungsi f dikumpulkan dalam sebuah vektor f =

K , yaitu

f X, θ ~ N ( 0, K ) (2) dimana K adalah matrik n x n yang bergantung pada X dan θ sedangkan θ adalah vektor parameter dari fungsi peragam. Setiap elemen ke (i,j) dari matrik K adalah

k(x i ,x j ) dimana k .,. () adalah sebuah fungsi yang definit non negatif yang memuat parameter θ . Selanjutnya k .,. () disebut sebagai fungsi peragam.

Persamaan (1) dapat dinyatakan dalam bentuk persamaan vektor, yaitu

y = f + ε (3) dimana y adalah vektor amatan dari respon, f adalah vektor dari fungsi-fungsi

regresi dan ε adalah vektor galat. Sebagai implikasi langsung atas penetapan sebaran prior Gaussian ganda bagi vektor f dan asumsi bahwa vektor galat ε menyebar Gaussian maka sebaran bagi vektor amatan y adalah Gaussian ganda dengan nilai tengah 0 dan matrik

ragam peragam 2 K + σ I . Tidak setiap vektor amatan y selalu memiliki nilai tengah 0 sehingga untuk memenuhinya setiap amatan dari y i akan dikurangi

dengan nilai rata-rata dari keseluruhan amatan.

Fungsi Peragam

Fungsi peragam adalah sebuah fungsi dari input-input model yang menghasilkan sebuah nilai peragam bagi output-output yang bersesuaian (Rasmussen, 1996). Satu-satunya syarat bagi sebuah fungsi peragam adalah mampu membangkitkan sebuah matrik ragam peragam yang definit non negatif untuk sembarang himpunan titik-titik input.

Secara garis besar fungsi peragam dapat dibedakan menjadi dua, yaitu fungsi peragam yang stasioner dan fungsi peragam yang tidak stasioner. Fungsi peragam yang stasioner adalah sebuah fungsi dari x i –x j (jarak euclid antara dua buah input). Fungsi peragam yang stasioner invarian terhadap translasi namun seringkali gagal dalam menyesuaikan terhadap kemulusan dari fungsi yang diteliti. Sebaliknya fungsi peragam yang tidak stasioner adalah bukan merupakan Secara garis besar fungsi peragam dapat dibedakan menjadi dua, yaitu fungsi peragam yang stasioner dan fungsi peragam yang tidak stasioner. Fungsi peragam yang stasioner adalah sebuah fungsi dari x i –x j (jarak euclid antara dua buah input). Fungsi peragam yang stasioner invarian terhadap translasi namun seringkali gagal dalam menyesuaikan terhadap kemulusan dari fungsi yang diteliti. Sebaliknya fungsi peragam yang tidak stasioner adalah bukan merupakan

a. Fungsi peragam kuadrat eksponensial dengan ukuran jarak isotropik (KE-iso). Fungsi peragam ini memiliki formula

k ( x i , x j ) = σ f exp ⎜⎜ − ( x i − x j ) ( x i − x j ) ⎟⎟ (4)

dimana σ adalah ragam signal dan f Δ = ⎢ M O M ⎥ sedangkan l m adalah

parameter skala panjang untuk m = 1, ..., d. Dalam fungsi peragam ini nilai parameter skala panjang dianggap sama yaitu l 1 = l 2 = L = l d = l . Fungsi

peragam ini menunjukkan ide bahwa kasus dengan input-input yang berdekatan memiliki korelasi yang tinggi pada output-outputnya. Nilai parameter skala panjang yang sama menunjukkan bahwa setiap dimensi input memiliki tingkat “penting” yang sama dalam memprediksi nilai peragam dari output-output yang bersesuaian.

b. Fungsi peragam kuadrat eksponensial dengan ukuran jarak Automatic Relevance Determination (KE-ARD). Fungsi peragam ini memiliki formula

k ( x i , x j ) = σ f exp ⎜⎜ − ( x i − x j ) ( x i − x j ) ⎟⎟ (5)

dimana σ adalah ragam signal dan f Δ = ⎢ M O M ⎥ sedangkan l m adalah

parameter skala panjang untuk m = 1, ..., d. Dalam fungsi peragam ini nilai parameter skala panjang dianggap berbeda antara satu dengan yang lainnya. Fungsi peragam KE-ARD menunjukkan ide yang sama dengan KE-iso yaitu parameter skala panjang untuk m = 1, ..., d. Dalam fungsi peragam ini nilai parameter skala panjang dianggap berbeda antara satu dengan yang lainnya. Fungsi peragam KE-ARD menunjukkan ide yang sama dengan KE-iso yaitu

c. Fungsi peragam linear dengan hiperparameter tunggal (Linear-1). Fungsi peragam ini memiliki formula

k ( x i , x j ) = x i Δ x j + (6)

dimana t adalah parameter yang mengendalikan bias dan Δ = ⎢ M O M ⎥ ⎢

sedangkan t 1 = t 2 = L = t d = t .

d. Fungsi peragam linear dengan parameter Automatic Relevance Determination (Linear-ARD). Fungsi peragam ini memiliki formula

( x i , x j ) = x i Δ x j (7)

dimana Δ = ⎢ M O M ⎥ . Dalam fungsi peragam ini, parameter-parameter ⎢

d ⎣ ⎥ ⎦ ARD dianggap nilainya berbeda antara satu dengan yang lainnya.

e. Fungsi peragam Matern 3 dengan ukuran jarak isotropik. Fungsi peragam ini memiliki formula

⎛ 1 1 ) 1 = σ f ⎜ + 3 ( x i − x j )( Δ x i − x j ) ⎞ ⎟ exp ⎛ ⎜ − 3 ( x i − x j )( Δ x i − x j ) ⎞ ⎟

σ adalah ragam signal dan f Δ = ⎢ M O M ⎥ sedangkan l m adalah

parameter skala panjang untuk m = 1, ..., d. Dalam fungsi peragam ini nilai parameter skala panjang dianggap dianggap sama yaitu l 1 = l 2 = L = l d = l .

Selain fungsi-fungsi peragam diatas, fungsi peragam daptt dibuat dengan mengkombinasikan fungsi-fungsi peragam di atas, karena penjumlahan maupun perkalian dari fungsi-fungsi peragam akan menghasilkan sebuah fungsi peragam juga (Rasmussen dan Williams, 2006).

Dari beberapa jenis fungsi peragam yang telah disebutkan, tampak bahwa setiap fungsi peragam memiliki parameter-parameter tertentu. Sebagai contoh fungsi peragam Kuadrat Eksponensial memiliki parameter-parameter ragam signal

( 2 σ ) dan skala panjang (l). Selanjutnya parameter-parameter tersebut ditulis

f dalam sebuah vektor parameter 2 θ =

[] σ f , l . Untuk menunjukkan bahwa parameter-

parameter ini berbeda dengan parameter dalam regresi parametrik, selanjutnya parameter-parameter tadi disebut dengan hiperparameter (Rasmussen dan Williams, 2006).

Pendugaan Nilai Hiperparameter Fungsi Peragam

Terdapat beberapa metode yang dapat digunakan untuk menduga nilai-

nilai hiperparameter. Williams (2002) menyatakan bahwa untuk menduga nilai θ

dapat digunakan metode kemungkinan marginal maksimum ( Maximum Marginal Likelihood ) , metode aposterior maksimum, dan metode simulasi hybrid Monte Carlo. Metode lain yang bisa digunakan adalah metode Cross Validation dan metode Generalized Cross Validation (Wahba, 1990 dalam Williams 2002).

Dalam penelitian ini, pendugaan nilai hiperparameter menggunakan metode kemungkinan marginal maksimum. Fungsi kemungkinan marginal diperoleh dengan mengintegralkan fungsi kemungkinan yang telah dikalikan dengan sebaran prior bagi f, yaitu

p ( y X , θ ) = p ( y f, X , θ )( p f X , θ ) d f ∫ (9)

Dibawah kerangka kerja Proses Gaussian sebaran prior atas f X , adalah θ

Gaussian ganda, yaitu f X , θ ~ N ( 0, K ) atau

log p ( f X , θ ) = − f K f − log K − log 2 π (10)

Peubah acak y f , X , θ dan f X , θ masing-masing menyebar Gaussian Ganda

sehingga peubah acak y X , menyebar Gaussian ganda juga (Timm, 2002), θ

sehingga fungsi kemungkinan marginalnya menurut Rasmussen (2006) adalah

log p ( y X ,

) = − y ( K + σ Ι ) y − log K + σ I − log 2 π (11)

2 2 2 Penduga bagi nilai hiperparameter fungsi peragam tidak dapat diperoleh secara langsung melalui statistik penduganya oleh karena itu untuk menemukan nilai dugaannya dilakukan secara numerik. Salah satu metode yang dapat digunakan adalah metode Conjugate Gradient (Fletcher dan Reeves, 1964). Metode Conjugate gradient adalah sebuah algoritma yang dirancang untuk menemukan nilai minimum lokal terdekat dari fungsi banyak peubah dengan syarat gradien dari fungsi tersebut dapat dihitung. Usaha untuk memaksimumkan fungsi kemungkinan marginal ekuivalen dengan meminimumkan fungsi kemungkinan marginal negatif.

Misal h adalah fungsi yang didefinisikan pada persamaan (11) dan ∂ h

∂ θ & 0 adalah turunan berarah dari fungsi h terhadap parameter θ. Berikut ini adalah algoritma dari metode Conjugate Gradient untuk fungsi nonlinear. Langkah 1: Menentukan nilai awal θ. 0

∇ h () θ 0 = () θ

Langkah 2: d 0 ← −∇ h () θ 0

Langkah 3: for k = 0,1, ..., n-1 do

a) Cari nilai α yang meminimumkan k g ()( α = h θ k + α d k )

b) θ k +1 ← θ k + α k d k

∇ 2 h () θ

k + c) 1 β k ←

∇ h () θ k ∇ h () θ k

e) θ← 0 θ n

langkah 4: Kembali kelangkah 2 sampai diperoleh nilai β k − β k −1 < ε , dimana nilai ε ditetapkan terlebih dahulu yang nilainya kecil sekali (mendekati nol).

Rassmusen (1996) telah mengembangkan sebuah program dalam bahasa Matlab untuk metode Conjugate Gradient ini.

Prediksi Dalam Regresi Proses Gaussian

Misal diberikan beberapa amatan dan sebuah fungsi peragam, selanjutnya akan ditentukan sebuah prediksi dengan menggunakan model proses Gaussian. Untuk melakukan hal itu, jika x * sebuah titik uji dan * f adalah fungsi yang

bersesuaian dengan x * , maka dibawah kerangka kerja Proses Gaussian , sebaran bersama dari f dan * f adalah Gaussian Ganda dengan rataan nol, yaitu:

( x , x 1 ) , K , k ( x , x n ) adalah vektor n x 1 yang dibentuk dari

dimana T k = [ k

κ = k ( x ,x ) adalah sebuah

peragam antara x * dan input-input model. Sedangkan

skalar. Apabila peubah galat mengikuti sebaran seperti pada persamaan (1) maka sebaran bersama dari peubah teramati y dan y * adalah

⎜ (13) ⎟ ⎣ y ⎦

⎢ * ⎥ X, θ ~ N 0 , ⎢

Sehingga sebaran marginal dari * y adalah Gaussian juga, yaitu :

( m ( x ), v ( x ) ) (14)

y * y, X, θ ~ N

dimana rataan dan ragam adalah

m () x = k T

( K + σ I ) y (15)

v () x = κ + σ − k ( K + σ I ) k (16)

() x . Secara

Nilai dugaan bagi y * adalah m(x * ) dan ragam bagi dugaan y * adalah v *

[ x 1 , K , x m ] maka sebaran y adalah Gaussian

umum untuk m buah titik uji * X =

Ganda dengan parameter-parameter,

() X = K ( K + σ I ) y (17)

v () X = K + σ I − K ( K + σ I ) K (18)

dimana * K adalah matrik n x m dari peragam antara input-input training dan titik- * titik uji. Matrik * K dengan ukuran m x m tersusun dari peragam antara titik-titik uji.

BAHAN DAN METODE Bahan

Data yang digunakan dalam penelitian ini adalah data sekunder yang merupakan bagian dari data penelitian Hibah Pascasarjana tahun 2003-2005 hasil kerjasama antara Departemen Statistika IPB dengan Pusat Studi Biofarmaka LPPM IPB. Penelitian tersebut didanai oleh Dirjen Pendidikan Tinggi, Departemen Pendidikan Nasional. Data yang digunakan adalah persen transmitan kurkumin dari serbuk temulawak hasil pengukuran spektrometer FTIR dan data konsentrasi senyawa aktif kurkumin yang diukur dengan menggunakan HPLC. Temulawak yang dijadikan contoh diambil dari beberapa daerah sentra tanaman obat, yaitu Bogor, Sukabumi, Kulon Progo, Karanganyar, dan Cianjur dan Balitro. Data-data tersebut diperoleh dari Pusat Studi Biofarmaka Institut pertanian Bogor.

Metode Penelitian

Penelitian ini terdiri atas 6 tahapan, yaitu (1) pra pemrosesan, (2) deteksi pengamatan pencilan, (3) pemilihan gugus kalibrasi dan gugus uji, (4) pemilihan fungsi peragam, (5) pemodelan dan (6) pengujian. Keenam tahapan tersebut lebih jelasnya dapat dilihat pada Gambar 1.

Tahap pertama: Pra pemrosesan

Tahap pra pemrosesan adalah tahapan mereduksi jumlah peubah penjelas. Dalam tahapan ini digunakan Analisis Komponen Utama (AKU). Terdapat dua aktifitas dasar dari AKU, yaitu :

1. Pembuatan matriks korelasi atau matriks ragam-peragam. Aktifitas ini diperlukan sebagai pemahaman awal terhadap karakteristik data. Karena data hasil pengukuran FTIR mempunyai satuan pengukuran yang sama maka matrik input yang digunakan adalah matrik ragam-peragam.

2. Penentuan jumlah komponen utama. Metode yang digunakan didasarkan atas proporsi keragaman kumulatif total yang mampu dijelaskan. Jika λ 1 , λ 2 , K , λ p 2. Penentuan jumlah komponen utama. Metode yang digunakan didasarkan atas proporsi keragaman kumulatif total yang mampu dijelaskan. Jika λ 1 , λ 2 , K , λ p

komponen utama pertama adalah i = 1 p , k = 1 , 2 , K p

Tahap kedua : Deteksi pengamatan pencilan

Metode yang digunakan untuk mendeteksi pencilan adalah dengan melihat nilai leverage setiap contoh yaitu dengan langkah-langkah sebagai berikut:

1. Menghitung nilai leverage untuk setiap contoh dengan formula

h i ia = + tˆ adalah skor untuk contoh ke-i pada komponen

dimana

λ ia

utama ke-a dan λˆ adalah jumlah kuadrat dari skor-skor contoh untuk a

kalibrasi yang bersesuaian dengan komponen a, sedangkan N adalah banyaknya contoh yang digunakan.

2. Membandingkan nilai leverage masing-masing contoh dengan R = . N

Jika nilai laverage lebih dari 3R maka contoh tersebut dikategorikan sebagai sebuah pencilan (Naes et al, 2002).

Tahap ketiga : Pemilihan gugus uji dan gugus kalibrasi

Langkah-langkahnya adalah sebagai berikut:

1. Melakukan penggerombolan spektrum berdasarkan komponen-komponeun utama yang terpilih. Metode pautan yang digunakan adalah pautan lengkap dan jarak statistik yang digunakan adalah jarak euclid.

2. Menentukan banyaknya gerombol berdasarkan dendogram yang dihasilkan pada langkah 1.

3. Mengambil beberapa contoh dari masing-masing gerombol untuk menjadi bagian dari gugus uji.

4. Data yang tidak terambil pada bagian (3) akan menjadi bagian dari gugus kalibrasi.

Tahap keempat : Pemilihan Fungsi peragam

Langkah-langkah dalam tahap pemilihan fungsi peragam adalah sebagai berikut:

1. Menetapkan fungsi peragam tertentu.

2. Mengambil gugus uji dan gugus kalibrasi tertentu.

3. Melakukan pendugaan nilai-nilai hiperparameter dengan menggunakan metode kemungkinan marginal maksimum.

4. Nilai-nilai hiperparameter yang diperoleh dari poin (3) digunakan dalam regresi proses Gaussian sehingga diperoleh nilai Root Mean Square Error of Prediction (RMSEP) nya.

5. Mengulangi langkah (1) – (4) untuk semua kemungkinan susunan gugus data uji dan gugus data kalibrasi.

6. Menghitung nilai rata-rata RMSEP dari seluruh nilai RMSEP yang diperoleh.

7. Mengulangi langkah (1) – (6) untuk berbagai jenis fungsi peragam yang lain.

8. Membandingkan dugaan nilai RMSEP dari berbagai fungsi peragam tersebut.

9. Fungsi peragam yang menghasilkan nilai RMSEP yang terkecil akan digunakan dalam pemodelan regresi proses Gaussian.

Tahap kelima : Pemodelan

Langkah-langkah dalam tahap pemodelan adalah sebagai berikut:

1. Melakukan pendugaan nilai-nilai hiperparameter bagi fungsi peragam yang terpilih pada tahap keenam dengan menggunakan keseluruhan contoh. Pendugaan dilakukan dengan menggunakan metode kemungkinan marginal maksimum.

2. Nilai-nilai hiperparameter yang diperoleh dari poin (1) digunakan dalam regresi proses gaussian sehingga diperoleh nilai prediksi bagi setiap input data.

3. Menghitung nilai Root Mean Square Error (RMSE).

4. Menghitung 2 R Yvs Y ˆ .

Tahap keenam : Pengujian

Tahap terakhir adalah pengujian sebaran normal terhadap peubah acak galat. Dalam hal ini akan digunakan uji Kolmogorov-Smirnov.

Mulai

Pengukuran Persen

Transmitan dan Konsentrasi

Analisis Komponen Pra pemrosesan

Utama

Nilai Leverage Deteksi Pencilan

ya

Ada Pencilan?

tidak

Pemilihan Gugus Uji dan Kalibrasi

Pemilihan Fungsi Peragam

Pemodelan

ToolBox GPML Regresi Proses

Gaussian

Uji Kolmogorov

Pengujian Sebaran Galat

Smirnov

Selesai

Gambar 1 Diagram alur penelitian

HASIL DAN PEMBAHASAN

Deskripsi Spektrum Kurkumin

Data persen transmitan diperoleh dari pengukuran dengan menggunakan FTIR pada 1866 bilangan gelombang yang berkisar antara 4000 – 400 cm -1 .

Grafik spektrum kurkumin dari 20 contoh serbuk temulawak yang berasal dari berbagai daerah dapat dilihat pada Gambar 2. Berdasarkan Gambar 2 spektrum kurkumin dari berbagai daerah tersebut sebagian besar memiliki pola yang hampir sama kecuali untuk beberapa spektrum yang menunjukkan pola yang agak berbeda. Tampak bahwa spektrum kurkumin dari contoh serbuk temulawak yang diambil dari daerah cianjur (contoh cj2) dan bogor (contoh bg2) agak berbeda.

Pada indeks bilangan gelombang disekitar 1500 cm -1 ketika spektrum kurkumin serbuk temulawak dari sebagain besar contoh memiliki pola grafik yang

cekung ke atas, tetapi temulawak yang diambil dari daerah cianjur menujukkan pola grafik yang cekung kebawah. Sedangkan spektrum kurkumin serbuk temulawak yang diambil dari daerah Bogor (contoh bg2) menunjukkan pola yang cenderung konstan di setiap bilangan gelombang. Patut diduga bahwa kedua spektra kurkumin dari contoh cj2 dan bg2 merupakan spektrum pencilan (outlier). Pendeteksian adanya spektrum pencilan akan dibahas pada bagian lain dari tesis ini.

Gambar 2 Spektra kurkumin serbuk temulawak

Reduksi Peubah Penjelas

Data persen transmitan diukur pada 1866 bilangan gelombang yang dalam pemodelan kalibrasi ini berperan sebagai peubah penjelas. Ada tiga alasan utama mengapa reduksi jumlah peubah penjelas ini dilakukan. Pertama, besar kemungkinan antara peubah penjelas satu dengan lainnya tidak saling bebas. Kedua, ada beberapa fungsi peragam dalam analisis regresi proses Gaussian dimana jumlah parameter mengikuti jumlah peubah bebas yang digunakan, contohnya adalah fungsi peragam Kuadrat Eksponensial – ARD. Ketiga, bekerja dengan sedikit peubah penjelas akan menyederhanakan proses komputasi.

Analisis Komponen Utama (AKU) digunakan untuk mereduksi banyaknya peubah penjelas dengan persentase keragaman kumulatif yang mampu dijelaskan digunakan sebagai kriteria untuk menentukan banyaknya komponen utama. Tabel

1 menjelaskan bahwa pada bilangan gelombang 4000–400 cm -1 dengan menggunakan 1 komponen utama, keragaman yang dapat dijelaskan sebesar 94,41% dan apabila menggunakan 2 komponen utama keragaman yang dapat dijelaskan sebesar 98,13% sedangkan apabila menggunakan 3 komponen utama keragaman yang dapat dijelaskan sebesar 99,03% dari keragaman pada data asal. Oleh karena itu dalam analisis selanjutnya digunakan 3 komponen utama pertama sebagai peubah penjelas.

Tabel 1 Ragam kumulatif komponen utama Komponen

Ragam Utama

Ragam yang

Deteksi Pengamatan Pencilan

Pencilan adalah pengamatan dimana dengan sebab-sebab tertentu memiliki sifat yang berbeda dengan kebanyakan pengamatan lainnya (Naes et al., 2005) . Adanya data pencilan sering kali memperbesar nilai ragam bagi model, sehingga menyebabkan dugaan bagi selang kepercayaannya makin lebar. Pada penelitian ini metode yang digunakan untuk mendeteksi adanya spektrum pencilan adalah Pencilan adalah pengamatan dimana dengan sebab-sebab tertentu memiliki sifat yang berbeda dengan kebanyakan pengamatan lainnya (Naes et al., 2005) . Adanya data pencilan sering kali memperbesar nilai ragam bagi model, sehingga menyebabkan dugaan bagi selang kepercayaannya makin lebar. Pada penelitian ini metode yang digunakan untuk mendeteksi adanya spektrum pencilan adalah

Tabel 2 Nilai leverage untuk masing-masing contoh.

Nilai Contoh

Leverage kp1 0.3495R

Leverage Contoh

bt1 0.8680R kp2 2.0385R

bt2 0.8370R kp3 0.3825R

cj1 0.2915R kp4 0.3355R

cj2 4.5165R

kp5 0.4445R bg1 0.4915R kp6 0.5385R

bg2 2.7230R kr1 0.3930R

kn1 0.9745R kr2 0.2920R

kn2 3.1005R

kr3 0.3755R sb1 0.3565R kr4 0.3285R

sb2 0.3625R Keterangan : R = 0,2

Tampak bahwa pada bilangan gelombang 4000 – 400 cm -1 , contoh dengan kode cj2 dan kn2 memiliki nilai leverage masing-masing 0,9033 dan 0,6201. Jika

R = 0 , 2 maka nilai leverage dari kedua contoh tersebut masing-masing adalah 4,5165R dan 3,1005R, sehingga dapat disimpulkan bahwa spektrum dari contoh dengan kode cj2 dan kn2 merupakan pencilan.

Jika sebuah contoh spektrum terdeteksi sebagai sebuah pencilan, maka langkah pertama adalah kembali ke laboratorium untuk menelusuri sebab-sebab mengapa contoh tersebut menjadi sebuah pencilan. Kedua, jika sebab telah ditemukan maka sedapat mungkin kesalahan yang dilakukan dikoreksi atau jika perlu dilakukan pengukuran ulang. Namun jika sebab-sebab tidak ditemukan maka data tersebut lebih baik tidak diikutkan dalam perhitungan dan analisis selanjutnya (Naes et al., 2002). Karena dalam penelitian ini data yang digunakan adalah data sekunder, maka peneliti tidak dapat menelusuri lebih lanjut hal-hal yang menyebabkan kenapa contoh cj2 dan kn2 menjadi pencilan. Oleh karena itu kedua contoh diatas tidak akan dilibatkan dalam analisis selanjutnya.

Pemilihan Gugus Uji dan Gugus Kalibrasi

Gugus kalibrasi adalah gugus data yang digunakan untuk membangun sebuah model kalibrasi sedangkan gugus uji atau gugus validasi adalah gugus data Gugus kalibrasi adalah gugus data yang digunakan untuk membangun sebuah model kalibrasi sedangkan gugus uji atau gugus validasi adalah gugus data

Dalam penelitian ini semua kemungkinan susunan gugus uji dan gugus kalibrasi dipertimbangkan. Banyaknya anggota dari gugus uji dalam penelitian ini paling banyak ¼ dari keseluruhan contoh.

Gambar 3 Dendogram penggerombolan berdasarkan 3 komponen utama

Gambar 3 adalah hasil penggerombolan contoh berdasarkan 3 komponen utama yang telah ditetapkan pada bagian sebelumnya. Pemilihan banyaknya gerombol didasarkan atas selisih jarak penggabungan terbesar antara dua buah gerombol. Tampak bahwa contoh-contoh yang digunakan dalam penelitian dapat digerombolkan menjadi 3 buah gerombol. Pada gerombol pertama memuat spektrum dengan kode contoh kp1, kr3, sb1, sb2, bg1, kp4, kr4, kp6, cj1, kr1, kr2. Pada gerombol kedua memuat spektrum dengan kode contoh kp2, kp3, kp5, bt1 dan bt2, sedangkan pada gerombol ketiga memuat spektrum dengan kode contoh bg2. Karena pada gerombol ketiga hanya memuat sebuah data, yaitu spektrum Gambar 3 adalah hasil penggerombolan contoh berdasarkan 3 komponen utama yang telah ditetapkan pada bagian sebelumnya. Pemilihan banyaknya gerombol didasarkan atas selisih jarak penggabungan terbesar antara dua buah gerombol. Tampak bahwa contoh-contoh yang digunakan dalam penelitian dapat digerombolkan menjadi 3 buah gerombol. Pada gerombol pertama memuat spektrum dengan kode contoh kp1, kr3, sb1, sb2, bg1, kp4, kr4, kp6, cj1, kr1, kr2. Pada gerombol kedua memuat spektrum dengan kode contoh kp2, kp3, kp5, bt1 dan bt2, sedangkan pada gerombol ketiga memuat spektrum dengan kode contoh bg2. Karena pada gerombol ketiga hanya memuat sebuah data, yaitu spektrum

Karena banyaknya contoh yang digunakan dalam penelitian ini sebanyak

17 buah maka ditetapkan bahwa banyaknya anggota dari gugus uji sebanyak 4 buah. Selanjutnya 3 buah contoh diambil dari gerombol pertama dan sebuah contoh diambil dari gerombol kedua untuk menjadi bagian dari gugus uji sedangkan data yang tidak terambil menjadi bagian dari gugus kalibrasi. Banyaknya susunan pasangan yang mungkin dari gugus uji dan gugus kalibrasi

⎛ 12 ⎞ ⎛ 5 ⎞ adalah ⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟ = 10 susunan. Dalam penelitian ini semua kemungkinan

⎝ 3 ⎠ ⎝ 1 ⎠ susunan dari gugus uji dan gugus kalibrasi diperhatikan dalam penentuan nilai RMSEP.

Pemilihan Fungsi Peragam

Fungsi peragam yang dapat dipilih dalam pemodelan regresi proses Gaussian jumlahnya tidak diketahui, oleh karena itu dalam penelitian ini dikaji beberapa fungsi peragam yang telah biasa digunakan oleh para peneliti lain (Rassmussen dan Williams, 2006).

Tabel 3 Nilai RMSEP setiap jenis fungsi peragam

Rata-Rata RMSEP No Fungsi Peragam Pencilan Tidak

Pencilan di di Hilangkan Hilangkan

1 Kuadrat Eksponensial - Isotropik (KE-Iso)

2 Kuadrat Eksponensial - Automatic 0.5446 0,4282 Relevance Determinant (KE - ARD)

0,5130 4 Linear Automatic Relevance Determinant

3 Linear 1 0.6963

0.6540 0,4878 (Linear - ARD)

5 Matern 3 - Isotropik

0,3892 6 Linear 1 + KE - Iso

0,4390 7 Linear ARD + KE - Iso

0,4401 8 Linear 1 + KE - ARD

0,4587 9 Linear ARD + KE - ARD

Dengan menggunakan skor dari 3 komponen utama yang telah ditetapkan pada bagian sebelumnya dan menganggap konsentrasi kurkumin hasil dari pengukuran HPLC sebagai peubah respon maka pemilihan fungsi peragam Dengan menggunakan skor dari 3 komponen utama yang telah ditetapkan pada bagian sebelumnya dan menganggap konsentrasi kurkumin hasil dari pengukuran HPLC sebagai peubah respon maka pemilihan fungsi peragam

Dari Tabel 3 dapat disimpulkan bahwa fungsi peragam yang relevan untuk pemodelan kalibrasi konsentrasi kurkumin adalah Kuadrat Eksponensial-isotropik (KE-iso) karena memberikan nilai RMSEP terkecil, yaitu sebesar 0,3857. Nilai RMSEP tersebut bersesuaian dengan pengukuran persen transmitan pada bilangan

gelombang 4000–400 cm -1 dimana data-data pencilan telah dikeluarkan sebelumnya. Tampak bahwa pemodelan regresi proses Gaussian dimana gugus

data yang dimiliki memuat pencilan menunjukkan capain nilai rata-rata RMSEP yang lebih besar jika dibandingkan dengan pemodelan yang telah mengeluarkan pengamatan pencilan.

Pemodelan Regresi Proses Gaussian

Pada bagian sebelumnya sudah dijelaskan bahwa fungsi peragam yang relevan bagi model kalibrasi konsentrasi kurkumin adalah fungsi peragam Kuadrat Eksponensial-isotropik (KE-iso). Fungsi peragam jenis ini termasuk dalam kategori fungsi peragam stasioner. Formula dari fungsi peragam ini adalah

( i j )( i j ) 2

k ( x i − x j ) = σ f exp ⎜

⎟ + σ δ ij

dimana δ sama dengan 1 untuk i = j dan 0 untuk yang lainnya. Tampak bahwa ij

dalam fungsi peragam Kuadrat Eksponensial-isotropik memiliki 3 buah

2 2 parameter, yaitu 2 σ

f , l dan σ . Parameter σ disebut dengan ragam sinyal, f parameter l disebut dengan skala panjang dan parameter 2 σ disebut dengan

ragam galat. Penambahan suku 2 σ δ ij pada formula baku dari fungsi peragam KE-iso sebagai konsekuensi dari pemodelan regresi yang menyertakan peubah acak galat.

Dengan menggunakan metode kemungkinan marginal maksimum diperoleh dugaan bagi nilai-nilai hiperparameter fungsi peragam KE-iso, yaitu ˆ 2 σ 2 f = 0 , 1563 , l ˆ = 1 , 3416 dan σ ˆ = 0 , 0582 . Hal ini berarti bahwa untuk setiap

input yang sama maka penduga ragam bagi outputnya adalah sebesar 0,1563 +

0,0582 = 0,2145. Jika jarak antara dua buah input sebasar 1,3416 maka dugaan σ 2 ˆ

f 0 , 1563 peragam bagi output-output yang bersesuaian sebesar

e 1 , 6487 Makin besar jarak antara dua buah input maka makin kecil nilai peragam bagi output yang bersesuaian.

Gambar 4 Plot antara Y dan Y prediksi untuk model regresi proses Gaussian

Implementasi regresi proses Gaussian dengan fungsi peragam KE-iso menghasilkan nilai 2 R

Yvs Y ˆ sebesar 87,77% dengan nilai RMSE sebesar 0,1753. Gambar 4 adalah plot antara nilai aktual konsentrasi kurkumin dan nilai dugaannya dibawah model regresi proses Gaussian. Tampak bahwa plot diantara keduanya cenderung membentuk garis lurus, meskipun garisnya tidak melalui pusat koordinat.

Gambar 5 Plot antara Y dan Y prediksi untuk model regresi komponen utama

Dengan menggunakan regresi komponen utama, model kalibrasi pengukuran konsentrasi kurkumin berdasarkan data transmitan serbuk temulawak diperoleh nilai R 2 Yvs Y ˆ sebesar 40,18% dengan nilai RMSE sebesar 0,3901. Gambar

5 menunjukkan plot antara Y dan Y prediksinya untuk model regresi komponen utama. Tampak bahwa plot antara Y dan Y prediksinya cenderung tidak membetuk sebuah garis lurus. Dengan berdasarkan pada kriteria 2 R

Yvs Y ˆ dan RMSE dapat disimpulkan bahwa kinerja regresi proses Gaussian jauh lebih baik jika dibandingkan dengan kinerja regresi komponen utama.

Pengujian Sebaran Galat

Munculnya asumsi sebaran Gaussian bagi peubah acak galat pada regresi proses Gaussian memiliki tujuan yang berbeda dengan munculnya asumsi sebaran Gaussian bagi peubah acak galat pada regresi parameterik pada umumnya. Pada regresi parametrik adanya asumsi tersebut berguna untuk pengujian hipotesis bagi parameter-perameter model regresinya sedangkan pada regresi proses Gaussian adanya asumsi tersebut semata-mata agar sebaran bagi amatan y dapat ditelusuri.