Smoothly Clipped Absolute Deviation (Scad) Sebagai Metode Alternatif Dalam Menangani Analisis Regresi Pada Data Berdimensi Tinggi
SMOOTHLY CLIPPED ABSOLUTE DEVIATION (SCAD)
SEBAGAI METODE ALTERNATIF DALAM MENANGANI
ANALISIS REGRESI PADA DATA BERDIMENSI TINGGI
RIZKY FAUZIA LISTIARASANI
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Smoothly Clipped
Absolute Deviation (SCAD) sebagai Metode Alternatif dalam Menangani Analisis
Regresi pada Data Berdimensi Tinggi adalah benar karya saya dengan arahan dari
komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan
tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang
diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks
dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Agustus 2015
Rizky Fauzia Listiarasani
NIM G14110035
ABSTRAK
RIZKY FAUZIA LISTIARASANI. Smoothly Clipped Absolute Deviation
(SCAD) sebagai Metode Alternatif dalam Menangani Analisis Regresi pada Data
Berdimensi Tinggi. Dibimbing oleh BAGUS SARTONO dan CICI SUHAENI.
Data berdimensi tinggi ialah data dengan banyaknya peubah penjelas lebih
besar daripada banyaknya amatan. Pendugaan koefisien regresi pada data
berdimensi tinggi tidak dapat menggunakan metode kuadrat terkecil. Hal ini
memerlukan teknik analisis tertentu dalam pendekatannya. Salah satu metode
alternatif dalam menangani kasus tersebut ialah metode SCAD. Penelitian ini
menggunakan data komposisi campuran temulawak, kunyit, dan bangle yang
diperoleh dari Pusat Studi Biofarmaka LPPM IPB. Selanjutnya data tersebut
dianalisis menggunakan alat ATR-FTIR (Attenuated Total Reflectance Fourier
Transform Infra Red) hingga mendapatkan nilai absorban yang dijadikan sebagai
peubah penjelas pada interval bilangan gelombang
. Persentase
temulawak dijadikan sebagai peubah respon dalam penelitian ini. Metode validasi
silang digunakan untuk menentukan parameter terbaik. Peubah penjelas yang
berpengaruh sebanyak delapan peubah penjelas pada minimum 0.009. optimal
yang terpilih sebesar 0.0106 dengan nilai cross validation error minimum 0.0201.
Kata kunci: data berdimensi tinggi, SCAD, tanaman obat, validasi silang.
ABSTRACT
RIZKY FAUZIA LISTIARASANI. Smoothly Clipped Absolute Deviation
(SCAD) as A Method in Handling Regression Analysis in High Dimensional Data.
Supervised by BAGUS SARTONO and CICI SUHAENI.
High dimensional data is a data which have more independent variable than
its number of observation. The least square method cannot be used in estimating
the coefficient of regression in high dimensional data. Thus, these data need a
certain analytical technique in the approach. One of the alternative methods in
dealing with those cases is SCAD method. The data used in this study is the
mixture composition data of curcuma, turmeric, and bangle from Pusat Studi
Biofarmaka LPPM IPB. ATR-FTIR (Attenuated Total Reflectance Fourier
Transform Infra Red) was used to analyze the data until the absorption value, that
is used as an independent variable, reaches the wave numeral interval of
. This research used the percentage of curcuma as a response
variable. Cross validation was used to determine the greatest parametric
estimator. Eight independent variables were found with minimum of 0.009,
meanwhile optimum is at 0.0106 with minimum cross validation error at 0.0201.
Keywords: cross validation, herb, high dimensional data, SCAD.
SMOOTHLY CLIPPED ABSOLUTE DEVIATION (SCAD)
SEBAGAI METODE ALTERNATIF DALAM MENANGANI
ANALISIS REGRESI PADA DATA BERDIMENSI TINGGI
RIZKY FAUZIA LISTIARASANI
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Statistika
pada
Departemen Statistika
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
PRAKATA
Puji syukur penulis panjatkan kepada Allah SWT yang telah memberikan
rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan karya ilmiah yang
berjudul “Smoothly Clipped Absolute Deviation (SCAD) sebagai Metode
Alternatif dalam Menangani Analisis Regresi pada Data Berdimensi Tinggi”.
Karya ilmiah ini merupakan salah satu syarat untuk mendapatkan gelar Sarjana
Statistika pada Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan
Alam, Institut Pertanian Bogor.
Penulis mengucapkan terima kasih kepada semua pihak yang telah
membantu dalam menyelesaikan karya ilmiah ini, antara lain:
1. Bapak Dr Bagus Sartono, MSi dan Ibu Cici Suhaeni, MSi selaku
pembimbing yang telah sabar dalam memberikan banyak saran dan
nasihat selama penulisan karya ilmiah ini.
2. Ibu Dra Itasia Dina Sulvianti, MSi sebagai penguji luar komisi yang telah
memberikan banyak saran dan masukan dalam penulisan karya ilmiah ini.
3. Bapak Rudi Heryanto, MSi dari Biofarmaka yang telah membantu
penulis dalam mendapatkan dan memberi penjelasan tentang data yang
digunakan pada penelitian ini.
4. Seluruh Dosen pengajar Departemen Statistika atas ilmu yang
bermanfaat yang telah diberikan.
5. Ayah dan Ibu, adik-adik atas doa, kasih sayang, dan dukungan kepada
penulis.
6. Seluruh Staf Tata Usaha Departemen Statistika IPB yang selalu bersedia
direpotkan sehingga segala proses adminitrasi berjalan dengan lancar.
7. Rekan satu bimbingan Nida, Haifa, Erza, Farah, Kartika, Citra sebagai
teman satu perjuangan satu dosen bimbingan yang selalu memberikan
dukungan dan masukannya.
8. Nida, Umil, Ita, Kak Ipeh, Kak Jijah, atas semangat dan kebersamaannya.
9. Kakak-kakak, dan adik-adik di Omda IPMRT Bogor serta teman-teman
Dita, Nopi, Frida, Rahman, Galih, Anik atas motivasi dan
kebersamaannya selama di kota rantau.
10. Teman-teman Statistika 48 atas motivasi dan dukungannya selama ini.
Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak. Penulis mohon
maaf atas segala kekurangan dan kesalahan yang terdapat dalam pembuatan karya
ilmiah ini.
Bogor, Agustus 2015
Rizky Fauzia Listiarasani
DAFTAR ISI
DAFTAR TABEL
viii
DAFTAR GAMBAR
viii
DAFTAR LAMPIRAN
viii
PENDAHULUAN
1
Latar Belakang
1
Tujuan Penelitian
1
TINJAUAN PUSTAKA
2
Analisis Regresi
2
Smoothly Clipped Absolute Deviation (SCAD)
2
Validasi Silang
3
Spektroskopi Infra Merah Transformasi Fourier (FTIR)
4
METODOLOGI
5
Sumber Data
5
Prosedur Analisis Data
5
HASIL DAN PEMBAHASAN
6
Deskripsi Data
6
Penerapan SCAD
8
SIMPULAN
10
DAFTAR PUSTAKA
11
RIWAYAT HIDUP
13
DAFTAR TABEL
1
2
3
4
Daerah identifikasi spektrum IR kurkuminoid
Hasil CVE minimum dan optimal
Bilangan gelombang yang berpengaruh, nilai CVE,
Bilangan gelombang yang berpengaruh
optimal saat
7
9
0.8176 9
9
DAFTAR GAMBAR
1
2
3
4
5
Spektrum IR temulawak murni, kunyit murni, dan bangle murni
Histogram dari nilai |̂|
Plot CVE saat 0.05 sampai 1
Plot CVE saat 0.009 sampai 1
Letak bilangan gelombang yang berpengaruh
6
7
8
8
10
DAFTAR LAMPIRAN
1 Plot CVE
12
PENDAHULUAN
Latar Belakang
Data berdimensi tinggi banyak dijumpai pada beberapa bidang ilmu
pengetahuan, misalnya pada bidang biologi, kimia, dan fisika. Data berdimensi
tinggi adalah data dengan banyaknya peubah penjelas lebih banyak daripada
banyaknya amatan. Data seperti ini membutuhkan pendekatan analisis yang
berbeda dari data dengan amatan yang lebih banyak daripada peubah penjelasnya
(Verleysen 2003).
Analisis regresi merupakan suatu alat untuk mengetahui suatu pengaruh
hubungan ketergantungan peubah penjelas
terhadap peubah respon
(Draper dan Smith 1992). Salah satu metode yang digunakan pada analisis regresi
dalam pendugaan koefisien regresinya adalah Metode Kuadrat Terkecil (MKT),
yaitu dengan cara meminimumkan Jumlah Kuadrat Sisaan (JKS). Salah satu
syarat perlu untuk dapat menduga parameter dengan MKT ialah banyaknya
dengan adalah banyaknya amatan dan adalah banyaknya peubah penjelas agar
matriks
yang bersifat non singular. Sebaliknya jika ditemukan maka
tidak dapat menghasilkan penduga bagi karena matriks
tidak mempunyai
matriks kebalikan, rank tidak penuh dan bersifat singular (Myers dan Milton
1991).
Data berdimensi tinggi umumnya memiliki dimensi peubah yang lebih
banyak daripada amatan, sehingga MKT tidak dapat diterapkan. Kasus seperti ini
dapat diatasi dengan beberapa metode alternatif yaitu metode reduksi, seleksi, dan
model averaging. Metode reduksi meliputi AKU (Analisis Komponen Utama),
PLS (Partial Least Square), dan pembuangan peubah penjelas yang tidak penting.
Metode seleksi meliputi forward, stepwise, dan penalyzed method. Dalam
penalyzed method terdapat beberapa metode lagi antara lain LASSO (Least
Absolute Shrinkage and Selection Operator), Group LASSO (Group Least
Absolute Shrinkage and Selection Operator), SCAD (Smoothly Clipped Absolute
Deviation), dan Hard Thresholding.
Penelitian ini fokus pada penggunanan metode SCAD yang diperkenalkan
oleh Fan dan Li (2001). Perkembangan SCAD telah diterapkan pada beberapa
bidang ilmu, misalnya dalam Compressed Sensing (CS) Magnetic Resonance
Imaging (MRI) pada bidang Nuclear Science, penyeleksian parameter di bidang
Biometrika pada data persediaan tenaga kerja wanita di Jerman. Selain itu,
digunakan pada data survei, serta pada Support Vector Machines (SVM)
diadaptasi dari bidang teknik dan bioinformatika. Beberapa solusi yang digunakan
SCAD untuk menentukan parameter terbaiknya ialah AIC (Akaike Information
Criterion), BIC (Bayesian Information Criterion), CV (Cross Validation), dan
GCV (Generalized Cross Validation) (Fan dan Li 2001).
Salah satu contoh data berdimensi tinggi dapat dijumpai pada kasus data
komposisi tanaman obat, seperti temulawak, kunyit, dan bangle. Ketiga jenis
tanaman obat tersebut diekstrak menjadi serbuk simplisia. Serbuk simplisia
dianalisis dengan menggunakan alat ATR-FTIR (Attenuated Total Reflectance
Fourier Transform Infra Red) sehingga menghasilkan nilai absorban sebanyak
1798 pada bilangan gelombang
. Persentase temulawak dijadikan
2
sebagai peubah respon dengan banyaknya amatan 280. Sehingga data ini relevan
untuk menjadi studi kasus penerapan metode SCAD pada data berdimensi tinggi.
Tujuan Penelitian
Tujuan dari penelitian ini adalah menerapkan metode SCAD dalam
penentuan bilangan gelombang untuk menduga kandungan temulawak pada
simplisia hasil percampuran tanaman obat temulawak, kunyit, dan bangle.
TINJAUAN PUSTAKA
Analisis Regresi
Analisis regresi ialah suatu teknik dalam statistika yang digunakan untuk
memeriksa dan membuat model hubungan antar peubah. Aplikasi dari analisis ini
banyak terjadi di hampir setiap bidang, termasuk teknik, fisika, ekonomi,
manajemen, biologi dan sosial (Montgomery dan Peck 1992). Syarat perlu dalam
regresi ialah banyaknya amatan lebih besar daripada banyaknya peubah penjelas.
Model regresi linear umum dalam peubah-peubah
dapat ditulis
sebagai berikut:
dengan:
= peubah respon untuk suatu amatan ke-i
= vektor parameter yang akan diduga pada peubah penjelas ke-p
= elemen matriks pada amatan ke-i peubah penjelas ke-p
= error untuk suatu amatan ke-i
p = banyaknya peubah penjelas
i
= 1,2,...,n, dengan n indeks pengamatan
Pendugaan koefisien regresi dengan MKT dapat diperoleh dengan
. ̂ sebagai vektor penduga parameter
menyelesaikan rumus ̂
regresi, merupakan matriks peubah penjelas, sedangkan merupakan vektor
amatan (Draper dan Smith 1992).
Smoothly Clipped Absolute Deviation (SCAD)
Metode alternatif dalam menangani data berdimensi tinggi yaitu metode
reduksi, seleksi, dan model averaging. Penalyzed method merupakan salah satu
metode yang terdapat pada metode seleksi. Metode ini bekerja dengan cara
menambahkan suatu penalty atau fungsi kendala saat meminimumkan jumlah
kuadrat sisaan. Penalty yang baik harus menghasilkan penduga yang memiliki 3
sifat, yaitu unbiasedness, sparsity, dan continuity. Unbiasedness ialah suatu sifat
3
penduga yang nilai harapannya penduga sama dengan nilai parameter. Sparsity
merupakan suatu kondisi dengan menghasilkan sedikit peubah penjelas yang
terseleksi dan membuat peubah penjelas lainnya bernilai nol karena berpengaruh
kecil. Continuity ialah kondisi suatu fungsi yang pendugaannya bersifat stabil
(Fan dan Li 2001).
Smoothly Clipped Absolute Deviation (SCAD) merupakan salah satu
penalyzed method sebagai metode alternatif dengan data yang memiliki banyak
peubah penjelas
lebih besar daripada banyaknya amatan
. Metode SCAD
ini juga sebagai salah satu teknik untuk menyusutkan parameter hingga mendekati
nol atau tepat nol, sehingga akan diperoleh pendugaan dengan ragam yang paling
minimum. Penduga koefisien pada metode SCAD diperoleh dengan
meminimumkan persamaan berikut:
‖
‖
dengan menambahkan penalty ∑
(| |) untuk semua nilai
.
Kemudian bagi parameter akan diseleksi oleh metode tersebut dan akan
menghasilkan nilai yang minimum. Dengan
(| |) dapat didefinisikan
{ (| |
)
(
| |)
(| |
)}
dan
akan bernilai 1 jika memenuhi syarat pada
dan
bernilai 0 jika sebaliknya. Ketentuan
sebagai konstanta, sedangkan untuk
sebagai parameter (Wang et al. 2007). Jika hasil | | bernilai kecil maka akan
menghasilkan penalty besar. Pada keadaan tersebut peubah penjelasnya dicegah
untuk masuk pada model karena peubah penjelasnya tidak berpengaruh.
Sebaliknya jika hasil | | bernilai besar maka penalty akan kecil sehingga peubah
penjelas dapat dimasukkan pada model karena peubah penjelas tersebut
berpengaruh. Selain itu, jika hasil dari | | sangat besar maka akan menghasilkan
penalty bernilai 0.
Validasi Silang
Teknik validasi silang berfokus pada tidak menggunakan gugus data
keseluruhan ketika membangun sebuah model (Starkweather 2011). Validasi
silang membagi dua gugus data yaitu satu gugus data sebagai data latih dan
sisanya menjadi gugus data validasi. Gugus data latih akan digunakan untuk
membentuk suatu model dan gugus data validasi digunakan untuk mengevaluasi
kebaikan model yang telah terbentuk sebelumnya dari gugus data latih (Izenman
2008).
Penyeleksian parameter dapat menggunakan dua metode pada penggunaan
SCAD, yaitu dengan validasi silang dan validasi silang terampat (Fan dan Li
2001). Proses validasi silang menggunakan prinsip membagi data menjadi
4
sebanyak k bagian. Lipat k merupakan salah satu metode yang digunakan pada
validasi silang. Nilai k yang digunakan yaitu lima atau sepuluh (Izenman 2008).
Menurut Fan dan Li (2001) langkah-langkah validasi silang lipat k ialah
dengan membagi gugus data menjadi k subcontoh data dengan ukuran yang sama.
Data keseluruhan disebut dengan data . Dipilih satu subcontoh sebagai gugus
data validasi
. Subcontoh lainnya sebagai gugus data latih
. Proses
ini diulang hingga k kali dengan setiap satu subcontoh digunakan hanya sekali
sebagai gugus data validasi. Penduga ̂
didapatkan dari
yang
menggunakan gugus data latih
pada setiap dan
. Pemilihan
parameter optimum diperoleh dengan cara meminimumkan Cross Validation
Error (CVE) pada persamaan berikut:
∑
∑
{
̂
}
Spektroskopi Infra Merah Transformasi Fourier (FTIR)
Spektroskopi adalah salah satu teknik analisis instrumental. Teknik
spektroskopi ini memanfaatkan fenomena interaksi materi dengan gelombang
elektromagnetik seperti sinar-x, ultraviolet, cahaya tampak dan infra merah.
Spektroskopi infra merah merupakan salah satu alat untuk mengidentifikasi
senyawa alami maupun buatan. Spektrum ini terletak pada daerah dengan panjang
gelombang dari 0.78-100
atau bilangan gelombang dari 12800-10 cm-1.
Berdasarkan instrumentasi spektrum infra merah dibagi ke dalam tiga jenis radiasi
yaitu infra merah dekat dengan bilangan gelombang 12800-4000 cm-1, infra merah
pertengahan dengan bilangan gelombang 4000-200 cm-1, dan infra merah jauh
dengan bilangan gelombang 200-10 cm-1 (Nur dan Adijuawaria 1989).
FTIR dalam metode spektroskopi infra merah radiasi IR dilewatkan melalui
contoh. Radiasi tertentu infra merah diserap oleh contoh dan beberapa di
antaranya dilewatkan melalui pemancaran. Hasil dari spektrum merupakan
molekul penyerapan dan transmisi, menciptakan sidik jari molekul sampel. Hal ini
membuat spektroskopi infra merah berguna untuk beberapa jenis analisis.
Informasi yang didapatkan ketika menggunakan FTIR ialah dapat
mengidentifikasi material yang tidak diketahui, menentukan kualitas atau
konsistensi dari sampel, dan menentukan banyaknya komponen dalam komponen.
Alat ini dapat digunakan untuk pengujian secara kualitatif dan kuantitatif (Nicolet
2001). Selain itu, kegunaan dari spektrum infra merah adalah memberikan
keterangan tentang gugus fungsi pada suatu molekul. Gugus fungsi ini dapat
dibedakan antara daerah identifikasi dan daerah sidik jari. Serapan tipe-tipe akan
mencermikan gugus fungsi dan hanya diperoleh dalam bagian-bagian kecil
tertentu dari daerah vibrasi infra merah. Kisaran serapan yang kecil dapat
digunakan untuk menentukan suatu ikatan (Wibowo 2009).
5
METODOLOGI
Sumber Data
Data yang digunakan adalah data primer penelitian komposisi campuran
tanaman obat temulawak, kunyit, dan bangle yang didapatkan dari Pusat Studi
Biofarmaka LPPM IPB. Temulawak merupakan bahan utama sementara kunyit
dan bangle merupakan bahan pencampur. Komposisi campuran tanaman obat
tersebut berupa serbuk simplisia. Simplisia yaitu bahan alami yang digunakan
untuk obat dan belum mengalami perubahan proses, umumnya berupa bahan yang
telah dikeringkan. Penelitian ini fokus menggunakan persentase temulawak yang
dijadikan sebagai peubah respon dengan banyak amatan 280 dari persentase 100%,
99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 90%, 80%, dan 0%. Selanjutnya
serbuk simplisia dianalisis dengan menggunakan alat ATR-FTIR (Attenuated
Total Reflectance Fourier Transform Infra Red) sehingga mendapatkan 1798 nilai
absorban sebagai peubah penjelas pada bilangan gelombang antara 4000-650 cm-1.
terletak pada bilangan gelombang sebesar 650 cm-1.
Peubah penjelas pertama
Prosedur Analisis Data
Analisis dalam penelitian ini dibantu dengan R i386 3.1.2 software dengan
menggunakan paket ncvreg. Tahapan analisis yang dilakukan dalam penelitian ini
adalah sebagai berikut:
1. Peubah penjelas
dan peubah respon
dibakukan sehingga
memiliki nilai tengah 0 dan ragam 1.
2. Melakukan regresi linear sederhana masing-masing peubah penjelas
dengan peubah respon hingga mendapatkan ̂ .
3. Melakukan pemilihan peubah penjelas yang berpengaruh dengan
menggunakan metode optimasi coordinate descent:
a. Menentukan nilai parameter tertentu pada selang (0,1) dan sebesar
3.7 (Fan dan Li 2001).
b. Melakukan pendugaan yang meminimumkan
dengan (
dan
‖
‖
∑
| |) yang didefinisikan
(
| |)
{ (| |
)
(| |)
(| |
)}
akan bernilai 1 jika memenuhi syarat pada
dan bernilai 0 jika sebaliknya.
c. Melakukan validasi silang dan menghitung jumlah kuadrat sisaan
validasi silang dengan menggunakan validasi silang lipat sepuluh.
Dalam proses validasi silang ini didapatkan nilai CVE.
d. Mengulangi tahap a, b, dan c sebanyak 100 kali.
6
4. Mengulangi tahap 3 dengan berbagai nilai yaitu 0.8, 0.08, 0.05, 0.02,
0.009, 0.007.
5. Menentukan parameter terbaik berdasarkan nilai CVE minimum dari
berbagai ulangan yang dilakukan.
6. Melakukan perhitungan hasil dengan menggunakan data pada persentase
untuk menilai kebaikan hasil yang didapatkan, dilakukan validasi dengan
beberapa data contoh yang sudah diketahui komposisinya yaitu data
contoh dengan komposisi temulawak sebesar 82%, 84%, 86%, dan 88%.
HASIL DAN PEMBAHASAN
Deskripsi Data
Data yang dianalisis pada penelitian ini disajikan pada Gambar 1 yang
menampilkan plot spektrum IR untuk komposisi temulawak murni, kunyit murni,
dan bangle murni. Pada gambar tersebut plot didapatkan dari hasil perhitungan
rata-rata nilai absorban pada setiap persentase komposisi campuran tiga jenis
tanaman obat dengan sepuluh ulangan pada setiap jenis tanaman obat.
0.6
Temulawak Murni
Kunyit Murni
d
0.5
Absorban
Bangle Murni
c
0.4
0.3
a
b
0.2
0.1
0
3937 3572 3207 2841 2476 2111 1746 1380 1015
650
Bilangan gelombang (cm-1)
Gambar 1 Spektrum IR temulawak murni, kunyit murni, dan bangle murni
Terlihat pada Gambar 1 bahwa plot setiap jenis tanaman obat memiliki pola
absorban yang cenderung identik. Plot dengan interval bilangan gelombang
terlihat nilai absorban yang relatif berbeda antara ketiga jenis
tanaman obat. Plot spektrum kunyit terlihat lebih tinggi daripada plot temulawak
dan plot bangle. Hal ini dikarenakan penyerapan infra merah pada interval
bilangan gelombang tersebut berbeda intensitasnya.
Selain itu, dari plot tersebut juga terlihat puncak-puncak spektrum dari
ketiga jenis tanaman obat. Puncak-puncak tersebut berada pada interval bilangan
gelombang yang sama. Puncak merupakan nilai maksimum absorban yang berarti
adanya penyerapan infra merah yang kuat pada interval tertentu. Puncak tertinggi
7
berada pada interval
dengan rataan temulawak sebesar 0.497,
kunyit sebesar 0.451, dan bangle sebesar 0.566. Puncak spektrum yang berada
pada interval bilangan gelombang yang sama berarti memiliki gugus fungsi yang
sama. Dengan demikian, gugus fungsi kandungan kurkuminoid untuk temulawak,
kunyit, dan bangle berada pada bilangan gelombang yang sama. Rincian tentang
gugus fungsi dari ketiga jenis tanaman obat disajikan pada Tabel 1.
Tabel 1 Daerah identifikasi spektrum IR kurkuminoida
No
Jenis Vibrasi
1
2
3
4
5
6
Ikatan hidrogen OH
C - H alkana
Karbonil
Aromatik -C=C- rentangan
R -O- Ar
Sidik Jari
Bilangan
Gelombang cm-1
3600 - 3300
3000 - 2850
1820 - 1660
1660 - 1450
1300 - 1000
900 - 700
Intensitas
m-s
s
vs
s
m
a
Sumber: Wibowo (2009).
Keterangan: (s) kuat; (m) medium; (vs) sangat kuat.
Pada Gambar 1, puncak (a) berada pada interval bilangan gelombang
. Interval tersebut menjelaskan gugus fungsi ikatan hidrogen OH
dengan intensitas medium sampai kuat. Terlihat puncak (b) berada pada interval
bilangan gelombang
. Interval tersebut menjelaskan gugus fungsi
C–H alkana dengan intensitas kuat. Puncak (c) terletak pada bilangan gelombang
. Interval tersebut menjelaskan gugus fungsi aromatik -C=Crentangan dengan intensitas sangat kuat. Sedangkan pada puncak (d) dapat dilihat
berada pada interval bilangan gelombang
, dapat dikatakan pada
puncak tersebut menjelaskan gugus fungsi dari R-O-Ar dengan intensitas yang
kuat.
Gambar 2 merupakan sebaran nilai |̂| masing-masing peubah penjelas.
Nilai ̂ diperoleh dari hasil analisis regresi linear sederhana masing-masing
peubah penjelas dengan peubah respon.
200
Frekuensi
150
100
50
0
0,00
0,16
0,32
0,48
Nilai |̂|
0,64
0,80
0,96
Gambar 2 Sebaran nilai |̂| masing-masing peubah penjelas
8
Sebaran nilai |̂| pada Gambar 2 menunjukkan banyaknya peubah penjelas
dengan nilai |̂| yang semakin besar lebih banyak dibandingkan dengan peubah
penjelas yang memiliki nilai |̂| kecil. Sebaran nilai |̂| tersebut akan digunakan
dalam penentuan nilai percentil ke-90 sebagai awal perhitungan.
Penerapan SCAD
Parameter yang terbaik ialah ketika nilai CVE minimum. Hasil dari CVE
didapatkan pada saat dilakukannya validasi silang. Pada penggunaan paket
ncvreg memerlukan input suatu nilai minimum yang akan dicoba dengan
beberapa nilai . Penelitian ini menggunakan lima nilai berbeda yaitu 0.08, 0.05,
0.02, 0.009, dan 0.007. Fungsi ncvreg akan bekerja dengan menghitung nilai
CVE untuk setiap nilai dari terkecil yang ditentukan hingga yang bernilai satu
dengan interval seragam sebanyak 100 buah.
Variables selected
1 1
1 1 1
1 1
1 1 2
Variables selected
2 3
3 2 2
2
0
1.2
1.2
1.0
1.0
Cross-validation error
Cross-validation error
0
0.8
0.6
0.4
0.2
1 1
1 1 1
1 2
3 2 2
2 3
6 5 6 11
0.8
0.6
0.4
0.2
0.0
0.0
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
-3.0
log
Gambar 3 Plot CVE saat lambda 0.05
sampai 1
0
-1
-2
-3
-4
log
Gambar 4 Plot CVE saat lambda 0.009
sampai 1
Gambar 3 adalah plot hasil CVE untuk berbagai nilai yang digunakan.
Berdasarkan plot tersebut nilai CVE minimum yang bernilai 0.0280 terjadi pada
saat bernilai 0.0485. Pada Gambar 4 terlihat bahwa plot tersebut dengan nilai
CVE minimum sebesar 0.0201 terjadi pada saat bernilai 0.0106. Parameter
optimal saat CVE minimum disajikan pada Tabel 2. Pada saat minimum bernilai
0.08 didapatkan nilai CVE minimum sebesar 0.0332 terjadi saat optimal 0.0776.
Ulangan dengan minimum 0.02 dengan nilai CVE minimum 0.0234 terjadi
saat
optimal bernilai 0.0194. Pada
minimum 0.007 dengan nilai CVE
minimum 0.0209 terjadi pada saat optimal sebesar 0.0079. Gambar plot CVE
saat minimum 0.08, 0.02, dan 0.007 disajikan pada Lampiran 1.
9
Tabel 2 Hasil CVE minimum dan λ optimal
Hasil
CVE minimum
optimal
minimum yang dicoba
0.05
0.02
0.009
0.0280
0.0238
0.0201
0.0485
0.0194
0.0106
0.08
0.0332
0.0776
0.007
0.0209
0.0079
Setelah didapatkan optimal pada Tabel 2 kemudian optimal tersebut
digunakan untuk melakukan seleksi peubah penjelas. Selain menggunakan lima
nilai minimum tersebut, pada bagian ini juga menggunakan perhitungan dengan
lain. Penentuan yang akan digunakan dipilih dengan menentukan percentil ke90 dari sebaran nilai |̂| dengan mengikuti prinsip sparsity. Percentil ke-90
menghasilkan nilai sebesar 0.8176 pada peubah penjelas ke-1619.
Hasil dengan minimum sebesar 0.8176 dapat dilihat di Tabel 3. Bilangan
gelombang yang berpengaruh hanya terpilih satu yaitu pada peubah penjelas ke329 dengan nilai ̂ sebesar -0.1772. Dilihat dari nilai korelasi antara dan
peubah ke-329 memiliki nilai -0.9715 yang merupakan korelasi paling kuat di
antara korelasi lainnya. Bilangan gelombang tersebut dapat dikatakan bilangan
gelombang yang mewakili bilangan gelombang di sampingnya.
Tabel 3 Bilangan gelombang yang berpengaruh, nilai CVE,
0.8176
Bilangan gelombang (cm-1)
1261
̂
-0.1772
CVE
0.7149
optimal saat
optimal
0.7929
Parameter terbaik dilihat dari nilai CVE minimum. Pada Tabel 2 dan
Tabel 3 terlihat dari berbagai nilai CVE minimum terpilihlah CVE bernilai 0.0201.
Dari nilai CVE tersebut terpilih juga parameter terbaik sebesar 0.0106 saat
menggunakan minimum 0.009. Tabel 4 memperlihatkan bilangan gelombang
yang berpengaruh saat optimal.
Tabel 4 Bilangan gelombang yang berpengaruh
optimal
0.7929
0.0776
0.0485
0.0194
0.0106
0.0079
Bilangan gelombang (cm-1)
1261
1261, 2922
1261, 2922
717, 1261, 1539, 2922, 3075
715, 1261, 1539, 2922, 3075, 3561, 3587, 3634
717, 1261, 1539, 1701, 1964, 2042, 2146, 2922, 3075, 3561,
3630, 3634
Terlihat pada Tabel 4 bahwa dari beberapa optimal didapatkan berbagai
bilangan gelombang yang berpengaruh. Semakin kecil optimal yang didapatkan
maka semakin banyak bilangan gelombang yang berpengaruh. Berdasarkan
parameter terbaik yang terpilih sebelumnya, didapatkan juga delapan bilangan
10
gelombang yang berpengaruh. Gambar 5 memperlihatkan letak bilangan
gelombang yang berpengaruh.
0.6
Absorban
0.5
3587
0.4
1539
3561
0.3
0.2
3075
715
1261
2922
3634
0.1
0
3937
3572
3207
2841
2476
2111
1746
1380
1015
650
Bilangan gelombang (cm-1)
Gambar 5 Letak bilangan gelombang yang berpengaruh
Bilangan gelombang yang berpengaruh pada Gambar 5 berada pada
beberapa lembah dan puncak spektrum IR temulawak. Dari segi kimia
menginginkan bilangan gelombang yang berpengaruh berada pada puncak
spektrum. Namun kenyataannya dari hasil yang diperoleh dengan menggunakan
metode SCAD terdapat bilangan gelombang yang berada di lembah. Hal ini dapat
dikatakan bahwa satu bilangan gelombang yang berpengaruh tersebut merupakan
satu bilangan gelombang yang mewakili bilangan gelombang di sampingnya.
Bilangan gelombang di sampingnya yaitu bilangan gelombang yang memiliki
nilai lebih pendek atau lebih panjang dari bilangan gelombang yang terpilih.
Delapan bilangan gelombang yang berpengaruh tersebut kemudian
digunakan dalam perhitungan hasil pada data contoh persentase temulawak 82%,
84%, 86%, dan 88%. Perhitungan dengan keempat data contoh menghasilkan
dugaan persentase cukup baik dengan hasil yang hampir mendekati persentase
yang sebenarnya, yaitu untuk persentase 82% didapatkan 81.8%. Persentase
temulawak 84% didapatkan dugaan persentasenya sebesar 83.4%, pada persentase
temulawak 86% didapatkan dugaan persentasenya sebesar 86.1%, dan persentase
temulawak 88% didapatkan dugaan persentasenya sebesar 87.1%.
SIMPULAN
Hasil perhitungan dengan berbagai nilai minimum didapatkan nilai CVE
minimum saat parameter optimal. Bilangan gelombang yang didapat untuk
menduga kandungan temulawak pada simplisia hasil percampuran tanaman obat
temulawak, kunyit, dan bangle yaitu terletak pada titik 715 cm-1, 1261 cm-1, 1539
cm-1, 2922 cm-1, 3075 cm-1, 3561 cm-1, 3587 cm-1, dan 3634 cm-1 saat terbaik
bernilai 0.0106. Delapan gelombang tersebut digunakan dalam perhitungan hasil
pada empat data contoh sehingga mendapatkan dugaan persentase temulawak
11
yang mendekati persentase sebenarnya, dengan penyimpangan rata-rata sebesar
0.45%.
DAFTAR PUSTAKA
Draper N, Smith H. 1992. Analisis Regresi Terapan. Ed ke-2. Sumantri B,
penerjemah. Jakarta (ID): Gramedia Pustaka Utama. Terjemahan dari:
Applied Regression Analysis.
Fan J, Li R. 2001. Variable selection via nonconcave penalized likelihood and its
oracle properties. Journal of the American Statistical Association. 96:1348–
1360.
Izenman AJ. 2008. Modern Multivariate Statistical Techniques: Regression,
Classification, and Manifold Learning. New York (US): Springer.
Montgomery DC, Peck EA. 1992. Introduction to Linier Regression Analysis. Ed
ke-2. USA: John Wiley & Sons, Inc.
Myers RH, Milton JS. 1991. A First Course In The Theory Of Linear Statistical
Models. Boston (USA): PWS-KENT Publishing Company.
[Nicolate T]. 2001. Introduction to Fourier Tranform Infrared Spectrometry. USA:
Thermo Nicolate Corporation.
Nur MA, Adijuwana H. 1989. Teknik Spektroskopi dalam Analisis Biologi. Bogor:
PAU Ilmu Hayat, IPB.
Verleysen M. 2003. Learning high-dimensional data. Limitations and Future
Trends in Neural Computation, S Ablameyko et al (Eds). 141-162.
Wang H, Li R, Tsai CL. 2007. Tuning parameter selectors for the smoothly
clipped absolute deviation method. Biometrika Trust. 94(3):553-568.
doi:10.1093/biomet/asm053.
Wibowo EW. 2009. Metode eksploratif untuk menguji kesamaan spektrum FTIR
temulawak [tesis]. Bogor (ID): Institut Pertanian Bogor.
Starkweather J. 2011. Cross Validation techniques in R: A brief overview of some
methods packages, and functions for assessing prediction models. [Internet].
[diunduh 27 April 2015]. Tersedia pada: http//www.unt.edu/rss/class/Jon/
Benchmarks/CrossValidation1_JDS_May2011.pdf.
12
Lampiran 1 Plot CVE
Variables selected
Variables selected
1 1
1 1 1
1 1
1 1 1
1 2
2 3 3
5
0
1.2
1.0
1.0
Cross-validation error
1.2
0.8
0.6
0.4
1 1
1 1 1
1 1
2 3 3
2 2
2 3 5
7
0.8
0.6
0.4
0.2
0.2
0.0
0.0
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
0
-1
-2
log
-3
-4
log
Gambar 6 Plot CVE saat lambda
0.08 sampai 1
Gambar 7 Plot CVE saat lambda
0.02 sampai 1
Variables selected
0
1 1
1 1 1
2 3
5 2 2
3 7
5 5 8 13
1.2
1.0
Cross-validation error
Cross-validation error
0
0.8
0.6
0.4
0.2
0.0
0
-1
-2
-3
-4
-5
log
Gambar 8 Plot CVE saat lambda
0.007 sampai 1
13
RIWAYAT HIDUP
Penulis dilahirkan di Tuban pada tanggal 26 Juni 1992, sebagai anak
pertama dari tiga bersaudara pasangan Parmin dan Dwi Priyandari. Tahun 2005
penulis lulus dari SD Negeri Kebonsari 2 Tuban, kemudian melanjutkan
pendidikan di SMP Negeri 1 Tuban dan lulus tahun 2008. Selanjutnya, pada tahun
2011 penulis menyelesaikan pendidikannya di SMA Negeri 1 Tuban dan pada
tahun yang sama diterima di Institut Pertanian Bogor melalui jalur Seleksi
Nasional Masuk Perguruan Tinggi Undangan. Penulis diterima sebagai
mahasiswa Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan
Alam, Institut Pertanian Bogor dengan mayor Statistika.
Selama menempuh pendidikan di Institut Pertanian Bogor penulis
berpengalaman menjadi asisten dosen untuk mata kuliah Metode Statistika.
Penulis juga aktif baik dalam kegiatan organisasi mahasiswa daerah Ikatan Pelajar
Mahasiswa Ronggolawe Tuban (IPMRT) Bogor, Himpro, dan kepanitiankepanitiaan. Pada tahun pertama penulis menjadi panitia Tingkat Persiapan
Bersama (TPB) Cup 2012. Tahun 2013 penulis juga aktif menjadi panitia The 9 th
Statistika Ria, Welcome Ceremony Statistics, Spirit FMIPA, Kompetisi Statistika
Junior, The 1st IPB Business Festival, dan menjadi delegasi pada Musyawarah
Kerja Wilayah II IHMSI. Tahun berikutnya penulis mengikuti kepantiaan
Kompetisi Statistika Junior, ISEE, Welcome Ceremony Statistics. Pada dua
periode masa bakti Himpunan Profesi Mahasiswa Statistika Gamma Sigma Beta
(GSB) tahun 2013-2014 dan 2014-2015, penulis aktif dalam Badan Pelaksana
Harian sebagai Bendahara Umum Himpunan Profesi GSB.
Penulis juga mendapatkan beasiswa Bidik Misi selama masa kuliah. Pada
semester 6, penulis berkesempatan melaksanakan kegiatan praktik lapang di Balai
Penelitian Tanaman Jeruk dan Buah Subtropika, Batu.
SEBAGAI METODE ALTERNATIF DALAM MENANGANI
ANALISIS REGRESI PADA DATA BERDIMENSI TINGGI
RIZKY FAUZIA LISTIARASANI
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Smoothly Clipped
Absolute Deviation (SCAD) sebagai Metode Alternatif dalam Menangani Analisis
Regresi pada Data Berdimensi Tinggi adalah benar karya saya dengan arahan dari
komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan
tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang
diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks
dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Agustus 2015
Rizky Fauzia Listiarasani
NIM G14110035
ABSTRAK
RIZKY FAUZIA LISTIARASANI. Smoothly Clipped Absolute Deviation
(SCAD) sebagai Metode Alternatif dalam Menangani Analisis Regresi pada Data
Berdimensi Tinggi. Dibimbing oleh BAGUS SARTONO dan CICI SUHAENI.
Data berdimensi tinggi ialah data dengan banyaknya peubah penjelas lebih
besar daripada banyaknya amatan. Pendugaan koefisien regresi pada data
berdimensi tinggi tidak dapat menggunakan metode kuadrat terkecil. Hal ini
memerlukan teknik analisis tertentu dalam pendekatannya. Salah satu metode
alternatif dalam menangani kasus tersebut ialah metode SCAD. Penelitian ini
menggunakan data komposisi campuran temulawak, kunyit, dan bangle yang
diperoleh dari Pusat Studi Biofarmaka LPPM IPB. Selanjutnya data tersebut
dianalisis menggunakan alat ATR-FTIR (Attenuated Total Reflectance Fourier
Transform Infra Red) hingga mendapatkan nilai absorban yang dijadikan sebagai
peubah penjelas pada interval bilangan gelombang
. Persentase
temulawak dijadikan sebagai peubah respon dalam penelitian ini. Metode validasi
silang digunakan untuk menentukan parameter terbaik. Peubah penjelas yang
berpengaruh sebanyak delapan peubah penjelas pada minimum 0.009. optimal
yang terpilih sebesar 0.0106 dengan nilai cross validation error minimum 0.0201.
Kata kunci: data berdimensi tinggi, SCAD, tanaman obat, validasi silang.
ABSTRACT
RIZKY FAUZIA LISTIARASANI. Smoothly Clipped Absolute Deviation
(SCAD) as A Method in Handling Regression Analysis in High Dimensional Data.
Supervised by BAGUS SARTONO and CICI SUHAENI.
High dimensional data is a data which have more independent variable than
its number of observation. The least square method cannot be used in estimating
the coefficient of regression in high dimensional data. Thus, these data need a
certain analytical technique in the approach. One of the alternative methods in
dealing with those cases is SCAD method. The data used in this study is the
mixture composition data of curcuma, turmeric, and bangle from Pusat Studi
Biofarmaka LPPM IPB. ATR-FTIR (Attenuated Total Reflectance Fourier
Transform Infra Red) was used to analyze the data until the absorption value, that
is used as an independent variable, reaches the wave numeral interval of
. This research used the percentage of curcuma as a response
variable. Cross validation was used to determine the greatest parametric
estimator. Eight independent variables were found with minimum of 0.009,
meanwhile optimum is at 0.0106 with minimum cross validation error at 0.0201.
Keywords: cross validation, herb, high dimensional data, SCAD.
SMOOTHLY CLIPPED ABSOLUTE DEVIATION (SCAD)
SEBAGAI METODE ALTERNATIF DALAM MENANGANI
ANALISIS REGRESI PADA DATA BERDIMENSI TINGGI
RIZKY FAUZIA LISTIARASANI
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Statistika
pada
Departemen Statistika
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
PRAKATA
Puji syukur penulis panjatkan kepada Allah SWT yang telah memberikan
rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan karya ilmiah yang
berjudul “Smoothly Clipped Absolute Deviation (SCAD) sebagai Metode
Alternatif dalam Menangani Analisis Regresi pada Data Berdimensi Tinggi”.
Karya ilmiah ini merupakan salah satu syarat untuk mendapatkan gelar Sarjana
Statistika pada Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan
Alam, Institut Pertanian Bogor.
Penulis mengucapkan terima kasih kepada semua pihak yang telah
membantu dalam menyelesaikan karya ilmiah ini, antara lain:
1. Bapak Dr Bagus Sartono, MSi dan Ibu Cici Suhaeni, MSi selaku
pembimbing yang telah sabar dalam memberikan banyak saran dan
nasihat selama penulisan karya ilmiah ini.
2. Ibu Dra Itasia Dina Sulvianti, MSi sebagai penguji luar komisi yang telah
memberikan banyak saran dan masukan dalam penulisan karya ilmiah ini.
3. Bapak Rudi Heryanto, MSi dari Biofarmaka yang telah membantu
penulis dalam mendapatkan dan memberi penjelasan tentang data yang
digunakan pada penelitian ini.
4. Seluruh Dosen pengajar Departemen Statistika atas ilmu yang
bermanfaat yang telah diberikan.
5. Ayah dan Ibu, adik-adik atas doa, kasih sayang, dan dukungan kepada
penulis.
6. Seluruh Staf Tata Usaha Departemen Statistika IPB yang selalu bersedia
direpotkan sehingga segala proses adminitrasi berjalan dengan lancar.
7. Rekan satu bimbingan Nida, Haifa, Erza, Farah, Kartika, Citra sebagai
teman satu perjuangan satu dosen bimbingan yang selalu memberikan
dukungan dan masukannya.
8. Nida, Umil, Ita, Kak Ipeh, Kak Jijah, atas semangat dan kebersamaannya.
9. Kakak-kakak, dan adik-adik di Omda IPMRT Bogor serta teman-teman
Dita, Nopi, Frida, Rahman, Galih, Anik atas motivasi dan
kebersamaannya selama di kota rantau.
10. Teman-teman Statistika 48 atas motivasi dan dukungannya selama ini.
Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak. Penulis mohon
maaf atas segala kekurangan dan kesalahan yang terdapat dalam pembuatan karya
ilmiah ini.
Bogor, Agustus 2015
Rizky Fauzia Listiarasani
DAFTAR ISI
DAFTAR TABEL
viii
DAFTAR GAMBAR
viii
DAFTAR LAMPIRAN
viii
PENDAHULUAN
1
Latar Belakang
1
Tujuan Penelitian
1
TINJAUAN PUSTAKA
2
Analisis Regresi
2
Smoothly Clipped Absolute Deviation (SCAD)
2
Validasi Silang
3
Spektroskopi Infra Merah Transformasi Fourier (FTIR)
4
METODOLOGI
5
Sumber Data
5
Prosedur Analisis Data
5
HASIL DAN PEMBAHASAN
6
Deskripsi Data
6
Penerapan SCAD
8
SIMPULAN
10
DAFTAR PUSTAKA
11
RIWAYAT HIDUP
13
DAFTAR TABEL
1
2
3
4
Daerah identifikasi spektrum IR kurkuminoid
Hasil CVE minimum dan optimal
Bilangan gelombang yang berpengaruh, nilai CVE,
Bilangan gelombang yang berpengaruh
optimal saat
7
9
0.8176 9
9
DAFTAR GAMBAR
1
2
3
4
5
Spektrum IR temulawak murni, kunyit murni, dan bangle murni
Histogram dari nilai |̂|
Plot CVE saat 0.05 sampai 1
Plot CVE saat 0.009 sampai 1
Letak bilangan gelombang yang berpengaruh
6
7
8
8
10
DAFTAR LAMPIRAN
1 Plot CVE
12
PENDAHULUAN
Latar Belakang
Data berdimensi tinggi banyak dijumpai pada beberapa bidang ilmu
pengetahuan, misalnya pada bidang biologi, kimia, dan fisika. Data berdimensi
tinggi adalah data dengan banyaknya peubah penjelas lebih banyak daripada
banyaknya amatan. Data seperti ini membutuhkan pendekatan analisis yang
berbeda dari data dengan amatan yang lebih banyak daripada peubah penjelasnya
(Verleysen 2003).
Analisis regresi merupakan suatu alat untuk mengetahui suatu pengaruh
hubungan ketergantungan peubah penjelas
terhadap peubah respon
(Draper dan Smith 1992). Salah satu metode yang digunakan pada analisis regresi
dalam pendugaan koefisien regresinya adalah Metode Kuadrat Terkecil (MKT),
yaitu dengan cara meminimumkan Jumlah Kuadrat Sisaan (JKS). Salah satu
syarat perlu untuk dapat menduga parameter dengan MKT ialah banyaknya
dengan adalah banyaknya amatan dan adalah banyaknya peubah penjelas agar
matriks
yang bersifat non singular. Sebaliknya jika ditemukan maka
tidak dapat menghasilkan penduga bagi karena matriks
tidak mempunyai
matriks kebalikan, rank tidak penuh dan bersifat singular (Myers dan Milton
1991).
Data berdimensi tinggi umumnya memiliki dimensi peubah yang lebih
banyak daripada amatan, sehingga MKT tidak dapat diterapkan. Kasus seperti ini
dapat diatasi dengan beberapa metode alternatif yaitu metode reduksi, seleksi, dan
model averaging. Metode reduksi meliputi AKU (Analisis Komponen Utama),
PLS (Partial Least Square), dan pembuangan peubah penjelas yang tidak penting.
Metode seleksi meliputi forward, stepwise, dan penalyzed method. Dalam
penalyzed method terdapat beberapa metode lagi antara lain LASSO (Least
Absolute Shrinkage and Selection Operator), Group LASSO (Group Least
Absolute Shrinkage and Selection Operator), SCAD (Smoothly Clipped Absolute
Deviation), dan Hard Thresholding.
Penelitian ini fokus pada penggunanan metode SCAD yang diperkenalkan
oleh Fan dan Li (2001). Perkembangan SCAD telah diterapkan pada beberapa
bidang ilmu, misalnya dalam Compressed Sensing (CS) Magnetic Resonance
Imaging (MRI) pada bidang Nuclear Science, penyeleksian parameter di bidang
Biometrika pada data persediaan tenaga kerja wanita di Jerman. Selain itu,
digunakan pada data survei, serta pada Support Vector Machines (SVM)
diadaptasi dari bidang teknik dan bioinformatika. Beberapa solusi yang digunakan
SCAD untuk menentukan parameter terbaiknya ialah AIC (Akaike Information
Criterion), BIC (Bayesian Information Criterion), CV (Cross Validation), dan
GCV (Generalized Cross Validation) (Fan dan Li 2001).
Salah satu contoh data berdimensi tinggi dapat dijumpai pada kasus data
komposisi tanaman obat, seperti temulawak, kunyit, dan bangle. Ketiga jenis
tanaman obat tersebut diekstrak menjadi serbuk simplisia. Serbuk simplisia
dianalisis dengan menggunakan alat ATR-FTIR (Attenuated Total Reflectance
Fourier Transform Infra Red) sehingga menghasilkan nilai absorban sebanyak
1798 pada bilangan gelombang
. Persentase temulawak dijadikan
2
sebagai peubah respon dengan banyaknya amatan 280. Sehingga data ini relevan
untuk menjadi studi kasus penerapan metode SCAD pada data berdimensi tinggi.
Tujuan Penelitian
Tujuan dari penelitian ini adalah menerapkan metode SCAD dalam
penentuan bilangan gelombang untuk menduga kandungan temulawak pada
simplisia hasil percampuran tanaman obat temulawak, kunyit, dan bangle.
TINJAUAN PUSTAKA
Analisis Regresi
Analisis regresi ialah suatu teknik dalam statistika yang digunakan untuk
memeriksa dan membuat model hubungan antar peubah. Aplikasi dari analisis ini
banyak terjadi di hampir setiap bidang, termasuk teknik, fisika, ekonomi,
manajemen, biologi dan sosial (Montgomery dan Peck 1992). Syarat perlu dalam
regresi ialah banyaknya amatan lebih besar daripada banyaknya peubah penjelas.
Model regresi linear umum dalam peubah-peubah
dapat ditulis
sebagai berikut:
dengan:
= peubah respon untuk suatu amatan ke-i
= vektor parameter yang akan diduga pada peubah penjelas ke-p
= elemen matriks pada amatan ke-i peubah penjelas ke-p
= error untuk suatu amatan ke-i
p = banyaknya peubah penjelas
i
= 1,2,...,n, dengan n indeks pengamatan
Pendugaan koefisien regresi dengan MKT dapat diperoleh dengan
. ̂ sebagai vektor penduga parameter
menyelesaikan rumus ̂
regresi, merupakan matriks peubah penjelas, sedangkan merupakan vektor
amatan (Draper dan Smith 1992).
Smoothly Clipped Absolute Deviation (SCAD)
Metode alternatif dalam menangani data berdimensi tinggi yaitu metode
reduksi, seleksi, dan model averaging. Penalyzed method merupakan salah satu
metode yang terdapat pada metode seleksi. Metode ini bekerja dengan cara
menambahkan suatu penalty atau fungsi kendala saat meminimumkan jumlah
kuadrat sisaan. Penalty yang baik harus menghasilkan penduga yang memiliki 3
sifat, yaitu unbiasedness, sparsity, dan continuity. Unbiasedness ialah suatu sifat
3
penduga yang nilai harapannya penduga sama dengan nilai parameter. Sparsity
merupakan suatu kondisi dengan menghasilkan sedikit peubah penjelas yang
terseleksi dan membuat peubah penjelas lainnya bernilai nol karena berpengaruh
kecil. Continuity ialah kondisi suatu fungsi yang pendugaannya bersifat stabil
(Fan dan Li 2001).
Smoothly Clipped Absolute Deviation (SCAD) merupakan salah satu
penalyzed method sebagai metode alternatif dengan data yang memiliki banyak
peubah penjelas
lebih besar daripada banyaknya amatan
. Metode SCAD
ini juga sebagai salah satu teknik untuk menyusutkan parameter hingga mendekati
nol atau tepat nol, sehingga akan diperoleh pendugaan dengan ragam yang paling
minimum. Penduga koefisien pada metode SCAD diperoleh dengan
meminimumkan persamaan berikut:
‖
‖
dengan menambahkan penalty ∑
(| |) untuk semua nilai
.
Kemudian bagi parameter akan diseleksi oleh metode tersebut dan akan
menghasilkan nilai yang minimum. Dengan
(| |) dapat didefinisikan
{ (| |
)
(
| |)
(| |
)}
dan
akan bernilai 1 jika memenuhi syarat pada
dan
bernilai 0 jika sebaliknya. Ketentuan
sebagai konstanta, sedangkan untuk
sebagai parameter (Wang et al. 2007). Jika hasil | | bernilai kecil maka akan
menghasilkan penalty besar. Pada keadaan tersebut peubah penjelasnya dicegah
untuk masuk pada model karena peubah penjelasnya tidak berpengaruh.
Sebaliknya jika hasil | | bernilai besar maka penalty akan kecil sehingga peubah
penjelas dapat dimasukkan pada model karena peubah penjelas tersebut
berpengaruh. Selain itu, jika hasil dari | | sangat besar maka akan menghasilkan
penalty bernilai 0.
Validasi Silang
Teknik validasi silang berfokus pada tidak menggunakan gugus data
keseluruhan ketika membangun sebuah model (Starkweather 2011). Validasi
silang membagi dua gugus data yaitu satu gugus data sebagai data latih dan
sisanya menjadi gugus data validasi. Gugus data latih akan digunakan untuk
membentuk suatu model dan gugus data validasi digunakan untuk mengevaluasi
kebaikan model yang telah terbentuk sebelumnya dari gugus data latih (Izenman
2008).
Penyeleksian parameter dapat menggunakan dua metode pada penggunaan
SCAD, yaitu dengan validasi silang dan validasi silang terampat (Fan dan Li
2001). Proses validasi silang menggunakan prinsip membagi data menjadi
4
sebanyak k bagian. Lipat k merupakan salah satu metode yang digunakan pada
validasi silang. Nilai k yang digunakan yaitu lima atau sepuluh (Izenman 2008).
Menurut Fan dan Li (2001) langkah-langkah validasi silang lipat k ialah
dengan membagi gugus data menjadi k subcontoh data dengan ukuran yang sama.
Data keseluruhan disebut dengan data . Dipilih satu subcontoh sebagai gugus
data validasi
. Subcontoh lainnya sebagai gugus data latih
. Proses
ini diulang hingga k kali dengan setiap satu subcontoh digunakan hanya sekali
sebagai gugus data validasi. Penduga ̂
didapatkan dari
yang
menggunakan gugus data latih
pada setiap dan
. Pemilihan
parameter optimum diperoleh dengan cara meminimumkan Cross Validation
Error (CVE) pada persamaan berikut:
∑
∑
{
̂
}
Spektroskopi Infra Merah Transformasi Fourier (FTIR)
Spektroskopi adalah salah satu teknik analisis instrumental. Teknik
spektroskopi ini memanfaatkan fenomena interaksi materi dengan gelombang
elektromagnetik seperti sinar-x, ultraviolet, cahaya tampak dan infra merah.
Spektroskopi infra merah merupakan salah satu alat untuk mengidentifikasi
senyawa alami maupun buatan. Spektrum ini terletak pada daerah dengan panjang
gelombang dari 0.78-100
atau bilangan gelombang dari 12800-10 cm-1.
Berdasarkan instrumentasi spektrum infra merah dibagi ke dalam tiga jenis radiasi
yaitu infra merah dekat dengan bilangan gelombang 12800-4000 cm-1, infra merah
pertengahan dengan bilangan gelombang 4000-200 cm-1, dan infra merah jauh
dengan bilangan gelombang 200-10 cm-1 (Nur dan Adijuawaria 1989).
FTIR dalam metode spektroskopi infra merah radiasi IR dilewatkan melalui
contoh. Radiasi tertentu infra merah diserap oleh contoh dan beberapa di
antaranya dilewatkan melalui pemancaran. Hasil dari spektrum merupakan
molekul penyerapan dan transmisi, menciptakan sidik jari molekul sampel. Hal ini
membuat spektroskopi infra merah berguna untuk beberapa jenis analisis.
Informasi yang didapatkan ketika menggunakan FTIR ialah dapat
mengidentifikasi material yang tidak diketahui, menentukan kualitas atau
konsistensi dari sampel, dan menentukan banyaknya komponen dalam komponen.
Alat ini dapat digunakan untuk pengujian secara kualitatif dan kuantitatif (Nicolet
2001). Selain itu, kegunaan dari spektrum infra merah adalah memberikan
keterangan tentang gugus fungsi pada suatu molekul. Gugus fungsi ini dapat
dibedakan antara daerah identifikasi dan daerah sidik jari. Serapan tipe-tipe akan
mencermikan gugus fungsi dan hanya diperoleh dalam bagian-bagian kecil
tertentu dari daerah vibrasi infra merah. Kisaran serapan yang kecil dapat
digunakan untuk menentukan suatu ikatan (Wibowo 2009).
5
METODOLOGI
Sumber Data
Data yang digunakan adalah data primer penelitian komposisi campuran
tanaman obat temulawak, kunyit, dan bangle yang didapatkan dari Pusat Studi
Biofarmaka LPPM IPB. Temulawak merupakan bahan utama sementara kunyit
dan bangle merupakan bahan pencampur. Komposisi campuran tanaman obat
tersebut berupa serbuk simplisia. Simplisia yaitu bahan alami yang digunakan
untuk obat dan belum mengalami perubahan proses, umumnya berupa bahan yang
telah dikeringkan. Penelitian ini fokus menggunakan persentase temulawak yang
dijadikan sebagai peubah respon dengan banyak amatan 280 dari persentase 100%,
99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 90%, 80%, dan 0%. Selanjutnya
serbuk simplisia dianalisis dengan menggunakan alat ATR-FTIR (Attenuated
Total Reflectance Fourier Transform Infra Red) sehingga mendapatkan 1798 nilai
absorban sebagai peubah penjelas pada bilangan gelombang antara 4000-650 cm-1.
terletak pada bilangan gelombang sebesar 650 cm-1.
Peubah penjelas pertama
Prosedur Analisis Data
Analisis dalam penelitian ini dibantu dengan R i386 3.1.2 software dengan
menggunakan paket ncvreg. Tahapan analisis yang dilakukan dalam penelitian ini
adalah sebagai berikut:
1. Peubah penjelas
dan peubah respon
dibakukan sehingga
memiliki nilai tengah 0 dan ragam 1.
2. Melakukan regresi linear sederhana masing-masing peubah penjelas
dengan peubah respon hingga mendapatkan ̂ .
3. Melakukan pemilihan peubah penjelas yang berpengaruh dengan
menggunakan metode optimasi coordinate descent:
a. Menentukan nilai parameter tertentu pada selang (0,1) dan sebesar
3.7 (Fan dan Li 2001).
b. Melakukan pendugaan yang meminimumkan
dengan (
dan
‖
‖
∑
| |) yang didefinisikan
(
| |)
{ (| |
)
(| |)
(| |
)}
akan bernilai 1 jika memenuhi syarat pada
dan bernilai 0 jika sebaliknya.
c. Melakukan validasi silang dan menghitung jumlah kuadrat sisaan
validasi silang dengan menggunakan validasi silang lipat sepuluh.
Dalam proses validasi silang ini didapatkan nilai CVE.
d. Mengulangi tahap a, b, dan c sebanyak 100 kali.
6
4. Mengulangi tahap 3 dengan berbagai nilai yaitu 0.8, 0.08, 0.05, 0.02,
0.009, 0.007.
5. Menentukan parameter terbaik berdasarkan nilai CVE minimum dari
berbagai ulangan yang dilakukan.
6. Melakukan perhitungan hasil dengan menggunakan data pada persentase
untuk menilai kebaikan hasil yang didapatkan, dilakukan validasi dengan
beberapa data contoh yang sudah diketahui komposisinya yaitu data
contoh dengan komposisi temulawak sebesar 82%, 84%, 86%, dan 88%.
HASIL DAN PEMBAHASAN
Deskripsi Data
Data yang dianalisis pada penelitian ini disajikan pada Gambar 1 yang
menampilkan plot spektrum IR untuk komposisi temulawak murni, kunyit murni,
dan bangle murni. Pada gambar tersebut plot didapatkan dari hasil perhitungan
rata-rata nilai absorban pada setiap persentase komposisi campuran tiga jenis
tanaman obat dengan sepuluh ulangan pada setiap jenis tanaman obat.
0.6
Temulawak Murni
Kunyit Murni
d
0.5
Absorban
Bangle Murni
c
0.4
0.3
a
b
0.2
0.1
0
3937 3572 3207 2841 2476 2111 1746 1380 1015
650
Bilangan gelombang (cm-1)
Gambar 1 Spektrum IR temulawak murni, kunyit murni, dan bangle murni
Terlihat pada Gambar 1 bahwa plot setiap jenis tanaman obat memiliki pola
absorban yang cenderung identik. Plot dengan interval bilangan gelombang
terlihat nilai absorban yang relatif berbeda antara ketiga jenis
tanaman obat. Plot spektrum kunyit terlihat lebih tinggi daripada plot temulawak
dan plot bangle. Hal ini dikarenakan penyerapan infra merah pada interval
bilangan gelombang tersebut berbeda intensitasnya.
Selain itu, dari plot tersebut juga terlihat puncak-puncak spektrum dari
ketiga jenis tanaman obat. Puncak-puncak tersebut berada pada interval bilangan
gelombang yang sama. Puncak merupakan nilai maksimum absorban yang berarti
adanya penyerapan infra merah yang kuat pada interval tertentu. Puncak tertinggi
7
berada pada interval
dengan rataan temulawak sebesar 0.497,
kunyit sebesar 0.451, dan bangle sebesar 0.566. Puncak spektrum yang berada
pada interval bilangan gelombang yang sama berarti memiliki gugus fungsi yang
sama. Dengan demikian, gugus fungsi kandungan kurkuminoid untuk temulawak,
kunyit, dan bangle berada pada bilangan gelombang yang sama. Rincian tentang
gugus fungsi dari ketiga jenis tanaman obat disajikan pada Tabel 1.
Tabel 1 Daerah identifikasi spektrum IR kurkuminoida
No
Jenis Vibrasi
1
2
3
4
5
6
Ikatan hidrogen OH
C - H alkana
Karbonil
Aromatik -C=C- rentangan
R -O- Ar
Sidik Jari
Bilangan
Gelombang cm-1
3600 - 3300
3000 - 2850
1820 - 1660
1660 - 1450
1300 - 1000
900 - 700
Intensitas
m-s
s
vs
s
m
a
Sumber: Wibowo (2009).
Keterangan: (s) kuat; (m) medium; (vs) sangat kuat.
Pada Gambar 1, puncak (a) berada pada interval bilangan gelombang
. Interval tersebut menjelaskan gugus fungsi ikatan hidrogen OH
dengan intensitas medium sampai kuat. Terlihat puncak (b) berada pada interval
bilangan gelombang
. Interval tersebut menjelaskan gugus fungsi
C–H alkana dengan intensitas kuat. Puncak (c) terletak pada bilangan gelombang
. Interval tersebut menjelaskan gugus fungsi aromatik -C=Crentangan dengan intensitas sangat kuat. Sedangkan pada puncak (d) dapat dilihat
berada pada interval bilangan gelombang
, dapat dikatakan pada
puncak tersebut menjelaskan gugus fungsi dari R-O-Ar dengan intensitas yang
kuat.
Gambar 2 merupakan sebaran nilai |̂| masing-masing peubah penjelas.
Nilai ̂ diperoleh dari hasil analisis regresi linear sederhana masing-masing
peubah penjelas dengan peubah respon.
200
Frekuensi
150
100
50
0
0,00
0,16
0,32
0,48
Nilai |̂|
0,64
0,80
0,96
Gambar 2 Sebaran nilai |̂| masing-masing peubah penjelas
8
Sebaran nilai |̂| pada Gambar 2 menunjukkan banyaknya peubah penjelas
dengan nilai |̂| yang semakin besar lebih banyak dibandingkan dengan peubah
penjelas yang memiliki nilai |̂| kecil. Sebaran nilai |̂| tersebut akan digunakan
dalam penentuan nilai percentil ke-90 sebagai awal perhitungan.
Penerapan SCAD
Parameter yang terbaik ialah ketika nilai CVE minimum. Hasil dari CVE
didapatkan pada saat dilakukannya validasi silang. Pada penggunaan paket
ncvreg memerlukan input suatu nilai minimum yang akan dicoba dengan
beberapa nilai . Penelitian ini menggunakan lima nilai berbeda yaitu 0.08, 0.05,
0.02, 0.009, dan 0.007. Fungsi ncvreg akan bekerja dengan menghitung nilai
CVE untuk setiap nilai dari terkecil yang ditentukan hingga yang bernilai satu
dengan interval seragam sebanyak 100 buah.
Variables selected
1 1
1 1 1
1 1
1 1 2
Variables selected
2 3
3 2 2
2
0
1.2
1.2
1.0
1.0
Cross-validation error
Cross-validation error
0
0.8
0.6
0.4
0.2
1 1
1 1 1
1 2
3 2 2
2 3
6 5 6 11
0.8
0.6
0.4
0.2
0.0
0.0
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
-3.0
log
Gambar 3 Plot CVE saat lambda 0.05
sampai 1
0
-1
-2
-3
-4
log
Gambar 4 Plot CVE saat lambda 0.009
sampai 1
Gambar 3 adalah plot hasil CVE untuk berbagai nilai yang digunakan.
Berdasarkan plot tersebut nilai CVE minimum yang bernilai 0.0280 terjadi pada
saat bernilai 0.0485. Pada Gambar 4 terlihat bahwa plot tersebut dengan nilai
CVE minimum sebesar 0.0201 terjadi pada saat bernilai 0.0106. Parameter
optimal saat CVE minimum disajikan pada Tabel 2. Pada saat minimum bernilai
0.08 didapatkan nilai CVE minimum sebesar 0.0332 terjadi saat optimal 0.0776.
Ulangan dengan minimum 0.02 dengan nilai CVE minimum 0.0234 terjadi
saat
optimal bernilai 0.0194. Pada
minimum 0.007 dengan nilai CVE
minimum 0.0209 terjadi pada saat optimal sebesar 0.0079. Gambar plot CVE
saat minimum 0.08, 0.02, dan 0.007 disajikan pada Lampiran 1.
9
Tabel 2 Hasil CVE minimum dan λ optimal
Hasil
CVE minimum
optimal
minimum yang dicoba
0.05
0.02
0.009
0.0280
0.0238
0.0201
0.0485
0.0194
0.0106
0.08
0.0332
0.0776
0.007
0.0209
0.0079
Setelah didapatkan optimal pada Tabel 2 kemudian optimal tersebut
digunakan untuk melakukan seleksi peubah penjelas. Selain menggunakan lima
nilai minimum tersebut, pada bagian ini juga menggunakan perhitungan dengan
lain. Penentuan yang akan digunakan dipilih dengan menentukan percentil ke90 dari sebaran nilai |̂| dengan mengikuti prinsip sparsity. Percentil ke-90
menghasilkan nilai sebesar 0.8176 pada peubah penjelas ke-1619.
Hasil dengan minimum sebesar 0.8176 dapat dilihat di Tabel 3. Bilangan
gelombang yang berpengaruh hanya terpilih satu yaitu pada peubah penjelas ke329 dengan nilai ̂ sebesar -0.1772. Dilihat dari nilai korelasi antara dan
peubah ke-329 memiliki nilai -0.9715 yang merupakan korelasi paling kuat di
antara korelasi lainnya. Bilangan gelombang tersebut dapat dikatakan bilangan
gelombang yang mewakili bilangan gelombang di sampingnya.
Tabel 3 Bilangan gelombang yang berpengaruh, nilai CVE,
0.8176
Bilangan gelombang (cm-1)
1261
̂
-0.1772
CVE
0.7149
optimal saat
optimal
0.7929
Parameter terbaik dilihat dari nilai CVE minimum. Pada Tabel 2 dan
Tabel 3 terlihat dari berbagai nilai CVE minimum terpilihlah CVE bernilai 0.0201.
Dari nilai CVE tersebut terpilih juga parameter terbaik sebesar 0.0106 saat
menggunakan minimum 0.009. Tabel 4 memperlihatkan bilangan gelombang
yang berpengaruh saat optimal.
Tabel 4 Bilangan gelombang yang berpengaruh
optimal
0.7929
0.0776
0.0485
0.0194
0.0106
0.0079
Bilangan gelombang (cm-1)
1261
1261, 2922
1261, 2922
717, 1261, 1539, 2922, 3075
715, 1261, 1539, 2922, 3075, 3561, 3587, 3634
717, 1261, 1539, 1701, 1964, 2042, 2146, 2922, 3075, 3561,
3630, 3634
Terlihat pada Tabel 4 bahwa dari beberapa optimal didapatkan berbagai
bilangan gelombang yang berpengaruh. Semakin kecil optimal yang didapatkan
maka semakin banyak bilangan gelombang yang berpengaruh. Berdasarkan
parameter terbaik yang terpilih sebelumnya, didapatkan juga delapan bilangan
10
gelombang yang berpengaruh. Gambar 5 memperlihatkan letak bilangan
gelombang yang berpengaruh.
0.6
Absorban
0.5
3587
0.4
1539
3561
0.3
0.2
3075
715
1261
2922
3634
0.1
0
3937
3572
3207
2841
2476
2111
1746
1380
1015
650
Bilangan gelombang (cm-1)
Gambar 5 Letak bilangan gelombang yang berpengaruh
Bilangan gelombang yang berpengaruh pada Gambar 5 berada pada
beberapa lembah dan puncak spektrum IR temulawak. Dari segi kimia
menginginkan bilangan gelombang yang berpengaruh berada pada puncak
spektrum. Namun kenyataannya dari hasil yang diperoleh dengan menggunakan
metode SCAD terdapat bilangan gelombang yang berada di lembah. Hal ini dapat
dikatakan bahwa satu bilangan gelombang yang berpengaruh tersebut merupakan
satu bilangan gelombang yang mewakili bilangan gelombang di sampingnya.
Bilangan gelombang di sampingnya yaitu bilangan gelombang yang memiliki
nilai lebih pendek atau lebih panjang dari bilangan gelombang yang terpilih.
Delapan bilangan gelombang yang berpengaruh tersebut kemudian
digunakan dalam perhitungan hasil pada data contoh persentase temulawak 82%,
84%, 86%, dan 88%. Perhitungan dengan keempat data contoh menghasilkan
dugaan persentase cukup baik dengan hasil yang hampir mendekati persentase
yang sebenarnya, yaitu untuk persentase 82% didapatkan 81.8%. Persentase
temulawak 84% didapatkan dugaan persentasenya sebesar 83.4%, pada persentase
temulawak 86% didapatkan dugaan persentasenya sebesar 86.1%, dan persentase
temulawak 88% didapatkan dugaan persentasenya sebesar 87.1%.
SIMPULAN
Hasil perhitungan dengan berbagai nilai minimum didapatkan nilai CVE
minimum saat parameter optimal. Bilangan gelombang yang didapat untuk
menduga kandungan temulawak pada simplisia hasil percampuran tanaman obat
temulawak, kunyit, dan bangle yaitu terletak pada titik 715 cm-1, 1261 cm-1, 1539
cm-1, 2922 cm-1, 3075 cm-1, 3561 cm-1, 3587 cm-1, dan 3634 cm-1 saat terbaik
bernilai 0.0106. Delapan gelombang tersebut digunakan dalam perhitungan hasil
pada empat data contoh sehingga mendapatkan dugaan persentase temulawak
11
yang mendekati persentase sebenarnya, dengan penyimpangan rata-rata sebesar
0.45%.
DAFTAR PUSTAKA
Draper N, Smith H. 1992. Analisis Regresi Terapan. Ed ke-2. Sumantri B,
penerjemah. Jakarta (ID): Gramedia Pustaka Utama. Terjemahan dari:
Applied Regression Analysis.
Fan J, Li R. 2001. Variable selection via nonconcave penalized likelihood and its
oracle properties. Journal of the American Statistical Association. 96:1348–
1360.
Izenman AJ. 2008. Modern Multivariate Statistical Techniques: Regression,
Classification, and Manifold Learning. New York (US): Springer.
Montgomery DC, Peck EA. 1992. Introduction to Linier Regression Analysis. Ed
ke-2. USA: John Wiley & Sons, Inc.
Myers RH, Milton JS. 1991. A First Course In The Theory Of Linear Statistical
Models. Boston (USA): PWS-KENT Publishing Company.
[Nicolate T]. 2001. Introduction to Fourier Tranform Infrared Spectrometry. USA:
Thermo Nicolate Corporation.
Nur MA, Adijuwana H. 1989. Teknik Spektroskopi dalam Analisis Biologi. Bogor:
PAU Ilmu Hayat, IPB.
Verleysen M. 2003. Learning high-dimensional data. Limitations and Future
Trends in Neural Computation, S Ablameyko et al (Eds). 141-162.
Wang H, Li R, Tsai CL. 2007. Tuning parameter selectors for the smoothly
clipped absolute deviation method. Biometrika Trust. 94(3):553-568.
doi:10.1093/biomet/asm053.
Wibowo EW. 2009. Metode eksploratif untuk menguji kesamaan spektrum FTIR
temulawak [tesis]. Bogor (ID): Institut Pertanian Bogor.
Starkweather J. 2011. Cross Validation techniques in R: A brief overview of some
methods packages, and functions for assessing prediction models. [Internet].
[diunduh 27 April 2015]. Tersedia pada: http//www.unt.edu/rss/class/Jon/
Benchmarks/CrossValidation1_JDS_May2011.pdf.
12
Lampiran 1 Plot CVE
Variables selected
Variables selected
1 1
1 1 1
1 1
1 1 1
1 2
2 3 3
5
0
1.2
1.0
1.0
Cross-validation error
1.2
0.8
0.6
0.4
1 1
1 1 1
1 1
2 3 3
2 2
2 3 5
7
0.8
0.6
0.4
0.2
0.2
0.0
0.0
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
0
-1
-2
log
-3
-4
log
Gambar 6 Plot CVE saat lambda
0.08 sampai 1
Gambar 7 Plot CVE saat lambda
0.02 sampai 1
Variables selected
0
1 1
1 1 1
2 3
5 2 2
3 7
5 5 8 13
1.2
1.0
Cross-validation error
Cross-validation error
0
0.8
0.6
0.4
0.2
0.0
0
-1
-2
-3
-4
-5
log
Gambar 8 Plot CVE saat lambda
0.007 sampai 1
13
RIWAYAT HIDUP
Penulis dilahirkan di Tuban pada tanggal 26 Juni 1992, sebagai anak
pertama dari tiga bersaudara pasangan Parmin dan Dwi Priyandari. Tahun 2005
penulis lulus dari SD Negeri Kebonsari 2 Tuban, kemudian melanjutkan
pendidikan di SMP Negeri 1 Tuban dan lulus tahun 2008. Selanjutnya, pada tahun
2011 penulis menyelesaikan pendidikannya di SMA Negeri 1 Tuban dan pada
tahun yang sama diterima di Institut Pertanian Bogor melalui jalur Seleksi
Nasional Masuk Perguruan Tinggi Undangan. Penulis diterima sebagai
mahasiswa Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan
Alam, Institut Pertanian Bogor dengan mayor Statistika.
Selama menempuh pendidikan di Institut Pertanian Bogor penulis
berpengalaman menjadi asisten dosen untuk mata kuliah Metode Statistika.
Penulis juga aktif baik dalam kegiatan organisasi mahasiswa daerah Ikatan Pelajar
Mahasiswa Ronggolawe Tuban (IPMRT) Bogor, Himpro, dan kepanitiankepanitiaan. Pada tahun pertama penulis menjadi panitia Tingkat Persiapan
Bersama (TPB) Cup 2012. Tahun 2013 penulis juga aktif menjadi panitia The 9 th
Statistika Ria, Welcome Ceremony Statistics, Spirit FMIPA, Kompetisi Statistika
Junior, The 1st IPB Business Festival, dan menjadi delegasi pada Musyawarah
Kerja Wilayah II IHMSI. Tahun berikutnya penulis mengikuti kepantiaan
Kompetisi Statistika Junior, ISEE, Welcome Ceremony Statistics. Pada dua
periode masa bakti Himpunan Profesi Mahasiswa Statistika Gamma Sigma Beta
(GSB) tahun 2013-2014 dan 2014-2015, penulis aktif dalam Badan Pelaksana
Harian sebagai Bendahara Umum Himpunan Profesi GSB.
Penulis juga mendapatkan beasiswa Bidik Misi selama masa kuliah. Pada
semester 6, penulis berkesempatan melaksanakan kegiatan praktik lapang di Balai
Penelitian Tanaman Jeruk dan Buah Subtropika, Batu.