Penyusunan paket R untuk pengembangan PAKAR (paket analisis regresi)

PENYUSUNAN PAKET R UNTUK PENGEMBANGAN PAKAR
(PAKET ANALISIS REGRESI)

KAMELIA

Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika
pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2011

RINGKASAN
KAMELIA. Penyusunan Paket R untuk Pengembangan Pakar (Paket Analisis Regresi). Dibimbing
oleh AGUS MOHAMAD SOLEH dan UTAMI DYAH SYAFITRI.
R merupakan perangkat lunak statistika berbasis open source dan berbasis pemrograman,
sehingga tidak semua orang terbiasa untuk menggunakannya. Sejak tahun 2009, Departemen
Statistika Institut Pertanian Bogor melakukan pengembangan paket dalam R dengan ant armuka

user friendly untuk memudahkan penggunaan R sebagai alat analisis statistika. Analisis statistika
yang sudah dikembangkan dalam paket tersebut diantaranya analisis regresi, analisis peubah
ganda, analisis deret waktu, dan analisis perancangan percob aan. Namun paket yang telah
dikembangkan masih memiliki beberapa kekurangan, sehingga penelitian ini dilakukan untuk
menyempurnakan beberapa kekurangan tersebut.
Paket yang disusun dalam penelitian ini merupakan pe ngembangan dari Pakar (Paket Analisis
Regresi) yang telah disusun sebelumnya oleh Melisa (2009). Paket ini diberi nama Pakar 2.0.
Komponen analisis regresi yang ditambahkan dalam Pakar 2.0 meliputi analisis regresi komponen
utama, analisis regresi gulud, analisis regresi logistik biner, analisis r egresi logistik ordinal,
analisis regresi logistik multinomial, dan analisis regresi kuadrat terkecil parsial. Untuk
menjalankan fungsi-fungsinya, Pakar 2.0 membutuhkan paket lain yaitu tcltk, tkrplot, RODBC,
R2HTML, car, nortest, tseries, stats, foreign, MASS, nnet, dan pls. Menu utama pada Pakar 2.0
meliputi menu File, menu Edit, menu Data, menu Statistika, dan menu Bantuan. Hasil pengujian
Pakar 2.0 dengan membandingkan keluaran dari perangkat lunak statistika lain secara umum
sudah menunjukkan hasil yang relatif sama, kecuali pada beberapa kasus uji. Perbedaan pada
beberapa kasus uji tersebut disebabkan adanya perbedaan kategori acuan pada regresi logistik dan
perbedaan nilai desimal hasil iterasi.
Kata kunci : Pakar, regresi komponen utama, regresi gulud, regresi logistik, regresi kuadrat
terkecil parsial.


RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 23 November 1988 dari pasangan Zainal Mutakin
dan Kamini. Penulis merupakan putri pertama dari dua bersaudara.
Penulis menyelesaikan sekolah dasar pada tahun 2000 di SDN Kramat Pela 07 Jakarta dan
menyelesaikan sekolah menengah pertama pada tahun 2003 di SLTP Negeri 19 Jakarta. Pada
tahun 2006 penulis menyelesaikan sekolah menengah atasnya di SMA Negeri 74 Jakarta. Penulis
diterima sebagai mahasiswa di Institut Pertanian Bogor (IPB) pada tahun 2006 melalui jalur
Undangan Seleksi Masuk IPB (USMI). Tahun berikutnya penulis diterima sebagai mahasiswa
Departemen Statistika Fakultas Matem atika dan Ilmu Pengetahuan Alam IPB dengan Minor Ilmu
Konsumen. Selama masa kuliah penulis aktif sebagai anggota dari himpunan keprofesian Gamma
Sigma Beta (GSB). Penulis juga berkesempatan menjadi asisten Metode Statistika pada tahun
2009. Penulis melaksanakan kegiatan praktik lapang di Balai Pengkajian Teknologi Pertanian
Jawa Timur selama bulan Februari hingga April 2010.

KATA PENGANTAR

Segala puji dan rasa syukur penulis panjatkan kehadirat Allah SWT atas segala karunia -Nya
hingga penulis dapat menyelesaikan karya ilmiah dengan judul “Penyusunan Paket R untuk
Penyempurnaan Pakar (Paket Analisis Regresi)“.
Terima kasih penulis ucapkan ke pada semua pihak yang telah berperan serta dalam

penyusunan karya ilmiah ini terutama kepada :
1. Bapak Agus Mohamad Soleh, S.Si, MT. dan Ibu Utami Dyah Syafitri, M.Si atas bimbingan,
arahan, dan perhatian kepada penulis.
2. Bapak Prof. Dr. Ir. Aunuddin selaku penguji atas semua sarannya.
3. Rekan-rekan seperjuangan, Defri Ramadhan Ismana dan M. Mufti Mubarak atas semua saran,
diskusi, dan semangat yang diberikan kepada penulis selama mengerjakan karya ilmiah ini.
4. Melisa, Anton Kisworo, Tri Miranti, dan Angga Warel la untuk diskusi mengenai paket R yang
telah dikembangkan sebelumnya.
5. Rekan-rekan pembahas seminar (Septiyan Allan dan Lili Puspita Rahayu) serta rekan -rekan
yang bersedia hadir pada seminar saya. Terima kasih atas semua masukan yang diberikan.
6. Mama, Papa, dan Noer Alvisachrin atas doa, kepercayaan, dan semangat yang diberikan
kepada penulis hingga saat ini.
Semoga segala budi baik yang telah diberikan kepada penulis mendapat balasan dari Allah
SWT. Penulis juga berharap agar karya ilmiah ini dapat bermanf aat bagi semua pihak yang
membutuhkan dan memberikan sedikit kontribusi untuk kemajuan statistika di Indonesia.

Bogor, Februari 2011

Kamelia


Judul : Penyusunan Paket R untuk Pen gembangan Pakar (Paket Analisis
Regresi)
Nama : Kamelia
NRP : G14061870

Menyetujui :

Pembimbing I,

Pembimbing II,

Agus Mohamad Soleh , S.Si, MT.
NIP. 197503151999031004

Utami Dyah Syafitri, S.Si., M.Si
NIP. 197709172005012001

Mengetahui :
Ketua Departemen Statistika,
Fakultas Matematika dan Ilmu Pengetahuan Alam IPB


Dr. Ir. Hari Wijayanto, M.Si
NIP. 196504211990021001

Tanggal Lulus :

DAFTAR ISI
Halaman
DAFTAR GAMBAR .....................................................................................................................viii
DAFTAR TABEL ..........................................................................................................................viii
DAFTAR LAMPIRAN ..................................................................................................................viii
PENDAHULUAN ........................................................................................................................... 1
Latar Belakang ........................................................................................................................... 1
Tujuan......................................................................................................................................... 1
TINJAUAN PUSTAKA .................................................................................................................. 1
Regresi Komponen Utama ......................................................................................................... 1
Regresi Gulud ............................................................................................................................. 2
Regresi Logistik ......................................................................................................................... 2
Regresi Logistik Biner .......................................................................................................... 2
Regresi Logistik Ordinal ....................................................................................................... 2

Regresi Logistik Multinomial ............................................................................................... 2
Pengujian Parameter Regresi Logistik .................................................................................. 3
Rasio Odds............................................................................................................................ 3
Akaike Information Criterion (AIC) ..................................................................................... 3
Sisaan.................................................................................................................................... 3
Regresi Kuadrat Terkecil Parsial ................................................................................................ 3
Validasi Silang ........................................................................................................................... 4
METODOLOGI ............................................................................................................................... 4
HASIL DAN PEMBAHASAN ........................................................................................................ 5
Kebutuhan Sistem....................................................................................................................... 5
Analisis dan Perancangan Sistem ............................................................................................... 5
Implementasi Sistem .................................................................................................................. 7
Menu File.............................................................................................................................. 7
Menu Edit ............................................................................................................................. 7
Menu Data ............................................................................................................................ 7
Menu Statistika ..................................................................................................................... 9
Menu Bantuan......................................................................................................................12
Pengujian ...................................................................................................................................12
Batasan dan Pemasangan Sistem ............................................................................................... 13
KESIMPULAN DAN SARAN .......................................................................................................13

Kesimpulan................................................................................................................................ 13
Saran..........................................................................................................................................14
DAFTAR PUSTAKA .....................................................................................................................14
LAMPIRAN....................................................................................................................................15

DAFTAR GAMBAR
Halaman
1. Tahapan penyusunan paket R dengan model air terjun. ................................................................ 4
2. Diagram aliran data level 0 ........................................................................................................... 5
3. Diagram aliran data level 1. .......................................................................................................... 6
4. Diagram aliran data level 2 proses 1. ............................................................................................ 7

DAFTAR TABEL
Halaman
1. Paket-paket yang dibutuhkan untuk menjalankan Pakar 2.0 ......................................................... 7
2. Perbandingan keluaran Pakar 2.0 dengan Minitab, SAS, dan SPSS menggunakan metode
blackbox .................................................................................................................................... 12

DAFTAR LAMPIRAN
Halaman

1. Diagram aliran data level 2 proses 1 (Input Data) ...................................................................... 16
2. Diagram aliran data level 2 proses 2 (Manajemen Data) ........................................................... 16
3. Diagram aliran data level 2 proses 10 (Simpan Data) ................................................................ 16
4. Diagram aliran data level 3 proses 6.2 (Regresi Logistik) ......................................................... 17
5. Diagram aliran data level 4 proses 6.2.4 (Fungsi Penghubung) ................................................. 17
6. Diagram aliran data level 3 proses 6.5 (Pemilihan Model Regresi Terbaik) .............................. 17
7. Diagram aliran data level 3 proses 6.3 (Algoritma Regresi Kuadrat Terkecil Parsial) .............. 18
8. Diagram aliran data level 3 proses 6.6 (Validasi Silang) ........................................................... 18
9. Lingkungan utama dan skema menu Pakar 2.0 .......................................................................... 19
10. Kotak Dialog Regresi Komponen Utama ................................................................................. 22
11. Kotak Dialog Regresi Gulud .................................................................................................... 23
12. Kotak Dialog Regresi Logistik Biner ....................................................................................... 24
13. Kotak Dialog Regresi Logist ik Ordinal ................................................................................... 25
14. Kotak Dialog Regresi Logistik Multinomial ............................................................................ 26
15. Kotak Dialog Regresi Kuadrat Terkecil Parsial ....................................................................... 27
16. Tabel perbandingan keluaran regresi komponen utama antara Pakar 2.0 dengan SAS ............ 28
17. Tabel perbandingan keluaran regresi gulud antara Pakar 2.0 dengan SAS .............................. 29
18. Perbandingan plot regresi gulud antara Pakar 2.0 dengan SAS ............................................... 30
19. Tabel perbandingan keluaran regresi logistik biner (fungsi penghubung logit) antara
Pakar 2.0 dengan Minitab, SAS, dan SPSS .............................................................................. 31

20. Perbandingan tabel klasifikasi regresi logistik biner (fungsi penghubung logit) antara
Pakar 2.0 dengan Minitab, SAS, dan SPSS .............................................................................. 32
21. Tabel perbandingan keluaran regresi logistik ordinal (fungsi penghubung logit) antara
Pakar 2.0 dengan Minitab, SAS, dan SPSS .............................................................................. 33
23. Tabel perbandingan keluaran regresi kuadrat terkecil parsial antara Pakar 2.0 dengan
Minitab, dan SAS ..................................................................................................................... 34
24. Contoh keluaran Pakar 2.0 ....................................................................................................... 35

1

PENDAHULUAN
Latar Belakang
R merupakan perangkat lunak statistika
berbasis
open
source
dan
berbasis
pemrograman, sehingga tidak semua orang
terbiasa untuk menggunakannya. Sejak tahun

2009, Departemen Statistika Institut Pertanian
Bogor melakukan pengembangan paket dal am
R dengan antarmuka user friendly untuk
memudahkan penggunaan R sebagai alat
analisis statistika. Analisis statistika yang
sudah dikembangkan dalam paket tersebut
diantaranya analisis regresi, analisis peubah
ganda, analisis deret waktu, dan analisis
perancangan percobaan. Namun paket yang
telah dikembangkan masih memiliki beberapa
kekurangan, sehingga penelitian ini dilakukan
untuk menyempurnakan beberapa kekurangan
tersebut.
Paket analisis regresi (Pakar) merupakan
bagian dari paket R yang telah dikemba ngkan.
Pakar meliputi perhitungan statistika dasar,
plot pengepasan garis, analisis regresi linier,
dan analisis regresi bertatar (Melisa 2009).
Komponen analisis regresi dan sistem
manajemen data pada Pakar masih terbatas.

Batasan tersebut yaitu hanya sa tu dataset yang
dapat digunakan dalam sistem, impor dan
ekspor data masih terbatas pada file Excel
dengan ekstensi .csv dan .xls, serta
keterbatasan menu untuk memodifikasi data.
Penelitian
ini
dilakukan
untuk
mengembangkan Pakar dengan menambahkan
beberapa
analisis
regresi
dan
menyempurnakan sistem manajemen data.
Paket hasil pengembangan Pakar akan diberi
nama Pakar 2.0.
Tujuan
Tujuan dari penelitian ini adalah
menyusun paket R untuk mengembangkan
paket analisis regresi (Pakar) dengan
menambahkan analisis regresi komponen
utama, analisis regresi gulud, analisis regresi
logistik biner, analisis regresi logistik ordinal,
analisis regresi logistik multinomial, dan
analisis regresi kuadrat terkecil parsial dengan
antarmuka user friendly serta mengatasi
batasan-batasan yang ada pada Pakar.

TINJAUAN PUSTAKA
Pakar 2.0 merupakan suatu sistem dengan
antarmuka user friendly pada lingkungan R.
Menurut Hornik (2010), R merupakan

implementasi sebuah lingkungan komputasi
dan pemrograman bahasa statistika. R disusun
dari bahasa S dan bahasa Scheme oleh Ross
Ihaka dan Robert Gentleman. Paket R
merupakan sebuah ekstensi dari sistem dasar
R yang terdiri atas kode, data, dan
dokumentasi. Paket R dapat diunduh secara
bebas pada http://CRAN.R-Project.org. Untuk
membuat paket R pada lingkungan Windows
dibutuhkan Rtools, LaTeX, dan HTML Help
Workshop sebagai perangkat lunak tambahan.
Komponen
analisis
regresi
yang
ditambahkan dalam Pakar 2.0 antara lain
regresi komponen utama, regresi gulud,
regresi logistik, dan regresi kuadrat terkecil
parsial.
Regresi Komponen Utama (RKU)
Regresi Komponen Utama (RKU)
merupakan implementasi dari Analisis
Komponen Utama (AKU). RKU digunakan
untuk mengatasi masalah multikolinier antar
peubah bebas. Prinsip dari RKU adalah
mentransformasi
peubah-peubah
bebas
menjadi peubah-peubah baru yang saling
ortogonal. Kemudian peubah -peubah baru
tersebut diregresikan dengan peubah bebas.
Transformasi peubah bebas menjadi peubah
baru tersebut adalah dengan AKU.
Komponen
utama
yang
dibentuk
berdasarkan matriks ragam-peragam adalah
sebagai berikut. Misalkan Σ merupakan
matriks ragam-peragam dari vektor x 1,x2,…,xp
dengan pasangan akar ciri dan vektor ciri yang
saling ortonormal (λ 1,e1), (λ2,e2), …, (λ p,ep)
dengan λ 1≥λ2 ≥ … ≥ λp≥0, maka komponen
utama ke-i didefinisikan sebagai berikut
(Jollife 2002):

λ1 merupakan akar ciri terbesar yang
memaksimumkan ragam KU 1 dan e1
merupakan vektor ciri yang berpadanan
dengan λ 1. Urutan KU1, KU2, …, KU p harus
memenuhi persyaratan λ 1 ≥ λ2 ≥ … ≥ λp.
Sementara itu, kontribusi keragaman dari
setiap komponen utama ke -k terhadap
keragaman total adalah:
λ

λ
λ

λ …

λ

Matriks Σ dapat berupa matriks ragam peragam atau matriks korelasi.
Model regresi komponen utama adalah
sebagai berikut:

2

dengan
adalah vektor peubah respons,
adalah vektor koefisien regresi kom ponen utama dari m buah komponen utama,
adalah matriks berukuran (n x m) yang
kolomnya merupakan skor komponen utama,
serta
adalah komponen error model (Jollife
2002).
Regresi Gulud
Regresi gulud juga digunakan untuk
mengatasi masalah multikolinieritas antar
peubah
bebas.
Multikolinieritas
ini
mengakibatkan nilai dugaan parameter model
menjadi tidak stabil. Regresi gulud didasarkan
pada konsep bahwa penduga berbias namun
memiliki ragam yang lebih kecil akan lebih
disukai.
Menurut Myers (1990), prosedur regresi
gulud adalah dengan menambahkan sebuah
konstanta k yang berada dalam selang [0,1] ke
dalam matriks ( X’X) pada pendugaan
parameter regresi sehingga diperoleh:

adalah penduga berbias bagi
namun
memiliki ragam yang lebih kecil daripada .
Ada beberapa cara untuk menentukan nilai k
yang optimum. Salah satunya adalah dengan
menggunakan metode ridge trace. Metode ini
merupakan penelusuran nilai k yang optimum
dengan mencoba berbagai macam nilai k dan
melihat pengaruhnya pada nilai
yang
didapatkan. Plot antara
dengan berbagai
nilai k dapat digunakan untuk melihat metode
tersebut secara eksploratif.

adalah peluang terjadinya y = 1. Model
regresi logistik dengan E( Y= 1|x) sebagai
π( x) adalah:
exp
1

exp

Fungsi hubung yang sesuai untuk model
regresi logistik biner adalah fungsi logit.
Transformasi logit sebagai fungsi dari π( x)
adalah (Hosmer dan Lemeshow 2000):
ln

1

Regresi Logistik Ordinal
Model regresi logistik ordinal digunakan
untuk menganalisis peubah respons berskala
ordinal dengan lebih dari dua kategori.
Menurut Hosmer dan Lemeshow (2000), salah
satu cara yang dapat digunakan untuk
membentuk model dengan respons kategorik
yang berskala ordinal adalah dengan
membentuk fungsi logit dari peluang
kumulatif :
|

dengan k bernilai 0, 1, 2, …, K -1. K adalah
banyaknya nilai respons yang
mungkin
terjadi, dan
adalah peluang kumulatif
kategori k. Fungsi logit dari peluang kumulatif
adalah sebagai berikut (Hosmer dan
Lemeshow 2000):
|
|

Regresi Logistik
Menurut Hosmer dan Lemeshow (2000)
regresi logistik adalah metode analisis
statistika yang mendeskripsikan hubungan
antara peubah respons yang memiliki dua
kategori atau lebih dengan satu atau lebih
peubah bebas berskala kategori atau kontinu.
Pendugaan parameter yang digunakan dalam
regresi logistik adalah metode kemungkinan
maksimum (maximum likelihood). Model
regresi logistik terdiri atas regresi logistik
dengan respons biner, ordinal, dan
multinomial.
Regresi Logistik Biner
Model regresi logistik biner merupak an
model matematika yang dapat digunakan
untuk memodelkan hubungan antara peubah
bebas X dengan peubah respons Y yang
bersifat biner. Peubah respons Y mengikuti
sebaran Bernoulli dengan y = 0 atau 1 dan

Regresi Logistik Multinomial
Model regresi logistik multinomial
digunakan untuk menganalisis peubah respons
berskala nominal dengan lebih dari dua
kategori. Misalkan πj ( x) = P( Y= j|x) dimana
j=0,1,2,…,K-1 adalah peubah nominal yang
digunakan dalam model. Berikut adalah
persamaan umum yang digunakan untuk
menyatakan peluang bersyarat bagi setiap
kategori (Hosmer dan Lemeshow 2000):
exp
|



exp

Misalkan ada tiga kategori maka terdapat tiga
fungsi peluang bersyarat. Fungsi penghubung
logit untuk peluang bersyar at tersebut adalah:

3

|
0|

Pengujian Parameter Regresi Logistik
Pengujian peranan peubah bebas dalam
model secara bersama-sama adalah dengan
uji rasio kemungkinan (likelihood ratio test)
menggunakan statistik uji-G. Rumus umum
untuk statistik uji-G adalah:
2

dimana L0 adalah fungsi kemungkinan tanpa
peubah bebas dan L 1 adalah fungsi
kemungkinan dengan peubah bebas. Hipotesis
yang digunakan adalah sebagai berikut:
H0 : β 1 = β 2 = … = β p = 0
H1 : minimal ada satu β j ≠ 0
dimana j = 1,2,...,p. Statistik uji-G mengikuti
sebaran χ 2 dengan derajat bebas p. Hipotesis
nol ditolak jika G > χ 2 p(α) .
Pengujian peubah bebas secara parsial
dilakukan menggunakan statistik uji Wald
dengan rumus umum:

Hipotesis yang digunakan dalam uji Wald:
H0 : β j = 0
H1 : βj ≠ 0 dimana j = 1,2,...,p.
Statistik uji Wald mengikuti sebaran normal
baku. H 0 ditolak jika |W| > Z α/2 (Hosmer dan
Lemeshow 2000).
Rasio Odds
Dalam kajian hubungan antar peubah
kategorik dikenal adanya ukuran asosiasi atau
ukuran keeratan hubungan antara peubah
kategorik. Rasio odds merupakan salah satu
ukuran asosiasi yang dapat diperoleh melalui
analisis regresi logistik. Odds sendiri diartika n
sebagai rasio peluang kejadian sukses dengan
kejadian tidak sukses dari peubah respons.
Rasio odds didefinisikan sebagai exp β
dengan selang kepercayaan (Hosmer dan
Lemeshow 2000):

Selain untuk melihat kebaikan model, statistik
AIC juga digunakan untuk pemilihan peubah
bebas (stepwise, forward, dan backward) yang
berbasis pada fungsi kemungkinan. Nilai AIC
yang semakin kecil menandakan model yang
semakin baik.
Sisaan
Dalam regresi linier, sisaan didefinisikan
sebagai beda antara respons dan dugaan
respons
. Dalam regresi logistik,
terdapat beberapa cara untuk menghitung
sisaan, diantaranya (Hosmer dan Lemeshow
2000):
1. Sisaan Pearson
Sisaan Pearson didefinisikan sebagai:
,

1

dimana adalah peluang kejadian sukses.
2. Sisaan Deviance
Sisaan deviance didefinisikan sebagai:
,

2

1

1
1

dimana tanda + atau – digunakan untuk
memastikan bahwa sisaan deviance
memiliki tanda yang sama dengan
.
Regresi Kuadrat Terkecil Parsial
Metode regresi kuadrat terkecil parsial
(RKTP) adalah suatu metode untuk
melakukan pendugaan model ketika banyak
terdapat peubah bebas dalam model dan
peubah-peubah tersebut saling berkorelasi.
Untuk meregresikan sekumpulan peubah Y
dengan peubah X 1, X2, …, Xp, metode PLSR
melibatkan peubah bebas baru yang berperan
seperti X. Peubah ini disebut peubah laten
dimana setiap komponennya merupakan
kombinasi linier dari X 1, X2, .., Xp. Peubah
laten ini kemudian dinotasikan sebagai T.
Metode RKTP menggambarkan hubungan
eksternal dan hubungan internal antar peubah
X dan peubah Y. Hubungan eksternal tersebut
ditulis dengan persamaan berikut (Naes et al.
2002):


Akaike Information Criterion (AIC)
Ravishanker dan Dey (2002) menyatakan
bahwa salah cara untuk melihat kebaikan
model regresi logistik adalah menggunakan
statistik Akaike Information Criterion (AIC):
2

2



T adalah adalah matriks skor komponen
dengan kolom-kolom yang berupa vektor
laten. Matriks P berisi vektor muatan (loading
vector) dan q adalah vektor muatan. E dan f
masing-masing adalah matriks dan vektor

4

sisaan. Matriks T dihitung sebagai kombinasi
linier dari X dengan W yang saling ortogonal
sehingga diperoleh:
dimana W adalah matriks dengan kolom kolom yang berupa vektor pembobot.
Validasi Silang
Validasi
silang
digunakan
untuk
menentukan jumlah komponen optimum pada
analisis regresi komponen utama dan analisis
regresi kuadrat terkecil parsial. Pemilihan
jumlah komponen yang optimum ini
diperlukan
untuk
mengatasi
masa lah
overfitting. Overfitting disebabkan oleh
jumlah peubah bebas yang lebih banyak
daripada amatan atau karena peubah bebas
yang saling berkorelasi. Akibat dari
overfitting ini adalah model yang dihasilkan
sudah sesuai menggambarkan keadaan data
contoh namun kurang baik untuk memprediksi
data baru.
Menurut Draper dan Smith (1992) terdapat
dua pendekatan validasi silang, diantaranya
buang satu amatan dan buang sekelompok
amatan. Validasi silang ini menghasilkan
statistik-statistik untuk melihat kemampuan
model dalam memprediksi diantaranya
(Myers 1990):
1. PRESS (Prediction Sum of Square)


,

dengan , adalah nilai dugaan respons
tanpa amatan yang dibuang. Model yang
baik adalah model dengan nilai PRESS
yan relatif kecil.
2.
(R2 Prediction)
1



merefleksikan kemampuan model
dalam memprediksi amatan baru. Nilai
yang besar menggambarkan bahwa
model tersebut mampu melakukan prediksi
dengan baik.
3. RMSECV (Root Mean Square Error of
Cross Validation)
RMSECV adalah kuadrat tengah sisaan
berdasarkan hasil validasi silang. Semakin
kecil nilai RMSECV maka model tersebut
akan semakin baik.


,

METODOLOGI
Pembuatan paket R ini mengikuti kaidah
rekayasa perangkat lunak dengan model air
terjun, berikut tahapannya:
1. Analisis dan identifikasi kebutuhan sistem
Tahapan ini dilakukan dengan menggali
kebutuhan sistem dengan memperhatikan
kebutuhan pengguna yang diadopsi dari
perangkat lunak yang sudah ada seperti
SPSS, Minitab, dan SAS.
2. Analisis perancangan sistem
Tahapan ini dilakukan dengan merancang
sistem yang sudah direncanakan melalui
diagram aliran data dan antarmuka.
3. Implementasi dan pengujian unit
Rancangan yang sudah dibangun pada
tahap
sebelumnya
kemudian
diimplementasikan dalam bahasa S
menggunakan perangkat lunak R dan
paket-paket
R
yang
berhubungan.
Pembuatan antarmuka memanfaatkan
paket R yang bernama tcltk.

Analisis dan
identifikasi kebutuhan
Analisis perancangan
sistem
Implementasi dan
pengujian unit
Integrasi dan
pengujian sistem
Operasi dan
pemeliharaan
Gambar 1 Tahapan penyusunan paket R dengan model air terjun.





6

Gambar 3 Diagram aliran data level 1.
menjadi input untuk pro
roses 2. Proses 2
dapat didekomposisi men
enjadi Proses 2.1
Pilih Dataset Aktif, Proses
P
2.2 Edit
Dataset Aktif, Prosess 2.3 Kalkulator,
Proses 2.4 Bangkitkan Bilangan
Bila
Acak, dan
pengguna
Proses 2.5 Pilih Peubah.. Setelah
Se
telah siap
memilih peubah, maka dataset
d
analisis.
Proses
digunakan
untuk
an
pada
manajemen data ini ditampilkan
dita
diolah dalam
Lampiran 2. Data yang telah
te
melalui
sistem kemudian dapatt disimpan
d
oses 10.1 Ekspor
dua proses, yaitu Prose
.2 Simpan Dataset
Dataset dan Proses 10.2
(Lampiran 3).
 Aliran data pada Pro
roses 5 Analisis
h Gambar
4. Proses
Regresi dijelaskan oleh
G
6.2
Analisis
Reg
egresi
Logistik
didekomposisi lagi menj
enjadi Proses 6.2.1
Regresi Logistik Biner
iner, Proses 6.2.2
Regresi Logistik Ordin
dinal, dan Proses
6.2.3 Regresi Logisti
istik Multinomial
(Lampiran 4). Kemudian
ian Proses 6.2.1 dan
Proses 6.2.2 akan masuk
uk ke Proses 6.2.4
Fungsi Penghubung. Proses
P
6.2.4 ini
didekomposisi kembali
ali menjadi tiga
fungsi penghubung, yaitu logit, probit
dan complementary
log-log yang
disajikan dalam Lampir
piran 5. Setelah
menentukan fungsi penghubung,
pe
data
yang masuk dapat langsung
lan
dianalisis
baik melalui prosedurr pemilihan
p
model
regresi terbaik (stepwis
ise, forward, dan

backward) ataupun tidak (L
(Lampiran 6).
Nilai sisaan, nilai peluang rrespons, dan
nilai dugaan kategori res
respons hasil
analisis regresi logistik
tik kemudian
disimpan dalam dataset.
t. Proses 5.7
erkecil Parsial
Analisis Regresi Kuadrat Ter
didekomposisi kembali berdasarkan
sa digunakan,
empat algoritma yang biasa
wide kernel,
yaitu algoritma kernel, w
SIMPLS dan orthogonall sscores atau
LS. Proses ini
biasa dikenal dengan NIPALS.
dijelaskan pada Lampirann 7. Analisis
regresi komponen utamaa melibatkan
keluaran dari analisis kompponen utama
yang merupakan bagian ddari proses
ilai aakar ciri dan
analisis peubah ganda. Nilai
vektor ciri yang dihasilkann ddari analisis
unakan dalam
komponen utama akan digun
uk melakukan
analisis regresi linier untuk
onen utama.
analisis regresi kompone
apat langsung
Selanjutnya pengguna dapa
egresi kuadrat
mencetak hasil analisis regr
analisis regresi
terkecil parsial dan hasil ana
lakukan Proses
komponen utama atau melak
da dua jenis
6.6 Validasi Silang. Ada
unakan, yaitu
validasi silang yang digun
ang lebih dari
buang satu amatan dan buan
Nilai dugaan
satu amatan (Lampiran 8).. N
respons, sisaan, skor X dann skor Y dari
analisis regresi komponenn utama dan
terkecil parsial
analisis regresi kuadrat terk
tersimpan dalam dataset.

7

Gam
ambar 4 Diagram aliran data level 2 proses 1.
Implementasii Sistem
Si
Implementasi
sistem
menggunakan
program R.2.11.1 dan beberapa
b
paket
tambahan lainnya untuk men
enjalankan fungsi fungsi pada Pakar 2.0. Tabe
bel 1 menunjukkan
paket-paket
yang
dipe
iperlukan
untuk
menjalankan Pakar 2.0. Pake
aket standar adalah
paket yang sudah tersedia dalam
da
program R.
Sedangkan paket tambahan adalah
a
paket yang
harus diunduh melaluii http://CRAN.RProject.org.
Tabel 1. Paket-paket yang dibutuhkan
d
untuk
menjalankan Pakarr 2.0
2
No.
1.
2.
3.
4.
5.
6.
7.

Paket standar
tcltk
stats
foreign
MASS
nnet

Paket
P
tambahan
tkrplot
tk
RODBC
R
R2HTML
R
car
ca
nortest
n
tseries
ts
pls

Pakar 2.0 tersusun oleh
h pilihan menu di
bagian atas dan jendela hasil
sil di bagian bawah
menu untuk menampilkan keluaran.
ke
Pakar 2.0
terdiri atas lima menu utamaa yaitu Menu File,
Menu Edit, Menu Data, Men
enu Statistika, dan
Menu Bantuan. Lingkungan
u
n utama
dan skema
menu Pakar 2.0 disajikan pad
ada Lampiran 9.

Menu File
lapan submenu
Menu File terdiri atas delapa
yaitu:
1. Buat Dataset Baru
Submenu
ini
digunaka
kan
untuk
memasukkan data ke dalam sis
sistem secara
langsung. Sebelum membuatt ddataset baru,
pengguna harus memberii nnama untuk
dataset tersebut.
2. Memuat Dataset
Submenu ini digunakan untu
ntuk memuat
dataset yang telah disimpan ddalam file R
dengan ekstensi .rda atau .rd
.rdata. Namun
fungsi ini tidak dapat digun
unakan untuk
memuat dataset yang tersimpan
pan pada paket
R tambahan.
3. Impor Dataset
Submenu ini terdiri atas limaa fungsi yaitu
“SPSS”, “.csv (,)”, “.csv (;)”,
”, “Ms. Excel”
dan “Ms. Access”. Fungsi-fun
fungsi tersebut
memungkinkan
pengguna
na
untuk
mengimpor dataset dari file SP
SPSS (.sav dan
.por), Ms. Excel (.xls, .xlsx, da
dan .csv), dan
Ms. Access (.mdb dan .accdb)
b). Impor data
dengan ekstensi .csv dapat
at digunakan
untuk mengimpor file denga
gan pembatas
“,” dan “;”. Sebelum meng
ngimpor data,
pengguna harus memberii nnama untuk
dataset yang akan diimpor data
ata tersebut.

8

4. Ekspor Dataset
Submenu ini terdiri atas empat fungsi yaitu
“SPSS”, “.csv (,)”, “.csv (;)”, dan “Ms.
Excel 2003”. Fungsi-fungsi tersebut
memungkinkan
pengguna
untuk
mengekspor dataset aktif ke file SPSS
(.sps) dan Ms. Excel 2003 (.xls dan .csv).
Ekspor data dengan ekstensi .csv dapat
digunakan untuk mengekspor file dengan
pembatas “,” dan “;”.
5. Simpan Dataset
Submenu simpan dataset digunakan untuk
menyimpan dataset hasil input langsung
atau dataset hasil pengolahan data dengan
Pakar 2.0. Dataset tersebut akan tersimpan
dengan ekstensi .rda atau .rdata.
6. Simpan Hasil
Submenu ini digunakan untuk menyimpan
keluaran yang terdapat pada jendela hasil
dalam bentuk teks dengan ekstensi .txt.
Selain itu hasil juga dapat disimpan
dengan ekstensi .doc.
7. Hasil HTML
Submenu
ini
digunakan
untuk
menampilkan keluaran yang dicetak ke
jendela hasil dalam format HTML. Fungsi
ini aktif jika tombol cek “Tampilkan
Output HTML” dan direktori folder terisi.
Jika fungsi ini aktif maka setiap pengguna
mencetak keluaran ke jendela hasil,
keluaran tersebut juga akan ditampilkan
oleh browser yang terdapat pada komputer
pengguna.
8. Keluar
Submenu ini digunakan untuk keluar dari
Pakar 2.0.
Menu Edit
Menu edit terdiri atas tujuh submenu untuk
melakukan edit pada jendela hasil. Ketujuh
submenu tersebut antara lain :
1. Cut
Submenu
ini
digunakan
untuk
mengirimkan objek yang terpilih pada
jendela hasil ke clipboard sistem komputer
dan menghapus objek yang terpilih pada
jendela hasil.
2. Salin
Submenu
ini
digunakan
untuk
mengirimkan objek yang terpilih pada
jendela hasil ke clipboard sistem
komputer. Fungsi ini biasanya digunakan
untuk menyalin objek yang terpilih.
3. Paste
Submenu
ini
digunakan
untuk
menampilkan objek yang ada pada
clipboard sistem komputer ke jendela

hasil. Fungsi ini biasanya digunakan untuk
menampilkan objek yang sudah disalin.
4. Hapus
Submenu ini digunakan untuk menghapus
objek yang terpilih pada jendela hasil.
5. Undo
Submenu
ini
digunakan
untuk
mengembalikan tampilan jendela hasil ke
tampilan sebelum tampilan terakhir.
6. Pilih Semua
Submenu ini digunakan untuk memilih
semua objek yang ada pada jendela hasil.
7. Bersihkan Jendela
Submenu ini digunakan untuk menghapus
semua objek yang ada pada jendela hasil.
Untuk menggunakan fungsi pada menu edit,
pengguna harus mengaktifkan kursor pada
jendela hasil. Fungsi-fungsi dalam menu ini
mempunyai kegunaan yang sama dengan
fungsi klik kanan pada jendela hasil.
Menu Data
Menu data merupakan menu untuk
memodifikasi, memilih, melihat, mengedit,
dan mencetak dataset. Menu ini dapat
dijalankan jika terdapat dataset aktif pada
program. Submenu dalam menu data antara
lain:
1. Pilih Dataset Aktif
Submenu pilih dataset aktif digunakan
untuk memilih dataset mana yang akan
digunakan,
sehingga
memungkinkan
pengguna untuk memiliki lebih dari satu
dataset dalam sistem.
2. Lihat Dataset Aktif
Submenu ini digunakan untuk melihat
dataset aktif.
3. Edit Dataset Aktif
Submenu ini digunakan untuk mengedit
data atau menambahkan data baru pada
dataset aktif.
4. Kalkulator
Submenu
kalkulator
terdiri
atas
perhitungan aritmatika standar (+, -, *, /,
^), operator perbandingan (>, =,