52
BAB IV APLIKASI MODEL
4.1 Aplikasi Pada Regresi Sederhana
Data yang digunakan adalah data perusahaan asuransi pensiunan Belanda dari 18 cabang perusahaan. Data ini terdiri dari data yaitu: pendapatan premi yang
merupakan variabel independen dan premi cadangan yang merupakan variabel dependen.[3]
Data terlampir pada lampiran I.
4.1.1 Pemeriksaan Outlier
Sebelum menganalisis menggunkan regresi akan diperiksa terlebih dahulu apakah dalam data tersebut terdapat outlier pada arah-y atau arah-x atau ada pada
keduanya.
a. Pemeriksaan Leverage
Leverage disebabkan adanya data outlier pada arah-x, deteksi yang digunakan adalah dengan melihat nilai h
ii
dan dengan membandingkan nilai centroidnya. Data yang lebih besar dari nilai centroid mean variabel independen dan nilai h
ii
yang melebihi nilai cutoff
3 1
k n
dengan k merupakan banyaknya variabel
independen dan n adalah banyaknya data, digolongkan sebagai data yang tidak biasa outlier. Mean dari data dana pensiun adalah 176.0222, dan nilai cutoff dari
nilai h adalah 0.33. untuk data dana pensiun didapatkan lima data pertama dari nilai centroid dan nilai-nilai h-nya ditabelkan pada 4.2, sebagian data lainnya
dilampirkan.
53
Tabel 4.2 pemeriksaan data outlier pada dana pensiun untuk 18 cabang pada
arah-x
Untuk menentukan mana yang menjadi nilai leverage akan dihipotesisikan bahwa
H
: ℎ
i
≤ ,
� � �
H
1
: ℎ
�
, �
� �
Dari perhitungan didapatkan bahwa data ke-18 mempunyai h
18
yaitu 0.873729, melebihi nilai cutoff-nya yaitu 0.33. oleh karena itu, H
ditolak utnuk data ke-18, artinya data ke-18 merupakan outlier. sedangkan untuk sisa data yang
lain nilai dari h
i
kurang dari nilai cutoff yang ditentukan. Pemeriksaan data outlier dengan penntuan nilai h
i
dilampirkan. Untuk lebih jelasnya disajikan gambar 4.1, yang menyajikan leverage dan variabel independen
No x y
centroid h
ii
cutoff
1. 10.4 272.2 176.02
0.070383 0.33 2.
15.6 212.9 176.02 0.069467 0.33
3. 16.2 120.7 176.02
0.069363 0.33 4.
17.9 163.6 176.02 0.069071 0.33
5. 37.8 226.1 176.02
0.065883 0.33
x
le v
e ra
g e
1400 1200
1000 800
600 400
200 0.9
0.8 0.7
0.6 0.5
0.4 0.3
0.2 0.1
0.0
inde x plot le ve rage Vs . data inde pe nde n
Gambar 4.1 indeks plot leverage Vs. data variabel
54
b. Pemeriksaan Outlier pada Arah-y Nilai Discrepancy
Nilai discrepancy merupakan jarak antara nilai prediksi dengan nilai observasi variabel dependen, yaitu
ˆ
i i
Y Y
, yang merupakan nilai dari residual,
i
e . nilai yang menjadi outlier menyebabkan nilai residual menjadi besar dan tidak jatuh pada garis regresi. Nilai discrepancy penghitungannya dengan menggunakan
dua metode yaitu Internally Studentized Residuals dan Externally Studentized Residuals. Pemeriksaan data outlier pada arah-y pada tugas akhir ini hanya akan
digunakan dengan metode Externally Studentized Residuals t
i
. Penentuan nilai outlier berdasarkan nilai Externally studentized residuals berdasarkan Penentuan
nilai cutoff –nya yang mengikuti distribusi t dengan
1. df
n k
jika nilai
i
t lebih besar dari nilai
tabel
t dengan derajat kepercayaan
� 2 , maka data tersebut
memiliki nilai discrepancy yang besar dan dikategorikan sebagai outlier. Dan diberikan hipotesis:H
: −
≤
�
≤ ,
�晦� � �
H
1
:
� �
�㡣
, �〰� �
� �
Untuk data dana pensiun di atas Penentuan nilai outlier berdasarkan nilai Externally studentized residuals, dengan nilai t
tabel
= 2.120 pada � 2
= 0.05 2 = 0.025
disajikan lima data pertama dalam table 4.3, untuk data yang lainnya dilampirkan.
Tabel 4.3 pemeriksaan data outlier pada dana pensiun untuk 18 cabang pada
arah-y
No x y
Externally studentized residuals t
i
t
0.025,16
Jenis data 1.
10.4 272.2 -0.52552 2.120
Bukan 2.
15.6 212.9 -0.63674 2.120
Bukan 3.
16.2 120.7 -0.76284 2.120
Bukan 4.
17.9 163.6 -0.71694 2.120
Bukan 5.
37.8 226.1 -0.76536 2.120
Bukan
55 Dari tabel 4.3 di atas nilai Externally studentized residuals yang lebih dari
ttabel adalah data ke-15 dan data ke-18 dengan masing-masing nilai Externally studentized residuals adalah 3,058 dan -4,90717. Oleh karena itu, H
pada kedua data ini ditolak artinya kedua data tersebut merupakan outlier.
Deteksi outlier yang selanjutnya adalah dengan melihat nilai dari jarak Cook’s dan DFFITS kependekan dari difference in fit standardized, yang
digunkan untuk mendeteksi adanya outlier yang menjadi nilai influence. Ukuran dari influence merupakan kombinasi dari ukuran leverage dan discrepancy yang
menginformasikan mengenai bagaimana perubahan dari persamaan regresi jika kasus ke-i dihilangkan dari himpunan data. Penentuan nilai DFFITS dan
Cook’s. Jika nilai DFFITS dan
Cook’s
1
atau -1 maka dikategorikan sebagai outlier. Pendeteksian outlier dengan DFFITS dan
Cook’s menghasilkan data ke-18 sebagai outlier ke-18 sebagai outlier dengan nilai DFFITS = -12.9082 yang
kurang dari nilai cutoff , -1, dan Cook’s distance = 34.1087 yang lebih dari nilai
cutoff, 1, untuk pendeteksian data yang lainnya terlampir. Dari pendeteksian leverage, nilai discrepancy, nilai DFFITS dan
Cook’s didapatkan data outlier yaitu: data ke-15 yang merupakan outlier pada arah-y dan
data ke-18 yang merupakan nilai leverage dan yang meberikan nilai influence terhadap model regresi.
4.1.2 Analisis Regresi a. Metode
Least Square
Penerapan metode least square pada data dana pensiun dari perusahan asuransi Belanda di atas menghasilkan persamaan model:
ˆ = 632.301 + 5.018 y
x
4.1
56
RESI1 P
e rc
e n
t
2000 1000
-1000 -2000
99 95
90 80
70 60
50 40
30 20
10 5
1 Mean
0.010 -5.05275E-13
StDev 771.3
N 18
KS 0.241
P-Value
Probability Plot of RESI1
Normal
Gambar 4.3 Distribusi Normal dari Residual Data Dana Pensiunan
x
y
1400 1200
1000 800
600 400
200 8000
7000 6000
5000 4000
3000 2000
1000
18 17
16 15
14 13
12 11
10 9
8 7
6 5
4 3
2 1
Scatterplot of y vs x
Persamaan 4.1 dapat digambarkan sebagai berikut:
Garis least square dari data dana pensiunan sangat dipengaruhi oleh data ke- 18, seperti dapat dilihat pada gambar 4.2 di atas, garis LS tidak melwati
sebagian besar data, tetapi, lebih menuju ke data18. Dan nilai estimasi skala residual yang menunjukkan ke-fit-an garis LS terhadap data sebesar 795,1.
Dengan metode LS variabel independen dapat menjelaskan variabel dependen koefisien R sebesar 82,16. Akan tetapi, persamaan 4.1 tidak memenuhi
asumsi dari metode LS yaitu asumsi kenormalan residual, seperti dapat dilihat pada gambar berikut ini:
Gambar 4.2 Scatterplot dan Garis Least Square dari Data Dana Pension
57
200 400
600 800
1000 1200
1400 x
4000 8000
12000
y
Gambar 4.4 Garis LTS untuk Data Dana Pensiunan
Distribusi dari residual data pensiunan tidak memenuhi asumsi kenormalan. Hal ini dapat ditunjukkan dengan gambar 4.3 dan dengan uji kenormalan
kolomorgov-semirnov, nilai dari P-value bahwa data normal hanya 0.001, kurang dari tingkat siginfikansi
= 0.05. oleh karena itu, persamaan tersebut tidak dapat digunakan untuk analisis regresi dari data dana pensiunan dari ke-18 cabang
perusahaan asuransi Belanda.
b. metode Least Trimmed Square LTS
Analisis regresi untuk data dana pensiunan karena tidak dapat menggunakan metode LS, maka akan digunakan metode lain yang Robust terhadao kehadiran
outlier yaitu data ke-15 dan data ke-18. Persamaan model yang didapatkan dari metode LTS adalah:
ˆ =181.6062+8.9183 y
x
4.2 Persamaan dari 4.2 dapat digambarkan sebagai berikut:
58 Dari gambar 4.4 di atas garis LTS melewati keabanyakan titik data dan
mengabaikan pengaruh dari titik ke-18. Persamaan 4.2 jika dibandingkan dengan persamaan 4.1 maka, pada persamaan 4.2
atau intercept-nya adalah 181,6062, sedangkan pada persamaan 4.1 nilainya adalah 632,301. Sangat besar
sekali, karena pada persamaan 4.1 sangat dipengaruhi oleh outlier, sedangkan pada 4.2 tidak terpengaruh. Untuk persamaan 4.2 nilai koefisien,
1
ˆ , adalah 8,9183, sedangkan pada persamaan 4.1 adalah 5,018. Dengan metode LTS nilai
koefisien R-square adalah 90,37 lebih besar dari R-square dengan menggunakan metode LS. Dan nilai estimasi skala residual dari LTS adalah
354,2, nilai yang sangat kecil jika dibandingkan dengan estimasi skala yang dihasilka oleh metode LS. Tidak seperti metode LS yang harus memenuhi
beberapa asumsi, metode LTS tidak perlu memenuhi asumsi seperti asumsi pada metode LS. metode LTS memilik breakdown point yang tinggi, yaitu 50, artinya
persamaan 4.2 tetap akan memberikan kecocokan data yang tepat walupun data outliernya hampir setengahnya dari keseluruhan data.
c. Metode MM-Estimasi