Analysis Of Variance (ANOVA) Untuk Cluster Sampling
Oleh: Adhi Kurniawan
SEKOLAH TINGGI ILMU STATISTIK
› Anova Untuk Data Sampel Degree’s of Source
Sum of Square Mean Square Freedom Between
− 1
2
=
2
1 Cluster
= − − 1
=1 =1 Within
( − 1)
2
2
=
Cluster
= − ( − 1)
=1 =1
Total − 1
2
2
= 0 = − − 1
=1 =1
Dengan demikian, sample variance dapat dinyatakan dalam bentuk:
2
2 − 1 + − 1
1
2 =
› Koefisien korelasi intraklaster mengukur tingkat homogenitas di dalam klaster,
sehingga juga biasa disebut rate of homogenity (roh)
› Berdasarkan tabel Anova, ukuran koefisien korelasi intraklaster bisa diperoleh dengan
formula yang sederhana yaitu: = 1 − − 1 ∙› Karena 0 ≤ ≤ 1 maka nilai akan berada pada interval: −1
− 1 ≤ ≤ 1
2
2
2 › Jika elemen di dalam cluster homogen sempurna maka = 1, = 0, =
1 −1
2
2
2 › Jika elemen di dalam cluster heterogen sempurna maka = , = , = 0
1 −1
› Contoh soal 1: Diketahui suatu akademi memiliki 24 kelas yang masing-masing kelas
terdiri dari 8 mahasiswa. Untuk memperkirakan jumlah buku statistik yang dimiliki oleh mahasiswa, dilakukan pengambilan sampel secara SRS WOR sebanyak 4 kelas, kemudian dilakukan wawancara terhadap semua mahasiswa yang berada pada kelas terpilih. Data yang diperoleh:6
1
5
2
9
2
4
6
2
8
3
4
7
4
7
4
8
8
2
4
5
9
8
Dari data tersebut, buatlah tabel annova dan hitung koefisien korelasi intraklasternya !
6
Mahasiswa ( )
Kelas ( )
1
2
3
4
1
3
7
8
4
2
1
2
1
4
3
6
4
2
8
8 Mahasiswa ( )
Kelas ( )
1 .
−
1 ( − 1) .
=
2
=
=1
=
= =
Rata-rata
5
4
2
8
8
2 =1
1 =
7
=1
=1
=
2
1
=
2
=
=1
2
−
1 − 1
=
2
1
4
4
1
8
3
4
1
2
1
2
6
4
7
3
1
4
3
2
6
2
7
2
3
6
8
2
6
4
9
8
2
5
1
9
4
8
4
8 Total .
Mahasiswa ( )
=
1 ( − 1) .
=
2
= 38
=1
1 .
8
2 =1
35
45
28
5
4
2
8
−
= 64,667 =
Kelas ( )
=1
=1 Rata2 buku per mahasiswa Rata2 buku per kelas
= 6,70375
2
1
=
2
1,0104
=
1 = 4,75
2
−
1 − 1
=
2
1
=1
8
4
7
8
3
4
1
2
1
2
6
4
7
3
1
4
3
2
1
6
2
4
8
7
3
6
8
2
6
4
2
9
2
5
1
9
4
8
4
8 Total .
44 Rata-rata 3,5 5,625 4,375 5,5 5,71 5,98 7,125
Source dof Sum of Square Mean Square Between Cluster
− 1 2 2 =
1 = − − 1
=1 =1 Within Cluster
( − 1)
2
2 = = −
( − 1) =1 =1
2
Total − 1
2 = = −
− 1 =1 =1
= 1 − − 1 ∙ =
Source dof Sum of Square Mean Square Between Cluster
− 1 = − 2 =1 =1
1
2 = − 1
Within Cluster ( − 1) = −
2 =1 =1
2 = ( − 1)
Total − 1 = −
2 =1 =1
2 = − 1
Source dof Sum of Square Mean Square Between Cluster 3 24,2496 8,0832 Within Cluster
28 187,7050 6,7038 Total 31 211,9546 6,8372
= 1 − − 1 ∙ = 1 −
8 8 − 1 × 187,705
211,9546 = −0,0121
› Unbiased sampling varians: 1 − − 1
2 = ∙ 1 + ( − 1) − 1 ∙
1 − − 1
2 = = ∙ 1 + ( − 1)
2
2 − 1 ∙ 1 −
2 Untuk n besar → ≅ 1 + ( − 1)
∙
1 Rata − rata per cluster (kelas) → = = 38 .
=1 1 − 4 1 − − 1
31
2
24 = ∙ 1 + − 1 = ∙ − 1 ∙ 4 3 ∙ 6,8372 ∙ 1 + 7 ∙ −0,0121 = 13,4723
1 Rata − rata per elemen (mahasiswa) → = = 4,75
=1 1 − 4 1 − − 1
31
2
24 1 = = ∙ 1 + − 1 = ∙
2
2
2 − 1 ∙ 4 ∙ 8 3 ∙ 6,8372 ∙ 1 + 7 ∙ −0,0121 = 0,2105 = 0,2105 = 0,4588
1 − 4 1 −
2
24 2 ≅ 1 + − 1 = ∙ 4 ∙ 8 ∙ 6,8372 ∙ 1 + 7 ∙ −0,0121 = 0,1629
Design Effect
Design Effect pada cluster sampling merupakanperbandingan antara varians
suatu cluster sampling dengan varians sampel acak sederhana (SRS).1 −
2
2
1 ( )
1 = = =
2 1 − ( )
2 ( − ) = ( − ) + ( − ) Untuk n besar maka: ≅ + ( − )
Nilai deff untuk contoh soal 1:
( − 1) =
( − 1) 1 + ( − 1)
31 = 8 × 3 1 + 7 ∙ −0,0121 = 1,182
Ilustrasi
Sebanyak 20 kotak yang masing- masing berisi 5 buah bola diambil sampel sebanyak 4 kotak secara acak. Bola-bola yang terdapat di dalam kotak terdiri dari 2 warna yaitu putih dan hitam. Perkirakan
Jumlah bola hitam
proporsi bola bewarna hitam beserta
= = = =
variansnya ! Dari keterangan di atas:
= 20, = 4, = 5
Proporsi bola hitam = = = =
Estimasi proporsi
= =
bola hitam
= , + + + ×
=
− − −
Sampling variance
= = − = × , = , ( − )
2
- = −
=1 =1
2
2
- = − 1
1 = + Keterangan:
2 › =
2 › = − 1
1 › = Koefisien korelasi intraklaster: = 1 − − 1 ∙ Design effect:
( − 1) = ( − 1) 1 + ( − 1)
Sebanyak 384 rumah tangga dikelompokkan menjadi 48 cluster dengan muatan rumah
tangga untuk setiap cluster sama. Kemudian diambil sampel secara acak sebanyak 5
cluster dan dilakukan wawancara terhadap semua rumah tangga pada cluster terpilih.
2
5
4
5
1
3
5
3
2
6
5
2
4
2
2
7
3
1
3
3
1 Keterangan kode: 1: Tidak tamat SD/sederajat 2: Tamat SD/sederajat 3: Tamat SMP/sederajat 4: Tamat SMA/SMK/sederajat 5: Tamat Perguruan Tinggi
a. Perkirakan proporsi KRT yang pendidikannya SMP ke atas, lengkapi dengan standar error, RSE, dan 95%-CI !
b. Hitung koefisien korelasi intracluster dan
2
4
Dari hasil wawancara, diperoleh data pendidikan tertinggi yang ditamatkan oleh KRT
sebagai berikut: Ruta Cluster5
1
2
3
4
5
1
2
2
1
2
2
4
3
4
2
3
1
3
1
5
4
4
3
design effect-nya ! Penyelesaian Cluster Ruta
Total
1
1
2
3
4
5
= =
=1
1
2
2
= − =
1
( − 1)
=1
1 −
2
2
= =
=
1
=
1
2
2
= =
=1
2
= =
2
= − 1 =
1
= + = = 1 −
− 1 ∙ = ( − 1) Penyelesaian Ruta Cluster Total
1
=1
= 0,01094 = 1 −
2 =1
−
1 ( − 1)
=
2
1
21 40 = 0,525
2
1 5 × 21 8 =
1 =
=
64
77
64
15
1
= 1 − 5
15
=
8 8 − 1 × 9,625
− 1 ∙ = 1 −
= 8 × 5 − 1 × 0,01094 = 0,35008 = + = 9,625 + 0,35008 = 9,97508 = 1 −
2
1
= 5 × 8 × 0,240625 = 9,625 = − 1
2
=1
48
1 5 × 77 64 = 0,240625
=
2
1
=
2
= 0,00196 = 0,04427
5 × 0,01094 = 0,00196
64
64
2
4
8
5
8
4
8
5
8
21
8
3
5
4
5
4
5
4
3
3
21
16
8
64
15
64
16
2 =
8
19
5
8
8
3
8
4
8
3
8
4
9,97508 = −0,10275 ( − 1) 5 × 8 − 1
Data Awal Lay Out data untuk Stata
id_kelas id_mahasiswa buku3
4
8
4
8
2
4
6
4
1
1
2
1
2
8
6
7
3
9
5
4
4
5
4
2
8
8
4
7
7
2
3
6
8
2
6
4
2
9
1
3
1
4
2
6
1
2
5
1
8
1
7
6
3
1
1
2
1
3
1
1
4
2
3
1
( )
( ) Kelas
4 dst dst dst Mahasiswa
4
2
4
2
1
2
2
2
7
1
2
2
8
8
use " A:\Bahan Ajar MPC \ contoh soal 1.dta “ gen N=24 nama file gen weight=24/4 nama direktori svyset id_kelas [pweight= weight ], fpc( N ) vce(linearized) cluster pweight : weight
Sampling weight=N/n
VCE : linearized Single unit : missing jumlah populasi
Strata 1 : <one> SU 1 : id_kelas FPC 1 : N svy linearized : mean buku
Koefisien korelasi intraklaster:
(running mean on estimation sample) Survey: Mean estimation
( − 1)
Number of strata = 1 Number of obs = 32
− 1 × − 1
Number of PSUs = 4 Population size = 192
=
Design df = 3 − 1 Linearized
8(4 − 1)
Mean Std. Err. [95% Conf. Interval]
4 × 8 − 1 × 1.182 − 1 = 8 − 1
buku 4.75 .4588066 3.289873 6.210127 estat effect
= −0,0121
Linearized
Koefisien korelasi intraklaster yang
Mean Std. Err. DEFF DEFT
bernilai kecil ini mengindikasikan
buku 4.75 .4588066 1.182 .99247
bahwa unit-unit di dalam klaster
oneway buku id_kelas
Analysis of Variance Source SS df MS F Prob > F Between groups 24.25 3 8.08333333 1.21 0.3259 Within groups 187.75 28 6.70535714 Total 212 31 6.83870968
Koefisien korelasi intraklaster: = 1 −
− 1 × = 1 −
8 8 − 1 × 187,75
212 = −0,0121
Koefisien korelasi intraklaster yang bernilai kecil ini mengindikasikan bahwa unit-unit di dalam klaster heterogen
use " A:\Bahan Ajar MPC \ contoh soal 1.dta “ gen N=24 nama file gen weight=24/4 nama direktori svyset id_kelas [pweight= weight ], fpc( N ) vce(linearized) cluster pweight : weight
VCE : linearized Sampling weight=N/n
Single unit : missing Strata 1 : <one> jumlah populasi
SU 1 : id_kelas FPC 1 : N svy linearized : total buku (running total on estimation sample)
Koefisien korelasi intraklaster:
Survey: Total estimation Number of strata = 1 Number of obs = 32
( − 1)
Number of PSUs = 4 Population size = 192
− 1 × − 1
Design df = 3
=
Linearized
− 1
Total Std. Err. [95% Conf. Interval]
8(4 − 1) 4 × 8 − 1 × 1.182 − 1
buku 912 88.09086 631.6556 1192.344
= 8 − 1
Estat effect
= −0,0121 Koefisien korelasi intraklaster yang
Linearized Total Std. Err. DEFF DEFT
bernilai kecil ini mengindikasikan bahwa unit-unit di dalam klaster
buku 912 88.09086 1.182 .99247
use " A:\Bahan Ajar MPC \ contoh soal 1.dta
“
gen N=24 nama file gen weight=24/4 nama direktori collapse (sum) buku (mean) weight (mean) N (max) id_mahasiswa, by(id_kelas) svyset id_kelas [pweight= weight ], fpc( N ) vce(linearized) cluster Sampling weight=N/n pweight : weightVCE : linearized jumlah populasi
Single unit : missing Strata 1 : <one> SU 1 : id_kelas FPC 1 : N svy linearized : mean buku (running mean on estimation sample) Survey: Mean estimation Number of strata = 1 Number of obs = 4 Number of PSUs = 4 Population size = 24 Design df = 3 Linearized
Mean Std. Err. [95% Conf. Interval]
use " A:\Bahan Ajar MPC \ contoh soal 2.dta “ gen N=48 nama file gen weight=48/5 nama direktori gen pendidikan_krt2 =0 replace pendidikan_krt2 =1 if pendidikan_krt >2 svyset id_cluster [pweight= weight ], fpc( N ) vce(linearized) cluster sampling weight=N/n
pweight : weight
VCE : linearized
jumlah populasi
Single unit : missing Strata 1 : <one> SU 1 : id_cluster FPC 1 : N
svy linearized : proportion pendidikan_krt2
(running proportion on estimation sample) Survey: Proportion estimation Number of strata = 1 Number of obs = 40 Number of PSUs = 5 Population size = 384
Design df = 4 Linearized Proportion Std. Err. [95% Conf. Interval] Pendidikan_krt2 .475 .0467707 .3451437 .6048563
1 .525 .0467707 .3951437 .6548563 estat effect Linearized Proportion Std. Err. DEFF DEFT Pendidikan_krt2 .475 .0467707 .342105 .584898
1 .525 .0467707 .342105 .584898
Koefisien korelasi intraklaster: =
( − 1) − 1 × − 1
− 1 =
8(5 − 1) 5 × 8 − 1 × 0,342105 − 1 8 − 1
= −0,10275 Koefisien korelasi intraklaster yang bernilai kecil ini mengindikasikan bahwa unit-unit di dalam klaster heterogen Suatu kebun apel terdiri dari 270 petak yang masing-masing petak memuat 4 pohon apel. Suatu random sampel sebanyak 12 petak dipilih secara SRS WOR, kemudian dilakukan pengukuran terhadap berat semua buah apel (kg) yang dihasilkan oleh tiap pohon di petak terpilih.
Petak Pohon
1
2
3
4 1 5,53 4,84 0,69 15,79 2 26,11 10,93 10,08 11,18 3 11,08 0,65 4,21 7,56 4 12,66 32,52 16,92 37,02 5 0,87 3,56 4,81 27,54 6 6,40 11,68 40,05 5,12 7 54,21 34,63 52,55 37,20 8 1,24 35,97 29,54 25,28 9 37,94 47,07 19,64 28,11
10 25,52 38,10 26,24 6,77 11 45,98 5,17 24,74 1,90
a. Buatlah tabel annova-nya! b. Hitung koefisien korelasi intraklaster.
c. Perkirakan rata-rata berat apel tiap pohon beserta standar error, RSE, dan 95%CI-nya!.
Hitung design effect-nya !
d. Perkirakan rata-rata berat apel tiap petak beserta standar error, dan RSE, dan 95%CI-nya! e. Perkirakan berat total apel di kebun tersebut beserta standar error, RSE, dan 95%CI-nya ! f. Perkirakan proporsi dan total pohon yang
berat produksi apelnya lebih dari rata-rata berat produksi apel tiap pohon di kebun
tersebut. Lengkapi dengan nilai standar error, dan RSE, dan 95%CI-nya!. Hitung koefisien korelasi intraklaster dan design effect-nya!
g. Interpretasikan hasil yang diperoleh !
TERIMA KASIH
Have A Nice Sampling