Korelasi Bivariat dan Regresi Linier Sederhana
Korelasi Bivariat dan Regresi Linier Sederhana
Pendahuluan
Dalam suatu observasi, kita sering kali mencatat dua atau
lebih variabel dalam suatu individu, misalkan: dari 1 orang
dicatat data tinggi dan berat badannya. Tinggi dan berat
badan merupakan variabel.- Data yang memiliki dua variabel disebut data bivariat, data yang memiliki lebih dari dua variabel disebut data multivariat.
- Tujuan kita mengumpulkan data bivariat yaitu untuk menjawab:
- – Apakah kedua variabel tersebut terkait?
- – Relasi seperti apa yang diindikasikan oleh data?
- – Dapatkah kita mengukur kekuatan relasi antara variabel tersebut?
- – Dapatkah kita memprediksi nilai satu variabel menggunakan variabel yang lain?
- Data kategorik/data kualitatif: data yang biasanya bukan dalam bentuk angka.
Data bivariat kategorik: data kualitatif yang memiliki 2 variabel.
- Setelah melakukan pencatatan pada data kategorik, hal yang kemudian dilakukan adalah merangkum data tersebut.
- Rangkuman data kategorik biasanya disebut data tertabulasi
atau data terklasifikasi silang. Dalam statistik disebut juga tabel
kontingensi.
Contoh:
Gender Aktifitas Media Sosial Jumlah Tweeting No Tweeting
Laki-laki 120 75 195 Perempuan 155 90 245
275 165 440 Diagram Scatter untuk data bivariate kuantitatif
- Data kuantitatif: data dalam bentuk numerik/angka.
- Data bivariate kuantitatif: data kuantitatif yang memiliki 2 variabel.
Misalkan: kita memiliki 2 variabel, namakan variabel x dan
y. Kedua variabel tersebut kita pasangkan menjadi (x,y).
Jika data tercatat sebanyak n kali, maka kita memiliki n pasangan (x,y): (x ,y ), (x ,y ,y ) ), …, (x
1
1
2 2 n n
Sebanyak n pasangan (x,y) digambarkan sebagai titik di
dalam diagram.- Diagram tersebut dinamakan diagram scatter atau plot scatter.
- Dengan melihat diagram scatter, relasi antara kedua
variabel dapat dinilai secara visual. Singkatnya, kita dapat
mengobservasi apakah titik-titik dalam plot berkumpul membentuk garis atau kurva atau tidak berpola.
Contoh:
- Variabel x: skor GPA (Grade Point Average)
- Variabel y: skor GMAT (Graduate Mangement Aptitute Test)
- Solusi: Dari diagram plot terlihat titik-titik membentuk pola dari barat daya ke timur laut mengindikasikan relasi yang
positif antara x dan y. Demikian sehingga, seseorang
yang memiliki GPA yang tinggi, juga memiliki skor GMAT yang tinggi. Koefisien Korelasi
- Koefisien korelasi (dinotasikan dengan r) adalah ukuran kekuatan dari relasi linier antara variabel x dan y.
- Sifat dari koefisien korelasi:
1 Nilai r berada diantara -1 dan 1:
- – 1 r
- – Nilai r dekat dengan 0, menunjukkan relasi yang lemah.
- – Nilai r dekat dengan 1 atau -1, menunjukkan relasi yang kuat.
- – Besarnya r mengindikasikan kekuatan relasi linier,
dimana tandanya menunjukkan arah. Secara spesifik
sebagai berikut: r>0 jika pola nilai (x,y) terkumpul dari kiri bawah ke kanan
atas.
- r<0 jika pola nilai (x,y) terkumpul dari kiri atas ke kanan bawah.
- r=1 jika semua nilai (x,y) terbentang membentuk garis lurus dengan kemiringan positif (relasi positif linier sempurna)
- r=-1 jika semua nilai (x,y) terbentang membentuk garis lurus dengan kemiringan negatif (relasi negatif linier sempurna)
Contoh:
Menghitung koefisien korelasi
Dimana
- Rumus menghitung r:
S x x y y xy
S
xy
2 r
S x x xx
S S
xx yy
2 S y y yy n xy x y
2
2
2
2
n x x n y y
- Korelasi pada populasi dinotasikan: ρ
- Estimasi korelasi dinotasikan: r, disebut koefisien korelasi product-moment Pearson atau hanya koefisien korelasi.
Contoh: Koefisien Korelasi No y x xy y^2 x^2
49 15 735 2401 225
82 4 328 6724
16
10
67 6 402 4489
36
11
56 12 672 3136 144
12
13
36
69 10 690 4761 100
14
72 8 576 5184
64
15
91 3 273 8281
9
1027 122 7381 75291 1226 y: Nilai UTS mata kuliah Statistika Komunikasi x: banyaknya update sosmed dalam 1 hari
9
81 6 486 6561
1
23 17 391 529 289
45 10 450 2025 100
2
67 9 603 4489
81
3
89 6 534 7921
36
4
5
8
69 7 483 4761
49
6
90 5 450 8100
25
7
77 4 308 5929
16
Bany a k n y a Up d a te S o s med Nilai UTS Statistika Komunikasi Diagram Scatter Nilai UTS Statistika Komunikasi dengan Banyaknya Update Sosmed
- Nilai koefisien korelasi product-moment Pearsonnya:
n xy x y r
2
2
2
2
n x x n y y
15 7381 1027 122
2
2
15 75291 1027 15 1226 122 0.90125
Latihan
- Browsing data dengan 2 variabel atau buatlah data fiksi dengan 2 variabel. (Banyak data, minimal n=10)
- Gambarkan diagram scatternya.
- Hitung koefisien korelasinya.
Regresi Linier Sederhana
- Setelah kita menemukan pola linier (garis) dalam diagram scatter, dan korelasi diantara dua variabel cukup kuat, kita dapat menentukan suatu persamaan yang memungkinkan kita untuk memprediksi nilai satu variabel menggunakan variabel yang lain.
- Persamaan ini disebut dengan regresi linier sederhana.
Menentukan variabel
Manakah yang menjadi X dan manakah yang menjadi Y?
- Ketika kita menentukan koefisien korelasi, pilihan untuk menentukan yang manakah variabel X dan yang manakah
variabel Y,tidak menjadi masalah. Akan tetapi lain halnya
ketika kita ingin membuat prediksi. - Dalam statistik:
- – Variabel X disebut variabel bebas /independen atau variabel penjelas.
- –
Variabel Y disebut variabel terikat /dependen atau variabel
respon Sebelum kita menentukan garis regresi, baiknya
melakukan pengecekan terhadap kondisi berikut:
- – Diagram scatter-nya memiliki pola linier.
- – Koefisien korelasinya cukup kuat (diatas kurang lebih 0.60)
1
- Persamaan regresi linier sederhana:
y x
- Estimasi koefisien beta dalam regresi linier yaitu:
1 ˆy b b x Contoh:
Residual
Residual adalah error yang dari pendugaan oleh
persamaan regresi.
e y y ˆ i i i dimana
e: error y: nilai yang sebenarnya y(topi): nilai dugaan dari persamaan regresi.
Nilai estimasi koefisien persamaan regresi
- Persamaan regresi:
ˆy b b x
1
Estimasi koefisien b dan b persamaan regresi
1 yaitu: n xy x y
b
1
2
2
n x x
b y b x
1
- y: Nilai UTS mata kuliah Statistika Komunikasi
- x: banyaknya update sosmed dalam 1 hari
- Nilai koefisien:
64
67 6 402 4489
36
11
56 12 672 3136 144
12
49 15 735 2401 225
13
69 10 690 4761 100
14
72 8 576 5184
15
16
91 3 273 8281
9
1027 122 7381 75291 1226 bar 68.46667 8.133333
1
2
2
2
n xy x y b n x x 15 7381 1027 122
15 1226 122 4.1583 b 68.4667 ( 4.1823) 8.1333 102.2875
10
82 4 328 6724
Contoh:
23 17 391 529 289
No y x xy y^2 x^2
1
45 10 450 2025 100
2
67 9 603 4489
81
3
89 6 534 7921
36
4
5
9
69 7 483 4761
49
6
90 5 450 8100
25
7
77 4 308 5929
16
8
81 6 486 6561
36
- Persamaan regresinya:
9
1027 122 ˆy 102.2875 4.1583 (12) 52.3879
91 3 89.8126
15
72 8 69.0211
14
69 10 60.7045
13
49 15 39.913
12
56 12 52.3879
11
67 6 77.3377
10
82 4 85.6543
81 6 77.3377
ˆy 102.2875 4.1583x No y x y(topi)
4
1
45 10 60.7045
2
67 9 64.8628
3
89 6 77.3377
23 17 31.5964
8
5
69 7 73.1794
6
90 5 81.496
7
77 4 85.6543
- Ukuran baik atau buruknya suatu persamaan regresi, salah satunya dapat dilihat dari nilai rata-rata galat kuadratnya, yang disebut MSE (Mean Squared Error).
13
10
67 6 77.3377 -10.3377 106.868
11
56 12 52.3879 3.6121 13.04727
12
49 15 39.913 9.087 82.57357
69 10 60.7045 8.2955 68.81532
9
14
72 8 69.0211 2.9789 8.873845
15
91 3 89.8126 1.1874 1.409919
1027 122 MSE 62.27619
2
1 MSE e n
82 4 85.6543 -3.6543 13.35391
81 6 77.3377 3.6623 13.41244
89 6 77.3377 11.6623 136.0092
Mean Squared Error
No y x y(topi) error e^2
1
45 10 60.7045 -15.7045 246.6313
2
67 9 64.8628 2.1372 4.567624
3
4
8
23 17 31.5964 -8.5964 73.89809
5
69 7 73.1794 -4.1794 17.46738
6
90 5 81.496 8.504 72.31802
7
77 4 85.6543 -8.6543 74.89691
- Semakin kecil nilai MSE-nya, maka persamaan regresi tersebut baik.
Latihan
- Menggunakan data pada latihan sebelumnya (menghitung koefisien korelasi), tentukan persamaan regresi dari data tersebut.
- Hitunglah error dan MSE-nya