Korelasi Bivariat dan Regresi Linier Sederhana

  Korelasi Bivariat dan Regresi Linier Sederhana

Pendahuluan

  • Dalam suatu observasi, kita sering kali mencatat dua atau

    lebih variabel dalam suatu individu, misalkan: dari 1 orang

    dicatat data tinggi dan berat badannya. Tinggi dan berat

    badan merupakan variabel.
  • Data yang memiliki dua variabel disebut data bivariat, data yang memiliki lebih dari dua variabel disebut data multivariat.
  • Tujuan kita mengumpulkan data bivariat yaitu untuk menjawab:

  • – Apakah kedua variabel tersebut terkait?
  • – Relasi seperti apa yang diindikasikan oleh data?
  • – Dapatkah kita mengukur kekuatan relasi antara variabel tersebut?
  • – Dapatkah kita memprediksi nilai satu variabel menggunakan variabel yang lain?
Rangkuman dari data bivariat kategorik

  • Data kategorik/data kualitatif: data yang biasanya bukan dalam bentuk angka.
  • Data bivariat kategorik: data kualitatif yang memiliki 2 variabel.

  • Setelah melakukan pencatatan pada data kategorik, hal yang kemudian dilakukan adalah merangkum data tersebut.
  • Rangkuman data kategorik biasanya disebut data tertabulasi

    atau data terklasifikasi silang. Dalam statistik disebut juga tabel

    kontingensi.

  Contoh:

Gender Aktifitas Media Sosial Jumlah Tweeting No Tweeting

  Laki-laki 120 75 195 Perempuan 155 90 245

  275 165 440 Diagram Scatter untuk data bivariate kuantitatif

  • Data kuantitatif: data dalam bentuk numerik/angka.
  • Data bivariate kuantitatif: data kuantitatif yang memiliki 2 variabel.
  • Misalkan: kita memiliki 2 variabel, namakan variabel x dan

    y. Kedua variabel tersebut kita pasangkan menjadi (x,y).

    Jika data tercatat sebanyak n kali, maka kita memiliki n pasangan (x,y): (x ,y ), (x ,y ,y ) ), …, (x

  1

  1

  2 2 n n

  • Sebanyak n pasangan (x,y) digambarkan sebagai titik di

    dalam diagram.
  • Diagram tersebut dinamakan diagram scatter atau plot scatter.
  • Dengan melihat diagram scatter, relasi antara kedua

    variabel dapat dinilai secara visual. Singkatnya, kita dapat

    mengobservasi apakah titik-titik dalam plot berkumpul membentuk garis atau kurva atau tidak berpola.

Contoh:

  • Variabel x: skor GPA (Grade Point Average)
  • Variabel y: skor GMAT (Graduate Mangement Aptitute Test)
  • Solusi: Dari diagram plot terlihat titik-titik membentuk pola dari barat daya ke timur laut mengindikasikan relasi yang

  positif antara x dan y. Demikian sehingga, seseorang

yang memiliki GPA yang tinggi, juga memiliki skor GMAT yang tinggi. Koefisien Korelasi

  • Koefisien korelasi (dinotasikan dengan r) adalah ukuran kekuatan dari relasi linier antara variabel x dan y.
  • Sifat dari koefisien korelasi:

    

  1 Nilai r berada diantara -1 dan 1:

  • – 1 r
  • – Nilai r dekat dengan 0, menunjukkan relasi yang lemah.
  • – Nilai r dekat dengan 1 atau -1, menunjukkan relasi yang kuat.
  • – Besarnya r mengindikasikan kekuatan relasi linier,

    dimana tandanya menunjukkan arah. Secara spesifik

    sebagai berikut:
  • r>0 jika pola nilai (x,y) terkumpul dari kiri bawah ke kanan

    atas.

  • r<0 jika pola nilai (x,y) terkumpul dari kiri atas ke kanan bawah.
  • r=1 jika semua nilai (x,y) terbentang membentuk garis lurus dengan kemiringan positif (relasi positif linier sempurna)
  • r=-1 jika semua nilai (x,y) terbentang membentuk garis lurus dengan kemiringan negatif (relasi negatif linier sempurna)

  Contoh:

  Menghitung koefisien korelasi

Dimana

  • Rumus menghitung r:

  S  x  x y  y xy   

   S

  xy

  2 r 

  S x x   xx  

   S S

  xx yy

  2 S  y  y yy    n xy x y  

     

  2

  2

  2

  2

  n x  x  n y  y    

     

  • Korelasi pada populasi dinotasikan: ρ
  • Estimasi korelasi dinotasikan: r, disebut koefisien korelasi product-moment Pearson atau hanya koefisien korelasi.

  Contoh: Koefisien Korelasi No y x xy y^2 x^2

  49 15 735 2401 225

  82 4 328 6724

  16

  10

  67 6 402 4489

  36

  11

  56 12 672 3136 144

  12

  13

  36

  69 10 690 4761 100

  14

  72 8 576 5184

  64

  15

  91 3 273 8281

  9

  1027 122 7381 75291 1226 y: Nilai UTS mata kuliah Statistika Komunikasi x: banyaknya update sosmed dalam 1 hari

  9

  81 6 486 6561

  1

  23 17 391 529 289

  45 10 450 2025 100

  2

  67 9 603 4489

  81

  3

  89 6 534 7921

  36

  4

  5

  8

  69 7 483 4761

  49

  6

  90 5 450 8100

  25

  7

  77 4 308 5929

  16

  Bany a k n y a Up d a te S o s med Nilai UTS Statistika Komunikasi Diagram Scatter Nilai UTS Statistika Komunikasi dengan Banyaknya Update Sosmed

  • Nilai koefisien korelasi product-moment Pearsonnya:

  n xy  x  y    r 

  2

  2

  2

  2

  n x  x  n y  y    

      15 7381 1027 122    

  2

  2

  15 75291 1027 15 1226 122      0.90125  

Latihan

  • Browsing data dengan 2 variabel atau buatlah data fiksi dengan 2 variabel. (Banyak data, minimal n=10)
  • Gambarkan diagram scatternya.
  • Hitung koefisien korelasinya.

Regresi Linier Sederhana

  • Setelah kita menemukan pola linier (garis) dalam diagram scatter, dan korelasi diantara dua variabel cukup kuat, kita dapat menentukan suatu persamaan yang memungkinkan kita untuk memprediksi nilai satu variabel menggunakan variabel yang lain.
  • Persamaan ini disebut dengan regresi linier sederhana.

  Menentukan variabel

Manakah yang menjadi X dan manakah yang menjadi Y?

  • Ketika kita menentukan koefisien korelasi, pilihan untuk menentukan yang manakah variabel X dan yang manakah

    variabel Y,tidak menjadi masalah. Akan tetapi lain halnya

    ketika kita ingin membuat prediksi.
  • Dalam statistik:
    • – Variabel X disebut variabel bebas /independen atau variabel penjelas.
    • Variabel Y disebut variabel terikat /dependen atau variabel

      respon
    • Sebelum kita menentukan garis regresi, baiknya

      melakukan pengecekan terhadap kondisi berikut:

  • – Diagram scatter-nya memiliki pola linier.
  • – Koefisien korelasinya cukup kuat (diatas kurang lebih 0.60)
Persamaan regresi linier

  1

  • Persamaan regresi linier sederhana:

  y x   

  • Estimasi koefisien beta dalam regresi linier yaitu:

  1 ˆy b b x   Contoh:

  Residual

  • Residual adalah error yang dari pendugaan oleh

    persamaan regresi.

  e y y   ˆ i i i dimana

  e: error y: nilai yang sebenarnya y(topi): nilai dugaan dari persamaan regresi.

  Nilai estimasi koefisien persamaan regresi

  • Persamaan regresi:

    ˆy b b x

  1

  • Estimasi koefisien b dan b persamaan regresi

  1 yaitu: n xy  x  y

     b 

  1

  2

  2

  n x x   

    b y b x  

  1

  • y: Nilai UTS mata kuliah Statistika Komunikasi
  • x: banyaknya update sosmed dalam 1 hari
  • Nilai koefisien:

  64

  67 6 402 4489

  36

  11

  56 12 672 3136 144

  12

  49 15 735 2401 225

  13

  69 10 690 4761 100

  14

  72 8 576 5184

  15

  16

  91 3 273 8281

  9

  1027 122 7381 75291 1226 bar 68.46667 8.133333  

  1

  2

  2

  2

  n xy x y b n x x 15 7381 1027 122

  15 1226 122 4.1583 b 68.4667 ( 4.1823) 8.1333 102.2875

        

           

  10

  82 4 328 6724

  Contoh:

  23 17 391 529 289

  No y x xy y^2 x^2

  1

  45 10 450 2025 100

  2

  67 9 603 4489

  81

  3

  89 6 534 7921

  36

  4

  5

  9

  69 7 483 4761

  49

  6

  90 5 450 8100

  25

  7

  77 4 308 5929

  16

  8

  81 6 486 6561

  36

      

  • Persamaan regresinya:

  9

  1027 122 ˆy 102.2875 4.1583 (12) 52.3879

  91 3 89.8126

  15

  72 8 69.0211

  14

  69 10 60.7045

  13

  49 15 39.913

  12

  56 12 52.3879

  11

  67 6 77.3377

  10

  82 4 85.6543

  81 6 77.3377

  ˆy 102.2875 4.1583x   No y x y(topi)

  4

  1

  45 10 60.7045

  2

  67 9 64.8628

  3

  89 6 77.3377

  23 17 31.5964

  8

  5

  69 7 73.1794

  6

  90 5 81.496

  7

  77 4 85.6543

     

  • Ukuran baik atau buruknya suatu persamaan regresi, salah satunya dapat dilihat dari nilai rata-rata galat kuadratnya, yang disebut MSE (Mean Squared Error).

  13

  10

  67 6 77.3377 -10.3377 106.868

  11

  56 12 52.3879 3.6121 13.04727

  12

  49 15 39.913 9.087 82.57357

  69 10 60.7045 8.2955 68.81532

  9

  14

  72 8 69.0211 2.9789 8.873845

  15

  91 3 89.8126 1.1874 1.409919

  1027 122 MSE 62.27619

  2

  1 MSE e n 

  82 4 85.6543 -3.6543 13.35391

  81 6 77.3377 3.6623 13.41244

  

  89 6 77.3377 11.6623 136.0092

  Mean Squared Error

  No y x y(topi) error e^2

  1

  45 10 60.7045 -15.7045 246.6313

  2

  67 9 64.8628 2.1372 4.567624

  3

  4

  8

  23 17 31.5964 -8.5964 73.89809

  5

  69 7 73.1794 -4.1794 17.46738

  6

  90 5 81.496 8.504 72.31802

  7

  77 4 85.6543 -8.6543 74.89691

  • Semakin kecil nilai MSE-nya, maka persamaan regresi tersebut baik.

Latihan

  • Menggunakan data pada latihan sebelumnya (menghitung koefisien korelasi), tentukan persamaan regresi dari data tersebut.
  • Hitunglah error dan MSE-nya