2.1. Pengertian dan Dampak Pencilan 2.1.1. Pengertian Pencilan - Perbandingan Metode Least Trimmed Squares dan Penaksir M dalam Mengatasi Permasalahan Data Pencilan

BAB 2 LANDASAN TEORI Pada bab ini akan diuraikan beberapa konsep dan metode yang menjadi dasar

  penulisan tugas akhir ini. Beberapa konsep dan metode tersebut ialah pencilan, tata cara mendeteksi pencilan, metode OLS, menentukan rata-rata kuadrat terkecil dan penaksir dalam regresi robust yakni penaksir Least Trimmed Squares dan penaksir M.

2.1. Pengertian dan Dampak Pencilan

2.1.1. Pengertian Pencilan

  Keberagaman data di satu sisi sangat dibutuhkan dalam analisis statistika, namun di sisi lain keberagaman data menyebabkan adanya nilai pengamatan yang berbeda dengan nilai pengamatan lainnya. Penyebabnya dapat dikarenakan adanya kesalahan pada pengamatan, pencatatan, maupun kesalahan yang lain. Data yang berbeda inilah yang disebut data pencilan.

  Menurut Sembiring (1995), secara umum pencilan adalah data yang tidak mengikuti pola umum model. Pencilan juga dapat diartikan sebagai suatu keanehan atau keganjilan pada data amatan yang menunjukkan ketidaksesuaian dengan sisa data tersebut. Selain itu, (Barnett dan lewis, 1994) menyebutkan bahwa outlier merupakan objek yang secara numerik berbeda dengan data lainnya. (Hair, dkk, 1995) juga menyatakan bahwa pencilan adalah data yang muncul memiliki karakteristik unik yang terlihat sangat jauh berbeda dari observasi lainnya dan muncul dalam bentuk nilai ekstrim baik untuk sebuah variabel tunggal ataupun variabel kombinasi. Definisi lain dari outlier adalah objek yang terletak jauh atau berbeda jauh dari pola distribusinya (Moore dan McCabe, 1999).

2.1.2. Dampak Pencilan

  Keberadaan data pencilan akan mengganggu proses analisis data dan harus dihindari sehingga dalam statistik ruang, data tersebut akan dievaluasi apakah data pencilan perlu dihilangkan atau tidak. Pencilan dapat menyebabkan munculnya nilai mean dan standard deviasi yang tidak konsisten dengan mayoritas data. Selain itu, estimasi koefisien garis regresi yang diperoleh tidak tepat, dan pada beberapa analisa inferensia dapat menyebabkan kesalahan dalam pengambilan keputusan dan kesimpulan.

2.2. Pendeteksian Pencilan

  Beberapa metode dan nilai yang dapat digunakan untuk mendeteksi ada atau tidak adanya pencilan ialah sebagai berikut :

1. Metode Grafik

  Metode grafik merupakan salah satu cara pendeteksian pencilan yang mudah dipahami karena menampilkan data secara grafis (gambar) tanpa melibatkan perhitungan yang rumit. Namun, kelemahan metode ini yaitu yang menentukan data tersebut sebagai pencilan atau tidak tergantung pada kebijakan (judgement) peneliti, karena metode ini hanya mengandalkan visualisasi gambar. Pendeteksian pencilan dengan metode grafik diantaranya ialah :

  a.

  Diagram Pencar (Scatter Plot)

  Metode ini dilakukan dengan cara memplot data dengan observasi ke- i (i = 1,2, …, n). Selain itu, setelah diperoleh model regresi maka dapat dilakukan dengan cara memplot antara residual (e) dengan nilai prediksi Y ̂ . Jika terdapat satu atau beberapa data yang terletak jauh dari pola kumpulan data keseluruhan maka hal ini mengindikasikan adanya pencilan.

  b.

  Boxplot

  Metode boxplot merupakan metode yang paling umum yaitu dengan menggunakan nilai kuartil dan jangkauan. Jangkauan (IQR, Interquartile Range) didefinisikan sebagai selisih kuartil 1 terhadap kuartil 3, atau IQR = Q3

  • – Q1. Pendeteksian pencilan dapat ditentukan jika nilai yang kurang dari 1.5*IQR terhadap kuartil 1 dan nilai yang lebih dari 1.5*IQR terhadap kuartil 3.

Gambar 2.1. Skema Identifikasi Data Pencilan dengan IQR atau Box Plot 2.

   Leverage Values, DfFITS, Cook’s Distance, dan DfBETA(s) Cara mendeteksi pencilan dapat juga dengan menentukan nilai Leverage, DfFITS,

  

Cook’s Distance, dan DfBETA(s). Definisi dari masing-masing nilai tersebut ialah

  sebagai berikut : a.

  Leverage Values; menampilkan nilai leverage (pengaruh) terpusat.

  b.

  DfFITS atau Standardized DfFIT; menampilkan nilai perubahan dalam harga yang diprediksi bilamana case tertentu dikeluarkan dan sudah distandarkan.

  c.

  Cook’s Distance; menampilkan nilai jarak Cook d.

  DfBETA(s); menampilkan nilai perubahan koefisien regresi sebagai hasil perubahan yang disebabkan oleh pengeluaran case tertentu. Digunakan untuk mendeteksi pencilan pada variabel bebas. Ketentuan dalam pendeteksian pencilan dengan nilai-nilai tersebut adalah :

  ( )

  { }

Gambar 2.2. Kriteria Pengambilan Keputusan Adanya Pencilan atau Tidak

  Keterangan :

  n

  = jumlah observasi (sampel) p = jumlah parameter.

2.3. Metode Kuadrat Terkecil

  Secara umum, analisis regresi digunakan untuk mengetahui hubungan antara variabel terikat (Y) dengan satu atau lebih variabel bebas (X). Dalam analisis regresi, akan diperoleh bentuk dan pola hubungan yang ada dan juga dapat dilakukan prediksi terhadap nilai variabel yang sudah diketahui. Salah satu metode yang sering digunakan untuk mendapatkan nilai-nilai penduga (penaksir) parameter dalam pemodelan regresi yaitu metode kuadrat terkecil (Cahyawati, 2009). Metode penaksir ini digunakan untuk menentukan persamaan linier estimasi dengan cara meminimumkan jumlah kuadrat sisa.

  Analisis regresi yang digunakan untuk satu variabel terikat (Y) dan satu variabel bebas (X) disebut regresi linier sederhana. Model regresi linier sederhana dapat dituliskan dalam persamaan berikut :

  (2.1) Keterangan :

  i = 1, 2, ...,n Y i = variabel terikat X i = variabel bebas

  = koefisien regresi = koefisien regresi

  = sisaan Nilai dan adalah parameter regresi yang akan diestimasi.

  Model penaksir regresi linier sederhana untuk persamaan (2.1) adalah sebagai berikut : (2.2)

  ̂ ̂ ̂ dengan = nilai Y yang diestimasi

  i

  ̂ ̂ ̂ = penaksir parameter

  = variabel bebas

2.4. Penaksir Kuadrat Terkecil

  Sifat penaksir kuadrat terkecil berdasakan teorema Gauss-Markov, yaitu : dan tidak bias dan “Pada model regresi sederhana, penaksir kuadrat terkecil ̂ ̂ mempunyai nilai varians yang minimum diantara semua penaksir linier yang tidak bias”.

  ( ̂ ) ( ̂ ) dengan

  ̂ disebut penduga (penaksir). Dari persamaan regresi linier sederhana (2.1), nilai residu (sisaan) ke-i pada model merupakan selisih antara data sebenarnya dengan data dugaan, yaitu :

  (2.3) ̂

  (2.4) ̂ ̂

  Prinsip dasar metode kuadrat terkecil adalah meminimumkan jumlah kuadrat sisaan yang dinyatakan sebagai berikut : Minimum

  (2.5) ∑

  Sehingga : =

  ∑ ̂ ] ∑ [

  = ̂ ̂ ]

  ∑ [ =

  (2.6) ̂ ̂ ]

  ∑ [ dengan = data sebenarnya

  = data dugaan ̂

  , = penaksir parameter ̂ ̂

  = sisaan kuadrat Andaikan dinotasikan dengan Q dan Q merupakan fungsi dari nilai dan

  ∑ ̂ ̂ sehingga nilai-nilai Q dapat ditentukan dengan menurunkan persamaan (2.6) terhadap dan kemudian menyamakan tiap turunannya dengan nol, diperolehlah nilai ̂ ̂ sebagai berikut : ∑ ∑ [ ̂ ̂ ] ∑ ̂ ∑ ̂ ∑ ∑ ̂ ̂

  ∑ ∑( ̂ ̂ ) ̂

  (2.7)

  ∑ ∑ ( ̂ ̂ ) ̂

  dan ∑ ∑( ̂ ̂ )

  ̂ (2.8)

  ∑ ∑ ( ̂ ̂ ) ̂

  Dari persamaan (2.7) maka akan dicari nilai sebagai berikut : ̂

  ∑ ̂ ̂ ∑ ∑ ∑

  ̂ ̂

  (2.9)

  ̂ ̅ ̂ ̅

  Selanjutnya, dari persamaan (2.8), akan dicari nilai sebagai berikut : ̂

  ∑ ̂ ∑ ̂ ∑ ∑ ∑

  ̂ [ ] ∑ ̂ ∑

  ∑ ∑ [∑ ] ̂

  ̂ ∑ ∑ ∑ ̂ [∑ ]

  ∑ ̂ ∑

  ̂ ∑ ∑ [ ]

  maka diperolehlah ̂ yaitu :

  ∑ ∑ ∑

  ̂ ∑

  ∑

  2.5 . Rata-rata Kuadrat Sisa 2 Rata-rata kuadrat sisa S adalah salah satu cara untuk menentukan kecocokan model,

  jika semakin kecil rata-rata kuadrat sisa yang dihasilkan maka semakin baik model tersebut (Sembiring, 1995). Cara ini diperoleh dengan menghitung banyaknya parameter dalam model melalui pembagian dengan derajat kebebasannya. Rata-rata kuadrat sisa dapat ditentukan dengan rumus berikut : dengan JKS = Jumlah kuadrat sisa JKT = Jumlah kuadrat total

  ∑ ̅ JKR = Jumlah kuadrat regresi

  ( ̂ ̅ )

  n = Banyak sampel p = Banyak parameter

  = Data sebenarnya = Data dugaan

  ̂ = Rata-rata data sebenarnya

  ̅

2.6. Regresi Robust

  Menurut Rousseeuw dan Leroy (1987), analisis regresi dan regresi robust memiliki tujuan yang sama namun proses keduanya berlawanan. Dalam analisis regresi, langkah pertama yang dilakukan yaitu menghapus pencilan kemudian mencocokkan data yang sudah bagus dengan menggunakan metode kuadrat terkecil, sedangkan regresi robust langkah pertama yang dilakukan yaitu mencocokkan model regresi dengan sebagian besar data, kemudian mengatasi titik

  • –titik pencilan yang memiliki nilai residu yang besar sebagai solusi robust tersebut.

2.6.1. Pengertian regresi robust

  Regresi robust adalah suatu metode yang digunakan untuk mengatasi masalah pencilan (Rousseeuw dan Leroy, 1987). Metode ini merupakan alat penting untuk

  

menganalisis data yang dipengaruhi oleh outlier (pencilan) sehingga dapat menghasilkan model yang robust atau resistance terhadap pencilan. Salah satu cara yang digunakan

  untuk mengukur ke-robust-an (kekekaran) suatu estimator (penaksir) yaitu Breakdown

  point . Breakdown point adalah kelompok terkecil adanya pencilan yang mengakibatkan suatu penaksir menghasilkan penaksiran yang jauh berbeda atau bias.

  Konsep breakdown dilakukan untuk mengetahui kemampuan suatu penaksir dalam menghasilkan nilai taksiran yang resisten terhadap adanya pencilan dalam jumlah tertentu (Akbar dan Maftukhah, 2007).

  Di dalam regresi robust, banyak metode estimasi yang bisa digunakan, yaitu penaksir Least Median Squares (LMS), Least Trimmed Squares (LTS), penaksir M (M

  • –Estimator), penaksir S, penaksir MM. Least Median Squares (LMS) adalah metode penaksir parameter regresi robust dengan meminimumkan median dari kuadrat sisaan. Least Trimmed Squares (LTS) adalah metode penaksir parameter
  • – regresi robust untuk meminimumkan jumlah kuadrat h residual. Penaksir M (M estimator) adalah penaksir parameter regresi robust untuk meminimumkan fungsi obyektif dari residualnya, dan sebagainya.

2.7. Metode Penaksir Least Trimmed Squares (LTS)

  Least Trimmed Squares merupakan salah satu metode penaksir dalam regresi robust

  yang digunakan untuk mengatasi pencilan. Metode penaksir ini adalah metode penaksiran parameter regresi robust dengan menggunakan konsep pengepasan metode kuadrat terkecil (ordinary least square) untuk meminimumkan jumlah kuadrat sisaan (Akbar dan Maftukhah, 2007). Penaksir least trimmed squares dapat dinyatakan dalam rumus fungsi obyektif berikut :

  (2.11)

  ∑

  dengan = Kuadrat residual (sisaan kuadrat) yang terurut dari terkecil hingga

  2

  2

  2

  2

  2

  2 e e e e e e

  terbesar. < <

  ( 1 ) ( 2 ) ( 3 ) < …. < (i ) < … < (h ) < … < (n )

   n = Banyaknya pengamatan p

  = Banyaknya parameter [ ]

  [ ] Jumlah h menunjukkan sejumlah subset data dengan kuadrat fungsi obyektif terkecil. Nilai h pada persamaan akan membangun breakdown point yang besar sebanding dengan 50%. Kuadrat sisa pada persamaan (2.11) berasal dari persamaan estimasi regresi linier menggunakan konsep metode kuadrat terkecil dengan banyaknya sisaan kuadrat yang akan diolah adalah sebanyak h residual.

2.8. Metode Penaksir M

  Metode penaksir M merupakan metode penaksir dalam regresi robust untuk mengestimasi parameter yang disebabkan adanya outlier (pencilan). Penaksir M meminimumkan fungsi ρ (fungsi obyektif) dari residualnya. Fungsi obyektif adalah fungsi yang digunakan untuk mencari fungsi pembobot pada regresi robust. Fungsi pembobot yang digunakan antara lain adalah (Montgomery dan Peck,1982: 369): Fungsi pembobot yang dapat digunakan untuk penaksir M antara lain: 1.

  Fungsi pembobot yang disarankan oleh Huber 2. Fungsi pembobot yang disarankan oleh Tukey

  Fungsi Huber yang akan digunakan dapat dinyatakan sebagai berikut :

  • i i ; | i

  ψ(ε ) = ε ε | ≤ r = r ; ε

  • > r

  i

  • = <

  i

  r ; ε r Penaksiran parameter menggunakan metode penaksir M disebut Iteratively

  Reweighted Least Squares

  (IRLS). Solusi menggunakan metode ini yaitu melakukan

  

weighted least square (WLS) secara iterasi yang dapat dinyatakan dalam rumus

  berikut :

  • *  

  ( ) i

  (2.12)

  ∑ ( )

  • dengan i adalah residual yang telah diskalakan, sehingga , sedangkan

  ε

  ̂

  |, i = 1, 2, ... , n. Selanjutnya persamaan (2.12) dapat dinyatakan ̂ | dalam rumus berikut :

  (2.13)

  ∑

  • *  (  i

  ) * dengan w i = , maka persamaan (2.12) juga merupakan solusi jumlah kuadrat

  (  ) i error terboboti (WLS) yaitu : (2.14)

  ∑ ̂

  Tahapan iterasi dalam penaksiran koefisien regresi (Winahju, 2010) adalah:

  1. Dihitung penaksir , dinotasikan b menggunakan least square, sehingga didapatkan

  y ˆ dan  = y iy ˆ , (i = 1, 2, ... n) yang diperlakukan sebagai nilai awal (y i i , i , i,0 adalah hasil eksperimen).

  • *  

  ( ) i , *

  2. Dari nilai-nilai residual ini dihitung  , dan pembobot awal w ˆ i,0 = . Nilai (  ) i ,

  ( i ) dihitung sesuai fungsi Huber, dan  i,0 =  i,0 /  . ˆ

  3. Disusun matrik pembobot berupa matrik diagonal dengan elemen w 1,0 , w 2,0 , . . . , w n,0 , dinamai W .

  T -1 T

  4. Dihitung penaksir koefisien regresi : b Robust = (X W X)

  X W Y

  ke 1 n n

   5. Dengan menggunakan b Robust ke 1 dihitung pula | yy ˆ | atau | | . i i i , 1 . 1

    i 1 i 1

  n

  

  6. Selanjutnya langkah 2 sampai dengan 5 diulang sampai didapatkan | | i m . n

   i 1

  konvergen. Nilai  yang konvergen adalah selisih antara dan

  | | i . mi

   1

  mendekat 0; banyak iterasi.

  Secara ringkas, fungsi obyektif dan pembobot dari estimator kuadrat terkecil, Huber, dan Tukey Bisquare dapat dilihat pada Tabel 2.1.

Tabel 2.1. Fungsi obyektif, fungsi Influence dan fungsi pembobot untuk Kuadrat Terkecil, Huber, dan Tukey Bisquare

  Kuadrat Metode Huber Tukey Bisquare

  Terkecil 2 * * 3

   2   

  • * * ( e ) / i i

  2 , untuk | e |  r k i 2 e   

  Fungsi

  

  1 1 untuk e r 6    ri 2*

  • * * *

  e    ( )  ( e )   

  ( e )  ( e ) H B   LS i

* *

2 2 r | e | r / 2 , untuk | e | r

i i

  

  

  • *

  objektif

  r / 6 untuk e i r

    * * 2e untuk er i i 2

   e * * i

  Fungsi

  • * e untuk er

  

  1     i i * * r

  • * e e

    LS i ( e ) e B 

    

  • * H

   

  • * r e

  

untuk r

i *   untuk er influence i

   *r untuk e   ri

   2 2 * e i *  * 

  • *

    untuk er

  1 i

  Fungsi

  1  untuk er * *   r i   * w ew ew ( e )    LS * 1  B   Hr untuk  / e e r *

   untuk er

  Pembobot

   i i i

  Sumber : Fox (2002), Montgomery (1992)