Identifikasi Pencilan dan Peta Pencilan pada Analisis Komponen Utama untuk Data Menjulur

IDENTIFIKASI PENCILAN DAN PETA PENCILAN PADA ANALISIS
KOMPONEN UTAMA UNTUK DATA MENJULUR

ANNA FAUZIYAH

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012

ABSTRAK
ANNA FAUZIYAH. Identifikasi Pencilan dan Peta Pencilan pada Analisis Komponen Utama
untuk Data Menjulur. Dibimbing oleh KUSMAN SADIK dan I MADE SUMERTAJAYA.
Analisis Komponen Utama (AKU) merupakan salah satu analisis peubah ganda yang pada
dasarnya mentransformasikan secara linier peubah asal menjadi peubah baru yang dinamakan
komponen utama. Akan tetapi, AKU yang didasarkan pada matriks ragam peragam ini sangat
sensitif terhadap keberadaan pencilan. Sensitifitas terhadap pencilan pada AKU-Klasik dapat
diatasi dengan AKU yang kekar (AKU-K) yang bekerja sangat baik pada data yang memiliki
sebaran simetrik atau tidak menjulur. Apabila data peubah asal menjulur maka banyak titik data
yang sebenarnya bukan pencilan dianggap sebagai pencilan atau sebaliknya. Kemudian

dikembangkanlah pendekatan AKU-K yang cocok untuk data menjulur dengan mendefinisikan
berbagai kriteria baru untuk menggambarkan pencilan yaitu AKU-KAO. Penelitian ini
menggunakan empat metode yaitu AKU-Klasik, AKU-KMCD, AKU-K, dan AKU-KAO untuk
mengetahui perbandingan efektifitas keempat metode tersebut dalam mengidentifikasi pencilan
pada data menjulur. Keempat metode tersebut dicobakan pada dua set data yang dikontaminasi
pencilan dengan proporsi 0%, 5%, 10%, dan 15%. Hasil yang diperoleh dari penelitian ini
menunjukkan bahwa metode AKU-KAO mampu mengatasi pengaruh kehadiran pencilan pada
data menjulur karena memiliki tingkat kesalahan identifikasi yang paling kecil. Hal tersebut
diperkuat dengan adanya peta pencilan yang memberikan gambaran secara visual dalam
pengidentifikasian pencilan.
Kata kunci : data menjulur, pencilan, analisis komponen utama kekar, peta pencilan.

IDENTIFIKASI PENCILAN DAN PETA PENCILAN PADA ANALISIS
KOMPONEN UTAMA UNTUK DATA MENJULUR

ANNA FAUZIYAH

Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika
pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012

Judul
Nama
NIM

: Identifikasi Pencilan dan Peta Pencilan pada Analisis Komponen Utama untuk Data
Menjulur
: Anna Fauziyah
: G14080036

Menyetujui,

Pembimbing I,


Pembimbing II,

Dr. Ir. Kusman Sadik, M.Si
NIP : 196909121997021001

Dr. Ir. I Made Sumertajaya, MS
NIP : 196807021994021001

Mengetahui :
Ketua Departemen,

Dr. Ir. Hari Wijayanto, M.Si
NIP : 196504211990021001

Tanggal Lulus:

PRAKATA
Tiada kata yang paling indah selain puji dan syukur kepada Tuhan Yang Maha Esa atas segala
rahmat dan karunia-Nya sehingga karya ilmiah yang berjudul “Identifikasi Pencilan dan Peta

Pencilan pada Analisis Komponen Utama untuk Data Menjulur” ini dapat terselesaikan.
Ucapan terima kasih tak lupa penulis ucapkan kepada berbagai pihak yang telah membantu
sehingga karya ilmiah ini selesai dengan baik, yaitu :
1. Bapak Dr. Ir. Kusman Sadik, M.Si dan Bapak Dr. Ir. I Made Sumertajaya, MS atas
kesabarannya dalam membimbing, memberi saran, serta motivasi sehingga karya ilmiah ini
dapat diselesaikan
2. Seluruh dosen pengajar di Departemen Statistika
3. Ayahanda Yayat Suryatna, Ibunda Eeng Emalia serta kakak-kakak Dewi Noviyanti dan Nisa
Sofianti yang selalu memberikan kasih sayang, semangat, dan doa
4. Ibu Markonah, Ibu Tri, Ibu Aat, Bang Ibay, Bang Iyus dan staf tata usaha lainnya yang telah
banyak membantu
5. Rekan-rekan di Departemen Statistika IPB angkatan 45 khususnya Keluarga Pandhewi (Dinia
Wihansah, Mulya Sari, Hanik Aulia, dan Hana Maretha), Ramadhiyan Firdan, Iin Puspitasari,
Ratih Noviani, dan Hadi Septian atas segala kebersamaan, canda tawa, kenangan indah, dan
masukan-masukan yang telah mengisi kehidupan penulis selama di kampus
6. Teman bimbingan skripsi yaitu Aji Setyawan, Tri Hardi Putra, dan Arni Nurwida atas
semangat dan kebersamaannya
7. Teman-teman kostan SQ yaitu Mega, Delvi, Fatchah, Nengsih, Hilma, Ulan, Puji, Putri,
Yuang, Fitri, Irma, Feby, Lia, Reffa dan Devi atas dukungan, semangat dan doa kepada
penulis

8. Semua pihak yang tidak mungkin disebutkan satu persatu yang telah membantu penulis
selama ini.
Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak yang membutuhkan. Penulis
mohon maaf atas segala kekurangan dan kesalahan yang terdapat dalam karya ilmiah ini.

Bogor, November 2012

Anna Fauziyah

RIWAYAT HIDUP
Penulis dilahirkan di Kuningan, pada tanggal 8 April 1990 dari Bapak Yayat Suryatna dan Ibu
Eeng Emalia. Penulis merupakan putri ketiga dari tiga bersaudara.
Penulis memulai pendidikannya di SD Negeri 1 Jambar dan lulus pada tahun 2002. Kemudian
penulis melanjutkan pendidikan di SMP Negeri 2 Kuningan hingga tahun 2005. Setelah
menyelesaikan studinya di SMA Negeri 1 Kuningan pada tahun 2008, penulis diterima sebagai
mahasiswa Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI) pada
tahun yang sama. Selama satu tahun pertama di IPB, penulis melalui Tahap Persiapan Bersama
(TPB). Pada tahun 2009, penulis diterima sebagai mahasiswa Departemen Statistika dengan minor
Ilmu Ekonomi dan Studi Pembangunan.
Selama kuliah, penulis aktif dalam organisasi kemahasiswaan yaitu sekretaris divisi

Komunikasi dan Informasi Lembaga Struktural Bina Desa BEM KM IPB selama dua periode pada
tahun 2009-2010, anggota Departemen Sains Himpunan Profesi Gamma Sigma Beta Departemen
Statistika FMIPA IPB Periode 2011. Penulis juga aktif dalam kegiatan kemahasiswaan yang
diadakan oleh Departemen Statistika maupun Fakultas Matematika dan Ilmu Pengetahuan Alam,
antara lain Spirit FMIPA 2010 (Divisi Medis), The 6th Statistika Ria 2010 (Divisi LO), Pesta Sains
FMIPA 2010 (Divisi K4), Welcome Ceremony Statistics (WCS) 2011 serta Lomba Jajak Pendapat
Statistika 2011 (Sekretaris Umum). Pada bulan Februari-April 2012 penulis diberikan kesempatan
untuk praktik lapang di PT. Infomedia Nusantara.

vii

DAFTAR ISI
Halaman
DAFTAR TABEL ............................................................................................................. viii
DAFTAR GAMBAR ......................................................................................................... viii
DAFTAR LAMPIRAN ...................................................................................................... viii
PENDAHULUAN
Latar Belakang .......................................................................................................
Tujuan ...................................................................................................................


1
1
1

TINJAUAN PUSTAKA
Data Menjulur ......................................................................................................
Pencilan ...............................................................................................................
Analisis Komponen Utama ...................................................................................
Analisis Komponen Utama Kekar .........................................................................
Analisis Komponen Utama Kekar untuk Data Menjulur ........................................
Peta Pencilan ........................................................................................................

1
1
2
3
3
4
4


METODOLOGI
Data ......................................................................................................................
Metode .................................................................................................................

5
5
5

HASIL DAN PEMBAHASAN
Karakteristik Data ................................................................................................
Identifikasi Pencilan pada n1=500 ..........................................................................
Identifikasi Pencilan pada n2=100 .........................................................................
Peta Pencilan ........................................................................................................
Penerapan AKU-Klasik dan AKU-KAO ...............................................................

6
6
6
8
9

10

KESIMPULAN DAN SARAN
Kesimpulan ...........................................................................................................
Saran.....................................................................................................................

11
11
11

DAFTAR PUSTAKA .........................................................................................................

11

LAMPIRAN ......................................................................................................................

13

viii


DAFTAR TABEL
Halaman
1.
2.
3.
4.

Nilai medcouple tiap peubah ............................................................................................... 6
Persentase kesalahan identifikasi pencilan pada data menjulur n1=500, p=10 dan k=2 .......... 7
Persentase kesalahan identifikasi pencilan pada data menjulur n2=100, p=10 dan k=2 .......... 8
Ringkasan hasil komponen utama pada berbagai metode ..................................................... 10

DAFTAR GAMBAR
Halaman
1.
2.
3.
4.
5.
6.


Peta pencilan ..................................................................................................................... 5
Persentase Kesalahan I pada n1=500 ................................................................................... 7
Persentase Kesalahan II pada n1=500 .................................................................................. 7
Persentase Kesalahan I pada n2=100 ................................................................................... 8
Persentase Kesalahan II pada n2=100 .................................................................................. 8
Peta pencilan data menjulur n1=500, p=10 dan k=2 dengan proporsi pencilan 5% pada (a)
AKU-Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ............................................... 9
7. Peta pencilan data menjulur n2=100, p=10 dan k=2 dengan proporsi pencilan 5% pada (a)
AKU-Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ............................................. . 10

DAFTAR LAMPIRAN
Halaman
1.
2.
3.
4.
5.
6.
7.
8.

Skema algoritma penelitian................................................................................................. 14
Rumus adjusted outlyingness (AO) .................................................................................... 15
Histogram data hasil pembangkitan .................................................................................... 15
Nilai korelasi antar peubah pada n1=500 dan p=10 .............................................................. 15
Nilai korelasi antar peubah pada n2=100 dan p=10 ............................................................. 16
Kesalahan identifikasi pencilan pada data menjulur n1=500, p=10, dan k=2 ........................ 17
Kesalahan identifikasi pencilan pada data menjulur n2=100, p=10, dan k=2 ........................ 18
Peta pencilan data menjulur n1=500, p=10 dan k=2 dengan proporsi pencilan 0% (a) AKUKlasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ........................................................ 19
9. Peta pencilan data menjulur n1=500, p=10 dan k=2 dengan proporsi pencilan 10% (a) AKUKlasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ........................................................ 20
10. Peta pencilan data menjulur n1=500, p=10 dan k=2 dengan proporsi pencilan 15% (a) AKUKlasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ........................................................ 21
11. Peta pencilan data menjulur n2=100, p=10 dan k=2 dengan proporsi pencilan 0% (a) AKUKlasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ........................................................ 22
12. Peta pencilan data menjulur n2=100, p=10 dan k=2 dengan proporsi pencilan 10% (a) AKUKlasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ........................................................ 23
13. Peta pencilan data menjulur n2=100, p=10 dan k=2 dengan proporsi pencilan 15% (a) AKUKlasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ........................................................ 24

1

PENDAHULUAN
Latar Belakang
Konsep dasar dari Analisis Komponen
Utama (AKU) adalah pereduksian dimensi
sekumpulan peubah asal menjadi peubah baru
yang berdimensi lebih kecil yang saling bebas
dan tetap mempertahankan informasi yang
terkandung di dalamnya. Peubah baru tersebut
disebut komponen utama. Akan tetapi, AKU
yang didasarkan pada matriks ragam peragam
ini sangat sensitif terhadap keberadaan
pencilan.
Hubert
et
al.
(2005)
memperkenalkan
pendekatan
Analisis
Komponen Utama Kekar (AKU-K) atau
Robust Principal Component Analysis
(ROBPCA) yang menghasilkan komponen
utama yang tidak dipengaruhi oleh pencilan.
AKU-K menggabungkan konsep Projection
Pursuit (PP) dengan Minimum Covariance
Determinant (MCD). PP digunakan untuk
inisiasi reduksi dimensi awal sedangkan MCD
digunakan sebagai penduga matriks ragam
peragam yang kekar. Pada tahap akhir AKU-K
dilakukan
pembobotan
ulang
dengan
menggunakan
penduga
MCD.
Jika
pembobotan ulang tersebut tidak dilakukan
maka metode tersebut dinamakan AKUKMCD. AKU-KMCD menghasilkan subruang
AKU yang sama dengan AKU-K tetapi tidak
dengan nilai dari akar ciri dan vektor cirinya.
Sensitifitas terhadap pencilan pada AKUKlasik dapat diatasi dengan AKU-K yang
bekerja sangat baik pada data yang memiliki
sebaran simetrik atau tidak menjulur. Apabila
data peubah asal menjulur maka banyak titik
data yang sebenarnya bukan pencilan
dianggap sebagai pencilan atau sebaliknya.
Hubert et al. (2009) mengembangkan
pendekatan AKU-K yang cocok untuk data
menjulur dengan mendefinisikan berbagai
kriteria baru untuk menggambarkan pencilan.
Pendekatan ini terdiri dari langkah-langkah
yang sama dengan AKU-K sebelumnya akan
tetapi pada pendekatan baru ini dilakukan
beberapa modifikasi. Perbedaan mendasar dari
pendekatan AKU-K baru ini dengan
pendekatan AKU-K sebelumnya yaitu terletak
pada penggantian perhitungan keterpencilan
pada AKU-K yang menggunakan rumus
Stahel-Donoho
(AKU-K)
dengan
menggunakan
rumus
perhitungan
keterpencilan baru yaitu adjusted outlyingness
(AKU-KAO).

Tujuan
Penelitian ini bertujuan untuk:
1. Membandingkan efektifitas metode AKUKlasik, AKU-KMCD, AKU-K, dan AKUKAO dalam mengidentifikasi pencilan
pada data menjulur yang memiliki berbagai
proporsi pencilan
2. Menerapkan peta pencilan pada data
menjulur
3. Menerapkan AKU-Klasik dan AKU-KAO
pada data menjulur.
TINJAUAN PUSTAKA
Data Menjulur
Bentuk dan ketidaksimetrian dari sebuah
sebaran dapat diukur dari kemiringannya.
Sebaran yang simetrik memiliki kemiringan
nol, sebaran yang tidak simetrik yang ekornya
menjulur ke kanan memiliki kemiringan
positif, sedangkan sebaran yang ekornya
menjulur ke kiri memiliki kemiringan negatif.
Koefisien kemiringan klasik b1 dari kumpulan
data peubah tunggal Xn={x1, x2, ... , xn} diambil
dari sebaran kontinu yang didefinisikan
sebagai berikut:
b1 Xn =

m3 (Xn )
m2 (Xn )3

2

dimana 2 merupakan momen empiris kedua
dan 3 merupakan momen empiris ketiga dari
data. Akan tetapi, b1 sangat sensitif terhadap
pencilan dalam data sehingga harus
menggunakan koefisien kemiringan yang
kekar.
Brys et al. (2004) memperkenalkan ukuran
kemiringan yang kekar terhadap pencilan yaitu
medcouple. Nilai medcouple berkisar antara -1
sampai 1. Jika nilainya 0 maka sebarannya
tidak menjulur (simetrik). Misalkan Xn={x1, x2,
... , xn} diambil dari sebaran kontinu dan
kemudian diurutkan sehingga x1 ≤ x2 ≤ ... ≤ xn
, maka median untuk Xn adalah:
mn =

(xn 2 +x(n
x(n+1)/2 ,

2)+1) )/2,

jika n genap
jika n ganjil

berikut nilai MCn (medcouple):
MCn = medxi ≤mn≤xj h(xi , xj)
jika � ≠ � maka:
h xi , xj =

x j - mn - mn - xi
xj − xi

2

jika xi =xj =mn maka diberikan fungsi kernel
h. Misalkan m1 < ... < mk melambangkan
indeks dari pengamatan yang kembar dengan
untuk l = 1, ..., k
median mn dan � =
maka:
,

h(

)=

-1 jika i + j - 1 < k
0 jika i + j - 1 = k
+1 jika i + j - 1 > k

Salah satu contoh sebaran menjulur adalah
sebaran normal inverse Gaussian (NIG).
Sebaran tersebut merupakan kasus khusus dari
sebaran generalized hyperbolyc (GH) yang
didefinisikan sebagai Gaussian generalized
inverse Gaussian mixing distribution yang
sering digunakan pada bidang keuangan. Jika
X~N µ, σ2 maka 1/X bukan sebaran NIG.
Sebaran GH didefinisikan sebagai berikut:
gh x: ,α, ,δ,µ

δ + x2

= a ,α, ,δ

2

× K -1 2 (α δ2 + x2

� , , ,� =

dengan:

−1 2 �

2�

� 0,
� > 0,
� > 0,



<
<

jika
jika
jika

x - 12

2

2

αδ
exp δ α2 - 2 + xπ

E X = μ+δ
Var X = δ2

(1-(



dengan �, µ,

δ2 + x-

)2

3 2

exp δα

K(p+1)/2 (α δ2 +x'∆-1 x
(δ2 +x'∆-1 x

(p+1)/4

2

Π∆1

2 '

2

>

Π∆1

� ℝ� , � > 0,

2

′∆ ,
1 2

∆ ϵ ℝ� , ζ = δ α2 -β'∆β, Π = β∆1 2 (α2 -β' ∆β)

,

dan = � ∆
dimana:
∆ : matriks definit positif
� : parameter kemenjuluran
Π : parameter yang menentukan panjang ekor
Σ : matriks ragam peragam
(Prause 1999)
2

2

2

-1

1-(

p+1
2

2

K1 (α δ2 + x-

2

α


fx(x) = 2δ

Var X = δ2 ζ-1 ζ ∆+x-1 ζ

>0
=0
0, berikut adalah
fungsi kepekatan peluang, nilai harapan, dan
ragamnya:

x-

Misalkan peubah acak X menyebar
X~NIG α, , δ,
yang memiliki fungsi
kepekatan peluang, nilai harapan, dan ragam
sebagai berikut :

fx x =

2

n

2

) exp

� �

K n+1

π -1 -x
x=
x 2 e (1+
2

dengan �, µ � ℝ, 0 �, 0
dimana:
µ
: parameter lokasi
δ
: parameter skala
α, : parameter bentuk yang menentukan
panjang ekor dan kemenjuluran
�1 merupakan fungsi modifikasi Bassel dari
persamaan:

Pencilan
Pencilan adalah pengamatan ekstrim dan
merupakan titik data yang tidak khas dari
seluruh pengamatan data (Montgomery &
Peck 1992). Dengan cara yang sama, Johnson
(2007) mendefinisikan pencilan sebagai suatu
pengamatan pada rangkaian data yang terlihat
tidak konsisten terhadap sisaan dari data
tersebut. Menurut Draper dan Smith (1992),
pencilan merupakan pengamatan yang nilai
mutlak sisaannya jauh lebih besar daripada
sisaan-sisaan lainnya dan bisa jadi terletak tiga
atau empat simpangan baku atau lebih jauh
lagi dari rata-rata sisaannya.
Pada umumnya pendeteksian pencilan
untuk peubah ganda berbasis pada asumsi
sebaran yang simetrik. Menurut Hubert dan
Van der Veeken (2008), pada data yang

3

sebarannya tidak simetrik atau menjulur
pendeteksian pencilan dilakukan dengan
menggunakan adjusted outlyingness (AO) dari
data peubah ganda. Pada prakteknya AO tidak
dapat dihitung dengan memproyeksikan
pengamatan pada semua vektor peubah
tunggal a. Oleh karena itu, harus dibatasi
dengan cara memilih satu set arah acak.
Simulasi menunjukkan bahwa banyaknya arah
yang efisien dan hemat dalam waktu
komputasi adalah sebanyak m=250p arah.
Arah acak dihasilkan sebagai arah yang tegak
lurus terhadap subruang yang direntang oleh
p-pengamatan secara acak yang diambil dari
kumpulan data.
Setelah AO dihitung untuk setiap
pengamatan, maka tahap selanjutnya yaitu
memutuskan apakah pengamatan tersebut
adalah pencilan atau bukan. Sebaran AO pada
umumnya tidak diketahui (tetapi biasanya
miring ke kanan karena dibatasi oleh nol).
Oleh karena itu, dihitunglah diagram kotak
garis yang disesuaikan (adjusted boxplot) dari
nilai AO dan mendeklarasikan pencilan jika
AO melebihi batas atas diagram kotak garis
yang disesuaikan.
cut off = Q3 + 1.5 e3MC IQR
dimana:
Q3 : kuartil ketiga dari AOi
IQR : jangkauan antar kuartil
MC : nilai medcouple.
Analisis Komponen Utama
Jollife (2002) mendefinisikan bahwa ide
sentral dari analisis komponen utama adalah
untuk memperkecil dimensi dari peubah asal
sehingga diperoleh peubah baru yang disebut
komponen utama. Komponen tersebut tidak
saling berkorelasi dan tetap mempertahankan
sebagian besar informasi yang terkandung
pada peubah asalnya. Menurut Johnson
(2007),
komponen
utama
merupakan
kombinasi linear terboboti dari p peubah acak
X1, X2, ... , Xp yang mampu menerangkan data
secara maksimum. Vektor acak x’=[x1, x2, ... ,
xp] menyebar menurut sebaran tertentu dengan
vektor nilai tengah µ dan matriks ragam
peragam Σ.
Komponen utama ke-j dari p peubah dapat
dinyatakan sebagai:
Yj=a1j x1 +a2j x2 +…+apj xp = a'x
dan keragaman komponen utama ke-j adalah :
Var Yj =

j

; j = 1,2,…, p

akar ciri dimana
1 , 2 , …, p adalah


…≥

0.
Total
keragaman
1
2
p
komponen
utama
adalah
1 + 2 +…+ p = tr (Σ). Vektor ciri � sebagai
pembobot dari transformasi linear peubah asal
diperoleh dari persamaan:
�−

� �� = 0 ;

= 1, 2, … , �

Analisis Komponen Utama Kekar
Analisis Komponen Utama Klasik berbasis
pada matriks ragam peragam yang sangat
sensitif terhadap pencilan. Hubert et al. (2005)
memperkenalkan analisis komponen utama
yang kekar terhadap pencilan. AKU-K
merupakan kombinasi dua ide yaitu antara
Projection Pursuit (PP) dan penduga ragam
peragam yang kekar. Konsep PP digunakan
dalam tahap inisiasi reduksi dimensi awal.
Konsep penduga ragam peragam yang kekar
menggunakan
Minimum
Covariance
Determinant (MCD) kemudian diterapkan
pada data dengan dimensi yang lebih rendah.
Secara umum algoritma AKU-K terdiri dari
tahap-tahap berikut:
1. Mereduksi ruang data, terutama ketika
p≥n, dimana p merupakan jumlah peubah
penjelas dan n adalah jumlah observasi.
Langkah ini dilakukan dengan Metode
Dekomposisi Nilai Singular terhadap
mean-centered data matriks dengan rumus:
Xn,p − 1n

'
0

= Un,r0 Dr0,r0 V'r0,p'

dengan 0 merupakan vektor rataan klasik,
r0=rank(Xn,p − 1n '0), D adalah matriks
diagonal berukuran r 0 x r0, dan
U’U=Iro=V’V, dimana Ir0 adalah matriks
identitas berukuran r0 x r0
2. Menemukan h keterpencilan terkecil (least
outlyingness), tahap ini dilakukan dengan
memilih ½ < α < 1 untuk mendapatkan
nilai h=max{[αn],[(n+kmax+1)/2]}, dimana
kmax merupakan jumlah maksimum
komponen yang akan dihitung. Selanjutnya
keterpencilan dihitung dengan rumus
Stahel-Donoho:
OutlO(xi) = max��

x'i v- MCD (x'j v)
∑MCD (x'j v)

merupakan
dan
dengan ��

penduga nilai tengah dan simpangan baku
MCD, h pengamatan dengan nilai
keterpencilan terkecil dihitung vektor nilai

4

dan
matriks ragam
tengah
(� )
peragamnya ( )
3. Matriks ragam peragam didekomposisi
sehingga diperoleh komponen utamanya.
Sebanyak k komponen utama pertama
dipilih dan semua data diproyeksikan pada
subruang �0 berdimensi-k yang direntang
oleh k vektor ciri pertama sehingga
diperoleh Xn,k
4. Untuk setiap pengamatan, dihitung jarak
ortogonalnya (OD):
(0)

ODi = xi - xi,k
dengan � , merupakan proyeksi dari �
pada subruang �0 . Kemudian diperoleh
subruang kekar penduga �1 sebagai
subruang yang direntang oleh k vektor ciri
dominan dari
, yang mana matriks
ragam peragam semua pengamatan �
(0)
ODi ≤ cOD. Nilai cut off sebesar cOD = (
+ � �0.975 )3 2 dimana dan � diduga dari
MCD dan �0.975 adalah 97.5% kuantil dari
sebaran gaussian. Selanjutnya, semua data
diproyeksikan pada subruang V1
5. Menghitung kembali penduga nilai tengah
dan matriks ragam peragam pada subruang
berdimensi-k
dengan
menggunakan
pembobot MCD pada data yang
diproyeksikan.
Pendugaan
ini
menggunakan algoritma FAST-MCD yang
diadaptasi (Rousseeuw 1999). Komponen
utama akhir adalah vektor ciri dari matriks
ragam peragam tersebut.
AKU Kekar MCD (AKU-KMCD)
merupakan analisis dimana tahap akhir pada
algoritma AKU-K di atas tidak dilakukan.
Akar ciri kekar yang dihasilkan saling
berkorespondensi dengan vektor ciri kekar
dari matriks ragam peragam dari h
pengamatan yang memiliki keterpencilan
terkecil. Hal tersebut menghasilkan subruang
AKU yang sama dengan AKU-K tetapi tidak
dengan nilai dari akar ciri dan vektor cirinya.
Analisis Komponen Utama Kekar untuk
Data Menjulur
AKU Klasik dan AKU-K keduanya
digunakan pada data yang simetrik. Hal
tersebut mengharuskan data peubah asal
memiliki sebaran yang simetrik. Jika tidak
terpenuhi maka dapat dilakukan transformasi
terhadap peubah asal misalnya dengan
menggunakan transformasi Box-Cox, tetapi
peubah yang ditransformasi akan lebih sulit
diinterpretasikan. Pada situasi seperti itu maka
dilakukan analisis pada peubah asal dengan

menggunakan teknik AKU yang cocok untuk
data yang tidak simetrik. Pada AKU-K
dilakukan modifikasi dimana analisis tersebut
dapat digunakan pada data menjulur dengan
mendefinisikan berbagai kriteria baru untuk
menggambarkan pencilan. Menurut Hubert et
al. (2009), terdapat tiga modifikasi yang
dilakukan pada AKU-K untuk data menjulur
yaitu:
1. Mengganti perhitungan keterpencilan pada
AKU-K sebelumnya dengan perhitungan
keterpencilan baru yang disebut AO.
Perhitungan tersebut berdasarkan pada
adjusted boxplot. AO memiliki penyebut
yang berbeda untuk memberi tanda pada
data menjulur. Rumus AO disajikan pada
Lampiran 1
2. Mengubah nilai cut off jarak ortogonal
yaitu menggunakan nilai terbesar dari OD
yang lebih kecil dari Q3({OD}) + 1.5
e3MC({OD})IQR({OD})
3. Selain menerapkan pembobotan pada
penduga MCD, dilakukan juga perhitungan
AO pada AKU-K untuk data menjulur
pada subruang �1 berdimensi-k kemudian
menghitung nilai tengah dan matriks ragam
peragam dari h pengamatan dengan AO
terkecil.
Peta Pencilan
Selain menghitung komponen utama,
AKU-K juga menggambarkan pencilan.
Secara
umum,
pencilan
merupakan
pengamatan yang tidak mematuhi pola umum
data. Pada Gambar 1 dapat dilihat bahwa
dalam konteks AKU dapat dibedakan tiga
jenis pencilan yaitu:
1. Amatan berpengaruh baik yaitu amatan
yang terletak pada subruang komponen
utama tetapi jauh dari pengamatan biasa
(pengamatan 1 dan 2)
2. Pencilan ortogonal yaitu amatan yang
memiliki jarak ortogonal yang besar ke
subruang komponen utama sementara
proyeksinya terletak pada subruang
komponen utama (pengamatan 3 dan 4)
3. Amatan berpengaruh buruk yaitu amatan
yang memiliki jarak ortogonal yang besar
dan proyeksi pada ruang komponen utama
jauh dari pengamatan biasa (pengamatan 5
dan 6).
Jarak ortogonal adalah jarak antara
pengamatan dan proyeksi dalam k-dimensi
subruang V1. Peta pencilan memplotkan jarak
ortogonal dengan jarak skor (score distance).
Garis ditarik untuk membedakan antara
observasi yang memiliki jarak ortogonal
antara jarak skor besar dan kecil.

5

k

SDi =
j=1

t2ij
lj

ti = P' p,k (xi −

x

)

dimana:
ti
: tingkat kekekaran
P' p,k : matriks loading dengan kolom
ortogonal (vektor ciri)
:
dugaan nilai tengah kekar
x
: akar ciri dari MCD pada algoritma
AKU-K.

Gambar 1 Peta pencilan
METODOLOGI
Data
Data yang digunakan dalam penelitian ini
diperoleh dari data simulasi. Data simulasi
yang digunakan merupakan data menjulur dari
hasil pembangkitan bilangan acak normal
inverse Gaussian (NIG) dengan kontaminasi
berbagai proporsi pencilan.
Metode
Penelitian ini dilakukan dengan langkahlangkah sebagai berikut:
1. Membangkitkan data menjulur yaitu data
yang
menyebar
NIGp α, , tδ,t ,∆ .
Dimana µ adalah parameter lokasi, δ
adalah parameter skala, α adalah parameter
bentuk yang menentukan panjang ekor,
merupakan
parameter
kemenjuluran,
∆ adalah matriks definit positif, dan t > 0 .
Jumlah peubah yang dibangkitkan
sebanyak 10 peubah dengan n1=500 dan
n2=100. Kemudian diberikan beberapa
proporsi pencilan. Proporsi pencilan yang
diberikan adalah 0% (tanpa pencilan), 5%,
10%, dan 15% sehingga terbentuk delapan
set data
Langkah-langkah dalam penyiapan data
adalah sebagai berikut:

1.1 Penyiapan data simulasi dengan
membangkitkan data menjulur yaitu
data yang menyebar NIG α, , δ, .
Proses
pembangkitan
dilakukan
dengan algoritma sebagai berikut:
a. Membangkitkan data menjulur
X~NIG(α, , δ, ) sebanyak n1 =
500 dan n2 = 100
b. Mengulangi langkah a sebanyak p
atau 10 kali dengan parameter
yang sama sehingga diperoleh 10
peubah X berukuran 500 dan 100
yaitu X1, X2, ..., X10
c. Peubah X1, X2, ..., X10 membentuk
matriks berdimensi 500 × 10 dan
100 × 10
d. Menentukan nilai korelasi awal
pada peubah X1, X2, ..., X10
sehingga
kesepuluh
peubah
tersebut saling berkorelasi
e. Mengecek kemenjuluran dari dua
set data tersebut dengan melihat
nilai medcouple dari masingmasing peubah
1.2 Penyiapan data pencilan dan set data.
Pembangkitan pencilan dilakukan
dengan cara pengekstriman data
pengamatan biasa pada h peubah dari
p peubah pada setiap pengamatan
yang terpilih dimana h