Analisis cluster dan aplikasinya - USD Repository

  

ANALISIS CLUSTER DAN APLIKASINYA

SKRIPSI

  Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Sains

  Program Studi Matematika Oleh :

  

Yohanes Eka Adi Sunarso

NIM : 033114001

PROGRAM STUDI MATEMATIKA JURUSAN MATEMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

  

2008

  

CLUSTER ANALYSIS AND ITS APPLICATIONS

THESIS

  Presented As a Partial Fulfillment of The Requirements To Obtain The Sarjana Sains Degree

  In Mathematics By :

  

Yohanes Eka Adi Sunarso

Student Number : 033114001

MATHEMATICS STUDY PROGRAM

DEPARTEMENT OF MATHEMATICS

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

  

2008

PERNYATAAN KEASLIAN KARYA

  Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan dalam kutipan dan daftar pustaka, sebagaimana layaknya karya ilmiah.

  Yogyakarta, November 2008 Penulis Ketika ketakutan datang menerpa, ku tahu ku lemah. Hampir terjatuh & menyerah berjuang kembali, tetapi hal yang membuat ku kuat & te- rus memperjuangkan apa yang ku impikan, yaitu janji Tuhan ku yang benar-benar hidup, Dia berkata padaku ‘Aku mau memikul kamu dan menyelamatkan kamu’ (Yes. 46:4), oleh janji inilah maka aku kuat menjalani semua & terus berjuang tanpa menyerah.

  Ia membuat segala sesuatu indah pada waktunya … Pkh 3:11

  Skripsi ini kupersembahkan kepada : Bapak, ibu dan adik-adikku tercinta, Keluarga besarku, dosen-dosenku & sahabatku terkasih.

  

ABSTRAK

  Analisis cluster adalah salah satu teknik analisis statistik yang digunakan untuk meringkas data dengan cara mengelompokkan obyek-obyek berdasarkan kesamaan karakteristik tertentu yang dimiliki masing-masing obyek. Kesamaan karakteristik tersebut dinyatakan dalam ukuran jarak antar obyek. Pembentukan kelompok-kelompok berdasarkan jarak, obyek yang mirip seharusnya berada da- lam kelompok yang sama dan mempunyai jarak yang lebih kecil. Sebaliknya ob- yek yang berbeda berada dalam kelompok yang berbeda dan mempunyai jarak yang lebih besar. Pada skripsi ini akan dibahas dua metode dalam analisis cluster, yaitu me- tode hierarki dan metode nonhierarki. Metode hierarki dibagi menjadi dua kate- gori yaitu agglomerative dan divisive. Metode nonhierarki yang akan dibahas pa- da skripsi ini adalah metode K-means cluster.

  

ABSTRACT

  Cluster analysis is one of statistical analysis techniques to summarize data set by grouping objects based on the same specific characteristics of the objects. These characteristics similarity is represented by the distance between objects. The determination of groups is based on the distance of the objects. The identical objects should be placed in the same group and have shorter distance. Converse- ly, the nonidentical objects should be placed in different groups and have longer distance. This thesis will discuss two methods of cluster analysis, those are hierar- chical method and nonhierarchical method. Hierarchical method is divided into two categories, which are agglomerative and divisive. The only nonhierarchical method which is discussed in this thesis is K-means cluster method.

KATA PENGANTAR

  Puji Tuhan penulis ucapkan atas selesainya skripsi ini. Skripsi ini merupa- kan salah satu syarat yang harus ditempuh untuk memperoleh gelar Sarjana Sains di Program Studi Matematika.

  Dalam penyusunan skripsi ini penulis mendapat banyak bantuan yang be- rupa dorongan, motivasi, bimbingan, sarana maupun materi. Oleh karena itu penu- lis mengucapkan terima kasih kepada pihak yang telah memberikan bantuan ini, antara lain :

  1. Bapak Ir. Ig. Aris Dwiatmoko, M.Sc, selaku dosen pembimbing yang telah meluangkan waktu, pikiran dan penuh kesabaran membimbing penulis da- lam menyusun skripsi ini.

  2. Ibu Lusia Krimiyati Budiasih S.Si, M.Si selaku Ketua Program Studi Ma- tematika.

  3. Ibu Ch. Enny Murwaningtyas S.Si, M.Si selaku Dosen Pembimbing Aka- demik yang dengan sabar mendampingi penulis selama kuliah di USD.

  4. Bapak dan Ibu Dosen Program Studi Matematika yang telah memberikan ilmu yang berguna kepada penulis selama di bangku kuliah.

  5. Bapak Tukijo dan Ibu Linda yang telah memberikan pelayanan admini- strasi dalam urusan-urusan perkuliahan kepada penulis.

  6. Perpustakaan USD yang telah memberikan fasilitas dan kemudahan serta Staf karyawan Perpustakaan USD.

  7. Orang tuaku, Romo Y. Sari Jatmiko Pr, Pak Pras dan Mbak Tika yang tak henti-hentinya memberi dukungan semangat dan doa sehingga penulis da- pat menyelesaikan skripsi ini.

  8. Teman-teman angkatan 2003, Koko, Ridwan, Kamto, Valent, Anin, Ang- gi, Mery, Septi, Mekar dan Dewi yang telah bersama-sama menjalani ku- liah di USD.

  Penulis menyadari masih banyak kekurangan dan kelemahan dalam skripsi ini. Oleh karena itu, penulis dengan lapang dada menerima kritik dan saran serta masukan yang membangun dari pembaca agar skripsi ini menjadi lebih baik dan dapat menambah pengetahuan.

  Yogyakarta, Desember 2008 Penulis

  

DAFTAR ISI

  Halaman HALAMAN JUDUL........................................................................... i HALAMAN JUDUL (INGGRIS) ....................................................... ii HALAMAN PERSETUJUAN PEMBIMBING.................................. iii HALAMAN PENGESAHAN.............................................................. iv PERNYATAAN KEASLIAN KARYA.............................................. v HALAMAN PERSEMBAHAN.......................................................... vi ABSTRAK........................................................................................... vii ABSTRACT......................................................................................... viii PERNYATAAN PUBLIKASI KARYA ILMIAH............................ ix KATA PENGANTAR......................................................................... x DAFTAR ISI........................................................................................ xii DAFTAR TABEL................................................................................ xiv DAFTAR GAMBAR........................................................................... xv

  BAB I PENDAHULUAN A. Latar Belakang.........................................................................

  1 B. Rumusan Masalah....................................................................

  3 C. Pembatasan Masalah................................................................

  4 D. Tujuan Penulisan......................................................................

  4 E. Metode Penulisan.....................................................................

  4 F. Manfaat Penulisan....................................................................

  5 G. Sistematika Penulisan...............................................................

  5

  BAB II LANDASAN TEORI A. Skala Data.................................................................................

  28 2. Ukuran Similaritas untuk Struktur Biner..............................

  82 LAMPIRAN.........................................................................................

  80 DAFTAR PUSTAKA...........................................................................

  74 BAB V KESIMPULAN.......................................................................

  72 B. Kasus II...................................................................................

  51 BAB IV APLIKASI ANALISIS CLUSTER A. Kasus I.....................................................................................

  39 2. Metode Nonhierarchical.....................................................

  38 1. Metode Hierarchical...........................................................

  32 B. Metode-metode dalam Analisis Cluster..................................

  27 1. Ukuran Jarak untuk Data Kontinu........................................

  7 1. Data Kualitatif.......................................................................

  19 BAB III ANALISIS CLUSTER A Konsep Jarak antar Obyek.........................................................

  19 G. Analisis Diskriminan................................................................

  18 F. Fungsi Densitas Normal Multivariat.........................................

  12 E. Fungsi Densitas Normal Univariat ...........................................

  10 D. Penduga Kemungkinan Maksimum .........................................

  9 C. Probabilitas Total dan Teorema Bayes ....................................

  8 B. Matriks Data Multivariat..........................................................

  7 2. Data Kuantitatif......................................................................

  83

  DAFTAR TABEL

  Halaman Tabel 1.1.......................................................................................... 2 Tabel 3.1.......................................................................................... 33 Tabel 3.2.......................................................................................... 34 Tabel 3.3.......................................................................................... 35 Tabel 3.4.......................................................................................... 42 Tabel 3.5.......................................................................................... 49 Tabel 3.6.......................................................................................... 60 Tabel 3.7.......................................................................................... 63 Tabel 3.8.......................................................................................... 64 Tabel 3.9.......................................................................................... 66 Tabel 3.10........................................................................................ 67 Tabel 3.11........................................................................................ 68

Tabel 3.12. ....................................................................................... 68

  Tabel 3.13......................................................................................... 69 Tabel 4.1........................................................................................... 74 Tabel 4.2…....................................................................................... 75 Tabel 4.3…........................................................................................ 76

  DAFTAR GAMBAR

  Halaman Gambar 2.1....................................................................................... 21 Gambar 3.1...................................................................................... 38 Gambar 3.2...................................................................................... 41 Gambar 3.3...................................................................................... 42 Gambar 3.4...................................................................................... 44 Gambar 3.5...................................................................................... 45 Gambar 3.6...................................................................................... 47 Gambar 3.7...................................................................................... 50 Gambar 3.8...................................................................................... 51 Gambar 3.9...................................................................................... 52 Gambar 3.10.................................................................................... 53 Gambar 3.11.................................................................................... 54 Gambar 3.12.................................................................................... 59 Gambar 3.13.................................................................................... 60 Gambar 3.14.................................................................................... 61 Gambar 3.15.................................................................................... 62 Gambar 3.16..................................................................................... 63

BAB I PENDAHULUAN A. Latar Belakang Dalam kehidupan sehari-hari sering dijumpai pengelompokan suatu obyek,

  baik berupa benda atau suatu hal. Misal di bidang Biologi, pengelompokan makhluk hidup bisa berdasarkan pada beberapa hal, seperti menurut struktur tubuhnya, cara berkembang biak, habitatnya, dan sebagainya. Sebagai contoh, makhluk hidup dikelompokkan menjadi beberapa kelompok, yaitu mamalia, aves, reptil dan pisces. Pengelompokan tersebut tentunya dapat dibuat karena masing- masing makhluk hidup mempunyai karakteristik yang menjadi dasar dalam pengelompokan. Umumnya nilai karakteristik merupakan suatu variabel yang nilainya dapat berubah-ubah.

  Sebagai contoh lain, seorang peneliti ingin mengetahui kebiasaan masyarakat meminum teh. Oleh karena itu dibuat angket yang mengukur tentang kelompok apa saja yang terbentuk dari masyarakat yang minum teh serta karakateristik teh apa yang paling banyak diminati masyarakat. Karakteristik teh yang diukur meliputi harga, rasa melati, kemasan dan warna. Skala pengukuran angket menggunakan skala likert dengan skor 1-7, di mana :

  1. Skor 1 pada variabel harga menunjukkan tidak mahal dan 7 menunjukkan sangat mahal.

  2. Skor 1 pada variabel rasa melati artinya tidak suka terasa aroma melati dan 7 sangat suka aroma melati.

  3. Skor 1 pada variabel kemasan menunjukkan tidak penting dan 7 sangat penting.

  4. Skor 1 pada variabel warna menunjukkan cenderung warna kekuningan dan 7 menunjukkan warna kemerahan.

  Pada Tabel 1.1 disajikan beberapa sampel dari hasil pengumpulan angket sebagai ilustrasi, tetapi pada kenyataannya membutuhkan sampel yang lebih besar.

  Obyek ke- Usia Harga Rasa Melati Kemasan Warna

  1 40 1 4 3 5 2 25 7 1 1 1 3 32 2 4 3 4 4 28 6 1 4 2 5 36 2 4 4 2 6 35 2 2 4 4 7 39 2 4 4 2 8 26 6 2 4 5 9 22 5 2 2 2 10 31 5 5 5 5

Tabel 1.1 Data Angket

  Dari tabel tersebut dapat diketahui bahwa ada dua kelompok usia yang mempunyai karakteristik berbeda, yaitu usia kurang dari 30 tahun dan lebih dari 30 tahun. Pada kelompok usia kurang dari 30 tahun cenderung mempunyai ciri memilih harga teh mahal, kurang suka rasa melati, kurang memperhatikan kemasan dan lebih suka teh warna kekuningan. Hal itu bisa dilihat sekilas karena sampel berukuran kecil, pada kenyataannya, sering terdapat sampel yang berukuran besar. Pada kasus sampel berukuran besar, peneliti belum tentu bisa mengambil kesimpulan dengan pasti sesuai dengan data yang diperoleh.

  Berdasarkan ilustrasi di atas diperlukan teknik untuk mengelompokkan obyek-obyek ke dalam kelompok yang anggota-anggotanya adalah obyek-obyek yang memiliki kemiripan karakteristik atau variabel yang diteliti secara bersama- sama. Dalam ilmu statistika terdapat suatu cabang ilmu pengetahuan yaitu analisis multivariat yang bertujuan untuk mengetahui hubungan lebih dari satu variabel independen dengan satu atau lebih variabel dependen dan atau perbedaan lebih dari dua sampel. Salah satu teknik analisis multivariat yang digunakan untuk mengklasifikasikan obyek atau kasus ke dalam kelompok yang relatif homogen adalah analisis cluster. Konsep dasar analisis cluster yaitu dapat mengelompokan suatu obyek, maka diperlukan ukuran untuk mengukur seberapa mirip atau berbeda masing-masing obyek tersebut. Ukuran tersebut dinyatakan dalam jarak obyek satu ke jarak obyek lainnya yang akan digunakan dalam membentuk kelompok dari sampel-sampel yang diketahui dengan bermacam-macam metode dalam analisis cluster yang terbagi dalam dua macam, yaitu metode hierarki dan

  nonhierarki.

B. Rumusan Masalah

  Permasalahan yang akan dibahas dalam skripsi ini dapat dirumuskan sebagai berikut :

  1. Bagaimana landasan teori dari analisis cluster ?

  2. Bagaimana sistematika analisis cluster dan metode-metodenya ?

  3. Bagaimana aplikasi analisis cluster dalam analisis data ?

  C. Pembatasan Masalah

  Dalam skripsi ini, penulis membahas tentang analisis cluster dan aplikasinya dalam analisis data. Penulisan skripsi ini dibatasi pada beberapa hal karena sudah diperoleh dalam perkuliahan atau di luar jangkauan skripsi ini. Hal- hal yang tidak dibahas adalah sebagai berikut :

  1. Metode divisive, optimizing thereshold, sequential thereshold dan paralel thereshold tidak dibahas karena jarang berkembang.

  2. Profil cluster tidak dibahas karena telah dibahas di skripsi yang lain.

  3. Dasar-dasar teori analisis diskiminan tidak dibahas karena telah dibahas di skripsi lain.

  D. Tujuan Penulisan

  Tujuan penulisan skripsi ini adalah : 1. Mempelajari landasan matematis analisis cluster.

  2. Memahami penerapan analisis cluster.

  E. Metode Penulisan

  Penulisan skripsi ini menggunakan metode studi pustaka, yaitu dengan menggunakan buku-buku, jurnal-jurnal, makalah-makalah yang telah dipublikasikan dan dengan bantuan perangkat lunak komputer, yaitu Matlab 7.0.1 dan SPSS 13.

  F. Manfaat Penulisan

  Manfaat yang diharapkan dari penulisan skipsi ini adalah : 1. Mengetahui landasan teori analisis cluster.

  2. Mengetahui sistematika dan metode-metode yang digunakan dalam menganalisa data dengan analisis cluster.

  G. Sistematika Penulisan

  BAB I : PENDAHULUAN Bab ini berisi gambaran umum tentang isi skripsi ini yang meliputi latar belakang masalah, perumusan masalah, pembatasan masalah, tujuan penulisan, manfaat penulisan, metode penulisan dan sistematika penulisan.

  BAB II : LANDASAN TEORI Bab ini berisi beberapa teori yang melandasi pembahasan bab selanjutnya, yaitu skala data, matriks data multivariat, probabilitas total dan teorema Bayes, penduga Kemungkinan Maksimum (Maximum Likelihood), fungsi densitas normal univariat, fungsi densitas normal multivariat dan analisis diskriminan.

  BAB III : ANALISIS CLUSTER Bab ini berisi tentang konsep proksimitas antar obyek, metode-metode analisis cluster yaitu metode hierarki dan

  nonhierarki serta contoh-contohnya.

  BAB IV : APLIKASI ANALISIS CLUSTER DALAM ANALISIS DATA Bab ini berisi tentang kasus dalam menganalisa data yang akan diselesaikan menggunakan analisis cluster dengan SPSS

  13. BAB V : KESIMPULAN

  Bab ini berisi kesimpulan dari keseluruhan materi yang telah diuraikan.

BAB II LANDASAN TEORI Dalam bab ini akan dibahas tentang dasar-dasar teori yang akan digunakan

  dalam Bab III. Dasar-dasar teori yang dipergunakan adalah skala data, matriks data multivariat, probabilitas total dan teorema Bayes, penduga Kemungkinan Maksimum (Maksimum Likelihood), fungsi densitas normal univariat, fungsi densitas normal multivariat dan analisis diskriminan.

A. Skala Data

  Jenis-jenis data perlu diuraikan karena terkait dengan analisis cluster yang menggunakan konsep jarak pada Bab. 3. Secara umum ada 2 jenis data yang digunakan, yaitu data kualitatif dan kuantitatif.

1. Data Kualitatif

  

Data kualitatif merupakan hasil pengukuran yang sering juga disebut

  sebagai data kategorikal. Berdasarkan skala pengukurannya, data yang termasuk dalam kategori kualitatif adalah :

a. Skala Nominal

  

Data berskala nominal, diperoleh dari hasil mengkategorikan variabel, tidak

  mempunyai jarak, tidak dapat diurutkan dan tidak dapat dikenakan operasi matematika. Bilangan yang dihasilkan dari pengukuran hanya bersifat memberi kode atau atribut bagi ciri-ciri pengelompokan. Contoh : gender ( pria, wanita ), jenis mesin (mesin bubut, mesin bor), jenis kendaraan (truk, mobil, motor), dan lain-lain. Dalam prakteknya, hasil penggolongan tersebut berupa kelompok- kelompok yang disimbolkan dengan angka. Misal, untuk jenis kelamin, pria diberi simbol angka ‘0’ dan wanita diberi angka ‘1’ atau angka lainnya.

b. Skala Ordinal

  

Ciri data ordinal mirip dengan data nominal, perbedaannya adalah data

  ordinal dapat diurutkan. Contoh : tingkat pendidikan ( SD, SMP, SMA, Diploma, Sarjana, Pascasarjana), tingkat kepuasan pelanggan (sangat tidak puas, tidak puas, biasa saja, puas, sangat puas), dan lain-lain. Seperti pada skala nominal, skala ordinal juga disimbolkan dalam bentuk lambang bilangan, tetapi bilangan- bilangan ini memiliki makna urutan sesuai karakteristik yang diwakilinya. Misal, untuk tingkat pendidikan, SD sampai pascasarjana diberi angka ‘1’ sampai ‘6’ yang menunjukkan tingkatan atau urutan pendidikan dari yang terendah sampai tertinggi.

2. Data Kuantitatif Data yang termasuk dalam skala kuantitatif adalah sebagai berikut :

a. Skala Interval

  

Skala interval lebih mempunyai arti daripada skala ordinal dan skala

  nominal. Data interval mempunyai sifat skala ordinal dan skala nominal, namun pada skala interval jarak antara satu kategori dengan kategori lain terdefinisi dengan jelas. Ciri lain skala interval adalah tidak mempunyai nilai nol mutlak. Contoh : suhu, bisa diukur dengan skala Celcius, Fahrenheit Kelvin atau Reamur yang masing-masing mempunyai skala sendiri-sendiri. Suhu tidak mempunyai nilai nol mutlak, misal suhu

  0 C bukan berarti bahwa benda yang diukur tidak memiliki panas, tetapi hanya sebagai penunjuk tingkat suhu yang rendah setara dengan suhu air membeku.

b. Data Rasio

  

Data rasio mempunyai sifat ketiga data di atas, namun data rasio

  mempunyai nilai nol mutlak, artinya karakteristik yang diukur benar-benar nol atau tidak bernilai. Contoh : tinggi dan berat badan.

B. Matriks Data Multivariat

  

Data multivariat adalah data yang diperoleh dari hasil pengukuran terhadap

n observasi-observasi berdasarkan d variabel-variabel. Secara umum data

  multivariat disajikan dalam bentuk matriks X berukuran n x d, dan ditulis sebagai berikut : L L

  x x x x

  ⎡ ⎤ 11 12 1 j 1 d ⎢ ⎥

  x x L x L x 21 22 2 j 2 d

  ⎢ ⎥ ⎢ ⎥

  M M M M ⎢ ⎥

  

X = (2.1)

  L L

  x x x x

  ⎢ ⎥ i 1 i 2 ij id ⎢ ⎥

  M M M M ⎢ ⎥ ⎢ ⎥

  x x L x L x n 1 n 2 nj nd

  ⎣ ⎦ dengan i = 1 , 2 , K , n dan j = 1 , 2 , K , d . Data multivariat dinotasikan dengan

  X = X , dengan x adalah { } ij ij

  pengamatan terhadap observasi ke-i pada variabel ke-j. Analisis cluster menggunakan data multivariat sebagai input.

C. Probabilitas Total dan Teorema Bayes Definisi 2.1 Probabilitas Bersyarat

  

Teori ini akan digunakan dalam membahas pengklasifikasian yang

  dikombinasikan dan pendugaan parameter pada Bab 3 sub bab metode nonhierarki .

  Probabilitas terjadinya suatu kejadian A jika diketahui kejadian B terjadi disebut probabilitas bersyarat dan dilambangkan dengan P(A|B) serta

  P A B ( ∩ ) didefinisikan sebagai ( | ) P ( B ) .

  P A B = di mana > P B ( )

  Sebaliknya , P(B|A) adalah probabilitas terjadinya suatu kejadian B jika

  P A B ( ∩ )

  diketahui kejadian A terjadi didefinisikan sebagai ( | ) di mana

  P B A = P A ( ) P ( A ) .

  >

  Teorema 2.1 Teorema Probabilitas Total

  Andaikan kejadian-kejadian A , A , K , A adalah partisi-partisi yang saling 1 m 2 m asing dari ruang sampel S dengan A = S dan B adalah sembarang kejadian i

  U i = 1

  juga dalam ruang sampel S, maka m m B A B B | A A .

  P ( ) = P ( ∩ ) = P ( ) ( ) P i i i ∑ ∑ i i = 1 = 1 Bukti :

  Dengan sifat irisan himpunan,

  B = B ∩ S = B ∩ A ∪ A ∪ ∪ A

  ( ) 1 2 m

  K B A B A B A = ( ∩ ) ( ∪ ∩ ) ∪ ∪ ( ∩ ) 1 2 m

  K Karena A saling asing, maka B A juga saling asing. Jadi,

  ii m

  K

  

P ( ) B = P ( B ∩ A ) ( P B ∩ A ) + + P ( B ∩ A ) = P ( A ∩ B ) + (2.2)

1 2 m ii = 1 Dari definisi 2.1 diperoleh

  

P A ∩ B = P B | A P A (2.3)

( ) ( ) ( ) i i i

  Kemudian subtitusikan ke dalam (2.2), sehingga diperoleh m m

  P B P A B P B | A P A ( ) = ( ∩ ) = ( ) ( ) i i i

  ∑ ∑ i = 1 i = 1 Teorema 2.2 Teorema Bayes

  Andaikan kejadian-kejadian A , A , K , A adalah partisi-partisi yang 1 2 m m saling asing dari ruang sampel S dengan A S dan B adalah sembarang i =

  U i = 1

  kejadian juga dalam ruang sampel S, maka

  =

  ( ) k P A P B A P A P B A K P A P B A

  P ( ) A P B A k k ( ) P A B

  ( ) ( ) ( ) 1 ( 1 ) 2 ( 2 ) k ( k ) Bukti :

  Dari definisi probabilitas bersyarat diperoleh

  P A B ( ∩ ) k

  

P ( A | B ) = (2.4)

k

  B

  P ( )

  dengan mensubtitusikan (2.3) dan hasil teorema probabilitas total ke dalam persamaan (2.4), maka diperoleh

  

P A P B A

( ) k ( k )

  P A B = ( ) k

  ■ A B A A B A K A B A

  P ( ) P P ( ) P P ( ) P 1 ( 1 ) 2 ( 2 ) ( ) + + + k k

P A | B disebut probabilitas posterior dari kejadian A jika kejadian B terjadi

  ( ) k dan P A adalah probabilitas prior dari kejadian B.

  ( ) k

D. Penduga Kemungkinan Maksimum Definisi 2.2 Penduga Kemungkinan Maksimum

  Penduga kemungkinan maksimum akan berguna dalam membahas mencari penduga kemungkinan maksimum parameter dari suatu distribusi, pada Bab 3 akan digunakan untuk mencari penduga kemungkinan maksimum untuk bila

  μ diketahui sampel random berdistribusi normal multivariat.

  Misal L ( ) = f ( x , ) ( . f x , ) . L . f ( x , ) adalah fungsi likelihood untuk θ θ θ θ 1 2 n

  ˆ ˆ variabel random K Jika L adalah sebuah fungsi

  X , 1 X , , 2 n X . θ = ϑ ( x , x , , x ) 1 2 n

  dari observasi

  X , X , K , X yang merupakan nilai dari 1 2 n θ yang

  ˆ ˆ memaksimumkan L , maka

  X , X , K , X adalah penduga

( ) θ Θ = ϑ ( )

1 2 n

  ˆ ˆ kemungkinan maksimum dari x , x , L , x adalah penduga θ . θ = ϑ ( ) 1 2 n kemungkinan maksimum dari

  X , X , K , X .

  θ untuk sampel 1 2 n Mencari penduga kemungkinan maksimum merupakan masalah mencari titik maksimum dari suatu fungsi, sehingga penduga kemungkinan maksimum merupakan penyelesaian dari persamaan

  dL ( ) θ

  (2.5) =

  d

  θ Secara analitis akan lebih mudah untuk mencari nilai maksimum dari logaritma, sehingga akan dicari penduga kemungkinan maksimum untuk log-

  likelihood . Nilai

  θˆ yang memaksimumkan log-likelihood juga akan memaksimumkan fungsi likelihood.

  Jika fungsi likelihood mempunyai k parameter, yaitu n L , , K , , , K , (2.6)

  ( θ θ θ ) = f ( x x x ) 1 2 k 1 2 ki = 1

  maka penduga kemungkinan maksimum parameter , , K , adalah variabel θ θ θ 1 2 k random

  ˆ ˆ ˆ ˆ ˆ ˆ Θ =

  X , X , K , X , Θ = X ,

X , K ,

X , K , Θ = X , X , K ,

  X 1 ϑ ( ) ϑ ( ) ϑ ( ) 1 1 2 n 2 2 1 2 n k k 1 2 n

  ˆ ˆ ˆ di mana , , K , adalah nilai yang memaksimumkan L θ , θ , K , θ . ϑ ϑ ϑ ( ) 1 2 k

  1 2 k

  Oleh karena itu, nilai yang dapat memaksimumkan fungsi likelihood-nya adalah penyelesain dari k persamaan, yaitu ∂ L , , K ,

  ( θ θ θ ) 1

2 k

  = ∂ θ 1 L , , K ,

  ∂ ( θ θ θ ) 1 2 k =

  ∂ θ 2 M L , , K ,

  ∂ ( θ θ θ ) 1 2 k =

  ∂ θ k

  Contoh 2.1

  Diketahui , , ...,

  X 1 X 2 n X adalah sampel random dari distribusi normal 2

  dengan rata-rata dan variansi dan 2 μ σ akan dicari penduga maksimum untuk μ σ .

  2 2 1

  σ μ σ μ

  ) ..., , , ( L

  σ μ σ μ

  σ μ σ μ

  π σ π σ π σ π σ

  ( ) ( )

  ( ) ( )

  ( ) 2 1 2 2 1 2 2 1 2 2 2 2 2

2

2

  2

  1

  2

  1

  2

  1

  σ μ

  2

  πσ π σ

  π σ

  ⎟ ⎟ ⎠ ⎞

  ⎜ ⎜ ⎝ ⎛

  − − ⎟ ⎟ ⎠ ⎞ ⎜

  ⎜ ⎝ ⎛ − −

  − ⎟ ⎟ ⎠ ⎞ ⎜

  ⎜ ⎝ ⎛ − −

  ∑ =

  ∑ =

  ∑ ⎟⎟ ⎠ ⎞

  ⎜⎜ ⎝ ⎛

  =

  = = = n i i n i i n i i x n x n n x

n

e

e

e

  1 ) ( ... ) ( ) (

  1

  2

  − ⎟ ⎠ ⎞ ⎜

  1 ) (

  ⎟ ⎠ ⎞ ⎜

  ⎝ ⎛ − −

  =

  σ μ

  π σ x x

  e x f

  Penyelesaian : Fungsi likelihood untuk variabel random n

  X X X , , , 2 1 K adalah ∏

  = ⎟ ⎠ ⎞

  ⎜ ⎝ ⎛ − −

  ⎟ ⎠ ⎞ ⎜

  ⎝ ⎛ − − ⎟ ⎠

  ⎞ ⎜ ⎝ ⎛ −

  ⎝ ⎛ − −

  2

  = ⎪⎭ ⎪ ⎬ ⎫

  ⎪⎩ ⎪ ⎨ ⎧

  ⎪⎭ ⎪ ⎬ ⎫

  ⎪⎩ ⎪ ⎨ ⎧

  ⎪⎭ ⎪ ⎬ ⎫

  ⎪⎩ ⎪ ⎨ ⎧

  = =

  =

  n i x x x x n i e

e e e

x f x f x f x x x f

  1 2 1 2 1 2 1 2 1 3 2 1 2 1 2 2 2 2

  2

  1

  2

  1 ...

  karena lebih mudah untuk mencari nilai maksimum dari fungsi logaritma, sehingga akan dicari penduga maksimum untuk log-likelihood, diperoleh logaritma dari fungsi likelihood adalah

  ˆ 1 1 2 1

  2

  ∑ −

  σ μ σ σ

  μ σ

  2 L ln σ

  1

  1

  2

  1

  ⎟ ⎠ ⎞

  2

  ( ) 4 1 2 2 2 2 1 2 2 2

  ( ) ( ) ( )

  = n i i x

  ∂ ∂

  − =

  μ ∑

  ⎜ ⎝ ⎛

  ⎜ ⎝ ⎛

  ( ) ( ) 2 1 L ln

  

( )

n

x n x x

n

i i n i i n i i

  σ μ

  μ μ

  =

  

=

=

  −

  = ∑

  = = −

  Dengan menyamakan masing-masing turunannya dengan nol diperoleh

  − = ⎟ ⎠ ⎞

  = − = n

i

i n i i x n x n

  ∂

  − = ∂

  ⎜ ⎝ ⎛

  ⎟ ⎠ ⎞

  ⎜ ⎝ ⎛

  ⎟ ⎠ ⎞

  ⎜ ⎝ ⎛ ∑ − +

  σ μ

  σ diperoleh

  ( ) ( )

  ⎜ ⎝ ⎛ ∑ −

  ⎜ ⎝ ⎛ − − = n i i n x n x

e

n i i

  = ⎟ ⎟ ⎠ ⎞ ⎜

  ∑ =

  ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧

  − = ⎪ ⎪ ⎭ ⎪⎪ ⎬ ⎫

  ⎩⎨ ⎧

  − ⎭⎬ ⎫

  ⎟ ⎠ ⎞

  2 ln 2 2 ln

  σ μ

  πσ

  μ πσ

  1 L ln ln 2 1 2 σ

  2

  2 2 ln 1 ln

  ( ) ( ) 2 1 2 2

2

2 2 2

  ( ) { } ( ) ( ) 2 1 2 2 2 1 2 2

  2

  Kemudian dengan menurunkan terhadap μ dan 2

  ( ) ( ) 1 2 1 2 2

  x n n

  ⎜ ⎝ ⎛ ∑ − − − − = σ μ σ π n i i

  ⎟ ⎠ ⎞

  − =

  2 L ln

  1 ln 2 2 ln

  2

  = = n i i n i i x n n x n

  2 2 ln

  − − =

  ⎜ ⎝ ⎛∑ −

  − − − = ⎟ ⎠ ⎞

  ⎜ ⎝ ⎛ ∑ −

  πσ ⎟ ⎠ ⎞

  σ μ

  μ σ π

  2 σ

  • ⎟ ⎠ ⎞
  • ⎟ ⎠ ⎞

  μˆ merupakan penduga maksimum dari μ . Penduga maksimum untuk 2 σ diperoleh dengan mengganti

  

  = μˆ dan

  ( ) n X x n i i

  ∑ −

  =

  =1 2 2

  ˆ σ .

  Contoh 2.2

  Diketahui X berdistribusi eksponensial ⎩ ⎨ ⎧

  ≥ =

  , selainnya ,

  σ masing-masing adalah

  ) | (

  x e x p θ x

  θ θ

  Tentukan penduga kemungkinan maksimum untuk θ . Penyelesaian : Fungsi likelihood untuk variabel random X adalah

  ( )

  ∑ = = =

  − = −

  ∏ n i i i x n n

i

x n n e e x x x 1 1 2 1

  , , , L

  θ θ

  X

  Jadi, penduga kemungkinan maksimum bagi μ dan 2

  μ dengan X , sehingga

  σ σ n i i

  ( )

  2

  1

  2 4 1 2 2 =

  ∑ −

  ⎜ ⎝ ⎛

  ⎟ ⎠ ⎞

  ⎜ ⎝ ⎛

  −

  

=

  X x n ( ) ( )

  σ σ σ

  ( ) n X x n X x n X x n i

i

n i i n i i

  ∑ ∑ ∑

  = = =

  − =

  = −

  = −

  1 2 2 2 1

2

2 4 1

2

  ˆ

  2

  2 σ

  θ θ K kemudian dengan menurunkan terhadap θ dan menyamakannya dengan nol diperoleh

  ( ) ( ) ( ) ( )

  = n i i

  ⎜⎜ ⎜ ⎝ ⎛

  ∑ = =

  

n

i

i

n

i

i n i i n n n i i n n n i x i n x n x

n

x n x n x n e x e n n i n i

  

1

1

1 1 1 1 1 1

  ˆ 1 1 1 1 θ

  θ θ

  θ θ θ

  θ θ

  θ θ

  Jadi, penduga kemungkinan maksimum untuk θ adalah

  ∑ =

  x n 1

  ∑ =

  ˆ θ .

  Contoh 2.3

  Percobaan Binomial menghasilkan n observasi X

  1 , X

  2 , ..., X n

  dimana 1 = i

  X

  jika observasi berhasil dan = i

  X bila gagal. Tentukan penduga Kemungkinan maksimum untuk probabilitas berhasil p.

  ( ) ( ) ( ) x n x n x C p p x

  X P x p

  − = = =

  ⎟⎟ ⎟ ⎠ ⎞

  ⎜⎜ ⎜ ⎝ ⎛

  L

  ∑ =

  1 1 1 1 1 1 1 1 1 1 1 1

  = ⎟⎟ ⎟ ⎠ ⎞

  ⎜⎜ ⎜ ⎝ ⎛

  ∑ −

  ⎟⎟ ⎟ ⎠ ⎞

  ⎜⎜ ⎜ ⎝ ⎛

  ∑ ⎟⎟ ⎟ ⎠ ⎞

  ⎜⎜ ⎜ ⎝ ⎛

  ∑ − +

  ⎟⎟ ⎟ ⎠ ⎞

  ⎜⎜ ⎜ ⎝ ⎛

  ∂ ∂

  ⎟⎟ ⎟ ⎠ ⎞

  ∑ ∑ = −