Analisis Kelompok Hirarki untuk Perbandingan Multi Sample
ANALISIS KELOMPOK HIRARKI UNTUK PERBANDINGAN MULTI SAMPEL
TESIS Oleh ELFITRA 127021012/MT
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA MEDAN 2014
Universitas Sumatera Utara
ANALISIS KELOMPOK HIRARKI UNTUK PERBANDINGAN MULTI SAMPEL
TESIS
Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Magister Sains dalam
Program Studi Magister Matematika pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Sumatera Utara
Oleh: ELFITRA 127021014/MT
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA MEDAN 2014
Universitas Sumatera Utara
Judul Tesis
Nama Mahasiswa Nomor Pokok Program Studi
: ANALISIS KELOMPOK HIRARKI UNTUK PERBANDINGAN MULTI SAMPEL
: Elfitra : 127021014 : Magister Matematika
Menyetujui, Komisi Pembimbing
(Dr. Sutarman, M.Sc) Ketua
(Prof. Dr. Herman Mawengkang) Anggota
Ketua Program Studi (Prof. Dr. Herman Mawengkang)
Dekan (Dr. Sutarman, MSc)
Tanggal lulus: 5 Juni 2014
Universitas Sumatera Utara
Telah diuji pada 5 Juni 2014
PANITIA PENGUJI TESIS Ketua : Dr. Sutarman, M.Sc Anggota : 1. Prof. Dr. Herman Mawengkang
2. Dr. Marwan Ramli, M.Si 3. Prof. Dr. Saib Suwilo, M.Sc
Universitas Sumatera Utara
PERNYATAAN ANALISIS KELOMPOK HIRARKI UNTUK PERBANDINGAN
MULTI SAMPEL TESIS
Saya mengakui bahwa tesis ini adalah hasil karya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing dituliskan sumbernya.
Medan, 5 Juni 2014 Elfitra
i
Universitas Sumatera Utara
ABSTRAK Biasanya dalam usaha perbandingan sampel dari banyak observasi, banyak metode yang digunakan. Tujuan dari beberapa metode ini adalah untuk menguji hipotesis kesamaan pasangan, akan tetapi sulit menyaring sifat-sifat khusus dari data yang disajikan. Sebuah pendekatan alternatif diperkenalkan dengan tidak melibatkan tes hipotesis untuk menguji kesamaan kelompok melainkan melihat perbedaan mean kemudian mengkategorikan mean dan sampel berbeda jika berada pada kelompok yang berbeda yakni metode analisis kelompok. Metode Analisis kelompok yang dikenalkan disini tidak menggunakan jarak seperti analisis kelompok pada umumnya namun menggunakan algoritma secara hirarki dan menggunakan model informasi kriteria Akaike’s Information Criteria (AIC) untuk melihat pasangan kelompok yang memiliki kesamaan. Secara umum dalam analisis kelompok diasumsi berdistribusi normal. Analisis kelompok juga dapat dikerjakan dengan distribusi power normal. Hasil analisis kelompok dengan power normal juga memiliki kesamaan gambaran seperti yang ditampilkan dalam grafik statistik.
Kata kunci: Analisis kelompok, Analisis kelompok multi sampel, Kriteria informasi, Perbandingan multi sampel
ii
Universitas Sumatera Utara
ABSTRACT Usually in proccces of a comparison sample of many observations, many methods are used. The purpose of some of these methods is to test the similarity hypothesis pair, but difficult to filter the specific properties of the data presented. An alternative procedures introduced by not involving tests of hypotheses to test the similarity of group mean differences rather see then categorize different sample mean and if it is in a different group. Analysis cluster method introduced here not using distance like ussually in analysis cluster but using algorithm hirarchi and criteria information models Akaike’s Information Criteria (AIC) to see pairwise who have the same group. In general, the analysis assumed normal distribution group. analysis cluster can done by the normal power distribution. The results of the analysis of the group with normal power also have the same picture as shown in statistical graphs.
Keyword: Cluster analysis, Multi sample cluster analysis, Criteria information, Multisample comparison.
iii
Universitas Sumatera Utara
KATA PENGANTAR
Setinggi puji dan sedalam syukur penulis serahkan kehadirat Allah SWT yang telah memberikan berkat dan rahmadNya sehingga penulis dapat menyelesaikan tesis yang berjudul ANALISIS KELOMPOK HIRARKI UNTUK MULTI SAMPEL. Tesis ini merupakan salah satu syarat untuk menyelesaikan studi pada Program Studi Magister Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) Universitas Sumatera Utara.
Pada kesempatan ini, penulis menyampaikan terimakasih sebesar-besarnya kepada :
Prof. Dr. dr. Syahril Pasaribu, DTM&H, M.Sc(CTM), Sp.A(K) selaku Rektor Universitas Sumatera Utara
Dr. Sutarman, M.Sc selaku Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) Universitas Sumatera Utara sekaligus pembimbing utama yang telah banyak memberikan bantuan dalam penulisan tesis.
Prof. Dr. Herman Mawengkang selaku Ketua Program Studi Magister Matematika FMIPA USU dan pembimbing kedua yang telah banyak memberikan bantuan dalam penulisan tesis ini.
Prof. Dr. Saib Suwilo, M.Sc selaku Sekretaris Program Studi Magister Matematika FMIPA USU dan selaku penguji yang telah banyak memberikan bimbingan dan arahan serta motivasi kepada penulis dalam penulisan tesis ini.
Dr. Marwan Ramli, M.Sc selaku penguji yang juga telah banyak memberikan bimbingan kepada penulis dalam penulisan tesis ini.
Seluruh Staf Pengajar pada Program Studi Magister Matematika FMIPA USU yang telah banyak memberikan ilmu pengetahuan selama masa perkuliahan.
Kakanda Misiani, S.Si selaku Staf Administrasi Program Studi Magister Matematika FMIPA USU yang telah banyak memberikan pelayanan yang baik kepada penulis selama mengikuti perkuliahan.
iv
Universitas Sumatera Utara
Seluruh rekan-rekan mahasiswa program studi magister matematika FMIPA USU tahun 2012 ganjil (Teh wilma, bang sulaiman, kak hana, romi, isna, dilla, hari, adi, ari, silvi, wenny, tiur, liza, rini, ugi, bang mail,well, susanto, ryandi, kak juli dan sari) yang telah memberikan bantuan moril dan dorongan kepada penulis dalam penulisan tesis ini.
Tak lupa penulis mengucapkan terimakasih sebesar-besarnya dan penghargaan setinggi-tingginya kepada ibunda tercinta Mariah binti Ismail dan ayahanda Alm H. Hafas Bakri yang mencurahkan kasih sayang dan dukungan kepada penulis, terlebih yang dengan setia mendampingi dan membantu penulis selama mengikuti perkuliahan hingga sampai penulisan tesis ini. Tak lupa yang spesial kepada suami tercinta Juliandi yang telah memberikan semangat dan motivasi selama penulisan tesis ini dan putri kecilku Maghfirah Balqis yang menjadi motivasi terbesar dalam penulisan ini. Terima kasih kepada sahabat-sahabatku serta rekan-rekan kerja unimed lainnya yang tidak dapat disebutkan satu-persatu. Semoga Allah SWT memberikan balasan atas jasa-jasa mereka yang telah diberikan kepada penulis.
Penulis menyadari bahwa tesis ini masih jauh dari sempurna, untuk itu penulis mengharapkan kritik saran untuk penyempurnaan tesis ini. Semoga tesis ini dapat bermanfaat bagi pembaca dan pihak-pihak lain yang memerlukannya. Terimakasih.
Medan, 5 Juni 2014 Penulis,
Elfitra
v
Universitas Sumatera Utara
RIWAYAT HIDUP Elfitra dilahirkan di Peureulak, Aceh Timur pada tanggal 26 Juni 1982 dari pasangan Bapak Alm H. Hafas Bakri & Ibu Mariah. Penulis menamatkan pendidikan Sekolah Dasar 060796 Medan tahun 1994, Sekolah Menengah Pertama (SMP) Swasta Darussalam Medan tahun 1997, Sekolah Menengah Atas (SMA) Swasta Tunas Kartika I-1 Medan tahun 2000. Pada tahun 2000 memasuki Perguruan Tinggi Universitas Negeri Medan fakultas MIPA jurusan Pendidikan Matematika pada Strata Satu (S-I) dan lulus tahun 2006. Pada tahun 2006 bekerja sebagai volunter di Lembaga Kerja Sama Indonesia Jerman. Juli 2007 penulis bekerja sebagai tenaga pengajar di SMP Shafiyatul Amaliyyah hingga 2009. Selanjutnya Juli 2009, penulis bekerja sebagai staf pengajar di Universitas Negeri Medan di jurusan pendidikan matematika sampai sekarang. Pada tahun 2012, penulis melanjutkan pendidikan pada Program Studi Magister Matematika Universitas Sumatera Utara.
vi
Universitas Sumatera Utara
DAFTAR ISI
PERNYATAAN ABSTRAK ABSTRACT KATA PENGANTAR RIWAYAT HIDUP DAFTAR ISI DAFTAR TABEL DAFTAR GAMBAR BAB 1 PENDAHULUAN
1.1 Latar Belakang 1.2 Rumusan Masalah 1.3 Tujuan Penelitian 1.4 Manfaat Penelitian 1.5 Metode Penelitian BAB 2 TINJAUAN PUSTAKA
BAB 3 LANDASAN TEORI 3.1 ANOVA dan MANOVA 3.2 Analisis Kelompok 3.2.1 Analisis kelompok hirarki
Halaman
i ii iii iv vi vii ix x 1
1 4 4 4 4 6
9
9 10 11
vii
Universitas Sumatera Utara
3.2.2 Analisis kelompok non hirarki
13
BAB 4 ANALISIS KELOMPOK MULTI SAMPEL
14
4.1 Permasalahan Pengelompokan Multi Sampel
14
4.2 Menghitung Alternatif Kelompok
15
4.3 Model Kriteria Informasi
17
4.3.1 Akaike Information Criterion (AIC)
17
4.3.2 Consistent Akaike Information Criterion (CAIC)
18
4.3.3 Schwarz Bayesian Criterion (SBC)
18
4.3.4 Information Complexiry Information Criterion (ICOMP) 18
4.4 Analisis Kelompok Multi Sampel Berdistribusi Normal
19
4.5 Analisis Kelompok Multi Sampel Berdistribusi Power Normal 23
4.6 Contoh Permasalahan
24
BAB 5 KESIMPULAN DAN SARAN
35
5.1 Kesimpulan 5.2 Saran DAFTAR PUSTAKA
35 36 37
viii
Universitas Sumatera Utara
DAFTAR TABEL
Nomor
Judul
4.1 Contoh alternatif pengelompokan 4.2 Analisis kelompok multi sampel untuk K = 4 4.3 Pengamatan awal bayi jalan (bulan) 4.4 Hasil perhitungan ANOVA 4.5 Multiple comparisons hasil uji LSD 4.6 Analisis kelompok pengamatan bayi berjalan
Halaman
17 22 25 26 26 33
ix
Universitas Sumatera Utara
DAFTAR GAMBAR
Nomor
Judul
Halaman
3.1 Klasifikasi metode analisis kelompok 3.2 Contoh pohon alur analisis kelompok hirarki 4.1 Tahapan pembagian kelompok 4.2 Diagram boxplot pengamatan bayi berjalan 4.3 Dendogram analisis kelompok berdistribusi normal 4.4 Dendogram analisis kelompok berdistribusi power normal
11 13 22 25 34 34
x
Universitas Sumatera Utara
ABSTRAK Biasanya dalam usaha perbandingan sampel dari banyak observasi, banyak metode yang digunakan. Tujuan dari beberapa metode ini adalah untuk menguji hipotesis kesamaan pasangan, akan tetapi sulit menyaring sifat-sifat khusus dari data yang disajikan. Sebuah pendekatan alternatif diperkenalkan dengan tidak melibatkan tes hipotesis untuk menguji kesamaan kelompok melainkan melihat perbedaan mean kemudian mengkategorikan mean dan sampel berbeda jika berada pada kelompok yang berbeda yakni metode analisis kelompok. Metode Analisis kelompok yang dikenalkan disini tidak menggunakan jarak seperti analisis kelompok pada umumnya namun menggunakan algoritma secara hirarki dan menggunakan model informasi kriteria Akaike’s Information Criteria (AIC) untuk melihat pasangan kelompok yang memiliki kesamaan. Secara umum dalam analisis kelompok diasumsi berdistribusi normal. Analisis kelompok juga dapat dikerjakan dengan distribusi power normal. Hasil analisis kelompok dengan power normal juga memiliki kesamaan gambaran seperti yang ditampilkan dalam grafik statistik.
Kata kunci: Analisis kelompok, Analisis kelompok multi sampel, Kriteria informasi, Perbandingan multi sampel
ii
Universitas Sumatera Utara
ABSTRACT Usually in proccces of a comparison sample of many observations, many methods are used. The purpose of some of these methods is to test the similarity hypothesis pair, but difficult to filter the specific properties of the data presented. An alternative procedures introduced by not involving tests of hypotheses to test the similarity of group mean differences rather see then categorize different sample mean and if it is in a different group. Analysis cluster method introduced here not using distance like ussually in analysis cluster but using algorithm hirarchi and criteria information models Akaike’s Information Criteria (AIC) to see pairwise who have the same group. In general, the analysis assumed normal distribution group. analysis cluster can done by the normal power distribution. The results of the analysis of the group with normal power also have the same picture as shown in statistical graphs.
Keyword: Cluster analysis, Multi sample cluster analysis, Criteria information, Multisample comparison.
iii
Universitas Sumatera Utara
BAB 1 PENDAHULUAN
1.1 Latar Belakang
Manajemen informasi sangat penting dalam hal pengambilan keputusan baik dalam skala kecil ataupun besar. Keberagaman informasi sering dijumpai pada institusi, perusahaan besar, organisasi, medis dan bidang keilmuan lainnya. Informasi tentang sesuatu yang diperoleh disebut juga data. Data yang diperoleh dalam suatu penelitian dapat menampilkan banyak karakter atau sifat. Menurut Trebuna dan Halcinova (2013), variasi data yang luas dapat menimbulkan masalah dalam pengambilan keputusan.
Data yang dikumpulkan berapapun banyaknya, bukan tujuan dari suatu penelitian. Akan tetapi merupakan sarana untuk memudahkan penafsiran dan memahami maknanya. Untuk itu dibutuhkan suatu teknik analisis data sebagai upaya mengolah data sehingga karakteristik atau sifat-sifat data tersebut dapat dengan mudah dipahami dan bermanfaat untuk menjawab masalah-masalah yang berkaitan denngan penelitian.
Ada beberapa teknik statistik yang dapat digunakan untuk menganalisis data. Tujuannya untuk mendapatkan informasi yang relevan. Teknik statistika yang paling sering digunakan adalah Analysis of variance (ANOVA) untuk data univariat dan atau Multivariat Analysis of variance (MANOVA) untuk data multivariat. Atau lebih dikenal uji statistik t atau uji statistik F .
Namun, menurut Bozdogan (1986) usaha analisis data dengan ANOVA ataupun MANOVA tidak informatif. Penolakan hipotesis tidak mengindikasikan bahwa kelompok sampel berbeda seperti yang seharusnya ditunjukkan. Almuitari (2011) juga mengemukakan salah satu aspek yang menjadi kontra dalam penelitian adalah tidak adanya tolak ukur pemilihan penggunaan tingkat signifikan α antara 1%, 5%, atau 10% selama uji tes. Permasalahan lain adanya peluang penolakan minimal satu hipotesis ketika seharusnya itu tidak perlu terjadi.
1
Universitas Sumatera Utara
2
Berangkat dari beberapa alasan diatas, beberapa peneliti mencoba melakukan analisis data dengan menggunakan metode perbandingan tanpa menggunakan hipotesis. Sebagai contoh penelitian yang dilakukan oleh Bozdogan (1986) yang mengenalkan alternatif pendekatan baru untuk melihat perbedaan sampel dengan melakukan perbandingan beberapa sampel yang dikenal dengan analisis kelompok sampel-sampel. Tukey dalam Shimokawa dan Goto (2011) juga merekomendasikan penjelasan data sampel-sampel dengan menggunakan analisis kelompok.
Metode analisis kelompok merupakan salah satu metode statistika multivariat. Trebuna dan Halcinova (2013) menjelaskan banyak situasi praktis memerlukan penyajian data multivariat dari beberapa sampel tersturktur untuk inferensi komperatif dan pengelompokkan sampel hetrogen ke sampel homogen. Selanjutnya Ferreira dan Hitchcok (2003) menjelaskan pengelompokkan data berdasarkan homogenitas sangat penting karena dapat mengungkapkan informasi data. Secara umum metode analisis kelompok dikerjakan dengan melakukan pendekatan jarak antar kelompok. Persamaan karakteristik dalam pengelompokan mengakibatkan sulit untuk melihat yang terbaik dari kelompok yang telah terbentuk. Pengelompokkan tidak hanya berdasarkan ukuran homogenitas dan usaha membentuk kelompok dengan menggunakan algoritma. Algoritma pengelompokan harus dapat memaksimalkan perbedaan relatif kelompok terhadap variasi dalam kelompok. Dua metode umum dalam algoritma pengelompokan adalah metode hirarki dan non hirarki.
Dalam analisis kelompok untuk multi sampel, Bozdogan (1986) memperkenalkan pendekatan baru dengan menggunakan algoritma pengelompokan untuk kasus usaha perbandingan sampel tanpa menggunakan perbandingan jarak. Usaha pengelompokkan dengan terlebih dahulu membentuk alternatif kelompok yang mungkin akan terjadi. Kemudian dibutuhkan pendekatan pemilihan model seleksi kriteria informasi. Tujuan memasukan seleksi kriteria pada masa pembentukkan kelompok adalah untuk menggolongkan perbedaan kelompok tanpa membuat pilihan sendiri selama masa algoritma pengelompokkan data, sehingga memudahkan untuk melihat kelompok terbaik dari kelompok yang telah terbentuk dengan melihat nilai kriteria informasi minimum.
Universitas Sumatera Utara
3
Menurut Bozdogan (1986) model seleksi kriteria dikenalkan oleh Akaike’s pada tahun 1973 untuk mengidentifikasi data secara optimal dan hati-hati dengan perhitungan yang lebih kompleks. Pendekatan ini berdasarkan pada Kullback Liebler Information (KLIC) dan nilai rasio maksimum likelihood data statistik. Model seleksi kriteria yang pertama dikenal dengan Akaike’s Information Criterion (AIC).
Pada banyak kasus analisis kelompok untuk perbandingan multi sampel, diasumsikan berdistribusi normal. Namun pada kenyataannya menurut Shimokawa dan Goto (2011) sulit memenuhi asumsi ini. Pada tahun 1977, Worsley dalam penelitiannya memperkenalkan versi non parametrik Scott dan Knott’s dengan menggunakan uji Kruskal-Wallis untuk mengukur homogenitas. Dengan menggunakan versi non parametrik, tidak perlu memenuhi distribusi normal dan memungkinkan untuk memperoleh informasi yang merupakan bagian dalam data (seperti posisi, penyebaran dan bentuk)
Selain dari pendekatan diatas, Shimokawa dan Goto (2011) dalam melakukan analisis kelompok untuk multi sampel menggunakan distribusi power normal yang didefenisikan sebagai distribusi spesifik sebelum transformasi power normal. Dijelaskan Shimokawa dan Goto (2011) dan Ishogawa (2012) sebuah powertransformasi positif variabel X didefinisikan sebagai berikut:
xλ =
lxoλλg−x1 ,,
λ λ
= 0, = 0.
Dari hasil penelitian, diasumsikan dalam analisis data menggunakan distribusi power normal, dapat menggambarkan situasi keadaan data yang tergambarkan dalam grafik statistik.
Berdasarkan latar belakang, peneliti mengulas dan melakukan suatu analisis data menggunakan analisis kelompok untuk multi sampel namun tidak menggunakan metode perbandingan jarak seperti pada analisis kelompok biasanya, melainkan pendekatan baru menggunakan algoritma pengelompokan dengan memasukkan model kriteria informasi untuk melihat perbandingan data.
Universitas Sumatera Utara
4
1.2 Rumusan Masalah
Dalam usaha mendapatkan sebuah kesimpulan dari sekumpulan informasi, dibutuhkan suatu teknik analisis data untuk mengolah data agar data mudah dipahami untuk menjawab masalah dalam penelitian. Teknik analisis data yang umum digunakan untuk melakukan perbandingan sampel adalah ANOVA atau MANOVA. Akan tetapi beberapa peneliti berpendapat dengan teknik diatas tidak informatif. Karenanya dikenalkan suatu metode perbandingan sampel tanpa harus melakukan hipotesis, yakni dengan pengelompokkan sampel berdasarkan homogenitas atau lebih dikenal metode analisis kelompok. Algoritma yang digunakan dalam pengelompokkan adalah secara hirarki.
1.3 Tujuan Penelitian
Penelitian ini bertujuan untuk melakukan perbandingan multi sampel dengan teknik analisis kelompok secara hirarki untuk dapat menemukan pasangan kelompok terbaik berdasarkan kesamaan karakteristik dengan menggunkan model kriteria informasi AIC.
1.4 Manfaat Penelitian
Penelitian ini bermanfaat untuk memperkaya literatur tentang metode analisis kelompok secara hirarki dan memberikan suatu gambaran dalam analisis data atau pengambilan kesimpulan dengan menggunakan metode analisis kelompok secara hirarki untuk perbandingan multi sampel.
1.5 Metode Penelitian
Metode penelitian ini bersifat studi literatur dan kepustakaan dengan mengumpulkan informasi terkait dari beberapa jurnal. Adapun langkah yang dilakukan adalah sebagai berikut :
1. Mengumpulkan informasi dari literatur-literatur mengenai teknik analisis data terutama metode analisis kelompok.
Universitas Sumatera Utara
5 2. Menjelaskan analisis kelompok beserta pembagiannya. 3. Menjelaskan analisis kelompok dengan menggunakan model kriteria infor-
masi. 4. Melakukan pengkajian contoh analisis kelompok untuk perbandingan multi
sampel. 5. Menarik kesimpulan. ‘
Universitas Sumatera Utara
BAB 2 TINJAUAN PUSTAKA
Analisis data mempunyai peranan untuk memahami berbagai macam jenis data. Dalam Moleong (2000) dijelaskan pendapat Bogdan dan Taylor pada tahunn 1975 bahwa analisa data adalah proses yang merinci usaha formal untuk menemukan tema dan merumuskan hipotesis (ide) seperti yang disarankan oleh data dan sebagai usaha untuk memberikan bantuan pada tema dan hipotesis itu.
Analisa data adalah proses mengorganisasikan dan mengurutkan data ke dalam pola, kategori, dan satuan uraian dasar sehingga dapat ditemukan tema dan dapat dirumuskan hipotesis kerja seperti yang disarankan oleh data. Analisis data diartikan sebagai upaya mengolah data menjadi informasi, sehingga karakteristik atau sifat-sifat data tersebut dapat dengan mudah dipahami dan bermanfaat untuk menjawab masalah-masalah yang berkaitan dengan kegiatan penelitian.
Salah satu cara dalam analisis data bentuk multivariat adalah analisis kelompok. Secara umum analisis kelompok adalah usaha membandingkan sampel dengan menggunakan jarak. Namun, analisis kelompok juga dapat dilakukan dengan metode lain seperti yang pernah dilakukan Bozdogan (1986). Tahapan awal dalam analisis kelompok ini adalah penentuan algoritma pengelompokan yang akan digunakan. Pentingnya penentuan algoritma dalam pengelompokan data dikemukakan oleh Xu dan Wunsch (2005) yang melakukan survey algoritma pengelompokan untuk himpunan data dalam bidang statistik, ilmu komputer, travelling salesman problem, bioinformatik dan suatu bidang usaha baru yang menarik.
Algoritma pengelompokan secara umum adalah pengelompokan secara hirarki dan pengelompokan secara non hirarki. Dalam tulisan Shimokawa dan Goto (2011) mengatakan bahwa Cox dan Spotvol tahun 1982 memperkenalkan analisis pengelompokan secara non hirarki untuk perbandingan multi sampel dimana nilai p uji F adalah berbeda pada kasus analisis varians satu arah (ANOVA). Calinski dan Corsten pada tahun 1985 dan gabriel pada tahun 1964 menggunakan uji F untuk melihat perbedaan kelompok.
6
Universitas Sumatera Utara
7
Analisis kelompok multi sampel merupakan metode alternatif untuk perbandingan sampel. Permasalahan dari berbagai proses perbandingan bisa dilihat dari pengelompokan rata-rata grup, sampel atau perlakuan. Analisis kelompok multi sampel pertama kali dikenalkan oleh Bozdogan (1986, 2000). Bozdogan menggunakan model seleksi kriteria untuk mengenalkan metode analisis kelompok multi sampel sebagai alternatif perbandingan sampel. Dalam analisis kelompok multi sampel, sekumpulan grup, sampel atau perlakuan dikelompokkan dalam himpunan yang memiliki kesamaan. Permasalahan ini lebih rumit dibandingkan pengelompokkan individu atau objek kedalam satu kasus sampel.
Metode analisis kelompok multi sampel merupakan suatu pendekatan baru dan berbeda. Pada pendekatan ini model seleksi kriteria digunakan untuk memilih alternatif kelompok terbaik. Tahapan dalam analisis kelompok multi sampel adalah mengelompokkan semua alternatif kelompok yang mungkin menggunakan algoritma kombinatorial. Kemudian informasi kriteria digunakan untuk menggolongkan perbedaan tanpa membuat pilihan sendiri selama alternatif kelompok dibentuk. Alternatif kelompok dengan nilai informasi kriteria terkecil dipilih.
Almuitari (2011) dalam penelitiannya mengenalkan algoritma untuk analisis kelompok multi sampel. Didalam penelitian dipaparkan beberapa informasi kriteria dan formula untuk perbandingan sampel. Formula yang digunakan dikenal dengan Clique Partioning Problem Formulation (CPP) dengan algoritma Branch and Bound
Penggunaan kriteria informasi dalam teknik analisis data juga pernah diterapkan oleh Bozdogan (1986, 2000) yang menjelaskan tentang kriteria informasi Akaike’s untuk perbandingan multi sampel. Tujuannya untuk membangun rencana baru untuk informasi yang luas. Konishi dan Kitagawa (1996) dalam penelitiannya menjelaskan bahwa informasi kriteria dibangun untuk mengevaluasi model yang diperoleh dari berbagai macam cara ketika kelompok yang ditetapkan tidak memiliki distribusi yang membangkitkan data itu. Neath dan Cavanaugh (2006) melakukan pendekatan informasi kriteria bayes untuk menyelesaikan berbagai permasalahan perbandingan data.
Universitas Sumatera Utara
8 Secara umum, metode analisis kelompok untuk perbandingan sampel berdasarkan pada distribusi normal. Terkadang sulit memenuhi asumsi tersebut. Ishogawa (2012) dalam penelitiannya menyebutkan tingkat perbedaan akan lebih terlihat jika sampel berdistribusi power normal. Sebelumnya Shimokawa dan Goto (2011) melakukan penelitian analisis kelompok secara hirarki untuk perbandingan sampel banyak berdasarkan distribusi power normal atau dikenal PMC Method (Power normal Multisample Cluster analysis). Penelitian ini merujuk dari metode yang dikenalkan oleh Bozdogan (1986). Kesimpulan yang didapat dalam penelitian ini adalah metode PMC dapat digunakan untuk menilai kebenaran metode yang pernah digunakan sebelumnya (yang menggunakan distribusi normal), sehingga dapat digunakan untuk mendiagnosa metode yang berdistribusi normal.
Universitas Sumatera Utara
BAB 3 LANDASAN TEORI
Analisis data adalah proses penyederhanaan data agar lebih mudah dibaca atau di interprestasi. Berdasarkan variabel sampel, analisis data dapat dibedakan atas analisis data univariat, bivariat dan multivariat. Ada beberapa cara dalam melihat perbedaan sampel yang terdapat didalam data, diantaranya sebagai berikut:
3.1 ANOVA dan MANOVA
ANOVA merupakan teknik analisis data univariat. ANOVA digunakan untuk menguji perbedaan mean dua sampel atau lebih. Prosedur analisis varians (ANOVA) menggunakan variabel numerik tunggal yang diukur dari sejumlah sampel untuk menguji hipotesis nol dari populasi yang (diperkirakan) memiliki rata-rata hitung (mean) sama. Variabel dimaksud harus berupa variabel kuantitatif. Variabel ini terkadang dinamakan sebagai variabel terikat (dependent variable).
Sedangkan MANOVA merupakan teknik analisis data tentang perbedaan pengaruh beberapa variabel independen dalam skala nominal terhadap sekelompok variabel dependen dalam skala rasio. Skala nominal adalah tingkat mengkategorikan obyek yang diteliti dengan angka yang diberikan pada obyek mempunyai arti sebagai label saja, sedangkan skala rasio adalah ukuran nilai absolute pada objek yang akan diteliti dan mempunyai nilai nol (0).
Perbedaan antara ANOVA dan MANOVA terletak pada jumlah variabel dependennya. ANOVA digunakan untuk mengetahui apakah terdapat perbedaan pengaruh perlakuan terhadap satu variabel dependen, sedangkan MANOVA digunakan untuk mengetahui apakah terdapat perbedaan pengaruh terhadap lebih dari satu variabel dependen. Perbedaan ANOVA dan MANOVA diformulasikan sebagai berikut:
9
Universitas Sumatera Utara
10
ANOVA MANOVA
Y1 = X1 + X2 + X3 + ... + Xn Y1 + Y2 + Y3 + ... + Yn = X1 + X2 + X3 + ... + Xn
Dan perbedaannya juga terletak pada hipotesis nol dan hipotesis alternatifnya. Dengan menggunakan teknik ANOVA atau MANOVA, ada atau tidaknya hubungan antara sampel dilihat dari uji hipotesis mean sampel data yang di analisis.
3.2 Analisis Kelompok
Analisis kelompok mengarah pada metode statistik multivariat. Trebuna dan Halcinova (2013) menjelaskan analisis kelompok didefenisikan sebagai teknik logika umum, prosedur, yang kemudian diikuti pengelompokan variabel objek ke dalam grup kelompok yang berdasarkan pada persamaan atau perbedaan. Analisis kelompok di desain untuk menditeksi grup atau kelompok tersembunyi pada sebuah himpunan yang di sajikan dengan data kuantitaif, data struktural atau linguistic yang mana anggota setiap kelompok memiliki kesamaan satu sama lain (berkenaan dengan data yang diberi) dan kelompok yang terbaik yang dipisahkan.
Analisis kelompok mengklasifikasikan objek sehingga setiap objek yang paling dekat kesamaannya akan berada dalam satu kelompok. Kelompok yang terbentuk memiliki homogenitas internal yang tingggi dan heterogenitas eksternal yang tinggi. Dilihat dari apa yang dikelompokkan, analisis kelompok dibagi atas pengelompokan observasi dan pengelompokan variabel.
Pengelompokan di sajikan dalam bentuk matrik x tipe n x p dimana n menyatakan nomor objek dan p menyatakan nomor variabel.
X
=
xx...1211
xx...1222
... ... ...
xx...12pp
xn1 xn2 ... xnp
Universitas Sumatera Utara
11 Pada umumnya ketika objek dikelompokkan, perbedaan antara dua kelompok objek ditandai dengan jarak. Beberapa macam jarak yang biasa dipakai didalam analisis kelompok antara lain jarak euclidian, jarak manhattan, jarak pearson, korelasi dan jarak mutlak korelasi. Metode dalam analisis kelompok diklasifikasikan dua bagian yakni metode hirarki dan non hirarki seperti yang dijelaskan pada gambar berikut:
Gambar 3.1 Klasifikasi metode analisis kelompok 3.2.1 Analisis kelompok hirarki
Tipe dasar dalam metode ini adalah aglomerasi dan divisional. Dalam metode aglomerasi tiap observasi pada mulanya dianggap sebagai kelompok tersendiri sehingga terdapat sebanyak jumlah observasi. Kemudian dua kelompok yang terdekat kesamaannya digabung menjadi suatu cluster baru, sehingga tiap tahap. Sebaliknya pada metode divisional dimulai dari satu kelompok besar yang mengandung seluruh observasi, selanjutnya yang mendekati kesamaan dipisah dan dibentuk kelompok yang lebih kecil. Adapun beberapa metode dalam aglomerasi dalam Trebuna dan Halcinova (2013) adalah sebagai berikut:
Universitas Sumatera Utara
12
1. Metode simple linkage Metode simple linkage bisa di defenisikan jika D adalah suatu koefisien perbedaan acak, C1, C2 adalah dua kelompok berbeda, Ai bagian dariC1 dan Aj bagian dari C2, maka untuk menentukan jarak metode simple linkage adalah: dSL(C1, C2) = mini,j{d(Ai, Aj)}
2. Metode complete linkage Metode complete linkage hampir sama dengan metode simple linkage, hanya untuk menetukan jarak metode complete linkage adalah:
dCL(C1, C2) = maxi,j{d(Ai, Aj)}
3. Metode average linkage
Jarak antara kelompok pada metode average linkage adalah:
dAL(C1, C2)
=
1 n1n2
d(Ai; Aj)
Ai∈C1 Aj ∈C2
penentuan jarak pada metode ini ketika nomor objek n1 dan n2 berada pada
C1danC2
4. Metode centroid
Jarak antara kelompok di tentukan dengan korelasi Lance William
dLW (C1, C2, C3)
=
n2
n2 +
n3 dLW
(C1,
C2)
+
n2
n3 +
n3 dLW (C1,
C3)
−
n2n3 (n2 + n3
)2
dLW
(C2
,
C3)
5. Metode median
dMed(C1, C2
∪
C3
=
1 2
dmed(C1
,
C2)
+
1 2
dmed(C1,
C3
)
+
1 4
dmed
(C2,
C3)
6. Metode ward’s
△ESS(Ai, Aj)
=
1 2
dES
(Ai,
Aj
),
Ai,
Aj
∈
o
dimana i, j = 1, 2, ...n
Universitas Sumatera Utara
13 Alat yang membantu untuk memperjelas proses hirarki adalah diagram pohon yang dikenal dengan dendogram. Berikut contoh alur metode analisis kelompok hirarki diambil dari everitt et al., (2011).
Gambar 3.2 Contoh pohon alur analisis kelompok hirarki 3.2.2 Analisis kelompok non hirarki
Pada metode ini langkah awal menentukan terlebih dahulu jumlah kelompok yang diinginkan, baru kemudian di proses. Metode ini dipakai jika banyaknya kelompok sudah diketahui dan biasanya metode ini dipakai untuk mengelompokkan data yang berukuran besar. Yang termasuk dalam metode ini adalah K-means dan fuzzy.
Universitas Sumatera Utara
BAB 4 ANALISIS KELOMPOK MULTI SAMPEL
Menurut Almuitari (2011) analisis kelompok multi sampel di perkenalkan pertama kali oleh Bozdogan sebagai salah satu alternatif dalam prosedur perbandingan sampel untuk analisis data yang multi sampel. Analisis kelompok yang diperkenalkan tidak seperti analisis kelompok pada umumnya. Usaha perbandingan multi sampel menggunakan algoritma membentuk alternatif kelompok yang mungkin terbentuk dan memasukkan nilai model kriteria informasi sebagai dasar acuan pemilihan pasangan kelompok yang memiliki homogenitas.
4.1 Permasalahan Pengelompokan Multi Sampel
Permasalahan dalam analisis kelompok untuk multi sampel muncul ketika didapat sekumpulan data, sampel atau tindakan dan lain-lain, apakah itu secara alami atau tidak, dan tujuannya adalah untuk mengelompkkan menjadi grup/kelompok yang memiliki kesamaan. Masalahnya disini adalah untuk membuat kelompok atau sampel bukannya individual atau objek seperti pada kasus single sample.
Dijelaskan dalam Bozdogan (1986), setiap objek ditandai dengan ukuran p yang secara bersamaan berada dalam K kelompok.
X1
X (n
×
p)
=
X2 ...
XK
n1 × p n2 × p
...
nK × p
(4.1)
Misal X adalah matriks dari K kelompok, dimana Xg(ng × p) mewakilkan
pengamatan dari grup ke-g, g = 1, 2, ..., K dan n =
K g=1
ng .
Tujuannya adalah
untuk mengelompokkan K data kedalam k kelompok yang memiliki kesamaan,
dengan k belum diketahui dan dapat bermacam-macam, namun k ≤ K. Dengan
begitu akan diperoleh k terkecil dari kelompok data K. Kelompok kecil lebih
disukai untuk mengurangi keberagaman data multi sampel.
14
Universitas Sumatera Utara
15
4.2 Menghitung Alternatif Kelompok
Jika menggunakan teknik enumerasi komplit, kemudian pengelompokan dari K data kelompok kedalam k kelompok yang tak kosong, maka teorema adalah sebagai berikut (Bozdogan,1986):
Teorema 4.1. Banyaknya jalan untuk pengelompokkan K data sampel kedalam k kelompok dimana k ≤ K, dan tak satupun dari kelompok k yang kosong, diberikan sebagai berikut:
k
(−1)g
k g
(k − g)K
g=0
dimana setiap kelompok k tidak saling relevan.
(4.2)
Bukti. Anggap kelompok sampel-k berbeda. Pengelompokkan K data sampel ke dalam himpunan bagian k, tak satu pun yang kosong dan isi dari himpunan bagian k tidak relevan. Dari fakta dan teorema 4.1, maka dapat didapat total jumlah pengelompokan K data sampel ke dalam k kelompok himpunan bagian di berikan sebagai berikut (Bozdogan,1986):
w
=
S(K, k)
=
1 k!
k
(−1)g
k g
(k − g)K
g=0
(4.3)
Lebih dikenal dengan Stirling Number of the Second Time yang akan memberikan jumlah alternatif pengelompokkan. Jika jumlah alternatif k tidak diketahui, maka jumlah alternatif pengelompokan diberikan sebagai berikut (Bozdogan,1986):
K
S(K, k)
k=1
(4.4)
Universitas Sumatera Utara
16
Dengan catatan k ≤ K. S(K, k) bisa dijelaskan dengan rumus sebagai berikut (Bozdogan,1986):
dengan
S(K, k) = kS(K − 1, k) + S(K − 1, k − 1)
(4.5)
S(1, 1) = 1, S(1, k) = 0, k = 1 S(K, 2) = 2K−1 − 1
Contoh: Misal data suatu sampel K = 3. Banyaknya alternatif pengelompokkan k adalah 1, 2 dan 3 kelompok yakni,
3 = {3} = {2} + {1} = {1} + {1} + {1}
Banyaknya jumlah jalan pengelompokan K data sampel ke dalam k himpunan sampel yang homogen diberikan dari rumus (4.2) dan jumlah alteratif pengelompokan yang mungkin menggunakan rumus (4.3).
Universitas Sumatera Utara
Tabel 4.1 Contoh alternatif pengelompokan
No Alternatif pengelompokan
K=3 k=1
S(3,
k)
=
5
alternatif
1 2 3 4 5
Pengelompokan
(1,2,3) (1,2) (3) (1,3) (2) (2,3) (1) (1)(2)(3)
k
1 2 2 2 3
K=4 k=1
S(4,
k)
=
15
1
(1,2,3,4)
1
2 (1,2,3) (4) 2
3 (1,2,4) (3) 2
4 (1,3,4) (2) 2
5 (2,3,4) (1) 2
6 (1,2)(3,4) 2
7 (1,3)(2,4) 2
8 (1,4) (2,3) 2
9 (1)(2,3) (4) 3
10 (1)(2,4) (3) 3
11 (1)(3,4) (2) 3
12 (2)(1,3) (4) 3
13 (2)(1,4) (3) 3
14 (3)(1,2) (4) 3
15 (1)(2)(3)(4) 4
17
4.3 Model Kriteria Informasi
Dalam Almuitari (2011) disampaikan bahwa kriteria informasi pertama kali diperkenakan oleh Akaike pada tahun 1973. Ini mempelopori penggabungan teori kemungkinan dan teori informasi untuk menghasilkan pendekatan secara signifikan dan langsung untuk model seleksi statistik. Almuitari (2011) juga menyebutkan, ada banyak kriteria informasi telah diperkenalkan diantaranya Akaike Information Criterion (AIC), Consistent Akaike Information Criterion (CAIC), Schwarz Bayesian Criterion (SBC), Information Complexiry Information Criterion (ICOMP).
4.3.1 Akaike Information Criterion (AIC)
Misal {Mk : k ∈ K} adalah sekumpulan himpunan model yang akan digunakan dimana k = 1, 2, ...., K, maka:
AIC(k) = −2logeL[θˆ(k)] + 2m(k)
(4.6)
Universitas Sumatera Utara
18
dimana nilai terkecil adalah model terpilih dari himpunan model yang disebut AIC. L[θˆ(k)] adalah kemungkinan fungsi dari observasi, θˆ(k) adalah nilai perkiraan maksimum dari parameter vektor θˆ pada model Mk, mk adalah parameter
independen.
4.3.2 Consistent Akaike Information Criterion (CAIC)
Model Consistent Akaike Information Criterion (CAIC) merupakan hasil pengembangan Akaike Information Criterion (AIC) oleh Bozdogan dengan memasukkan efek dari ukuran sampel dengan tujuan agar fungsi kriteria informasi lebih konsisten. Misal {Mk : k ∈ K} adalah sekumpulan himpunan model yang akan digunakan dimana k = 1, 2, ...., K, maka:
AIC(k) = −2logeL[θˆ(k)] + m(k)[logen + 1]
(4.7)
4.3.3 Schwarz Bayesian Criterion (SBC)
Model Schwarz Bayesian Criterion (SBC) mempunyai komponen yang hampir sama dengan CAIC. Sering disebut model kriteria Bayesian karena mengacu pada penerapan bayesian dalam analisis statistik. Misal {Mk : k ∈ K} adalah sekumpulan himpunan model yang akan digunakan dimana k = 1, 2, ...., K, maka:
AIC(k) = −2logeL[θˆ(k)] + m(k)[loge]
(4.8)
4.3.4 Information Complexiry Information Criterion (ICOMP)
Model kriteria ini dikembangkan untuk mengukur data multivariat berbentuk linier atau non linier. Secara umum ditulis sebagai berikut:
dimana
ICOMP (IF IM)(k) = −2logeL[θˆ(k)] + 2C1(F −1(θˆ))
C1(F −1(θˆ))
=
s 2
log(
trF s
−1
)
−
1 2
log|F
−1|
(4.9) (4.10)
Universitas Sumatera Utara
19
disebut juga suatu perkiraan kompleks yang merupakan invers dari matrik informasi Fisher Fˆ1(IF IM). Sering juga disebut matriks batas bawah Cramer Rao (Almautari,2011). s adalah rangking IFIM, trF −1adalah mean dari IFIM, |F −1| determinan IFIM.
4.4 Analisis Kelompok Multi Sampel Berdistribusi Normal
Pada bagian ini akan dibahas mengenai proses analisis kelompok untuk perbandingan multi sampel. Sebelumnya Bozdogan (1986,2000) telah melakukan penelitian analisis kelompok multi sampel untuk prosedur perbandingan sampel dengan menggunakan model kriteria informasi AIC, CAIC dan ICOMP. Penelitiannya dapat dikatakan hirarki karena metode pengelompokkan menggunakan algoritma secara aglomiratif. Tahapan pertama yang harus dilakukan dalam analisis kelompok multi sampel adalah membuat algoritma sehingga K kelompok sampel dapat di optimalkan ke arah k himpunan bagian kelompok sampel (k ≤ K). Kemudian pada masa algoritma berjalan model kriteria informasi di masukkan sebagai acuan memilih pasangan kelompok yang memiliki sedikit perbedaan. Pasangan terpilih adalah yang memiliki nilai minimum. Adapun algoritmanya adalah sebagai berikut:
1. Tahap 1 : mulai dari k = 1 alternatif himpunan bagian kelompok. Pada keadaan k = 1 semua kelompok sampel berada dalam satu kelompok. Selanjutnya hitung nilai AIC.
2. Tahap 2 : lanjut k = 2 alternatif himpunan bagian kelompok. Banyak kelompok dapat diperoleh melalui rumus 4.3. Kemudian hitung nilai AIC untuk semua alternatif himpunan bagian kelompok yangterbentuk. Kelompok yang terpilih adalah yang memiliki nilai AIC minimum.
3. Tahap 3 : ulangi tahap 2 untuk k = 3, 4, ...K. Artinya hingga semua kelompok sampel terkelompok tunggal.
Universitas Sumatera Utara
20
Pada kejadian ini diasumsikan kasus populasi data multi sampel berdistribusi normal dengan nilai vektor mean berbeda (µg), g = 1, 2, ..., K dan nilai varian (σ) yang sama. Untuk mendapatkan nilai AIC (4.6) dimana nilai parameter m = kp + p(p + 1)/2 sehingga diperoleh rumus AIC sebagai berikut :
AI C (k)
=
−2logeL[θˆ(k)]
+
2[kp
+
p(p
+ 2
1) ]
Nilai fungsi log likelihood diperoleh sebagai berikut:
l({µg}, σ2 : X) ≡ Log({µg}, σ2 : X)
K
= −(np/2)log(2π) − (n/2)log σ2 − 1/2trσ−1 Ag
g=1 K
−1/2trσ−1 ng(x¯g − µg)(x¯g − µg)′
g=1
dimana
µˆg = X¯g, g = 1, 2, ..., K σˆ = n(−1)W
Dengan memasukkan nilai fungsi maksimum likelihood, maka AIC dapat didefenisikan sebagai berikut (Bozdogan, 1986):
AIC = nploge(2π) + nloge n(−1)W
+
np
+
2[kp
+
p(p
+ 2
1)
]
(4.11)
dimana
n = Ruang sampel W = Determinan dari ”within groups” sum of square matriks
k = J umlah alternatif grup p = Jumlah variabel
Universitas Sumatera Utara
21 Sebagai contoh yang akan dibahas disini studi kasus terhadap jenis padi yang datanya sudah diberikan dalam Srivastava dan Carter (Bozdogan, 1986). Varians jenis padi terdiri dari empat yang dinotasikan a, b, c dan d dengan setiap jenis terdiri dari 5 macam. Selama 6 minggu dilakukan pengukuran terhadap x1= pertumbuhan tinggi pohon dan x2= jumlah tangkai perpohon. Ini berarti data diatas memiliki n = ng = 20, n = 5, g = 1, 2, 3, 4. Untuk jenis kelompok varian padi diatas terdiri dari K = 4 kelompok sampel yang akan dikelompokkan kedalam k = 1, 2, 3 dan 4 kelompok himpunan bagian. Dimana banyaknya anggota dalam k kelompok himpunan bagian dapat dilihat seperti dibawah. Jumlah alternatif kelompok yang mungkin terjadi adalah 15 dengan nilai.
4 = {4} = {3} + {1} = {2} + {2} = {2} + {1} + {1} = {1} + {1} + {1} + {1}
Untuk keterangan lihat penjelasan dalam contoh teorema 4.1. Selanjutnya dikelompokkan alternatif kelompok seperti tampak pada tabel 4.2.
Universitas Sumatera Utara
22
Tabel 4.2 Analisis kelompok multi sampel untuk K = 4
No Alternatif pengelompokan alternatif Kelompok k m AIC
1
(A,B,C,D)
1 5 190.418*
2
(B,C,D)(A)
2 7 187.907
3
(A,C,D)(B)
2 7 190.417
4
(A,B,D)(C)
2 7 194.654
5
(A,B,C)(D)
2 7 190.566
6
(A,D)(B,C)
2 7 192.510
7
(A,C)(B,D)
2 7 182.747*
8
(A,B)(C,D)
2 7 195.701
9
(A,B)(C)(D)
3 9 196.0098
10 (A,C)(B),(D) 3 9 185.798*
11 (A,D)(B),(C) 3 9 194.554
12 (B,C)(A),(D) 3 9 189.447
13 (B,D)(A),(C) 3 9 186.328
14 (C,D)(A),(B) 3 9 190.141
15 (A),(B),(C),(D) 4 11 189.242*
Catatan : n=20 ; p=2 ; m=kp+p(p+1)/2 parameter AIC = nploge(2π) + nloge n(−1)W + np + 2m * merupakan nilai minimum
Dari hasil pengamatan tabel diatas dapat dilihat pada saat alternatif kelompok k = 2, pasangan yang memiliki homogenitas terbaik adalah yang memiliki nilai AIC minimum yakni pada alternatif kelompok ke 7 untuk pasangan (A,C) (B,D). Berlanjut pada saat alternatif kelompok k = 3, pasangan yang memiliki nilai AIC minimum pada alternatif kelompok ke 10 untuk pasangan (A,C), (B), (D). Secara dendogram, tahapan pembagian kelompok disajikan pada gambar 4.1.
Gambar 4.1 Tahapan pembagian kelompok
Universitas Sumatera Utara
23
4.5 Analisis Kelompok Multi Sampel Berdistribusi Power Normal
Pada banyak kasus analisis kelompok untuk perbandingan multi sampel, observasi diasumsi harus memenuhi distribusi normal. Pada kenyataannya sulit untuk memenuhi asumsi tersebut. Karenanya dikenalkan suatu metode yang tidak memandang kebutuhan distribusi normal, namun menggunakan distribusi power normal yang merupakan distribusi yang ditetapkan sebelum perubahan bentuk normal oleh Box dan Cox tahun 1964 oleh Shimokawa dan Goto (2011).
Secara umum variabel random x untuk transformasi power normal menurut Shimokawa dan Goto (2011) dan Ishogawa(2012) adalah:
xλ =
lxoλλg−x1 ,,
λ λ
= 0, = 0.
(4.12)
Fungsi densitas probabilitas untuk distribusi power normal dalam Shimokawa dan Goto (2011) adalah sebagai berikut:
f dpDPN (x; λ, µ, σ)
=
x√λ−1 A(λ) 2π
σ
2
eksp{−
(x(λ) − 2σ2
µ)2 }
(4.13)
Nilai µ adalah lokasi parameter, σ2 adalah skala parameter dan A(Λ) peluang proporsional dari distribusi power normal yang didefenisikan sebagai berikut:
A(λ) =
φ[sign(λ) ≡ ] λ = 0, 1, λ = 0.
Dimana ≡ = (λµ)/λσ adalah titik pemotongan standar dari pemotongan distribusi normal dan φ adalah fungsi distribusi kumulatif dari distribusi normal. Untuk memenuhi kebutuhan bahwa itu power normal dengan menganggap A(λn) ≈ 1 perubahan observasi adalah berdistribusi normal.
Dalam mengubah model kriteria informasi ke bentuk power normal, maka dianggap setiap kelompok terdistribusi normal. Adapun bentuk AIC untuk distribusi power normal diberikan sebagai berikut (Shimokawa dan Goto, 2011):
Universitas Sumatera Utara
24
dengan
AI CD(1P) N = −2lDP N (λˆn, µˆn, σˆn; x) + 2(3K)
(4.14)
N ki
lDP N (λˆn, µˆn, σˆn; x) = (λn − 1)
logxki − logσn2 + 1, n = 1, 2, ..., K
n=1 k∈Qn i=1
σˆn =
ki
(xkλˆin − µˆn)2/
ki
k∈Qn i=1
k∈Qn
µˆn =
ki
(xkλˆin /
ki
k∈Qn i=1
k∈Qn
Jika λ1 = λ2 = ... = λK = 1 , σ1 = σ2 = ... = σK = σ maka dapat diasumsikan bahwa hasil dari analisis kelompok dengan distribusi normal akan sama dengan hasil dari analisis kelompok distribusi power normal. Algoritma yang akan digunakan juga sama dengan algoritma berdistribusi normal hanya letak perbedaanya pada parameter yang telah berubah bentuk power normal. Jika pada distribusi normal yang dihitung nilai mean dari kelompok, pada distribusi power normal yang dihitung lokasi parameter dan skala parameter. Selanjutnya menghitung nilai AICDPN dengan rumus (4.14).
4.6 Contoh Permasalahan
Dalam kasus ini akan dilakukan analisis kelompok hirarki berdasarkan distribusi normal. Tapi sebelumnya akan ditampilkan perhitungan dengan menggunakan uji ANOVA, LSD, dan kemudian akan dibandingkan dengan hasil perhitungan analisis kelompok hirarki berdasarkan distribusi normal dan distribusi power normal yang telah ada.
Data diambil dari penelitian Zelazo tahun 1972 dalam Shimokawa (2011) yang melakukan pengamatan terhadap penguatan berjalan dan refleks bayi yang baru lahir. Data ini mengacu pada umur bayi pertama kali jalan. Data pengamatan awal bayi berjalan disajikan dalam tabel 4.3.
Universitas Sumatera Utara
Tabel 4.3 Pengamatan awal bayi jalan (bulan)
Kelompok AK PK NK EK
Hasil Pengamatan (bulan) 9.00;9.50;9.75;10.00;13.00;9.50 11.00;10.00;10.00;11.75;10.50;15.00 11.50;12.00;9.00;11.50;13.25;13.00 13.25;11.50;12.00;13.50;11.50
Mean 10.125 11.375 11.708 12.350
25
Dimana AK adalah kelompok bayi aktif latihan menerima stimulasi motorik empat kali sehari selama delapan minggu, PK adalah kelompok bayi pasif selama menerima stimulasi motorik yang sama empat kali sehari selama delapan minggu. NK adalah kelompok bayi yang tidak menerima latihan tetapi tetap diuji bersama bayi kelompok AK. Dan EK adalah kelompok bayi dalam kelas kontrol delapan minggu untuk mengendalikan kemungkinan pemeriksaan ulang.
Menurut Shimokawa dan Goto (2011) seperti yang pernah dijelaskan sebelumnya bahwa perbedaan kelompok sampel dapat dilihat dari tampilan grafik. Tampilan grafik boxplot data dapat dilihat pada gambar 4.2
Gambar 4.2 Diagram boxplot pengamatan bayi berjalan Dari gambar 4.2 dapat diketahui bahwa bayi pada kelompok AK yang pertama berjalan. Usia bayi kelompok EK dan NK hampir sama. Hasil yang berbeda akan terlihat apabila perbandingan kelompok sampel dihitung berdasarkan uji ANOVA.
Universitas Sumatera Utara
26
Tabel 4.4 Hasil perhitungan ANOVA
Sum Of Squares df Mean Square
Between Groups
14.788
3 4.926
Within Groups
43.690
19 2.299
Total
58.467
22
F 2.142
Sig .129
Dari tabel 4.4, menurut hitungan ANOVA didapat nilai Signifikan > 0,05, maka H0 diterima dan H1 ditolak. Ini berarti seluruh sampel memiliki ratarata yang sama secara statistik pada tingkat signifikansi 0,05. Tidak tampak ada perbedaan seperti yang seharusnya ditunjukkan pada tabel boxplot.
Namun apabila data diuji menggunakan uji LSD maka di peroleh bahwa kelompok sampel AK dan EK berbeda secara signifikan pada tingkat signifikansi 5%, karena nilai sig 0.026 < 0.05 (pada tabel 4.5). Terlihat hasil yang diperoleh dengan perhitungan uji LSD berbeda dengan perolehan dari perhitungan uji ANOVA.
Tabel 4.5 Multiple comparisons hasil uji LSD
(I) (J) Mean Dif(I-J) Std.Error Sig Lower Bound Upper Bound
AK PK -1.25000
.87549 .170 -3.0824
.5824
NK -1.58333
.87549 .086 -3.4158
.2491
EK −2.22500∗
.91822 .026 -4.1469
-.3031
PK AK NK EK
1.25000 -.33333 -.97500
.87549 .87549 .91822
.170 .708 .302
-.5824 -2.1658 -2.8969
3.0824 1.4991 .9469
NK AK PK EK
1.58333 .33333 -.64167
.87549 .87549 .91822
.086 .708 .493
-.2491 -1.4991 -2.5635
3.4158 2.1658 1.2802
EK AK PK NK
2.22500∗ .97500 .64167
91822 .026 91822 .302 .91822 .493
.3031 -.9469 -1.2802
4.1469 2.8969 2.5635
* The mean differences is significant at the 0.05 level
Berikutnya diterapkan metode perbandingan untuk kelompok sampel diatas yakni metode analisis kelompok. Metode analisis kelompok dilakukan dengan menggunakan algoritma hirarki berdasarkan distribusi normal. Langkah awal dalam algoritma adalah penentuan jumlah alternatif kelompok himpunan bagian
Universitas Sumatera Utara
27
yang mungkin terbentuk menggunakan teorema 4.1. Dari K = 4 kelompok menjadi k bagian kelompok dengan syarat K < k, banyaknya alternatif himpunan bagian kelompok ditemukan sebagai berikut:
K4
S(K, k) = S(4, k)
k=1
k=1
= S(4, 1) + S(4, 2) + S(4, 3) + S(4, 4)
= 1 + (24−1 − 1) + {3S(3, 3) + S(3, 2)} + 1
= 1 + (23 − 1) + {3.1 + (23−1 − 1)} + 1
= 1 + 7 + (3 + 3) + 1
= 1+7+6+1
= 15
Dimana banyaknya alternatif kelompok untuk himpunan bagian kelompok dengan k = 1 adalah S(4, 1) = 1, k = 2 adalah S(4, 2) = 7, k = 3 adalah S(4, 3) = 6 dan k = 4 adalah S(4, 4) = 1, dengan jumlah total alternatif kelompok yang terbentuk keseluruhannya adalah 15.
Untuk tahapan selanjutnya, masing-masing alternatif kelompok dihitung nilai kriteria informasi AIC seperti rumus pada (4.11) dimulai dari k = 1 sam
TESIS Oleh ELFITRA 127021012/MT
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA MEDAN 2014
Universitas Sumatera Utara
ANALISIS KELOMPOK HIRARKI UNTUK PERBANDINGAN MULTI SAMPEL
TESIS
Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Magister Sains dalam
Program Studi Magister Matematika pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Sumatera Utara
Oleh: ELFITRA 127021014/MT
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA MEDAN 2014
Universitas Sumatera Utara
Judul Tesis
Nama Mahasiswa Nomor Pokok Program Studi
: ANALISIS KELOMPOK HIRARKI UNTUK PERBANDINGAN MULTI SAMPEL
: Elfitra : 127021014 : Magister Matematika
Menyetujui, Komisi Pembimbing
(Dr. Sutarman, M.Sc) Ketua
(Prof. Dr. Herman Mawengkang) Anggota
Ketua Program Studi (Prof. Dr. Herman Mawengkang)
Dekan (Dr. Sutarman, MSc)
Tanggal lulus: 5 Juni 2014
Universitas Sumatera Utara
Telah diuji pada 5 Juni 2014
PANITIA PENGUJI TESIS Ketua : Dr. Sutarman, M.Sc Anggota : 1. Prof. Dr. Herman Mawengkang
2. Dr. Marwan Ramli, M.Si 3. Prof. Dr. Saib Suwilo, M.Sc
Universitas Sumatera Utara
PERNYATAAN ANALISIS KELOMPOK HIRARKI UNTUK PERBANDINGAN
MULTI SAMPEL TESIS
Saya mengakui bahwa tesis ini adalah hasil karya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing dituliskan sumbernya.
Medan, 5 Juni 2014 Elfitra
i
Universitas Sumatera Utara
ABSTRAK Biasanya dalam usaha perbandingan sampel dari banyak observasi, banyak metode yang digunakan. Tujuan dari beberapa metode ini adalah untuk menguji hipotesis kesamaan pasangan, akan tetapi sulit menyaring sifat-sifat khusus dari data yang disajikan. Sebuah pendekatan alternatif diperkenalkan dengan tidak melibatkan tes hipotesis untuk menguji kesamaan kelompok melainkan melihat perbedaan mean kemudian mengkategorikan mean dan sampel berbeda jika berada pada kelompok yang berbeda yakni metode analisis kelompok. Metode Analisis kelompok yang dikenalkan disini tidak menggunakan jarak seperti analisis kelompok pada umumnya namun menggunakan algoritma secara hirarki dan menggunakan model informasi kriteria Akaike’s Information Criteria (AIC) untuk melihat pasangan kelompok yang memiliki kesamaan. Secara umum dalam analisis kelompok diasumsi berdistribusi normal. Analisis kelompok juga dapat dikerjakan dengan distribusi power normal. Hasil analisis kelompok dengan power normal juga memiliki kesamaan gambaran seperti yang ditampilkan dalam grafik statistik.
Kata kunci: Analisis kelompok, Analisis kelompok multi sampel, Kriteria informasi, Perbandingan multi sampel
ii
Universitas Sumatera Utara
ABSTRACT Usually in proccces of a comparison sample of many observations, many methods are used. The purpose of some of these methods is to test the similarity hypothesis pair, but difficult to filter the specific properties of the data presented. An alternative procedures introduced by not involving tests of hypotheses to test the similarity of group mean differences rather see then categorize different sample mean and if it is in a different group. Analysis cluster method introduced here not using distance like ussually in analysis cluster but using algorithm hirarchi and criteria information models Akaike’s Information Criteria (AIC) to see pairwise who have the same group. In general, the analysis assumed normal distribution group. analysis cluster can done by the normal power distribution. The results of the analysis of the group with normal power also have the same picture as shown in statistical graphs.
Keyword: Cluster analysis, Multi sample cluster analysis, Criteria information, Multisample comparison.
iii
Universitas Sumatera Utara
KATA PENGANTAR
Setinggi puji dan sedalam syukur penulis serahkan kehadirat Allah SWT yang telah memberikan berkat dan rahmadNya sehingga penulis dapat menyelesaikan tesis yang berjudul ANALISIS KELOMPOK HIRARKI UNTUK MULTI SAMPEL. Tesis ini merupakan salah satu syarat untuk menyelesaikan studi pada Program Studi Magister Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) Universitas Sumatera Utara.
Pada kesempatan ini, penulis menyampaikan terimakasih sebesar-besarnya kepada :
Prof. Dr. dr. Syahril Pasaribu, DTM&H, M.Sc(CTM), Sp.A(K) selaku Rektor Universitas Sumatera Utara
Dr. Sutarman, M.Sc selaku Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) Universitas Sumatera Utara sekaligus pembimbing utama yang telah banyak memberikan bantuan dalam penulisan tesis.
Prof. Dr. Herman Mawengkang selaku Ketua Program Studi Magister Matematika FMIPA USU dan pembimbing kedua yang telah banyak memberikan bantuan dalam penulisan tesis ini.
Prof. Dr. Saib Suwilo, M.Sc selaku Sekretaris Program Studi Magister Matematika FMIPA USU dan selaku penguji yang telah banyak memberikan bimbingan dan arahan serta motivasi kepada penulis dalam penulisan tesis ini.
Dr. Marwan Ramli, M.Sc selaku penguji yang juga telah banyak memberikan bimbingan kepada penulis dalam penulisan tesis ini.
Seluruh Staf Pengajar pada Program Studi Magister Matematika FMIPA USU yang telah banyak memberikan ilmu pengetahuan selama masa perkuliahan.
Kakanda Misiani, S.Si selaku Staf Administrasi Program Studi Magister Matematika FMIPA USU yang telah banyak memberikan pelayanan yang baik kepada penulis selama mengikuti perkuliahan.
iv
Universitas Sumatera Utara
Seluruh rekan-rekan mahasiswa program studi magister matematika FMIPA USU tahun 2012 ganjil (Teh wilma, bang sulaiman, kak hana, romi, isna, dilla, hari, adi, ari, silvi, wenny, tiur, liza, rini, ugi, bang mail,well, susanto, ryandi, kak juli dan sari) yang telah memberikan bantuan moril dan dorongan kepada penulis dalam penulisan tesis ini.
Tak lupa penulis mengucapkan terimakasih sebesar-besarnya dan penghargaan setinggi-tingginya kepada ibunda tercinta Mariah binti Ismail dan ayahanda Alm H. Hafas Bakri yang mencurahkan kasih sayang dan dukungan kepada penulis, terlebih yang dengan setia mendampingi dan membantu penulis selama mengikuti perkuliahan hingga sampai penulisan tesis ini. Tak lupa yang spesial kepada suami tercinta Juliandi yang telah memberikan semangat dan motivasi selama penulisan tesis ini dan putri kecilku Maghfirah Balqis yang menjadi motivasi terbesar dalam penulisan ini. Terima kasih kepada sahabat-sahabatku serta rekan-rekan kerja unimed lainnya yang tidak dapat disebutkan satu-persatu. Semoga Allah SWT memberikan balasan atas jasa-jasa mereka yang telah diberikan kepada penulis.
Penulis menyadari bahwa tesis ini masih jauh dari sempurna, untuk itu penulis mengharapkan kritik saran untuk penyempurnaan tesis ini. Semoga tesis ini dapat bermanfaat bagi pembaca dan pihak-pihak lain yang memerlukannya. Terimakasih.
Medan, 5 Juni 2014 Penulis,
Elfitra
v
Universitas Sumatera Utara
RIWAYAT HIDUP Elfitra dilahirkan di Peureulak, Aceh Timur pada tanggal 26 Juni 1982 dari pasangan Bapak Alm H. Hafas Bakri & Ibu Mariah. Penulis menamatkan pendidikan Sekolah Dasar 060796 Medan tahun 1994, Sekolah Menengah Pertama (SMP) Swasta Darussalam Medan tahun 1997, Sekolah Menengah Atas (SMA) Swasta Tunas Kartika I-1 Medan tahun 2000. Pada tahun 2000 memasuki Perguruan Tinggi Universitas Negeri Medan fakultas MIPA jurusan Pendidikan Matematika pada Strata Satu (S-I) dan lulus tahun 2006. Pada tahun 2006 bekerja sebagai volunter di Lembaga Kerja Sama Indonesia Jerman. Juli 2007 penulis bekerja sebagai tenaga pengajar di SMP Shafiyatul Amaliyyah hingga 2009. Selanjutnya Juli 2009, penulis bekerja sebagai staf pengajar di Universitas Negeri Medan di jurusan pendidikan matematika sampai sekarang. Pada tahun 2012, penulis melanjutkan pendidikan pada Program Studi Magister Matematika Universitas Sumatera Utara.
vi
Universitas Sumatera Utara
DAFTAR ISI
PERNYATAAN ABSTRAK ABSTRACT KATA PENGANTAR RIWAYAT HIDUP DAFTAR ISI DAFTAR TABEL DAFTAR GAMBAR BAB 1 PENDAHULUAN
1.1 Latar Belakang 1.2 Rumusan Masalah 1.3 Tujuan Penelitian 1.4 Manfaat Penelitian 1.5 Metode Penelitian BAB 2 TINJAUAN PUSTAKA
BAB 3 LANDASAN TEORI 3.1 ANOVA dan MANOVA 3.2 Analisis Kelompok 3.2.1 Analisis kelompok hirarki
Halaman
i ii iii iv vi vii ix x 1
1 4 4 4 4 6
9
9 10 11
vii
Universitas Sumatera Utara
3.2.2 Analisis kelompok non hirarki
13
BAB 4 ANALISIS KELOMPOK MULTI SAMPEL
14
4.1 Permasalahan Pengelompokan Multi Sampel
14
4.2 Menghitung Alternatif Kelompok
15
4.3 Model Kriteria Informasi
17
4.3.1 Akaike Information Criterion (AIC)
17
4.3.2 Consistent Akaike Information Criterion (CAIC)
18
4.3.3 Schwarz Bayesian Criterion (SBC)
18
4.3.4 Information Complexiry Information Criterion (ICOMP) 18
4.4 Analisis Kelompok Multi Sampel Berdistribusi Normal
19
4.5 Analisis Kelompok Multi Sampel Berdistribusi Power Normal 23
4.6 Contoh Permasalahan
24
BAB 5 KESIMPULAN DAN SARAN
35
5.1 Kesimpulan 5.2 Saran DAFTAR PUSTAKA
35 36 37
viii
Universitas Sumatera Utara
DAFTAR TABEL
Nomor
Judul
4.1 Contoh alternatif pengelompokan 4.2 Analisis kelompok multi sampel untuk K = 4 4.3 Pengamatan awal bayi jalan (bulan) 4.4 Hasil perhitungan ANOVA 4.5 Multiple comparisons hasil uji LSD 4.6 Analisis kelompok pengamatan bayi berjalan
Halaman
17 22 25 26 26 33
ix
Universitas Sumatera Utara
DAFTAR GAMBAR
Nomor
Judul
Halaman
3.1 Klasifikasi metode analisis kelompok 3.2 Contoh pohon alur analisis kelompok hirarki 4.1 Tahapan pembagian kelompok 4.2 Diagram boxplot pengamatan bayi berjalan 4.3 Dendogram analisis kelompok berdistribusi normal 4.4 Dendogram analisis kelompok berdistribusi power normal
11 13 22 25 34 34
x
Universitas Sumatera Utara
ABSTRAK Biasanya dalam usaha perbandingan sampel dari banyak observasi, banyak metode yang digunakan. Tujuan dari beberapa metode ini adalah untuk menguji hipotesis kesamaan pasangan, akan tetapi sulit menyaring sifat-sifat khusus dari data yang disajikan. Sebuah pendekatan alternatif diperkenalkan dengan tidak melibatkan tes hipotesis untuk menguji kesamaan kelompok melainkan melihat perbedaan mean kemudian mengkategorikan mean dan sampel berbeda jika berada pada kelompok yang berbeda yakni metode analisis kelompok. Metode Analisis kelompok yang dikenalkan disini tidak menggunakan jarak seperti analisis kelompok pada umumnya namun menggunakan algoritma secara hirarki dan menggunakan model informasi kriteria Akaike’s Information Criteria (AIC) untuk melihat pasangan kelompok yang memiliki kesamaan. Secara umum dalam analisis kelompok diasumsi berdistribusi normal. Analisis kelompok juga dapat dikerjakan dengan distribusi power normal. Hasil analisis kelompok dengan power normal juga memiliki kesamaan gambaran seperti yang ditampilkan dalam grafik statistik.
Kata kunci: Analisis kelompok, Analisis kelompok multi sampel, Kriteria informasi, Perbandingan multi sampel
ii
Universitas Sumatera Utara
ABSTRACT Usually in proccces of a comparison sample of many observations, many methods are used. The purpose of some of these methods is to test the similarity hypothesis pair, but difficult to filter the specific properties of the data presented. An alternative procedures introduced by not involving tests of hypotheses to test the similarity of group mean differences rather see then categorize different sample mean and if it is in a different group. Analysis cluster method introduced here not using distance like ussually in analysis cluster but using algorithm hirarchi and criteria information models Akaike’s Information Criteria (AIC) to see pairwise who have the same group. In general, the analysis assumed normal distribution group. analysis cluster can done by the normal power distribution. The results of the analysis of the group with normal power also have the same picture as shown in statistical graphs.
Keyword: Cluster analysis, Multi sample cluster analysis, Criteria information, Multisample comparison.
iii
Universitas Sumatera Utara
BAB 1 PENDAHULUAN
1.1 Latar Belakang
Manajemen informasi sangat penting dalam hal pengambilan keputusan baik dalam skala kecil ataupun besar. Keberagaman informasi sering dijumpai pada institusi, perusahaan besar, organisasi, medis dan bidang keilmuan lainnya. Informasi tentang sesuatu yang diperoleh disebut juga data. Data yang diperoleh dalam suatu penelitian dapat menampilkan banyak karakter atau sifat. Menurut Trebuna dan Halcinova (2013), variasi data yang luas dapat menimbulkan masalah dalam pengambilan keputusan.
Data yang dikumpulkan berapapun banyaknya, bukan tujuan dari suatu penelitian. Akan tetapi merupakan sarana untuk memudahkan penafsiran dan memahami maknanya. Untuk itu dibutuhkan suatu teknik analisis data sebagai upaya mengolah data sehingga karakteristik atau sifat-sifat data tersebut dapat dengan mudah dipahami dan bermanfaat untuk menjawab masalah-masalah yang berkaitan denngan penelitian.
Ada beberapa teknik statistik yang dapat digunakan untuk menganalisis data. Tujuannya untuk mendapatkan informasi yang relevan. Teknik statistika yang paling sering digunakan adalah Analysis of variance (ANOVA) untuk data univariat dan atau Multivariat Analysis of variance (MANOVA) untuk data multivariat. Atau lebih dikenal uji statistik t atau uji statistik F .
Namun, menurut Bozdogan (1986) usaha analisis data dengan ANOVA ataupun MANOVA tidak informatif. Penolakan hipotesis tidak mengindikasikan bahwa kelompok sampel berbeda seperti yang seharusnya ditunjukkan. Almuitari (2011) juga mengemukakan salah satu aspek yang menjadi kontra dalam penelitian adalah tidak adanya tolak ukur pemilihan penggunaan tingkat signifikan α antara 1%, 5%, atau 10% selama uji tes. Permasalahan lain adanya peluang penolakan minimal satu hipotesis ketika seharusnya itu tidak perlu terjadi.
1
Universitas Sumatera Utara
2
Berangkat dari beberapa alasan diatas, beberapa peneliti mencoba melakukan analisis data dengan menggunakan metode perbandingan tanpa menggunakan hipotesis. Sebagai contoh penelitian yang dilakukan oleh Bozdogan (1986) yang mengenalkan alternatif pendekatan baru untuk melihat perbedaan sampel dengan melakukan perbandingan beberapa sampel yang dikenal dengan analisis kelompok sampel-sampel. Tukey dalam Shimokawa dan Goto (2011) juga merekomendasikan penjelasan data sampel-sampel dengan menggunakan analisis kelompok.
Metode analisis kelompok merupakan salah satu metode statistika multivariat. Trebuna dan Halcinova (2013) menjelaskan banyak situasi praktis memerlukan penyajian data multivariat dari beberapa sampel tersturktur untuk inferensi komperatif dan pengelompokkan sampel hetrogen ke sampel homogen. Selanjutnya Ferreira dan Hitchcok (2003) menjelaskan pengelompokkan data berdasarkan homogenitas sangat penting karena dapat mengungkapkan informasi data. Secara umum metode analisis kelompok dikerjakan dengan melakukan pendekatan jarak antar kelompok. Persamaan karakteristik dalam pengelompokan mengakibatkan sulit untuk melihat yang terbaik dari kelompok yang telah terbentuk. Pengelompokkan tidak hanya berdasarkan ukuran homogenitas dan usaha membentuk kelompok dengan menggunakan algoritma. Algoritma pengelompokan harus dapat memaksimalkan perbedaan relatif kelompok terhadap variasi dalam kelompok. Dua metode umum dalam algoritma pengelompokan adalah metode hirarki dan non hirarki.
Dalam analisis kelompok untuk multi sampel, Bozdogan (1986) memperkenalkan pendekatan baru dengan menggunakan algoritma pengelompokan untuk kasus usaha perbandingan sampel tanpa menggunakan perbandingan jarak. Usaha pengelompokkan dengan terlebih dahulu membentuk alternatif kelompok yang mungkin akan terjadi. Kemudian dibutuhkan pendekatan pemilihan model seleksi kriteria informasi. Tujuan memasukan seleksi kriteria pada masa pembentukkan kelompok adalah untuk menggolongkan perbedaan kelompok tanpa membuat pilihan sendiri selama masa algoritma pengelompokkan data, sehingga memudahkan untuk melihat kelompok terbaik dari kelompok yang telah terbentuk dengan melihat nilai kriteria informasi minimum.
Universitas Sumatera Utara
3
Menurut Bozdogan (1986) model seleksi kriteria dikenalkan oleh Akaike’s pada tahun 1973 untuk mengidentifikasi data secara optimal dan hati-hati dengan perhitungan yang lebih kompleks. Pendekatan ini berdasarkan pada Kullback Liebler Information (KLIC) dan nilai rasio maksimum likelihood data statistik. Model seleksi kriteria yang pertama dikenal dengan Akaike’s Information Criterion (AIC).
Pada banyak kasus analisis kelompok untuk perbandingan multi sampel, diasumsikan berdistribusi normal. Namun pada kenyataannya menurut Shimokawa dan Goto (2011) sulit memenuhi asumsi ini. Pada tahun 1977, Worsley dalam penelitiannya memperkenalkan versi non parametrik Scott dan Knott’s dengan menggunakan uji Kruskal-Wallis untuk mengukur homogenitas. Dengan menggunakan versi non parametrik, tidak perlu memenuhi distribusi normal dan memungkinkan untuk memperoleh informasi yang merupakan bagian dalam data (seperti posisi, penyebaran dan bentuk)
Selain dari pendekatan diatas, Shimokawa dan Goto (2011) dalam melakukan analisis kelompok untuk multi sampel menggunakan distribusi power normal yang didefenisikan sebagai distribusi spesifik sebelum transformasi power normal. Dijelaskan Shimokawa dan Goto (2011) dan Ishogawa (2012) sebuah powertransformasi positif variabel X didefinisikan sebagai berikut:
xλ =
lxoλλg−x1 ,,
λ λ
= 0, = 0.
Dari hasil penelitian, diasumsikan dalam analisis data menggunakan distribusi power normal, dapat menggambarkan situasi keadaan data yang tergambarkan dalam grafik statistik.
Berdasarkan latar belakang, peneliti mengulas dan melakukan suatu analisis data menggunakan analisis kelompok untuk multi sampel namun tidak menggunakan metode perbandingan jarak seperti pada analisis kelompok biasanya, melainkan pendekatan baru menggunakan algoritma pengelompokan dengan memasukkan model kriteria informasi untuk melihat perbandingan data.
Universitas Sumatera Utara
4
1.2 Rumusan Masalah
Dalam usaha mendapatkan sebuah kesimpulan dari sekumpulan informasi, dibutuhkan suatu teknik analisis data untuk mengolah data agar data mudah dipahami untuk menjawab masalah dalam penelitian. Teknik analisis data yang umum digunakan untuk melakukan perbandingan sampel adalah ANOVA atau MANOVA. Akan tetapi beberapa peneliti berpendapat dengan teknik diatas tidak informatif. Karenanya dikenalkan suatu metode perbandingan sampel tanpa harus melakukan hipotesis, yakni dengan pengelompokkan sampel berdasarkan homogenitas atau lebih dikenal metode analisis kelompok. Algoritma yang digunakan dalam pengelompokkan adalah secara hirarki.
1.3 Tujuan Penelitian
Penelitian ini bertujuan untuk melakukan perbandingan multi sampel dengan teknik analisis kelompok secara hirarki untuk dapat menemukan pasangan kelompok terbaik berdasarkan kesamaan karakteristik dengan menggunkan model kriteria informasi AIC.
1.4 Manfaat Penelitian
Penelitian ini bermanfaat untuk memperkaya literatur tentang metode analisis kelompok secara hirarki dan memberikan suatu gambaran dalam analisis data atau pengambilan kesimpulan dengan menggunakan metode analisis kelompok secara hirarki untuk perbandingan multi sampel.
1.5 Metode Penelitian
Metode penelitian ini bersifat studi literatur dan kepustakaan dengan mengumpulkan informasi terkait dari beberapa jurnal. Adapun langkah yang dilakukan adalah sebagai berikut :
1. Mengumpulkan informasi dari literatur-literatur mengenai teknik analisis data terutama metode analisis kelompok.
Universitas Sumatera Utara
5 2. Menjelaskan analisis kelompok beserta pembagiannya. 3. Menjelaskan analisis kelompok dengan menggunakan model kriteria infor-
masi. 4. Melakukan pengkajian contoh analisis kelompok untuk perbandingan multi
sampel. 5. Menarik kesimpulan. ‘
Universitas Sumatera Utara
BAB 2 TINJAUAN PUSTAKA
Analisis data mempunyai peranan untuk memahami berbagai macam jenis data. Dalam Moleong (2000) dijelaskan pendapat Bogdan dan Taylor pada tahunn 1975 bahwa analisa data adalah proses yang merinci usaha formal untuk menemukan tema dan merumuskan hipotesis (ide) seperti yang disarankan oleh data dan sebagai usaha untuk memberikan bantuan pada tema dan hipotesis itu.
Analisa data adalah proses mengorganisasikan dan mengurutkan data ke dalam pola, kategori, dan satuan uraian dasar sehingga dapat ditemukan tema dan dapat dirumuskan hipotesis kerja seperti yang disarankan oleh data. Analisis data diartikan sebagai upaya mengolah data menjadi informasi, sehingga karakteristik atau sifat-sifat data tersebut dapat dengan mudah dipahami dan bermanfaat untuk menjawab masalah-masalah yang berkaitan dengan kegiatan penelitian.
Salah satu cara dalam analisis data bentuk multivariat adalah analisis kelompok. Secara umum analisis kelompok adalah usaha membandingkan sampel dengan menggunakan jarak. Namun, analisis kelompok juga dapat dilakukan dengan metode lain seperti yang pernah dilakukan Bozdogan (1986). Tahapan awal dalam analisis kelompok ini adalah penentuan algoritma pengelompokan yang akan digunakan. Pentingnya penentuan algoritma dalam pengelompokan data dikemukakan oleh Xu dan Wunsch (2005) yang melakukan survey algoritma pengelompokan untuk himpunan data dalam bidang statistik, ilmu komputer, travelling salesman problem, bioinformatik dan suatu bidang usaha baru yang menarik.
Algoritma pengelompokan secara umum adalah pengelompokan secara hirarki dan pengelompokan secara non hirarki. Dalam tulisan Shimokawa dan Goto (2011) mengatakan bahwa Cox dan Spotvol tahun 1982 memperkenalkan analisis pengelompokan secara non hirarki untuk perbandingan multi sampel dimana nilai p uji F adalah berbeda pada kasus analisis varians satu arah (ANOVA). Calinski dan Corsten pada tahun 1985 dan gabriel pada tahun 1964 menggunakan uji F untuk melihat perbedaan kelompok.
6
Universitas Sumatera Utara
7
Analisis kelompok multi sampel merupakan metode alternatif untuk perbandingan sampel. Permasalahan dari berbagai proses perbandingan bisa dilihat dari pengelompokan rata-rata grup, sampel atau perlakuan. Analisis kelompok multi sampel pertama kali dikenalkan oleh Bozdogan (1986, 2000). Bozdogan menggunakan model seleksi kriteria untuk mengenalkan metode analisis kelompok multi sampel sebagai alternatif perbandingan sampel. Dalam analisis kelompok multi sampel, sekumpulan grup, sampel atau perlakuan dikelompokkan dalam himpunan yang memiliki kesamaan. Permasalahan ini lebih rumit dibandingkan pengelompokkan individu atau objek kedalam satu kasus sampel.
Metode analisis kelompok multi sampel merupakan suatu pendekatan baru dan berbeda. Pada pendekatan ini model seleksi kriteria digunakan untuk memilih alternatif kelompok terbaik. Tahapan dalam analisis kelompok multi sampel adalah mengelompokkan semua alternatif kelompok yang mungkin menggunakan algoritma kombinatorial. Kemudian informasi kriteria digunakan untuk menggolongkan perbedaan tanpa membuat pilihan sendiri selama alternatif kelompok dibentuk. Alternatif kelompok dengan nilai informasi kriteria terkecil dipilih.
Almuitari (2011) dalam penelitiannya mengenalkan algoritma untuk analisis kelompok multi sampel. Didalam penelitian dipaparkan beberapa informasi kriteria dan formula untuk perbandingan sampel. Formula yang digunakan dikenal dengan Clique Partioning Problem Formulation (CPP) dengan algoritma Branch and Bound
Penggunaan kriteria informasi dalam teknik analisis data juga pernah diterapkan oleh Bozdogan (1986, 2000) yang menjelaskan tentang kriteria informasi Akaike’s untuk perbandingan multi sampel. Tujuannya untuk membangun rencana baru untuk informasi yang luas. Konishi dan Kitagawa (1996) dalam penelitiannya menjelaskan bahwa informasi kriteria dibangun untuk mengevaluasi model yang diperoleh dari berbagai macam cara ketika kelompok yang ditetapkan tidak memiliki distribusi yang membangkitkan data itu. Neath dan Cavanaugh (2006) melakukan pendekatan informasi kriteria bayes untuk menyelesaikan berbagai permasalahan perbandingan data.
Universitas Sumatera Utara
8 Secara umum, metode analisis kelompok untuk perbandingan sampel berdasarkan pada distribusi normal. Terkadang sulit memenuhi asumsi tersebut. Ishogawa (2012) dalam penelitiannya menyebutkan tingkat perbedaan akan lebih terlihat jika sampel berdistribusi power normal. Sebelumnya Shimokawa dan Goto (2011) melakukan penelitian analisis kelompok secara hirarki untuk perbandingan sampel banyak berdasarkan distribusi power normal atau dikenal PMC Method (Power normal Multisample Cluster analysis). Penelitian ini merujuk dari metode yang dikenalkan oleh Bozdogan (1986). Kesimpulan yang didapat dalam penelitian ini adalah metode PMC dapat digunakan untuk menilai kebenaran metode yang pernah digunakan sebelumnya (yang menggunakan distribusi normal), sehingga dapat digunakan untuk mendiagnosa metode yang berdistribusi normal.
Universitas Sumatera Utara
BAB 3 LANDASAN TEORI
Analisis data adalah proses penyederhanaan data agar lebih mudah dibaca atau di interprestasi. Berdasarkan variabel sampel, analisis data dapat dibedakan atas analisis data univariat, bivariat dan multivariat. Ada beberapa cara dalam melihat perbedaan sampel yang terdapat didalam data, diantaranya sebagai berikut:
3.1 ANOVA dan MANOVA
ANOVA merupakan teknik analisis data univariat. ANOVA digunakan untuk menguji perbedaan mean dua sampel atau lebih. Prosedur analisis varians (ANOVA) menggunakan variabel numerik tunggal yang diukur dari sejumlah sampel untuk menguji hipotesis nol dari populasi yang (diperkirakan) memiliki rata-rata hitung (mean) sama. Variabel dimaksud harus berupa variabel kuantitatif. Variabel ini terkadang dinamakan sebagai variabel terikat (dependent variable).
Sedangkan MANOVA merupakan teknik analisis data tentang perbedaan pengaruh beberapa variabel independen dalam skala nominal terhadap sekelompok variabel dependen dalam skala rasio. Skala nominal adalah tingkat mengkategorikan obyek yang diteliti dengan angka yang diberikan pada obyek mempunyai arti sebagai label saja, sedangkan skala rasio adalah ukuran nilai absolute pada objek yang akan diteliti dan mempunyai nilai nol (0).
Perbedaan antara ANOVA dan MANOVA terletak pada jumlah variabel dependennya. ANOVA digunakan untuk mengetahui apakah terdapat perbedaan pengaruh perlakuan terhadap satu variabel dependen, sedangkan MANOVA digunakan untuk mengetahui apakah terdapat perbedaan pengaruh terhadap lebih dari satu variabel dependen. Perbedaan ANOVA dan MANOVA diformulasikan sebagai berikut:
9
Universitas Sumatera Utara
10
ANOVA MANOVA
Y1 = X1 + X2 + X3 + ... + Xn Y1 + Y2 + Y3 + ... + Yn = X1 + X2 + X3 + ... + Xn
Dan perbedaannya juga terletak pada hipotesis nol dan hipotesis alternatifnya. Dengan menggunakan teknik ANOVA atau MANOVA, ada atau tidaknya hubungan antara sampel dilihat dari uji hipotesis mean sampel data yang di analisis.
3.2 Analisis Kelompok
Analisis kelompok mengarah pada metode statistik multivariat. Trebuna dan Halcinova (2013) menjelaskan analisis kelompok didefenisikan sebagai teknik logika umum, prosedur, yang kemudian diikuti pengelompokan variabel objek ke dalam grup kelompok yang berdasarkan pada persamaan atau perbedaan. Analisis kelompok di desain untuk menditeksi grup atau kelompok tersembunyi pada sebuah himpunan yang di sajikan dengan data kuantitaif, data struktural atau linguistic yang mana anggota setiap kelompok memiliki kesamaan satu sama lain (berkenaan dengan data yang diberi) dan kelompok yang terbaik yang dipisahkan.
Analisis kelompok mengklasifikasikan objek sehingga setiap objek yang paling dekat kesamaannya akan berada dalam satu kelompok. Kelompok yang terbentuk memiliki homogenitas internal yang tingggi dan heterogenitas eksternal yang tinggi. Dilihat dari apa yang dikelompokkan, analisis kelompok dibagi atas pengelompokan observasi dan pengelompokan variabel.
Pengelompokan di sajikan dalam bentuk matrik x tipe n x p dimana n menyatakan nomor objek dan p menyatakan nomor variabel.
X
=
xx...1211
xx...1222
... ... ...
xx...12pp
xn1 xn2 ... xnp
Universitas Sumatera Utara
11 Pada umumnya ketika objek dikelompokkan, perbedaan antara dua kelompok objek ditandai dengan jarak. Beberapa macam jarak yang biasa dipakai didalam analisis kelompok antara lain jarak euclidian, jarak manhattan, jarak pearson, korelasi dan jarak mutlak korelasi. Metode dalam analisis kelompok diklasifikasikan dua bagian yakni metode hirarki dan non hirarki seperti yang dijelaskan pada gambar berikut:
Gambar 3.1 Klasifikasi metode analisis kelompok 3.2.1 Analisis kelompok hirarki
Tipe dasar dalam metode ini adalah aglomerasi dan divisional. Dalam metode aglomerasi tiap observasi pada mulanya dianggap sebagai kelompok tersendiri sehingga terdapat sebanyak jumlah observasi. Kemudian dua kelompok yang terdekat kesamaannya digabung menjadi suatu cluster baru, sehingga tiap tahap. Sebaliknya pada metode divisional dimulai dari satu kelompok besar yang mengandung seluruh observasi, selanjutnya yang mendekati kesamaan dipisah dan dibentuk kelompok yang lebih kecil. Adapun beberapa metode dalam aglomerasi dalam Trebuna dan Halcinova (2013) adalah sebagai berikut:
Universitas Sumatera Utara
12
1. Metode simple linkage Metode simple linkage bisa di defenisikan jika D adalah suatu koefisien perbedaan acak, C1, C2 adalah dua kelompok berbeda, Ai bagian dariC1 dan Aj bagian dari C2, maka untuk menentukan jarak metode simple linkage adalah: dSL(C1, C2) = mini,j{d(Ai, Aj)}
2. Metode complete linkage Metode complete linkage hampir sama dengan metode simple linkage, hanya untuk menetukan jarak metode complete linkage adalah:
dCL(C1, C2) = maxi,j{d(Ai, Aj)}
3. Metode average linkage
Jarak antara kelompok pada metode average linkage adalah:
dAL(C1, C2)
=
1 n1n2
d(Ai; Aj)
Ai∈C1 Aj ∈C2
penentuan jarak pada metode ini ketika nomor objek n1 dan n2 berada pada
C1danC2
4. Metode centroid
Jarak antara kelompok di tentukan dengan korelasi Lance William
dLW (C1, C2, C3)
=
n2
n2 +
n3 dLW
(C1,
C2)
+
n2
n3 +
n3 dLW (C1,
C3)
−
n2n3 (n2 + n3
)2
dLW
(C2
,
C3)
5. Metode median
dMed(C1, C2
∪
C3
=
1 2
dmed(C1
,
C2)
+
1 2
dmed(C1,
C3
)
+
1 4
dmed
(C2,
C3)
6. Metode ward’s
△ESS(Ai, Aj)
=
1 2
dES
(Ai,
Aj
),
Ai,
Aj
∈
o
dimana i, j = 1, 2, ...n
Universitas Sumatera Utara
13 Alat yang membantu untuk memperjelas proses hirarki adalah diagram pohon yang dikenal dengan dendogram. Berikut contoh alur metode analisis kelompok hirarki diambil dari everitt et al., (2011).
Gambar 3.2 Contoh pohon alur analisis kelompok hirarki 3.2.2 Analisis kelompok non hirarki
Pada metode ini langkah awal menentukan terlebih dahulu jumlah kelompok yang diinginkan, baru kemudian di proses. Metode ini dipakai jika banyaknya kelompok sudah diketahui dan biasanya metode ini dipakai untuk mengelompokkan data yang berukuran besar. Yang termasuk dalam metode ini adalah K-means dan fuzzy.
Universitas Sumatera Utara
BAB 4 ANALISIS KELOMPOK MULTI SAMPEL
Menurut Almuitari (2011) analisis kelompok multi sampel di perkenalkan pertama kali oleh Bozdogan sebagai salah satu alternatif dalam prosedur perbandingan sampel untuk analisis data yang multi sampel. Analisis kelompok yang diperkenalkan tidak seperti analisis kelompok pada umumnya. Usaha perbandingan multi sampel menggunakan algoritma membentuk alternatif kelompok yang mungkin terbentuk dan memasukkan nilai model kriteria informasi sebagai dasar acuan pemilihan pasangan kelompok yang memiliki homogenitas.
4.1 Permasalahan Pengelompokan Multi Sampel
Permasalahan dalam analisis kelompok untuk multi sampel muncul ketika didapat sekumpulan data, sampel atau tindakan dan lain-lain, apakah itu secara alami atau tidak, dan tujuannya adalah untuk mengelompkkan menjadi grup/kelompok yang memiliki kesamaan. Masalahnya disini adalah untuk membuat kelompok atau sampel bukannya individual atau objek seperti pada kasus single sample.
Dijelaskan dalam Bozdogan (1986), setiap objek ditandai dengan ukuran p yang secara bersamaan berada dalam K kelompok.
X1
X (n
×
p)
=
X2 ...
XK
n1 × p n2 × p
...
nK × p
(4.1)
Misal X adalah matriks dari K kelompok, dimana Xg(ng × p) mewakilkan
pengamatan dari grup ke-g, g = 1, 2, ..., K dan n =
K g=1
ng .
Tujuannya adalah
untuk mengelompokkan K data kedalam k kelompok yang memiliki kesamaan,
dengan k belum diketahui dan dapat bermacam-macam, namun k ≤ K. Dengan
begitu akan diperoleh k terkecil dari kelompok data K. Kelompok kecil lebih
disukai untuk mengurangi keberagaman data multi sampel.
14
Universitas Sumatera Utara
15
4.2 Menghitung Alternatif Kelompok
Jika menggunakan teknik enumerasi komplit, kemudian pengelompokan dari K data kelompok kedalam k kelompok yang tak kosong, maka teorema adalah sebagai berikut (Bozdogan,1986):
Teorema 4.1. Banyaknya jalan untuk pengelompokkan K data sampel kedalam k kelompok dimana k ≤ K, dan tak satupun dari kelompok k yang kosong, diberikan sebagai berikut:
k
(−1)g
k g
(k − g)K
g=0
dimana setiap kelompok k tidak saling relevan.
(4.2)
Bukti. Anggap kelompok sampel-k berbeda. Pengelompokkan K data sampel ke dalam himpunan bagian k, tak satu pun yang kosong dan isi dari himpunan bagian k tidak relevan. Dari fakta dan teorema 4.1, maka dapat didapat total jumlah pengelompokan K data sampel ke dalam k kelompok himpunan bagian di berikan sebagai berikut (Bozdogan,1986):
w
=
S(K, k)
=
1 k!
k
(−1)g
k g
(k − g)K
g=0
(4.3)
Lebih dikenal dengan Stirling Number of the Second Time yang akan memberikan jumlah alternatif pengelompokkan. Jika jumlah alternatif k tidak diketahui, maka jumlah alternatif pengelompokan diberikan sebagai berikut (Bozdogan,1986):
K
S(K, k)
k=1
(4.4)
Universitas Sumatera Utara
16
Dengan catatan k ≤ K. S(K, k) bisa dijelaskan dengan rumus sebagai berikut (Bozdogan,1986):
dengan
S(K, k) = kS(K − 1, k) + S(K − 1, k − 1)
(4.5)
S(1, 1) = 1, S(1, k) = 0, k = 1 S(K, 2) = 2K−1 − 1
Contoh: Misal data suatu sampel K = 3. Banyaknya alternatif pengelompokkan k adalah 1, 2 dan 3 kelompok yakni,
3 = {3} = {2} + {1} = {1} + {1} + {1}
Banyaknya jumlah jalan pengelompokan K data sampel ke dalam k himpunan sampel yang homogen diberikan dari rumus (4.2) dan jumlah alteratif pengelompokan yang mungkin menggunakan rumus (4.3).
Universitas Sumatera Utara
Tabel 4.1 Contoh alternatif pengelompokan
No Alternatif pengelompokan
K=3 k=1
S(3,
k)
=
5
alternatif
1 2 3 4 5
Pengelompokan
(1,2,3) (1,2) (3) (1,3) (2) (2,3) (1) (1)(2)(3)
k
1 2 2 2 3
K=4 k=1
S(4,
k)
=
15
1
(1,2,3,4)
1
2 (1,2,3) (4) 2
3 (1,2,4) (3) 2
4 (1,3,4) (2) 2
5 (2,3,4) (1) 2
6 (1,2)(3,4) 2
7 (1,3)(2,4) 2
8 (1,4) (2,3) 2
9 (1)(2,3) (4) 3
10 (1)(2,4) (3) 3
11 (1)(3,4) (2) 3
12 (2)(1,3) (4) 3
13 (2)(1,4) (3) 3
14 (3)(1,2) (4) 3
15 (1)(2)(3)(4) 4
17
4.3 Model Kriteria Informasi
Dalam Almuitari (2011) disampaikan bahwa kriteria informasi pertama kali diperkenakan oleh Akaike pada tahun 1973. Ini mempelopori penggabungan teori kemungkinan dan teori informasi untuk menghasilkan pendekatan secara signifikan dan langsung untuk model seleksi statistik. Almuitari (2011) juga menyebutkan, ada banyak kriteria informasi telah diperkenalkan diantaranya Akaike Information Criterion (AIC), Consistent Akaike Information Criterion (CAIC), Schwarz Bayesian Criterion (SBC), Information Complexiry Information Criterion (ICOMP).
4.3.1 Akaike Information Criterion (AIC)
Misal {Mk : k ∈ K} adalah sekumpulan himpunan model yang akan digunakan dimana k = 1, 2, ...., K, maka:
AIC(k) = −2logeL[θˆ(k)] + 2m(k)
(4.6)
Universitas Sumatera Utara
18
dimana nilai terkecil adalah model terpilih dari himpunan model yang disebut AIC. L[θˆ(k)] adalah kemungkinan fungsi dari observasi, θˆ(k) adalah nilai perkiraan maksimum dari parameter vektor θˆ pada model Mk, mk adalah parameter
independen.
4.3.2 Consistent Akaike Information Criterion (CAIC)
Model Consistent Akaike Information Criterion (CAIC) merupakan hasil pengembangan Akaike Information Criterion (AIC) oleh Bozdogan dengan memasukkan efek dari ukuran sampel dengan tujuan agar fungsi kriteria informasi lebih konsisten. Misal {Mk : k ∈ K} adalah sekumpulan himpunan model yang akan digunakan dimana k = 1, 2, ...., K, maka:
AIC(k) = −2logeL[θˆ(k)] + m(k)[logen + 1]
(4.7)
4.3.3 Schwarz Bayesian Criterion (SBC)
Model Schwarz Bayesian Criterion (SBC) mempunyai komponen yang hampir sama dengan CAIC. Sering disebut model kriteria Bayesian karena mengacu pada penerapan bayesian dalam analisis statistik. Misal {Mk : k ∈ K} adalah sekumpulan himpunan model yang akan digunakan dimana k = 1, 2, ...., K, maka:
AIC(k) = −2logeL[θˆ(k)] + m(k)[loge]
(4.8)
4.3.4 Information Complexiry Information Criterion (ICOMP)
Model kriteria ini dikembangkan untuk mengukur data multivariat berbentuk linier atau non linier. Secara umum ditulis sebagai berikut:
dimana
ICOMP (IF IM)(k) = −2logeL[θˆ(k)] + 2C1(F −1(θˆ))
C1(F −1(θˆ))
=
s 2
log(
trF s
−1
)
−
1 2
log|F
−1|
(4.9) (4.10)
Universitas Sumatera Utara
19
disebut juga suatu perkiraan kompleks yang merupakan invers dari matrik informasi Fisher Fˆ1(IF IM). Sering juga disebut matriks batas bawah Cramer Rao (Almautari,2011). s adalah rangking IFIM, trF −1adalah mean dari IFIM, |F −1| determinan IFIM.
4.4 Analisis Kelompok Multi Sampel Berdistribusi Normal
Pada bagian ini akan dibahas mengenai proses analisis kelompok untuk perbandingan multi sampel. Sebelumnya Bozdogan (1986,2000) telah melakukan penelitian analisis kelompok multi sampel untuk prosedur perbandingan sampel dengan menggunakan model kriteria informasi AIC, CAIC dan ICOMP. Penelitiannya dapat dikatakan hirarki karena metode pengelompokkan menggunakan algoritma secara aglomiratif. Tahapan pertama yang harus dilakukan dalam analisis kelompok multi sampel adalah membuat algoritma sehingga K kelompok sampel dapat di optimalkan ke arah k himpunan bagian kelompok sampel (k ≤ K). Kemudian pada masa algoritma berjalan model kriteria informasi di masukkan sebagai acuan memilih pasangan kelompok yang memiliki sedikit perbedaan. Pasangan terpilih adalah yang memiliki nilai minimum. Adapun algoritmanya adalah sebagai berikut:
1. Tahap 1 : mulai dari k = 1 alternatif himpunan bagian kelompok. Pada keadaan k = 1 semua kelompok sampel berada dalam satu kelompok. Selanjutnya hitung nilai AIC.
2. Tahap 2 : lanjut k = 2 alternatif himpunan bagian kelompok. Banyak kelompok dapat diperoleh melalui rumus 4.3. Kemudian hitung nilai AIC untuk semua alternatif himpunan bagian kelompok yangterbentuk. Kelompok yang terpilih adalah yang memiliki nilai AIC minimum.
3. Tahap 3 : ulangi tahap 2 untuk k = 3, 4, ...K. Artinya hingga semua kelompok sampel terkelompok tunggal.
Universitas Sumatera Utara
20
Pada kejadian ini diasumsikan kasus populasi data multi sampel berdistribusi normal dengan nilai vektor mean berbeda (µg), g = 1, 2, ..., K dan nilai varian (σ) yang sama. Untuk mendapatkan nilai AIC (4.6) dimana nilai parameter m = kp + p(p + 1)/2 sehingga diperoleh rumus AIC sebagai berikut :
AI C (k)
=
−2logeL[θˆ(k)]
+
2[kp
+
p(p
+ 2
1) ]
Nilai fungsi log likelihood diperoleh sebagai berikut:
l({µg}, σ2 : X) ≡ Log({µg}, σ2 : X)
K
= −(np/2)log(2π) − (n/2)log σ2 − 1/2trσ−1 Ag
g=1 K
−1/2trσ−1 ng(x¯g − µg)(x¯g − µg)′
g=1
dimana
µˆg = X¯g, g = 1, 2, ..., K σˆ = n(−1)W
Dengan memasukkan nilai fungsi maksimum likelihood, maka AIC dapat didefenisikan sebagai berikut (Bozdogan, 1986):
AIC = nploge(2π) + nloge n(−1)W
+
np
+
2[kp
+
p(p
+ 2
1)
]
(4.11)
dimana
n = Ruang sampel W = Determinan dari ”within groups” sum of square matriks
k = J umlah alternatif grup p = Jumlah variabel
Universitas Sumatera Utara
21 Sebagai contoh yang akan dibahas disini studi kasus terhadap jenis padi yang datanya sudah diberikan dalam Srivastava dan Carter (Bozdogan, 1986). Varians jenis padi terdiri dari empat yang dinotasikan a, b, c dan d dengan setiap jenis terdiri dari 5 macam. Selama 6 minggu dilakukan pengukuran terhadap x1= pertumbuhan tinggi pohon dan x2= jumlah tangkai perpohon. Ini berarti data diatas memiliki n = ng = 20, n = 5, g = 1, 2, 3, 4. Untuk jenis kelompok varian padi diatas terdiri dari K = 4 kelompok sampel yang akan dikelompokkan kedalam k = 1, 2, 3 dan 4 kelompok himpunan bagian. Dimana banyaknya anggota dalam k kelompok himpunan bagian dapat dilihat seperti dibawah. Jumlah alternatif kelompok yang mungkin terjadi adalah 15 dengan nilai.
4 = {4} = {3} + {1} = {2} + {2} = {2} + {1} + {1} = {1} + {1} + {1} + {1}
Untuk keterangan lihat penjelasan dalam contoh teorema 4.1. Selanjutnya dikelompokkan alternatif kelompok seperti tampak pada tabel 4.2.
Universitas Sumatera Utara
22
Tabel 4.2 Analisis kelompok multi sampel untuk K = 4
No Alternatif pengelompokan alternatif Kelompok k m AIC
1
(A,B,C,D)
1 5 190.418*
2
(B,C,D)(A)
2 7 187.907
3
(A,C,D)(B)
2 7 190.417
4
(A,B,D)(C)
2 7 194.654
5
(A,B,C)(D)
2 7 190.566
6
(A,D)(B,C)
2 7 192.510
7
(A,C)(B,D)
2 7 182.747*
8
(A,B)(C,D)
2 7 195.701
9
(A,B)(C)(D)
3 9 196.0098
10 (A,C)(B),(D) 3 9 185.798*
11 (A,D)(B),(C) 3 9 194.554
12 (B,C)(A),(D) 3 9 189.447
13 (B,D)(A),(C) 3 9 186.328
14 (C,D)(A),(B) 3 9 190.141
15 (A),(B),(C),(D) 4 11 189.242*
Catatan : n=20 ; p=2 ; m=kp+p(p+1)/2 parameter AIC = nploge(2π) + nloge n(−1)W + np + 2m * merupakan nilai minimum
Dari hasil pengamatan tabel diatas dapat dilihat pada saat alternatif kelompok k = 2, pasangan yang memiliki homogenitas terbaik adalah yang memiliki nilai AIC minimum yakni pada alternatif kelompok ke 7 untuk pasangan (A,C) (B,D). Berlanjut pada saat alternatif kelompok k = 3, pasangan yang memiliki nilai AIC minimum pada alternatif kelompok ke 10 untuk pasangan (A,C), (B), (D). Secara dendogram, tahapan pembagian kelompok disajikan pada gambar 4.1.
Gambar 4.1 Tahapan pembagian kelompok
Universitas Sumatera Utara
23
4.5 Analisis Kelompok Multi Sampel Berdistribusi Power Normal
Pada banyak kasus analisis kelompok untuk perbandingan multi sampel, observasi diasumsi harus memenuhi distribusi normal. Pada kenyataannya sulit untuk memenuhi asumsi tersebut. Karenanya dikenalkan suatu metode yang tidak memandang kebutuhan distribusi normal, namun menggunakan distribusi power normal yang merupakan distribusi yang ditetapkan sebelum perubahan bentuk normal oleh Box dan Cox tahun 1964 oleh Shimokawa dan Goto (2011).
Secara umum variabel random x untuk transformasi power normal menurut Shimokawa dan Goto (2011) dan Ishogawa(2012) adalah:
xλ =
lxoλλg−x1 ,,
λ λ
= 0, = 0.
(4.12)
Fungsi densitas probabilitas untuk distribusi power normal dalam Shimokawa dan Goto (2011) adalah sebagai berikut:
f dpDPN (x; λ, µ, σ)
=
x√λ−1 A(λ) 2π
σ
2
eksp{−
(x(λ) − 2σ2
µ)2 }
(4.13)
Nilai µ adalah lokasi parameter, σ2 adalah skala parameter dan A(Λ) peluang proporsional dari distribusi power normal yang didefenisikan sebagai berikut:
A(λ) =
φ[sign(λ) ≡ ] λ = 0, 1, λ = 0.
Dimana ≡ = (λµ)/λσ adalah titik pemotongan standar dari pemotongan distribusi normal dan φ adalah fungsi distribusi kumulatif dari distribusi normal. Untuk memenuhi kebutuhan bahwa itu power normal dengan menganggap A(λn) ≈ 1 perubahan observasi adalah berdistribusi normal.
Dalam mengubah model kriteria informasi ke bentuk power normal, maka dianggap setiap kelompok terdistribusi normal. Adapun bentuk AIC untuk distribusi power normal diberikan sebagai berikut (Shimokawa dan Goto, 2011):
Universitas Sumatera Utara
24
dengan
AI CD(1P) N = −2lDP N (λˆn, µˆn, σˆn; x) + 2(3K)
(4.14)
N ki
lDP N (λˆn, µˆn, σˆn; x) = (λn − 1)
logxki − logσn2 + 1, n = 1, 2, ..., K
n=1 k∈Qn i=1
σˆn =
ki
(xkλˆin − µˆn)2/
ki
k∈Qn i=1
k∈Qn
µˆn =
ki
(xkλˆin /
ki
k∈Qn i=1
k∈Qn
Jika λ1 = λ2 = ... = λK = 1 , σ1 = σ2 = ... = σK = σ maka dapat diasumsikan bahwa hasil dari analisis kelompok dengan distribusi normal akan sama dengan hasil dari analisis kelompok distribusi power normal. Algoritma yang akan digunakan juga sama dengan algoritma berdistribusi normal hanya letak perbedaanya pada parameter yang telah berubah bentuk power normal. Jika pada distribusi normal yang dihitung nilai mean dari kelompok, pada distribusi power normal yang dihitung lokasi parameter dan skala parameter. Selanjutnya menghitung nilai AICDPN dengan rumus (4.14).
4.6 Contoh Permasalahan
Dalam kasus ini akan dilakukan analisis kelompok hirarki berdasarkan distribusi normal. Tapi sebelumnya akan ditampilkan perhitungan dengan menggunakan uji ANOVA, LSD, dan kemudian akan dibandingkan dengan hasil perhitungan analisis kelompok hirarki berdasarkan distribusi normal dan distribusi power normal yang telah ada.
Data diambil dari penelitian Zelazo tahun 1972 dalam Shimokawa (2011) yang melakukan pengamatan terhadap penguatan berjalan dan refleks bayi yang baru lahir. Data ini mengacu pada umur bayi pertama kali jalan. Data pengamatan awal bayi berjalan disajikan dalam tabel 4.3.
Universitas Sumatera Utara
Tabel 4.3 Pengamatan awal bayi jalan (bulan)
Kelompok AK PK NK EK
Hasil Pengamatan (bulan) 9.00;9.50;9.75;10.00;13.00;9.50 11.00;10.00;10.00;11.75;10.50;15.00 11.50;12.00;9.00;11.50;13.25;13.00 13.25;11.50;12.00;13.50;11.50
Mean 10.125 11.375 11.708 12.350
25
Dimana AK adalah kelompok bayi aktif latihan menerima stimulasi motorik empat kali sehari selama delapan minggu, PK adalah kelompok bayi pasif selama menerima stimulasi motorik yang sama empat kali sehari selama delapan minggu. NK adalah kelompok bayi yang tidak menerima latihan tetapi tetap diuji bersama bayi kelompok AK. Dan EK adalah kelompok bayi dalam kelas kontrol delapan minggu untuk mengendalikan kemungkinan pemeriksaan ulang.
Menurut Shimokawa dan Goto (2011) seperti yang pernah dijelaskan sebelumnya bahwa perbedaan kelompok sampel dapat dilihat dari tampilan grafik. Tampilan grafik boxplot data dapat dilihat pada gambar 4.2
Gambar 4.2 Diagram boxplot pengamatan bayi berjalan Dari gambar 4.2 dapat diketahui bahwa bayi pada kelompok AK yang pertama berjalan. Usia bayi kelompok EK dan NK hampir sama. Hasil yang berbeda akan terlihat apabila perbandingan kelompok sampel dihitung berdasarkan uji ANOVA.
Universitas Sumatera Utara
26
Tabel 4.4 Hasil perhitungan ANOVA
Sum Of Squares df Mean Square
Between Groups
14.788
3 4.926
Within Groups
43.690
19 2.299
Total
58.467
22
F 2.142
Sig .129
Dari tabel 4.4, menurut hitungan ANOVA didapat nilai Signifikan > 0,05, maka H0 diterima dan H1 ditolak. Ini berarti seluruh sampel memiliki ratarata yang sama secara statistik pada tingkat signifikansi 0,05. Tidak tampak ada perbedaan seperti yang seharusnya ditunjukkan pada tabel boxplot.
Namun apabila data diuji menggunakan uji LSD maka di peroleh bahwa kelompok sampel AK dan EK berbeda secara signifikan pada tingkat signifikansi 5%, karena nilai sig 0.026 < 0.05 (pada tabel 4.5). Terlihat hasil yang diperoleh dengan perhitungan uji LSD berbeda dengan perolehan dari perhitungan uji ANOVA.
Tabel 4.5 Multiple comparisons hasil uji LSD
(I) (J) Mean Dif(I-J) Std.Error Sig Lower Bound Upper Bound
AK PK -1.25000
.87549 .170 -3.0824
.5824
NK -1.58333
.87549 .086 -3.4158
.2491
EK −2.22500∗
.91822 .026 -4.1469
-.3031
PK AK NK EK
1.25000 -.33333 -.97500
.87549 .87549 .91822
.170 .708 .302
-.5824 -2.1658 -2.8969
3.0824 1.4991 .9469
NK AK PK EK
1.58333 .33333 -.64167
.87549 .87549 .91822
.086 .708 .493
-.2491 -1.4991 -2.5635
3.4158 2.1658 1.2802
EK AK PK NK
2.22500∗ .97500 .64167
91822 .026 91822 .302 .91822 .493
.3031 -.9469 -1.2802
4.1469 2.8969 2.5635
* The mean differences is significant at the 0.05 level
Berikutnya diterapkan metode perbandingan untuk kelompok sampel diatas yakni metode analisis kelompok. Metode analisis kelompok dilakukan dengan menggunakan algoritma hirarki berdasarkan distribusi normal. Langkah awal dalam algoritma adalah penentuan jumlah alternatif kelompok himpunan bagian
Universitas Sumatera Utara
27
yang mungkin terbentuk menggunakan teorema 4.1. Dari K = 4 kelompok menjadi k bagian kelompok dengan syarat K < k, banyaknya alternatif himpunan bagian kelompok ditemukan sebagai berikut:
K4
S(K, k) = S(4, k)
k=1
k=1
= S(4, 1) + S(4, 2) + S(4, 3) + S(4, 4)
= 1 + (24−1 − 1) + {3S(3, 3) + S(3, 2)} + 1
= 1 + (23 − 1) + {3.1 + (23−1 − 1)} + 1
= 1 + 7 + (3 + 3) + 1
= 1+7+6+1
= 15
Dimana banyaknya alternatif kelompok untuk himpunan bagian kelompok dengan k = 1 adalah S(4, 1) = 1, k = 2 adalah S(4, 2) = 7, k = 3 adalah S(4, 3) = 6 dan k = 4 adalah S(4, 4) = 1, dengan jumlah total alternatif kelompok yang terbentuk keseluruhannya adalah 15.
Untuk tahapan selanjutnya, masing-masing alternatif kelompok dihitung nilai kriteria informasi AIC seperti rumus pada (4.11) dimulai dari k = 1 sam