Analisis Diskriminan Aplikasi Analisis Diskriminan dalam Penentuan Faktor-faktor yang Mempengaruhi Kelulusan Siswa SMPN 1 Gunung Meriah Kabupaten Aceh Singkil

2.6 Analisis Diskriminan

Analisis diskriminan mirip regresi linier berganda multivariable regression. Perbedaannya, analisis diskriminan dipakai kalau variabel dependennya kategori maksudnya kalau menggunakan skala ordinal ataupun nominal dan variabel independennya menggunakan skala metrik interval dan rasio. Sedangkan dalam regresi berganda variabel dependentnya harus metrik, dan jika variabelnya independen, bisa metrik maupun nonmetrik. Sama seperti regresi berganda, dalam analisis diskriminan variabel independen hanya satu, sedangkan variabel independen banyak multiple. Misalnya, variabel dependen adalah pilihan merek mobil: Kijang, Kuda, dan Panther. Variabel independen adalah rating setiap merek pada sejumlah atribut yang memakai skala 1 sampai 7, Simamora, 2005. Analisis diskriminan adalah metode statistik untuk mengelompokkan atau mengklasifikasi sejumlah obyek ke dalam beberapa kelompok, berdasarkan beberapa variabel, sedemikian hingga setiap obyek yang menjadi anggota lebih dari pada satu kelompok. Pada prinsipnya analisis diskriminan bertujuan untuk mengelompokkan setiap obyek ke dalam dua atau lebih kelompok berdasarkan pada kriteria sejumlah variabel bebas. Pengelompokkan ini bersifat mutually exclusive, dalam artian jika obyek A sudah masuk kelompok 1, maka ia tidak mungkin juga dapat menjadi anggota kelompok 2. Analisis kemudian dapat dikembangkan pada ‘variabel mana saja yang membuat kelompok 1 berbeda dengan kelompok 2, berapa persen yang masuk ke kelompok 1, berapa persen yang masuk ke kelompok 2. Oleh karena ada sejumlah variabel independen, maka akan terdapat satu variabel dependen tergantung, ciri analisis diskriminan adalah jenis data dari variabel dependent bertipe nominal kategori, seperti kode 0 dan 1, atau kode 1, 2 dan 3 serta kombinasi lainnya Overall and Klett, 1972. Universitas Sumatera Utara

2.6.1 Hal-hal Pokok Tentang Analisis Diskriminan

Bentuk multivariat dari analisis diskriminan adalah dependen sehingga variabel dependen adalah variabel yang menjadi dasar analisis diskriminan. Variabel dependen bisa berupa kode grup 1 atau grup 2 atau lainnya, Santoso, 2010. Tujuan diskriminan secara umum adalah: 1. Ingin mengetahui apakah ada perbedaan yang jelas antar-grup pada variabel dependen? Atau bisa dikatakan apakah ada perbedaan antara anggota Grup 1 dengan anggota Grup 2? 2. Jika ada perbedaan, variabel independen manakah pada fungsi diskriminan yang membuat perbedaan tersebut? 3. Membuat fungsi atau model diskriminan, yang pada dasarnya mirip dengan persamaan regresi. 4. Melakukan klasifikasi terhadap objek dalam terminology SPSS disebut baris, apakah suatu objek bisa nama orang, nama tumbuhan, benda atau lainnya termasuk pada grup 2, atau lainnya. Proses dasar dari analisis diskriminan ialah: • Memisah variabel-variabel menjadi Variabel Dependen dan Variabel Independen. • Menentukan metode untuk membuat Fungsi Diskriminan. Pada prinsipnya ada dua metode dasar untuk itu, yakni : 1. Simultaneous Estimation, dimana semua variabel dimasukkan secara bersama- sama kemudian dilakukan proses analisis diskriminan. 2. Step-Wise Estimation, dimana variabel dimasukkan satu persatu kedalam model diskriminan. Pada proses ini, tentu ada variabel yang tetap ada pada model, dan ada kemungkinan satu atau lebih variabel independen yang ‘dibuang’ dari model. • Menguji signifikansi dari fungsi diskriminan yang telah terbentuk, menggunakan Wilk’s lambda, pilai, F test dan lainnya. • Menguji ketepatan klasifikasi dari fungsi diskriminan, termasuk mengetahui ketepatan klasifikasi secara individual dengan Casewise Diagnostics. Universitas Sumatera Utara • Melakukan interpretasi terhadap fungsi diskriminan tersebut. • Melakukan uji validitas fungsi diskriminan. Berikut ini beberapa asumsi yang harus dipenuhi agar model diskriminan dapat digunakan: 1. Multivariate Normality, atau variabel independen seharusnya berdistribusi normal, hal ini akan menyebabkan masalah pada ketepatan fungsi model diskriminan. Regresi logistic Logistic Regression bisa dijadikan alternative metode jika memang data tidak berdistribusi normal. Tujuan uji normal adalah ingin mengetahui apakah distribusi data dengan bentuk lonceng bell shaped. Data yang ‘baik’ adalah data yang mempunyai pola seperti distribusi normal, yakni distribusi data tersebut tidak menceng ke kiri atau menceng ke kanan. Uji normalitas pada multivariat sebenarnya sangat kompleks, karena harus dilakukan pada seluruh variabel secara bersama-sama. Namun, uji ini bisa juga dilakukan pada setiap variabel dengan logika bahwa jika secara individual masing-masing variabel memenuhi asumsi normalitas, maka secara bersama-sama multivariat variabel- variabel tersebut juga bisa dianggap memenuhi asumsi normalitas. Adapun criteria pengujiannya adalah: • Angka signifikansi Sig 0,05, maka data tersebut berdistribusi normal. • Angka signifikansi Sig 0,05, maka data tidak berdistribusi normal. Jika sebuah variabel mempunyai sebaran data yang tidak normal, maka perlakuan yang dimungkinkan agar menjadi normal, Santoso, 2010: Menambah jumlah data. Seperti pada kasus, bisa dicari 20 atau 30 atau sejumlah data baru untuk menambah ke-75 data berat badan konsumen yang sudah ada. Kemudian dengan jumlah data yang baru, dilakukan pengujian sekali lagi. Menghilangkan data yang dianggap penyebab tidak normalnya data. Seperti pada variabel berat, jika dua data yang outlier dibuang, yakni berat 100 dan 120, kemudian diulang proses pengujian, mungkuin data bisa menjadi normal. Jika belum normal, ulangi pengurangan data yang dianggap penyebab ketidaknormalan data. Namun demikian, pengurangan data harus Universitas Sumatera Utara dipertimbangkan apakah tidak mengaburkan tujuan penelitian karena hilangnya data-data yang seharusnya ada. Dilakukan transformasi data, misal mengubah data ke logaritma atau kebentuk natural ln atau bentuk lainnya, kemudian dilakukan pengujian ulang. Data diterima apa adanya, memang dianggap tidak normal dan tidak perlu dilakukan berbagai treatment. Untuk itu, alat analisis yang dipilih harus diperhatikan, seperti untuk multivariate mungkin faktor analisis tidak begitu mementingkan asumsi kenormalan. Atau pada kasus statistik univariat, bisa dilakukan alat analisis nonparametrik, Santoso, 2010.

2.6.2 Klasifikasi dengan Dua Populasi Multivariat Normal

Dalam buku Johnson and Wichern 2007, dijelaskan bahwa fungsi diskriminan pertama kali diperkenalkan oleh Ronald A. Fisher 1936 dengan menggunakan beberapa kombinasi linier dari pengamatan yang cukup mewakili populasi. Menurut Fisher, untuk mencari kombinasi linier dari p variabel bebas tersebut dapat dilakukan dengan pemilihan koefisien-koefisiennya yang menghasilkan hasil bagi maksimum antara matrik peragam antar kelompok between-group dan matrik peragam dalam kelompok within-group. Adapun asumsi-asumsi yang harus dipenuhi sebelum melakukan analisis diskriminan, antara lain yaitu: • Variabel independen berdistribusi normal multivariat multivariates normal distribution • Varians dalam setiap kelompok adalah sama equal variances Prosedur–prosedur klasifikasi yang didasarkan pada populasi normal lebih unggul dalam statistik karena tidak rumit dan tingkat efisiensi yang tinggi yang melibatkan banyak model variasi populasi. Sekarang asumsikan bahwa f 1 x dan f 2 x kepadatan multivariat normal, pertama dengan vektor rata-rata 1 dan matriks kovarian 1 dan yang kedua dengan vector rata-rata 2 dan matriks kovarian 2 . Universitas Sumatera Utara Klasifikasi populasi normal ketika 1 = 2 = anggap bahwa kepadatan bersama dari X’ = [X 1 , , X 2 , . . , . X P ] untuk populasi 1 dan 2 diberikan oleh: f i x = 3 4 5 6 6 7 5 exp 8 9 : ; 9 : untuk i = 1,2 2.1 Anggap juga bahwa parameter-parameter populasi 1, 2, dan diketahui. Kemudian, setelah cancelasi dari istilah = 5 ? ? 5 daerah Expected Cost of Misclassification ECM minimum pada region R 1 dan R 2 yang meminimalisir ECM didefenisikan oleh nilai x untuk ketidaksamaan yang berlaku sebagai berikut: R 1 = 7 9 9 A B C DE C D E F B 7 F R 2 = 7 9 9 G B C DE C D E F B 7 F menjadi : ≥ − − + − − − − − 2 1 2 1 1 1 1 2 1 2 1 exp : x x x x R B C DE C D E F B 7 F − − + − − − − − 2 1 2 1 1 1 2 2 1 2 1 exp : x x x x R B C DE C D E F B 7 F 2.2 Diberikan daerah R 1 dan R 2 , sehingga dapat membentuk aturan klasifikasi yang diberikan pada hasil berikut: Anggap populasi 1 dan 2 dideskripsikan oleh idensitas multivariate normal dengan bentuk pada persamaan 2.1. Kemudian aturan alokasi yang meminimalisir ECM sebagai berikut : Alokasikan x ke 1 jika : : ; 9 : : ; : : A L 8B C DE C D E F B 7 F 2.3 Dengan cara lain alokasikan x ke 2. Bukti: karena quantitas pada persamaan 2.2 tidak negatif untuk semua x , maka dapat diambil logaritma naturalnya dan menyiapkan pertidaksamaan. Selanjutnya Universitas Sumatera Utara 9 : ; 9 : 9 : ; 9 : = : : ; 9 : : ; : : 2.4 dan akibatnya R 1 : 2 1 1 2 1 1 2 1 + − − − − − 2 1 x A L 8B C DE C D E F B 7 F R 2 : 2 1 1 2 1 1 2 1 + − − − − − 2 1 x G L 8B C DE C D E F B 7 F 2.5 Pada kebanyakan situasi, quantitas populasi 1, 2, dan tidak diketahui, sehingga aturan 2.3 harus dimodifikasi. Wald dan Anderson menyarankan mengganti parameter-parameter populasi dengan sampel mereka. Kemudian, anggap kita memiliki n 1 observasi dari variabel acak multivariat X ’ = [ X 1, X 2 , …, X p ] dari 1 dan n 2 pengukuran quantitas ini dari 2, dengan n 1 + n 2 – 2 p. Kemudian matriks data respektif sebagai berikut: = × x x x X 1 1 1 12 11 1 n p n ; = × x x x X 2 2 1 22 21 2 n p n 2.6 Dari data matriks tersebut, vektor sampel rata-rata dan matriks kovarians adalah: = × = 1 1 1 1 1 1 1 n j j p n x X ; = × − − − = 1 1 1 1 1 1 1 1 1 1 n j j j p p n x x x x S = × = 2 1 2 2 1 1 2 n j j p n x X ; = × − − − = 2 2 1 2 2 2 2 1 1 2 n j j j p p n x x x x S 2.7 Karena diasumsikan bahwa populasi memiliki matriks kovarian yang sama , sampel matriks kovarian S 1 dan S 2 dikombinasikan untuk diturunkan menjadi perkiraan objektif tunggal dari . Secara umum, berat rata-rata 2 1 2 S S S − + − − + − + − − = 1 1 1 1 1 1 2 1 2 1 1 n n n n n n pooled 2.8 Universitas Sumatera Utara Adalah suatu estimasi unbias dari jika matriks data X 1 dan X 2 memuat sampel- sampel acak dari populasi 1 dan 2 berturut-turut. Substitusikan 9M 1 untuk 1, 9M 2 untuk 2, dan S pooled untuk pada persamaan 2.3 menjadi “sampel” aturan klasifikasi. Estimasi aturan Expected Cost of Misclassification ECM minimum untuk dua populasi normal: Alokasikan x ke 1 jika 9M 1 - 9M 2 N O PPQRS 9 9M 1 - 9M 2 N O PPQRS 9M 1 + 9M 2 A L 8B C DE C D E F B 7 F 2.9 Alokasikan x ke 2, jika pada 2.9, B C DE C D E F B 7 F = 1 Kemudian ln 1 = 0, dan estimasi aturan ECM minimum untuk 2 populasi normal ditotalkan untuk membandingkan variabel scalar: T = 9M 1 - 9M 2 N O PPQRS 9 UTN9 Dievaluasi pada , dengan jumlah : VT = 9M 1 - 9M 2 N O PPQRS 9M 1 + 9M 2 = W W dimana : W = 9M 1 - 9M 2 N O PPQRS 9M UTN9M dan W = 9M 1 - 9M 2 N O PPQRS 9M UTN9M Oleh karena itu, estimasi aturan ECM minimum untuk dua populasi normal sama dengan membentuk dua populasi univariat untuk nilai y dengan mengambil suatu kombinasi linier yang sesuai dari observasi-observasi populasi 1 dan 2 dan kemudian menandai suatu observasi baru x ke 1 atau 2, bergantung pada apakah T = UTN9M jatuh kekanan atau kekiri titik tengah VT antara dua rata-rata univariat W dan W . Sekali estimasi parameter disisipkan pada kuantitas populasi tak diketahui yang bersesuaian, tidak ada jaminan bahwa aturan hasil akan meminimalisir biaya ekspektasi kesalahan klasifikasi pada klasifikassi yang umum. Hal ini karena aturan optimal di 2.3 telah diturunkan menghasilkan bahwa kepadatan multivariat normal Universitas Sumatera Utara f 1 x dan f 2 x diketahui secara lengkap. Persamaan 2.9 adalah satu estimasi sederhana dari aturan optimal. Akan tetapi, kelihatannya beralasan untuk mengekspektasi bahwa hal tersebut harusnya ada dengan baik jika ukuran sampel besar. Sebagai hasilnya, jika data muncul menjadi multivariat normal, statistik klasifikasi bergeser kekiri dari pertidaksamaan di 2.9 dapat dihitung untuk setiap observasi baru x 0. Observasi-observasi ini diklasifikasikan dengan membandingkan nilai-nilai statistik dengan nilai-nilai dari ln XY D E ZY DE Z [. 2.6.3 Format Data Dasar dan Program Komputer yang Digunakan Data dasar yang digunakan otomatis adalah data yang kontinu karena adanya asumsi kenormalan untuk variabel penjelas X j dan data kategorikkualitatifnonmetrik untuk variabel respon Y. Tabel 2.1 Tabel Format Data untuk Analisis Diskriminan X 1 X 2 . . . X p Y … … … … … … … … … … … … … … Beberapa software yang bisa digunakan adalah SPSS, SAS, dan Minitab. 2.6.4 Algoritma dan Model Matematis Secara ringkas, langkah-langkah dalam analisis diskriminan adalah sebagai berikut : 1 Pengecekan adanya kemungkinan hubungan linier antara variabel penjelas. Untuk point ini, dilakukan dengan bantuan matriks korelasi pembentukan matriks korelasi sudah difasilitasi pada analisis diskriminan. Pada output SPSS, matriks korelasi bisa dilihat pada pooled Within-Groups Matrices. Universitas Sumatera Utara 2 Uji vektor rata-rata kedua kelompok 2 1 : 2 1 : ≠ = 1 H H Angka signifikan : Jika Sig. 0,05 berarti tidak ada perbedaan antar-grup Jika Sig. 0,05 berarti ada perbedaan antar-grup Diharapkan dalam uji ini adalah hipotesis nol ditolak, sehingga kita mempunyai informasi awal bahwa variabel yang sedang diteliti memang membedakan kedua kelompok. Pada SPSS, uji ini dilakukan secara univariate jadi yang diuji bukan berupa vektor, dengan bantuan table Tests of Equality of Group Means. 3 Dilanjutkan pemeriksaan asumsi homoskedastisitas dengan uji Box’s M. Diharapkan dalam uji ini hipotesis nol tidak ditolak : 2 1 = H . Hipotesis: H : matriks kovarians grup adalah sama H 1 : matriks kovarians grup adalah berbeda secara nyata Keputusan dengan dasar signifikansi lihat angka signifikan Jika Sig. 0,05 berarti H diterima Jika Sig. 0,05 berarti H ditolak Sama tidaknya grup kovarians matriks juga bisa dilihat dari tabel output Log Determinant. Jika dalam pengujian ini H ditolak maka proses lanjutan seharusnya tidak bisa dilakukan. 4 Pembentukan model diskriminan Kriteria Fungsi Linier Fisher a. Pembentukan fungsi Linier teoritis Fisher mengelompokkan suatu observasi berdasarkan nilai skor yang dihitung dari suatu fungsi linier Y = X dimana menyatakan vektor yang berisi koefisien-koefisien variabel penjelas yang membentuk persamaan linier terhadap variabel respon, Universitas Sumatera Utara = [ 1, 2, …, p ] X = 8 X k menyatakan matriks data pada kelompok ke-k X k = . 2 1 2 21 21 1 12 11 npk k n k n pk k k pk k k x x x x x x x x x i = 1, 2, …, n j = 1, 2,…, p k = 1 dan 2 x ijkk menyatakan observasi ke-i variabel ke-j pada kelompok ke-k. Dibawah asumsi X k \ N k k , µ maka ] __` a a bc 8 ] ] dan k _ a d ] d a d ] d N ; 1 = 2 = ] d = pk pk µ µ . . . ; ] d adalah vekor rata-rata tiap variabel X pada kelompok ke-k. e pp p p σ σ σ σ σ σ . . . . . . . . . . . . . . 2 22 1 12 11 Universitas Sumatera Utara j1j2 = { fg hg i fg hgjkL l g gjhLg l l mnfg hg i fg hgjkL l g l g gjhLgl o l Fisher mentransformasikan observasi-observasi x yang multivariate menjadi observasi y yang univariate. Dari persamaan Y = ’X diperoleh: ] dp EY k = E ’X = ’ k ; q r = var ’X = ’ ] dp adalah rata-rata Y yang diperoleh dari X yang termasuk dalam kelompok ke- k. q r = adalah varians Y dan diasumsikan sama untuk kedua kelompok. Kombinasi linier yang menarik menurut Fisher adalah yang dapat memaksimumkan rasio antara jarak kuadrat rata-rata Y yang diperoleh dari X kelompok 1 dan 2 dengan varians Y, atau dirumuskan sebagai berikut: ] r ] r q r s ; ] ] ] ] ; s s ; s Jika ] ] = maka persamaan diatas menjadi t u v t u t karena adalah matriks definit positif maka menurut teori pertidaksamaan Cauchy-Schwartz, rasio t u v t u t dapat dimaksimumkan jika s ; Y = Y ] ] dengan memilih c = 1, menghasilkan kombinasi linier yang disebut kombinasi linier Fisher sebagai berikut : X X Y 1 2 1 − − = = b. Pembentukan Fungsi Linier dengan bantuan SPSS Pada output SPSS, koefisien untuk tiap variabel yang masuk dalam model dapat dilihat pada tabel Canonical Discriminant Function Coefficient. Tabel ini akan dihasilkan pada output apabila pilihan Function Coefficient bagian Unstandardized diaktifkan. Universitas Sumatera Utara c. Menghitung discriminant score Setelah dibentuk fungsi liniernya, maka dapat dihitung skor diskriminan untuk tiap observasi dengan memasukkan nilai-nilai variabel penjelasnya. d. Menghitung Cutting Score Untuk memprediksi responden mana masuk golongan mana, kita dapat menggunakan optimum cutting score. Memang dari computer informasi ini sudah diperoleh. Sedangkan cara mengerjakan secara manual Cutting Score m dapat dihitung dengan rumus sebagai berikut dengan ketentuan untuk dua grup yang mempunyai ukuran yang sama cutting score dinyatakan dengan rumus, Simamora, 2005: Z ce = w x yw z dengan : Z ce = cutting score untuk grup yang sama ukuran Z A = centroid grup A Z B = Centroid grup B Apabila dua grup berbeda ukuran, rumus cutting score yang digunakan adalah : Z CU = x w z y z w x x y z dengan : Z CU = Cutting score untuk grup tak sama ukuran N A = Jumlah anggota grup A N B = Jumlah anggota grup B Z A = Centroid grup A Z B = Centroid grup B Kemudian nilai-nilai discriminant score tiap obsservasi akan dibandingkan dengan cutting score, sehingga dapat diklasifikasikan suatu obsevasi akan termasuk kedalam kelompok yang mana. Suatu observasi dengan karakteristik x akan diklasifikasikan sebagai anggota kelompok kode 1 jika , x Y m ≥ − = −1 2 1 selain itu dimasukkan dalam kelompok 2 kode Universitas Sumatera Utara nol perhitungan m dilakukan secara manual, karena SPSS tidak mengeluarkan output m. Namun, dapat di hitung nilai m dengan bantuan tabel Function at Group Centroids dari output SPSS. e. Perhitungan Hit Ratio setelah semua observasi diprediksi keanggotaannya, dapat dihitung hit ratio, yaitu rasio antara observasi yang tepat pengklasifikasiannya dengan total seluruh observasi. Misalkan ada sebanyak n observasi, akan dibentuk fungsi linier dengan observasi sebanyak n-1. Observasi yang tidak disertakan dalam pembentukan fungsi linier ini akan diprediksi keanggotaannya dengan fungsi yang sudah dibentuk tadi. Proses ini akan diulang dengan kombinasi observasi yang berbeda-beda, sehingga fungsi linier yang dibentuk ada sebanyak n. Inilah yang disebut dengan metode Leave One Out. f. Kriteria posterior probability Aturan pengklasifikasian yang ekivalen dengan model linier Fisher adalah berdasarkan nilai peluang suatu observasi dengan karakteristik tertentu x berasal dari suatu kelompok. Nilai peluang ini disebut posterior probability dan bisa ditampilkan pada sheet SPSS dengan mengaktifkan option probabilities of group membership pada bagian Save di kotak dialog utama. p D mE k k k k k x f p x f p , dimana : p k adalah prior probability kelompok ke-k dan f k x = 3 4 { 6 6 7 { exp 9 : d ; 9 : d | m } suatu observasi dengan karakteristik x akan diklasifikasikan sebagai anggota kelompok 0 jika p m }E D ~ m E D . Nilai-nilai posterior probability inilah yang mengisi kolom dis1_1 dan kolom di 1_2 pada sheet SPSS. g. Akurasi statisik, dapat di uji secara statistik apakah klasifikasi yang di lakukan dengan menggunakan fungsi diskriminan akurat atau tidak. Uji statistik tersebut adalah prees-Q Statistik. Ukuran sederhana ini Universitas Sumatera Utara membandingkan jumlah kasus yang diklasifikasi secara tepat dengan ukuran sampel dan jumlah grup. Nilai yang diperoleh dari perhitunngan kemudian dibandingkan dengan nilai kritis critical velue yang diambil dari tabel Chi- Square dan tingkat keyakinan sesuai yang diinginkan. Statistik Q ditulis dengan rumus: Prees-Q = • €• ‚ 2 • dengan : N = ukuran total sampel n = jumlah kasus yang diklasifikasi secara tepat K = jumlah grup

2.7 Pengujian Hipotesis