Analisis Diskriminan Linear Fisher

9 atau     ln ln k i f f  x x ; i k   . Dalam statistika terapan, untuk pengklasifikasian, umumnya populasi diasumsikan berdistribusi normal karena kesederhanaan dan keakuratan dari distribusi ini yang cukup tinggi pada berbagai model populasi. Karena itu, untuk setiap data latih yang tidak diketahui distribusi data kelompoknya, maka data kelompok tersebut diasumsikan berdistribusi normal dengan vektor rataan yang berbeda-beda untuk setiap kelompoknya, sehingga fungsi kepadatan peluang untuk setiap kelompok data dapat ditulis sebagai         1 2 2 1 1 1 exp 2 2 p T k k k k k f             x x μ Σ x μ Σ ; 1, 2, , , k K  dengan k μ dan k Σ adalah vektor rataan dan matriks kovarians kelompok k  yang kemudian diestimasi dengan menggunakan penaksir maximum likelihood k x dan k S . k S merupakan matriks kovarians kelompok k  yang anggotanya adalah     1 1 ; 1, 2, , ; 1, 2, , , 1 m ij ki i kj j k s x x x x i p j p m          di mana m adalah banyaknya objek pada kelompok . k  Fungsi diskriminan kelompok k  dapat diperoleh melalui                 1 2 2 1 1 ln 1 1 ln exp 2 2 1 1 ln 2 ln . 2 2 2 p Q k k T k k k k T k k k d f p                                    x x x μ Σ x μ Σ Σ x μ Σ x μ Karena suku       2 ln 2 p   bernilai sama untuk setiap kelompok data, maka nilai tersebut dapat diabaikan sehingga persamaan 31 dapat ditulis sebagai         1 1 1 1 1 1 1 1 1 ln 2 2 1 1 1 ln 2 2 2 1 1 1 ln . 2 2 2 T Q k k k k k T T T k k k k k k k T T T k k k k k k k d                              x Σ x μ Σ x μ x Σ x μ Σ x μ Σ μ Σ x Σ x μ Σ x μ Σ μ Σ Untuk data yang keragaman setiap kelompoknya sama   ; , k j j k    Σ Σ Σ maka nilai       1 1 2 1 2 ln T k k    x Σ x Σ juga dapat diabaikan karena bernilai sama untuk setiap kelompok data sehingga diperoleh fungsi diskriminan linear     1 1 1 2 , T T k k k k T k k d w              x μ Σ x μ Σ μ w x dengan Σ adalah matriks kovarians gabungan yang diestimasi dengan 28 29 31 32 33 30 2 10   1 1 1 K k k k gab K k k n n K        S S ; k  S matriks kovarians kelompok k  . Persamaan 33 kemudian dikenal dengan nama Fungsi Diskriminan Linear Fisher. Berdasarkan persamaan 28, maka pengalokasian untuk sebarang vektor objek x ke dalam kelompok k  dapat dipilih berdasarkan     1,2, , argmax k k K k d   x sedangkan fungsi bidang hiper yang memisahkan antara kelompok j  dan , k  , j k   ialah     k j d d   x x     T k j k j w w     w w x   1 1 1 1 1 1 2 2 T T T T k j k k j j                μ Σ μ Σ x μ Σ μ μ Σ μ         1 1 1 2 T T k j k j k j               μ μ Σ x μ μ Σ μ μ     1 1 2 T k j k j            μ μ Σ x μ μ . Fungsi bidang hiper pada persamaan 36 dikenal dengan nama fungsi pengklasifikasian Anderson. Data input yang terpisah oleh bidang hiper disebut data yang terpisah secara linear. 34 35 36 11 3 METODE PENELITIAN Langkah-langkah yang digunakan untuk membahas permasalahan yang diambil dalam penelitian dibahas pada bab ini. Di bagian ini juga disebutkan metode yang digunakan untuk melakukan pereduksian data berkelompok menjadi dua komponen utama atau visualisasi data dengan menggunakan AKU dan AKU Kernel. Penelitian ini menggunakan studi literatur dan kemudian mengimplementasikan AKU dan AKU Kernel untuk memvisualisasikan data berkelompok ke dalam program komputer menggunakan software Matlab yang meminimumkan total proporsi salah klasifikasi. Untuk pengklasifikasian, digunakan analisis diskriminan linear Fisher guna melihat keterpisahan data secara linear. Pada AKU Kernel, sebelum melakukan visualisasi terhadap data berkelompok, pertama-tama dibuatkan sebuah algoritma untuk menentukan nilai parameter  untuk fungsi Kernel Gauss. Parameter ini kemudian digunakan dalam melakukan pereduksian data dengan AKU Kernel. Selain itu pada penelitian ini, metode visualisasi data dengan AKU dan AKU Kernel juga diterapkan pada beberapa data sekunder berkelompok yang populer dan sering digunakan sebagai contoh dalam pengklasifikasian data. Tujuan dari langkah ini adalah untuk mengetahui apakah dengan menggunakan nilai  yang tepat, AKU Kernel dapat memberikan visualisasi yang lebih baik jika dibandingkan dengan AKU berdasarkan total proporsi salah klasifikasi yang dihasilkan. Total proporsi salah klasifikasi AER, Apparent Error Rate yang digunakan sebagai evaluasi pada penelitian ini merupakan perbandingan banyaknya objek yang memperoleh kelompok prediksi yang berbeda dengan kelompok asal terhadap banyaknya objek data. Salah klasifikasi untuk setiap kelompok data dapat diperoleh melalui Tabel 3.1 Tabel 3.1 Salah klasifikasi data Kelompok asal Kelompok prediksi Total 1  2  K  1  11 n 12 n 1K n 1 n 21 n 22 n 2 K n 2 n K  1 K n 2 K n KK n K n Total 1 n 2 n K n n n  di mana jk n adalah banyaknya anggota kelompok j  yang kemudian diklasifikasikan ke dalam kelompok k  . Dengan demikian, total salah klasifikasi SK dapat ditulis sebagai 1 SK K kk k n n     sedangkan total proporsi salah klasifikasi AER dapat ditulis sebagai 37 12 1 AER K kk k n n n     sehingga total persentase salah klasifikasi data dapat diperoleh melalui AER 100  .

3.1 Data Penelitian

Data yang digunakan pada penelitian ini terdiri dari dua kelompok data sintetis dan dua kelompok data dari kehidupan nyata real-world. Data-data tersebut diunduh dari UCI Machine Learning Repository, kecuali Data Sintetis Wang yang diunduh dari Matlab Central. Deskripsi kelompok dari data-data tersebut adalah sebagai berikut: 1. Data Sintetis Wang Wang 2014b yang terdiri atas 1000 objek data dengan 3 peubah dan 2 kelompok data. Banyaknya objek tiap kelompok ditunjukkan pada Tabel 3.2. 2. Data Synthetic Control Chart Time Series SCCTS, Alcock 1999 yang terdiri atas 600 objek dengan 60 peubah dan 6 kelompok data. Banyaknya objek tiap kelompok ditunjukkan pada Tabel 3.3. 3. Data Tanaman Iris Fisher 1998 yang terdiri atas 150 objek data dengan 4 peubah dan 3 kelompok data. Banyaknya objek tiap kelompok ditunjukkan pada Tabel 3.4. Tabel 3.2 Deskripsi kelompok Data Sintetis Wang Kelompok Banyaknya objek   k n 1  500 2  500 Tabel 3.3 Deskripsi kelompok data SCCTS Kelompok Banyaknya objek   k n 1  100 2  100 3  100 4  100 5  100 6  100 38 39 13 4. Data Pengenalan Anggur Forina Aeberhard 1991 yang terdiri atas 178 objek dengan 13 peubah dan 3 kelompok data. Banyaknya objek tiap kelompok ditunjukkan pada Tabel 3.5.

3.2 Langkah Penelitian

Langkah-langkah dalam penelitian ini terdiri atas dua tahap. Tahap pertama ialah menyiapkan alat uji berupa program yang disusun menggunakan bahasa pemrograman Matlab. Tahap kedua ialah membandingkan hasil visualisasi data berkelompok dengan menggunakan AKU dan AKU Kernel berdasarkan total proporsi salah klasifikasi yang diperoleh. Langkah-langkah dalam tahap dua dapat disusun sebagai berikut: 1. Data asli  Mengklasifikasikan data asli dengan menggunakan fungsi diskriminan linear Fisher.  Mengevaluasi hasil pengklasifikasian dengan menghitung total proporsi salah klasifikasi data. 2. AKU linear  Mereduksi peubah data asli menggunakan AKU linear menjadi dua peubah baru yaitu komponen utama pertama dan komponen utama kedua.  Mengklasifikasikan komponen utama pertama dan komponen utama kedua dengan menggunakan fungsi diskriminan linear Fisher.  Mengevaluasi hasil pereduksian dan pengklasifikasian dengan menghitung total proporsi salah klasifikasi data. 3. AKU Kernel a. Menyusun algoritma pendugaan parameter fungsi kernel Gauss sehingga diperoleh hasil pereduksian dengan AKU Kernel yang memiliki total proporsi salah klasifikasi yang minimum. Tabel 3.4 Deskripsi kelompok Data Tanaman Iris Kelompok Banyaknya objek   k n Iris setosa 1  50 Iris virginica 2  50 Iris versicolor 3  50 Tabel 3.5 Deskripsi kelompok Data Pengenalan Anggur Kelompok Banyaknya objek   k n 1  59 2  71 3  48 14 b. Mereduksi peubah data asli menggunakan AKU Kernel Gauss untuk nilai  tertentu menjadi dua peubah baru yaitu komponen utama pertama dan komponen utama kedua. c. Mengklasifikasikan komponen utama pertama dan komponen utama kedua dengan menggunakan fungsi diskriminan linear Fisher. d. Mengevaluasi hasil pereduksian dan pengklasifikasian dengan menghitung total proporsi salah klasifikasi data. 4. Membuat gambaran respons total proporsi salah klasifikasi sebagai fungsi dari parameter  pada AKU Kernel dengan menggunakan fungsi kernel Gauss. Langkah 1 sampai 4 dapat dilihat pada Gambar 3.1 di bawah ini. Gambar 3.1 Diagram alir penelitian Data Asli Fungsi Diskriminan Linear Fisher AKU Kernel 1 2 , , , s    Total Proporsi Salah Klasifikasi   2 AER Fungsi Diskriminan Linear Fisher Total Proporsi Salah Klasifikasi   1 AER Reduksi Peubah AKU Linear KU-1 KU-2 Algoritma Pendugaan  KU-1 KU-2 Gambaran Respons  terhadap   3 AER Fungsi Diskriminan Linear Fisher Total proporsi Salah Klasifikasi   3 AER