Menyiapkan Alat Uji Membandingkan Efektivitas Teknik Visualisasi

17 Gambar 3.3 Skema visualisasi data berkelompok dengan AKU Kernel Hasil visualisasi untuk kedua metode tersebut diberikan oleh plot pencar KU-1   1 y terhadap KU-2   2 y . Untuk menentukan kualitas hasil visualisasi dari masing-masing metode digunakan total proporsi salah klasifikasi yang Data berkelompok, X � = matriks Gram untuk data yang telah terkoreksi terhadap nilai tengah pada ruang fitur � � = � − 1 � � Menentukan dua vektor eigen dengan nilai eigen K terbesar untuk � � = � − 1 � � Menentukan � � = �� � = �� Menentukan � Analisis diskriminan linear Fisher Algoritma Pemilihan � Total proporsi salah klasifikasi AER 3 Plot pencar untuk � terhadap � 18 dihitung menggunakan AER. Semakin kecil nilai AER yang diperoleh, semakin baik hasil visualisasi yang diberikan dalam menggambarkan keterpisahan dari data berkelompok secara linear. Dari uraian di atas, digambarkan langkah-langkah yang dilakukan dalam penelitian ini seperti pada Gambar 3.4 berikut. Gambar 3.4 Skema langkah-langkah penelitian  Mengidentifikasi masalah  Menentukan tujuan  Studi literatur  Menyusun algoritma  Menyusun program Matlab Mereduksi data berkelompok menjadi dua komponen utama menggunakan AKU dan AKU Kernel dan memvisualisasikannya Mengklasifikasikan data hasil pereduksian menggunakan analisis diskriminan linear Fisher Membandingkan AER yang dihasilkan oleh kedua metode Mulai Selesai 19 4 HASIL DAN PEMBAHASAN Bab ini menjelaskan tentang hasil uji coba yang telah dilakukan untuk menjawab pertanyaan yang diberikan pada perumusan masalah. Selain itu, diberikan pula algoritma pereduksian data menjadi KU-1 dan KU-2 atau visualisasi data dengan menggunakan AKU maupun AKU Kernel dengan fungsi kernel Gauss kemudian membandingkan hasilnya berdasarkan salah klasifikasi yang diperoleh. Metode pengklasifikasian yang digunakan ialah analisis diskriminan linear Fisher.

4.1 Algoritma Pereduksian Data

4.1.1 Algoritma Analisis Komponen Utama

Pada dasarnya cara kerja algoritma AKU ialah mereduksi data yang telah direpresentasikan dalam bentuk matriks dengan cara mentransformasi data menjadi komponen utama kemudian mengambil sejumlah komponen utama pertama sebagai data hasil reduksi dengan tetap mempertahankan kontribusi varians data sebesar mungkin. Sebelum direduksi, biasanya data distandardisasi terlebih dahulu untuk menghilangkan dominasi varians dari peubah tertentu kemudian ditentukan matriks kovarians dari data. Langkah berikutnya adalah menghitung vektor eigen ortonormal dari matriks kovarians. Vektor eigen diurutkan berdasarkan nilai eigen taknol, mulai dari yang terbesar sampai yang terkecil. Matriks komponen utama diperoleh dengan cara mengalikan matriks data dengan matriks berkolom vektor eigen yang telah diurutkan. Banyaknya komponen utama biasanya dipilih berdasarkan persentase kontribusi keragaman yang diberikan. Untuk visualisasi, hanya digunakan komponen utama pertama KU-1 dan komponen utama kedua KU-2 untuk digambar sebagai hasil visualisasi data dalam bentuk plot pencar. Algoritma 1 Metode Visualisasi dengan AKU 1. Membentuk matriks data 2. Menghitung matriks kovarians data 3. Menghitung vektor eigen dari matriks kovarians data 4. Menormalkan vektor eigen 5. Mengurutkan vektor eigen data berdasarkan nilai eigen mulai dari terbesar hingga terkecil 6. Mengalikan matriks data dengan matriks berkolom vektor eigen 7. Menggambar dua komponen utama pertama dalam bentuk plot pencar.

4.1.2 Algoritma Analisis Komponen Utama Kernel

Langkah awal algoritma pereduksian data dengan AKU Kernel adalah menghitung matriks kernel dari data yang diberikan. Jika data memiliki peubah yang memiliki keragaman yang bersifat mendominasi, maka data distandardisasi terlebih dahulu. Setelah itu, menghitung vektor eigen dari matriks kernel untuk data pada ruang fitur yang telah dikoreksi terhadap nilai tengah. Vektor eigen disusun berdasarkan nilai eigen taknol, mulai dari yang terbesar sampai yang terkecil. Komponen utama taklinear diperoleh dengan cara mengalikan matriks kernel untuk data pada ruang fitur dengan matriks berkolom vektor eigen yang telah diurutkan 20 berdasarkan nilai eigen terbesar. Banyaknya komponen utama biasanya dipilih berdasarkan persentase kontribusi keragaman yang diberikan. Untuk visualisasi, hanya komponen utama pertama KU-1 dan komponen utama kedua KU-2 yang digunakan untuk digambar sebagai hasil visualisasi dari data dalam bentuk plot pencar. Algoritma 2 Metode Visualisasi dengan AKU Kernel 1. Membentuk matriks data 2. Menghitung matriks Kernel untuk data pada ruang fitur yang telah terkoreksi terhadap nilai tengah 3. Menghitung vektor eigen dari matriks Kernel untuk data pada ruang fitur yang telah dikoreksi terhadap nilai tengah 4. Menormalkan vektor eigen 5. Mengurutkan vektor eigen data berdasarkan nilai eigen mulai dari terbesar hingga terkecil 6. Mengalikan matriks Kernel untuk data pada ruang fitur dengan matriks berkolom vektor eigen 7. Menggambar dua komponen utama pertama dalam bentuk plot pencar. Namun, sebelum menggunakan Algoritma 2 di atas, ada satu hal yang harus diperhatikan terlebih dahulu, yaitu pada langkah 2. Untuk dapat melakukan langkah 2, yang pertama-tama yang harus dilakukan adalah memilih fungsi kernel. Pada penelitian ini, seperti yang telah dibicarakan terlebih dahulu pada pendahuluan, fungsi yang akan digunakan adalah fungsi kernel Gauss. Tetapi perlu diingat bahwa fungsi kernel Gauss ini mengandung sebuah paramater, yaitu parameter  yang harus dipilih terlebih dahulu. Banyak penelitian untuk pereduksian data telah dilakukan dengan menggunakan metode AKU Kernel dengan fungsi kernel Gauss. Namun, sampai saat ini proses penentuan parameter ini masih menjadi topik penelitian yang terus berlanjut dengan hasil yang belum jelas. Salah satu permasalahannya adalah pemilihan parameter  sangat bergantung pada objektivitas dari penelitian itu sendiri. Fungsi kernel Gauss, berbentuk     2 2 , exp 2 i j i j      x x x x dengan x adalah vektor objek data dan 2  adalah varians. Fungsi kernel Gauss dapat divisualisasikan dengan menggunakan fungsi   2 2 exp 2 x g x          , di mana i j x    x x . Fungsi ini memiliki 3 titik kritis, yaitu x  , x    dan x   di mana titik x  adalah titik maksimum sedangkan titik x    dan x   adalah titik belok. Andaikan diberikan   10,10 , x   , x  maka diperoleh visualisasi fungsi kernel Gauss untuk 1   , 5   , 10   , 12   dan 100   seperti pada Gambar 4.1. 40 21 Gambar 4.1 Visualisasi fungsi kernel Gauss untuk beberapa  Gambar kurva yang memperlihatkan bentuk visualisasi dari kurva fungsi kernel Gauss diperoleh pada nilai  yang berada pada selang    0, max x  . Ketika nilai   max x   , maka kurva yang diperoleh menjadi seperti kurva fungsi kuadratis bahkan untuk  yang cukup besar, kurva menjadi seperti kurva fungsi linear. Selain itu dalam AKU Kernel, fungsi kernel Gauss digunakan untuk menghitung matriks Kernel yang merupakan bentuk dual dari matriks kovarians pada ruang fitur Nielsen Canty 2008. Karena itu pemilihan nilai parameter  sangat menentukan keragaman data pada ruang fitur tersebut. Pemilihan parameter  yang terlalu besar dibanding jarak antarobjek data akan mengakibatkan matriks Kernel yang terbentuk adalah matriks satuan, sehingga objek-objek data pada ruang fitur menjadi terkonsentrasi pada satu titik. Begitu pula, jika dipilih parameter  yang terlalu kecil dibanding jarak antarobjek data, maka matriks Kernel yang terbentuk adalah matriks identitas sehingga mengakibatkan peubah-peubah pada ruang fitur tidak memiliki korelasi sehingga AKU menjadi tidak layak untuk diterapkan. Hal ini mengakibatkan nilai  yang terlalu besar dibanding jarak antarobjek akan membuat peubah pada ruang fitur makin kehilangan keragaman, sedangkan makin kecil ,  makin kecil pula korelasi antarpeubah pada ruang fitur. Oleh karena itu, pada penelitian ini pemilihan parameter  dilakukan pada selang min , max ; i j i j i j         x x x x . Selang interval ini kemudian dipartisi dan setiap titiknya diuji untuk mendapatkan titik yang memberikan nilai parameter  dengan total proporsi salah terkecil. Banyaknya titik pada selang dipilih berdasarkan lebar selang interval. Pada penelitian ini, setiap selang interval dibagi menjadi 200 partisi. Algoritma untuk memilih parameter  yang meminimumkan salah klasifikasi pada interval min , max ; i j i j i j         x x x x diberikan pada Algoritma 3. Algoritma 3 Pemilihan  : Input: data berkelompok Output:  1. Menghitung jarak antarobjek pada data 2. Mendefinisikan interval dari jarak terdekat hingga jarak terjauh 3. Melakukan pereduksian menggunakan AKU Kernel sesuai pers. 23 dengan fungsi kernel Gauss pada pers. 1 untuk setiap nilai  pada interval 4. Untuk setiap objek dari dua komponen utama pertama, diklasifikasikan menggunakan fungsi diskriminan linear Fisher sesuai pers. 35