17
Gambar 3.3  Skema visualisasi data berkelompok dengan AKU Kernel Hasil visualisasi untuk kedua metode tersebut diberikan oleh plot pencar
KU-1
 
1
y terhadap KU-2
 
2
y . Untuk menentukan kualitas hasil visualisasi
dari  masing-masing  metode  digunakan  total  proporsi  salah  klasifikasi  yang Data
berkelompok, X
�  = matriks Gram untuk data
yang telah terkoreksi terhadap nilai tengah pada ruang fitur
� � =  � − 1 � �
Menentukan dua vektor eigen dengan nilai eigen
K terbesar untuk
� � =  � − 1 � �
Menentukan �
� = �� � = ��
Menentukan �
Analisis diskriminan linear Fisher
Algoritma Pemilihan �
Total proporsi salah klasifikasi AER
3
Plot pencar untuk �  terhadap �
18 dihitung menggunakan AER. Semakin kecil nilai AER yang diperoleh, semakin
baik hasil visualisasi yang diberikan dalam menggambarkan keterpisahan dari data berkelompok secara linear.
Dari uraian di atas, digambarkan langkah-langkah yang dilakukan dalam penelitian ini seperti pada Gambar 3.4 berikut.
Gambar 3.4  Skema langkah-langkah penelitian   Mengidentifikasi masalah
  Menentukan tujuan   Studi literatur
  Menyusun algoritma   Menyusun program Matlab
Mereduksi data berkelompok menjadi dua komponen utama menggunakan AKU dan
AKU Kernel dan memvisualisasikannya
Mengklasifikasikan data hasil pereduksian menggunakan  analisis  diskriminan  linear
Fisher
Membandingkan AER yang dihasilkan oleh kedua metode
Mulai
Selesai
19
4 HASIL DAN PEMBAHASAN
Bab  ini  menjelaskan  tentang  hasil  uji  coba  yang  telah  dilakukan  untuk menjawab  pertanyaan  yang  diberikan  pada  perumusan  masalah.  Selain  itu,
diberikan pula algoritma pereduksian data menjadi KU-1 dan KU-2 atau visualisasi data dengan menggunakan AKU maupun AKU Kernel dengan fungsi kernel Gauss
kemudian membandingkan hasilnya berdasarkan salah klasifikasi yang diperoleh. Metode pengklasifikasian yang digunakan ialah analisis diskriminan linear Fisher.
4.1 Algoritma Pereduksian Data
4.1.1 Algoritma Analisis Komponen Utama
Pada  dasarnya  cara  kerja  algoritma  AKU  ialah  mereduksi  data  yang  telah direpresentasikan dalam bentuk matriks dengan cara mentransformasi data menjadi
komponen  utama  kemudian  mengambil  sejumlah  komponen  utama  pertama sebagai  data  hasil  reduksi  dengan  tetap  mempertahankan  kontribusi  varians  data
sebesar mungkin.
Sebelum  direduksi,  biasanya  data  distandardisasi  terlebih  dahulu  untuk menghilangkan dominasi varians dari peubah tertentu kemudian ditentukan matriks
kovarians  dari  data.  Langkah  berikutnya  adalah  menghitung  vektor  eigen ortonormal dari matriks kovarians. Vektor eigen diurutkan berdasarkan nilai eigen
taknol,  mulai  dari  yang  terbesar  sampai  yang  terkecil.  Matriks  komponen  utama diperoleh  dengan  cara  mengalikan  matriks  data  dengan  matriks  berkolom  vektor
eigen  yang  telah  diurutkan.  Banyaknya  komponen  utama  biasanya  dipilih berdasarkan  persentase  kontribusi  keragaman  yang  diberikan.  Untuk  visualisasi,
hanya  digunakan  komponen  utama  pertama  KU-1  dan  komponen  utama  kedua KU-2 untuk digambar sebagai hasil visualisasi data dalam bentuk plot pencar.
Algoritma 1  Metode Visualisasi dengan AKU 1.
Membentuk matriks data 2.
Menghitung matriks kovarians data 3.
Menghitung vektor eigen dari matriks kovarians data 4.
Menormalkan vektor eigen 5.
Mengurutkan  vektor  eigen  data  berdasarkan  nilai  eigen  mulai  dari  terbesar hingga terkecil
6. Mengalikan matriks data dengan matriks berkolom vektor eigen
7. Menggambar dua komponen utama pertama dalam bentuk plot pencar.
4.1.2 Algoritma Analisis Komponen Utama Kernel
Langkah  awal  algoritma  pereduksian  data  dengan  AKU  Kernel  adalah menghitung  matriks  kernel  dari  data  yang  diberikan.  Jika  data  memiliki  peubah
yang  memiliki  keragaman  yang  bersifat  mendominasi,  maka  data  distandardisasi terlebih dahulu. Setelah itu, menghitung vektor eigen dari matriks kernel untuk data
pada ruang fitur yang telah dikoreksi terhadap nilai tengah. Vektor eigen disusun berdasarkan  nilai  eigen  taknol,  mulai  dari  yang  terbesar  sampai  yang  terkecil.
Komponen utama taklinear diperoleh dengan cara mengalikan matriks kernel untuk data pada ruang fitur dengan matriks berkolom vektor eigen yang telah diurutkan
20 berdasarkan  nilai  eigen  terbesar.  Banyaknya  komponen  utama  biasanya  dipilih
berdasarkan  persentase  kontribusi  keragaman  yang  diberikan.  Untuk  visualisasi, hanya komponen utama pertama KU-1 dan komponen utama kedua KU-2 yang
digunakan  untuk  digambar  sebagai  hasil  visualisasi  dari  data  dalam  bentuk  plot pencar.
Algoritma 2  Metode Visualisasi dengan AKU Kernel 1.
Membentuk matriks data 2.
Menghitung matriks Kernel untuk data pada ruang fitur yang telah terkoreksi terhadap nilai tengah
3. Menghitung vektor eigen dari matriks Kernel untuk data pada ruang fitur yang
telah dikoreksi terhadap nilai tengah 4.
Menormalkan vektor eigen 5.
Mengurutkan  vektor  eigen  data  berdasarkan  nilai  eigen  mulai  dari  terbesar hingga terkecil
6. Mengalikan  matriks  Kernel  untuk  data  pada  ruang  fitur  dengan  matriks
berkolom vektor eigen 7.
Menggambar dua komponen utama pertama dalam bentuk plot pencar. Namun,  sebelum  menggunakan  Algoritma  2  di  atas,  ada  satu  hal  yang  harus
diperhatikan terlebih dahulu, yaitu pada langkah 2. Untuk dapat melakukan langkah 2,  yang  pertama-tama  yang  harus  dilakukan  adalah  memilih  fungsi  kernel.  Pada
penelitian  ini,  seperti  yang  telah  dibicarakan  terlebih  dahulu  pada  pendahuluan, fungsi yang akan digunakan adalah fungsi kernel Gauss. Tetapi perlu diingat bahwa
fungsi  kernel  Gauss  ini  mengandung  sebuah  paramater,  yaitu  parameter
  yang harus  dipilih  terlebih  dahulu.  Banyak  penelitian  untuk  pereduksian  data  telah
dilakukan dengan menggunakan metode AKU Kernel dengan fungsi kernel Gauss. Namun,  sampai  saat  ini  proses  penentuan  parameter  ini  masih  menjadi  topik
penelitian  yang  terus  berlanjut  dengan  hasil  yang  belum  jelas.  Salah  satu permasalahannya  adalah  pemilihan  parameter
  sangat  bergantung  pada objektivitas dari penelitian itu sendiri.
Fungsi  kernel  Gauss,  berbentuk
 
 
2 2
, exp
2
i j
i j
 
 
x x x
x
dengan
x  adalah  vektor  objek  data  dan
2
  adalah  varians.  Fungsi  kernel  Gauss  dapat divisualisasikan dengan menggunakan fungsi
 
2 2
exp 2
x g x
 
 
 
 
 ,
di mana
i j
x  
x x . Fungsi ini memiliki 3 titik kritis, yaitu
x  ,  x
    dan
x 
  di  mana  titik x
  adalah  titik  maksimum  sedangkan  titik  x 
   dan x
 
adalah  titik  belok.  Andaikan  diberikan
 
10,10 , x
 
, x
maka diperoleh visualisasi fungsi kernel Gauss untuk
1   ,
5
 , 10
 ,
12
 dan
100
 seperti pada Gambar 4.1.
40
21
Gambar 4.1  Visualisasi fungsi kernel Gauss untuk beberapa 
Gambar  kurva  yang  memperlihatkan  bentuk  visualisasi  dari  kurva  fungsi  kernel Gauss diperoleh pada nilai
  yang berada pada selang
 
0, max x  . Ketika nilai
 
max x
 ,  maka  kurva  yang  diperoleh  menjadi  seperti  kurva  fungsi  kuadratis
bahkan untuk   yang cukup besar, kurva menjadi seperti kurva fungsi linear.
Selain  itu  dalam  AKU  Kernel,  fungsi  kernel  Gauss  digunakan  untuk menghitung  matriks  Kernel  yang  merupakan  bentuk  dual  dari  matriks  kovarians
pada ruang fitur Nielsen  Canty 2008. Karena itu pemilihan nilai parameter 
sangat menentukan keragaman data pada ruang fitur tersebut. Pemilihan parameter   yang terlalu besar dibanding jarak antarobjek data akan mengakibatkan matriks
Kernel yang terbentuk adalah matriks satuan, sehingga objek-objek data pada ruang fitur menjadi terkonsentrasi pada satu titik. Begitu pula, jika dipilih parameter
 yang  terlalu  kecil  dibanding  jarak  antarobjek  data,  maka  matriks  Kernel  yang
terbentuk  adalah  matriks  identitas  sehingga  mengakibatkan  peubah-peubah  pada ruang  fitur  tidak  memiliki  korelasi  sehingga  AKU  menjadi  tidak  layak  untuk
diterapkan.  Hal  ini  mengakibatkan  nilai   yang  terlalu  besar  dibanding  jarak
antarobjek akan membuat peubah pada ruang fitur makin kehilangan keragaman, sedangkan makin kecil  ,
  makin kecil pula korelasi antarpeubah pada ruang fitur. Oleh karena itu, pada penelitian ini pemilihan parameter
  dilakukan pada selang min
, max ;
i j
i j
i j
 
 
  
x x
x x
.  Selang  interval  ini  kemudian  dipartisi  dan setiap titiknya diuji untuk mendapatkan titik yang memberikan nilai parameter
 dengan  total  proporsi  salah  terkecil.  Banyaknya  titik  pada  selang  dipilih
berdasarkan lebar selang interval. Pada penelitian ini, setiap selang interval dibagi menjadi 200 partisi. Algoritma untuk memilih parameter   yang meminimumkan
salah klasifikasi pada interval min
, max ;
i j
i j
i j
 
 
  
x x
x x
diberikan pada Algoritma 3.
Algoritma 3  Pemilihan  :
Input: data berkelompok Output:
 1.
Menghitung jarak antarobjek pada data 2.
Mendefinisikan interval dari jarak terdekat hingga jarak terjauh 3.
Melakukan pereduksian menggunakan AKU Kernel sesuai pers. 23 dengan fungsi kernel Gauss pada pers. 1 untuk setiap nilai   pada interval
4. Untuk  setiap  objek  dari  dua  komponen  utama  pertama,  diklasifikasikan
menggunakan fungsi diskriminan linear Fisher sesuai pers. 35