Menentukan Variabel Input dan Output Pembagian Data Training dan Testing Pembelajaran Fuzzy Radial Basis Function Neural Network FRBFNN

54

B. Prosedur Pemodelan Fuzzy Radial Basis Function Neural Network

FRBFNN untuk Klasifikasi Kanker Payudara Berikut adalah prosedur pemodelan Fuzzy Radial Basis Function Neural Network FRBFNN untuk klasifikasi stadium kanker payudara pada data Wisconsin Breast Cancer Database WBCD dan data Wisconsin Diagnostic Breast Cancer WDBC:

1. Menentukan Variabel Input dan Output

Variabel input yang digunakan dalam tugas akhir ini adalah nilai-nilai variabel hasil Fine-needle Aspirate FNA biopsy payudara yang diperoleh dari University of Wisconsin Hospital. Banyaknya variabel input menentukan banyaknya neuron pada lapisan input. Sedangkan target jaringan atau output berupa klasifikasi atau diagnosa dari kanker payudara. Klasifikasi kanker payudara pada tugas akhir ini menggunakan target jaringan, yaitu 0 untuk benign tumor dan 1 untuk malignant kanker. Banyaknya variabel output akan menentukan banyaknya neuron pada lapisan output.

2. Pembagian Data Training dan Testing

Setelah dilakukan penentuan variabel input dan output, selanjutnya data input dibagi menjadi dua, yaitu data pembelajaran training dan data pengujian testing. Data training digunakan untuk mencari model terbaik, sedangkan data testing digunakan untuk menguji ketepatan model hasil data training. 55 Terdapat beberapa perbandingan dalam pembagian data menjadi data training maupun testing yang sering digunakan, antara lain Deb Rajib et al, 2015: a. 60 untuk data training dan 40 untuk data testing. b. 75 untuk data training dan 25 untuk data testing. c. 80 untuk data training dan 20 untuk data testing. Pada tugas akhir ini, menggunakan pembagian data 80 untuk data training dan 20 untuk data testing.

3. Pembelajaran Fuzzy Radial Basis Function Neural Network FRBFNN

Berikut merupakan langkah-langkah dalam pembelajaran FRBFNN: a. Melakukan proses fuzzifikasi pada nilai input Variabel input diperoleh dari hasil fuzzifikasi terhadap variabel yang diperoleh dari data Wisconsin Breast Cancer Database WBCD dan Wisconsin Diagnostic Breast Cancer WDBC. Proses fuzzifikasi pada tugas akhir ini menggunakan fungsi keanggotaan segitiga Persamaan 2.5 dengan 3 himpunan fuzzy. Hasil dari proses fuzzifikasi tersebut selanjutnya disebut sebagai derajat keanggotaan. Derajat keanggotaan digunakan sebagai input pada proses pembelajaran model FRBFNN. b. Menormalisasi data Setelah diperoleh data input fuzzy dari proses fuzzifikasi, langkah selanjutnya adalah data harus dinormalisasi terlebih dahulu. Normalisasi data merupakan penskalaan terhadap data-data input sehingga data input masuk dalam satu range tertentu, sehingga data input menjadi lebih seragam. Data tersebut 56 dibawa ke bentuk normal yang memiliki mean = 0 dan standar deviasi = 1. Menurut Samarasinghe 2007: 53 253, pendekatan sederhana untuk normalisasi data adalah dengan bantuan mean dan standar deviasi sebagai berikut: 1 Perhitungan nilai rata-rata ̅ . = ∑ [ . ] = 3.38 dengan ̅ . adalah rata-rata nilai data pada himpunan fuzzy ke-l dan variabel ke-j [ . ] adalah nilai input fuzzy pada data ke-i, himpunan fuzzy ke-l dan variabel ke-j = , , … , � banyaknya data. = , , … banyaknya variabel X = , , … banyaknya himpunan fuzzy 2 Perhitungan nilai varians . = n− ∑ [ . ] − ̅ . = 3.39 dengan . adalah nilai varians data pada himpunan fuzzy ke-l dan variabel ke-j [ . ] adalah nilai input fuzzy pada data ke-i, himpunan fuzzy ke-l dan variabel ke-j = , , … , � banyaknya data. = , , … banyaknya variabel X = , , … banyaknya himpunan fuzzy 3 Perhitungan normalisasi [ . ] ∗ = [� . ] − ̅ . . 3.40 57 dengan . adalah nilai standar deviasi data pada himpunan fuzzy ke-l dan variabel ke-j ̅ . adalah rata-rata nilai data pada himpunan fuzzy ke-l dan variabel ke-j [ . ] adalah nilai input fuzzy pada data ke-i, himpunan fuzzy ke-l dan variabel ke-j Pada MATLAB, normalisasi dengan mean dan standar deviasi menggunakan perintah prestd yang akan membawa data ke dalam bentuk normal dengan mean = 0 dan standar deviasi =1 dengan syntax: [Pn,meanp,stdp,Tn,meant,stdt]=prestdP,T; 3.41 dengan, P = matriks data input, T = matriks data target, Pn = matriks data input yang telah dinormalisasi, Tn = matriks data target yang telah dinormalisasi, Meanp = rata-rata pada matriks data input sebelum dinormalisasi, Stdp = standar deviasi pada matriks data input sebelum dinormalisasi, Meant = rata-rata pada matriks target sebelum dinormalisasi, Stdt = standar deviasi pada matriks target sebelum dinormalisasi. c. Menentukan pusat dan jarak dari setiap fungsi basis. Dalam tugas akhir ini, metode yang digunakan dalam menentukan pusat dan jarak dari setiap fungsi basis yaitu menggunakan metode K-means clustering. Dalam proses pengelompokkan data clustering, sebelumnya ditentukan nilai 58 suatu jarak untuk mengukur kemiripan dari objek-objek yang diamati. Jarak yang umumnya digunakan yaitu jarak Euclide. Semakin kecil nilai jarak Euclide, semakin tinggi tingkat kemiripan, begitu pula sebaliknya, semakin besar nilai jarak Euclide maka semakin rendah tingkat kemiripannya. Setelah ukuran kemiripan ditemukan, maka dapat dilakukan pengelompokan Brodjol, 2008. K-Means merupakan salah satu metode clustering non hierarchy yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih clusterkelompok. Metode ini mempartisi data ke dalam clusterkelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain Agusta, 2007: 47. Algoritma metode K-Means clustering adalah sebagai berikut Johnson Wichern, 2007: 696: 1 Partisi data kedalam K cluster 2 Tempatkan setiap dataobyek ke cluster terdekat. Kedekatan dua obyek ditentukan berdasarkan jarak kedua obyek tersebut. Jarak biasanya dihitung dengan menggunakan jarak Euclide. Persamaan jarak Euclide antara dua titik sebarang P dan Q dengan koordinat P , , … , dan Q , , … , adalah sebagai berikut: , = √ − + − + + − 3.42 Hitung ulang nilai pusat untuk cluster yang menerima data baru dan cluster yang kehilangan data. 59 3 Ulangi langkah ke-2 sampai nilai pusat lama sama dengan nilai pusat baru stabil. Menurut Zhang dan Fang 2013: 194, metode K-Means clustering memiliki beberapa keunggulan antara lain yaitu: algoritma K-Means merupakan algoritma klasik untuk menyelesaikan masalah pengelompokkan sehingga algoritma ini relatif sederhana dan cepat; untuk data yang besar, algoritma ini relatif fleksibel dan efisien; serta dapat memberikan hasil yang relatif baik. Sedangkan kelemahan dari metode K-Means clustering dikemukakan oleh Berkhin 2002: 27 yang menyebutkan bahwa metode K-Means clustering sangat bergantung pada pemilihan nilai awal centroid, tidak jelas berapa banyak cluster K yang terbaik dan hanya bekerja pada atribut numerik. Metode K-means ini mengelompokkan data input menjadi beberapa kelompok atau kluster sehingga nilai pusat dan varians setiap kluster dapat dihitung. Pusat cluster adalah rata-rata mean kluster tersebut. Banyak neuron pada lapisan tersembunyi sesuai dengan banyak cluster yang terdapat pada pengelompokan menggunakan K-means clustering. d. Menentukan jumlah fungsi basis neuron pada lapisan tersembunyi. Pada lapisan tersembunyi metode RBFNN, dilakukan aktivasi fungsi basis. Dalam tugas akhir ini, aktivasi fungsi basis dilakukan dengan aplikasi Matlab dengan menggunakan program rbfDesign Sutijo, 2006:156. Program untuk rbfDesign dilampirkan pada Lampiran 13 halaman 210. Cuplikan dari Program rbfDesign adalah sebagai berikut: Function H = rbfDesignX,C,R,option 3.43 60 dengan, H = matriks desain RBFNN X = matriks input C = matriks pusat cluster R = matriks jarak masing-masing input terhadap pusat cluster Option = tipe aktivasi fungsi basis Tipe aktivasi yang digunakan pada tugas akhir ini adalah fungsi Gaussian dengan ‘b’ yaitu neuron bias yang ditambahkan pada jaringan, sehingga matriks � akan mendapatkan satu kolom tambahan. e. Menentukan bobot dari lapisan tersembunyi ke lapisan output. Digunakan metode global ridge-regression untuk mendapatkan bobot yang optimum. Pada tugas akhir ini penentuan bobot dengan metode global ridge- regression dilakukan dengan menggunakan aplikasi Matlab menggunakan metode global ridge Sutijo, 2006:169. Program untuk global ridge dilampirkan pada Lampiran 14 halaman 212. Berikut adalah sebagian fungsi pada program global ridge. lamb = globalRidgeH,T,0.05 3.44 dengan, lamb = parameter regulasi H = matriks desain RBFNN T = target data input training 0.05 = nilai estimasi parameter regulasi 61

4. Menentukan Jaringan Optimum