54
B. Prosedur Pemodelan Fuzzy Radial Basis Function Neural Network
FRBFNN untuk Klasifikasi Kanker Payudara
Berikut adalah prosedur pemodelan Fuzzy Radial Basis Function Neural Network FRBFNN untuk klasifikasi stadium kanker payudara pada data
Wisconsin Breast Cancer Database WBCD dan data Wisconsin Diagnostic Breast Cancer WDBC:
1. Menentukan Variabel Input dan Output
Variabel input yang digunakan dalam tugas akhir ini adalah nilai-nilai variabel hasil Fine-needle Aspirate FNA biopsy payudara yang diperoleh dari
University of Wisconsin Hospital. Banyaknya variabel input menentukan banyaknya neuron pada lapisan input. Sedangkan target jaringan atau output
berupa klasifikasi atau diagnosa dari kanker payudara. Klasifikasi kanker payudara pada tugas akhir ini menggunakan target jaringan, yaitu 0 untuk benign
tumor dan 1 untuk malignant kanker. Banyaknya variabel output akan menentukan banyaknya neuron pada lapisan output.
2. Pembagian Data Training dan Testing
Setelah dilakukan penentuan variabel input dan output, selanjutnya data input dibagi menjadi dua, yaitu data pembelajaran training dan data pengujian
testing. Data training digunakan untuk mencari model terbaik, sedangkan data testing digunakan untuk menguji ketepatan model hasil data training.
55 Terdapat beberapa perbandingan dalam pembagian data menjadi data
training maupun testing yang sering digunakan, antara lain Deb Rajib et al, 2015:
a. 60 untuk data training dan 40 untuk data testing.
b. 75 untuk data training dan 25 untuk data testing.
c. 80 untuk data training dan 20 untuk data testing.
Pada tugas akhir ini, menggunakan pembagian data 80 untuk data training dan 20 untuk data testing.
3. Pembelajaran Fuzzy Radial Basis Function Neural Network FRBFNN
Berikut merupakan langkah-langkah dalam pembelajaran FRBFNN: a.
Melakukan proses fuzzifikasi pada nilai input Variabel input diperoleh dari hasil fuzzifikasi terhadap variabel yang
diperoleh dari data Wisconsin Breast Cancer Database WBCD dan Wisconsin Diagnostic Breast Cancer WDBC. Proses fuzzifikasi pada tugas akhir ini
menggunakan fungsi keanggotaan segitiga Persamaan 2.5 dengan 3 himpunan fuzzy. Hasil dari proses fuzzifikasi tersebut selanjutnya disebut sebagai derajat
keanggotaan. Derajat keanggotaan digunakan sebagai input pada proses pembelajaran model FRBFNN.
b. Menormalisasi data
Setelah diperoleh data input fuzzy dari proses fuzzifikasi, langkah selanjutnya adalah data harus dinormalisasi terlebih dahulu. Normalisasi data
merupakan penskalaan terhadap data-data input sehingga data input masuk dalam satu range tertentu, sehingga data input menjadi lebih seragam. Data tersebut
56 dibawa ke bentuk normal yang memiliki mean = 0 dan standar deviasi = 1.
Menurut Samarasinghe 2007: 53 253, pendekatan sederhana untuk normalisasi data adalah dengan bantuan mean dan standar deviasi sebagai berikut:
1 Perhitungan nilai rata-rata
̅
.
= ∑ [
.
]
=
3.38 dengan
̅
.
adalah rata-rata nilai data pada himpunan fuzzy ke-l dan variabel ke-j [
.
] adalah nilai input fuzzy pada data ke-i, himpunan fuzzy ke-l dan variabel ke-j
= , , … , � banyaknya data. = , , … banyaknya variabel X
= , , … banyaknya himpunan fuzzy 2
Perhitungan nilai varians
.
=
n−
∑ [
.
] − ̅
. =
3.39 dengan
.
adalah nilai varians data pada himpunan fuzzy ke-l dan variabel ke-j [
.
] adalah nilai input fuzzy pada data ke-i, himpunan fuzzy ke-l dan variabel ke-j
= , , … , � banyaknya data. = , , … banyaknya variabel X
= , , … banyaknya himpunan fuzzy 3
Perhitungan normalisasi [
.
]
∗
=
[�
.
] − ̅
. .
3.40
57 dengan
.
adalah nilai standar deviasi data pada himpunan fuzzy ke-l dan variabel ke-j ̅
.
adalah rata-rata nilai data pada himpunan fuzzy ke-l dan variabel ke-j [
.
] adalah nilai input fuzzy pada data ke-i, himpunan fuzzy ke-l dan variabel ke-j
Pada MATLAB, normalisasi dengan mean dan standar deviasi menggunakan perintah prestd yang akan membawa data ke dalam bentuk normal
dengan mean = 0 dan standar deviasi =1 dengan syntax:
[Pn,meanp,stdp,Tn,meant,stdt]=prestdP,T;
3.41 dengan,
P = matriks data input, T =
matriks data target, Pn =
matriks data input yang telah dinormalisasi, Tn =
matriks data target yang telah dinormalisasi, Meanp =
rata-rata pada matriks data input sebelum dinormalisasi, Stdp =
standar deviasi pada matriks data input sebelum dinormalisasi, Meant = rata-rata pada matriks target sebelum dinormalisasi,
Stdt = standar deviasi pada matriks target sebelum dinormalisasi.
c. Menentukan pusat dan jarak dari setiap fungsi basis.
Dalam tugas akhir ini, metode yang digunakan dalam menentukan pusat dan jarak dari setiap fungsi basis yaitu menggunakan metode K-means clustering.
Dalam proses pengelompokkan data clustering, sebelumnya ditentukan nilai
58 suatu jarak untuk mengukur kemiripan dari objek-objek yang diamati. Jarak yang
umumnya digunakan yaitu jarak Euclide. Semakin kecil nilai jarak Euclide, semakin tinggi tingkat kemiripan, begitu pula sebaliknya, semakin besar nilai
jarak Euclide maka semakin rendah tingkat kemiripannya. Setelah ukuran kemiripan ditemukan, maka dapat dilakukan pengelompokan Brodjol, 2008.
K-Means merupakan salah satu metode clustering non hierarchy yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih
clusterkelompok. Metode ini mempartisi data ke dalam clusterkelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam
satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain Agusta, 2007: 47.
Algoritma metode K-Means clustering adalah sebagai berikut Johnson Wichern, 2007: 696:
1 Partisi data kedalam K cluster
2 Tempatkan setiap dataobyek ke cluster terdekat. Kedekatan dua obyek
ditentukan berdasarkan jarak kedua obyek tersebut. Jarak biasanya dihitung dengan menggunakan jarak Euclide. Persamaan jarak Euclide antara dua titik
sebarang P
dan Q
dengan koordinat
P ,
,
… , dan Q ,
,
… , adalah sebagai berikut:
, = √
− +
− + +
− 3.42
Hitung ulang nilai pusat untuk cluster yang menerima data baru dan cluster yang kehilangan data.
59 3
Ulangi langkah ke-2 sampai nilai pusat lama sama dengan nilai pusat baru stabil.
Menurut Zhang dan Fang 2013: 194, metode K-Means clustering memiliki beberapa keunggulan antara lain yaitu: algoritma K-Means merupakan
algoritma klasik untuk menyelesaikan masalah pengelompokkan sehingga algoritma ini relatif sederhana dan cepat; untuk data yang besar, algoritma ini
relatif fleksibel dan efisien; serta dapat memberikan hasil yang relatif baik. Sedangkan kelemahan dari metode K-Means clustering dikemukakan oleh
Berkhin 2002: 27 yang menyebutkan bahwa metode K-Means clustering sangat bergantung pada pemilihan nilai awal centroid, tidak jelas berapa banyak cluster K
yang terbaik dan hanya bekerja pada atribut numerik. Metode K-means ini mengelompokkan data input menjadi beberapa
kelompok atau kluster sehingga nilai pusat dan varians setiap kluster dapat dihitung. Pusat cluster adalah rata-rata mean kluster tersebut. Banyak neuron
pada lapisan tersembunyi sesuai dengan banyak cluster yang terdapat pada pengelompokan menggunakan K-means clustering.
d. Menentukan jumlah fungsi basis neuron pada lapisan tersembunyi.
Pada lapisan tersembunyi metode RBFNN, dilakukan aktivasi fungsi basis. Dalam tugas akhir ini, aktivasi fungsi basis dilakukan dengan aplikasi Matlab
dengan menggunakan program rbfDesign Sutijo, 2006:156. Program untuk rbfDesign dilampirkan pada Lampiran 13 halaman 210. Cuplikan dari Program
rbfDesign adalah sebagai berikut: Function H = rbfDesignX,C,R,option
3.43
60 dengan,
H = matriks desain RBFNN
X = matriks input
C = matriks pusat cluster
R = matriks jarak masing-masing input terhadap pusat cluster
Option = tipe aktivasi fungsi basis
Tipe aktivasi yang digunakan pada tugas akhir ini adalah fungsi Gaussian dengan
‘b’ yaitu neuron bias yang ditambahkan pada jaringan, sehingga matriks � akan mendapatkan satu kolom tambahan.
e. Menentukan bobot dari lapisan tersembunyi ke lapisan output.
Digunakan metode global ridge-regression untuk mendapatkan bobot yang optimum. Pada tugas akhir ini penentuan bobot dengan metode global ridge-
regression dilakukan dengan menggunakan aplikasi Matlab menggunakan metode global ridge Sutijo, 2006:169. Program untuk global ridge dilampirkan pada
Lampiran 14 halaman 212. Berikut adalah sebagian fungsi pada program global ridge.
lamb = globalRidgeH,T,0.05 3.44
dengan, lamb =
parameter regulasi H
= matriks desain RBFNN
T =
target data input training 0.05 =
nilai estimasi parameter regulasi
61
4. Menentukan Jaringan Optimum