PERBANDINGAN K-MEANS DAN FUZZY C-MEANS CLUSTERING PADA MODEL RADIAL BASIS FUNCTION NEURAL NETWORK (RBFNN) UNTUK KLASIFIKASI STADIUM KANKER PAYUDARA.

(1)

1 BAB I PENDAHULUAN

A. Latar Belakang

Kanker payudara adalah tumor ganas yang berasal dari sel kelenjar, saluran kelenjar dan jaringan penunjang payudara, tidak termasuk kulit payudara (Departemen Kesehatan, 2009). World Health Organization (2016) menyebutkan kanker payudara adalah kanker paling umum terjadi pada wanita baik di negara maju dan berkembang. Diperkirakan bahwa di seluruh dunia lebih dari 508.000 wanita meninggal pada tahun 2011 karena kanker payudara. Meskipun kanker payudara dianggap penyakit dari negara maju, hampir 50% dari kasus kanker payudara dan 58% kematian terjadi di negara-negara kurang berkembang. Seperti wanita, pria memiliki jaringan payudara, meskipun dalam jumlah yang lebih kecil. Ini berarti bahwa pria juga dapat terkena kanker payudara, meskipun tidak banyak. Risiko seorang pria didiagnosa menderita kanker payudara sebelum usia 75 tahun adalah satu dari 1258 orang. Sedangkan, risiko seorang wanita didiagnosa menderita kanker payudara sebelum usia 85 tahun adalah satu dari delapan orang (Breast Cancer Network Australia, 2014).

Penyebab pasti kanker payudara tidak diketahui. Meskipun demikian, riset mengidentifikasi sejumlah faktor yang dapat meningkatkan risiko pada individu tertentu, yang meliputi: keluarga yang memiliki riwayat penyakit serupa, usia yang makin bertambah, tidak memiliki anak, kehamilan pertama pada usia di atas 30 tahun, periode menstruasi yang lebih lama (menstruasi pertama lebih awal


(2)

2

atau menopause lebih lambat), faktor hormonal (baik estrogen maupun androgen) (Moh. Yamin Darsyah, 2013: 15).

Kanker payudara adalah kanker yang umumnya terjadi pada wanita, baik di negara maju maupun berkembang. Insiden kanker payudara meningkat di negara berkembang karena meningkatnya harapan hidup, meningkatnya urbanisasi dan adopsi gaya hidup Barat. Meskipun beberapa pengurangan risiko dapat dicapai dengan pencegahan, strategi ini tidak dapat menghilangkan sebagian besar kanker payudara yang berkembang di negara-negara berpenghasilan rendah dan menengah di mana kanker payudara didiagnosis pada tahap yang sangat terlambat (World Health Organization, 2016). Oleh karena itu, pemeriksaan deteksi dini perlu dilakukan sehingga kanker payudara dapat disembuhkan.

Pemeriksaan awal dapat dilakukan dengan memeriksa payudara sendiri (SADARI) dan pemeriksaan klinis yang dilakukan oleh tenaga medis terlatih. Bila dibutuhkan, akan dilakukan tes untuk mendiagnosa kondisi payudara. Menurut

American Cancer Society (2016), tes pencitraan menggunakan x-ray, medan magnet, gelombang suara, atau zat radioaktif dapat membuat gambar dari bagian dalam tubuh. Tes pencitraan dapat dilakukan untuk sejumlah alasan, termasuk untuk membantu mengetahui area mencurigakan yang memungkinkan menjadi kanker, mengetahui seberapa jauh kanker mungkin telah menyebar, dan untuk membantu menentukan apakah pengobatan bekerja. Tes pencitraan ini yaitu

Mammogram, Ultrasound, dan Magneting Resonance Imaging (MRI). Selain tes pencitraan tersebut National Breast Cancer Foundation (2015) menyebutkan terdapat tes lain yang dapat mendiagnosa kondisi payudara yaitu biopsi payudara


(3)

3

yang terbagi menjadi tiga jenis, Fine-needle aspiration (FNA), Core-needle biopsy, dan Surgical biopsy. Dari sejumlah tes tersebut, skrining payudara dengan mamografi adalah satu-satunya metode skrining yang telah terbukti efektif (World Health Organization, 2016).

Beberapa penelitian telah dikembangkan untuk membantu mendiagnosa kanker payudara. Pada tahun 2012, Saritas Ismail melakukan penelitian untuk mendiagnosis kanker payudara menggunakan Artificial Neural Network. Penelitian lain dilakukan oleh Njoroge, Waititu, dan Wanjoya (2014), mereka menggunakan model Artificial Neural Network untuk memprediksi tingkat keganasan kanker payudara dan menggunakan regresi logistik untuk menguji variabel independen mana yang signifikan. Pada tahun yang sama (2014), Singh, Sushmitha, Harini, dan Surabhi melakukan penelitian menggunakan Artificial Neural Network dengan teknik otomatis sebagai pengambil keputusan dalam mendiagnosis kanker payudara.

Para peneliti secara berkelanjutan terus meningkatkan hasil diagnosis kanker payudara dengan berbagai macam metode. Radial Basis Function (RBF) merupakan salah satu variasi metode Artificial Neural Network (ANN) yang dapat digunakan untuk mendiagnosa kanker payudara. Radial Basis Function adalah sebuah Artificial Neural Network yang menggunakan fungsi radial basis sebagai fungsi aktivasi. Arsitektur RBF adalah jaringan tiga lapisan yaitu lapisan input, lapisan tersembunyi, dan lapisan output. (Seenivasagam & Arumugadevi).

Model Radial Basis Function Neural Network (RBFNN) memiliki beberapa keunggulan, RBFNN hanya memiliki satu lapisan tersembunyi.


(4)

4

Daripada menggunakan fungsi sigmoid dalam fungsi aktivasinya seperti pada metode backpropagation, lapisan tersembunyi pada RBF menggunakan fungsi

Gaussian atau fungsi basis kernel lainnya. Ciri khas RBFNN ini menyebabkan proses kerja RBFNN lebih cepat dibandingkan algoritma NN yang lain (Halici, 2004:139).

Penelitian dalam mendiagnosis kanker payudara dengan model Radial Basis Function telah dilakukan oleh banyak peneliti. Janghel, Shukla, Tiwan, dan Kala (2010) menerapkan empat model Neural Network yaitu algoritma

Backpropagation, Radial Basis Function, Pembelajaran vektor Quantization, dan Jaringan Pembelajaran Kompetitif dalam mendiagnosis kanker payudara. Ririn Uktarini, Isye Arieshanti, dan Ahmad Saikhu (2012) mengembangkan perangkat lunak menggunakan metode Radial Basis Function dengan K-Means clustering

dan mengklasifikasikan data penyakit kanker payudara menjadi tumor jinak (benign) atau ganas (malignant). Data penyakit kanker payudara, diambil dari data

Wisconsin Breast Cancer.

Pada tahun yang sama (2012) Ali Raad, Ali Kalakech, dan Mohammad Ayache melaporkan hasil penelitiannya mengenai klasifikasi kanker payudara menggunakan pendekatan Neural Network berupa Multi Layer Perceptron (MLP) dan Radial Basis Function (RBF). Penelitiannya mengevaluasi benjolan dan massa payudara berdasarkan hasil tes Fine Needle Aspiration (FNA). Kumpulan data terdiri dari sembilan fitur yang mewakili lapisan input ke Neural Network. Kemudian, Neural Network akan mengklasifikasikan fitur input menjadi dua jenis kanker (jinak dan ganas). Penelitian lain dilakukan oleh Umi dan Puteh (2012)


(5)

5

yang mengklasifikasi kanker payudara pada data microarray dengan menggunakan Radial Basis Function. RBF pada penelitian ini digunakan sebagai

classifier yang membedakan antara sel-sel kanker dan yang bukan kanker. Pada tahun 2013, Azar dan El-Said menggunakan tiga metode dalam mendeteksi dan mengklasifikai kanker payudara, yaitu Multilayer Perceptron (MLP), Radial Basis Function (RBF), dan Probabilistic Neural Network (PNN). Data kanker yang digunakan diambil dari data Wisconsin Breast Cancer.

Metode pengelompokan adalah suatu metode untuk memisahkan objek-objek ke dalam beberapa kelompok atau cluster, sehingga sifat dari objek dalam suatu kelompok akan mirip dan objek-objek berbeda kelompok akan mempunyai sifat berbeda. Jarak Euclide umumnya digunakan untuk mengukur kemiripan dari objek-objek yang diamati. Semakin kecil nilai jarak Euclide, semakin tinggi tingkat kemiripan, begitu pula sebaliknya, semakin besar nilai jarak Euclide maka semakin rendah tingkat kemiripannya. Setelah ukuran kemiripan ditemukan, maka dapat dilakukan pengelompokan (Brodjol Sutijo, 2008). Metode pengelompokan pada RBFNN, diantaranya K-Means dan Fuzzy C-Means clustering. Metode K-Means dan Fuzzy C-K-Means clustering merupakan metode clustering yang paling sering digunakan.

Metode K-Means cluster atau pengelompokkan dengan menggunakan metode K-Means adalah salah satu teknik clustering pada pemodelan RBFNN dan metode K-Means adalah salah satu bentuk metode pemetaan pada dirinya sendiri (Self Organizing Map) yang juga dikembangkan dalam pemodelan NN. Pada metode K-Means, data dipartisi ke dalam subgroup atau cluster, dimana pada


(6)

6

setiap cluster mempunyai sifat yang homogen serta antar cluster mempunyai ciri yang berbeda. Jika ada buah unit pada RFBNN, maka akan ada

nilai rata-rata atau pusat (Brodjol Sutijo dkk, 2006).

Penelitian mengenai Metode K-Means clustering dilakukan oleh Munnoli dan Bapat (2013) yang menggunakan K-Means dan algoritma fuzzy clustering

untuk Radial Basis FunctionNeural Network. Pembelajaran RBFNN berdasarkan pada estimasi beberapa parameter seperti pusat cluster, jarak, bobot antar neuron

dll. Pada tahun 2014, Fajarani menentukan nilai pusat dan varians dari variabel

input di setiap neuron pada lapisan tersembunyi dengan metode K-Means cluster

untuk membentuk model RBFNN dalam meramal kasus demam berdarah.

Berbeda dengan K-Means clustering, pada Fuzzy C-Means cluster atau pengelompokkan dengan menggunakan Fuzzy C-Means (FCM), keberadaan tiap-tiap datanya dalam suatu cluster ditentukan oleh derajat keanggotaan. Konsep dasar FCM, pertama kali adalah menentukan pusat cluster, yang akan menandai lokasi rata-rata untuk tiap-tiap cluster. (Sri Kusumadewi, 2002).

Penelitian mengenai Metode Fuzzy C-Means clustering dilakukan oleh Essam Al-Daoud (2010) melakukan penelitian untuk mendeteksi kanker payudara menggunakan metode Fuzzy C-Means Radial Basis Function Network yang dimodifikasi. Essam menggunakan tiga aturan yang selanjutnya dikomparasikan dengan metode Adaptive Neuro Fuzzy Inference System (ANFIS) yang diterapkan pada kumpulan data Wisconsin Breast Cancer yang merupakan hasil diagnosis massa payudara hanya berdasarkan tes Fine Needle Aspiration (FNA). Sedangkan di tahun 2013 Indira Muhic meneliti mengenai diagnosis kanker payudara dengan


(7)

7

analisis fuzzy menggunakan Fuzzy C-Means dan Pattern Recognition pada diagnosis massa payudara berdasarkan hasil tes Fine Needle Aspiration. Dalam penelitiannya, digunakan algoritma Fuzzy C-Means. Contohnya klinik dikelompokkan menjadi dua kelompok, satu dengan kasus jinak dan lainnya dengan kasus ganas. Selanjutnya, input data dibagi dalam data training dan data

testing kemudian hasil dari masing-masing dievaluasi. Pada tahun 2015 Anand, Vinod, dan Rampure menggunakan algoritma Fuzzy C-Means dan Self Organizing Map (SOM) dalam membagi citra input dan kemudian mengkategorikan ke dalam citra payudara yang terkena tumor dan citra payudara normal.

Penggunaan metode K-Means dan Fuzzy C-Means clustering pada penelitian-penelitian sebelumnya juga menghasilkan nilai akurasi yang tinggi, diantaranya, penelitian yang dilakukan Rocky, Martini, dan Derwin (2012) yang mendiagnosa penyakit jantung dengan metode K-Means clustering pada model RBFNN menghasilkan nilai akurasi sebesar 85%. Idni, Endang, dan Tutik (2014) mengelompokkan gender berdasarkan nilai maksimum minimum amplitudo suara berbasis Fuzzy C-Means sebagai metode clustering menghasilkan akurasi sebesar 85%. Handayani dan Isye (2015), yang mengelompokkan eksudat keras pada penyakit diabetic retinopathy yaitu penyakit retina yang disebabkan oleh diabetes melitus dengan menggunakan metode K-Means clustering dalam tiga model

Neural Network yang berbeda yaitu Support Vector Machine (SVM), Multilayer Perceptron (MLP), and Radial Basis Function Neural Network (RBFNN), dengan nilai akurasi masing-masing model secara berturut-turut yaitu 89,29%,


(8)

8

91,07%, dan 85,71%. Tita Suwening A. (2015) yang membandingkan klasifikasi kanker payudara menggunakan metode Fuzzy C-Means cluster pada model

Recurrent Neuro Fuzzy menghasilkan nilai akurasi 95,83% pada training.

Hal-hal yang telah dijelaskan di atas dan cara pengelompokkan yang berbeda ini melatarbelakangi penulis untuk melakukan penelitian menggunakan metode K-Means clustering dan Fuzzy C-Means clustering pada model Radial Basis Function untuk mengklasifikasi stadium kanker payudara. Penelitian ini bertujuan untuk mengetahui metode clustering yang lebih efektif digunakan pada model Radial Basis Function untuk mengklasifikasi stadium kanker payudara dengan menggunakan citra mammogram. Rancangan dan hasil penelitian dilakukan dengan menggunakan MATLAB R2013a. Penelitian dengan judul

“Perbandingan K-Means dan Fuzzy C-Means Clustering pada Model Radial Basis Function Neural Network (RBFNN) untuk Klasifikasi Stadium Kanker Payudara” diharapkan dapat memberikan manfaat di bidang matematika dan bidang kesehatan.

B. Pembatasan Masalah

Untuk menghindari pembahasan yang terlalu luas, batasan-batasan dalam penelitian ini adalah sebagai berikut.

1. Citra mammogram yang diolah dan digunakan sebagai input diperoleh dari

Mamograph Image Analysis Society (MIAS).

2. Model yang digunakan untuk klasifikasi dalam penelitian ini adalah Radial Basis Function Neural Network dengan fungsi aktivasi Gaussian.


(9)

9

3. Pembelajaran RBFNN untuk mendapatkan bobot-bobot terbaik dilakukan dengan bantuan MATLAB R2013a.

4. Jarak dan pusat cluster pada metode K-Means clustering didapatkan dengan bantuan MINITAB

5. Pusat cluster pada metode Fuzzy C-Means clustering didapatkan dengan bantuan MATLAB R2013a

6. Output RBFNN diklasifikasikan menjadi tiga, yaitu normal, tumor (benign), dan kanker (malignant).

C. Rumusan Masalah

Berdasarkan pada latar belakang maka rumusan masalah dalam penelitian ini dapat dirumuskan sebagai berikut:

1. Bagaimana proses penentuan stadium kanker payudara dengan menggunakan RBFNN ?

2. Bagaimana perbandingan ketepatan klasifikasi stadium kanker payudara dengan K-Meansdan Fuzzy C-Means clustering pada model RBFNN ?

D. Tujuan Penelitian

Sesuai dengan pokok permasalahan yang telah dirumuskan, maka tujuan penelitian ini adalah:

1. Mendiskripsikan proses penentuan stadium kanker payudara dengan menggunakan RBFNN.


(10)

10

2. Mendiskripsikan hasil perbandingan akurasi stadium kanker payudara dengan menggunakan K-Meansdan Fuzzy C-Means clustering pada model RBFNN.

E. Manfaat Penelitian

Manfaat yang dapat diperoleh dari penelitian ini adalah: 1. Bagi penulis

Bagi penulis sendiri, penulisan skripsi ini dapat menambah pengetahuan dan wawasan tentang aplikasi model RBFNN dan pemrograman MATLAB dalam kehidupan sehari-hari, khususnya dalam bidang kesehatan.

2. Bagi para pembaca

Sebagai salah satu bahan dalam mempelajari model RBFNN dan MATLAB serta diharapkan penelitian ini dapat dijadikan sebagai referensi untuk penelitian selanjutnya.

3. Bagi perpustakaan Universitas Negeri Yogyakarta

Penulisan skripsi ini juga bermanfaat dalam menambah koleksi bahan pustaka yang bermanfaat bagi Universitas Negeri Yogyakarta pada umumnya, dan mahasiswa Fakultas Matematika dan Ilmu Pengetahuan Alam pada khususnya.


(11)

11 BAB II KAJIAN TEORI

Bab II berisi tentang kajian teori. Teori-teori yang digunakan dalam penelitian ini diantaranya mengenai kanker payudara, penelitian-penelitian terdahulu, pengolahan citra digital dan ekstraksinya, Neural Network, metode

Clustering, dan hasil ketepatan klasifikasi.

A. Kanker Payudara (Breast Cancer)

Berikut adalah hal-hal mengenai Kanker Payudara:

1. Pengertian Kanker Payudara

Kanker payudara adalah tumor ganas yang dimulai di sel-sel payudara. Sebuah tumor ganas adalah sekelompok sel-sel kanker yang dapat tumbuh (menyerang) jaringan sekitarnya atau menyebar (Metastasis) ke daerah tubuh. Penyakit ini umumnya terjadi pada wanita, tetapi pria dapat pula terserang (American Cancer Society, 2016)

2. Gejala Kanker Payudara

Pada tahap awal kanker payudara, biasanya tidak dirasakan sakit atau bahkan sama sekali tidak ada gejala. Ketika kanker mulai berkembang, gejala berikut ini akan terlihat (Yayasan Pita Merah Muda Bali, 2013):

a. Suatu gumpalan padat atau benjolan pada payudara atau sekitar ketiak. b. Puting susu yang tertarik kedalam

c. Perubahan warna kulit payudara, pembengkakan atau jerawat (berkerut, berlesung ataupun pengelupasan).


(12)

12

d. Darah atau cairan lain yang keluar dari puting susu. e. Perubahan ukuran atau bentuk payudara.

3. Penyebab Kanker Payudara

Hal-hal yang menyebabkan terjadinya kanker payudara tidak diketahui secara pasti. Berkaitan dengan hal tersebut para ahli memiliki pendapat yang berbeda-beda. Begitu juga dengan faktor-faktor yang dapat mempengaruhi seseorang berpotensi terkena kanker payudara. Berikut beberapa faktor risiko kanker payudara menurut beberapa ahli :

a. Menurut (Cancer Treatment Centers of America, 2015): 1) Usia

Rata-rata, wanita berusia lebih dari 60 tahun lebih mungkin didiagnosis kanker payudara. Hanya sekitar 10 - 15 persen kanker payudara terjadi pada wanita berusia kurang dari 45 tahun. Namun, diagnosa ini mungkin berbeda untuk ras atau etnis yang berbeda. 2) Jenis kelamin

Meskipun hampir 2.000 orang didiagnosis kanker payudara setiap tahun, kanker payudara 100 kali lebih sering terjadi pada wanita. The National Cancer Institute memperkirakan bahwa lebih dari 190.000 perempuan akan didiagnosis terserang kanker payudara setiap tahunnya.


(13)

13

3) Riwayat keluarga

Memiliki riwayat keluarga kanker payudara, khususnya perempuan dengan ibu, saudara perempuan atau anak perempuan yang memiliki atau menderita kanker payudara, mungkin dua kali lipat berisiko. 4) Faktor mewarisi

Beberapa mutasi genetik yang diwariskan dapat meningkatkan risiko kanker payudara. Mutasi pada gen BRCA1 dan BRCA2 adalah penyebab paling umum yang diwariskan. mutasi langka lainnya juga dapat membuat beberapa wanita lebih rentan untuk terserang kanker payudara. Pengujian gen mengungkapkan adanya masalah genetik yang potensial, terutama di keluarga yang memiliki riwayat kanker payudara.

5) Obesitas

Setelah menopause, jaringan lemak dapat menyebabkan peningkatan kadar estrogen, dan tingkat estrogen yang tinggi yang dapat meningkatkan risiko kanker payudara. Berat badan saat dewasa dan kelebihan lemak tubuh di sekitar pinggang juga dapat menjadi penyebabnya.

6) Tidak memiliki anak

Wanita yang tidak memiliki anak, atau yang hamil di kemudian hari (di atas usia 35) mungkin memiliki risiko lebih besar terkena kanker payudara. Menyusui dapat membantu menurunkan risiko kanker payudara.


(14)

14

7) Kepadatan payudara tinggi

Wanita dengan jaringan lemak, jaringan kelenjar dan fibrosa sedikit lebih berisiko untuk terkena kanker payudara dibandingkan wanita dengan payudara kurang padat.

8) Perubahan payudara tertentu

kondisi payudara tertentu dapat meningkatkan risiko kanker payudara.

9) Sejarah menstruasi

Wanita yang mulai menstruasi pada usia dini (sebelum usia 12) dan/atau menopause pada usia yang lebih tua (setelah usia 55) memiliki risiko sedikit lebih tinggi terkena kanker payudara. Peningkatan risiko mungkin karena masa hidup yang lebih lama mengeluarkan hormon estrogen dan progesteron.

10) Gaya hidup

Aktivitas fisik dalam bentuk latihan rutin selama empat sampai tujuh jam seminggu dapat membantu mengurangi risiko kanker payudara. 11) Mengkonsumsi Alkohol

Penggunaan alkohol terkait dengan meningkatnya risiko terserang kanker payudara. Risiko meningkat dengan jumlah alkohol yang dikonsumsi.


(15)

15

12) Pil KB

Menggunakan kontrasepsi oral dalam 10 tahun terakhir dapat meningkatkan risiko terkena kanker payudara. Risiko menurun dari waktu ke waktu setelah pil dihentikan.

13) Terapi hormon pascamenopause (PHT) yang dikombinasi Menggunakan terapi hormon gabungan setelah menopause meningkatkan risiko terkena kanker payudara.

14) Paparan dietilstilbestrol (DES)

Penggunaan DES sebelumnya, obat yang biasa diberikan kepada wanita hamil (pada tahun 1940-1971) untuk mencegah keguguran, dapat sedikit meningkatkan risiko terkena kanker payudara. Wanita yang ibunya mengambil DES selama kehamilan juga mungkin memiliki risiko sedikit lebih tinggi terserang kanker payudara.

15) Paparan radiasi

Anak-anak atau remaja, yang sedang melakukan terapi radiasi pada daerah dada sebagai pengobatan kanker lain berisiko terserang kanker payudara.

b. Menurut (American Cancer Society, 2016): 1) Pernah menderita kanker payudara

Seorang wanita dengan kanker pada satu payudara memiliki peningkatan risiko terkena kanker baru di payudara lainnya atau di bagian lain dari payudara yang sama. (Hal ini berbeda dengan


(16)

16

kekambuhan dari kanker pertama.) Risiko ini bahkan lebih tinggi jika kanker payudara didiagnosis pada usia yang lebih muda.

2) Ras dan etnis

Secara keseluruhan, wanita kulit putih memiliki risiko terkena kanker payudara yang lebih kecil dari wanita Afrika-Amerika, tetapi wanita Afrika-Amerika lebih mungkin untuk meninggal karena kanker ini. Namun, pada wanita di bawah usia 45 tahun, kanker payudara lebih sering terjadi pada wanita Afrika-Amerika. Wanita Asia, Hispanik, dan penduduk asli Amerika memiliki risiko lebih rendah terkena kanker payudara dan kematian yang diakibatkannya. 3) Diet

Sebuah penelitian terbaru menemukan risiko lebih tinggi terkena kanker payudara pada wanita yang makan lebih banyak daging merah.

4) Asap tembakau

Dalam beberapa tahun terakhir, lebih banyak studi telah menemukan bahwa merokok dalam jangka panjang terkait dengan lebih tingginya risiko terkena kanker payudara. Beberapa studi telah menemukan bahwa risiko tertinggi pada kelompok tertentu, seperti wanita yang mulai merokok sebelum mereka memiliki anak pertama mereka. 5) Faktor Kontroversial dan tidak dibenarkan. Hal ini bisa berupa

antiperspirant, penggunaan bra, aborsi, implan payudara, dan lain-lain.


(17)

17 4. Klasifikasi Kanker Payudara

Perkembangan kondisi abnormal payudara hingga menjadi sel kanker terbagi menjadi tiga kelas yaitu normal, tumor (benign) dan kanker (malignant) (National Breast Cancer Foundation, 2015). Berikut adalah penjelasan masing-masing klasifikasi kanker payudara:

a. Diagnosis normal

Payudara normal merupakan payudara dengan pertumbuhan sel normal, dimana sel-sel payudara yang tumbuh sama dengan sel-sel payudara yang rusak atau mati.

b. Diagnosis tumor (benign)

Tumor merupakan pertumbuhan sel yang abnormal dimana pembelahan sel pada payudara lebih cepat dari pada sel yang rusak atau mati. Meskipun tumor ini umumnya tidak membahayakan jaringan di sekitarnya, namun tumor dapat terus tumbuh dan menekan organ yang menyebabkan rasa sakit. Dalam situasi ini, tumor dapat diangkat untuk menghilangkan rasa sakit.

c. Diagnosis kanker (malignant)

Kanker merupakan tumor yang menjadi ganas. Tumor yang tumbuh menyerang dan merusak jaringan disekitarnya.

5. Cara Pendeteksian Kanker Payudara

Kanker payudara kadang-kadang ditemukan setelah gejala muncul, tetapi banyak wanita dengan kanker payudara dini tidak memiliki gejala. Inilah sebabnya mengapa mendapatkan tes skrining yang dianjurkan sebelum gejala


(18)

18

berkembang sangat penting. Tes pencitraan menggunakan x-ray, medan magnet, gelombang suara, atau zat radioaktif dapat membuat gambar dari bagian dalam tubuh. Tes pencitraan dapat dilakukan untuk sejumlah alasan, termasuk untuk membantu mengetahui area mencurigakan yang memungkinkan menjadi kanker, mengetahui seberapa jauh kanker mungkin telah menyebar, dan untuk membantu menentukan apakah pengobatan bekerja. Tes pencitraan ini yaitu (American Cancer Society, 2016):

a. Mammogram

Mammogram adalah x-ray untuk payudara. Skrining mammogram

digunakan untuk mencari penyakit pada payudara wanita yang tidak memiliki tanda-tanda atau gejala dari masalah payudara. Mammogram

biasanya mengambil 2 tampilan (gambar x-ray diambil dari sudut yang berbeda) dari masing-masing payudara. Untuk mammogram, payudara ditekan antara 2 lempengan untuk meratakan dan menyebarkan jaringan. Jika kanker ditemukan, diagnostik mammogram sering dilakukan untuk mendapatkan pandangan yang lebih menyeluruh dari kedua payudara. Hal ini untuk memeriksa setiap daerah abnormal lain yang bisa jadi merupakan kanker.

b. USG payudara

USG, juga dikenal sebagai sonografi, menggunakan gelombang suara untuk menguraikan bagian tubuh. Untuk tes ini, instrumen seperti mikrofon kecil disebut transduser ditempatkan pada kulit (yang sering dilumasi pertama kali dengan gel USG). Transduser memancarkan


(19)

19

gelombang suara dan mengambil gema saat dipantulkan jaringan tubuh. Gema dikonversi oleh komputer menjadi gambar hitam dan putih yang ditampilkan di layar komputer. Tes ini tidak menimbulkan rasa sakit dan tidak memaparkan radiasi. USG telah menjadi alat yang digunakan bersama dengan mammogram karena banyak tersedia dan lebih murah daripada yang lainnya, seperti MRI. Biasanya, USG payudara digunakan untuk menargetkan area spesifik yang ditemukan pada mammogram. USG membantu membedakan antara tumor jinak dan kanker. Dalam seseorang dengan tumor payudara, USG dapat juga digunakan untuk melihat pembesaran kelenjar getah bening di bawah lengan. Penggunaan USG untuk skrining kanker payudara tidak dianjurkan. Namun, kini uji klinis telah menemukan manfaat dari penggunaan USG setelah dilakukan skrining payudara dengan mammogram pada wanita dengan payudara padat yang berisiko lebih tinggi terkena kanker payudara.

c. Magnetic resonance imaging (MRI)

Scan MRI menggunakan gelombang radio dan magnet kuat dan bukan sinar-x. Energi dari gelombang radio yang diserap dan kemudian dirilis dalam pola yang dibentuk oleh jaringan tubuh dan oleh penyakit tertentu. Sebuah komputer menerjemahkan pola menjadi gambar yang sangat rinci. Dalam mencari kanker, cairan kontras disebut gadolinium disuntikkan ke pembuluh darah sebelum atau selama scan untuk menunjukkan detail yang lebih baik. Scan MRI dapat memakan waktu yang lama – hampir satu jam. Dalam pemeriksaan MRI, pasien harus


(20)

20

berbaring di dalam sebuah tabung sempit, menghadap ke bawah pada

platform. Platform ini memiliki bukaan untuk setiap payudara yang memungkinkan untuk mengambil gambarnya tanpa kompresi. Platform

ini berisi sensor yang diperlukan untuk menangkap gambar MRI. MRI dapat digunakan bersama dengan mammogram untuk skrining wanita yang berisiko tinggi terkena kanker payudara, atau dapat digunakan untuk mengkaji secara lanjut daerah yang mencurigakan yang sebelumnya telah ditemukan menggunakan mammogram. MRI juga sering digunakan untuk wanita yang telah didiagnosis kanker payudara dalam menentukan ukuran kanker yang sebenarnya dan untuk mencari kanker lainnya yang muncul di payudara.

B. Pengolahan Citra Digital

Citra digital adalah representasi dari citra dua dimensi sebagai sebuah kumpulan nilai digital yang disembut elemen gambar atau piksel. Piksel adalah istilah yang sering digunakan untuk menunjukkan unsur-unsur pada citra digital tersebut (Gonzales & Woods, 2008:1). Citra dua dimensi adalah citra (gambar) yang terdiri dari panjang dan lebar.

Citra digital dapat ditulis dalam bentuk matrik sebagai berikut.

[

] (2.1)

Suatu piksel memiliki nilai dalam rentang tertentu, dari nilai minimum sampai nilai maksimum. Jangkauan yang digunakan berbeda-beda tergantung dari


(21)

21

jenis warnanya. Namun secara umum jangkauannya adalah 0-255. Citra dengan penggambaran seperti ini digolongkan ke dalam citra integer (Darma Putra, 2010: 20). Citra digital terbagi menjadi beberapa jenis. Jenis citra digital yang sering digunakan adalah citra biner, citra grayscale, dan citra warna. Adapun penjelasan mengenai jenis citra adalah sebagai berikut (Usman Ahmad, 2005 : 14):

1. Citra biner

Citra biner adalah citra digital yang memiliki dua kemungkinan nilai piksel yaitu hitam yang dinyatakan dengan 0 dan putih yang dinyatakan dengan 1. Nilai 0 (hitam) adalah background points, biasanya bukan merupakan bagian dari citra sesungguhnya. Sedangkan nilai 1 (putih) adalah region points, yaitu bagian dari citra sebenarnya (bukan latar belakang). Citra biner juga disebut B&W (black and white) atau monokrom. Proses pembineran dilakukan dengan membulatkan ke atas atau ke bawah untuk setiap nilai keabuan dari piksel yang berada di atas atau di bawah nilai batas.

2. Citra grayscale

Citra grayscale atau abu – abu merupakan citra yang mampu menghasilkan gradasi warna abu-abu dari warna hitam hingga warna putih. Tingkat keabuan disini merupakan warna abu dengan berbagai tingkatan, berupa bilangan antara 0 s.d 255. Nilai ini digunakan untuk menunjukkan nilai intensitas. Nilai 0 untuk warna hitam, nilai 255 untuk warna putih dan nilai antara 0 sd 255 untuk warna antara hitam dan putih (keabuan).


(22)

22 3. Citra warna

Citra warna atau yang biasa disebut dengan citra RGB adalah citra digital yang setiap pikselnya mewakili warna kombinasi dari tiga warna dasar yaitu R =

Red, G = Green, dan B = Blue. Citra warna disebut juga true color karena mempunyai jumlah warna yang cukup besar yaitu mencapai 16 juta warna.

C. Ekstraksi Citra

Proses ekstraksi merupakan salah satu karakteristik penting yang digunakan dalam mengidentifikasi objek atau pola citra, karena metode ekstraksi citra yang tepat akan mampu memberikan informasi yang detail tentang kelas suatu citra. Pada penelitian ini, metode ekstraksi citra yang digunakan adalah metode Gray Level Co-occurrence Matrix (GLCM). GLCM merupakan suatu metode ekstraksi citra yang banyak digunakan dalam klasifikasi citra dan merupakan salah satu metode yang cukup efektif dalam melakukan klasifikasi karena mampu memberikan informasi yang detail tentang suatu citra dalam hal tekstur (Gadkari, 2004). GLCM adalah suatu matriks yang elemen-elemennya merupakan jumlah pasangan piksel yang memiliki tingkat kecerahan tertentu (Toni, 2013: 18).

Ekstraksi citra yang dilakukan dengan metode GLCM dapat menghasilkan 14 fitur ekstraksi. Ekstraksi citra dapat dilakukan dengan bantuan aplikasi MATLAB R2013a dengan script MATLAB R2013a yang terlampir pada Lampiran 3.


(23)

23

Fitur – fitur ekstraksi yang didapatkan adalah energy, contrast, correlation, sum of square variance, Inverse Difference Moment (IDM), sum average, sum variance, sum entropy, entropy, difference variance, difference entropy, maximum probability, homogeneity dan dissimiliraity.

1. Entropy (Entropi)

Nilai entropi menunjukkan keteracakan distribusi derajat keabuan suatu citra. Semakin acak distribusi derajat keabuannya, semakin tinggi nilai entropi yang dihasilkan (Yegar & Chairisni, 2013: 6). Rumus entropy adalah sebagai berikut (Mohanaiah, et al., 2013: 2):

(2.2) Dimana,

koordinat spasial fungsi

peluang nilai level keabuan pada baris ke- dan kolom ke- level abu-abu

2. Energy (Energi)

Nilai energi bertolak belakang dengan entropi. Semakin tinggi nilai entropi maka nilai energi akan semakin rendah. Hal ini dikarenakan, nilai energi menggambarkan keteraturan penyebaran derajat suatu citra keabuan (Yegar & Chairisni, 2013). Rumus energy adalah sebagai berikut (Girisha et al, 2013):

(2.3)


(24)

24

peluang nilai level keabuan pada baris ke- dan kolom ke- level abu-abu

3. Contrast (kontras)

Fitur kontras digunakan untuk menghitung range perbedaan derajat keabuan dalam sebuah citra. Semakin jauh perbedaan derajat keabuan setiap pasangan piksel, semakin tinggi nilai kontras. Demikian sebaliknya, jika perbedaan derajat keabuan setiap pasangan piksel tidak signifikan, nilai kontras akan rendah (Yegar & Chairisni, 2013). Rumus contrast adalah sebagai berikut (Girisha et al, 2013):

(2.4) koordinat spasial fungsi

peluang nilai level keabuan pada baris ke- dan kolom ke- level abu-abu

4. Correlation (korelasi)

Korelasi adalah fitur yang digunakan untuk menghitung ketergantungan linear sebuah citra. Jika derajat keabuan antar pasangan piksel memiliki hubungan linear maka nilai korelasi akan menjadi tinggi (Yegar & Chairisni, 2013: 6). Rumus correlation adalah sebagai berikut (Girisha et al, 2013: 2719):

∑ ∑ ( )

(2.5)

dengan,


(25)

25

peluang nilai level keabuan pada baris ke- dan kolom ke- level abu-abu

Dimana, adalah rata-rata dan standar deviasi dari peluang marginal dan yang diperoleh dari menjumlahkan baris dan kolom dari masing-masing matriks

5. Sum of Squares (Variance)

Variance adalah ukuran heterogenitas atau variasi elemen-elemen matriks.

Variance meningkat ketika nilai tingkat keabuan berbeda dari rata-ratanya dengan kata lain, citra dengan tingkat keabuan kecil maka akan memiliki

Variance yang kecil pula (Gadkari, 2004: 13). Rumus Sum of Square (Variance) adalah sebagai berikut (Haralick, Shanmugam & Dinstein, 1973: 619):

(2.6) koordinat spasial fungsi

peluang nilai level keabuan pada baris ke- dan kolom ke- level abu-abu

6. Inverse Difference Moment (IDM)

IDM adalah ukuran dari homogenitas lokal. Nilai IDM tinggi ketika level abu-abu (gray level) lokal seragam dan invers dari GLCM tinggi. Rumus IDM adalah sebagai berikut (Mohanaiah et al, 2013: 2):

∑ ∑

(2.7)


(26)

26

peluang nilai level keabuan pada baris ke- dan kolom ke- level abu-abu

7. Sum Average

Sum Average adalah fitur yang menunjukkan seberapa banyak nilai rata-rata piksel yang ada dalam citra. Rumus Sum Average (SA) adalah sebagai berikut (Haralick, Shanmugam & Dinstein, 1973: 619):

∑ (2.8) Dengan,

level abu-abu

8. Sum Entropy

Sum Entropy adalah fitur yang menunjukkan seberapa banyak level keabu – abuan yang acak. Rumus Sum Entropy (SE) adalah sebagai berikut (Haralick, Shanmugam & Dinstein, 1973: 619):

(2.9) Dengan,

level abu-abu

9. Sum Variance

Sum Variance menyatakan heterogenitas spasial (perbedaan) gambar. Rumus (Abouelatta, 2013: 217). Sum Variance (SV) adalah sebagai berikut (Haralick, Shanmugam & Dinstein, 1973: 619):


(27)

27

(2.10)

Dengan,

level abu-abu

10. Difference Variance

Difference Variance (DV) menyatakan ukuran variabilitas lokal (Abouelatta, 2013: 217). Rumus Difference Variance adalah sebagai berikut (Haralick, Shanmugam & Dinstein, 1973: 619):

(2.11)

Dengan,

11. Difference Entropy

Difference Entropy (DE) adalah ukuran variabilitas perbedaan mikro (lokal) (Abouelatta, 2013: 217). Rumus Difference Entropy adalah sebagai berikut (Haralick, Shanmugam & Dinstein, 1973:619):

(2.12) Dengan,

level abu-abu


(28)

28

12. Maximum Probability

Maximum probability menghitung tingkat keabu-abuan, yang mempunyai peluang maksimum (maximum probability) pada GLCM.

(2.13) koordinat spasial fungsi

peluang nilai level keabuan pada baris ke- dan kolom ke-

13. Homogeneity (Homogenitas)

Fitur homogenitas akan menghitung keseragaman variasi derajat keabuan sebuah citra. Fitur homogenitas akan memiliki nilai yang tinggi derajat keabuan yang hampir sama (Yegar & Chairisni, 2013: 6). Rumus homogenitas adalah sebagai berikut (Girisha et al, 2013: 2720):

(2.14) Dengan,

koordinat spasial fungsi

peluang nilai level keabuan pada baris ke- dan kolom ke- level abu-abu

14. Dissimilarity

Dissimilarity mirip dengan kontras (contrast). Dissimilarity akan tinggi ketika daerah lokalnya memiliki kontras yang tinggi. Fitur ini sensitif terhadap variabilitas spasial tingkat abu-abu dan input gambar (Abouelatta, 2013: 216):


(29)

29

Dengan,

koordinat spasial fungsi

peluang nilai level keabuan pada baris ke- dan kolom ke- level abu-abu

D. Neural Network (NN)

Artificial Neural Network (ANN) atau yang biasa disebut Neural Network (NN) merupakan sistem pemrosesan informasi yang memiliki karakteristik mirip dengan jaringan saraf biologis (Fausett, 1994: 3). Neural Network dibentuk sebagai generalisasi model matematika dari jaringan syaraf biologi (Jong Jek Siang, 2005: 2). Manusia memiliki sekitar 1011 neuron yang terus menerus membenahi diri atau direorganisasi oleh pengaruh eksternal (sekitar 105 neuron dapat hancur selama keadaan mabuk, beberapa jenis makanan atau pengaruh lingkungan juga dapat merusak sel-sel otak) (Kriesel, 2005: 4-5).

Suatu Neural Network ditandai dengan (1) arsitektur yaitu pola dari hubungan antar neuron, (2) algoritma pembelajaran yaitu metode untuk menentukan bobot pada hubungan neuron dan (3) fungsi aktivasi (Fausett, 1994: 3). Sebuah neuron memiliki tiga bagian utama yaitu sel tubuh atau soma (dimana nukleus/inti sel terletak), dendrit, dan akson (Gambar 2.1). Dendrit adalah sambungan tunggal berbentuk silinder yang memanjang dari sel tubuh dan membawa impuls (sinyal) dari neuron (Lin & Lee, 1995: 206). Sinyal tersebut berupa impuls elektrik yang dikirim melalui celah sinaptik melalui proses kimiawi. Sinyal yang masuk dimodifikasi (diperkuat/ diperlemah). Selanjutnya,


(30)

30

soma atau sel tubuh menjumlahkan semua sinyal yang masuk. Apabila sinyal yang diterima cukup kuat, maka sinyal akan diteruskan ke sel lain melalui akson (Fausett, 1994: 5).

Gambar 2.1. Syaraf Secara Biologi

Seperti halnya otak manusia, Neural Network juga terdiri dari beberapa

neuron, dan ada hubungan antara neuron-neuron tersebut. Neuron-neuron tersebut akan mentransformasikan informasi yang diterima melalui sambungan keluarnya menuju ke neuron-neuron yang lain. Pada Neural Network, hubungan ini dikenal dengan nama bobot. Informasi tersebut disimpan pada suatu nilai tertentu pada bobot tersebut. Gambar 2.2 menunjukkan struktur neuron pada jaringan syaraf.


(31)

31

Dalam Neural Network, informasi yang disebut dengan input akan dikirim ke neuron dengan bobot tertentu. Input ini akan diproses oleh suatu fungsi perambatan yang akan menjumlahkan nilai-nilai semua bobot. Hasil penjumlahan ini kemudian akan dibandingkan dengan suatu nilai ambang (threshold) tertentu melalui fungsi aktivasi setiap neuron. Apabila input tersebut melewati suatu ambang tertentu, maka neuron tersebut akan diaktifkan, tetapi jika tidak, maka

neuron tersebut tidak akan diaktifkan. Apabila neuron tersebut diaktifkan, maka

neuron tersebut akan mengirimkan output melalui bobot-bobot outputnya ke semua neuron yang berhubungan dengannya, dan demikian seterusnya.

Pada Neural Network, neuron-neuron akan dikumpulkan dalam lapisan-lapisan (layer) yang disebut dengan lapisan neuron (neuron layers). Neuron-neuron pada satu lapisan akan dihubungkan dengan lapisan-lapisan sebelum dan sesudahnya (kecuali lapisan input dan output). Informasi yang diberikan pada

Neural Network akan dirambatkan lapisan ke lapisan, mulai dari lapisan input

sampai ke lapisan output melalui lapisan yang lainnya, yang disebut lapisan tersembunyi (hidden layer). Arah perambatan ini sesuai dengan algoritma pembelajaran yang digunakan (Sri Kusumadewi & Sri Hartati, 2010: 69-72). Menurut Fausett (1994:3) karakteristik dari neural network ditentukan oleh beberapa hal, yaitu: arsitektur, fungsi aktivasi, dan learning algorithm (algoritma pembelajaran).


(32)

32 1. Arsitektur

Hubungan antar neuron dalam Neural Network mengikuti pola tertentu tergantung pada arsitektur jaringan syarafnya. Menurut Fausett (1994: 12-15) terdapat 3 arsitektur dalam Neural Network, antara lain:

a. Jaringan Layar Tunggal (single layer network)

Dalam jaringan ini, sekumpulan input neuron dihubungkan langsung dengan sekumpulan outputnya. Dalam beberapa model (misal

perceptron), hanya ada sebuah neuronoutput.

Gambar 2.3. Jaringan Layar Tunggal

Gambar 2.3 menunjukkan arsitektur jaringan dengan neuron input

dan neuron output . Dalam jaringan ini, semua neuron input dihubungkan dengan semua neuron output, meskipun dengan bobot yang berbeda-beda. Tidak ada neuroninput yang dihubungkan dengan neuron input lainnya. Demikian pula dengan

neuronoutput.

Lapisan output Lapisan input


(33)

33

b. Jaringan Layar Jamak (multilayer network)

Jaringan layar jamak merupakan jaringan dengan satu layar simpul atau lebih (disebut hidden neuron/ neuron tersembunyi) antara neuron input

dan neuron output. Terdapat layar bobot antara dua tingkat neuron yang berdekatan (input, hidden, output).

Gambar 2.4. Jaringan Layar Jamak

Gambar 2.4 adalah jaringan dengan neuron input , sebuah layar tersembunyi yang terdiri dari neuron dan

neuron output . Jaringan ini dapat menyelesaikan masalah yang lebih kompleks dibandingkan dengan layar tunggal, meskipun kadangkala proses pelatihan lebih kompleks dan lama.

Lapisan output Lapisan

tersembunyi Lapisan

input

bobot bobot


(34)

34

c. Jaringan Layar Kompetitif (competitive layer network)

Arsitektur ini memiliki bentuk yang berbeda, dimana antar

neuron dapat saling dihubungkan. Gambar 2.5 merupakan salah satu contoh arsitektur ini.

Gambar 2.5. Jaringan Layar Kompetitif

2. Fungsi Aktivasi

Dalam Neural Network, fungsi aktivasi digunakan untuk menentukan output

suatu neuron. Berikut merupakan tabel 4 fungsi aktivasi dalam Neural Network

menurut Fausett (1994: 17-19):

Tabel 2.1 Fungsi Aktivasi Neural Network

No Nama Pengertian Fungsi Grafik

1. Fungsi Identitas (Identity

Function)

Pada fungsi

identitas, nilai output

yang dihasilkan sama dengan nilai

inputnya


(35)

35

2. Undak Biner (Binary Step)

Jaringan dengan lapisan tunggal sering menggunakan fungsi undak (step function) untuk mengkonversikan

input dari suatu variabel yang bernilai kontinu ke suatu output biner (0 atau 1)

{

3. Fungsi Sigmoid Biner

Fungsi ini digunakan untuk Neural

Network yang dilatih dengan

menggunakan metode

backpropagation. Fungsi sigmoid biner memiliki nilai pada range 0 sampai 1, sehingga sering digunakan untuk

Neural Network

yang membutuhkan nilai output yang terletak pada interval 0 sampai 1. Namun, fungsi ini bisa juga digunakan oleh

Neural Network

yang nilai outputnya 0 atau 1

dengan:

4. Fungsi Sigmoid Bipolar

(Bipolar Sigmoid)

Fungsi sigmoid bipolar berkaitan dengan fungsi tangen hiperbolik yang sering digunakan sebagai fungsi aktivasi ketika nilai

output yang

dibutuhkan terletak pada interval -1 sampai 1

dengan:


(36)

36

3. Algoritma Pembelajaran (learning algorithm)

Algoritma pembelajaran adalah prosedur untuk menentukan bobot pada lapisan yang berhubungan dalam Neural Network (Fausett, 1994: 429). Selama proses pembelajaran akan terjadi perbaikan bobot-bobot berdasarkan algoritma tertentu. Nilai bobot akan bertambah, jika informasi yang diberikan oleh

neuron yang bersangkutan tersampaikan, sebaliknya jika informasi tidak tersampaikan oleh suatu neuron ke neuron lain, maka nilai bobot yang menghubungkan keduanya akan dikurangi. Pada saat pembelajaran dilakukan pada input yang berbeda maka nilai bobot akan diubah secara dinamis hingga mencapai suatu nilai yang cukup seimbang. Apabila nilai ini telah seimbang, maka mengindikasikan bahwa tiap-tiap input telah berhubungan dengan output

yang diharapkan (Sri Kusumadewi & Sri Hartati, 2010).

Terdapat dua metode yang dapat dilakukan dalam proses pembelajaran NN, yaitu metode pembelajaran terawasi (supervised learning) dan metode tak terawasi (unsupervised learning) (Edy Irwansyah & M. Faisal, 2015: 53):

a. Supervised Learning

Metode pembelajaran pada Neural Network disebut terawasi jika output

yang diharapkan telah diketahui terlebih dahulu. Pengetahuan yang akan diberikan kepada sistem awalnya diberikan suatu acuan untuk memetakan suatu input menjadi output yang diinginkan. Proses pembelajaran ini akan terus dilakukan selama kondisi error atau kondisi yang diinginkan belum tercapai. Adapun setiap perolehan error akan


(37)

37

dikalkulasikan untuk setiap pemrosesan hingga data atau nilai yang diinginkan telah tercapai.

b. Unsupervised Learning

Sistem pembelajaran tidak terawasi memerlukan suatu target output. Pada sistem ini tidak membutuhkan adanya acuan awal, agar perolehan nilai dapat dicapai. Pada metode ini hasil yang diharapkan selama proses pembelajaran tidak dapat ditentukan. Tujuan pembelajaran unsupervised

adalah mengelompokkan unit-unit yang hampir sama dalam area tertentu.

E. Metode Clustering

Dalam proses pengelompokkan data (clustering), sebelumnya ditentukan nilai suatu jarak untuk mengukur kemiripan dari objek-objek yang diamati. Jarak yang umumnya digunakan yaitu jarak Euclide. Semakin kecil nilai jarak Euclide, semakin tinggi tingkat kemiripan, begitu pula sebaliknya, semakin besar nilai jarak Euclide maka semakin rendah tingkat kemiripannya. Setelah ukuran kemiripan ditemukan, maka dapat dilakukan pengelompokan (Brodjol Sutijo, 2008). Terdapat beberapa metode yang dapat digunakan, diantaranya adalah sebagai berikut.

1. K-Means Clustering

Algoritma K-Means clustering dikembangkan oleh MacQueen (1967) kemudian Hartigan dan Wong sekitar tahun 1975. Sederhananya, K-Means merupakan algoritma untuk mengklasifikasikan atau mengelompokkan objek/data berdasarkan unsur/fitur ke sejumlah kelompok/cluster, dengan


(38)

38

adalah bilangan bulat positif. Pengelompokan dilakukan dengan meminimalkan jumlah kuadrat dari jarak data dengan pusat cluster yang sesuai (Teknomo, 2015).

Algoritma metode K-Means clustering adalah sebagai berikut (Johnson & Wichern, 2007: 696):

a. Partisi data ke dalam kcluster

b. Tempatkan setiap data/obyek ke klaster terdekat. Kedekatan dua obyek ditentukan berdasarkan jarak kedua obyek tersebut. Jarak biasanya dihitung dengan menggunakan jarak Euclide. Persamaan jarak Euclide

antara dua titik sebarang P dan Q dengan koordinat P ( dan Q ( adalah sebagai berikut:

√ (2.16) Hitung ulang nilai pusat untuk cluster yang menerima data baru dan

cluster yang kehilangan data

c. Ulangi langkah ke-2 sampai nilai pusat lama sama dengan nilai pusat baru (stabil).

Beberapa keunggulan K-Means clustering antara lain (Zhang C & Fang Z, 2013):

a. Algoritma K-Means merupakan algoritma klasik untuk menyelesaikan masalah pengelompokkan. Algoritma ini relatif sederhana dan cepat. b. Untuk data yang besar, algoritma ini relatif fleksibel dan efisien. c. Memberikan hasil yang relatif baik


(39)

39

Beberapa kekurangan K-Means clustering antara lain (Zhang C & Fang Z, 2013):

a. Sensitif terhadap nilai awal, sehingga apabila nilai awal berbeda, mungkin akan terbentuk cluster yang berbeda.

b. Algoritma K-Means clustering memiliki ketergantungan yang lebih tinggi dari pusat cluster awal. Jika pusat cluster awal benar-benar jauh dari pusat cluster data itu sendiri, jumlah iterasi cenderung tak terbatas dan menghasilkan pengelompokan yang tidak tepat.

c. Algoritma K-Means clustering memiliki sensitifitas yang kuat terhadap

noise objek data. Jika terdapat sejumlah data noise pada kumpulan data, ini akan mempengaruhi hasil pengelompokan akhir yang menyebabkan

error pada hasil.

2. Fuzzy C-Means (FCM) Clustering

Fuzzy C-Means (FCM) merupakan salah satu algoritma fuzzy clustering. Metode ini merupakan pengembangan dari metode non hierarkhi K-Means Cluster, karena pada awalnya ditentukan dulu jumlah kelompok atau cluster

yang akan dibentuk berbeda dengan metode hierarkhi yang jumlah kelompoknya akan membentuk semacam ‘pohon’ dimana terdapat tingkatan yang jelas antara objek, dari yang paling mirip hingga yang paling tidak mirip (Soleh dkk, 2014). Fuzzy C-Means merupakan suatu teknik pengelompokan data yang keberadaan setiap titik data dalam suatu cluster ditentukan oleh derajat keanggotaan. Fungsi objektif yang digunakan adalah (Zimmerman, 2001:294) dan (Yang & Huang, 2007):


(40)

40

∑ ∑ (2.17)

Dimana:

derajat keanggotaan data ke- pada cluster ke- , yang dapat dicari dengan Persamaan

∑ (

)

(2.18)

banyak cluster yang memenuhi (jumlah cluster yang diinginkan),

pangkat atau bobot, jumlah data (observasi)

jarak Euclide antara data ke- dengan pusat cluster jarak Euclide antara data ke- dengan pusat cluster

ke-Algoritma pengelompokkan dengan menggunakan Fuzzy C-Means adalah sebagai berikut:

a. Input data yang akan dikelompokkan, berupa matriks berukuran ( jumlah data, variabel data)

b. Tentukan jumlah cluster pangkat atau bobot ( , error terkecil yang diharapkan (

c. Menetapkan matriks partisi awal

[


(41)

41

d. Menghitung pusat cluster ke- : , dengan ; dan menggunakan Persamaan berikut:

(2.20)

Dengan,

pusat cluster ke- untuk variabel ke- ,

derajat keanggotaan data ke- pada cluster ke- , pangkat atau bobot,

data ke- pada variabel ke- ,

Dalam mencari pusat cluster, dapat menggunakan MATLAB R2013a dengan fungsi (Elena, 2013):

[center,U,obj_fcn]=fcm(data,n_clusters) (2.21)

dengan,

center : matriks pusat cluster

U : matriks derajat keanggotaan

obj_fcn : nilai fungsi objective pada setiap iterasi data : data yang akan dikelompokkan

n_clusters : banyak cluster yang akan dibentuk (lebih dari satu).

e. Menentukan nilai fungsi objektif pada iterasi ke- ; yaitu dengan menggunakan Persamaan (2.21)


(42)

42

f. Menentukan kriteria berhenti, yaitu perubahan matriks partisi pada iterasi sekarang dengan iterasi sebelumnya, jika

| | (2.22)

Maka berhenti. Jika tidak, iterasi dinaikkan dan ulangi langkah ke-4 (d).

g. Setelah mendapatkan pusat cluster masing-masing data, selanjutnya mencari jarak Euclide dengan rumus (Indira & Can, 2013):

( ) √∑ ( ) (2.23) dengan,

jarak Euclide cluster ke- data data ke- variabel

pusat cluster ke- variabel

Setelah mendapatkan jarak Euclide dari masing-masing data, selanjutnya mencari jarak maksimum dari masing-masing cluster nya sebelum dilakukan penghitungan bobot lapisan output jaringan optimum.

Beberapa keunggulan Fuzzy C-Means clustering antara lain (Dang Q. A. et al, 2015):


(43)

43

b. Ditetapkan derajat keanggotaan untuk setiap pusat cluster, akibatnya memungkinkan untuk titik data masuk ke lebih dari satu pusat cluster.

Beberapa kekurangan Fuzzy C-Means clustering antara lain (Dang Q. A. et al, 2015):

a. Lebih banyak proses iterasi dan perhitungan yang lama b. Sensitif terhadap inisialisasi jumlah cluster

F. Ridge Regression

Sekitar pertengahan abad ke-20 teoritikus Rusia Andre Tikhonov mengerjakan solusi dari masalah ill-posed. Ini adalah kasus matematika yang tidak mempunyai solusi, karena pada dasarnya tidak ada cukup informasi khusus dalam kasus tersebut. Hal ini diperlukan untuk memberikan informasi tambahan (atau asumsi) sehingga teknik matematika Tikhonov dikembangkan untuk kasus ini yang dikenal sebagai regularisasi.

Kerja Tikhonov menjadi dikenal secara luas di Barat setelah publikasi bukunya pada tahun 1997. Sementara itu, dua ahli statistik Amerika, Arthur Hoerl dan Robert Kennard, menerbitkan sebuah makalah pada tahun 1970 pada ridge regresion, metode untuk memecahkan masalah regresi linear yang buruk. Kondisi buruk berarti kesulitan numerik dalam menjalankan matriks inverse yg diperlukan untuk mendapatkan matriks variansi. Hal ini merupakan gejala dari masalah regresi ill-posed dalam pengertian Tikhonov dan metode Hoerl & Kennard adalah bentuk dasar dari regularisasi, yang sekarang dikenal sebagai regularisasi orde nol.


(44)

44

Pada tahun 1980-an, ketika jaringan saraf menjadi populer, weight decay

adalah salah satu dari sejumlah teknik 'temuan' untuk membantu pangkasan koneksi jaringan yang tidak penting. Namun, segera diakui bahwa weight decay

melibatkan penambahan penalty yang sama dengan Sum Squared Error seperti dalam ridge regression. Weight decay ekuivalen dengan ridge regression. Sementara itu ridge regression secara matematis dan komputasi mudah digunakan dan akibatnya bentuk lain dari regularisasi cukup diabaikan.

Selanjutnya dijelaskan mengenai ridge regression dari perspektif bias dan variansi sebagaimana hal itu mempengaruhi persamaan untuk vektor bobot yang optimal, matriks variansi, dan matriks proyeksi.

1. Bias dan Variansi

Ketika input model train memprediksi output sebagai Jika terdapat banyak kumpulan data training (yang tidak pernah dilakukan, hanya perkirakan) dan jika diketahui output yang benar. Dapat dihitung Mean Squared Error (MSE), yaitu

( ) (2.24)

Nilai ini, menunjukkan seberapa baik prediksi rata-rata, yang dapat dipecah menjadi dua komponen yaitu

(2.25) Bagian pertama adalah bias dan bagian kedua adalah variansi.

Jika untuk semua maka model ini tidak bias (bias bernilai nol). Namun, model tidak bias mungkin masih memiliki Mean Squared Error bernilai besar jika memiliki variansi yang bernilai besar. Ini akan terjadi


(45)

45

jika sangat sensitif terhadap kekhasan (seperti noise dan pilihan titik sampel) dari setiap kumpulan data training tertentu, sensitivitas ini yang menyebabkan masalah regresi menjadi ill-posed dalam pengertian Tikhonov. Variansi dapat dikurangi secara signifikan dengan memasukkan sejumlah kecil bias sehingga terjadi pengurangan Mean Squared Error.

Masuknya bias setara dengan pembatasan jangkauan pada fungsi dimana model dapat dijelaskan. Hal ini dicapai dengan menghapus derajat kebebasan. Misalnya akan menurunkan urutan polinomial atau mengurangi jumlah bobot dalam Naural Network, ridge regression menghapus derajat kebebasan tidak secara eksplisit tetapi mengurangi jumlah efektif dari parameter. Hasilnya berupa hilangnya fleksibilitas yang membuat model kurang sensitif.

∑ ̂ ∑ (2.26) Ini merupakan ridge regression (weight decay) dengan ̂ merupakan nilai variabel output ke dengan adalah banyaknya pengamatan dan adalah bobot dari neuron lapisan tersembunyi ke-j. Parameter regularisasi mengatur keseimbangan antara penyesuaian data dan pencegahan

penalty. bernilai kecil menunjukkan bahwa data tersebut tepat tanpa menyebabkan penalty bernilai besar. Sedangkan bernilai besar menunjukkan ketepatan data tidak bisa didapatkan jika membutuhkan bobot besar. Bias merupakan solusi yang melibatkan bobot bernilai kecil dan hasilnya untuk proses fungsi output karena bobot yang besar diperlukan untuk menghasilkan fungsi output yang sangat bervariasi (rough). (Orr, 1996: 23-24).


(46)

46

Berdasarkan pernyataan-pernyataan sebelumnya, diketahui bahwa masalah yang mungkin muncul ketika bekerja dengan noise pada data training, input dalam jumlah besar, dan kumpulan training dalam jumlah kecil. Hal ini disebut over-fitting. Dalam mengatasi masalah tersebut, sebuah roughness penalty, yaitu ukuran kemulusan kurva dalam memetakan data, dapat ditambahkan pada Sum Square Error (SSE). Ini yang disebut global ridge regression. Metode global ridge regression mengestimasi bobot dengan menambahkan parameter regulasi tunggal yang bernilai positif pada Sum Square Error (SSE) untuk mendapatkan vektor bobot yang lebih kuat terhadap

noise pada kumpulan data training (Leondes C.T, 2005: 128).

Kriteria pemilihan model mencakup estimasi prediksi error, yaitu estimasi seberapa baik model pada data training akan bekerja pada input selanjutnya yang tidak diketahui. Model yang terbaik adalah model dengan estimasi prediksi error yang kecil. Salah satu kriteria tersebut yaitu

Generalised Cross-Validation (GCV) untuk menghitung prediksi error. Rumus GCV adalah sebagai berikut. (Orr, 1996: 20).

̂ ̂ ̂ (2.27)

banyak data

matriks proyeksi ̂ vektor target klasifikasi


(47)

47 2. Pengoptimalan Parameter Regulasi

Pemilihan model digunakan untuk memilih nilai untuk parameter regularisasi . Nilai yang dipilih adalah salah satu yang terkait denganestimasi

error terendah.

Karena semua kriteria pemilihan model bergantung secara non linear pada dibutuhkan metode optimasi nonlinier. Sehingga digunakan salah satu teknik standar untuk ini, seperti ketika turunan dari estimasi error GCV disamadengankan nol, persamaan yang dihasilkan dapat dimanipulasi sehingga hanya yang muncul di sisi kiri.

̂

̂ ̂ ̂ ( ̂ ̂ ) (2.28) Persamaan tersebut bukan solusi, namun merupakan rumus estimasi ulang karena sisi kanan bergantung pada ̂ (secara eksplisit maupun implisit melalui dan ). Untuk menggunakannya, nilai awal dari ̂ dipilih dan digunakan untuk menghitung nilai untuk sisi kanan, ini menyebabkan perkiraan baru dan proses dapat diulang sampai konvergen.

G. Ketepatan Hasil Klasifikasi

Setelah proses pembelajaran selesai dilakukan, tahapan selanjutnya adalah pengujian ketepatan hasil klasifikasi (diagnosa). Sensitivitas, spesifisitas dan akurasi secara luas digunakan untuk menggambarkan hasil klasifikasi. Secara khusus, digunakan untuk mengukur seberapa baik dan terpercaya hasil klasifikasi tersebut. Kemungkinan yang dapat terjadi pada hasil klasifikasi ditunjukkan Tabel 2.2 berikut (Zhu Wen et al, 2010).


(48)

48

Tabel 2.2. Hasil Klasifikasi Uji Diagnosa

Hasil Diagnosa

Kondisi penyakit sebagaimana ditetapkan oleh Standar Kebenaran

Positif Negatif Jumlah Baris

Positif TP FP TP+FP

Negatif FN TN FN+TN

Jumlah Kolom TP+FN FP+TN N = TP+TN+FP+FN

Ada beberapa istilah yang umum digunakan bersama dengan deskripsi sensitivitas, spesifisitas dan akurasi yaitu TP = True Positive, FP = False Positive, TN = True Negative, dan FN = False Negative

Jika penyakit terbukti ada dalam tubuh pasien, tes diagnostik yang diberikan juga menunjukkan adanya penyakit, hasil tes diagnostik dianggap True Positive (TP). Demikian pula, jika penyakit terbukti tidak ada pada tubuh pasien, tes diagnostik menunjukkan penyakit tidak ada juga, sehingga hasil tes True Negative (TN). Kedua True Negative and True Positive menunjukkan hasil yang konsisten antara tes diagnostik dan kondisi terbukti (juga disebut standar kebenaran). Namun, tidak ada tes medis yang sempurna.

Jika tes diagnostik menunjukkan adanya penyakit pada pasien yang sebenarnya tidak memiliki penyakit tersebut, hasil tes False Positive (FP). Demikian pula, jika hasil tes diagnosis menunjukkan bahwa penyakit ini tidak ada pada pasien yang sebenarnya terjangkit penyakit, hasil tes False Negative (FN). Kedua False Positive dan False Negative menunjukkan bahwa hasil tes berlawanan dengan kondisi yang sebenarnya. (Zhu Wen et al, 2010).


(49)

49 1. Sensitivitas

Sensitivitas mengacu pada kemampuan tes untuk mengidentifikasi pasien dengan penyakit secara tepat. Rumus Sensitivitas adalah sebagai berikut.

(2.29)

Misalnya, jika sensitivitas = 99%, artinya ketika dilakukan tes diagnostik pada pasien dengan penyakit tertentu, pasien ini berpeluang 99% teridentifikasi positif terjangkit penyakit tersebut.

2. Spesifisitas

Spesifisitas mengacu pada kemampuan tes untuk mengidentifikasi pasien tanpa penyakit secara tepat. Rumus Spesifisitas adalah sebagai berikut.

(2.30)

Nilai Spesifisitas merupakan peluang tes diagnosa penyakit tertentu tanpa memberikan hasil False Positive. Misalnya, jika spesifisitas suatu tes 99%, ini artinya ketika dilakukan tes diagnosa pada pasien tanpa penyakit tertentu, pasien ini berpeluang 99% teridentifikasi negatif terjangkit penyakit tersebut

3. Akurasi

Akurasi adalah proporsi dari hasil yang benar (True), baik True Positive

maupun True Negative, dalam suatu populasi. Akurasi mengukur atau mengidentifikasi dengan benar kondisi pasien. Rumus untuk menghitung akurasi adalah sebagai berikut.


(50)

50

Besar nilai akurasi merepresentasikan tingginya keakuratan hasil diagnosa pada pasien yang melakukan uji diagnosa, baik pasien yang terjangkit penyakit maupun tidak.


(51)

51 BAB III PEMBAHASAN

Bab III merupakan pembahasan yang meliputi proses penelitian yaitu arsitektur, prosedur, dan hasil model Radial Basis Function Neural Network untuk klasifikasi stadium kanker payudara, serta hasil dan ketepatan hasil klasifikasinya.

A. Arsitektur dan Model Radial Basis Function Neural Network (RBFNN) untuk Klasifikasi Stadium Kanker Payudara

Radial Basis Function Neural Network (RBFNN) adalah jaringan feed-forward dengan tiga lapisan, sebuah lapisan input dengan ineuron, sebuah lapisan tersembunyi dengan j neuron, dan lapisan output dengan satu atau beberapa

neuron (Qasem et al, 2013). Kinerja RBFNN tergantung pada pilihan yang tepat tiga parameter penting (pusat cluster, jarak dan bobot). Nilai parameter ini umumnya diketahui dan dapat ditemukan selama proses pembelajaran jaringan (Pislaru & Shebani, 2014).

1. Arsitektur Radial Basis Function Neural Network

Dalam RBFNN, variabel input masing-masing ditetapkan pada neuron

dalam lapisan input dan masuk secara langsung ke lapisan tersembunyi tanpa bobot (Balasubramanie et al, 2009). Hal inilah yang membedakan RBFNN dengan model neural network yang lain. Pada lapisan tersembunyi RBFNN dilakukan transformasi nonlinear terhadap data dari lapisan input

menggunakan fungsi basis radial sebelum diproses secara linear pada lapisan

output (Wei et al, 2011:65). Arsitektur Radial Basis Function Neural Network


(52)

52

Gambar 3.1 Arsitektur Radial Basis Function

Pada Gambar 3.1, ( merupakan neuron pada lapisan

input, ( merupakan neuron pada lapisan tersembunyi, dan ( merupakan neuron pada lapisan output. Bobot antara lapisan tersembunyi dan lapisan output disimbolkan dengan . Dalam arsitektur RBFNN juga ditambahkan sebuah neuron bias pada lapisan tersembunyi. Bias tersebut berfungsi untuk membantu neural network dalam mengolah informasi dengan lebih baik.

Lapisan

input

Lapisan tersembunyi

Lapisan


(53)

53

2. Model Radial Basis Function Neural Network

Pada RBFNN, lapisan tersembunyi menghitung jarak antara pusat cluster

dan vektor input, kemudian dengan fungsi aktivasi ( menuju lapisan

output (Pislaru & Shebani, 2014). Beberapa fungsi aktivasi dalam RBFNN adalah sebagai berikut (Andrew, 2002:63) :

a. Fungsi Gaussian

( ( (3.1)

b. Fungsi Multikuadratik

( √( (3.2)

c. Fungsi Invers Multikuadratik

( √( (3.3)

d. Fungsi Cauchy

( (( ) (3.4)

dengan,

jarak pada neuron tersembunyi nilai input variabel

nilai pusat pada neuron tersembunyi ( fungsi aktivasi neuron tersembunyi


(54)

54

Output yang dihasilkan dari model RBFNN merupakan kombinasi linear dari bobot dengan fungsi aktivasi ( dan bobot bias . Vektor

output dirumuskan sebagai berikut (Ali & Dale, 2003):

∑ ( (3.5)

dengan,

( ( ∑ (

) dimana,

banyak neuron tersembunyi

bobot dari neuron lapisan tersembunyi ke-j menuju neuron output ke-s bobot bias menuju neuron output ke-s

( fungsi aktivasi neuron tersembunyi ke –j

merupakan vektor input

3. Algoritma Pembelajaran Radial Basis Function Neural Network

Proses pembelajaran dalam RBFNN sedikit berbeda dengan proses pembelajaran pada model neural network lainnya. RBFNN model ini melakukan pembelajaran secara hybrid, yaitu menggabungkan antara pembelajaran terawasi (supervised learning) dan pembelajaran tak terawasi


(55)

55

(unsupervised learning) (Wiharto dkk, 2013). Metode pembelajaran tidak terawasi (unsupervised learning) digunakan pada proses dari lapisan input

menuju lapisan tersembunyi dan metode pembelajaran terawasi (supervised learning) digunakan pada proses yang terjadi dari lapisan tersembunyi menuju lapisan output (Chen et al, 2013).

Algoritma pembelajaran RBFNN terbagi menjadi tiga bagian (Andrew, 2002:70), yaitu menentukan :

a. Pusat dan jarak dari setiap fungsi basis. Pada penelitian ini, pusat dan jarak dari setiap fungsi basis dicari menggunakan metode K-Means

clustering dan Fuzzy C-Means clustering, yang selanjutnya akan dibandingkan hasil klasifikasinya. Jarak yang digunakan adalah jarak

Euclide karena sederhana untuk menghitung dan lebih dapat diandalkan. 1) K-Means clustering

K-Means merupakan algoritma untuk mengklasifikasikan atau mengelompokkan objek/data berdasarkan unsur/fitur ke sejumlah kelompok/cluster, dengan adalah bilangan bulat positif (Teknomo, 2015). Sehingga, data dikelompokkan ke dalam kelompok atau cluster

yang memiliki karakteristik yang sama.

Contoh penggunaan metode K-Means clustering :

Misalkan akan diukur dua variabel dan untuk masing-masing empat item A, B, C, dan D. Data yang diberikan dalam Tabel 3.1:


(56)

56

Tabel 3.1. Data Pengamatan

Item Pengamatan

A B C D 5 -1 1 -3 3 1 -2 -2

Data pada Tabel 3.1 dikelompokkan menjadi 2 cluster/kelompok (k = 2). Untuk mengimplementasikan metode K-Means dengan dua

cluster, pertama partisi item menjadi 2 cluster (AB) dan (CD), lalu hitung koordinat pusat cluster (rata-rata cluster), seperti pada Tabel 3.2:

Tabel 3.2. Koordinat Pusat Cluster partisi pertama

Cluster Koordinat Pusat

̅ ̅ AB CD ( ( (

Selanjutnya hitung jarak Euclide untuk masing-masing item dari pusat

cluster dan menempatkan kembali masing-masing item ke cluster

terdekat. Jika sebuah item berpindah dari konfigurasi awal, pusat

cluster (rataan) harus dihitung kembali. Untuk koordinat ke- , , pusat cluster dapat dihitung kembali dengan cara : ̅ ̅ jika item ke- ditambahkan ke dalam cluster


(57)

57

̅ ̅ jika item ke- dihilangkan dari cluster

dengan adalah jumlah item pada cluster sebelumnya. Misal, item A dengan koordinat (5,3) dipindahkan ke dalam cluster (CD). Cluster

baru B dan (ACD) dengan pusat terbaru didapat sebagai berikut:

Cluster (B) : ̅ (

̅ (

Cluster (ACD): ̅ (

̅ ( Untuk perhitungan jarak Euclide didapatkan:

( ( ) √( (

( ( ) √( ( 7,810

Karena jarak A dengan (AB) lebih dekat, sehingga A tetap pada

cluster (AB)

( ( ) √( (

( ( ) √( (

Karena jarak B dengan (CD) lebih dekat, sehingga B berpindah ke

cluster (CD).

( ( ) √( (

( ( ) √( (

Karena jarak C dengan (CD) lebih dekat, sehingga C tetap pada


(58)

58

( ( ) √( (

( ( ) √( (

Karena jarak D dengan (CD) lebih dekat, sehingga D tetap pada

cluster (CD).

Berdasarkan pengelompokan kembali dengan jarak minimum seperti diatas, didapatkan cluster baru yang terbentuk yaitu (A) dan (BCD) dengan nilai pusat baru:

Tabel 3.3. Koordinat Pusat Cluster Partisi Kedua

Cluster Koordinat Pusat

̅ ̅

A

BCD

( (

( (

( (

Pusat cluster baru yang terbentuk adalah A (5,3) dan (BCD) (-1,-1). Selanjutnya, perhitungan jarak Euclide dan pengelompokan dilakukan kembali hingga didapatkan nilai pusat yang sama dengan sebelumnya (stabil). Pada contoh soal ini, perhitungan jarak Euclide dan pengelompokan kembali dilakukan dan didapatkan nilai pusat yang sama yaitu (5, 3) dan (-1,-1) pada cluster (A) dan (BCD). Kemudian, mencari jarak maksimum masing – masing item terhadap cluster

masing – masing.

( ( ) √( (


(59)

59

( ( ) √( (

( ( ) √( (

Berdasarkan perhitungan diatas, didapatkan jarak maksimum masing-masing cluster yaitu 0 untuk A dan untuk (BCD) dengan koordinat pusat (5, 3) dan (-1,-1).

2) Fuzzy C-Means Clustering

Fuzzy C-Means (FCM) merupakan salah satu algoritma fuzzy

clustering. Fuzzy C-Means merupakan suatu teknik pengelompokan data yang keberadaan setiap titik data dalam suatu cluster ditentukan oleh derajat keanggotaan (Sri Kusumadewi, 2002: 159).

Contoh penggunaan metode Fuzzy C-Means clustering :

Untuk contoh yang sama dengan metode Fuzzy C-Means clustering, Misalkan akan diukur dua variabel dan untuk masing-masing empat item A, B, C, dan D. Data yang diberikan dalam Tabel 3.1. Data dikelompokkan menjadi 2 cluster/kelompok (k = 2), dengan pangkat atau bobot w=2, Maksimal iterasi= 100, Faktor Koreksi= 10-5 (error paling kecil), Fungsi Objektif awal (t=0), J(0)=0.

Matriks partisi awal yang terbentuk secara random dan memenuhi fungsi constraint.

U=initfcm(4,2)

( =[

]


(60)

60

Selanjutnya menghitung pusat-pusat cluster yang terbentuk berdasarkan matriks partisi awal.

Tabel 3.4. Pusat cluster pertama yang dihasilkan pada iterasi ke-1

0,1845 5 3

0,03404 0,170201 0,102121

0,1603 -1 1

0,025696 -0,0257 0,025696

0,3215 1 -2

0,103362 0,103362 -0,20672

0,3340 -3 -2

0,111556 -0,33467 -0,22311 0,274655 -0,0868 -0,30202 ∑ (

∑ (

-0,31604 -1,09963

Tabel 3.5. Pusat cluster kedua yang dihasilkan pada iterasi ke-1

0,1057 5 3 0,011172 0,055862 0,033517

0,2769 -1 1 0,076674 -0,07667 0,076674

0,2520 1 -2 0,063504 0,063504 -0,12701

0,3655 -3 -2 0,13359 -0,40077 -0,26718

0,28494 -0,35808 -0,284 ∑ (

∑ (

-1,25668 -0,99669

Sehingga pusat cluster yang terbentuk adalah: (


(61)

61

Fungsi Objektif yang dihasilkan adalah

( ∑ ∑ ∑ ( ) ( ) Detail perhitungan dapat dilihat pada Tabel 3.6.

Tabel 3.6. Perhitungan Fungsi Objektif pada iterasi ke-1

∑(

∑(

( (

0,03404 0,011172 45,06724 55,11954 1,5341 0,615823 2,149923 0,025696 0,076674 4,876272 4,052657 0,125301 0,310732 0,436033 0,103362 0,063504 2,542607 6,099219 0,26281 0,387325 0,650134 0,111556 0,13359 8,014324 4,045805 0,894046 0,54048 1,434526

( 4,670616

Karena | ( ( | | | dan maka proses dilanjutkan ke Iterasi ke-2 dengan terlebih dahulu menghitung perubahan matriks partisi menggunakan,

Tabel 3.7. Perhitungan matriks partisi pada iterasi ke-1

( ( Total

0,022189 0,018142 0,040331 0,550168 0,449832 0,205075 0,246752 0,451826 0,453879 0,546121 0,393297 0,163955 0,557252 0,705779 0,294221 0,124777 0,24717 0,371946 0,335469 0,664531


(1)

186

ke- Output

D

at

a T

ra

ini

ng

73 Kanker 0 1 Kanker Cocok

74 Kanker 0 1 Kanker Cocok

75 Kanker 0 1 Kanker Cocok

76 Kanker 0 0 Normal Tidak Cocok

77 Kanker 0 1 Kanker Cocok

78 Kanker 0 1 Kanker Cocok

79 Kanker 0 1 Kanker Cocok

80 Kanker 0 1 Kanker Cocok

81 Kanker 0 1 Kanker Cocok

82 Kanker 0 0 Normal Tidak Cocok

83 Kanker 0 1 Kanker Cocok

84 Kanker 0 1 Kanker Cocok

85 Kanker 0 1 Kanker Cocok

86 Kanker 0 1 Kanker Cocok

87 Kanker 0 1 Kanker Cocok

88 Kanker 0 1 Kanker Cocok

89 Kanker 0 1 Kanker Cocok

90 Kanker 0 1 Kanker Cocok

91 Kanker 0 0 Normal Tidak Cocok

92 Kanker 0 1 Kanker Cocok

93 Kanker 0 1 Kanker Cocok

94 Kanker 0 1 Kanker Cocok

95 Kanker 0 1 Kanker Cocok

96 Kanker 0 1 Kanker Cocok

Data

ke- Target Output RBFNN

Status

Output Keterangan

D

at

a T

es

ti

ng

1 Normal 0 0 Normal Cocok

2 Normal 0 1 Kanker Tidak Cocok

3 Normal 0 0 Normal Cocok

4 Normal 0 1 Kanker Tidak Cocok

5 Normal 0 0 Normal Cocok

6 Normal 0 0 Normal Cocok

7 Normal 0 0 Normal Cocok

8 Normal 0 0 Normal Cocok

9 Tumor 1 0 Tumor Cocok


(2)

187 Data

ke- Target Output RBFNN

Status

Output Keterangan

D

at

a T

es

ti

ng

11 Tumor 1 0 Tumor Cocok

12 Tumor 1 0 Tumor Cocok

13 Tumor 1 0 Tumor Cocok

14 Tumor 1 0 Tumor Cocok

15 Tumor 0 0 Normal Tidak Cocok

16 Tumor 1 0 Tumor Cocok

17 Kanker 0 1 Kanker Cocok

18 Kanker 0 1 Kanker Cocok

19 Kanker 0 1 Kanker Cocok

20 Kanker 0 1 Kanker Cocok

21 Kanker 0 0 Normal Tidak Cocok

22 Kanker 0 0 Normal Tidak Cocok

23 Kanker 0 1 Kanker Cocok


(3)

188

Pembulatan hasil perhitungan dan klasifikasi stadium kanker payudara menggunakan metode Fuzzy C-Means clustering 11 cluster model RBFNN

Data

ke- Target Output RBFNN

Status

Output Keterangan

D

at

a T

ra

ini

ng

1 Normal 0 0 Normal Cocok

2 Normal 0 0 Normal Cocok

3 Normal 0 0 Normal Cocok

4 Normal 0 0 Normal Cocok

5 Normal 0 1 Kanker Tidak Cocok

6 Normal 0 0 Normal Cocok

7 Normal 0 0 Normal Cocok

8 Normal 0 0 Normal Cocok

9 Normal 0 0 Normal Cocok

10 Normal 0 0 Normal Cocok

11 Normal 0 0 Normal Cocok

12 Normal 0 0 Normal Cocok

13 Normal 0 0 Normal Cocok

14 Normal 0 0 Normal Cocok

15 Normal 0 0 Normal Cocok

16 Normal 0 0 Normal Cocok

17 Normal 0 0 Normal Cocok

18 Normal 0 1 Kanker Tidak Cocok

19 Normal 0 0 Normal Cocok

20 Normal 0 0 Normal Cocok

21 Normal 0 0 Normal Cocok

22 Normal 0 0 Normal Cocok

23 Normal 0 0 Normal Cocok

24 Normal 0 0 Normal Cocok

25 Normal 0 0 Normal Cocok

26 Normal 0 0 Normal Cocok

27 Normal 0 0 Normal Cocok

28 Normal 0 0 Normal Cocok

29 Normal 0 0 Normal Cocok

30 Normal 0 1 Kanker Tidak Cocok

31 Normal 0 0 Normal Cocok

32 Normal 0 0 Normal Cocok

33 Tumor 1 0 Tumor Cocok


(4)

189 Data

ke- Target Output RBFNN

Status

Output Keterangan

D

at

a T

ra

ini

ng

35 Tumor 1 0 Tumor Cocok

36 Tumor 0 0 Normal Tidak Cocok

37 Tumor 1 0 Tumor Cocok

38 Tumor 1 0 Tumor Cocok

39 Tumor 1 0 Tumor Cocok

40 Tumor 1 0 Tumor Cocok

41 Tumor 0 0 Normal Tidak Cocok

42 Tumor 1 0 Tumor Cocok

43 Tumor 0 0 Normal Tidak Cocok

44 Tumor 0 0 Normal Tidak Cocok

45 Tumor 1 0 Tumor Cocok

46 Tumor 1 0 Tumor Cocok

47 Tumor 0 0 Normal Tidak Cocok

48 Tumor 1 0 Tumor Cocok

49 Tumor 1 0 Tumor Cocok

50 Tumor 1 0 Tumor Cocok

51 Tumor 1 0 Tumor Cocok

52 Tumor 1 0 Tumor Cocok

53 Tumor 1 0 Tumor Cocok

54 Tumor 1 0 Tumor Cocok

55 Tumor 0 0 Normal Tidak Cocok

56 Tumor 1 0 Tumor Cocok

57 Tumor 0 0 Normal Tidak Cocok

58 Tumor 1 0 Tumor Cocok

59 Tumor 1 0 Tumor Cocok

60 Tumor 0 0 Normal Tidak Cocok

61 Tumor 0 0 Tumor Tidak Cocok

62 Tumor 0 0 Normal Tidak Cocok

63 Tumor 0 0 Normal Tidak Cocok

64 Tumor 0 0 Normal Tidak Cocok

65 Kanker 0 0 Normal Tidak Cocok

66 Kanker 0 1 Kanker Cocok

67 Kanker 0 0 Normal Tidak Cocok

68 Kanker 0 1 Kanker Cocok

69 Kanker 0 0 Normal Tidak Cocok

70 Kanker 0 1 Kanker Cocok

71 Kanker 0 1 Kanker Cocok


(5)

190

ke- Output

D

at

a T

ra

ini

ng

73 Kanker 0 1 Kanker Cocok

74 Kanker 0 0 Normal Tidak Cocok

75 Kanker 0 1 Kanker Cocok

76 Kanker 0 0 Normal Tidak Cocok

77 Kanker 0 1 Kanker Cocok

78 Kanker 0 0 Normal Tidak Cocok

79 Kanker 0 1 Kanker Cocok

80 Kanker 0 1 Kanker Cocok

81 Kanker 0 1 Kanker Cocok

82 Kanker 0 1 Kanker Cocok

83 Kanker 0 1 Kanker Cocok

84 Kanker 0 1 Kanker Cocok

85 Kanker 0 1 Kanker Cocok

86 Kanker 0 1 Kanker Cocok

87 Kanker 0 1 Kanker Cocok

88 Kanker 0 0 Normal Tidak Cocok

89 Kanker 0 1 Kanker Cocok

90 Kanker 0 1 Kanker Cocok

91 Kanker 0 0 Normal Tidak Cocok

92 Kanker 0 1 Kanker Cocok

93 Kanker 0 1 Kanker Cocok

94 Kanker 0 1 Kanker Cocok

95 Kanker 0 1 Kanker Cocok

96 Kanker 0 0 Normal Tidak Cocok

Data

ke- Target Output RBFNN

Status

Output Keterangan

D

at

a T

es

ti

ng

1 Normal 0 0 Normal Cocok

2 Normal 0 1 Kanker Tidak Cocok

3 Normal 0 0 Normal Cocok

4 Normal 0 1 Kanker Tidak Cocok

5 Normal 0 0 Normal Cocok

6 Normal 0 0 Normal Cocok

7 Normal 0 0 Normal Cocok

8 Normal 0 0 Normal Cocok

9 Tumor 1 0 Tumor Cocok


(6)

191 Data

ke- Target Output RBFNN

Status

Output Keterangan

D

at

a T

es

ti

ng

11 Tumor 1 0 Tumor Cocok

12 Tumor 1 0 Tumor Cocok

13 Tumor 1 0 Tumor Cocok

14 Tumor 1 0 Tumor Cocok

15 Tumor 1 0 Tumor Cocok

16 Tumor 1 0 Tumor Cocok

17 Kanker 0 0 Normal Tidak Cocok

18 Kanker 0 1 Kanker Cocok

19 Kanker 0 0 Normal Tidak Cocok

20 Kanker 0 1 Kanker Cocok

21 Kanker 0 0 Normal Tidak Cocok

22 Kanker 0 0 Normal Tidak Cocok

23 Kanker 0 1 Kanker Cocok