Boosting Neural network dan Boosting CART pada Klasifikasi Jenis Kelamin dengan Metode Pengukuran Linier pada Foramen Mental menggunakan Panoramic Radiograph - ITS Repository
Halanam J
TUGAS AKHIR – SS141501
BOOSTING NEURAL NETWORK DAN BOOSTING
CART PADA KLASIFIKASI JENIS KELAMINDENGAN METODE PENGUKURAN LINIER PADA
FORAMEN MENTAL MENGGUNAKAN PANORAMIC RADIOGRAPH NUR LAILATUL FAIZAH NRP. 1313 100 103 Dosen Pembimbing Dr. Kartika Fithriasari, M.Si PROGRAM STUDI SARJANA DEPARTEMEN STATISTIKAFAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
Halanam J
FINAL PROJECT – SS141501
BOOSTING NEURAL NETWORK AND BOOSTING
CART FORGENDER CLASSIFICATION BY MENTAL FORAMENT USING LINEAR MEASUREMENTS METHOD ON PANORAMIC RADIOGRAPH NUR LAILATUL FAIZAH NRP. 1313 100 103 Supervisor Dr. Kartika Fithriasari, M.Si UNDERGRADUATE PROGRAMME DEPARTMENT OF STATISTICS FACULTY OF MATHEMATICS AND NATURAL SCIENCES
BOOSTING NEURAL NETWORK DAN BOOSTING
CART PADA KLASIFIKASI JENIS KELAMIN
DENGAN METODE PENGUKURAN LINIER PADA
FORAMEN MENTAL MENGGUNAKAN
PANORAMIC RADIOGRAPH
Nama : Nur Lailatul Faizah NRP : 1313100103 Jurusan : Statistika Dosen Pembimbing : Dr. Kartika Fithriasari, M.Si AbstrakFakta pengamalan dilapangan menunjukkan bahwa identifi-
kasi korban meninggal massal menggunakan tulang tengkorak
memiliki kontribusi yang tinggi dalam menentukan identitas se-
seorang, sehingga pada penelitian ini akan digunakan salah satu
bagian dari tulang tengkorak yakni foramen mental yang terletak
di mandibula untuk identifikasi jenis kelamin. Pada penelitian ini
digunakan metode FFNN dan CART dalam mengklasifikasikan
jenis kelamin pada foramen mental sebagai upaya untuk mening-
katkan akurasi dengan proses boosting. Model terbaik FFNN
untuk klasifikasi jenis kelamin yaitu dengan menggunakan 3 input,
1 hidden layer dengan jumlah neuron 6 unit, dan 1 output. Pohon
optimal analisis CART yaitu dengan jumlah simpul terminal se-
banyak 5 simpul dan tingkat kedalaman 5. Hasil penelitian ini
menghasilkan bahwa klasifikasi dengan Boosting pada metode
Classification and Regression Tree (CART) memiliki performa
yang lebih baik dibandingkan dengan metode lainnya, dimana
accuracy, sensitivity, dan specitivity yang didapat adalah 91.67%,
100.00%, dan 83.33%.Kata Kunci :
Boosting, Classification and Regression Tree,
Feedforward Neural Network, Foramen mental,
(Halaman ini sengaja dikosongkan)
BOOSTING NEURAL NETWORK AND BOOSTING
CART FOR GENDER CLASSIFICATION WITH
LINEAR MEASUREMENT METHOD ON MENTAL
FORAMENT USING PANORAMIC RADIOGRAPH
Name : Nur Lailatul Faizah NRP : 1313 100 103 Department : Statistics Supervisor : Dr. Kartika Fithriasari, M.Si AbstractBased on experience in field, mass dead victims identified
using skeletal bone has high contribution in determining a person
identity, so this research is using a part of skeletal bone which is
foramen mentale on mandible for gender identification. This
research using FFNN Method and CART Method in gender
classification on foramen mentale to improve the accuration with
boosting process. The best FFNN model to gender classification is
using 3 inputs, 1 hidden layer with 6 neuron units, and 1 output.
CART analysis optimal tree with 5 terminal nodes and depth level
5. This research results show that classification using Boosting
with Classification and Regression Tree (CART) method has a
better performance compared to other methods with accuracy,
sensitivity, and specitivity percentage 91.67%, 100.00% and
83.33%.Keyword: Boosting, Classification and Regression Tree, Feedforward Neural Network, Foramen mentale, Mandible, panoramic radiograph.
(Halaman ini sengaja dikosongkan)
KATA PENGANTAR
Puja dan puji syukur penulis panjatkan kehadirat Tuhan Yang Maha Esa atas segala berkah-Nya, sehingga penulis dapat menyelesaikan Tugas Akhir dengan judul:
“Boosting Neural network dan Boosting CART pada
Klasifikasi Jenis Kelamin dengan Metode Pengukuran Linier
pada Foramen Mental menggunakan Panoramic Radiograph
”Penulis menyadari bahwa dalam penyusunan Tugas Akhir ini tidak terlepas dari bantuan maupun dukungan dari berbagai pihak yang telah terlibat baik secara langsung maupun tidak. Oleh karena itu, pada kesempatan ini penulis menyampaikan rasa terima kasih kepada:
1. Bapak Dr. Suhartono selaku Kepala Departemen Statistika
ITS dan Bapak Dr. Sutikno, S.Si, M.Si selaku Ketua Program Studi Sarjana Statistika ITS.
2. Ibu Dr. Kartika Fithriasari, M.Si selaku dosen pembimbing Tugas Akhir yang telah sabar dalam memberikan banyak masukan serta pengarahan yang sangat bermanfaat.
3. Bapak Dr. Bambang Widjanarko Otok, S.Si, M.Si dan Ibu Dr.
Irhamah, S.Si, M.Si selaku dosen penguji yang telah memberikan saran, kritik, dan masukan untuk kesempurnaan Tugas Akhir ini.
4. Ayah dan Ibu tersayang serta Kakak dan Adik yang telah memberikan motivasi, bimbingan, dan doa kepada penulis sehingga bisa menyelesaikan Tugas Akhir ini. Penulis menyadari Tugas Akhir ini masih belum sempurna, sehingga kritik dan saran yang membangun sangat diharapkan guna perbaikan di masa yang akan datang sehingga hasil dari Tugas Akhir ini memberikan manfaat bagi pembaca dan semua pihak.
Surabaya, Juli 2017
(Halaman ini sengaja dikosongkan)
DAFTAR ISI
Halaman
DAFTAR GAMBAR
Halaman
Gambar 2.7 (a) Tulang mandibula tampak depan, (b)
Gambar 4.1 Perbedaan sebaran data antara jenis kelamin
Gambar 4.2 Sebaran data antar kategori jenis kelamin laki-
(Halaman ini sengaja dikosongkan)
DAFTAR TABEL
Tabel 4.2 Performa metode FFNN pada setiap neuron pada
Tabel 4.3 Confoussion Matrix Boosting FFNN untuk Data
Tabel 4.5 Variabel terpenting dari pohon klasifikasi
Tabel 4.6 Urutan Pembentukan Pohon Klasifikasi (TreeTabel 2.9 Perhitungan Goodness of Split untuk Threshold
Halaman
Tabel 2.5 Perhitungan Goodness of Split untuk Threshold
Tabel 2.6 Perhitungan Goodness of Split untuk Threshold
Tabel 4.8 Karakteristik Jenis Kelamin Berdasarkan Simpul
Tabel 4.12 Confoussion Matrix Boosting CART untuk Data
Tabel 4.14 Rangkuman performa dari metode FFNN,
DAFTAR LAMPIRAN
Halaman
(Halaman ini sengaja dikosongkan)
BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu bagian ilmu dari Artificial Intellegence (AI)
adalah Machine Learning, dimana pengertian Machine Learning adalah suatu disiplin ilmu yang berkonsentrasi dengan desain dan pengembangan algoritma yang didasarkan pada data input atau informasi yang didapatkan (Zhang, 2010). Proses learning akan menghasilkan suatu pola atau pattern yang dapat digunakan sebagai solusi dalam menghadapi permasalahan klasifikasi dan prediksi.
Klasifikasi merupakan salah metode dalam statistika yang digunakan untuk memprediksi kelas dari sekumpulan data input. Metode Machine Learning yang biasa digunakan dalam klasifikasi adalah Decision Tree, Support Vector Machine (SVM), Neural
network, dan Naïve Bayes. Metode klasifikasi tersebut memiliki
kelebihan masing-masing sehingga penggunaan metode klasifikasi dapat disesuaikan dengan karakteristik data. Saat ini metode klasifikasi telah banyak diterapkan dalam berbagai aspek kehi- dupan untuk menyelesaikan suatu permasalahan, misalnya yaitu, dalam bidang kesehatan klasifikasi telah membantu dokter untuk mendiagnosa penyakit, dalam bidang keilmuan klasifikasi di gunakan untuk membantu peneliti dalam mengambil keputusan, dalam bidang multimedia klasifikasi digunakan untuk face
detection, speech recognition, dan masih banyak lagi penerapan
metode klasifikasi yang lainnya.Dari beberapa manfaat klasifikasi yang telah dijelaskan diatas maka dalam penelitian ini metode klasifikasi akan digunakan untuk menyelesaikan permasalahan pada bidang kesehatan, yaitu kedokteran gigi forensik. Kasus yang di gunakan adalah klasifikasi jenis kelamin dengan metode pengukuran linier berdasarkan foramen mental menggunakan panoramic radio-
graph. Klasifikasi jenis kelamin berdasarkan foramen mental dapat
digunakan untuk mengidentifikasi jenis kelamin ketika terjadi bencana massal yang menimbulkan banyak korban jiwa, baik akibat bencana alam (Natural Disaster) maupun bencana yang disebabkan oleh manusia (Man Made Disaster).
Saat ini telah terjadi berbagai kejadian bencana yang menimbulkan banyak korban jiwa, terutama sejak kejadian Bom Bali I, kejadian tersebut membuat kegiatan identifikasi korban bencana massal (Disaster Victim Identification) menjadi kegiatan yang penting dan hampir selalu dilakukan ketika terjadi bencana yang menimbulkan korban jiwa dalam jumlah yang banyak. DVI adalah suatu definisi yang diberikan sebagai sebuah prosedur untuk mengidentifikasi korban mati akibat bencana massal secara ilmiah yang dapat dipertanggungjawabkan dan mengacu pada standar baku Interpol (Saparwoko, 2006). Tujuan utama dari pemeriksaan identifikasi pada kasus musibah bencana massal adalah agar dapat mengenali korban, misalnya golongan darah, DNA, jenis kelamin, dan indentitas korban. Kejadian bencana massal tersebut akan menghasilkan keadaan jenazah yang mungkin dapat intak, separuh intak, membusuk, terpisah berfragmen-fragmen, terbakar menjadi abu, separuh terbakar, terkubur, ataupun kombinasi dari ber- macam-macam keadaan (Blau, 2006).
Pada jenazah yang tidak dapat di identifikasi secara visual yakni jenazah yang mengalami pembusukan lanjut, pemeriksaan identifikasi primer berdasarkan sidik jari akan sulit untuk dilakukan, sehingga dapat digantikan dengan pemeriksaan meng- gunakan tulang tengkorak karena tulang tengkorak bersifat lebih tahan lama terhadap proses pembusukan. Fakta pengalaman di lapangan menunjukkan bahwa identifikasi korban meninggal massal menggunakan tulang tengkorak memiliki kontribusi yang tinggi dalam menentukan identitas seseorang. Pada kasus Bom Bali I, korban yang teridentifikasi berdasarkan gigi geligi mencapai 56% dan pada kecelakaan lalu lintas bis terbakar di Situbondo mencapai 60% (Prawestiningtyas & Algozi, 2009).
Radiograph merupakan pemeriksaan penunjang yang sering
dilakukan untuk membantu menegakkan suatu diagnosa. Radio-
graph pada kedokteran gigi dibagi menjadi dua yaitu intra oral dan ekstra oral. Radiograph ekstra oral yang sering digunakan pada kedokteran gigi salah satunya adalah panoramic radiograph (White & Pharoah, 2009). Manfaat dari panoramic radiograph adalah untuk melihat adanya kelainan dan penyakit pada rongga mulut, serta untuk melihat dan mendeteksi manifestasi penyakit sistemik pada rongga mulut.
Foramen mental merupakan salah satu karakteristik mandi- bula yang dapat digunakan untuk mengestimasi usia dan menentu- kan jenis kelamin. Saat ini identifikasi dan penentuan jenis kelamin berdasarkan kerangka manusia telah menjadi salah satu tugas yang paling menantang bagi kedokteran gigi forensik. Perkembangan foramen mental dipengaruhi oleh berbagai faktor, yaitu usia, jenis kelamin, dan ras, oleh karena itu foramen mental merupakan salah satu karakteristik mandibula yang dapat di gunakan untuk estimasi usia dan penentuan jenis kelamin (Gupta & Soni, 2012).
Penentuan jenis kelamin pada foramen mental menggunakan
panoramic radiograph dapat dilakukan dengan berbagai cara,
salah satunya dengan cara pengukuran linear. Pengukuran linear pada foramen mental merupakan metode pengukuran dengan melihat besar jarak vertikal antara superior border alveolar crest hingga inferior border mandibula, jarak vertikal antara superior
border alveolar crest dengan superior border foramen mental, dan
jarak vertikal antara inferior border foramen mental dengan
inferior border mandibula. Metode pengukuran linear memiliki
beberapa kelebihan, salah satunya adalah metode ini lebih mudah diaplikasikan dalam interpretasi radiograph dalam meng- identifikasi jenis kelamin (Singal & Sharma, 2016).
Penelitian yang telah dilakukan oleh Chandra, Singh, Badni, Jaiswal, & Agnihotri (2013) dan Malik et. al (2016) menunjukkan bahwa jenis kelamin dapat ditentukan oleh foramen mental. Pada tahun 2016 Singal dan Sharma melakukan penelitian mengenai metode pengukuran linier dan didapatkan kesimpulan bahwa ter- dapat perbedaan yang signifikan dalam mengidentifikasi jenis kelamin dengan metode pengukuran linear. Penelitian lain yang berhubungan dengan pengukuran linear dilakukan oleh Rashid dan Ali (2011) di Iraq pada 150 wanita dan 150 pria yang dibagi menjadi tiga kelompok rentang usia antara 20-29 tahun, 30-39 tahun dan 40-49 tahun, didapatkan jarak vertikal superior border foramen mental terhadap alveolar crest pada pria sebesar 17,4 mm dan pada wanita didapatkan jarak yang lebih kecil yaitu 16,35 mm. Sedangkan jarak vertikal inferior border foramen mental ke
inferior border mandibula pada pria 10,6 mm dan 9,24 mm pada
wanita.Berdasarkan penelitian yang telah dilakukan oleh Ghouse et al (2016) didapat kesimpulan bahwa terdapat perbedaan signifikan antara jenis kelamin pria dan wanita pada setiap pengukuran jarak yang digunakan, sehingga pengukuran tersebut merupakan para- meter yang sensitif dalam memprediksi jenis kelamin. Penelitian lain pada populasi India yang dilakukan oleh Thakur et. al (2014) menunjukkan bahwa terdapat perbedaan yang signifikan dalam membandingkan jarak mandibula pada laki-laki dan perempuan, hasil penelitian serupa juga dilakukan oleh Naroor et al. pada tahun 2015.
Penelitian mengenai tingkat akurasi atau ketepatan dalam klasifikasi telah dilakukan oleh Setiawan et. al (2016) pada kasus Klasifikasi Diabetes Militus Tipe II yang menghasilkan akurasi sebesar 80.65% dengan menggunakan metode analisis diskriminan dan Hu et. al (2016) pada penentuan jenis kelamin menggunakan karakteristik non metrik mandibula di populasi korea yang menghasilkan akurasi sebesar 85.71% dengan menggunakan uji
Chi Square. Penelitian mengenai boosting telah dilakukan oleh
Fernanda dan Otok pada tahun 2013 yang menghasilkan tingkat akurasi sebesar 98.75% dengan menggunakan metode boosting CART.
Metode Machine Learning yang digunakan dalam penelitian ini adalah Feedforward Neural network (FFNN) dan Classification
and Regression Tree (CART). Kedua metode ini digunakan karena
memiliki beberapa kelebihan dibandingkan dengan metode
Machine Learning yang lainnya. Kelebihan dari metode FFNN
yaitu dapat digunakan untuk kasus dengan hubungan antara data
input dan output yang kompleks (Singh & Chaucan, 2009),
sedangkan kelebihan dari metode CART yaitu hasil yang di dapatkan sangat mudah dalam interpretasi karena hasilnya di tampilkan dalam suatu diagram seperti pohon (Rokach & Maimon, 2015).
Tingkat akurasi dari suatu metode klasifikasi dapat di tingkatkan dengan tujuan memberikan hasil klasifikasi yang lebih baik. Salah satu cara yang dapat digunakan untuk meningkatkan tingkat akurasi dengan menggunakan metode ensemble yaitu
boosting. Adaboost yang merupakan variasi dari boosting adalah
salah satu metode ensemble yang digunakan untuk meningkatkan akurasi dari suatu me tode klasifikasi. Pada tahun 2000 Breiman, et. al menerapkan adaboost pada multilayer neural network dan didapatkan kesimpulan bahwa adaboost mampu meningkatkan akurasi dari metode multilayer neural network. Pada tahun Tran et. al (2009) juga menerapkan metode adaboost pada probabilitstic
neural network untuk Novel Intrusion Detection dan hasilnya juga
memperlihatkan bahwa adaboost mampu mening-katkan tingkat akurasi dari probabilistic neural network.
Berdasarkan beberapa penjelasan tersebut, maka pada penelitian ini akan digunakan metode Feedforward Neural network (FFNN) dan Classification and Regression Tree (CART) dalam mengklasifikasikan jenis kelamin pada foramen mental sebagai upaya untuk me- ningkatkan akurasi dengan proses boosting. Diharapkan penelitian ini dapat membantu instansi kesehatan khususnya bagi kedokteran gigi forensik untuk meningkatkan akurasi atau ketepatan dalam klasifikasi jenis kelamin pada foramen mental dengan metode pengukuran linier menggunakan
panoramic radiograph.
1.2. Rumusan Masalah
Identifikasi dan penentuan lokasi foramen mental sangat penting dalam kedokteran gigi forensik. Pengetahuan foramen mental bermanfaat dalam hal pemberian anestesi lokal untuk tujuan pembedahan dan dalam perawatan endodotik. Perkem- bangan foramen mental dipengaruhi oleh berbagai faktor, yaitu usia, jenis kelamin, dan ras, oleh karena itu foramen mental merupakan salah satu karakteristik mandibula yang dapat di gunakan untuk estimasi usia dan penentuan jenis kelamin.
Saat ini tingkat akurasi atau ketepatan dalam klasifikasi jenis kelamin pada foramen mental menggunakan panoramic
radiograph pada penelitian sebelumnya menghasilkan tingkat
akurasi yang masih cukup rendah. Disisi lain, metode klasifikasi yang digunakan dalam penelitian sebelumnya adalah analisis diskriminan, dimana banyak penelitian yang telah membuktikan bahwa neural network menghasilkan ketepatan klasifikasi yang cenderung lebih tinggi dibandingkan dengan analisis diskriminan.
Oleh karena itu, permasalahan yang akan dibahas dalam penelitian ini adalah bagaimana model terbaik untuk metode FFNN dan metode CART dalam klasifikasi jenis kelamin pada foramen mental dan bagaimana perbandingan performa antara metode FFNN dan metode CART dalam klasifikasi jenis kelamin pada foramen mental.
1.3. Tujuan Penelitian
Berdasarkan rumusan masalah di atas, tujuan yang ingin dicapai dalam penelitian ini adalah mendapatkan model terbaik untuk metode FFNN dan metode CART dalam klasifikasi jenis kelamin pada foramen mental dan mendapatkan metode yang terbaik berdasarkan hasil perbandingan performa antara metode FFNN dan metode CART dalam klasifikasi jenis kelamin pada foramen mental.
1.4. Manfaat
Manfaat yang diharapkan dari penelitian ini adalah dapat memberikan gambaran kepada orang awam mengenai pentingnya identifikasi lokasi foramen mental dan peran foramen mental dalam klasifikasi jenis kelamin. Manfaat lain yang diharapkan dari penelitian ini adalah dapat memberikan pengetahuan tambahan mengenai performa metode Feedforward Neural network (FFNN) dan Classification and Regression Tree (CART) dalam klasifikasi, serta hasil dari penerapan metode adaboost dalam upaya untuk meningkatkan akurasi dalam klasifikasi.
1.5. Batasan Masalah
Beberapa batasan masalah yang digunakan dalam penelitian ini adalah sebagai berikut.
1. Metode Machine Learning yang digunakan hanya
Feedforward Neural network (FFNN) dan Classification and Regression Tree (CART).
2. Kriteria umur yang digunakan dalam penelitian sebelumnya yaitu orang yang berusia lebih dari 21 tahun.
3. Klasifikasi yang dilakukan hanya fokus pada klasifikasi jenis kelamin saja.
(Halaman ini sengaja dikosongkan)
BAB II TINJAUAN PUSTAKA 2.1. Machine Learning Machine Learning merupakan suatu proses yang dilakukan
untuk membangun suatu sistem komputer yang secara otomatis dapat meningkatkan suatu model berdasarkan pengalaman atau informasi sebelumnya, dan menerapkan pada suatu proses learning (Zhang, 2010). Tujuan utama dari proses learning ini adalah untuk menciptakan suatu algoritma yang dapat mengenal pola atau bentuk yang kompleks dan membuat suatu keputusan yang cerdas yang didasarkan pada data atau informasi yang ada. Tiga area yang menjadi area penelitian utama pada machine learning ialah Task-
oriented Studies, Cognitive Simulation, dan Theoretical Analysis.
Machine learning menggunakan algoritma yang mampu menyerupai sistem klasifikasi yang ada pada dunia tumbuhan.
Metode-metode yang digunakan dalam Machine Learning adalah sebagai berikut (Zhang, 2010).
1. Supervised learning: membangkitkan sebuah fungsi yang dapat memetakan data input sesuai keinginan dari data output.
2. Unsupervised learning: model dibuat dan diatur berdasarkan data input.
3. Semi-supervised learning: gabungan dari supervised dan
unsupervised learning yang digunakan untuk membangkitan fungsi yang tepat.
4. Reinforcement learning: pembelajaran tentang bagaimana perlakuan diberikan, setiap perlakuan mempunyai pengaruh dan terdapat feedback untuk menuntun algoritma dari pembelajaran tersebut.
5. Transduction: percobaan prediksi data output baru di dasarkan pada pembelajaran input-output dan tes input.
6. Learning to learn: pembelajaran guna untuk bisa induktif berdasarkan pengalaman sebelumnya.
Diantara metode yang telah dijelaskan, metode yang paling sering digunakan dalam masalah klasifikasi atau masalah pengenalan pola data adalah metode supervised learning. Dengan metode supervised learning dapat dibuat suatu prediksi nilai fungsi untuk semua nilai input yang memungkinkan setelah mengalami sejumlah data latihan. Untuk mencapai tujuan ini, mesin harus dapat melakukan proses generalisasi dari data latihan yang diberikan, untuk memprediksikan nilai output dari input yang belum pernah diberikan sebelumnya dengan cara yang masuk akal. Beberapa contoh algoritma supervised learning adalah neural network (Fernanda & Otok, 2012).
2.2. Neural Network (NN)
Neural network (NN) atau jaringan syaraf tiruan adalah
sistem pemroses informasi yang memiliki karakteristik mirip dengan jaringan syaraf biologi (Siang, 2009). NN dibentuk sebagai generalisasi model matematika dari jaringan syaraf biologi, dengan asumsi sebagai berikut (Fausett, 1994).
a. Pemrosesan informasi terjadi pada elemen sederhana (neuron).
b. Sinyal dikirimkan diantara neuron-neuron melalui penghubung-penghubung.
c. Penghubung antar neuron memiliki bobot yang akan memperkuat atau memperlemah sinyal.
d. Untuk menentukan output, setiap neuron menggunakan fungsi aktivasi yang dikenakan pada jumlahan input yang diterima. Sebelum melakukan pemodelan dengan Neural network, diperlukan data preprocessing yang bertujuan untuk mengkonversi data input ke dalam rentang tertentu berdasarkan nilai asli dari data input. Tahap preprocessing berperan penting dalam NN yaitu untuk menghindari adanya masalah dalam proses komputasi, untuk memenuhi persyaratan algoritma yang digunakan, serta untuk memberikan fasilitas pembelajaran yang lebih baik sehingga diharapkan mempercepat proses pembelajaran network.
Neural network ditentukan oleh tiga hal yaitu pola hubungan
antar neuron (arsitektur jaringan), metode untuk menentukan bobot penghubung (algortima) dan fungsi aktivasi yang digunakan. Arsitektur NN terdiri dari tiga jenis lapisan (layer), yaitu lapisan
input (input layer), lapisan tersembunyi (hidden layer) serta lapisan
output (output layer). Lapisan input berfungsi sebagai tempat
untuk input data, dimana input data tersebut diproses lebih lanjut pada lapisan tersembunyi, selanjutnya lapisan output menampilkan hasil dari proses tersebut. Terdapat beberapa arsitektur jaringan dalam neural network antara lain (Haykin, 1999).
1. Jaringan Lapisan Tunggal (Single Layer Networks) Jaringan ini hanya menerima input kemudian secara lang- sung akan mengolahnya menjadi output tanpa harus melalui lapisan lain (lapisan tersembunyi). Ciri-ciri lapisan ini adalah hanya terdiri dari lapisan input dan lapisan output.
2. Jaringan Banyak Lapisan (Multilayer Networks) Jaringan ini tersusun atas satu lapisan input, satu atau lebih lapisan tersembunyi dan satu lapisan output. Dalam setiap lapisan terdapat satu atau lebih unit neuron yang menerima input dari neuron-neuron pada lapisan sebelumnya kemudian meneruskan hasil pemrosesan ke neuron-neuron pada lapisan sesudahnya.
3. Jaringan Recurrent (Recurrent Networks) Pada jaringan ini neuron-neuron dapat saling dihubungkan. Sebagai contoh, suatu Competitive Layer terdiri dari suatu lapisan dimana setiap neuron mengirimkan kembali sinyal output yang dihasilkan sebagai input pada neuron lainnya.
2.3. Feedforward Neural network (FFNN)
Feedforward Neural network (FFNN) atau Multilayer
Perceptron merupakan neural network yang tersusun dari beberapa
layer. Struktur FFNN terdiri dari satu input layer, satu atau lebih
hidden layer, dan satu output layer. FFNN sukses dalam
menyelesaikan beberapa permasalahan yang sulit dipecahkan. Algoritma yang sering digunakan dalam FFNN untuk me- nyelesaikan masalah adalah backpropagation (Fernanda & Otok, 2012).
Fungsi aktivasi merupakan fungsi matematis yang berguna untuk membatasi dan menentukan jangkauan output suatu neuron. Fungsi aktivasi untuk jaringan syaraf tiruan backpropagation harus memiliki beberapa karakteristik penting, yaitu kontinyu, dapat dideferensialkan, dan monoton tanpa penurun. Pada umumnya fungsi aktivasi biasa digunakan untuk mencari nilai asimtot maksimum dan minimum. Dalam penelitian ini fungsi aktivasi yang digunakan adalah fungsi sigmoid. Fungsi output dari fungsi sigmoid memiliki nilai pada interval 0 sampai 1, dengan rumus sebagai berikut.
1 y f x (2.1) x
1 e Gambar 2.1
Jaringan Syaraf Tiruan Backpropagation dengan 1 Lapis
Tersembunyi
Notasi-notasi yang digunakan pada algoritma Backpropa- gation adalah sebagai berikut (Fausett, 1994).
X : vektor input untuk proses pelatihan (training).
t : vektor target output. t=(t
_
j j z f z in (2.5)
_
k k y f y in(2.4) Sinyal output dari Y k dinotasikan dengan
_ p ok j jk j y ink w z w
rumus.
w ok : bias pada output unit ke k Y k : ouput unit ke k. Input ke Y k dinotasikan y_in k , dengan
(2.3)
(2.2) Signal output dari Z j dinotasikan dengan.
1
,…,t
k
_ n
j oj i ij
i z in v x v
X i : unit input i. Untuk sebuah unit masukan, signal input dan
signal output adalah sama dengan X i . v oj : bias pada unit tersembunyi (hidden unit) ke j.Z j : unit tersembunyi pada j. Unit input ke Z j dinotasikan dengan
z_in j , dengan rumus.berkaitan dengan penyebaran kembali informasi eror dari layer ouput ke unit tersembunyi Z j . α : learning rate.
j : bobot koreksi eror yang telah disesuaikan untuk v ij yang
berkaitan dengan eror pada unit keluaran Y k . Simbol ini juga merupakan informasi tentang eror pada unit Y k yang di sebarkan kembali pada unit tersembunyi yang berhubungan dengan unit keluaran Y k . δ
jk yang
δ : bobot koreksi eror yang telah disesuaikan untuk w
,…,t m )
Pada jaringan backpropagation terdapat beberapa alternatif untuk melakukan pembaharuan bobot, diantaranya adalah pembaharuan bobot standard, pembaharuan bobot dengan momentum, dan pembaharuan bobot dengan deltabar-delta. Pada pembaharuan bobot dengan momentum, perubahan bobot berada pada kombinasi gradien sekarang dan gradien sebelumnya. Dalam hal ini, digunakan laju pembelajaran yang kecil untuk menghindari gangguan pembelajaran ketika sepasang pola pembelajarannya yang tidak biasa diberikan.
Algoritma pelatihan backpropagation terdiri dari dua proses, yaitu feedforward dan backpropagation dari erornya. Algoritma yang digunakan untuk pelatihan backpropagation adalah sebagai berikut.
Inisialisasi bobot (ambil bobot dengan nilai random Langkah 0. yang cukup kecil).
Fase I: Propagasi maju (feedforward)
Masing-masing input unit (X i
Langkah 1. ,i=1,…,n) mengirim
sinyal input x i dan menyebarkannya ke unit-unit pada layer berikutnya (unit-unit pada hidden layer). Masing-masing hidden unit (Z j
Langkah 2. ,j=1,…,p) men-
jumlahkan semua sinyal input yang masing-masing telah dikalikan dengan faktor penimbang atau bobot koneksinya serta ditambah dengan bias: n
z _in v x v (2.6) j j i ij i 1 Menghitung sinyal output sesuai dengan fungsi
aktivasi yang digunakan z j =f(z_in j ), kemudian mengirim sinyal ini ke semua unit pada layer berikutnya (output unit). Masing-masing unit output (Y k
Langkah 3. ,k=1,…,m) men-
jumlahkan semua sinyal input yang masing-masing telah dikalikan dengan faktor penimbang atau bobot koneksinya serta ditambah dengan bias: p
y in _ w z w k k j jk (2.7) j 1 Menghitung sinyal output sesuai dengan fungsi aktivasi yang digunakan y k =f(y_in k ).
Fase II: Backpropagation dari Error
Menghitung informasi error pada masing-masing Langkah 4. output unit (Y k ,k=1,…,m).
( t y f y in ) '( _ ) (2.8) k k k kMenghitung perbaikan bobot (yang kemudian akan digunakan untuk memperbaiki w jk ), dengan laju percepatan α.
w z jk k j (2.9) Menghitung nilai korelasi biasnya.
w 0 k k (2.10) Dan mengirim k ke semua unit layer sebelumnya.
Langkah 5. Setiap unit-unit pada hidden layer (Z j ,j=1,…,p)
menjumlahkan k masukannya (dari unit-unit pada layer diatasnya). m
_ in w (2.11) j k jk
k 1 Kalikan dengan turunan dari fungsi aktivasinya
untuk menghitung errornya:
_ in f z in '( _ ) j j j (2.12)
Menghitung koreksi bobotnya (digunakan untuk memperbaiki v ij )
v x ij i i (2.13)
Menghitung koreksi biasnya (untuk memperbaiki
v oj ) v (2.14) 0 j j
Fase III: Memperbaiki bobot dan bias: Langkah 6. Setiap output unit (Y k
,k=1,…,m) memperbaiki bias
dan bobotnya (
j=0,…,p): w new ( ) w old ( ) w jk jk jk (2.15)
Setiap hidden unit (Z j
,j=1,…,p) memperbaiki bias
dan bobotnya (
i=0,…,n)
v new ( ) v old ( ) v ij ij ij (2.16) Langkah 7. Uji kondisi berhenti.- Ulangi langkah 2 – 7 sampai kondisi akhir iterasi dipenuhi atau stopping error dicapai.
- Untuk masing-masing pasangan data pelatihan (training data) lakukan langkah 2 – 6.
Pemilihan bobot akan akan sangat mempengaruhi jaringan FFNN dalam mencapai global minimum (atau lokal saja) terhadap nilai error, dan cepat tidaknya proses pelatihan menuju kondisi konvergen. Apabila nilai bobot awal terlalu besar, maka input ke lapisan tersembunyi atau lapisan output akan jatuh pada daerah dimana turunan fungsi sigmoidnya akan sangat kecil. Sedangkan jika nilai bobot awal terlalu kecil, maka input ke setiap lapisan tersembunyi atau lapisan output akan sangat kecil. Pemilihan bobot awal dapat dilakukan dengan inisialisasi secara random dengan nilai antara -0.5 sampati 0.5 (atau -1 sampai 1, atau interval lainnya).
2.4. Classification and Regression Tree (CART)
CART merupakan salah satu metode machine learning dimana metode eksplorasi data dilakukan dengan teknik keputusan. CART termasuk metode statistika non parametrik yang dikembangkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen, Charles J. Stone (1984) untuk kasus klasifikasi, baik untuk variabel respon yang bertipe kategorik maupun kontinyu. Jika variabel respon yang digunakan bertipe kontinyu, maka CART akan menghasilkan pohon regresi, sedangkan jika variabel respon yang digunakan bertipe kategorik, maka CART akan menghasilkan pohon klasifikasi. Pohon klasifikasi adalah hasil dari suatu rangkaian perintah pertanyaan dan tipe pertanyaan yang diajukan pada setiap langkah dalam urutan tergantung pada jawaban dari pertanyaan sebelumnya. Rangkaian urutan perintah pertanyaan berakhir pada prediksi dari suatu kelas (Izenman, 2008).
Keunikan yang dimiliki pohon klasifikasi adalah terdapat suatu root node yang terdiri dari seluruh kumpulan learning. Dalam klasifikasi pohon dikenal istilah node, dimana node merupakan bagian (subset) dari suatu variabel. Node dibedakan menjadi dua macam, yaitu terminal node dan non terminal node.
Non terminal (parent) node adalah suatu node yang dapat membagi
suatu node ke dalam dua node yang lain seperti pembagian dengan menggunakan kondisi Boolean dengan dikategorikan ke dalam
satisfied
(“yes”) atau not satisfied (“no”). Sedangkan terminal node adalah suatu node yang tidak membagi node ke node yang lain dan ditugaskan sebagai kelas label.
Berikut merupakan beberapa kelebihan dari metode CART menurut Rokach dan Maimon (2008).
1. Mampu menjelaskan dirinya sendiri (self explanatory) dan mudah untuk diikuti ketika proses penyusunan decision tree.
2. Cukup bagus untuk merepresentasikan klasifikasi bernilai kategorik.
3. Dapat mengatasi data-data yang memiliki error.
4. Dapat digunakan untuk data yang memiliki nilai missing.
Pembentukan pohon klasifikasi diawali dengan menentukan variabel dan nilai dari variabel tersebut untuk dijadikan pemilah tiap simpul. Sedangkan proses akhir pembentukan pohon klasifikasi adalah pemangkasan pohon (prunning). Berikut merupakan hal-hal yang harus diperhatikan dalam pembentukan pohon klasifikasi CART (Khasanah, 2015).
a. Pemilihan Pemilah
Dalam tahap pemilihan pemilah bertujuan untuk mengu- rangi tingkat keheterogenan pada simpul induk dan mendapatkan simpul anak dengan tingkat homogenitas yang tinggi. Data yang digunakan adalah data learning L yang kemudian dipilah berdasar- kan aturan pemilahan menggunakan kriteria goodness of split. Ukuran heterogenitas dapat dinilai dengan indeks gini, persamaan fungsi indeks gini dituliskan sebagai berikut.
i t ( ) p j t p i t i ( | ) ( | ), j (2.17) i j , 1dimana:
i(t) = impurity atau fungsi keheterogenan simpul t p(j|t) = proporsi kelas j pada simpul t p(i|t) = proporsi kelas i pada simpul t
Ukuran heterogenitas yang paling sering digunakan adalah indeks Gini. Ukuran heterogenitas ini memiliki keunggulan lebih sederhana sehingga cepat simetri, serta mampu diterapkan untuk permasalahan dengan kelas yang banyak (Breiman, Friedman, Olshen, & Stone, 1984).
Kemudian pemilihan pemilah terbaik dilakukan berdasarkan kriteria goodness of split yang merupakan suatu nilai yang dijadikan patokan pemilahan oleh suatu pemilah s pada suatu simpul t. Goodness of split menunjukkan ukuran penurunan keheterogenan suatu kelas dengan persamaan sebagai berikut.
( , ) s t i s t ( , ) i t ( ) p i t ( ) p i t ( )
(2.18)
L L R R
dimana:
ϕ(s,t) = nilai goodness of split i(t) = fungsi heterogenitas pada simpul t P L = proporsi pengamatan simpul kiri P R = proporsi pengamatan simpul kanan i(t L ) = fungsi heterogenitas pada simpul anak kiri i(t R ) = fungsi heterogenitas pada simpul anak kanan.
Pemilah yang menghasilkan
ϕ(s,t) lebih tinggi merupakan pemilah terbaik karena dapat mereduksi heterogenitas lebih tinggi.
Pengembangan pohon dilakukan dengan pencarian pemilah yang mungkin pada simpul t
1 yang kemudian akan dipilah menjadi t 2 dan t 3 dan seterusnya.
b. Penentuan Terminal Node
Tahap yang kedua yaitu penentuan terminal node dimana simpul t akan diputuskan untuk dipilah lagi atau dapat dijadikan
terminal node jika tidak terdapat penurunan heterogenitas yang
berarti. Berikut ini merupakan kriteria untuk memutuskan suatu simpul tidak akan dipilah lagi atau menjadi simpul terminal.
1. Hanya terdapat satu pengamatan (n=1) pada setiap simpul anak atau adanya batasan minimum n dan jika pada simpul terdapat pengamatan berjumlah kurang dari 5 (n i <5).
2. Jika sudah mencapai batasan jumlah level yang telah ditentukan atau tingkat kedalaman (depth) dalam pohon maksimal.