Proses Transformasi Iris Plants Dataset Oleh

BAB 4 IMPLEMENTASI DAN PENGUJIAN Pada bab ini akan dibahas hasil proses komputasi Support Vector Backpropagation yang dilakukan menggunakan program MATLAB R2010a. MATLAB R2010a merupakan software yang cocok dipakai sebagai alat komputasi yang melibatkan penggunaan matriks dan vector. Fungsi-fungsi dalam paket perangkat lunak toolbox Matlab R2010a dibuat untuk memudahkan perhitungan tersebut. Banyak model jaringan syaraf tiruan dan machine learning menggunakan manipulasi matriks atau vector dalam iterasinya. Oleh karena itu MATLAB R2010a merupakan perangkat lunak yang cocok dipakai dalam penelitian ini.

4.1. Proses Transformasi Iris Plants Dataset Oleh

Support Vector Backpropagation Proses transformasi Iris Plants Dataset yang memiliki 4 attributes menjadi sebuah dataset berdimensi rendah 2 dimensi mengharuskan proses transformasi memperhatikan persebaran data dalam dimensi ruang untuk menghindari overfitting penyebeb kegagalan proses cluster walaupun proses ini juga bergantung dari banyaknya sample pelatihan yang ditransformasi-kan namun diharapkan proses transformasi tetap dapat mempertahankan tingkat akurasi yang optimal, seperti proses transformasi sebuah sample pelatihan Iris Plants Dataset yang dilakukan oleh Support Vector Backpropagation berikut ini: Universitas Sumatera Utara Tabel 4.1 Training Sample Iris Plants Dataset Sebelum Transformasi Proses transformasi yang akan dilakukan pada seluruh sample pelatihan dalam Iris Plants Dataset seperti yang diwakili oleh proses transformasi pada sample tabel 4.1 diawali dengan penentuan bobot awal dengan nilai epsilon_init = 0,002 sesuai dengan persamaan 2.1, sehingga didapat bobot awal jaringan syaraf tiruan sebagai berikut: Setelah didapat bobot awal jaringan syaraf tiruan maka dilakukan proses pembelajaran menggunakan feedforwardpropagation pada hidden layer seperti pada persamaan 2.2, didapat hasil sebagai berikut: Selanjutnya nilai akan dicari nilai fungsi aktivasi-nya menggunkan sigmoid biner seperti pada persamaan 2.3, didapat hasil sebagai berikut: sepal length sepal width petal length petal width Target 5,9 3 5,1 1,8 Iris Virginica Universitas Sumatera Utara Selanjutnya nilai akan melewati proses fordwardpropagation pada output layer seperti pada persamaan 2.2, sehingga didapat hasil sebagai berikut: Untuk kemudian didapatkan nilai fungsi aktivasi menggunakan fungsi sigmoid pada output layer seperti pada persamaan 2.3, sehingga didapat hasil sebagai berikut: Karena a3 Target, maka langkah selanjutnya adalah menghitung nilai error pada output layer seperti pada secara backpropagation persamaan 2.6, sehingga didapat hasil sebagai berikut: Kemudian backpropagation dilanjutkan menuju hidden layer seperti pada persamaan 2.7, sehingga didapat hasil: Kemudian hitung nilai Theta grad sesuai dengan persamaan 2.8 pada Theta 1 dan Theta 2 sehingga didapat nilai Theta grad sebagai berikut: Universitas Sumatera Utara Setelah didapat nilai Theta grad maka akan dilakukan penambahan bobot jaringan syaraf tiruan dengan learning rate lambda = 0,02 seperti pada persamaan 2.8, sehingga didapat penambahan bobot-bobot awal sebagai berikut: Kemudian dilakukan proses update bobot-bobot jaringan syaraf tiruan untuk mengetahui nilai Mean Square Error seperti pada persamaan 2.5, setelah dilakukan proses pelatihan sebanyak epochs = 30 didapat nilai Mean Square Error terkecil=1,3814 pada bobot optimal jaringan syaraf tiruan sebagai berikut: Dengan bobot optimal yang telah didapatakan maka kita dapat mentransformasikan sample pada tabel 4.1 dengan cara forwardpropagation seperti pada persamaan 2.3, sehingga didapat hasil transformasi sample pada tabel 4.1 sebagai berikut: Universitas Sumatera Utara Tabel 4.2 Sample Iris Plants Dataset Pada Tabel 4.1 Setelah Transformasi Feature 1 Feature 2 Target 0,4946 0,5030 Iris Virginica Proses transformasi yang telah dilakukan pada seluruh sample pelatihan dalam Iris Plants Dataset, menghasilkan sebuah dataset baru hasil transformasi seperti pada tabel berikut: Universitas Sumatera Utara Tabel 4.3 Training Sample Iris Plants Dataset a Sebelum Transformasi b Sesudah Transformasi sample Sepal Length Sepal Width Petal Length Petal Width Target 1 5,1 3,5 1,4 0,2 Iris Setosa … … … … … … 6 5,4 3,9 1,7 0,4 Iris Setosa … … … … … … 51 5,2 2,7 3,9 1,4 Iris Virginica … … … … … … 60 6,2 2,2 4,5 1,5 Iri Virginica … … … … … … 120 6,3 3,0 4,8 1,8 Iris Versicolor a sample Feature 1 Feature 2 Target 1 0,4987 0,498 Iris Setosa … … … … 6 0,4986 0,498 Iris Setosa … … … … 51 0,4987 0,498 Iris Virginica … … … … 60 0,4988 0,498 Iris Virginica … … … … 120 0,4988 0,498 Iris Versicolor b Setelah proses transformasi selesai dilakukan pada seluruh sample dalam Iris Plants Dataset, selanjutnya akan melalui proses cluster seperti pada pada persamaan 2.10, sebagai berikut: Universitas Sumatera Utara Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a dalam perhitungan me-minimisasi nilai pada fungsi pada persamaan 2.12 untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki oleh ,. Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan proses cluster : Tabel 4.4 Cluster-isasi Pada Iris Plants Dataset Setelah Transformasi sample 1 6 … 51 60 … 120 1 1 0,98 … 0,03 … 0,01 6 0,98 1 … 0,02 … 0,01 … … … … … … … … 51 0,03 0,02 … 1 0,73 … 0,96 60 … 0,73 1 … 0,87 … … … … … … … … 120 0,01 0,01 … 0,96 0,87 … 1 keterangan: = instance iris setosa = instance iris versicolor atau iris virginica = sample dengan nilai similarity function = 1 Setelah seluruh training sample di-transformasi kedalam low dimensional data, maka akan diuji tingkat akurasi classifier maupun sebelum maupun sesudah dataset di- transformasi, hasilnya dijabarkan dalam tabel 4.5 berikut: Universitas Sumatera Utara Tabel 4.5 Perbandingan Tingkat Ketelitian Classifier Pada Iris Plants Dataset Sebelum Dan Sesudah Transformasi training sample test sample akurasi sebelum transformasi sesudah transformasi 30 10 100 100 60 10 40 50 90 10 100 90 120 10 100 90 Berikut disajikan grafik perbandingan tingkat ketelitian classifier sebelum dan sesudah transformasi pada Iris Plants Dataset: Gambar 4.1 Grafik Perbandingan Tingkat Ketelitian Classifier Iris Plants Dataset Sebelum Dan Sesudah Transformasi Pada gambar 4.2 berikut, disajikan visualisasi proses cluster mulai dari jumlah training sample paling sedikit yaitu 30 training sample sampai 120 training sample: Universitas Sumatera Utara a b c d Gambar 4.2 Grafis Hasil Cluster Pada Iris Plants Dataset Sesudah Transformasi a 30 Sample b 60 Sample c 90 Sample d 120 Sample Terlihat pada hasil percobaan penggunaan Support Vector Backpropagation pada klasifikasi Iris Plants Dataset pada gambar 4.2 menggunakan a diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah ditransformasi hanya memiliki 2 features adalah sebesar 100 sementara pada dataset yang tidak ditransformasi memiliki 4 features diperoleh tingkat ketelitian sebesar 100, dalam hal ini tingkat ketelitian klasifikasi pada dataset yang telah ditransformasi hanya memilki 2 features sama dengan tingkat ketelitian pada dataset yang tidak ditransformasi memilki 9 features . Pada hasil percobaan menggunakan b diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah ditransformasi hanya memiliki 2 features adalah sebesar 50 sementara pada dataset yang tidak ditrasformasi memiliki 4 features diperoleh tingkat ketelitian sebesar 40, dalam hal ini tingkat ketelitian pada dataset yang telah ditransformasi hanya memiliki 2 features 10 lebih tinggi daripada tingkat ketelitian pada dataset yang tidak ditransformasi memiliki 4 features . Pada hasil percobaan c diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah ditransformasi hanya memiliki 2 features adalah sebesar 90 sementara pada dataset yang tidak ditransformasi memiliki 4 features diperoleh tingkat ketelitian sebesar 100, dalam hal ini tingkat ketelitian pada dataset yang telah ditransformasi hanya memiliki 2 features 10 lebih rendah daripada tingkat ketelitian pada dataset Universitas Sumatera Utara yang tidak ditransformasi memiliki 4 features . Pada hasil percobaan d diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah ditransformasi hanya memiliki 2 features sebesar 90 sementara pada dataset yang tidak ditransformasi memiliki 4 features diperoleh tingkat ketelitian sebesar 100, dalam hal ini tingkat ketelitian pada dataset yang telah ditransformasi hanya memiliki 2 features 10 lebih rendah daripada tingkat ketelitian pada dataset yang tidak ditransformasi memiliki 4 features . Secara keseluruhan percobaan ini menghasilkan tingkat ketelitian yang cenderung sama antara cluster-isasi pada dataset yang telah ditransformasi hanya memiliki 2 features maupun pada dataset yang tidak ditransformasi memiliki 4 features . 4.2. Proses Transformasi Wisconsin Diagnostic Breast Cancer Dataset Oleh Support Vector Backpropagation Proses transformasi Wisconsin Diagnostic Breast Cancer Dataset yang memiliki 9 attributes menjadi sebuah dataset berdimensi rendah 2 dimensi mengharuskan proses transformasi memperhatikan persebaran data dalam dimensi ruang untuk menghindari overfitting penyebeb kegagalan proses cluster walaupun proses ini juga bergantung dari banyaknya sample pelatihan yang ditransformasi-kan namun diharapkan proses transformasi tetap dapat mempertahankan tingkat akurasi yang optimal, seperti proses transformasi sebuah sample pelatihan Wisconsin Diagnostic Breast Cancer yang dilakukan oleh Support Vector Backpropagation berikut ini: Tabel 4.6 Training Sample Wisconsin Diagnostic Breast Cancer Dataset Sebelum Transformasi rad text perim area smo comp concav conca sym Target 5 10 10 10 4 10 5 6 3 Benign Proses transformasi yang akan dilakukan pada seluruh sample pelatihan dalam Wisconsin Diagnostic Breast Cancer Dataset seperti yang diwakili oleh proses transformasi pada sample tabel 4.6 diawali dengan penentuan bobot awal dengan nilai Universitas Sumatera Utara epsilon_init = 0,002 sesuai dengan persamaan 2.1, sehingga didapat bobot awal jaringan syaraf tiruan sebagai berikut: Setelah didapat bobot awal jaringan syaraf tiruan maka dilakukan proses pembelajaran menggunakan feedforwardpropagation pada hidden layer seperti pada persamaan2.2, didapat hasil sebagai berikut: Selanjutnya nilai akan dicari nilai fungsi aktivasi-nya menggunkan sigmoid biner seperti pada persamaan 2.3, didapat hasil sebagai berikut: Selanjutnya nilai akan melewati proses fordwardpropagation pada output layer seperti pada persamaan 2.2, sehingga didapat hasil sebagai berikut: Untuk kemudian didapatkan nilai fungsi aktivasi menggunakan fungsi sigmoid pada output layer seperti pada persamaan 2.3, sehingga didapat hasil sebagai berikut: Universitas Sumatera Utara Karena a3 Target, maka langkah selanjutnya adalah menghitung nilai error pada output layer seperti pada secara backpropagation persamaan 2.6, sehingga didapat hasil sebagai berikut: Kemudian backpropagation dilanjutkan menuju hidden layer seperti pada persamaan2.7, sehingga didapat hasil: Kemudian hitung nilai Theta grad sesuai dengan persamaan 2.8 pada Theta 1 dan Theta 2 sehingga didapat nilai Theta grad sebagai berikut: Setelah didapat nilai Theta grad maka akan dilakukan penambahan bobot jaringan syaraf tiruan dengan learning rate lambda = 0,02 seperti pada persamaan 2.8, sehingga didapat penambahan bobot-bobot awal sebagai berikut: Universitas Sumatera Utara Kemudian dilakukan proses update bobot-bobot jaringan syaraf tiruan untuk mengetahui nilai Mean Square Error seperti pada persamaan 2.5, setelah dilakukan proses pelatihan sebanyak epochs = 30 didapat nilai Mean Square Error terkecil=1,3864 pada bobot optimal jaringan syaraf tiruan sebagai berikut: Dengan bobot optimal yang telah didapatakan maka kita dapat mentransformasikan sample pada tabel 4.6 dengan cara forwardpropagation seperti pada persamaan 2.2, sehingga didapat hasil transformasi sample pada tabel 4.1 sebagai berikut: Tabel 4.7 Training Sample Wisconsin Diagnostic Breast Cancer Dataset Pada Tabel 4.6 Setelah Transformasi Feature 1 Feature 2 Target 0,5002 0,5028 Benign Proses transformasi yang telah dilakukan pada seluruh training sample dalam Wisconsin Diagnostic Breast Cancer Dataset, menghasilkan sebuah dataset baru hasil transformasi seperti pada tabel berikut: Universitas Sumatera Utara Tabel 4.8 Training Sample Wisconsin Diagnostic Breast Cancer Dataset a Sebelum Transformasi b Sesudah Transformasi spl rad text pe are smo com con conc sym Target 1 5 1 1 1 2 1 3 1 1 Malignant … … … … … … … … … … … 381 1 1 1 1 2 1 1 1 1 Malignant … … … … … … … … … … … 547 6 10 10 10 4 10 7 10 1 Benign … … … … … … … … … … … 671 3 10 7 8 5 8 7 4 1 Benign a sample Feature 1 Feature 2 Target 1 0,5001 0,5023 Malignant … … … … 381 0,5 0,5023 Malignant … … … … 547 0,5003 0,5028 Benign … … … … 671 0,5002 0,5027 Benign b Setelah proses transformasi selesai dilakukan pada seluruh sample dalam Wisconsin Diagnostic Breast Cancer Dataset, selanjutnya akan melalui proses cluster seperti pada pada persamaan 2.10, sebagai berikut: Universitas Sumatera Utara Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a dalam perhitungan me-minimisasi nilai pada fungsi pada persamaan 2.12 untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki oleh dan . Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan proses cluster pada training sample dan landmark pada Wisconsin Diagnostic Breast Cancer Dataset yang telah ditransformasi: Tabel 4.9 Cluster-isasi Pada Wisconsin Diagnostic Breast Cancer Dataset Setelah Transformasi sample 1 … 381 … 547 … 671 1 1 … 0,85 … … … … … … … … … … 381 0,85 … 1 … … … … … … … … … … 547 … … 1 … 0,7 … … … … … … … … 671 … … 0,7 … 1 keterangan: = instance Malignant = instance Benign = sample dengan similarity function = 1 Setelah seluruh training sample di-transformasi kedalam low dimensional data, maka akan diuji tingkat akurasi classifier maupun sebelum maupun sesudah dataset di- transformasi, hasilnya dijabarkan dalam tabel 4.10 berikut: Universitas Sumatera Utara Tabel 4.10 Perbandingan Tingkat Ketelitian Classifier Pada Wisconsin Diagnostic Breast Cancer Dataset Sebelum Dan Sesudah Transformasi training sample test sample akurasi sebelum transformasi sesudah transformasi 100 10 100 100 200 10 100 300 10 100 400 10 100 500 10 600 10 680 10 Berikut disajikan grafik perbandingan akurasi classifier sebelum dan sesudah transformasi pada Wisconsin Diagnostic Breast Cancer Dataset: Gambar 4.3 Grafik Perbandingan Tingkat Ketelitian Classifier Wisconsin Diagnostic Breast Cancer Dataset Sebelum Dan Sesudah Transformasi Universitas Sumatera Utara Pada gambar 4.4 berikut, disajikan visualisasi proses cluster mulai dari jumlah training sample paling sedikit yaitu 100 training sample sampai 680 training sample: a b c d e f g Gambar 4.4 Grafis Hasil Cluster Pada Wisconsin Diagnostic Breast Cancer Dataset Sesudah Transformasi a 100 Sample b 200 Sample c 300 Sample d 400 Sample e 500 Sample f 600 Sample g 680 Sample Terlihat pada hasil percobaan penggunaan Support Vector Backpropagation pada klasifikasi Wisconsin Diagnostic Breast Cancer Dataset pada gambar 4.4 menggunakan a diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada Universitas Sumatera Utara dataset yang telah ditransformasi hanya memiliki 2 features adalah sebesar 100 sementara pada dataset yang tidak ditransformasi memiliki 9 features diperoleh tingkat ketelitian sebesar 100, dalam hal ini tingkat ketelitian klasifikasi pada dataset yang telah ditransformasi hanya memilki 2 features sama dengan tingkat ketelitian pada dataset yang tidak ditransformasi memilki 9 features . Pada hasil percobaan b diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah ditransformasi hanya memiliki 2 features adalah sebesar 0 sementara pada dataset yang tidak ditransformasi memiliki 9 features diperoleh tingkat ketelitian sebesar 100, dalam hal ini klasifikasi pada dataset yang telah ditransformasi hanya memiliki 2 features dianggap gagal dan lebih rendah 100 daripada klasifikasi pada dataset yang tidak ditransformasi memiliki 9 features . Pada hasil percobaan c diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah ditransformasi hanya memiliki 2 features adalah sebesar 0 sementara pada dataset yang tidak ditransformasi memiliki 9 features diperoleh tingkat ketelitian sebesar 100, dalam hal ini klasifikasi pada dataset yang telah ditransformasi hanya memiliki 2 features dianggap gagal dan lebih rendah 100 dari pada klasifikasi pada dataset yang tidak ditransformasi memiliki 9 features . Pada hasil percobaan e diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah ditransformasi hanya memiliki 2 features adalah sebesar 0 sementara pada dataset yang tidak ditransformasi memiliki 9 features diperoleh tingkat ketelitian sebesar 0, dalam hal ini baik klasifikasi pada dataset yang telah ditransformasi hanya memiliki 2 features maupun pada dataset yang tidak ditransformasi memiliki 9 features sama-sama gagal dalam melakukan cluster-isasi pada Wisconsin Diagnostic Breast Cancer Dataset. Pada hasil percobaan f diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah ditransformasi hanya memiliki 2 features adalah sebesar 0 sementara pada dataset yang tidak ditransformasi memiliki 9 features diperoleh tingkat ketelitian sebesar 0, dalam hal ini baik klasifikasi pada dataset yang telah ditransformasi hanya memiliki 2 features maupun pada dataset yang tidak yang tidak ditransformasi memiliki 9 features sama-sama gagal dalam melakukan cluster-isasi pada Wisconsin Diagnostic Breast Cancer Dataset. Pada hasil percobaan g diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah ditransformasi hanya memilliki 2 features adalah sebesar 0 sementara pada Universitas Sumatera Utara dataset yang tidak ditransformasi memiliki 9 features diperoleh tingkat ketelitian sebesar 0, dalam hal ini baik klasifikasi pada dataset yang telah ditransformasi hanya memiliki 2 features maupun pada dataset yang tidak ditransformasi memiliki 9 features sama-sama gagal dalam melakukan cluster-isasi pada Wisconsin Diagnostic Breast Cancer Dataset. Terlihat pada hasil yang disajikan dalam tabel 4.10 bahwa transformasi yang dilakukan pada Wisconsin Diagnostic Breast Cancer Dataset menghasilkan classifier dengan performa optimal 100 hanya pada classifier dengan 100 training sample namun classifier yang menggunakan dataset hasil transformasi sama sekali gagal dikarenakan kondisi overfitting dalam melakukan classification pada jumlah training sample 200 sampai 680 sample, sementara classifier yang menggunakan dataset yang tidak ditransformasi masih tetap mencapai akurasi 100 pada jumlah training sample dari 100 sampai 400 sample namun tetap mengalami kondisi overfitting pada jumlah training sample 500 sampai 680 sample. Kegagalan Support Vector Backpropagation dalam melakukan classification dikarenakan persebaran sparness training sample dalam feature space menjadi sangat padat mengakibatkan semua training sample yang ada dalam feature space mulai bercampur dan menyatu antar cluster mengakibatkan tidak mungkin ditemukan garis pemisah decision boundary pada masing-masing class.

4.3. Proses Transformasi Cleveland Heart Disease Dataset Oleh Support Vector