Pendahuluan Data Set BreastCancer

BAB 3 METODOLOGI PENELITIAN

3.1. Pendahuluan

Metodologi penelitian merupakan sekumpulan proses terstruktur mengenai peraturan, kegiatan, dan prosedur yang digunakan oleh pelaku suatu disiplin ilmu dalam melaksanakan penelitian. Zarlis, et al., 2013 Pada algoritma klasifikasi data mining, aspek akurasi berdasarkan confusion matrix untuk penilaian precision, recall, F-measure, dan success rate merupakan dasar pengukuran performance algoritma melalui sejumlah metode seperti Use Training Set, k-Fold Cross Validation, dan Percentage Split. Berdasarkan uraian di atas, maka dalam penelitian ini dilakukan analisis perbandingan akurasi algoritma klasifikasi pohon keputusan dan k-Nearest Neighbor k-NN berdasarkan confusion matrix menggunakan metode 10-fold cross validation. Pada penelitian ini, penulis menggunakan metode penelitian berupa studi literatur riset pustaka. Historical research sama dengan riset pustaka. Historical research dilakukan dengan membaca buku-buku dan literatur serta mengikuti pola dari literatur maupun buku yang dibaca. Hasibuan, 2007

3.2. Data yang Digunakan

Data sets untuk pelatihan dan pengujian training sets dan testing sets berasal dari UC Irvine Machine Learning Repository UCI Machine Learning Repository, berupa BreastCancer, Car, Diabetes, Ionosphere, dan Iris. Rincian masing-masing data set dapat dilihat pada Tabel 3.1 berikut. Tabel 3.1. Data Sets Penelitian No. Data Sets Instances Attributes Classes 1 BreastCancer 286 10 2 2 Car 1.728 7 4 3 Diabetes 768 9 2 4 Ionosphere 351 35 2 5 Iris 150 5 3 Universita Sumatera Utara 32

3.2.1. Data Set BreastCancer

Data set BreastCancer memiliki 286 instances, 10 atribut, dan 2 kelas. Distribusi kelas berupa no-recurrence-events 201 instances dan recurrence-events 85 instances. Tabel 3.2. menunjukkan informasi atribut data set BreastCancer. Tabel 3.2. Informasi Atribut Data Set BreastCancer No. Atribut Nilai 1 Age 10-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80-89, 90-99 2 Menopause lt40, ge40, premeno 3 Tumor-size 0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-54, 55-59 4 Inv-nodes 0-2, 3-5, 6-8, 9-11, 12-14, 15-17, 18-20, 21-23, 24-26, 27-29, 30-32, 33-35, 36-39 5 Node-caps yes, no 6 Deg-malig 1, 2, 3 7 Breast left, right 8 Breast-quad left-up, left-low, right-up, right-low, central 9 Irradiat yes, no 10 Class no-recurrence-events, recurrence-events

3.2.2. Data Set Car

Data set Car Evaluation memiliki 1.728 instances, 7 atribut, dan 4 kelas. Distribusi kelas berupa unacc 1.210 instances, acc 384 instances, good 69 instances, dan v- good 65 instances. Tabel 3.3 menunjukkan informasi atribut data set Car. Tabel 3.3. Informasi Atribut Data Set Car No. Atribut Nilai 1 Buying v-high, high, med, low 2 Maint v-high, high, med, low 3 Doors 2, 3, 4, 5-more 4 Persons 2, 4, more 5 Lug_boot small, med, big 6 Safety low, med, high 7 Class unacc, acc, good, v-good Universita Sumatera Utara 33

3.2.3. Data Set Diabetes

Data set Pima Indians Diabetes memiliki 768 instances, 9 atribut, dan 2 kelas. Distribusi kelas berupa tested_negative 500 instances dan tested_positive 268 instances. Tabel 3.4 menunjukkan informasi atribut data set Diabetes. Tabel 3.4. Informasi Atribut Data Set Diabetes No. Atribut Nilai 1 Number of times pregnant 0.0 – 17.0 2 Plasma glucose concentration a 2 hours in an oral glucose tolerance test 0.0 – 199.0 3 Diastolic blood pressure mm Hg 0.0 – 122.0 4 Triceps skin fold thickness mm 0.0 – 99.0 5 2-Hour serum insulin mu Uml 0.0 – 846.0 6 Body mass index weight in kg height in m 2 0.0 – 67.1 7 Diabetes pedigree function 0.078 – 2.42 8 Age years 21.0 – 81.0 9 Class tested_negative, tested_positive

3.2.4. Data Set Ionosphere

Data set Ionosphere memiliki 351 instances, 35 atribut, dan 2 kelas. Distribusi kelas berupa bad 126 instances dan good 225 instances. Data set ini terdiri dari 1 atribut kelas dan 34 atribut yang mempengaruhi nilai dua tipe sinyal radar untuk mengenali elektron pada ionosphere. Sinyal good menunjukkan radar mengenali struktur tertentu pada ionosphere dan sinyal bad menunjukkan radar tidak menunjukkan struktur tertentu pada ionosphere.

3.2.5. Data Set Iris

Data set Iris memiliki 150 instances, 5 atribut, dan 3 kelas. Distribusi kelas berupa Iris-setosa 50 instances, Iris-versicolor 50 instances, dan Iris-virginica 50 instances. Tabel 3.5 menunjukkan informasi atribut data set Iris. Universita Sumatera Utara 34 Tabel 3.5. Informasi Atribut Data Set Iris No. Atribut Nilai 1 Sepal-length cm 4.3 – 7.9 2 Sepal-width cm 2.0 – 4.4 3 Petal-length cm 1.0 – 6.9 4 Petal-width cm 0.1 – 2.5 5 Class Iris-setosa, Iris-versicolor, Iris-virginica

3.3. Analisis Sistem

3.3.1. Pohon Keputusan

Dalam memperoleh model dengan algoritma pohon keputusan, digunakan langkah- langkah sebagai berikut. 1. Pemilihan salah satu data set penelitian. 2. Pemilihan classifier dengan menggunakan algoritma pohon keputusan C4.5 J4.8 pada WEKA. 3. Melakukan pelatihan dan pengujianevaluasi terhadap model pohon keputusan dengan metode 10-fold cross validation pada WEKA. 4. Memperoleh confusion matrix. 5. Mengubah confusion matrix ke dalam table of confusion matriks 2 x 2 untuk setiap kelas yang ada. 6. Menghitung akurasi dalam bentuk penilaian precision, recall, F-measure, dan success rate dengan persamaan 2.6, 2.7, 2.8, 2.9, dan 2.10 untuk setiap kelas berdasarkan table of confusion. 7. Menghitung weighted average dari precision, recall, F-measure, dan success rate untuk setiap data set penelitian. Adapun langkah-langkah pengukuran akurasi dengan algoritma pohon keputusan digambarkan dalam bentuk diagram alir pada Gambar 3.1 berikut ini. Misalnya, data set yang digunakan adalah diabetes.arff. Universita Sumatera Utara 35 Gambar 3.1. Diagram Alir Perhitungan Akurasi Pohon Keputusan pada Diabetes.arff MULAI DIABETES.ARFF SELESAI CONFUSION MATRIX PERHITUNGAN AKURASI DENGAN PERSAMAAN 2.6, 2.7, 2.8, 2.9, DAN 2.10 PER KELAS PEMROSESAN PADA WEKA 3.7.8  PEMILIHAN CLASSIFIER POHON KEPUTUSAN  PELATIHAN TRAINING DATA SETS UNTUK MEMPEROLEH MODEL  PENGUJIAN MODEL DENGAN METODE 10-FOLD CROSS VALIDATION KONVERSI CONFUSION MATRIX BERDASARKAN JUMLAH KELAS TABLE OF CONFUSION PRECISION, RECALL, F-MEASURE, SUCCESS RATE PERHITUNGAN WEIGHTED AVERAGE AKURASI WEIGHTED AVERAGE Universita Sumatera Utara 36

3.3.2. k-Nearest Neighbor k-NN

Dalam memperoleh model dengan algoritma k-NN, digunakan langkah-langkah sebagai berikut. 1. Pemilihan salah satu data sets penelitian. 2. Pemilihan classifier dengan menggunakan algoritma k-NN IBk pada WEKA dengan prinsip Nearest Neighbor. 3. Melakukan pelatihan dan pengujianevaluasi model dengan metode 10-fold cross validation pada WEKA. 4. Memperoleh confusion matrix. 5. Mengubah confusion matrix ke dalam table of confusion matriks 2 x 2 untuk setiap kelas yang ada. 6. Menghitung akurasi dalam bentuk penilaian precision, recall, F-measure, dan success rate dengan persamaan 2.6, 2.7, 2.8, 2.9, dan 2.10 untuk setiap kelas berdasarkan table of confusion. 7. Menghitung weighted average dari precision, recall, F-measure, dan success rate untuk setiap data set penelitian. Adapun langkah-langkah pengukuran akurasi dengan algoritma k-NN digambarkan dalam bentuk diagram alir pada Gambar 3.2 berikut ini. Misalnya, data set yang digunakan adalah diabetes.arff. Universita Sumatera Utara 37 Gambar 3.2. Diagram Alir Perhitungan Akurasi k-NN pada Diabetes.arff MULAI DIABETES.ARFF SELESAI CONFUSION MATRIX PERHITUNGAN AKURASI DENGAN PERSAMAAN 2.6, 2.7, 2.8, 2.9, DAN 2.10 PER KELAS PEMROSESAN PADA WEKA 3.7.8  PEMILIHAN CLASSIFIER k-NN  PELATIHAN TRAINING DATA SETS UNTUK MEMPEROLEH MODEL  PENGUJIAN MODEL DENGAN METODE 10-FOLD CROSS VALIDATION KONVERSI CONFUSION MATRIX BERDASARKAN JUMLAH KELAS TABLE OF CONFUSION PRECISION, RECALL, F-MEASURE, SUCCESS RATE PERHITUNGAN WEIGHTED AVERAGE AKURASI WEIGHTED AVERAGE Universita Sumatera Utara 38

3.3.3. Metode 10-fold Cross Validation

Pada tahap pengujian, metode yang digunakan dapat berupa Use Training Set, k-Fold Cross Validation, dan Percentage Split. Pada metode k-fold cross validation, dibentuk k subset dari data sets yang ada. Misalnya, metode 3-fold cross validation berarti 2 subsets digunakan sebagai training sets dan 1 subset digunakan sebagai testing set, dengan 3 kali iterasi. Hasil pengukuran adalah nilai rata-rata dari 3 kali pengujian. Pada penelitian ini, penulis menggunakan metode 10-fold cross validation. Pada metode ini, dibentuk 10 subsets dari data set yang ada. Ini berarti 9 subsets digunakan sebagai training sets dan 1 subset digunakan sebagai testing set, dengan 10 kali iterasi. Hasil pengukuran adalah nilai rata-rata dari 10 kali pengujian. Adapun metode 10-fold cross validation ditunjukkan melalui Gambar 3.3 berikut. Gambar 3.3. Metode 10-fold Cross Validation

3.3.4. Confusion Matrix

Menurut Han, et al. 2006, confusion matrix adalah tool yang berguna untuk menganalisa tingkat efektivitas classifier dalam mengenali tuples dari kelas yang berbeda. Jika terdapat sejumlah kelas m, maka confusion matrix merupakan matriks DATA SETS BreastCancer 9 SUBSETS 1 SUBSET Car 9 SUBSETS 1 SUBSET Diabetes 9 SUBSETS 1 SUBSET Ionosphere 9 SUBSETS 1 SUBSET Iris 9 SUBSETS 1 SUBSET CONFUSION MATRIX Universita Sumatera Utara 39 m x m dimana entry c i,j menunjukkan menunjukkan jumlah tuple dari data sets yang dimasukkan ke kelas C j , padahal kelas sebenarnya adalah C i . Gambar 3.4 menunjukkan confusion matrix sebagai hasil pengujian terhadap diabetes.arff yang memiliki 768 instances dan 2 classes kelas dengan menggunakan teknik klasifikasi pohon keputusan pada WEKA 3.7.8. Gambar 3.4. Confusion Matrix Diabetes.arff Adapun langkah berikutnya adalah confusion matrix akan dibentuk ke dalam table of confusion seperti ditunjukkan pada Tabel 2.2. Adapun table of confusion dari diabetes.arff ditunjukkan oleh Tabel 3.6 dan Tabel 3.7 berikut. Tabel 3.6. Table of Confusion K elas “tested_negative” 407 TP 93 FN 108 FP 160 TN Tabel 3.7. Table of Confusion K elas “tested_positive” 160 TP 108 FN 93 FP 407 TN Dengan menggunakan persamaan 2.6, 2,7, 2.8, 2.9, dan 2.10, dilakukan perhitungan sebagai berikut. Kelas “tested_negative” : � � � = + = . � = + = . � − � = ∗ . ∗ . . + . = . Universita Sumatera Utara 40 Kelas “tested_positive” : � � � = + = . � = + = . � − � � = ∗ . ∗ . . + . = . Jika A = 407 + 93 = 500 dan B = 108 + 160 = 268, maka nilai Weighted Average Weighted Avg dari kelas-kelas yang ada, dihitung dengan rumus: � ��ℎ � � � � = . ∗ + . ∗ = . � ��ℎ � � = . ∗ + . ∗ = . � ��ℎ � � − � = . ∗ + . ∗ = . Adapun perhitungan Success Rate adalah sebagai berikut. � = + = . = . Hasil perhitungan akurasi terhadap diabetes.arff dirangkum dalam Tabel 3.8 berikut. Tabel 3.8. Nilai Akurasi berdasarkan Confusion Matrix Diabetes.arff Class Precision Recall F-measure Success Rate tested_negative 0.790 0.814 0.802 0.738 73.8 tested_positive 0.632 0.597 0.614 Weighted Average 0.735 0.738 0.736

3.4. Desain Sistem

Pada penelitian ini, keperluan hardware dan software sebagai bagian dari desain sistem meliputi: Universita Sumatera Utara 41 a. Perangkat keras Netbook Acer 1. Processor Intel Atom TM N570 1.66 GHz, 1 MB L2 cache 2. RAM 2 GB DDR3 3. Harddisk 320 GB 4. Monitor dengan resolusi 1024 x 600 pixel 32 bit true color 5. Mouse dan keyboard b. Perangkat lunak 1. Sistem Operasi Windows 7 Windows 7 adalah sistem operasi berbasis grafis yang dibuat oleh Microsoft untuk digunakan pada komputer pribadi, yang mencakup komputer rumah, desktop bisnis, laptop, dan media center. Windows 7 merupakan sistem dasar untuk dapat menjalankan berbagai perangkat lunak yang digunakan pada penelitian ini. 2. Waikato Environment for Knowledge Analysis WEKA WEKA merupakan software tool data mining yang dibuat oleh tim ahli dari Universitas Waikato, New Zealand. Aplikasi ini telah dibuat sejak 2002 dan dikembangkan sampai saat ini pada versi 3.7.8. WEKA merupakan aplikasi open source berbasis java yang memiliki dua macam interface, berupa Simple Command Line Interface CLI dan Graphical User Interface GUI dengan 3 pilihan, yaitu Explorer, Experimenter, dan Knowledge Flow. Pada penelitian ini, penulis menggunakan classifier algoritma pohon keputusan J4.8 dan k-NN IBk pada WEKA versi 3.7.8 dengan pilihan GUI Explorer untuk menghasilkan confusion matrix dari setiap data set yang digunakan dalam penelitian. Pada penelitian ini, penulispeneliti menggunakan aplikasi WEKA versi 3.7.8 untuk melakukan pelatihan dan pengujian data training and testing sets, hingga menghasilkan confusion matrix. 3. Visual Studio 2010 VS 2010 Visual Studio 2010 merupakan software tool bahasa pemrograman tingkat tinggi yang berbasiskan Microsoft .NET Framework 4.0. Universita Sumatera Utara 42 Bahasa .NET meliputi Visual Basic, Visual C++, Visual C, dan F. Pada penelitian ini, penulis mendesain user interface dan membangun kode pemrograman C untuk memperoleh nilai akurasi berdasarkan confusion matrix yang diperoleh dari WEKA versi 3.7.8. Pada penelitian ini, penulis membuat aplikasi menggunakan Visual C dengan nama Confusion Matrix for Accuracy, untuk menganalisis confusion matrix dan melakukan perhitungan akurasi yang terdiri dari precision, recall, F-measure, dan success rate.

3.4.1. Aplikasi Training Sets dan Testing Sets

WEKA merupakan aplikasi open source berbasis java yang memiliki dua macam interface, berupa Simple Command Line Interface CLI dan Graphical User Interface GUI dengan 3 pilihan, yaitu Explorer, Experimenter, dan Knowledge Flow. Gambar 3.5 berikut menunjukkan tampilan WEKA 3.7.8. Gambar 3.5. Interface WEKA 3.7.8 Untuk memperoleh confusion matrix, penulis menggunakan menu Explorer pada WEKA GUI Chooser dan melalui dua tahapan, yaitu Preprocess dan Classify. Tahapan Preprocess bertujuan untuk memilih data set .arff attribute relation file format yang digunakan dalam penelitian, misalnya diabetes.arff. Gambar 3.6 menunjukkan tahapan Preprocess pada diabetes.arff. Pada tampilan menu Universita Sumatera Utara 43 Preprocess, juga terlihat detail atribut dan banyaknya kelas setelah file diabetes.arff dipilih. Jika dipilih atribut kelas, maka menampilkan detail atribut kelas, yaitu kelas “tested negative” sebanyak 500 instances dan kelas “tested positive” sebanyak 268 instances beserta nilai weight masing-masing kelas. Gambar 3.6. Tahapan Preprocess Langkah berikutnya adalah tahapan Classify. Pada menu Classify, dilakukan pemilihan terhadap teknik klasifikasi pohon keputusan dan k-NN. Tahapan ini juga bertujuan menghasilkan confusion matrix berdasarkan metode evaluasi 10-fold cross validation, dimana data sets dibagi menjadi 10 subsets 9 subsets sebagai training sets dan 1 subset sebagai testing set dengan jumlah 10 kali iterasi. Adapun classifier yang digunakan adalah J4.8 pohon keputusan dan Ibk k-NN. Gambar 3.7 menunjukkan tahapan Classify untuk menghasilkan confusion matrix pada data set diabetes.arff menggunakan classifier pohon keputusan. Universita Sumatera Utara 44 Gambar 3.7. Tahapan Classify

3.4.2. Aplikasi Perhitungan Akurasi

Pada tahap ini, penulis menggunakan aplikasi Confusion Matrix for Accuracy yang dibangun sendiri menggunakan Visual C versi 2010. Gambar 3.8 menunjukkan tampilan interface aplikasi perhitungan akurasi algoritma pohon keputusan dan k-NN. Gambar 3.8. Interface Confusion Matrix for Accuracy Confusion Matrix Universita Sumatera Utara 45 Pada Gambar 3.8 terdapat pilihan [1] TEKNIK KLASIFIKASI dan [2] DATA SETS. Teknik Klasifikasi yang dapat dipilih adalah Decision Tree Pohon Keputusan dan k-NN. Untuk data sets, terdapat 5 pilihan berupa BreastCancer, Car, Diabetes, Ionosphere, dan Iris. Tombol “Tampilkan” digunakan untuk menampilkan confusion matrix dan tombol “Kalkulasi” digunakan untuk melakukan perhitungan precision, recall, F-measure, dan success rate . Tombol “Detail” digunakan untuk menampilkan dan menyembunyikan table of confusion untuk setiap kelas yang ada, berdasarkan confusion matrix yang diperoleh. Universita Sumatera Utara

BAB 4 HASIL DAN PEMBAHASAN

Pada bagian ini, penulis menyajikan hasil dan pembahasan penelitian mengenai analisis akurasi algoritma klasifikasi pohon keputusan dan k-NN terhadap 5 data sets, yaitu BreastCancer, Car, Diabetes, Ionosphere, dan Iris berdasarkan confusion matrix. Penulis juga melakukan perbandingan terhadap kedua macam teknik klasifikasi tersebut melalui pengukuran performance dari sudut pandang akurasi Precision, Recall, F-measure, dan Success Rate.

4.1. Data Set BreastCancer

Data Set BreastCancer terdiri dari 286 instances, 10 atributtes, dan 2 classes no-recurrence-events dan recurrence-events. Gambar 4.1 berikut ini menunjukkan hasil perhitungan akurasi algoritma pohon keputusan terhadap data set BreastCancer. Gambar 4.1. Perhitungan Akurasi Pohon Keputusan terhadap BreastCancer.arff Universita Sumatera Utara 47 Pada Gambar 4.1, terlihat confusion matrix dan table of confusion dari pengujian pohon keputusan dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 286 data, sebanyak 216 data 75.52 dapat diklasifikasikan dengan benar, sedangkan 70 data 24.48 salah diklasifikasikan. Dengan menggunakan persamaan 2.6, 2.7, 2.8, 2.9, dan 2.10, dihitung nilai precision, recall, dan F-measure. Tabel 4.1 menunjukkan hasil pengukuran akurasi algoritma pohon keputusan pada BreastCancer.arff. Tabel 4.1. Nilai Akurasi Pohon Keputusan terhadap BreastCancer.arff Class Precision Recall F-measure Success Rate no-recurrence-events 0.757