Metode 10-fold Cross Validation Confusion Matrix

38

3.3.3. Metode 10-fold Cross Validation

Pada tahap pengujian, metode yang digunakan dapat berupa Use Training Set, k-Fold Cross Validation, dan Percentage Split. Pada metode k-fold cross validation, dibentuk k subset dari data sets yang ada. Misalnya, metode 3-fold cross validation berarti 2 subsets digunakan sebagai training sets dan 1 subset digunakan sebagai testing set, dengan 3 kali iterasi. Hasil pengukuran adalah nilai rata-rata dari 3 kali pengujian. Pada penelitian ini, penulis menggunakan metode 10-fold cross validation. Pada metode ini, dibentuk 10 subsets dari data set yang ada. Ini berarti 9 subsets digunakan sebagai training sets dan 1 subset digunakan sebagai testing set, dengan 10 kali iterasi. Hasil pengukuran adalah nilai rata-rata dari 10 kali pengujian. Adapun metode 10-fold cross validation ditunjukkan melalui Gambar 3.3 berikut. Gambar 3.3. Metode 10-fold Cross Validation

3.3.4. Confusion Matrix

Menurut Han, et al. 2006, confusion matrix adalah tool yang berguna untuk menganalisa tingkat efektivitas classifier dalam mengenali tuples dari kelas yang berbeda. Jika terdapat sejumlah kelas m, maka confusion matrix merupakan matriks DATA SETS BreastCancer 9 SUBSETS 1 SUBSET Car 9 SUBSETS 1 SUBSET Diabetes 9 SUBSETS 1 SUBSET Ionosphere 9 SUBSETS 1 SUBSET Iris 9 SUBSETS 1 SUBSET CONFUSION MATRIX Universita Sumatera Utara 39 m x m dimana entry c i,j menunjukkan menunjukkan jumlah tuple dari data sets yang dimasukkan ke kelas C j , padahal kelas sebenarnya adalah C i . Gambar 3.4 menunjukkan confusion matrix sebagai hasil pengujian terhadap diabetes.arff yang memiliki 768 instances dan 2 classes kelas dengan menggunakan teknik klasifikasi pohon keputusan pada WEKA 3.7.8. Gambar 3.4. Confusion Matrix Diabetes.arff Adapun langkah berikutnya adalah confusion matrix akan dibentuk ke dalam table of confusion seperti ditunjukkan pada Tabel 2.2. Adapun table of confusion dari diabetes.arff ditunjukkan oleh Tabel 3.6 dan Tabel 3.7 berikut. Tabel 3.6. Table of Confusion K elas “tested_negative” 407 TP 93 FN 108 FP 160 TN Tabel 3.7. Table of Confusion K elas “tested_positive” 160 TP 108 FN 93 FP 407 TN Dengan menggunakan persamaan 2.6, 2,7, 2.8, 2.9, dan 2.10, dilakukan perhitungan sebagai berikut. Kelas “tested_negative” : � � � = + = . � = + = . � − � = ∗ . ∗ . . + . = . Universita Sumatera Utara 40 Kelas “tested_positive” : � � � = + = . � = + = . � − � � = ∗ . ∗ . . + . = . Jika A = 407 + 93 = 500 dan B = 108 + 160 = 268, maka nilai Weighted Average Weighted Avg dari kelas-kelas yang ada, dihitung dengan rumus: � ��ℎ � � � � = . ∗ + . ∗ = . � ��ℎ � � = . ∗ + . ∗ = . � ��ℎ � � − � = . ∗ + . ∗ = . Adapun perhitungan Success Rate adalah sebagai berikut. � = + = . = . Hasil perhitungan akurasi terhadap diabetes.arff dirangkum dalam Tabel 3.8 berikut. Tabel 3.8. Nilai Akurasi berdasarkan Confusion Matrix Diabetes.arff Class Precision Recall F-measure Success Rate tested_negative 0.790 0.814 0.802 0.738 73.8 tested_positive 0.632 0.597 0.614 Weighted Average 0.735 0.738 0.736

3.4. Desain Sistem