38
3.3.3. Metode 10-fold Cross Validation
Pada tahap pengujian, metode yang digunakan dapat berupa Use Training Set, k-Fold Cross Validation, dan Percentage Split. Pada metode k-fold cross validation, dibentuk
k subset dari data sets yang ada. Misalnya, metode 3-fold cross validation berarti 2 subsets digunakan sebagai training sets dan 1 subset digunakan sebagai testing set,
dengan 3 kali iterasi. Hasil pengukuran adalah nilai rata-rata dari 3 kali pengujian. Pada penelitian ini, penulis menggunakan metode 10-fold cross validation.
Pada metode ini, dibentuk 10 subsets dari data set yang ada. Ini berarti 9 subsets digunakan sebagai training sets dan 1 subset digunakan sebagai testing set, dengan 10
kali iterasi. Hasil pengukuran adalah nilai rata-rata dari 10 kali pengujian. Adapun metode 10-fold cross validation ditunjukkan melalui Gambar 3.3 berikut.
Gambar 3.3. Metode 10-fold Cross Validation
3.3.4. Confusion Matrix
Menurut Han, et al. 2006, confusion matrix adalah tool yang berguna untuk menganalisa tingkat efektivitas classifier dalam mengenali tuples dari kelas yang
berbeda. Jika terdapat sejumlah kelas m, maka confusion matrix merupakan matriks
DATA SETS BreastCancer
9 SUBSETS 1 SUBSET
Car 9 SUBSETS
1 SUBSET
Diabetes 9 SUBSETS
1 SUBSET
Ionosphere 9 SUBSETS
1 SUBSET
Iris 9 SUBSETS
1 SUBSET CONFUSION
MATRIX
Universita Sumatera Utara
39
m x m dimana entry c
i,j
menunjukkan menunjukkan jumlah tuple dari data sets yang dimasukkan ke kelas C
j
, padahal kelas sebenarnya adalah C
i
. Gambar 3.4 menunjukkan confusion matrix sebagai hasil pengujian terhadap
diabetes.arff yang memiliki 768 instances dan 2 classes kelas dengan menggunakan
teknik klasifikasi pohon keputusan pada WEKA 3.7.8.
Gambar 3.4. Confusion Matrix Diabetes.arff Adapun langkah berikutnya adalah confusion matrix akan dibentuk ke dalam
table of confusion seperti ditunjukkan pada Tabel 2.2. Adapun table of confusion dari
diabetes.arff ditunjukkan oleh Tabel 3.6 dan Tabel 3.7 berikut.
Tabel 3.6. Table of Confusion K elas “tested_negative”
407 TP 93 FN
108 FP 160 TN
Tabel 3.7. Table of Confusion K elas “tested_positive”
160 TP 108 FN
93 FP 407 TN
Dengan menggunakan persamaan 2.6, 2,7, 2.8, 2.9, dan 2.10, dilakukan perhitungan sebagai berikut.
Kelas “tested_negative” : �
� � =
+ = .
� = +
= .
� − �
= ∗ .
∗ . .
+ . = .
Universita Sumatera Utara
40
Kelas “tested_positive” : �
� � =
+ = .
� = +
= .
� − � � =
∗ . ∗ .
. + .
= .
Jika A = 407 + 93 = 500 dan B = 108 + 160 = 268, maka nilai Weighted Average
Weighted Avg dari kelas-kelas yang ada, dihitung dengan rumus: � ��ℎ
� � � �
= .
∗ + . ∗
= . � ��ℎ
� � =
. ∗ + .
∗ = .
� ��ℎ � � −
� =
. ∗ + .
∗ = .
Adapun perhitungan Success Rate adalah sebagai berikut. � =
+ = .
= .
Hasil perhitungan akurasi terhadap diabetes.arff dirangkum dalam Tabel 3.8 berikut.
Tabel 3.8. Nilai Akurasi berdasarkan Confusion Matrix Diabetes.arff Class
Precision Recall
F-measure Success Rate
tested_negative 0.790
0.814 0.802
0.738 73.8
tested_positive
0.632 0.597
0.614 Weighted Average
0.735 0.738
0.736
3.4. Desain Sistem