3.2.3 Data
Testing
dan Data
Training
Pada tahap ini hasil dari penambangan data berupa pola khusus yang akan dievaluasi atau diteliti lagi apakah hasilnya sudah sesuai atau
belum. Untuk mengetahui apakah sistem yang akan dibangun ini sudah baik atau belum, maka perlu dilakukan pengujian sistem menggunakan
metode
k-fold cross validation.
Pada penelitian ini pembagian data mengaju pada metode statifikasi
sampling
, yaitu dengan membagi populasi menjadi beberapa lapisan yang tidak saling tumpang tindih, sehingga lapisan yang terbentuk merupakan
sub populasi Angga, 2007. Pada penelitian ini, populasi dibedakan dalam 2 kelas, yaitu SC dan spontan. Setelah data terbagi menjadi 2 kelas,
kemudian dilakukan pembagian ke dalam 7 bagian untuk setiap kelas secara acak. Masing-masing kelompok akan menduduki posisi sebagai
data
testing
dan sebagai data
training
secara bergantian. Berikut adalah contoh tabel pembagian data menggunakan
7-fold cross validation.
Tabel 3. 4 Pembagian
7-fold
Percobaan Training
Testing 1
1, 2, 3, 4, 5, 6, 7
2 1, 2, 3, 4, 5, 7
6 3
1, 2, 3, 4, 6, 7 5
4 1, 2, 3, 5, 6, 7
4 5
1, 2, 3, 4, 6, 7 3
6 1, 3, 4, 5, 6, 7
2 7
2, 3, 4, 5, 6, 7 1
3.2.4 Pemodelan dengan Algoritma C4.5
Pada tahap ini dilakukan proses penambangan data dengan algoritma C4.5. Data yang sudah melalui tahapan transformasi akan
dijadikan sebagai data
training
untuk proses pembentukan pohon keputusan menggunakan algoritma C4.5. Proses pembentukan pohon
ditentukan dari perhitungan nilai
Entopy
,
Gain
,
SplitInformation
, dan
GainRatio
untuk setiap atribut kemudian mencari nilai
GainRatio
tertinggi yang akan menjadi simpul akar dari pohon. Proses pembentukan pohon
dilakukan secara rekursif hingga seluruh data memiliki kelas. Setelah perhitungan selesai akan ditampilkan hasil pohon yang terbentuk.
Langkah pembentukan pohon keputusan dengan menggunkan algoritma C4.5 dijelaskan secara lebih rinci dalam menyelesaikan
permasalahan pada data pasien persalinan seperti pada proses berikut : 1.
Data yang digunakan pada pembentukan pohon keputusan merupakan data pasien persalinan dengan atribut mencakup :
glukosa, protein, pinggul sempit, hamil primi, tunggalganda, letak, presentasi, riwayat partus, dan ketuban pecah dini. Dari
data yang ada akan menghasilkan jenis persalinan SC atau spontan. Data yang digunakan ditampilkan pada tabel 3.5
berikut : Tabel 3. 5 Contoh Data
G LU
K O
S A
P RO
T E
IN
P IN
G G
U L
S E
M P
IT D
K P
H A
M IL
P RI
M I
T U
N G
G A
L G
A N
D A
LE T
A K
P RE
S E
N T
A S
I
R IW
A Y
A T
P A
R T
U S
K E
T U
B A
N P
E C
A H
D IN
I K
P D
P A
R T
U S
POSITIF NEGATIF
TIDAK TIDAK
TUNGGAL MEMANJANG
KEPALA SPONTAN
YA SPONTAN
NEGATIF NEGATIF
TIDAK YA
TUNGGAL MEMANJANG
KEPALA TIDAK ADA
TIDAK SPONTAN
NEGATIF NEGATIF
TIDAK YA
TUNGGAL MEMANJANG
KEPALA TIDAK ADA
TIDAK SPONTAN
NEGATIF NEGATIF
TIDAK YA
TUNGGAL MEMANJANG
KEPALA TIDAK ADA
YA SPONTAN
NEGATIF NEGATIF
TIDAK YA
TUNGGAL MEMANJANG
KEPALA TIDAK ADA
TIDAK SPONTAN
NEGATIF NEGATIF
YA YA
TUNGGAL MEMANJANG
KEPALA SPONTAN
YA SC
NEGATIF NEGATIF
TIDAK TIDAK
TUNGGAL MEMANJANG
BOKONG SPONTAN
TIDAK SC
NEGATIF TRACE
TIDAK YA
TUNGGAL MEMANJANG
KEPALA TIDAK ADA
TIDAK SC
NEGATIF NEGATIF
YA YA
TUNGGAL MEMANJANG
KEPALA TIDAK ADA
TIDAK SC
NEGATIF NEGATIF
TIDAK TIDAK
TUNGGAL MELINTANG
KEPALA SC
TIDAK SC
NEGATIF NEGATIF
TIDAK TIDAK
GANDA MEMANJANG
KEPALA SPONTAN
TIDAK SC
2. Menghitung setiap kejadian,
Entropy
,
Gain
,
Split Info,
dan
Gain Ratio
untuk menentukan
root
. Perhitungan ditampilkan pada tabel 3.6 berikut :
Tabel 3. 6 Perhitungan
Root Node
1
Kriteria Jumlah
Data SC
S1 Spontan
S2 Entropy
Gain Split
Info Gain
Ratio
Total S 11
6 5
0,9940 Glukosa
0,1113 0,4395 0,2534
Negatif 10
6 4
0,9710 Positif
1 1
Protein 0,0849 0,4395
0,1933 Negatif
10 5
5 1
Trace 1
1 Pinggul
Sempit 0,1831 0,6840
0,2677 Ya
2 2
Tidak 9
4 5
0,9911 Hamil Primi
0,0721 0,9457 0,0762
Ya 7
3 4
0,9852 Tidak
4 3
1 0,8113
Tunggal Ganda
0,0849 0,4395 0,1933
Ganda 1
1 Tunggal
10 5
5 1
Letak 0,0849 0,4395
0,1933 Melintang
1 1
Memanjang 10
5 5
1 Presentasi
0,0849 0,4395 0,1933
Bokong 1
1 Kepala
10 5
5 1
Riwayat Partus
0,1981 1,3222 0,1499
SC 1
1 Spontan
4 3
1 0,8113
Tidak Ada 6
2 4
0,9183
Ketuban Pecah Dini
0,0495 0,8454 0,0585
Ya 3
1 2
0,9183 Tidak
8 5
3 0,9544
Dari hasil perhitungan pada tabel 3.6 diatas diperoleh nilai
GainRatio
tertinggi adalah pinggul sempit yaitu sebesar 0.2677. dengan Demilkian pinggul sempit terbentuk sebagai
root
dari pohon keputusan. Pada atribut pinggul sempit ada dua nilai atribut, yaitu “ya” dan “tidak”.
Nilai atribut “ya” sudah mengklasifikasikan jenis persalinan SC, sehingga
tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atrbut “tidak” masih perlu dilakukan perhitungan lebih lanjut.
Pohon keputusan yang terbentuk pada perhitungan
root
ditampilkan pada gambar 3.2 berikut :
Gambar 3. 2 Pohon Keputusan Hasil Perhitungan
Root Node
1 3.
Menghitung setiap kejadian,
Entropy
,
Gain
,
Split Info,
dan
Gain Ratio
untuk menentukan
node
2. Perhitungan untuk mencari
node
2 ditampilkan pada tabel 3.7 berikut : Tabel 3. 7 Perhitungan
Node
2
Kriteria Jumlah
Data SC
S1 Spontan
S2 Entropy
Gain Split
Info Gain
Ratio
Pinggul Sempit Tidak
9 4
5 0,9911
Glukosa 0,1022 0,5033 0,2031
Negatif 8
4 4
1 Positif
1 1
Protein 0,1427 0,5033 0,2835
Negatif 8
5 3
0,9544 Trace
1 1
Hamil Primi 0,2294 0,9911 0,2315
Ya 5
1 4
0,7219 Tidak
4 3
1 0,8113
Tunggal Ganda 0,1427 0,5033 0,2835
Ganda 1
1 Tunggal
8 3
5 0,9544
Letak 0,1427 0,5033 0,2835
Melintang 1
1 Memanjang
8 3
5 0,9544
Presentasi 0,1427 0,5033 0,2835
Bokong 1
1 Kepala
8 3
5 0,9544
Riwayat Partus 0,2839 1,3516 0,2100
SC 1
1 Spontan
3 2
1 0,9183
Tidak Ada 5
1 4
0,7219 Ketuban Pecah
Dini 0,2248 0,7642
0,2941 Ya
2 2
Tidak 7
4 3
0,9852
Dari hasil perhitungan pada tabel 3.7 diatas diperoleh nilai
GainRatio
tertinggi adalah ketuban pecah dini yaitu sebesar 0.2941. Dengan demilkian ketuban pecah dini terbentuk sebagai
node
2 dari pohon keputusan. Pada atribut pinggul sempit ada dua nila
i atribut, yaitu “ya” dan “tidak”. Nilai atribut “ya” sudah mengklasifikasikan jenis persalinan
spontan, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atrbut “tidak” masih perlu dilakukan perhitungan lebih lanjut.
Pohon keputusan yang terbentuk dari perhitungan
node
2 ditampilkan pada gambar 3.3 berikut :
Gambar 3. 3 Pohon Keputusan Hasil Perhitungan
Node
2 4.
Menghitung setiap kejadian,
Entropy
,
Gain
,
Split Info,
dan
Gain Ratio
untuk menentukan
node
3. Perhitungan untuk mencari
node
3 ditampilkan pada tabel 3. 8 berikut : Tabel 3. 8 Perhitungan
Node
3
Kriteria Jumlah
Data SC
S1 Spontan
S2 Entropy
Gain Split
Info Gain
Ratio
Ketuban Pecah Dini Tidak 7
4 3
0,9852 Glukosa
Negatif 7
4 3
0,9852 Positif
Protein 0,1281 0,5917
0,2165 Negatif
6 3
3 1
Trace 1
1 Hamil Primi
0,5216 0,9852 0,5295
Ya 4
1 3
0,8113 Tidak
3 3
Tunggal Ganda 0,1281 0,5917
0,2165 Ganda
1 1
Tunggal 6
3 3
1 Letak
0,1281 0,5917 0,2165
Melintang 1
1 Memanjang
6 3
3 1
Presentasi 0,1281 0,5917
0,2165
Bokong 1
1 Kepala
6 3
3 1
Riwayat Partus 0,5216 1,3788
0,3783 SC
1 1
Spontan 2
2 Tidak Ada
4 1
3 0,8113
Dari hasil perhitungan pada tabel 3.8 diatas diperoleh nilai
GainRatio
tertinggi adalah hamil primi yaitu sebesar 0.5295. Dengan demilkian hamil primi terbentuk sebagai
node
3 dari pohon keputusan. Pada atribut pinggul sempit ada dua nilai atribut, yaitu “ya” dan “tidak”.
Nilai atribut “tidak” sudah mengklasifikasikan jenis persalinan SC,
sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atrbut “ya” masih perlu dilakukan perhitungan lebih lanjut.
Pohon keputusan yang terbentuk dari perhitungan
node
3 ditampilkan pada gambar 3.4 berikut :
Gambar 3. 4 Pohon Keputusan Hasil Perhitungan
Node
3 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5. Menghitung setiap kejadian,
Entropy
,
Gain
,
Split Info,
dan
Gain Ratio
untuk menentukan
node
4. Perhitungan untuk mencari
node
4 ditampilkan pada tabel 3.9 berikut : Tabel 3. 9 Perhitungan
Node
4
Kriteria Jumlah
Data SC
S1 Spontan
S2 Entropy
Gain Split
Info Gain
Ratio
Hamil Primi Ya
4 1
3 0,811278 Glukosa
Negatif 4
1 3 0,811278
Positif Protein
0,8113 0,8113 1
Negatif 3
3 Trace
1 1
Tunggal Ganda
Ganda Tunggal
4 1
3 0,811278 Letak
Melintang Memanjang
4 1
3 0,811278 Presentasi
Bokong Kepala
4 1
3 0,811278 Riwayat
Partus SC
Spontan Tidak Ada
4 1
3 0,811278
Dari hasil perhitungan pada Tabel 3.9 diatas diperoleh nilai
GainRatio
tertinggi adalah protein yaitu sebesar 1. Dengan demilkian protein terbentuk sebagai
node
4 dari pohon keputusan. Pada atribut pinggul sempit ada dua nilai atribut, yaitu “negatif” dan “trace”. Nilai
atribut “trace” sudah mengklasifikasikan jenis persalinan SC, sedangkan atribut “negatif” juga sudah mengklasifikasikan jenis persalinan spontan,
sehingga tidak perlu dilakukan perhitungan lebih lanjut. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Pohon keputusan yang terbentuk dari perhitungan
node
4 ditampilkan pada gambar 3.5 berikut :
Gambar 3. 5 Pohon Keputusan Hasil Perhitungan
Node
4 Dengam memperhatikan pohon keputusan pada gambar 3.5
diketahui bahwa semua kasus masuk dalam kelas. Dengan demikian, pohon keputusan pada gambar 3.5 merupakan pohon terakhir yang
terbentuk sehingga merupakan pohon keputusan yang utuh dari perhitungan kasus ini.
3.2.5 Pengujian Akurasi