Data Pemodelan dengan Algoritma C4.5

3.2.3 Data

Testing dan Data Training Pada tahap ini hasil dari penambangan data berupa pola khusus yang akan dievaluasi atau diteliti lagi apakah hasilnya sudah sesuai atau belum. Untuk mengetahui apakah sistem yang akan dibangun ini sudah baik atau belum, maka perlu dilakukan pengujian sistem menggunakan metode k-fold cross validation. Pada penelitian ini pembagian data mengaju pada metode statifikasi sampling , yaitu dengan membagi populasi menjadi beberapa lapisan yang tidak saling tumpang tindih, sehingga lapisan yang terbentuk merupakan sub populasi Angga, 2007. Pada penelitian ini, populasi dibedakan dalam 2 kelas, yaitu SC dan spontan. Setelah data terbagi menjadi 2 kelas, kemudian dilakukan pembagian ke dalam 7 bagian untuk setiap kelas secara acak. Masing-masing kelompok akan menduduki posisi sebagai data testing dan sebagai data training secara bergantian. Berikut adalah contoh tabel pembagian data menggunakan 7-fold cross validation. Tabel 3. 4 Pembagian 7-fold Percobaan Training Testing 1 1, 2, 3, 4, 5, 6, 7 2 1, 2, 3, 4, 5, 7 6 3 1, 2, 3, 4, 6, 7 5 4 1, 2, 3, 5, 6, 7 4 5 1, 2, 3, 4, 6, 7 3 6 1, 3, 4, 5, 6, 7 2 7 2, 3, 4, 5, 6, 7 1

3.2.4 Pemodelan dengan Algoritma C4.5

Pada tahap ini dilakukan proses penambangan data dengan algoritma C4.5. Data yang sudah melalui tahapan transformasi akan dijadikan sebagai data training untuk proses pembentukan pohon keputusan menggunakan algoritma C4.5. Proses pembentukan pohon ditentukan dari perhitungan nilai Entopy , Gain , SplitInformation , dan GainRatio untuk setiap atribut kemudian mencari nilai GainRatio tertinggi yang akan menjadi simpul akar dari pohon. Proses pembentukan pohon dilakukan secara rekursif hingga seluruh data memiliki kelas. Setelah perhitungan selesai akan ditampilkan hasil pohon yang terbentuk. Langkah pembentukan pohon keputusan dengan menggunkan algoritma C4.5 dijelaskan secara lebih rinci dalam menyelesaikan permasalahan pada data pasien persalinan seperti pada proses berikut : 1. Data yang digunakan pada pembentukan pohon keputusan merupakan data pasien persalinan dengan atribut mencakup : glukosa, protein, pinggul sempit, hamil primi, tunggalganda, letak, presentasi, riwayat partus, dan ketuban pecah dini. Dari data yang ada akan menghasilkan jenis persalinan SC atau spontan. Data yang digunakan ditampilkan pada tabel 3.5 berikut : Tabel 3. 5 Contoh Data G LU K O S A P RO T E IN P IN G G U L S E M P IT D K P H A M IL P RI M I T U N G G A L G A N D A LE T A K P RE S E N T A S I R IW A Y A T P A R T U S K E T U B A N P E C A H D IN I K P D P A R T U S POSITIF NEGATIF TIDAK TIDAK TUNGGAL MEMANJANG KEPALA SPONTAN YA SPONTAN NEGATIF NEGATIF TIDAK YA TUNGGAL MEMANJANG KEPALA TIDAK ADA TIDAK SPONTAN NEGATIF NEGATIF TIDAK YA TUNGGAL MEMANJANG KEPALA TIDAK ADA TIDAK SPONTAN NEGATIF NEGATIF TIDAK YA TUNGGAL MEMANJANG KEPALA TIDAK ADA YA SPONTAN NEGATIF NEGATIF TIDAK YA TUNGGAL MEMANJANG KEPALA TIDAK ADA TIDAK SPONTAN NEGATIF NEGATIF YA YA TUNGGAL MEMANJANG KEPALA SPONTAN YA SC NEGATIF NEGATIF TIDAK TIDAK TUNGGAL MEMANJANG BOKONG SPONTAN TIDAK SC NEGATIF TRACE TIDAK YA TUNGGAL MEMANJANG KEPALA TIDAK ADA TIDAK SC NEGATIF NEGATIF YA YA TUNGGAL MEMANJANG KEPALA TIDAK ADA TIDAK SC NEGATIF NEGATIF TIDAK TIDAK TUNGGAL MELINTANG KEPALA SC TIDAK SC NEGATIF NEGATIF TIDAK TIDAK GANDA MEMANJANG KEPALA SPONTAN TIDAK SC 2. Menghitung setiap kejadian, Entropy , Gain , Split Info, dan Gain Ratio untuk menentukan root . Perhitungan ditampilkan pada tabel 3.6 berikut : Tabel 3. 6 Perhitungan Root Node 1 Kriteria Jumlah Data SC S1 Spontan S2 Entropy Gain Split Info Gain Ratio Total S 11 6 5 0,9940 Glukosa 0,1113 0,4395 0,2534 Negatif 10 6 4 0,9710 Positif 1 1 Protein 0,0849 0,4395 0,1933 Negatif 10 5 5 1 Trace 1 1 Pinggul Sempit 0,1831 0,6840 0,2677 Ya 2 2 Tidak 9 4 5 0,9911 Hamil Primi 0,0721 0,9457 0,0762 Ya 7 3 4 0,9852 Tidak 4 3 1 0,8113 Tunggal Ganda 0,0849 0,4395 0,1933 Ganda 1 1 Tunggal 10 5 5 1 Letak 0,0849 0,4395 0,1933 Melintang 1 1 Memanjang 10 5 5 1 Presentasi 0,0849 0,4395 0,1933 Bokong 1 1 Kepala 10 5 5 1 Riwayat Partus 0,1981 1,3222 0,1499 SC 1 1 Spontan 4 3 1 0,8113 Tidak Ada 6 2 4 0,9183 Ketuban Pecah Dini 0,0495 0,8454 0,0585 Ya 3 1 2 0,9183 Tidak 8 5 3 0,9544 Dari hasil perhitungan pada tabel 3.6 diatas diperoleh nilai GainRatio tertinggi adalah pinggul sempit yaitu sebesar 0.2677. dengan Demilkian pinggul sempit terbentuk sebagai root dari pohon keputusan. Pada atribut pinggul sempit ada dua nilai atribut, yaitu “ya” dan “tidak”. Nilai atribut “ya” sudah mengklasifikasikan jenis persalinan SC, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atrbut “tidak” masih perlu dilakukan perhitungan lebih lanjut. Pohon keputusan yang terbentuk pada perhitungan root ditampilkan pada gambar 3.2 berikut : Gambar 3. 2 Pohon Keputusan Hasil Perhitungan Root Node 1 3. Menghitung setiap kejadian, Entropy , Gain , Split Info, dan Gain Ratio untuk menentukan node 2. Perhitungan untuk mencari node 2 ditampilkan pada tabel 3.7 berikut : Tabel 3. 7 Perhitungan Node 2 Kriteria Jumlah Data SC S1 Spontan S2 Entropy Gain Split Info Gain Ratio Pinggul Sempit Tidak 9 4 5 0,9911 Glukosa 0,1022 0,5033 0,2031 Negatif 8 4 4 1 Positif 1 1 Protein 0,1427 0,5033 0,2835 Negatif 8 5 3 0,9544 Trace 1 1 Hamil Primi 0,2294 0,9911 0,2315 Ya 5 1 4 0,7219 Tidak 4 3 1 0,8113 Tunggal Ganda 0,1427 0,5033 0,2835 Ganda 1 1 Tunggal 8 3 5 0,9544 Letak 0,1427 0,5033 0,2835 Melintang 1 1 Memanjang 8 3 5 0,9544 Presentasi 0,1427 0,5033 0,2835 Bokong 1 1 Kepala 8 3 5 0,9544 Riwayat Partus 0,2839 1,3516 0,2100 SC 1 1 Spontan 3 2 1 0,9183 Tidak Ada 5 1 4 0,7219 Ketuban Pecah Dini 0,2248 0,7642 0,2941 Ya 2 2 Tidak 7 4 3 0,9852 Dari hasil perhitungan pada tabel 3.7 diatas diperoleh nilai GainRatio tertinggi adalah ketuban pecah dini yaitu sebesar 0.2941. Dengan demilkian ketuban pecah dini terbentuk sebagai node 2 dari pohon keputusan. Pada atribut pinggul sempit ada dua nila i atribut, yaitu “ya” dan “tidak”. Nilai atribut “ya” sudah mengklasifikasikan jenis persalinan spontan, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atrbut “tidak” masih perlu dilakukan perhitungan lebih lanjut. Pohon keputusan yang terbentuk dari perhitungan node 2 ditampilkan pada gambar 3.3 berikut : Gambar 3. 3 Pohon Keputusan Hasil Perhitungan Node 2 4. Menghitung setiap kejadian, Entropy , Gain , Split Info, dan Gain Ratio untuk menentukan node 3. Perhitungan untuk mencari node 3 ditampilkan pada tabel 3. 8 berikut : Tabel 3. 8 Perhitungan Node 3 Kriteria Jumlah Data SC S1 Spontan S2 Entropy Gain Split Info Gain Ratio Ketuban Pecah Dini Tidak 7 4 3 0,9852 Glukosa Negatif 7 4 3 0,9852 Positif Protein 0,1281 0,5917 0,2165 Negatif 6 3 3 1 Trace 1 1 Hamil Primi 0,5216 0,9852 0,5295 Ya 4 1 3 0,8113 Tidak 3 3 Tunggal Ganda 0,1281 0,5917 0,2165 Ganda 1 1 Tunggal 6 3 3 1 Letak 0,1281 0,5917 0,2165 Melintang 1 1 Memanjang 6 3 3 1 Presentasi 0,1281 0,5917 0,2165 Bokong 1 1 Kepala 6 3 3 1 Riwayat Partus 0,5216 1,3788 0,3783 SC 1 1 Spontan 2 2 Tidak Ada 4 1 3 0,8113 Dari hasil perhitungan pada tabel 3.8 diatas diperoleh nilai GainRatio tertinggi adalah hamil primi yaitu sebesar 0.5295. Dengan demilkian hamil primi terbentuk sebagai node 3 dari pohon keputusan. Pada atribut pinggul sempit ada dua nilai atribut, yaitu “ya” dan “tidak”. Nilai atribut “tidak” sudah mengklasifikasikan jenis persalinan SC, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atrbut “ya” masih perlu dilakukan perhitungan lebih lanjut. Pohon keputusan yang terbentuk dari perhitungan node 3 ditampilkan pada gambar 3.4 berikut : Gambar 3. 4 Pohon Keputusan Hasil Perhitungan Node 3 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 5. Menghitung setiap kejadian, Entropy , Gain , Split Info, dan Gain Ratio untuk menentukan node 4. Perhitungan untuk mencari node 4 ditampilkan pada tabel 3.9 berikut : Tabel 3. 9 Perhitungan Node 4 Kriteria Jumlah Data SC S1 Spontan S2 Entropy Gain Split Info Gain Ratio Hamil Primi Ya 4 1 3 0,811278 Glukosa Negatif 4 1 3 0,811278 Positif Protein 0,8113 0,8113 1 Negatif 3 3 Trace 1 1 Tunggal Ganda Ganda Tunggal 4 1 3 0,811278 Letak Melintang Memanjang 4 1 3 0,811278 Presentasi Bokong Kepala 4 1 3 0,811278 Riwayat Partus SC Spontan Tidak Ada 4 1 3 0,811278 Dari hasil perhitungan pada Tabel 3.9 diatas diperoleh nilai GainRatio tertinggi adalah protein yaitu sebesar 1. Dengan demilkian protein terbentuk sebagai node 4 dari pohon keputusan. Pada atribut pinggul sempit ada dua nilai atribut, yaitu “negatif” dan “trace”. Nilai atribut “trace” sudah mengklasifikasikan jenis persalinan SC, sedangkan atribut “negatif” juga sudah mengklasifikasikan jenis persalinan spontan, sehingga tidak perlu dilakukan perhitungan lebih lanjut. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Pohon keputusan yang terbentuk dari perhitungan node 4 ditampilkan pada gambar 3.5 berikut : Gambar 3. 5 Pohon Keputusan Hasil Perhitungan Node 4 Dengam memperhatikan pohon keputusan pada gambar 3.5 diketahui bahwa semua kasus masuk dalam kelas. Dengan demikian, pohon keputusan pada gambar 3.5 merupakan pohon terakhir yang terbentuk sehingga merupakan pohon keputusan yang utuh dari perhitungan kasus ini.

3.2.5 Pengujian Akurasi