2.3 Klasifikasi
Klasifikasi adalah proses untuk menentukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan
untuk mendapatkan perkiraan kelas dari suatu objek yang labelnya tidak diketahui. Model tersebut bisa berupa aturan “jika-maka”, pohon
keputusan, formula matematis atau
neural network
. Secara umum proses klasifikasi dibagi menjadi dua fase :
learning
dan
test
. Pada fase
learning
, sebagaian data yang telah diketahui kelas datanya digunakan untuk
membentuk model perkiraan. Sedangkan pada fase
test
, model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi
dari model tersebut. Bila akurasinya menjukupi model ini dapat dipakai untuk memprediksi kelas data yang belum diketahui.
2.4 Pohon Keputusan
2.4.1 Definisi Pohon Keputusan
Pohon keputusan
decision tree
merupakan salah satu metode klasifikasi yang paling populer karena mudah untuk diinterpretasikan.
Pohon keputusan adalah model prediksi menggunakan struktur pohon atau struktur berhirarki. Contoh dari pohon keputusan dapat dilihat pada
Gambar 2.2. Pohon keputusan
adalah struktur
flowchart
yang menyerupai pohon
tree
, dimana setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data. Pada pohon
keputusan setiap simpul daun menandai label kelas. Proses dalam pohon keputusan yaitu mengubah bentuk data tabel menjadi model pohon
tree
kemudian mengubah model pohon tersebut menjadi aturan
rule
. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Gambar 2. 2 Contoh Pohon Keputusan Pramudiono, 2008
2.4.2 Kelebihan Pohon Keputusan
Kelebihan dari metode pohon keputusan adalah sebagai berikut Faruz El Said, 2009 :
1. Daerah pengambilan keputusan yang sebelumnya kompleks dan
sangat global, dapat diubah menjadi lebih simpel dan spesifik. 2.
Eliminasi perhitungan-perhitungan yang tidak diperlukan, karena ketika menggunakan metode pohon keputusan maka sample diuji
hanya berdasarkan kriteria atau kelas tertentu. 3.
Fleksibel untuk memilih fitur dari
internal node
yang berbeda, fitur yang terpilih akan membedakan suatu kriteria dibandingkan
kriteria yang lain dalam
node
yang sama. Secara fleksibel metode pohon keputusan ini meningkatkan kualitas keputusan yang
dihasilkan jika dibandingkan ketika menggunakan metode penghitungan satu tahap yang lebih konvensional.
2.4.3 Kekurangan Pohon Keputusan
Kekurangan dari metode pohon keputusan adalah sebagai berikut : 1.
Terjadi
overlap
terutama ketika kelas-kelas dan kriteria yang digunakan jumlahnya sangat banyak. Hal tersebut juga dapat
menyebabkan meningkatnya waktu pengambilan keputusan dan jumlah memori yang diperlukan.
2. Terjadi akumulasi jumlah
error
dari setiap tingkat dalam sebuah pohon keputusan yang besar.
3. Kesulitan dalam mendesain pohon keputusan yang optimal.
4. Hasil kualitas keputusan yang didapatkan dari metode pohon
keputusan sangat tergantung pada bagaimana pohon tersebut didesain.
2.4.4 Algoritma Pohon Keputusan
Banyak algoritma yang dipakai dalam pembentukan pohon keputusan, antara lain ID3, C4.5, CART.
a. ID3
Salah satu algoritma decision tree adalah algoritma ID3
Iterative Dichotomiser
3. ID3 pertama kali dikembangkan oleh J.Ross Quinlan di University of Sydney. ID3 pertama kali
disajikan pada tahun 1975 dalam sebuah buku, Machine Learning. ID3 didasarkan pada konsep Learning System CLS
algoritma Hamilton, 2001. Kelebihan algoritma ID3 adalah sebagai berikut :
1. Dapat membuat aturan prediksi yang mudah
dimengerti. 2.
Mampu membangun pohon keputusan dengan cepat.
3. Mampu membangun pohon keputusan yang
pendek. 4.
Hanya membutuhkan beberapa tes atribut hingga semua data diklasifikasikan.
Kekurangan algoritma ID3 adalah sebagai berikut :
1. Jika contoh yang diteliti terlalu kecil sederhana
mungkin membuat data
over-classified
. 2.
Hanya satu atribut yang dapat dites dalam satu waktu untuk membuat keputusan.
b. C4.5
Algoritma C4.5 adalah pengembangan dari ID3
Iterative Dichotomiser
3 yang merupakan salah satu algoritma pohon keputusan Faruz El Said, 2009. Definisi
mengenai algoritma C4.5 selanjutnya akan dijelaskan pada bagian 2.4.
c. CART
CART
Classification and Regression Tree
adalah salah satu algoritma pohon keputusan. CART adalah sebuah
algoritma yang dapat menggambarkan hubungan antara varibel respon variabel dependen dengan variabel prediktor variabel
independen. Dalam CART setiap simpul dipecah menjadi 2 cabang. Menurut Breiman dkk 1993, bila variabel respon
berbentuk kontinu maka metode yang dipakai adalah metode
regression tree
, sedangkan bila variabel respon memiliki skala kategori maka metode yang dipakai adalah metode
classification tree
. Kelebihan algoritma ID3 adalah sebagai berikut :
1. Dapat melakukan komputasi dengan cepat.
2. Fleksibel dan memiliki dapat mengatur waktu
perhitungan. Kekurangan algoritma ID3 adalah sebagai berikut :
1. Membagi hanya dengan satu variabel.
2. Memiliki pohon keputusan yang tidak stabil.
2.4 Algoritma C4.5
2.4.1 Definisi Algoritma C4.5
Algoritma C4.5 merupakan salah satu algoritma modern yang digunakan untuk melakukan penambangan data. Dalam algoritma C4.5,
input
berupa sampel
training
, label
training
dan atribut. Sampel
training
berupa data contoh yang akan digunakan untuk membangun sebuah
tree
yang telah diuji kebenarannya. Sedangkan atribut merupakan
field-field
data yang nantinya akan digunakan sebagai parameter dalam melakukan klasifikasi data.
Kelebihan algoritma C4.5 adalah sebagai berikut : 1.
Mampu menangani atribut dengan tipe diskrit atau kontinu. 2.
Mampu menangani atribut yang kosong
missing value
3. Pembentukan model mudah dipahami.
4. Bisa memangkas cabang.
Kekurangan algoritma C4.5 adalah sebagai berikut : 1.
Susah membaca data berjumlah besar. Algoritma dasar C4.5 untuk membangun pohon keputusan adalah
sebagai berikut : 1.
Memilih atribut sebagai akar
root
. 2.
Membuat cabang untuk masing-masing nilai. 3.
Membagi kasus dalam cabang. 4.
Mengulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama.
Berikut adalah algoritma C4.5 Mitchell, 1997 : Algoritma C4.5
Input : sampel training, label training, atribut Buat simpul akar untuk pohon yang dibuat.
Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri label +.
Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar, beri label -.
Jika atribut kosong, berhenti dengan suatu pohon dengan satu simpul akar, dengan label sesuai dengan
nilai yang terbanyak yang ada pada label training. Untuk yang lain,
Mulai : o
A atribut yang mengklasifikasikan sampel
dengan hasil yang terbaik berdasarkan gain ratio.
o Atribut keputusan untuk simpul akar
A. o
Untuk setiap nilai, v
i
yang mungkin untuk A :
Tambahkan cabang di bawah akar yang berhubungan dengan A = v
i
. Tentukan sampel Sv
i
sebagai subset dari sampel yang mempunyai nilai v
i
untuk atribut A.
Jika sampel Sv
i
kosong : Dibawah cabang tambahkan
simpul daun dengan label = nilai yang terbanyak yang ada pada
label training. Yang lain, tambah cabang baru
dibawah cabang yang sekarang C4.5 sampel training, label
training, atribut-[A]. Berhenti
Sebelum memilih atribut sebagai akar, dilakukan perhitungan nilai
entropy
yang dapat dilihat pada persamaan 2.1 Craw, S.
....................................................2.1
Keterangan: S
: Himpunan kasus n
: Jumlah partisi S pi
: Proporsi dari Si terhadap S
Untuk memilih atribut sebagai akar, didasarkan pada nilai
gain
tertinggi dari atribut-atribut yang ada. Untuk menghitung
gain
digunakan persamaan berikut seperti pada persamaan 2.2 Craw, S.
............................2.2
Keterangan: S
: Himpunan kasus A
: Atribut n
: Jumlah partisi atribut A |Si|
: Jumlah kasus pada partisi ke i |S|
: Jumlah kasus dalam S PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Untuk menghitung
GainRatio
perlu diketahui suatu
term
baru yang disebut
SplitInformation
pemisah informasi.
SplitInformation
dihitung dengan persamaan sebagai berikut.
............................2.3
Dimana sampai
adalah c
subset
yang dihasilkan dari pemecahan dengan menggunakan atribut A yang mempunyai sebanyak c
nilai. Selanjutnya
GainRatio
dihitung dengan persamaan berikut.
............................2.4
2.5
K-Fold Cross Validation
Pada pendekatan ini, setiap data digunakan dalam jumlah yang sama untuk pelatihan dan tepat satu kali untuk pengujian. Bentuk umum
pendekatan ini disebut dengan
k-fold cross validation
, yang memecah set data menjadi
k
bagian set data dengan ukuran yang sama. Setiap kali berjalan, satu pecahan berperan sebagai set data uji sedangkan pecahan
lainnya menjadi set data latih. Prosedur tersebut dilakukan sebanyak
k
kali sehingga setiap data berkesempatan menjadi data uji tepat satu kali dan
menjadi data latih sebanyak
k
-1 kali. Total
error
didapatkan dengan menjumlah semua
error
yang didapat dari
k
kali proses Angga, 2014. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2.6 Confusion Matriks dan Akurasi
Confusion matriks merupakan tabel yang mencatat hasil kerja klasifikasi. Contoh confusion matriks ditunjukkan dada tabel berikut :
Tabel 2. 1 Confusion Matriks untuk Kalasifikasi 2 Kelas
f
ij
Kelas Hasil Prediksi j Kelas = 1`
Kelas = 0 Kelas Asli i
Kelas = 1`
f
11
f
10
Kelas = 0
f
01
f
00
Tabel 2.1 diatas merupakan contoh
matrix confusion
yang melakukan klasifikasi masalah biner dua kelas untuk dua kelas, misalnya
kelas 0 dan 1. Setiap sel
f
ij
dalam matriks menyatakan jumlah
record
data dari kelas i yang hasil prediksinya masuk ke kelas
j
. Misalnya sel
f
11
adalah jumlah data dalam kelas 1 yang secara benar dipetakan ke kelas 1, dan
f
10
adalah data dalam kelas 1 yang dipetakan secara salah ke kelas 0. Berdasarkan isi confusion matriks, maka dapat diketahui jumlah
data dari masing-masing kelas yang diprediksi secara benar yaitu
f
11
+
f
00
dan data yang diklasifikasi secara salah yaitu
f
10
+
f
01
. Dengan mengetahui jumlah data yang diklasifikasikan secara benar, maka dapat
diketahui akurasi hasil prediksi. Untuk menghitung akurasi digunakan formula sebagai berikut Prasetyo, 2014.
.......2.5 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB III METODOLOGI PENELITIAN
Pada bab ini dijelaskan mengenai data yang digunakan pada penelitian tugas akhir serta proses sistem yang akan dilakuakan dalam mengklasifikasi
persalinan normal atau caesar dengan menggunakan algoritma C4.5.
3.1 Data
Data yang digunakan dalam penelitian ini adalah data pasien persalinan yang diperoleh dari sebuah rumah sakit umum di Yogyakarta.
Data yang digunakan merupakan data pasien dari tahun 2010-2016. Data tersebut berupa rekam medis pasien yang kemudian disalin ke dalam
sebuah file bertipe
excel
. Dari proses pengumpulan data, diperoleh jumlah data sebanyak 315 data.
Data yang diperoleh terdiri dari : tahun masuk pasien, nomor rekam medis, usia ibu, usia kandungan, berat badan, tinggi badan, hasil tes
laboratorium hemoglobin, hematokrit, lekosit, trombosit, eritrosit, glukosa, protein, dan HbsAG, pinggul sempittidak, hamil primitidak,
hamil tunggalganda, letak janin, presentasi janin, riwayat persalinan, ada riwayat abortustidak, riwayat penyakit diabetes, ginjal, hipertensi,
jantung, kanker, lain-lain, taksiran bobot bayi, ketuban pecah dinitidak, dan jenis persalinan normalcaesar.
3.2 Proses Sistem
Masukkan sistem akan diproses menggunakan algoritma C4.5 dalam teori penambangan data. Alur sistem dan tahapan penelitian
dijabarkan dalam bentuk diagram blok seperti pada gambar 3.1 berikut :