Definisi Algoritma C4.5 Algoritma C4.5

1. Membagi hanya dengan satu variabel. 2. Memiliki pohon keputusan yang tidak stabil.

2.4 Algoritma C4.5

2.4.1 Definisi Algoritma C4.5

Algoritma C4.5 merupakan salah satu algoritma modern yang digunakan untuk melakukan penambangan data. Dalam algoritma C4.5, input berupa sampel training, label training dan atribut. Sampel training berupa data contoh yang akan digunakan untuk membangun sebuah tree yang telah diuji kebenarannya. Sedangkan atribut merupakan field-field data yang nantinya akan digunakan sebagai parameter dalam melakukan klasifikasi data. Kelebihan algoritma C4.5 adalah sebagai berikut : 1. Mampu menangani atribut dengan tipe diskrit atau kontinu. 2. Mampu menangani atribut yang kosong missing value 3. Pembentukan model mudah dipahami. 4. Bisa memangkas cabang. Kekurangan algoritma C4.5 adalah sebagai berikut : 1. Susah membaca data berjumlah besar. Algoritma dasar C4.5 untuk membangun pohon keputusan adalah sebagai berikut : 1. Memilih atribut sebagai akar root. 2. Membuat cabang untuk masing-masing nilai. 3. Membagi kasus dalam cabang. 4. Mengulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Berikut adalah algoritma C4.5 Mitchell, 1997 : Algoritma C4.5 Input : sampel training, label training, atribut  Buat simpul akar untuk pohon yang dibuat.  Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri label +.  Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar, beri label -.  Jika atribut kosong, berhenti dengan suatu pohon dengan satu simpul akar, dengan label sesuai dengan nilai yang terbanyak yang ada pada label training.  Untuk yang lain,  Mulai : o A  atribut yang mengklasifikasikan sampel dengan hasil yang terbaik berdasarkan gain ratio. o Atribut keputusan untuk simpul akar  A. o Untuk setiap nilai, v i yang mungkin untuk A :  Tambahkan cabang di bawah akar yang berhubungan dengan A = v i .  Tentukan sampel Sv i sebagai subset dari sampel yang mempunyai nilai v i untuk atribut A.  Jika sampel Sv i kosong :  Dibawah cabang tambahkan simpul daun dengan label = nilai yang terbanyak yang ada pada label training.  Yang lain, tambah cabang baru dibawah cabang yang sekarang C4.5 sampel training, label training, atribut-[A].  Berhenti Sebelum memilih atribut sebagai akar, dilakukan perhitungan nilai entropy yang dapat dilihat pada persamaan 2.1 Craw, S. ....................................................2.1 Keterangan: S : Himpunan kasus n : Jumlah partisi S pi : Proporsi dari Si terhadap S Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan persamaan berikut seperti pada persamaan 2.2 Craw, S. ............................2.2 Keterangan: S : Himpunan kasus A : Atribut n : Jumlah partisi atribut A |Si| : Jumlah kasus pada partisi ke i |S| : Jumlah kasus dalam S PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Untuk menghitung GainRatio perlu diketahui suatu term baru yang disebut SplitInformation pemisah informasi. SplitInformation dihitung dengan persamaan sebagai berikut. ............................2.3 Dimana sampai adalah c subset yang dihasilkan dari pemecahan dengan menggunakan atribut A yang mempunyai sebanyak c nilai. Selanjutnya GainRatio dihitung dengan persamaan berikut. ............................2.4

Definisi Algoritma C4.5 Algoritma C4.5

2.4 Algoritma C4.5

2.4.1 Definisi Algoritma C4.5

2.5 K-Fold Cross Validation

Parts

Dokumen yang terkait

RANCANG BANGUN SISTEM REKOMENDASI BEASISWA MENGGUNAKAN ALGORITMA KLASIFIKASI C4.5 PADA UNIVERSITAS DIAN NUSWANTORO.

Analisis Faktor-Faktor Penyebab Proses Persalinan Secara Caesar Menggunakan Algoritma Id3 Dengan Metode Decision Tree.

Klasifikasi persalinan normal atau caesar menggunakan algoritma C4 5

Klasifikasi Pendaftar Beasiswa Bidikmisi Universitas Sebelas Maret Menggunakan Algoritma C4.5.

Pemetaan Klasifikasi Data Tweet Kemacetan Lalu Lintas Menggunakan Algoritma C4.5 Halaman Awal

KLASIFIKASI KELAYAKAN KREDIT CALON DEBITUR BANK MENGGUNAKAN ALGORITMA DECISION TREE C4.5 - UDiNus Repository

KLASIFIKASI KELAYAKAN KREDIT CALON DEBITUR BANK MENGGUNAKAN ALGORITMA DECISION TREE C4.5 - UDiNus Repository

KLASIFIKASI KELAYAKAN KREDIT CALON DEBITUR BANK MENGGUNAKAN ALGORITMA DECISION TREE C4.5 - UDiNus Repository

Perbedaan Inisiasi Menyusu Dini antara Persalinan Normal dengan Persalinan Caesar - Diponegoro University | Institutional Repository (UNDIP-IR)

Data Mining : Klasifikasi Menggunakan Algoritma C4.5

Dukungan

Links

Definisi Algoritma C4.5 Algoritma C4.5

2.4 Algoritma C4.5

2.4.1 Definisi Algoritma C4.5

2.5 K-Fold Cross Validation

Parts

Dokumen yang terkait

RANCANG BANGUN SISTEM REKOMENDASI BEASISWA MENGGUNAKAN ALGORITMA KLASIFIKASI C4.5 PADA UNIVERSITAS DIAN NUSWANTORO.

Analisis Faktor-Faktor Penyebab Proses Persalinan Secara Caesar Menggunakan Algoritma Id3 Dengan Metode Decision Tree.

Klasifikasi persalinan normal atau caesar menggunakan algoritma C4 5

Klasifikasi Pendaftar Beasiswa Bidikmisi Universitas Sebelas Maret Menggunakan Algoritma C4.5.

Pemetaan Klasifikasi Data Tweet Kemacetan Lalu Lintas Menggunakan Algoritma C4.5 Halaman Awal

KLASIFIKASI KELAYAKAN KREDIT CALON DEBITUR BANK MENGGUNAKAN ALGORITMA DECISION TREE C4.5 - UDiNus Repository

KLASIFIKASI KELAYAKAN KREDIT CALON DEBITUR BANK MENGGUNAKAN ALGORITMA DECISION TREE C4.5 - UDiNus Repository

KLASIFIKASI KELAYAKAN KREDIT CALON DEBITUR BANK MENGGUNAKAN ALGORITMA DECISION TREE C4.5 - UDiNus Repository

Perbedaan Inisiasi Menyusu Dini antara Persalinan Normal dengan Persalinan Caesar - Diponegoro University | Institutional Repository (UNDIP-IR)

Data Mining : Klasifikasi Menggunakan Algoritma C4.5

Dokumen yang Anda mencari sudah siap untuk unduhkan