Entropy Information Gain KESIMPULAN DAN SARAN

 Kelas-kelas yang diskrit. Kelas digambarkan secara jelas, kelas-kelas yang berkesinambungan dipecah menjadi kategori-kategori jelas seperti nilai baik, sedang, buruk.  Jumlah contoh example yang cukup. Karena pembangkitan induktif digunakan, maka dibutuhkan test case yang cukup untuk membedakan pola yang valid dari peluang suatu kejadian. Pemilihan atribut pada ID3 dilakukan dengan properti statistik, yang disebut dengan information gain. Gain mengukur seberapa baik suatu atribut memisahkan training exampel ke dalam kelas target. Atribut dengan informasi tertinggi akan dipilih. Dengan tujuan untuk mendefinisikan gain, pertama-tama digunakan ide dari teori informasi yang disebut entropi. Entropi mengukur jumlah dari informasi yang ada pada atribut.

2.3.2 Entropy

Entropy adalah ukuran rata-rata bit yang dibutuhkan untuk mendapatkan suatu kelas dari ketidakpastian yang berdasar pada variabel acak pada jumlah sampel. Rumus persamaan dari entropy adalah : EntropyS = -p + log 2 p + - p - log 2 p - dimana :  S = adalah jumlah sampel data yang digunakan.  p + = Jumlah yang bersolusi positif mendukung pada data sampl untuk kriteria tertentu.  p - = adalah jumlah yang bersolusi negatif tidak mendukung pada data sampel untuk kriteria tertentu. Universitas Sumatera Utara

2.3.3. Information Gain

Setelah mendapatkan entropy dari suatu kumpulan data sample, maka dapat diukur efektifitas suatu atribut dari suatu klasifikasi data. Ukuran efektifitas ini disebut information gain. Information gain dari suatu atribut dapat dilihat dari persamaa dibawah ini : GainS, A= EntropyS – Σ | ��| | �| EntropySv dimana :  A = Atribut  V = Menyatakan Suatu nilai yang mungkin untuk suatu atribut A  Values A = Himpunan nilai-nilai yang mungkin untuk atribut A  |Sv| = Jumlah sampel untuk nikai V  |S| = Jumlah seluruh sampel data  EntropySv = Entropy untuk sampel-sampel yang memiliki nilai v Cara kerja metode ID3 adalah dengan menentukan nilai bobot dari setiap atribut, kemudian dilanjutkan dengan proses pemilihan alternatif terbaik dari sejumlah alternatif, dalam hal ini alternatif yang dimaksud adalah pengajuan yang berhak ditindaklanjuti berdasarkan kriteria-kriteria yang ditentukan. Proses tersebut akan terus digunakan untuk proses yang sama rekursif dan nantinya akan membentuk pohon keputusan. Apabila suatu atribut telah menjadi cabang node maka atribut tidak dimasukkan ke dalam perhitungan nilai information gain. Proses ini akan berhenti pasa saat semua data dari anak cabang telah termasuk dalam kelas yang sama atau jika semua atribut telah digunakan tapi masih tersisa dalam kelas yang berbeda. Universitas Sumatera Utara

BAB 3 ANALISIS DAN PERANCANGAN SISTEM