Entropy Information Gain Riset-riset Terkait

Function ID3 kumpulanSampel, AtributTarget, KumpulanAtribut 1. Buat simpul root 2. If semua sampel adalah kelas I, maka return pohon satu simpul root dengan label i 3. If kumpulanAtribut = = 0, return pohon satu simpul Root dengan label = nilai atribut target yang paling sering muncul Else  Hitung Information gain tiap atribut  A adalah Information gain terbesar. Jadikan A sebagai Root  For V i setiap nilai pada atribut A - Tambahkan cabang untuk tiap nilai V i - Buat suatu variabel, misal sampel V i , Sebagai himpunan bagian dari kumpulan sampel yang bernilai V i pada atribut A - If sampel V i kosong, maka tambahkan simpul daun dengan label = nilai atribut yang paling sering muncul. Else Dibawah cabang tambahkan subtree dengan memanggil fungsi ID3 Sampel Vi , AtributTarget, Atribut-[A]  Rekursif. End End End 4. Return Root Gambar 2.3: Algoritma ID3

2.5. Entropy

Sebuah obyek yang diklasifikasikan dalam pohon harus dites nilai entropy-nya. Entropy adalah ukuran dari teori informasi yang dapat mengetahui karakteristik dari impurity dan homogeneity dari kumpulan data. Dari nilai entropy tersebut kemudian dihitung nilai information gain IG masing-masing atribut.Gambetta,2003. Universitas Sumatera Utara Gambar 2.4: Entropy EntropyS = - P+ 2 logP + -P- 2 logP- dimana :  S adalah ruang data sample yang digunakan untuk training.  P+ adalah jumlah yang bersolusi positif mendukung pada data sample untuk kriteria tertentu.  P+ adalah jumlah yang bersolusi negatif tidak mendukung pada data sample untuk kriteria tertentu. Dari rumus entropy diatas dapat disimpulkan bahwa definisi entropy S adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas + atau - dari sejumlah data acak pada suatu ruang sampel S. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin kecil nilai entropy maka semakin baik digunakan dalam mengekstraksi suatu kelas. Panjang kode untuk menyatakan informasi secara optimal adalah – 2 logP bits untuk messages yang mempunyai probabilitas P. Sehingga jumlah bit yang diperkirakan untuk mengekstraksi S ke dalam kelas adalah : - P+ 2 log P+ - P- 2 log P-. Universitas Sumatera Utara

2.6. Information Gain

Setelah mendapat nilai entropy untuk suatu kumpulan data, maka kita dapat mengukur efektivitas suatu atribut dalam mengklasifikasikan data. Ukuran efektifitas ini disebut information gain. Secara matematis, information gain dari suatu atribut A, dituliskan sebagai berikut: Gambetta,2003 Gain S,A=EntropyS - EntropyS v  v  Values A | S v | | S | dimana : A : atribut V : suatu nilai yang mungkin untuk atribut A Values A : himpunan yang mungkin untuk atribut A |Sv| : jumlah sampel untuk nilai v |S| : jumlah seluruh sampel data EntropySv: Entropy untuk sampel-sampel yang memilki nilai v Universitas Sumatera Utara

2.7. Riset-riset Terkait

Terdapat beberapa riset yang telah dilakukan oleh banyak peneliti berkaitan dengan Decision Tree dengan Algoritma ID3 seperti yang akan dijelaskan di bawah ini. Nugroho 2007, dalam risetnya menjelaskan bahwa untuk suatu perusahaan yang secara khusus yang bergerak dibidang jasa, permasalahan yang dihadapi adalah ketika pihak perusahaan mengirimkan barang dengan tujuan alamat yang diperoleh dari pihak pelanggan, seringkali pihak pelanggan tidak memberikan alamat pengiriman secara tepat sehingga pihak perusahaan harus memprediksi alamat tersebut secara manual. Dalam melakukan hal ini, membutuhkan waktu yang tidak sedikit sehingga mengurangi kualitas pelayanan terhadap pelanggan. Dari permasalahan ini, diperlukan suatu solusi yang dapat membantu perusahaan dalam melakukan prediksi suatu alamat yang benar. Salah satu solusi memprediksi validitas alamat adalah dengan membuat suatu sistem yang dianggap mampu melakukan prediksi suatu alamat secara tepat. Metode decision tree dengan algoritma ID3 merupakan salah satu metode dari data mining yang digunakan untuk mengklasifikasikan data sampel kedalam kelas-kelas tertentu. Berdasarkan kemampuan dari metode ini, kemudian dilakukan penelitian untuk menganalisis keefektifitasan metode ini dalam melakukan prediksi alamat menggunakan kelas yang terbentuk dari metode ini. Bentuk penelitian yang dilakukan adalah dengan melihat tingkat kebenaran yang dihasilkan oleh metode ini dalam melakukan validitas prediksi suatu alamat pada sekumpulan data uji yang diteliti. Wahyudin 2009 dalam risetnya juga menjelaskan Konsep pohon merupakan salah satu konsep teori graf yang paling penting. Pemanfaatan struktur pohon dalam kehidupan sehari-hari adalah untuk menggambarkan hierarki dan memodelkan persoalan, contohnya pohon keputusan decision tree. Iterative dichotomizes 3 ID3 merupakan suatu metode dalam learning yang akan membangun sebuah pohon keputusan untuk pemodelan dalam mencari solusi dari persoalan. Dalam jurnal ini akan dibahas pemakaian pohon keputusan dalam bidang pendidikan , yaitu dalam hal penerimaan mahasiswa baru. Kegiatan Universitas Sumatera Utara analisis kemahasiswaan diperlukan untuk mendapatkan keputusan yang bersifat menguntungkan demi maju dan berkembangnya suatu universitas dan analisis penerimaan mahasiswa baru tersebut dapat dilakukan melalui berbagai metode, salah satunya dengan decision tree menggunakan ID3 Iterative Dichotomizes 3. Sofi Defiyanti dan D. L. Crispina Pardede 2009 dalam risetnya menyampaikan tentang klasifikasi spam mail digunakan untuk memisahkan spam- mail dari non spam mail legitimate mail. Klasifikasi spam mail berguna untuk menghemat waktu dan biaya yang digunakan untuk menghapus spam mail dari inbox. Untuk itu diperlukan metode yang paling baik untuk melakukan klasifikasi spam mail. Algoritma decision tree merupakan salah satu metode untuk klasifikasi spam mail. Algoritma decision tree telah banyak mengalami pengembangan. Algoritma ID3 dan C4.5 adalah salah satu pengembangan dari algoritma decision tree. Penelitian ini membandingkan kinerja dari dua algoritma tersebut dalam melakukan klasifikasi spam mail. Pengukuran dilakukan menggunakan sekelompok data uji untuk mengetahui persentase precision, recall dan accuracy. Hasil pengukuran menunjukkan algoritma ID3 memiliki kinerja yang lebih baik dibandingkan algoritma C4.5. Universitas Sumatera Utara BAB III METODOLOGI PENELITIAN Data merupakan bahan baku informasi untuk memberikan gambaran spesifik mengenai obyek penelitian. Berdasarkan sumbernya, data penelitian dapat dikelompokkan dalam dua jenis yaitu data primer dan data sekunder. a. Data Primer adalah data yang diperoleh atau dikumpulkan secara langsung dari sumber datanya. Data primer disebut juga sebagai data asli atau data baru yang memiliki sifat up to date. Teknik yang dapat digunakan untuk mengumpulkan data primer antara lain observasi, wawancara, diskusi terfokus focus group discussion - FGD dan penyebaran kuesioner. b. Data Sekunder adalah data yang diperoleh atau dikumpulkan dari berbagai sumber yang telah ada. Data sekunder dapat diperoleh dari berbagai sumber seperti buku, laporan, jurnal, dan lain-lain. Tujuan dari usulan tesis ini adalah untuk membuat model dengan pohon keputusan menggunakan algoritma Iterative Dichotomizes Versi 3 ID3 dalam pembuatan keputusan untuk penetapan strategi pemasaran pada perguruan tinggi swasta dalam tesis ini mengambil kasus di AMIK Tunas Bangsa.

3.1. Lokasi dan Waktu Penelitian