Function ID3 kumpulanSampel, AtributTarget, KumpulanAtribut 1.
Buat simpul root 2.
If semua sampel adalah kelas I, maka return pohon satu simpul root dengan label i
3. If kumpulanAtribut = = 0, return pohon satu simpul Root
dengan label = nilai atribut target yang paling sering muncul Else
Hitung Information gain tiap atribut
A adalah Information gain terbesar. Jadikan A sebagai
Root
For V
i
setiap nilai pada atribut A -
Tambahkan cabang untuk tiap nilai V
i
- Buat suatu variabel, misal sampel V
i
, Sebagai himpunan bagian dari kumpulan sampel yang
bernilai V
i
pada atribut A -
If sampel V
i
kosong, maka tambahkan simpul daun dengan label = nilai atribut yang paling sering
muncul. Else
Dibawah cabang tambahkan subtree dengan memanggil fungsi ID3 Sampel
Vi
, AtributTarget, Atribut-[A]
Rekursif. End
End End
4. Return Root
Gambar 2.3: Algoritma ID3
2.5. Entropy
Sebuah obyek yang diklasifikasikan dalam pohon harus dites nilai entropy-nya. Entropy adalah ukuran dari teori informasi yang dapat mengetahui karakteristik
dari impurity dan homogeneity dari kumpulan data. Dari nilai entropy tersebut kemudian dihitung nilai information gain IG masing-masing
atribut.Gambetta,2003.
Universitas Sumatera Utara
Gambar 2.4: Entropy EntropyS = - P+
2
logP + -P-
2
logP- dimana :
S adalah ruang data sample yang digunakan untuk training.
P+ adalah jumlah yang bersolusi positif mendukung pada data
sample untuk kriteria tertentu.
P+ adalah jumlah yang bersolusi negatif tidak mendukung pada data sample untuk kriteria tertentu.
Dari rumus entropy diatas dapat disimpulkan bahwa definisi entropy S adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas +
atau - dari sejumlah data acak pada suatu ruang sampel S. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu
kelas. Semakin kecil nilai entropy maka semakin baik digunakan dalam mengekstraksi suatu kelas. Panjang kode untuk menyatakan informasi secara
optimal adalah –
2
logP bits untuk messages yang mempunyai probabilitas P. Sehingga jumlah bit yang diperkirakan untuk mengekstraksi S ke dalam kelas
adalah : - P+
2
log P+ - P-
2
log P-.
Universitas Sumatera Utara
2.6. Information Gain
Setelah mendapat nilai entropy untuk suatu kumpulan data, maka kita dapat mengukur efektivitas suatu atribut dalam mengklasifikasikan data. Ukuran
efektifitas ini disebut information gain. Secara matematis, information gain dari suatu atribut A, dituliskan sebagai berikut: Gambetta,2003
Gain S,A=EntropyS - EntropyS
v
v Values A
| S
v
| | S |
dimana : A : atribut
V : suatu nilai yang mungkin untuk atribut A Values A : himpunan yang mungkin untuk atribut A
|Sv| : jumlah sampel untuk nilai v |S| : jumlah seluruh sampel data
EntropySv: Entropy untuk sampel-sampel yang memilki nilai v
Universitas Sumatera Utara
2.7. Riset-riset Terkait
Terdapat beberapa riset yang telah dilakukan oleh banyak peneliti berkaitan dengan Decision Tree dengan Algoritma ID3 seperti yang akan dijelaskan di
bawah ini. Nugroho 2007, dalam risetnya menjelaskan bahwa untuk suatu
perusahaan yang secara khusus yang bergerak dibidang jasa, permasalahan yang dihadapi adalah ketika pihak perusahaan mengirimkan barang dengan tujuan
alamat yang diperoleh dari pihak pelanggan, seringkali pihak pelanggan tidak memberikan alamat pengiriman secara tepat sehingga pihak perusahaan harus
memprediksi alamat tersebut secara manual. Dalam melakukan hal ini, membutuhkan waktu yang tidak sedikit sehingga mengurangi kualitas pelayanan
terhadap pelanggan. Dari permasalahan ini, diperlukan suatu solusi yang dapat membantu perusahaan dalam melakukan prediksi suatu alamat yang benar. Salah
satu solusi memprediksi validitas alamat adalah dengan membuat suatu sistem yang dianggap mampu melakukan prediksi suatu alamat secara tepat. Metode
decision tree dengan algoritma ID3 merupakan salah satu metode dari data mining yang digunakan untuk mengklasifikasikan data sampel kedalam kelas-kelas
tertentu. Berdasarkan kemampuan dari metode ini, kemudian dilakukan penelitian untuk menganalisis keefektifitasan metode ini dalam melakukan prediksi alamat
menggunakan kelas yang terbentuk dari metode ini. Bentuk penelitian yang dilakukan adalah dengan melihat tingkat kebenaran yang dihasilkan oleh metode
ini dalam melakukan validitas prediksi suatu alamat pada sekumpulan data uji yang diteliti.
Wahyudin 2009 dalam risetnya juga menjelaskan Konsep pohon merupakan salah satu konsep teori graf yang paling penting. Pemanfaatan struktur
pohon dalam kehidupan sehari-hari adalah untuk menggambarkan hierarki dan memodelkan persoalan, contohnya pohon keputusan decision tree. Iterative
dichotomizes 3 ID3 merupakan suatu metode dalam learning yang akan membangun sebuah pohon keputusan untuk pemodelan dalam mencari solusi dari
persoalan. Dalam jurnal ini akan dibahas pemakaian pohon keputusan dalam bidang pendidikan , yaitu dalam hal penerimaan mahasiswa baru. Kegiatan
Universitas Sumatera Utara
analisis kemahasiswaan diperlukan untuk mendapatkan keputusan yang bersifat menguntungkan demi maju dan berkembangnya suatu universitas dan analisis
penerimaan mahasiswa baru tersebut dapat dilakukan melalui berbagai metode, salah satunya dengan decision tree menggunakan ID3 Iterative Dichotomizes 3.
Sofi Defiyanti dan D. L. Crispina Pardede 2009 dalam risetnya menyampaikan tentang klasifikasi spam mail digunakan untuk memisahkan spam-
mail dari non spam mail legitimate mail. Klasifikasi spam mail berguna untuk menghemat waktu dan biaya yang digunakan untuk menghapus spam mail dari
inbox. Untuk itu diperlukan metode yang paling baik untuk melakukan klasifikasi spam mail. Algoritma decision tree merupakan salah satu metode untuk
klasifikasi spam mail. Algoritma decision tree telah banyak mengalami pengembangan. Algoritma ID3 dan C4.5 adalah salah satu pengembangan dari
algoritma decision tree. Penelitian ini membandingkan kinerja dari dua algoritma tersebut dalam melakukan klasifikasi spam mail. Pengukuran dilakukan
menggunakan sekelompok data uji untuk mengetahui persentase precision, recall dan accuracy. Hasil pengukuran menunjukkan algoritma ID3 memiliki kinerja
yang lebih baik dibandingkan algoritma C4.5.
Universitas Sumatera Utara
BAB III
METODOLOGI PENELITIAN
Data merupakan bahan baku informasi untuk memberikan gambaran spesifik mengenai obyek penelitian. Berdasarkan sumbernya, data penelitian dapat
dikelompokkan dalam dua jenis yaitu data primer dan data sekunder. a. Data Primer adalah data yang diperoleh atau dikumpulkan secara langsung
dari sumber datanya. Data primer disebut juga sebagai data asli atau data baru yang memiliki sifat up to date. Teknik yang dapat digunakan untuk
mengumpulkan data primer antara lain observasi, wawancara, diskusi terfokus focus group discussion - FGD dan penyebaran kuesioner.
b. Data Sekunder adalah data yang diperoleh atau dikumpulkan dari berbagai sumber yang telah ada. Data sekunder dapat diperoleh dari berbagai sumber
seperti buku, laporan, jurnal, dan lain-lain. Tujuan dari usulan tesis ini adalah untuk membuat model dengan pohon
keputusan menggunakan algoritma Iterative Dichotomizes Versi 3 ID3 dalam pembuatan keputusan untuk penetapan strategi pemasaran pada perguruan tinggi
swasta dalam tesis ini mengambil kasus di AMIK Tunas Bangsa.
3.1. Lokasi dan Waktu Penelitian