Algoritme C5.0 Penerapan teknik klasifikasi dengan algoritme decision tree untuk data tanaman pangan dan hortikultura

Pembentukan decision tree terdiri dari beberapa tahap, yaitu H an Kamber 2001: 1. Konstruksi pohon, yaitu membuatan pohon yang diawali dengan pembentukan bagian akar, kemudian data terbagi berdasarkan atribut –atribut yang cocok untuk dijadikan leaf node. 2. Pemangkasan pohon tree pruning, yaitu mengidentifikasi dan membuang cabang yang tidak diperlukan pada pohon yang telah terbentuk. Ada dua metode dalam melakukan pemangkasan dalam decis ison tree, yaitu: - prepruning: pemangkasan dilakukan sejak awal pembentukan pohon. - postpruning : pemangkasan dilakukan saat pohon telah terbentuk secara utuh 3. Pembentukan aturan keputusan, yaitu membuat aturan keputusan dari pohon yang telah dibentuk. Algoritme dasar dari decision tree adalah Dyer 2001 : - Construct set of candidate partitions S - Select best S in S - Describe each cell C i in S - Test termination condition on each C i true: form a leaf node - false: recurse with C i as new training set Pada algoritme tersebut, langkah pertama yang dilakukan adalah menentukan partisi kandidat , S. S dipilih dari S, S terbaik akan dijadikan node. Pemilihan S terbaik juga bergantung terhadap nilai C i . Untuk nilai S lainnya yang tidak terpilih sebagai node akan dilakukan pemilihan ulang secara rekursif dengan menggunakan sisa C i sebagai training set yang baru. Decision tree memiliki beberapa cara dalam menentukan ukuran data dalam membentuk tree, yaitu menggunakan information gain untuk algoritme ID3C4.5C5.0, gini index untuk algoritme IBMIntelligentMiner dan algoritme SLIQ Clifton 2004. Dari semua algoritme pada decision tree, yang paling populer adalah C4.5, sedangkan C5.0 merupakan algoritme perbaikan dari C4.5. Namun akhir–akhir ini sedang dikembangkan algoritme decision tree yang mampu menangani data dalam skala besar yang tidak dapat ditampung oleh main memory. Algoritme decision tree banyak digunakan dalam proses data mining karena memiliki beberapa kelebihan, yaitu Hoffer 2004: 1. Tidak memerlukan biaya yang mahal saat membangun algoritme ini. 2. Mudah untuk diinterpretasikan. 3. Mudah mengintegrasikan dengan sistem basis data. 4. Memiliki nilai ketelitian yang baik. 5. Dapat menemukan hubungan tak terduga dari suatu data. 6. Dapat menggunakan data pastimutlak atau data kontinu. 7. Mengakomodasi data yang hilang. Selain memiliki keuntungan, decision tree juga memiliki kelemahan, yaitu hubungan yang ditemukan mungkin saja palsu.

2.6 Algoritme C5.0

C5.0 merupakan penyempurna an dari algoritme terdahulu yang dibentuk oleh Ross Quinlan pada tahun 1987, yaitu ID3 dan C4.5. Dalam algoritme C5.0, pemilihan atribut yang akan diproses menggunakan ukuran information gain. Ukuran information gain digunakan untuk memilih atribut uji pada setiap node di dalam tree. Ukuran ini digunakan untuk memilih atau membentuk node pada pohon. Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node selanjutnya. Formula untuk information gain adalah Kantardzic, 2003: ∑ = • − = k i S S i C freq S S i C freq S Info 1 | | , 2 log | | , ∑ = ∑ = • − • = n i k i T T i C freq T T i C freq T i T T x Info 1 1 | | , 2 log | | , | | | | maka nilai Information Gain X dapat dihitung dengan T x Info S Info X Gain Informatin − = Dari formula di atas, T adalah training sample yang terbagi menjadi T 1 , T 2 ,..., T n. . Jika S adalah kumpulan dari sampel yang ada, maka freqC i , S adalah jumlah dari sampel S yang dimiliki oleh kelas C i dan |S| adalah jumlah dari sampel S. |T| merupakan jumlah dari sampel T. Secara umum terdapat mekanisme untuk melakukan perhitungan information gain, yaitu Kantardzic 2003 : 1. Standar test yang dilakukan pada data atribut dengan tipe diskrit, dengan satu nilai keluaran dan satu cabang untuk setiap nilai atribut yang mungkin. 2. Jika atribut Y adalah atribut dengan tipe numerik, perhitungan akan dilakukan dengan Y = Z dan Y Z, dimana Z merupakan nilai perbandingan. Untuk mencari nilai perbandingan dapat digunakan nilai tengah dari tiap int erval dari data yang digunakan       + + 2 1 i v i v . Dari formula tersebut, v i adalah nilai ke -i dari data yang digunakan. 3. Pengujian yang lebih kompleks juga terjadi pada atribut diskrit, dimana nilai yang mungkin dialokasikan untuk setiap kelompok vari abel dengan satu keluaran dan cabang untuk setiap grup. Seperti algoritme sebelumnya, C5.0 menggunakan algoritme greedy sebagai dasar dari pembentukan algoritmenya. Berikut adalah algoritme dari C5.0 Dyer 2001 : If empty examples then return default If same-classification example then return class example Best = choose-attribute attributes,example Tree = new node with attribute best For each value v of attribute best do v-example = subset of example with attribute best = v subtree = decision-tree-learning v-example, attribute best, majority- classification example add a branch from tree to subtree with arc labeled v return tree Algoritme pemangkasan pohon pada C5.0 adalah sebagai berikut Dyer 2001: Let bestTree = the tree p roduced by C5.0 on the TRAINING set Let bestAccuracy = the accuracy of bestTree on the TUNING set Let progressMade = true while progressMade SET { Set progressMade = false Let currentTree = bestTree For each interiorNode N including the root in currentTree { Let prunedTree be a copy of currentTree, except replace N by a leaf node whose label equals the majority class among TRAINING set examples that reached node N break ties in favor of - Let newAccuracy = accuracy of prunedTree on the TUNING set IfnewAccuracy = bestAccuracy { bestAccuracy = newAccuracy bestTree = prunedTree progressMade = true } } } return bestTree C5.0 memiliki beberapa fitur penting yang membuat algoritme ini menjadi lebih unggul dibandingkan dengan algoritme terdahulunya dan mengurangi kelemahan yang ada pada algoritme decision tree sebelumnya. Fitur tersebut adalah Quinlan, 2004: 1. C5.0 telah dirancang untuk dapat menganalisis basis data substansial yang berisi puluhan sampai ratusan record dan satuan hingga ratusan field numerik dan nominal. 2. Untuk memaksimumkan tingkat penafsiran pengguna terhadap hasil yang disajikan, maka klasifikasi C5.0 disajikan dalam dua bentuk, menggunakan pohon keputusan dan sekumpulan aturan IF-T HEN yang lebih mudah untuk dimengerti dibandingkan neural network. 3. C5.0 mudah digunakan dan tidak membutuhkan pengetahuan tinggi tentang statistik atau machine learning. METODE PENELITIAN

3.1 Proses Dasar Sistem