Algoritme K-Means Decision Tree

hubungan yang terdapat pada nilai atribut dari sekumpulan data. Algoritme yang banyak digunakan dalam teknik ini adalah apriori. 3. Clustering. Teknik ini berbeda dengan klasifikasi dan prediksi. Pada teknik ini nama dari masing-masing kelas tidak ditentukan dari awal proses. Clustering dapat digunakan untuk membentuk suatu kelas. Beberapa teknik dalam clustering yaitu: 1. Partitioning method merupakan teknik yang membagi data menjadi beberapa bagian. 2. Hierarchical method membentuk suatu komposisi hirarki dari data objek yang diberikan. 3. Density based method yang dibentuk dari dugaan kepadatan data. 4. Grid based method mengukur ruang objek menjadi beberapa bagian yang membentuk struktur grid. 5. Model based clustering method yang berdasar kepada hipotesis untuk mendapatkan kelas terbaik untuk model yang diberikan.

2.4 Algoritme K-Means

Dasar dari teknik clustering adalah membentuk suatu level partisi pada suatu objek data. Clustering memiliki bermacam- macam teknik, namun dua teknik yang banyak digunakan adalah K-Means dan K- Medoid Tan et al. 2005. K-Means merupakan algoritme cluster yang sederhana. K-Means membagi data menjadi beberapa cluster, setiap cluster memiliki nilai tengah yang disebut dengan centroid. Setiap nilai dimasukkan ke dalam cluster yang dekat dengan centroid. Jumlah cluster pada algoritme ini tergantung kepada masukkan dari penggunanya. Algoritme dasar dari K-Means adalah Tan et al. 2005: Select K points as the initial centroids Repeat From K cluster by assigning all points to the closest centroids Recomputed the centroids of each cluster Until the centroids don’t change Teknik K-Means pada algoritme clustering cukup sederhana. Langkah pertama yang dilakukan dalam algoritme sederhana di atas adalah menentukan K initial centroid, dengan K adalah parameter spesifik yang berupa jumlah dari cluster yang diinginkan. Kemudian setiap nilai dimasukkan ke dalam centroid yang terdekat. Centroid dalam cluster akan berubah sesuai dengan nilai yang ada dalam kelompok tersebut. Langkah peletakan nilai ke dalam centroid terdekat diulang hingga tidak ada nilai yang berpindah cluster, atau tetap pada tempatnya. Pada clustering, terdapat beberapa cara untuk mengevaluasi validitas jumlah cluster . Salah satu ukuran validitas yang dapat digunakan adalah Sum of Squared Error SSE. Formula matematis untuk SSE adalah Tan et al. 2005: ∑ = ∑ ∈ = k 1 j j C x 2 j m , x dist SSE dengan x adalah nilai data yang terdapat di dalam cluster C j dan m j adalah centroid dari cluster C j . Dalam hal ini, distx, m j adalah jarak antara nilai x dengan centroid m j . Jarak atau distx, m j dapat dihitung dengan menggunakan formula jarak Euclidean, yaitu Liu 2005 : || j m i x || j m , i x dist − = 2 jr m ir x ... 2 2 j m 2 i x 2 1 j m 1 i x − + + − + − = dengan ∑ ∈ = j C i x i x | j C | 1 j m

2.5 Decision Tree

Decision tree m erupakan salah satu teknik klasifikasi yang paling populer dan paling banyak digunakan dalam data mining dan machine learning . Decision tree terdiri dari node internal yang menggambarkan data yang diuji, cabang menggambarkan nilai keluaran dari data yang diuji, sedangkan leaf node menggambarkan distribusi kelas dari data yang digunakan. Decision tree digunakan untuk mengklasifikasikan suatu sampel data yang tidak dikenal. Pembentukan decision tree terdiri dari beberapa tahap, yaitu H an Kamber 2001: 1. Konstruksi pohon, yaitu membuatan pohon yang diawali dengan pembentukan bagian akar, kemudian data terbagi berdasarkan atribut –atribut yang cocok untuk dijadikan leaf node. 2. Pemangkasan pohon tree pruning, yaitu mengidentifikasi dan membuang cabang yang tidak diperlukan pada pohon yang telah terbentuk. Ada dua metode dalam melakukan pemangkasan dalam decis ison tree, yaitu: - prepruning: pemangkasan dilakukan sejak awal pembentukan pohon. - postpruning : pemangkasan dilakukan saat pohon telah terbentuk secara utuh 3. Pembentukan aturan keputusan, yaitu membuat aturan keputusan dari pohon yang telah dibentuk. Algoritme dasar dari decision tree adalah Dyer 2001 : - Construct set of candidate partitions S - Select best S in S - Describe each cell C i in S - Test termination condition on each C i true: form a leaf node - false: recurse with C i as new training set Pada algoritme tersebut, langkah pertama yang dilakukan adalah menentukan partisi kandidat , S. S dipilih dari S, S terbaik akan dijadikan node. Pemilihan S terbaik juga bergantung terhadap nilai C i . Untuk nilai S lainnya yang tidak terpilih sebagai node akan dilakukan pemilihan ulang secara rekursif dengan menggunakan sisa C i sebagai training set yang baru. Decision tree memiliki beberapa cara dalam menentukan ukuran data dalam membentuk tree, yaitu menggunakan information gain untuk algoritme ID3C4.5C5.0, gini index untuk algoritme IBMIntelligentMiner dan algoritme SLIQ Clifton 2004. Dari semua algoritme pada decision tree, yang paling populer adalah C4.5, sedangkan C5.0 merupakan algoritme perbaikan dari C4.5. Namun akhir–akhir ini sedang dikembangkan algoritme decision tree yang mampu menangani data dalam skala besar yang tidak dapat ditampung oleh main memory. Algoritme decision tree banyak digunakan dalam proses data mining karena memiliki beberapa kelebihan, yaitu Hoffer 2004: 1. Tidak memerlukan biaya yang mahal saat membangun algoritme ini. 2. Mudah untuk diinterpretasikan. 3. Mudah mengintegrasikan dengan sistem basis data. 4. Memiliki nilai ketelitian yang baik. 5. Dapat menemukan hubungan tak terduga dari suatu data. 6. Dapat menggunakan data pastimutlak atau data kontinu. 7. Mengakomodasi data yang hilang. Selain memiliki keuntungan, decision tree juga memiliki kelemahan, yaitu hubungan yang ditemukan mungkin saja palsu.

2.6 Algoritme C5.0