hubungan yang terdapat pada nilai atribut dari sekumpulan data. Algoritme
yang banyak digunakan dalam teknik ini adalah apriori.
3. Clustering. Teknik ini berbeda dengan
klasifikasi dan prediksi. Pada teknik ini nama dari masing-masing kelas tidak
ditentukan dari awal proses. Clustering dapat digunakan untuk membentuk
suatu kelas. Beberapa teknik dalam clustering yaitu: 1. Partitioning method
merupakan teknik yang membagi data menjadi beberapa bagian. 2.
Hierarchical method membentuk suatu komposisi hirarki dari data objek yang
diberikan. 3. Density based method yang dibentuk dari dugaan kepadatan
data. 4. Grid based method mengukur ruang objek menjadi beberapa bagian
yang
membentuk struktur grid. 5. Model based clustering method yang
berdasar kepada hipotesis untuk mendapatkan kelas terbaik untuk model
yang diberikan.
2.4 Algoritme K-Means
Dasar dari teknik clustering adalah membentuk suatu level partisi pada suatu
objek data. Clustering memiliki bermacam- macam teknik, namun dua teknik yang
banyak digunakan adalah K-Means dan K- Medoid Tan et al. 2005.
K-Means merupakan algoritme cluster yang sederhana. K-Means membagi data
menjadi beberapa cluster, setiap cluster memiliki nilai tengah yang disebut dengan
centroid. Setiap nilai dimasukkan ke dalam cluster yang dekat dengan centroid. Jumlah
cluster pada algoritme ini tergantung kepada masukkan dari penggunanya. Algoritme
dasar dari K-Means adalah Tan et al. 2005:
Select K points as the initial centroids
Repeat From K cluster by assigning
all points to the closest centroids
Recomputed the centroids of each cluster
Until the centroids don’t change
Teknik K-Means pada algoritme clustering cukup sederhana. Langkah pertama yang
dilakukan dalam algoritme sederhana di atas adalah menentukan K initial centroid,
dengan K adalah parameter spesifik yang berupa jumlah dari cluster yang diinginkan.
Kemudian setiap nilai dimasukkan ke dalam centroid yang terdekat. Centroid dalam
cluster akan berubah sesuai dengan nilai yang ada dalam kelompok tersebut. Langkah
peletakan nilai ke dalam centroid terdekat diulang hingga tidak ada nilai yang
berpindah
cluster, atau tetap pada tempatnya.
Pada clustering, terdapat beberapa cara untuk mengevaluasi validitas jumlah cluster .
Salah satu ukuran validitas yang dapat digunakan adalah Sum of Squared Error
SSE. Formula matematis untuk SSE adalah Tan et al. 2005:
∑ =
∑ ∈ =
k 1
j j
C x
2 j
m ,
x dist
SSE
dengan x adalah nilai data yang terdapat di dalam cluster C
j
dan m
j
adalah centroid dari cluster C
j
. Dalam hal ini, distx, m
j
adalah jarak antara nilai x dengan centroid m
j
. Jarak atau distx, m
j
dapat dihitung dengan menggunakan formula jarak
Euclidean, yaitu Liu 2005 :
|| j
m i
x ||
j m
, i
x dist
− =
2 jr
m ir
x ...
2 2
j m
2 i
x 2
1 j
m 1
i x
− +
+ −
+ −
=
dengan
∑ ∈
= j
C i
x i
x |
j C
| 1
j m
2.5 Decision Tree
Decision tree m erupakan salah satu teknik klasifikasi yang paling populer dan
paling banyak digunakan dalam data mining dan machine learning . Decision tree terdiri
dari node internal yang menggambarkan data yang diuji, cabang menggambarkan
nilai keluaran dari data yang diuji, sedangkan
leaf node menggambarkan distribusi kelas dari data yang digunakan.
Decision tree digunakan untuk mengklasifikasikan suatu sampel data yang
tidak dikenal.
Pembentukan decision tree terdiri dari beberapa tahap, yaitu H an Kamber
2001: 1.
Konstruksi pohon, yaitu membuatan pohon yang diawali dengan
pembentukan bagian akar, kemudian data terbagi berdasarkan atribut –atribut
yang cocok untuk dijadikan leaf node.
2. Pemangkasan pohon tree pruning,
yaitu mengidentifikasi dan membuang cabang yang tidak diperlukan pada
pohon yang telah terbentuk. Ada dua metode dalam melakukan pemangkasan
dalam decis ison tree, yaitu:
- prepruning: pemangkasan dilakukan sejak awal pembentukan pohon.
- postpruning : pemangkasan dilakukan saat pohon telah terbentuk secara utuh
3. Pembentukan aturan keputusan, yaitu
membuat aturan keputusan dari pohon yang telah dibentuk.
Algoritme dasar dari decision tree adalah Dyer 2001 :
- Construct set of candidate
partitions S -
Select best S in S - Describe each cell C
i
in S - Test termination condition on
each C
i
true: form a leaf
node
- false: recurse with C
i
as new training set
Pada algoritme tersebut, langkah pertama yang dilakukan adalah menentukan partisi
kandidat , S. S dipilih dari S, S terbaik akan dijadikan node. Pemilihan S terbaik
juga bergantung terhadap nilai C
i
. Untuk nilai S lainnya yang tidak terpilih sebagai
node akan dilakukan pemilihan ulang secara rekursif dengan menggunakan sisa C
i
sebagai training set yang baru. Decision tree memiliki beberapa cara
dalam menentukan ukuran data dalam membentuk
tree, yaitu menggunakan information gain
untuk algoritme
ID3C4.5C5.0, gini index untuk algoritme IBMIntelligentMiner dan algoritme SLIQ
Clifton 2004. Dari semua algoritme pada decision tree,
yang paling populer adalah C4.5, sedangkan C5.0 merupakan algoritme perbaikan dari
C4.5. Namun akhir–akhir ini sedang dikembangkan algoritme decision tree yang
mampu menangani data dalam skala besar yang tidak dapat ditampung oleh main
memory. Algoritme
decision tree banyak
digunakan dalam proses data mining karena memiliki beberapa kelebihan, yaitu Hoffer
2004: 1.
Tidak memerlukan biaya yang mahal saat membangun algoritme ini.
2. Mudah untuk diinterpretasikan.
3. Mudah mengintegrasikan dengan sistem
basis data. 4.
Memiliki nilai ketelitian yang baik. 5.
Dapat menemukan hubungan tak terduga dari suatu data.
6. Dapat menggunakan data pastimutlak
atau data kontinu. 7.
Mengakomodasi data yang hilang. Selain memiliki keuntungan, decision
tree juga memiliki kelemahan, yaitu hubungan yang ditemukan mungkin saja
palsu.
2.6 Algoritme C5.0