2.2.3. Teknik Data mining
Ada tiga hal pokok yang harus diperhatikan untuk keberhasilan penerapan data mining, yaitu; teknik data mining, data itu sendiri, dan model data. Teknik
adalah pendekatan umum untuk memecahkan masalah, dan biasanya terdapat banyak cara yang bisa digunakan. Masing-masing cara mempunyai algoritma nya
sendiri-sendiri. Istilah teknik digunakan untuk menunjukkan pendekatan konseptual untuk menyaring informasi dari data. Algoritma menunjukkan detil
tahap demi tahap dari cara tertentu untuk mengimplementasikan suatu teknik. Data mining bisa berupa predictive atau descriptive. Perbedaan ini
menunjukkan tujuan dari penggunaan data mining. Tujuan utama predictive data mining adalah mengotomatisasikan proses pembuatan keputusan dengan membuat
model yang punya kemampuan untuk melakukan prediksi atau mengestimasi suatu nilai. Umumnya hasil dalam predictive data mining akan langsung ditindak
lanjuti Sehingga tolok ukur yang paling penting pada model adalah akurasinya. Data mining sering juga bersifat descriptive. Tujuan utama descriptive data
mining adalah untuk menggali pola yang ada di dalam data. Descriptive data mining sering menghasilkan action, tetapi bukan berupa urutan aksi yang bisa
diotomatisasikan secara langsung dari hasil model Berry Linoff, 2000. Descriptive mining, yaitu proses untuk menemukan karakteristik penting
dari data dalam suatu basis data. Clustering, Association, dan Sequential mining adalah beberapa contoh dari teknik descriptive mining.
Predictive mining, yaitu proses untuk menemukan pola dari data untuk membuat prediksi. Classification, Regression dan Deviation adalah teknik dalam
predictive mining.
2.2.3.1 Association Rule
Association rule merupakan salah satu teknik data mining yang paling banyak digunakan dalam penelusuran pola pada sistem pembelajaran
unsupervised. Metodologi ini akan mengambil seluruh kemungkinan pola-pola yang diamati dalam basis data. Association rule menjelaskan kejadian-kejadian
yang sering muncul dalam suatu kelompok. Misalnya metodologi ini bisa digunakan untuk menganalisa produk-produk mana saja yang sering dibeli oleh
seorang pelanggan secara bersamaan analisa keranjang belanja. Hasil analisis tersebut bisa digunakan untuk menentukan peletakan produk di toko.
Satu itemset adalah himpunan bagian A dari semua kemungkinan item I. Satu itemset yang mengandung i item disebut i-itemset. Prosentase transaksi
yang mengandung itemset disebut support. Untuk suatu itemset yang akan diamati, support-nya harus lebih besar atau sama dengan nilai yang dinyatakan
oleh user, sehingga itemset tersebut dikatakan sering muncul frequent. Bentuk umum aturan asosiasi adalah A1,A2,…,An
→ B1,B2,…,Bm, yang
berarti jika item Ai muncul, item Bj juga muncul dengan peluang tertentu. Misalkan X adalah itemset. transaksi T dikatakan mengandung X jika dan hanya
jika X ⊆
T. Aturan X ⇒
Y menyatakan himpunan basis data transaksi dengan tingkat kepercayaan confidence C, jika C dari transaksi dalam D yang
mengandung X juga mengandung Y. Rule X ⇒
Y mempunyai support dalam transaksi set D jika S dari transaksi dalam basis data berisi X
∪ Y. Tingkat
kepercayaan menunjukkan kekuatan implikasi, dan support menunjukkan seringnya pola terjadi dalam rule. Sebagai contoh diberikan aturan : A, B
⇒ C
dengan S = 0.01 dan C = 0.8. Hal ini berarti bahwa 80 dari semua pelanggan yang membeli A dan B juga membeli C, dan 1 dari semua pelanggan membeli
ketiga item tersebut. Mining association rule dilakukan dalam dua tahap, yaitu
1. Mencari semua association rule yang mempunyai minimum support S
min
dan minimum confidence C
min.
Itemset dikatakan sering muncul frequent jika SupportA
≥ S
min
. 2. Menggunakan itemset yang besar untuk menentukan association rule
untuk basis data yang mempunyai tingkat kepercayaan C di atas nilai minimum yang telah ditentukan C
min.
. 2.2.3.2
Classification-Based Association
Saat ini, salah satu teknik data mining telah dikembangkan adalah dengan menerapkan konsep association rule mining dalam masalah klasifikasi. Ada
beberapa metode yang bisa digunakan, antara lain association rule clustering
system ARCS dan associative classification Han Kamber, 2001. Metode
ARCS melakukan association rule mining didasarkan pada clustering kemudian menggunakan aturan yang dihasilkan untuk klasifikasi. ARCS, melakukan
association rule mining dalam bentuk A
quant1
∧ A
quant2
⇒ A
cat
, dimana bentuk A
quant1
dan A
quant2
adalah data test yang atributnya punya rentang nilai, A
cat
menunjukkan label kelas untuk atribut kategori yang diberikan dari training data. Metode associative classification mining menghasilkan aturan dalam bentuk
condset ⇒
y, dimana condset adalah sekumpulan item dan y adalah label kelas. Aturan yang sesuai dengan minimum support tertentu disebut frequent. Rule
mempunyai support s jika s dari sample dalam data set yang mengandung condset dan memiliki kelas y. Aturan yang sesuai dengan minimum confidence
disebut accurate. Aturan mempunyai confidence c jika c dari sample dalam data set yang mengandung condset memiliki kelas y. Jika beberapa rule mempunyai
condset yang sama, maka rule dengan confidence tertinggi dipilih sebagai possible rule PR. Metode associative classification mining menggunakan
algoritma association rule, seperti algoritma Appriori untuk menghasilkan association rule, kemudian memilih sekelompok aturan yang mempunyai kualitas
tinggi dan menggunakan aturan tersebut untuk memprediksi data. Associative classification masih kurang efisien karena seringkali menghasilkan aturan dalam
jumlah yang besar Yin Han, 2003. Metode
classification-based association lainnya adalah CPAR
Classification based on Predictive Association Rule. Algoritma ini mengambil ide dari FOIL First Order Inductive Leaner dalam menghasilkan aturan dan
mengintegrasikannya dengan associative classification.
2.2.4. Algoritma Appriori