pengggunaan istilah prediksi untuk memprediksi nilai-nilai yang kontinyu sebagai
prediction Han Kamber, 2001.
2.2.2 Metodologi Data mining
Ada beberapa konsep yang penting pada data mining. Konsep pertama berkaitan dengan mencari pola di dalam data. Biasanya berupa kumpulan data
yang sering muncul. Tetapi secara umum berupa suatu daftar atau pola data yang muncul lebih sering dari yang diharapkan saat dilakukan secara acak. Konsep
yang kedua adalah sampling, yang bertujuan untuk memperoleh keterangan mengenai populasi dengan mengamati hanya sebahagian saja dari populasi itu.
Hal lain yang juga penting yang berhubungan dengan data mining adalah validasi model prediksi yang muncul dari algoritma data mining. Model
digunakan untuk membuat prediksi tentang suatu record yang menggambarkan keadaan nyata yang baru, dan model terbatas hanya merefleksika n basis data
histori dimana model tersebut dibuat. Model adalah deskripsi dari data historis dimana model tersebut dibangun untuk bisa diterapkan ke data baru dengan tujuan
membuat prediksi tentang nilai-nilai yang terputus atau untuk membuat pernyataan tentang nilai yang diharapkan, sedangkan Pola adalah suatu kejadian
atau kombinasi kejadian dalam suatu basis data yang terjadi atau muncul lebih sering dari yang diharapkan Berson et al., 2001.
Gambar proses pembuatan datamining dengan menggunakan konsep Berson et al disajikan dalam gambar berikut ini
Data Historis
Model Pembuatan
Model
Record Prediksi
1 4 3
Gambar 4. Model proses pembuatan data mining Sumber: Berson, 2001.
2.2.3. Teknik Data mining
Ada tiga hal pokok yang harus diperhatikan untuk keberhasilan penerapan data mining, yaitu; teknik data mining, data itu sendiri, dan model data. Teknik
adalah pendekatan umum untuk memecahkan masalah, dan biasanya terdapat banyak cara yang bisa digunakan. Masing-masing cara mempunyai algoritma nya
sendiri-sendiri. Istilah teknik digunakan untuk menunjukkan pendekatan konseptual untuk menyaring informasi dari data. Algoritma menunjukkan detil
tahap demi tahap dari cara tertentu untuk mengimplementasikan suatu teknik. Data mining bisa berupa predictive atau descriptive. Perbedaan ini
menunjukkan tujuan dari penggunaan data mining. Tujuan utama predictive data mining adalah mengotomatisasikan proses pembuatan keputusan dengan membuat
model yang punya kemampuan untuk melakukan prediksi atau mengestimasi suatu nilai. Umumnya hasil dalam predictive data mining akan langsung ditindak
lanjuti Sehingga tolok ukur yang paling penting pada model adalah akurasinya. Data mining sering juga bersifat descriptive. Tujuan utama descriptive data
mining adalah untuk menggali pola yang ada di dalam data. Descriptive data mining sering menghasilkan action, tetapi bukan berupa urutan aksi yang bisa
diotomatisasikan secara langsung dari hasil model Berry Linoff, 2000. Descriptive mining, yaitu proses untuk menemukan karakteristik penting
dari data dalam suatu basis data. Clustering, Association, dan Sequential mining adalah beberapa contoh dari teknik descriptive mining.
Predictive mining, yaitu proses untuk menemukan pola dari data untuk membuat prediksi. Classification, Regression dan Deviation adalah teknik dalam
predictive mining.
2.2.3.1 Association Rule
Association rule merupakan salah satu teknik data mining yang paling banyak digunakan dalam penelusuran pola pada sistem pembelajaran
unsupervised. Metodologi ini akan mengambil seluruh kemungkinan pola-pola yang diamati dalam basis data. Association rule menjelaskan kejadian-kejadian
yang sering muncul dalam suatu kelompok. Misalnya metodologi ini bisa digunakan untuk menganalisa produk-produk mana saja yang sering dibeli oleh
seorang pelanggan secara bersamaan analisa keranjang belanja. Hasil analisis tersebut bisa digunakan untuk menentukan peletakan produk di toko.
Satu itemset adalah himpunan bagian A dari semua kemungkinan item I. Satu itemset yang mengandung i item disebut i-itemset. Prosentase transaksi
yang mengandung itemset disebut support. Untuk suatu itemset yang akan diamati, support-nya harus lebih besar atau sama dengan nilai yang dinyatakan
oleh user, sehingga itemset tersebut dikatakan sering muncul frequent. Bentuk umum aturan asosiasi adalah A1,A2,…,An
→ B1,B2,…,Bm, yang
berarti jika item Ai muncul, item Bj juga muncul dengan peluang tertentu. Misalkan X adalah itemset. transaksi T dikatakan mengandung X jika dan hanya
jika X ⊆
T. Aturan X ⇒
Y menyatakan himpunan basis data transaksi dengan tingkat kepercayaan confidence C, jika C dari transaksi dalam D yang
mengandung X juga mengandung Y. Rule X ⇒
Y mempunyai support dalam transaksi set D jika S dari transaksi dalam basis data berisi X
∪ Y. Tingkat
kepercayaan menunjukkan kekuatan implikasi, dan support menunjukkan seringnya pola terjadi dalam rule. Sebagai contoh diberikan aturan : A, B
⇒ C
dengan S = 0.01 dan C = 0.8. Hal ini berarti bahwa 80 dari semua pelanggan yang membeli A dan B juga membeli C, dan 1 dari semua pelanggan membeli
ketiga item tersebut. Mining association rule dilakukan dalam dua tahap, yaitu
1. Mencari semua association rule yang mempunyai minimum support S
min
dan minimum confidence C
min.
Itemset dikatakan sering muncul frequent jika SupportA
≥ S
min
. 2. Menggunakan itemset yang besar untuk menentukan association rule
untuk basis data yang mempunyai tingkat kepercayaan C di atas nilai minimum yang telah ditentukan C
min.
. 2.2.3.2
Classification-Based Association
Saat ini, salah satu teknik data mining telah dikembangkan adalah dengan menerapkan konsep association rule mining dalam masalah klasifikasi. Ada
beberapa metode yang bisa digunakan, antara lain association rule clustering
system ARCS dan associative classification Han Kamber, 2001. Metode
ARCS melakukan association rule mining didasarkan pada clustering kemudian menggunakan aturan yang dihasilkan untuk klasifikasi. ARCS, melakukan
association rule mining dalam bentuk A
quant1
∧ A
quant2
⇒ A
cat
, dimana bentuk A
quant1
dan A
quant2
adalah data test yang atributnya punya rentang nilai, A
cat
menunjukkan label kelas untuk atribut kategori yang diberikan dari training data. Metode associative classification mining menghasilkan aturan dalam bentuk
condset ⇒
y, dimana condset adalah sekumpulan item dan y adalah label kelas. Aturan yang sesuai dengan minimum support tertentu disebut frequent. Rule
mempunyai support s jika s dari sample dalam data set yang mengandung condset dan memiliki kelas y. Aturan yang sesuai dengan minimum confidence
disebut accurate. Aturan mempunyai confidence c jika c dari sample dalam data set yang mengandung condset memiliki kelas y. Jika beberapa rule mempunyai
condset yang sama, maka rule dengan confidence tertinggi dipilih sebagai possible rule PR. Metode associative classification mining menggunakan
algoritma association rule, seperti algoritma Appriori untuk menghasilkan association rule, kemudian memilih sekelompok aturan yang mempunyai kualitas
tinggi dan menggunakan aturan tersebut untuk memprediksi data. Associative classification masih kurang efisien karena seringkali menghasilkan aturan dalam
jumlah yang besar Yin Han, 2003. Metode
classification-based association lainnya adalah CPAR
Classification based on Predictive Association Rule. Algoritma ini mengambil ide dari FOIL First Order Inductive Leaner dalam menghasilkan aturan dan
mengintegrasikannya dengan associative classification.
2.2.4. Algoritma Appriori
Algoritma apriori menghitung seringnya itemset muncul dalam basis data melalui beberapa iterasi. Setiap iterasi mempunyai dua tahapan; menentukan
kandidat dan memilih serta menghitung kandidat. Pada tahap pertama iterasi pertama, himpunan yang dihasilkan dari kandidat itemset berisi seluruh 1-itemset,
yaitu seluruh item dalam basis data. Pada tahap kedua, algoritma ini menghitung support-nya mencari melalui keseluruhan basis data Pada akhirnya hanya i-
itemset dengan batas minimum tertentu saja yang dianggap sering muncul
frequent. Sehingga setelah iterasi pertama, seluruh i-itemset yang sering muncul akan diketahui. Pada iterasi kedua, algoritma appriori mengurangi sekelompok
kandidat itemset yang dihasilkan dari iterasi pertama dengan menghapus kandidat itemset yang tidak sering muncul. Penghapusan ini berdasarkan pengamatan yaitu
apakah itemset tersebut sering muncul atau tidak. 1. k = 1
2. C1 = I semua item 3. While Ck 0
a . Sk = Ck b .Ck + 1 = Semua himpunan dengan k=1 elemen yang terbentuk
dengan menggabungkan dua
itemset
dalam sk c . Ck + 1 = Ck + 1
d . S = S + Sk e . k + +
4. return S Tabel 2. Transaksi Penjualan Barang
A B
C D
E Pelanggan 1
1 1
1 Pelanggan 2
1 1
1 Pelanggan 3
1 1
1 1
Pelanggan 4 1
Misalkan pada tabel 2, akan dicari seluruh itemset dengan minimal support S
min
= 50. Sehingga itemset dianggap sering muncul jika ia terdapat pada paling tidak di 50 transaksi. Dalam setiap iterasi, algoritma appriori membentuk
kandidat set, menghitung jumlah kejadian dari setiap kandidat dan memilih itemset didasarkan pada minimum support yang telah ditentukan sebelumnya yaitu
50. Pada tahap pertama iterasi pertama, semua item adalah kandidat. Algoritma
appriori hanya menelusuri semua transaksi dalam basis data dan membuat daftar kandidat, yaitu ;
C1 = [ A, B, C, D, E ] L1 = [ A, B, C, D, E ]
Pada tahap berikutnya , algoritma appriori menghitung terjadinya setiap kandidat dan berdasarkan nilai minimum support S
min
, kemudian menentukan itemset yang sering muncul, setelah tahap ini kandidat berisi:
L1 = [A,B, C, E ]
D
dikeluarkan karena nilai S = 25, hanya ada satu transaksi dari keseluruhan empat transaksi..
Untuk menelusuri himpunan 2-itemset, karena himpunan bagian subset dari 2- itemset juga mempunyai minimum support yang sama, algoritma appriori
menggunakan L1 L1 untuk membuat kandidat. Operasi didefinisikan sebagai berikut ;
Lk Lk = [X U Y dimana X,Y Ε
Lk, X ∩
Y=K-1 , Untuk k =1
⇒ |L1| . |L1-12| = 4 . 32 = 6
Pada iterasi kedua kandidat berisi : C2 = [ A,B, A,C, A,E, B,C, B,E, C,E ].
Pada tahap berikutnya , algoritma appriori menghitung terjadinya setiap kandidat dan berdasarkan nilai minimum support S
min
, kemudian menentukan itemset yang sering muncul, setelah tahap ini kandidat berisi:
L2 = [ A,C, B,C, B,E, C,E ] Himpunan 3-itemset dihasilkan dari S2 menggunakan operasi yang sudah
ditentukan sebelumnya L2 L2. Langkah praktisnya, dari L2 dengan item yang pertama sama, yaitu B,C, B,E,dinyatakan pertama. Kemudian algoritma
appriori akan mencek apakah 2-itemset C,E, yang berisi item kedua dari B,C, B,E terdapat pada L2 atau tidak. Karena C,E ada dalam L2, maka B,C,E
menjadi kandidat 3-itemset. Karena tidak ada kandidat 4-itemset, maka algoritma ini berakhir.
2.2.5. Membuat Association Rule berdasarkan Frequent Itemset