Association Rule Teknik Data mining

2.2.3. Teknik Data mining

Ada tiga hal pokok yang harus diperhatikan untuk keberhasilan penerapan data mining, yaitu; teknik data mining, data itu sendiri, dan model data. Teknik adalah pendekatan umum untuk memecahkan masalah, dan biasanya terdapat banyak cara yang bisa digunakan. Masing-masing cara mempunyai algoritma nya sendiri-sendiri. Istilah teknik digunakan untuk menunjukkan pendekatan konseptual untuk menyaring informasi dari data. Algoritma menunjukkan detil tahap demi tahap dari cara tertentu untuk mengimplementasikan suatu teknik. Data mining bisa berupa predictive atau descriptive. Perbedaan ini menunjukkan tujuan dari penggunaan data mining. Tujuan utama predictive data mining adalah mengotomatisasikan proses pembuatan keputusan dengan membuat model yang punya kemampuan untuk melakukan prediksi atau mengestimasi suatu nilai. Umumnya hasil dalam predictive data mining akan langsung ditindak lanjuti Sehingga tolok ukur yang paling penting pada model adalah akurasinya. Data mining sering juga bersifat descriptive. Tujuan utama descriptive data mining adalah untuk menggali pola yang ada di dalam data. Descriptive data mining sering menghasilkan action, tetapi bukan berupa urutan aksi yang bisa diotomatisasikan secara langsung dari hasil model Berry Linoff, 2000. Descriptive mining, yaitu proses untuk menemukan karakteristik penting dari data dalam suatu basis data. Clustering, Association, dan Sequential mining adalah beberapa contoh dari teknik descriptive mining. Predictive mining, yaitu proses untuk menemukan pola dari data untuk membuat prediksi. Classification, Regression dan Deviation adalah teknik dalam predictive mining.

2.2.3.1 Association Rule

Association rule merupakan salah satu teknik data mining yang paling banyak digunakan dalam penelusuran pola pada sistem pembelajaran unsupervised. Metodologi ini akan mengambil seluruh kemungkinan pola-pola yang diamati dalam basis data. Association rule menjelaskan kejadian-kejadian yang sering muncul dalam suatu kelompok. Misalnya metodologi ini bisa digunakan untuk menganalisa produk-produk mana saja yang sering dibeli oleh seorang pelanggan secara bersamaan analisa keranjang belanja. Hasil analisis tersebut bisa digunakan untuk menentukan peletakan produk di toko. Satu itemset adalah himpunan bagian A dari semua kemungkinan item I. Satu itemset yang mengandung i item disebut i-itemset. Prosentase transaksi yang mengandung itemset disebut support. Untuk suatu itemset yang akan diamati, support-nya harus lebih besar atau sama dengan nilai yang dinyatakan oleh user, sehingga itemset tersebut dikatakan sering muncul frequent. Bentuk umum aturan asosiasi adalah A1,A2,…,An → B1,B2,…,Bm, yang berarti jika item Ai muncul, item Bj juga muncul dengan peluang tertentu. Misalkan X adalah itemset. transaksi T dikatakan mengandung X jika dan hanya jika X ⊆ T. Aturan X ⇒ Y menyatakan himpunan basis data transaksi dengan tingkat kepercayaan confidence C, jika C dari transaksi dalam D yang mengandung X juga mengandung Y. Rule X ⇒ Y mempunyai support dalam transaksi set D jika S dari transaksi dalam basis data berisi X ∪ Y. Tingkat kepercayaan menunjukkan kekuatan implikasi, dan support menunjukkan seringnya pola terjadi dalam rule. Sebagai contoh diberikan aturan : A, B ⇒ C dengan S = 0.01 dan C = 0.8. Hal ini berarti bahwa 80 dari semua pelanggan yang membeli A dan B juga membeli C, dan 1 dari semua pelanggan membeli ketiga item tersebut. Mining association rule dilakukan dalam dua tahap, yaitu 1. Mencari semua association rule yang mempunyai minimum support S min dan minimum confidence C min. Itemset dikatakan sering muncul frequent jika SupportA ≥ S min . 2. Menggunakan itemset yang besar untuk menentukan association rule untuk basis data yang mempunyai tingkat kepercayaan C di atas nilai minimum yang telah ditentukan C min. . 2.2.3.2 Classification-Based Association Saat ini, salah satu teknik data mining telah dikembangkan adalah dengan menerapkan konsep association rule mining dalam masalah klasifikasi. Ada beberapa metode yang bisa digunakan, antara lain association rule clustering system ARCS dan associative classification Han Kamber, 2001. Metode ARCS melakukan association rule mining didasarkan pada clustering kemudian menggunakan aturan yang dihasilkan untuk klasifikasi. ARCS, melakukan association rule mining dalam bentuk A quant1 ∧ A quant2 ⇒ A cat , dimana bentuk A quant1 dan A quant2 adalah data test yang atributnya punya rentang nilai, A cat menunjukkan label kelas untuk atribut kategori yang diberikan dari training data. Metode associative classification mining menghasilkan aturan dalam bentuk condset ⇒ y, dimana condset adalah sekumpulan item dan y adalah label kelas. Aturan yang sesuai dengan minimum support tertentu disebut frequent. Rule mempunyai support s jika s dari sample dalam data set yang mengandung condset dan memiliki kelas y. Aturan yang sesuai dengan minimum confidence disebut accurate. Aturan mempunyai confidence c jika c dari sample dalam data set yang mengandung condset memiliki kelas y. Jika beberapa rule mempunyai condset yang sama, maka rule dengan confidence tertinggi dipilih sebagai possible rule PR. Metode associative classification mining menggunakan algoritma association rule, seperti algoritma Appriori untuk menghasilkan association rule, kemudian memilih sekelompok aturan yang mempunyai kualitas tinggi dan menggunakan aturan tersebut untuk memprediksi data. Associative classification masih kurang efisien karena seringkali menghasilkan aturan dalam jumlah yang besar Yin Han, 2003. Metode classification-based association lainnya adalah CPAR Classification based on Predictive Association Rule. Algoritma ini mengambil ide dari FOIL First Order Inductive Leaner dalam menghasilkan aturan dan mengintegrasikannya dengan associative classification.

2.2.4. Algoritma Appriori