Metodologi Data mining Algoritma Appriori

pengggunaan istilah prediksi untuk memprediksi nilai-nilai yang kontinyu sebagai prediction Han Kamber, 2001.

2.2.2 Metodologi Data mining

Ada beberapa konsep yang penting pada data mining. Konsep pertama berkaitan dengan mencari pola di dalam data. Biasanya berupa kumpulan data yang sering muncul. Tetapi secara umum berupa suatu daftar atau pola data yang muncul lebih sering dari yang diharapkan saat dilakukan secara acak. Konsep yang kedua adalah sampling, yang bertujuan untuk memperoleh keterangan mengenai populasi dengan mengamati hanya sebahagian saja dari populasi itu. Hal lain yang juga penting yang berhubungan dengan data mining adalah validasi model prediksi yang muncul dari algoritma data mining. Model digunakan untuk membuat prediksi tentang suatu record yang menggambarkan keadaan nyata yang baru, dan model terbatas hanya merefleksika n basis data histori dimana model tersebut dibuat. Model adalah deskripsi dari data historis dimana model tersebut dibangun untuk bisa diterapkan ke data baru dengan tujuan membuat prediksi tentang nilai-nilai yang terputus atau untuk membuat pernyataan tentang nilai yang diharapkan, sedangkan Pola adalah suatu kejadian atau kombinasi kejadian dalam suatu basis data yang terjadi atau muncul lebih sering dari yang diharapkan Berson et al., 2001. Gambar proses pembuatan datamining dengan menggunakan konsep Berson et al disajikan dalam gambar berikut ini Data Historis Model Pembuatan Model Record Prediksi 1 4 3 Gambar 4. Model proses pembuatan data mining Sumber: Berson, 2001.

2.2.3. Teknik Data mining

Ada tiga hal pokok yang harus diperhatikan untuk keberhasilan penerapan data mining, yaitu; teknik data mining, data itu sendiri, dan model data. Teknik adalah pendekatan umum untuk memecahkan masalah, dan biasanya terdapat banyak cara yang bisa digunakan. Masing-masing cara mempunyai algoritma nya sendiri-sendiri. Istilah teknik digunakan untuk menunjukkan pendekatan konseptual untuk menyaring informasi dari data. Algoritma menunjukkan detil tahap demi tahap dari cara tertentu untuk mengimplementasikan suatu teknik. Data mining bisa berupa predictive atau descriptive. Perbedaan ini menunjukkan tujuan dari penggunaan data mining. Tujuan utama predictive data mining adalah mengotomatisasikan proses pembuatan keputusan dengan membuat model yang punya kemampuan untuk melakukan prediksi atau mengestimasi suatu nilai. Umumnya hasil dalam predictive data mining akan langsung ditindak lanjuti Sehingga tolok ukur yang paling penting pada model adalah akurasinya. Data mining sering juga bersifat descriptive. Tujuan utama descriptive data mining adalah untuk menggali pola yang ada di dalam data. Descriptive data mining sering menghasilkan action, tetapi bukan berupa urutan aksi yang bisa diotomatisasikan secara langsung dari hasil model Berry Linoff, 2000. Descriptive mining, yaitu proses untuk menemukan karakteristik penting dari data dalam suatu basis data. Clustering, Association, dan Sequential mining adalah beberapa contoh dari teknik descriptive mining. Predictive mining, yaitu proses untuk menemukan pola dari data untuk membuat prediksi. Classification, Regression dan Deviation adalah teknik dalam predictive mining.

2.2.3.1 Association Rule

Association rule merupakan salah satu teknik data mining yang paling banyak digunakan dalam penelusuran pola pada sistem pembelajaran unsupervised. Metodologi ini akan mengambil seluruh kemungkinan pola-pola yang diamati dalam basis data. Association rule menjelaskan kejadian-kejadian yang sering muncul dalam suatu kelompok. Misalnya metodologi ini bisa digunakan untuk menganalisa produk-produk mana saja yang sering dibeli oleh seorang pelanggan secara bersamaan analisa keranjang belanja. Hasil analisis tersebut bisa digunakan untuk menentukan peletakan produk di toko. Satu itemset adalah himpunan bagian A dari semua kemungkinan item I. Satu itemset yang mengandung i item disebut i-itemset. Prosentase transaksi yang mengandung itemset disebut support. Untuk suatu itemset yang akan diamati, support-nya harus lebih besar atau sama dengan nilai yang dinyatakan oleh user, sehingga itemset tersebut dikatakan sering muncul frequent. Bentuk umum aturan asosiasi adalah A1,A2,…,An → B1,B2,…,Bm, yang berarti jika item Ai muncul, item Bj juga muncul dengan peluang tertentu. Misalkan X adalah itemset. transaksi T dikatakan mengandung X jika dan hanya jika X ⊆ T. Aturan X ⇒ Y menyatakan himpunan basis data transaksi dengan tingkat kepercayaan confidence C, jika C dari transaksi dalam D yang mengandung X juga mengandung Y. Rule X ⇒ Y mempunyai support dalam transaksi set D jika S dari transaksi dalam basis data berisi X ∪ Y. Tingkat kepercayaan menunjukkan kekuatan implikasi, dan support menunjukkan seringnya pola terjadi dalam rule. Sebagai contoh diberikan aturan : A, B ⇒ C dengan S = 0.01 dan C = 0.8. Hal ini berarti bahwa 80 dari semua pelanggan yang membeli A dan B juga membeli C, dan 1 dari semua pelanggan membeli ketiga item tersebut. Mining association rule dilakukan dalam dua tahap, yaitu 1. Mencari semua association rule yang mempunyai minimum support S min dan minimum confidence C min. Itemset dikatakan sering muncul frequent jika SupportA ≥ S min . 2. Menggunakan itemset yang besar untuk menentukan association rule untuk basis data yang mempunyai tingkat kepercayaan C di atas nilai minimum yang telah ditentukan C min. . 2.2.3.2 Classification-Based Association Saat ini, salah satu teknik data mining telah dikembangkan adalah dengan menerapkan konsep association rule mining dalam masalah klasifikasi. Ada beberapa metode yang bisa digunakan, antara lain association rule clustering system ARCS dan associative classification Han Kamber, 2001. Metode ARCS melakukan association rule mining didasarkan pada clustering kemudian menggunakan aturan yang dihasilkan untuk klasifikasi. ARCS, melakukan association rule mining dalam bentuk A quant1 ∧ A quant2 ⇒ A cat , dimana bentuk A quant1 dan A quant2 adalah data test yang atributnya punya rentang nilai, A cat menunjukkan label kelas untuk atribut kategori yang diberikan dari training data. Metode associative classification mining menghasilkan aturan dalam bentuk condset ⇒ y, dimana condset adalah sekumpulan item dan y adalah label kelas. Aturan yang sesuai dengan minimum support tertentu disebut frequent. Rule mempunyai support s jika s dari sample dalam data set yang mengandung condset dan memiliki kelas y. Aturan yang sesuai dengan minimum confidence disebut accurate. Aturan mempunyai confidence c jika c dari sample dalam data set yang mengandung condset memiliki kelas y. Jika beberapa rule mempunyai condset yang sama, maka rule dengan confidence tertinggi dipilih sebagai possible rule PR. Metode associative classification mining menggunakan algoritma association rule, seperti algoritma Appriori untuk menghasilkan association rule, kemudian memilih sekelompok aturan yang mempunyai kualitas tinggi dan menggunakan aturan tersebut untuk memprediksi data. Associative classification masih kurang efisien karena seringkali menghasilkan aturan dalam jumlah yang besar Yin Han, 2003. Metode classification-based association lainnya adalah CPAR Classification based on Predictive Association Rule. Algoritma ini mengambil ide dari FOIL First Order Inductive Leaner dalam menghasilkan aturan dan mengintegrasikannya dengan associative classification.

2.2.4. Algoritma Appriori

Algoritma apriori menghitung seringnya itemset muncul dalam basis data melalui beberapa iterasi. Setiap iterasi mempunyai dua tahapan; menentukan kandidat dan memilih serta menghitung kandidat. Pada tahap pertama iterasi pertama, himpunan yang dihasilkan dari kandidat itemset berisi seluruh 1-itemset, yaitu seluruh item dalam basis data. Pada tahap kedua, algoritma ini menghitung support-nya mencari melalui keseluruhan basis data Pada akhirnya hanya i- itemset dengan batas minimum tertentu saja yang dianggap sering muncul frequent. Sehingga setelah iterasi pertama, seluruh i-itemset yang sering muncul akan diketahui. Pada iterasi kedua, algoritma appriori mengurangi sekelompok kandidat itemset yang dihasilkan dari iterasi pertama dengan menghapus kandidat itemset yang tidak sering muncul. Penghapusan ini berdasarkan pengamatan yaitu apakah itemset tersebut sering muncul atau tidak. 1. k = 1 2. C1 = I semua item 3. While Ck 0 a . Sk = Ck b .Ck + 1 = Semua himpunan dengan k=1 elemen yang terbentuk dengan menggabungkan dua itemset dalam sk c . Ck + 1 = Ck + 1 d . S = S + Sk e . k + + 4. return S Tabel 2. Transaksi Penjualan Barang A B C D E Pelanggan 1 1 1 1 Pelanggan 2 1 1 1 Pelanggan 3 1 1 1 1 Pelanggan 4 1 Misalkan pada tabel 2, akan dicari seluruh itemset dengan minimal support S min = 50. Sehingga itemset dianggap sering muncul jika ia terdapat pada paling tidak di 50 transaksi. Dalam setiap iterasi, algoritma appriori membentuk kandidat set, menghitung jumlah kejadian dari setiap kandidat dan memilih itemset didasarkan pada minimum support yang telah ditentukan sebelumnya yaitu 50. Pada tahap pertama iterasi pertama, semua item adalah kandidat. Algoritma appriori hanya menelusuri semua transaksi dalam basis data dan membuat daftar kandidat, yaitu ; C1 = [ A, B, C, D, E ] L1 = [ A, B, C, D, E ] Pada tahap berikutnya , algoritma appriori menghitung terjadinya setiap kandidat dan berdasarkan nilai minimum support S min , kemudian menentukan itemset yang sering muncul, setelah tahap ini kandidat berisi: L1 = [A,B, C, E ]  D  dikeluarkan karena nilai S = 25, hanya ada satu transaksi dari keseluruhan empat transaksi.. Untuk menelusuri himpunan 2-itemset, karena himpunan bagian subset dari 2- itemset juga mempunyai minimum support yang sama, algoritma appriori menggunakan L1 L1 untuk membuat kandidat. Operasi didefinisikan sebagai berikut ; Lk Lk = [X U Y dimana X,Y Ε Lk, X ∩ Y=K-1 , Untuk k =1 ⇒ |L1| . |L1-12| = 4 . 32 = 6 Pada iterasi kedua kandidat berisi : C2 = [ A,B, A,C, A,E, B,C, B,E, C,E ]. Pada tahap berikutnya , algoritma appriori menghitung terjadinya setiap kandidat dan berdasarkan nilai minimum support S min , kemudian menentukan itemset yang sering muncul, setelah tahap ini kandidat berisi: L2 = [ A,C, B,C, B,E, C,E ] Himpunan 3-itemset dihasilkan dari S2 menggunakan operasi yang sudah ditentukan sebelumnya L2 L2. Langkah praktisnya, dari L2 dengan item yang pertama sama, yaitu B,C, B,E,dinyatakan pertama. Kemudian algoritma appriori akan mencek apakah 2-itemset C,E, yang berisi item kedua dari B,C, B,E terdapat pada L2 atau tidak. Karena C,E ada dalam L2, maka B,C,E menjadi kandidat 3-itemset. Karena tidak ada kandidat 4-itemset, maka algoritma ini berakhir.

2.2.5. Membuat Association Rule berdasarkan Frequent Itemset