Membuat Association Rule berdasarkan Frequent Itemset Membangun Model Prediksi

Pada tahap berikutnya , algoritma appriori menghitung terjadinya setiap kandidat dan berdasarkan nilai minimum support S min , kemudian menentukan itemset yang sering muncul, setelah tahap ini kandidat berisi: L1 = [A,B, C, E ]  D  dikeluarkan karena nilai S = 25, hanya ada satu transaksi dari keseluruhan empat transaksi.. Untuk menelusuri himpunan 2-itemset, karena himpunan bagian subset dari 2- itemset juga mempunyai minimum support yang sama, algoritma appriori menggunakan L1 L1 untuk membuat kandidat. Operasi didefinisikan sebagai berikut ; Lk Lk = [X U Y dimana X,Y Ε Lk, X ∩ Y=K-1 , Untuk k =1 ⇒ |L1| . |L1-12| = 4 . 32 = 6 Pada iterasi kedua kandidat berisi : C2 = [ A,B, A,C, A,E, B,C, B,E, C,E ]. Pada tahap berikutnya , algoritma appriori menghitung terjadinya setiap kandidat dan berdasarkan nilai minimum support S min , kemudian menentukan itemset yang sering muncul, setelah tahap ini kandidat berisi: L2 = [ A,C, B,C, B,E, C,E ] Himpunan 3-itemset dihasilkan dari S2 menggunakan operasi yang sudah ditentukan sebelumnya L2 L2. Langkah praktisnya, dari L2 dengan item yang pertama sama, yaitu B,C, B,E,dinyatakan pertama. Kemudian algoritma appriori akan mencek apakah 2-itemset C,E, yang berisi item kedua dari B,C, B,E terdapat pada L2 atau tidak. Karena C,E ada dalam L2, maka B,C,E menjadi kandidat 3-itemset. Karena tidak ada kandidat 4-itemset, maka algoritma ini berakhir.

2.2.5. Membuat Association Rule berdasarkan Frequent Itemset

Tahap kedua dalam penelusuran assosiation rule didasarkan pada seluruh i- itemset yang sering muncul, yang didapat dari tahap pertama. Untuk rule yang mengandung  X1, X2, X3  → X4, rule tersebut dianggap bermakna jika kedua itemset tersebut  X1, X2, X3, X4  dan  X1, X2, X3  adalah frequent. Sehingga tingkat kepercayaan C dari rule tersebut dihitung sebagai hasil bagi dari support itemset, yaitu : C = SX1, X2, X3, X4 SX1, X2, X3. Strong association rule adalah rule dengan tingkat kepercayaan C diatas S min . Misalkan dari tabel 1 akan dicek apakah association rule B,C → E adalah strong rule. Pertama harus dipilih hubungan support dari tabel L2 dan L3. SB,C = 2, SB,C,E = 2 CB,C → E = SB,C,ESB,C = 22 = 1 100 Karena tingkat kepercayaan adalah maksimal, maka jika transaksi berisi item B dan C maka transaksi tersebut juga berisi item E.

2.2.6. Classification based on Predictive Association Rules CPAR

Klasifikasi pada penelitian ini menggunakan association rule, menurut Yin X, Han J, 2003, algoritma yang efektif untuk digunakan dalam masalah klasifikasi adalah CPAR. Pada algoritma ini klasifikasi diimplementasikan dalam tiga tahap: rule generation, rule evaluation dan classification. Pada proses rule generation, CPAR membangun rule dengan menambahkan literal satu persatu. Pada setiap tahapan proses, CPAR menghitung Gain dari setiap perhitungan. Setelah masing-masing sampel diproses untuk mendapatkan rule, sampel ini digunakan kembali didalam perhitungan Gain tetapi dengan mengurangi bobot dengan decay factor. Bobot sampel dikurangi hingga mencapai nilai minimum yang dihitung oleh parameter w yaitu bobot seluruh sampel positif. Bobot seluruh contoh pada awal proses diset 1. Setelah proses rule generation, CPAR mengevaluasi setiap rule untuk menentukan kekuatan prediksinya. Untuk rule r = p 1 ∧ p 2 ... ∧ p n → c, CPAR mendefinisikan ekspektasi akurasi sebagai sebagai berikut : L.A = n c +1 n total + f Dimana L.A adalah Laplace Accuracy, f adalah jumlah kelas, n total adalah juimlah total sampel yang memenuhi body dari aturan, n c adalah jumlah sampel yang memenuhi kelas c. Klasifikasi berupa sekumpulan rule untuk setiap class, CPAR menggunakan s rules terbaik setiap kelas, yang dipilih berdasarkan Laplace accuracy. Pada algoritmna CPAR nilai gain yang dipilih adalah nilai gain yang terbaik pada setiap iterasinya, sehingga untuk atribut yang nilai gain-nya hampir sama, maka CPAR melakukan pemilihan yang terbaik. Pemilihan atribut tersebut dilakukan dengan menghitung dan menerapkan gain similarity ratio. Semua atribut dengan nilai gain lebih besar dari best Gain x gain similarity ratio akan dipilih dan diproses lebih lanjut

2.2.6.1 Membuat Rule Dalam CPAR

Dalam datamining, setiap aturan di-bangun dari dataset yang tersisa, CPAR hanya memilih literal yang terbaik dan mengabaikan seluruh literal lainnya. CPAR membuat rule s dengan menambahkan literal satu per satu. Setelah CPAR menemukan literal terbaik p, literal lainnya misalnya q yang Gain-nya mirip dengan p misalnya hanya berbeda 1 akan dicari. Selain terus membangun rule dengan menambahkan p ke r, q juga ditambahkan ke current rule r untuk membuat rule baru r’

2.2.7 Membangun Model Prediksi

Keberhasilan dalam membangun model prediksi dalam datamining lebih banyak tergantung pada proses bukan pada teknik yang digunakan, dan proses tersebut sangat tergantung pada data yang digunakan untuk menghasilkan model .Tantangan utama dalam membangun model prediksi adalah mengumpulkan data awal yang cukup dalam membangun suatu aturan - aturan. Dalam preclassified, hasilnya sudah diketahui, dan karenanya preclassified digunakan untuk melatih model, himpunan data tersebut disebut model set. Berry Linoff memberikan langkah-langkah dasar dalam membangun model prediksi 1. Model dilatih menggunakan preclassified data, dengan mengambil sebagian data dari dataset yang disebut training set. Pada tahap ini, algoritma data mining mencari pola-pola dari nilai yang diprediksi. 2. Model diperbaiki menggunakan himpunan bagian lain dari data yang disebut test set. Model perlu diperbaiki agar tidak hanya bisa bekerja pada training set. 3. Performance model diestimasi atau membandingkan performance beberapa model, dengan menggunakan himpunan data ketiga, yang didapat dari gabungan himpunan data pertama dan kedua, yang disebut evaluation set. 4. Model diterapkan ke score set. Score set bukan preclassified, dan bukan bagian dari model set. Hasil dari data tersebut tidak diketahui. Predictive score akan digunakan untuk membuat keputusan. Dataset adalah preclassified data yang digunakan untuk membangun model. Dataset perlu dipecah ke dalam tiga komponan, training set, test set dan evaluation set. Gambar 5 menggambarkan langkah-langkah dasar dalam membangun model prediksi Berry Linoff, 2000 Training Set Test Set Evaluation Set Score Set Model Kasar Model Perbaikan Model terbaik Prediksi Training set digunakan untuk membangun model Test set digunakan untuk memperbaiki model Evaluation set digunakan untuk menilai akurasi yang diharapkan dari model saat diterapkan ke data di luar model set Model yang terbaik diterapkan ke score set untuk menghasilkan prediksi Gambar 5. Langkah-langkah membangun model prediksi Sumber: Berry Linoff, 2000

2.3 Sistem Fuzzy

Sistem fuzzy pertama kali diperkenalkan oleh Prof. L. A. Zadeh dari Barkelay pada tahun 1965. Sistem fuzzy merupakan penduga numerik yang terstruktur dan dinamis. Sistem ini mempunyai kemampuan untuk mengembangkan sistem intelijen dalam lingkungan yang tak pasti. Sistem ini menduga suatu fungsi dengan logika fuzzy. Dalam logika fuzzy terdapat beberapa proses yaitu penentuan himpunan fuzzy, penerapan aturan IF-THEN dan proses inferensi fuzzy Marimin, 2002.

2.3.1. Himpunan Fuzzy

Ada beberapa hal yang perlu diketahui dalam memahami sistem fuzzy yaitu, [Kusumadewi] variabel fuzzy, himpunan fuzzy, semesta pembicaraan dan domain. Variabel Fuzzy merupakan variabel yang akan dibahas dalam sistem fuzzy misalnya umur, temperatur, permintaan, dsb. Himpunan Fuzzy merupakan suatu group yang mewakili suatu kondisi tertentu dalam variabel fuzzy misalnya variabel umur dibagi atas 3 himpunan fuzzy yaitu muda, parobaya dan tua. Semesta Pembicaraan adalah keseluruhan nilai ya ng diperbolehkan untuk dioperasikan dalam suatu variabel fuzzy misalnya semesta pembicaraan variabel umur adalah 0 sampai 100. Domain adalah keseluruhan nilai yang diijinkan dalam semesta pembicaraan dan boleh dioperasikan dalam himpunan fuzzy misalnya domain umur muda 20 – 45, domain parobaya 25 – 65 dan domain tua 45 – 70.

2.3.2. Fungsi Keanggotaan

Fungsi keanggotaan membership function adalah kurva yang menunjukkan pemetaan titik input data ke dalam nilai keanggotaan yang mempunyai interval 0 – 1. Ada beberapa fungsi keanggotaan yang digunakan antara lain representasi kurva sigmoid, trapesoid dan triangular. Contoh representasi fungsi keanggotaan sigmoid disajikan pada gambar 6.