Pada tahap berikutnya , algoritma appriori menghitung terjadinya setiap kandidat dan berdasarkan nilai minimum support S
min
, kemudian menentukan itemset yang sering muncul, setelah tahap ini kandidat berisi:
L1 = [A,B, C, E ]
D
dikeluarkan karena nilai S = 25, hanya ada satu transaksi dari keseluruhan empat transaksi..
Untuk menelusuri himpunan 2-itemset, karena himpunan bagian subset dari 2- itemset juga mempunyai minimum support yang sama, algoritma appriori
menggunakan L1 L1 untuk membuat kandidat. Operasi didefinisikan sebagai berikut ;
Lk Lk = [X U Y dimana X,Y Ε
Lk, X ∩
Y=K-1 , Untuk k =1
⇒ |L1| . |L1-12| = 4 . 32 = 6
Pada iterasi kedua kandidat berisi : C2 = [ A,B, A,C, A,E, B,C, B,E, C,E ].
Pada tahap berikutnya , algoritma appriori menghitung terjadinya setiap kandidat dan berdasarkan nilai minimum support S
min
, kemudian menentukan itemset yang sering muncul, setelah tahap ini kandidat berisi:
L2 = [ A,C, B,C, B,E, C,E ] Himpunan 3-itemset dihasilkan dari S2 menggunakan operasi yang sudah
ditentukan sebelumnya L2 L2. Langkah praktisnya, dari L2 dengan item yang pertama sama, yaitu B,C, B,E,dinyatakan pertama. Kemudian algoritma
appriori akan mencek apakah 2-itemset C,E, yang berisi item kedua dari B,C, B,E terdapat pada L2 atau tidak. Karena C,E ada dalam L2, maka B,C,E
menjadi kandidat 3-itemset. Karena tidak ada kandidat 4-itemset, maka algoritma ini berakhir.
2.2.5. Membuat Association Rule berdasarkan Frequent Itemset
Tahap kedua dalam penelusuran assosiation rule didasarkan pada seluruh i- itemset yang sering muncul, yang didapat dari tahap pertama. Untuk rule yang
mengandung
X1, X2, X3
→ X4, rule tersebut dianggap bermakna jika kedua
itemset tersebut
X1, X2, X3, X4
dan
X1, X2, X3
adalah frequent. Sehingga tingkat kepercayaan C dari rule tersebut dihitung sebagai hasil bagi dari support
itemset, yaitu :
C = SX1, X2, X3, X4 SX1, X2, X3. Strong association rule adalah rule dengan tingkat kepercayaan C diatas S
min
. Misalkan dari tabel 1 akan dicek apakah association rule B,C
→ E adalah strong
rule. Pertama harus dipilih hubungan support dari tabel L2 dan L3.
SB,C = 2, SB,C,E = 2 CB,C
→ E = SB,C,ESB,C = 22 = 1 100
Karena tingkat kepercayaan adalah maksimal, maka jika transaksi berisi item B dan C maka transaksi tersebut juga berisi item E.
2.2.6. Classification based on Predictive Association Rules CPAR
Klasifikasi pada penelitian ini menggunakan association rule, menurut Yin X, Han J, 2003, algoritma yang efektif untuk digunakan dalam masalah klasifikasi
adalah CPAR. Pada algoritma ini klasifikasi diimplementasikan dalam tiga tahap: rule generation, rule evaluation dan classification.
Pada proses rule generation, CPAR membangun rule dengan
menambahkan literal satu persatu. Pada setiap tahapan proses, CPAR menghitung Gain dari setiap perhitungan. Setelah masing-masing sampel diproses untuk
mendapatkan rule, sampel ini digunakan kembali didalam perhitungan Gain tetapi dengan mengurangi bobot dengan decay factor. Bobot sampel dikurangi hingga
mencapai nilai minimum yang dihitung oleh parameter w yaitu bobot seluruh
sampel positif. Bobot seluruh contoh pada awal proses diset 1.
Setelah proses rule generation, CPAR mengevaluasi setiap rule untuk menentukan kekuatan prediksinya. Untuk rule r = p
1 ∧
p
2 ... ∧
p
n
→ c, CPAR
mendefinisikan ekspektasi akurasi sebagai sebagai berikut :
L.A = n
c
+1 n
total
+ f Dimana L.A adalah Laplace Accuracy, f adalah jumlah kelas, n
total
adalah juimlah
total sampel yang memenuhi body dari aturan, n
c
adalah jumlah sampel yang memenuhi kelas c.
Klasifikasi berupa sekumpulan rule untuk setiap class, CPAR menggunakan s rules terbaik setiap kelas, yang dipilih berdasarkan Laplace accuracy.
Pada algoritmna CPAR nilai gain yang dipilih adalah nilai gain yang terbaik pada setiap iterasinya, sehingga untuk atribut yang nilai gain-nya hampir
sama, maka CPAR melakukan pemilihan yang terbaik. Pemilihan atribut tersebut dilakukan dengan menghitung dan menerapkan gain similarity ratio. Semua
atribut dengan nilai gain lebih besar dari best Gain x gain similarity ratio akan dipilih dan diproses lebih lanjut
2.2.6.1 Membuat Rule Dalam CPAR
Dalam datamining, setiap aturan di-bangun dari dataset yang tersisa, CPAR hanya memilih literal yang terbaik dan mengabaikan seluruh literal lainnya.
CPAR membuat rule s dengan menambahkan literal satu per satu. Setelah CPAR menemukan literal terbaik p, literal lainnya misalnya q yang Gain-nya mirip
dengan p misalnya hanya berbeda 1 akan dicari. Selain terus membangun rule dengan menambahkan p ke r, q juga ditambahkan ke current rule r untuk
membuat rule baru r’
2.2.7 Membangun Model Prediksi
Keberhasilan dalam membangun model prediksi dalam datamining lebih banyak tergantung pada proses bukan pada teknik yang digunakan, dan proses
tersebut sangat tergantung pada data yang digunakan untuk menghasilkan model .Tantangan utama dalam membangun model prediksi adalah mengumpulkan data
awal yang cukup dalam membangun suatu aturan - aturan. Dalam preclassified, hasilnya sudah diketahui, dan karenanya preclassified digunakan untuk melatih
model, himpunan data tersebut disebut model set. Berry Linoff memberikan langkah-langkah dasar dalam membangun model
prediksi 1. Model dilatih menggunakan preclassified data, dengan mengambil sebagian
data dari dataset yang disebut training set. Pada tahap ini, algoritma data mining mencari pola-pola dari nilai yang diprediksi.
2. Model diperbaiki menggunakan himpunan bagian lain dari data yang disebut
test set. Model perlu diperbaiki agar tidak hanya bisa bekerja pada training set.
3. Performance model diestimasi atau membandingkan performance beberapa model, dengan menggunakan himpunan data ketiga, yang didapat dari
gabungan himpunan data pertama dan kedua, yang disebut evaluation set. 4. Model diterapkan ke score set. Score set bukan preclassified, dan bukan
bagian dari model set. Hasil dari data tersebut tidak diketahui. Predictive score akan digunakan untuk membuat keputusan.
Dataset adalah preclassified data yang digunakan untuk membangun model. Dataset perlu dipecah ke dalam tiga komponan, training set, test set dan
evaluation set. Gambar 5 menggambarkan langkah-langkah dasar dalam membangun model
prediksi Berry Linoff, 2000
Training Set
Test Set
Evaluation Set
Score Set Model
Kasar
Model Perbaikan
Model terbaik
Prediksi Training set
digunakan untuk membangun model
Test set digunakan untuk memperbaiki
model
Evaluation set digunakan untuk menilai akurasi
yang diharapkan dari model saat diterapkan ke
data di luar model set
Model yang terbaik diterapkan ke score set
untuk menghasilkan prediksi
Gambar 5. Langkah-langkah membangun model prediksi Sumber: Berry Linoff, 2000
2.3 Sistem Fuzzy
Sistem fuzzy pertama kali diperkenalkan oleh Prof. L. A. Zadeh dari Barkelay pada tahun 1965. Sistem fuzzy merupakan penduga numerik yang
terstruktur dan dinamis. Sistem ini mempunyai kemampuan untuk mengembangkan sistem intelijen dalam lingkungan yang tak pasti. Sistem ini
menduga suatu fungsi dengan logika fuzzy. Dalam logika fuzzy terdapat beberapa proses yaitu penentuan himpunan fuzzy, penerapan aturan IF-THEN dan proses
inferensi fuzzy Marimin, 2002.
2.3.1. Himpunan Fuzzy
Ada beberapa hal yang perlu diketahui dalam memahami sistem fuzzy yaitu, [Kusumadewi] variabel fuzzy, himpunan fuzzy, semesta pembicaraan dan
domain. Variabel Fuzzy merupakan variabel yang akan dibahas dalam sistem fuzzy misalnya umur, temperatur, permintaan, dsb. Himpunan Fuzzy merupakan
suatu group yang mewakili suatu kondisi tertentu dalam variabel fuzzy misalnya variabel umur dibagi atas 3 himpunan fuzzy yaitu muda, parobaya dan tua.
Semesta Pembicaraan adalah keseluruhan nilai ya ng diperbolehkan untuk dioperasikan dalam suatu variabel fuzzy misalnya semesta pembicaraan variabel
umur adalah 0 sampai 100. Domain adalah keseluruhan nilai yang diijinkan dalam semesta pembicaraan dan boleh dioperasikan dalam himpunan fuzzy misalnya
domain umur muda 20 – 45, domain parobaya 25 – 65 dan domain tua 45 – 70.
2.3.2. Fungsi Keanggotaan
Fungsi keanggotaan membership function adalah kurva yang menunjukkan pemetaan titik input data ke dalam nilai keanggotaan yang mempunyai interval 0
– 1. Ada beberapa fungsi keanggotaan yang digunakan antara lain representasi kurva sigmoid, trapesoid dan triangular. Contoh representasi fungsi keanggotaan
sigmoid disajikan pada gambar 6.