A ¬B disebut juga sebagai interesting
negative rule .
Tahap ini merupakan inti dari analisis data. Pada tahap ini diterapkan penggunaan algoritme
NAR. Tahapan-tahapan yang akan digunakan pada metode tersebut adalah:
1 Identifikasi interesting itemset Sebelum mencari interesting itemset pada
NAR adalah
menemukan frequent
dan infrequent itemset
. Frequent itemset merupakan itemset
yang memenuhi minimum support yang telah ditentukan lebih besar atau sama dengan
ms , sedangkan infrequent itemset merupakan
itemset yang tidak memenuhi minimum support
yang telah ditentukan lebih kecil dari ms. 1.1 Pruning
Pada negative association rule dihasilkan infrequent itemset
dalam jumlah yang sangat banyak, namun hanya beberapa di antaranya
yang berguna dalam menambang negative association rule
. Oleh karena itu, perlu dilakukan pruning. Pada negative association
rule, pruning dilakukan dengan menghitung
interesting itemset menggunakan rumus 3,
selanjutnya menggabungkan nilai interest, support
dan confidence dengan menggunakan rumus 4 dan 5. Jika hasil fipisX, Y sama
dengan 1, rule diterima, sedangkan jika hasil fipis
X, Y 1 dan 1, rule tidak diterima Wu et al.
2004. Jika hasil iipisX, Y sama dengan 2, rule diterima, sedangkan jika hasil fipisX, Y
2 dan 2, rule tidak diterima Wu et al. 2004.
Penggunaan fipis dan iipis pada positive dan negative rule
adalah untuk membatasi pencarian interesting
rule, selanjutnya proses pruning akan menghapus rule yang tidak mengarah pada
interesting rule .
1.2 Mencari interest frequent dan infrequent itemsets
Untuk mengefesiensikan algoritme dalam mencari frequent itemset yang berhubungan
dengan positive rules dan infrequent itemset yang berhubungan dengan negative rules
dilakukan pruning pada itemset yang tidak termasuk dalam interest itemset. Pada penelitian
ini digunakan algoritme sebagai berikut untuk menemukan frequent itemset dan infrequent
itemset
dari potential interest pada database, dengan:
Input
: D
: database; ms
: minimum support; mc
: n u c nfidence;
mi : minimum interestingness;
Output :
PL : Kumpulan interest frequent itemset;
NL : Kumpulan interest infrequent itemset;
1 PL ←∅; NL ←∅;
2 L
1
←{frequent 1-itemsets}; PL←PL L
1
;
3 for k = 2; L
k−
=
∅; k ++ do begin
membangkitkan semua
kemungkinan interest
frequent dan
infrequent k-itemsets pada D.
3.1 Tem
k
←{{x
1
, ... , x
k −2
, x
k−
,x
k
}|{x
1
, ... , x
k −2
, x
k −1
} ∈ L
k −1
∧ {x
1
, ... x
k −2
, x
k
} ∈
L
k −1
};
3.2 for masing-masing transaksi pada D do
begin Periksa apakah k-itemset termasuk
pada transaksi t. Tem
t
←k-itemset pada t juga berisi pada Tem
k
;
for
masing-masing itemset A pada Tem
t
do
A .count
← A.count + 1;
end
3.3 L
k
←{c|c ∈ Tem
k
∧ suppc = c.count |D| = ms};
N
k
← Tem
k
− L
k
; 3.4 Prune semua uninteresting k-
itemset pada L
k
for masing-masing itemset i pada L
k
do if
NOT
fipiI then
L
k
← L
k
−{I}; PL
← PL L
k
; 3.5 Prune semua uninteresting k-
itemse t pada N
k
for masing-masing itemset J pada N
k
do if
NOTiipiJ then
Nk ← Nk −{J};
N
L
← N
L
N
k
;
end
4 output PL dan NL; 5 return Wu et al. 2004.
2 Generate negative association rule Tahapan selanjutnya adalah membangkitkan
negative association rule pada iipisX,Y. Pada
tahap ini,
dilakukan perhitungan
CPIR menggunakan rumus 6. Setelah didapatkan nilai
CPIR, selanjutnya, rule X ¬Y dikatakan valid
apabila suppX ¬Y ms, suppX ms,
supp Y
ms, interestX, ¬Y mi, dan CPIR ¬Y|X
mc Wu et al. 2004.
Knowledge Representation
Knowledge representation merupakan tahap
untuk merepresentasikan hasil asosiasi yang diperoleh ke dalam bentuk yang mudah
dipahami. Pada penelitian ini, knowledge representation
mendeskripsikan hasil
penelitian.
Lingkungan Pengembangan
Penelitian ini dilakukan dalam lingkungan pengembangan sebagai berikut :
Perangkat lunak : - Microsoft Windows 7
- MySQL client - PHP
- Browser
Perangkat Keras : - Processor AMD E350
- 2 GB RAM - Harddisk kapasitas 320 GB
- Monitor dengan resolusi 1280 x 800 piksel
HASIL DAN PEMBAHASAN
Pada penelitian ini, data yang digunakan adalah data transaksi pembelian Sinar Mart
Swalayan selama periode waktu 1 Maret hingga 31 Maret 2004. Data transaksi pembelian yang
didapat memiliki tiga atribut
,
yaitu customer id sid, waktu transaksi eid, dan barang yang
dibeli item. Data didapat dalam format Microsoft Excel transaksi_maret2004.xlsx.
Urutan pengerjaan digambarkan pada Lampiran 1 dan deskripsi sampel data transaksi pembelian
Sinar Mart Swalayan dapat dilihat pada Lampiran 2.
Pembersihan Data
Pembersihan data dilakukan apabila terdapat data pembelian barang yang sama pada satu
transaksi, pembelian barang tersebut dicatat hanya satu kali.
Transformasi Data
Pada tahap ini dilakukan beberapa proses transformasi data, yaitu:
1 Konversi waktu transaksi eid ke dalam bentuk numerik. Waktu transaksi eid yang
semula berformat date diubah menjadi numerik dengan mengganti format date
menjadi number yang terdapat pada Microsoft Excel untuk menyesuaikan ke
dalam format MySQL.
2 Konversi item ke dalam bentuk numerik. Item
s yang dibeli oleh pembeli diubah ke dalam bentuk numerik dengan memberikan
kode yang dimulai dari 1 hingga 35. Mie instan dikodekan dengan 1, minyak goreng
dikodekan dengan 2, demikian halnya dengan jenis barang lain. Format item yang
dikonversi ke dalam bentuk numerik dapat dilihat pada Lampiran 3. Data hasil konversi
terdiri atas 11866 baris, 308 pembeli yang berbeda dan 35 item yang berbeda. Sampel
data transaksi pembelian setelah praproses dapat dilihat pada Lampiran 4.
Data mining
Pada tahap ini, percobaan dilakukan terhadap data transaksi pembelian Sinar Mart
Swalayan yang telah melewati tahap praproses sebanyak 11866 record. Tahapan-tahapan yang
dilakukan, yaitu
1 Identifikasi interesting itemset
Sebelum mencari interesting itemset pada NAR
adalah menemukan
frequent dan
infrequent itemset . Pada tahap ini, pengguna
harus terlebih dahulu memberikan nilai minimum
support. Nilai minimum support digunakan
ialah 10, 30, 50, 70. Selanjutnya, dari masing-masing hasil min_sup
tersebut, jika min_sup 70 tidak ada itemset yang memenuhi, kemudian diturunkan hingga
min_sup 50 hanya didapatkan frequent itemset
dengan 1 itemset, yaitu itemset snack dengan
support 53.81.
Hasil pada min_sup 50 tidak bisa dijadikan sebagai bahan untuk analisis, karena
karena pada
large 1-itemset
hanya menghasilkan 1 itemset, sehingga pada large 2-
itemset tidak bisa menghasilkan frequent dan
infrequent itemset
. Kemudian,
min_sup diturunkan lagi dan dicoba dengan min_sup
30 dan 10.
1.1 Pembentukan Large Itemset Dengan