Item k Himpunan
item yang memilki item k
. Setiap
anggota himpunan
memiliki dua field, yaitu itemset dan support count.
k
C
Himpunan kandidat k-items di mana
TID yang
dihasilkan transaksi
disimpan dan
diasosiasikan dengan
para kandidiat
Pada Algoritma Appriori seperti yang tampak pada kode sumber di bawah, terjadi
pemanggilan fungsi
Appriori-gen yang
merupakan fungsi
algoritma Appriori
Candidate Generation .
1 L
1
={large 1-itemset}; 2
for k=2;L
k-1
=Ø;k++ do begin
3 C
k
=Appriori-genL
k-1
; Kandidat baru
4 forall transaction t
D do begin
5 C
t
=subsetCk,t; kandidat yang terdapat pada t
6 forall candidates c
C
t
do
7 c.count++;
8 end
9 L
k
={ c
C
k
| c.count≥minsup}
10 end
11 Answer=
k k
L
;
Algoritma Appriori Candidate Generation
Dalam alogritma Appriori diperlukan sebuah algoritma yang mengambil input L
k-1
, di dalam himpunan large k-1 itemset dan
menghasilkan himpunan superset yang terdiri dari semua himpunan large k-1 itemset.
Seperti yang tampak pada kode sumber di bawah.
1
Insert into C
k
2 select p.item
1
,p.item
2
,…,p.item
k- 1
,q.item
k-1
3 from L
k-1
p,L
k-1
q 4
where p.item
1
=q.item
1
,…,p.item
k- 2
=q.item
k-2 ,
p.item
k-1
q.item
k-1
; 5
forall itemset c
C
k
do
6 forall k-1 subset s of c do
7 If s
L then
8 delete c form C
k
; 9
end
10 end
11 end
b. Algoritma ApprioriTid
Pada Algoritma ApprioriTid seperti yang tampak pada kode sumber di bawah, juga
terjadi pemanggilan fungsi appriori-gen yang merupakan
fungsi algoritma
Appriori Candidate Generation
.
1 L
1
={large 1-itemset};. 2
C
1
=Database D; 3
for k=2;L
k-1
=Ø;k++ do begin
4
k
C
=Appriori-genL
k-1
; Kandidat baru
5
k
C
=
Ø
;
6 forall entries t
1
k
C
do begin
untuk menentukan himpunan itemset di dalam Ck terdapat pada transaksi
dengan identfier t.TD
7 C
t
={ c
C
k
|c-c[k]
t.set-of-itemsets c-c[k-1]
t.set-of-itemsets }; 8
forall candidates c
C
t
do
9 c.count++;
10 end
11 L
k
={ c
C
k
| c.count≥minsup} 12
end
13 Answer=
k k
L
;
Selain dua algortima di atas ada juga algoritma hasil modifikasinya, yaitu:
c. Algoritma Incremental mining
Algoritma ini merupakan modifikasi dari Algoritma
Appriori dan
Algoritma ApprioriTid
yang dikembangkan oleh Yong 2001. Di mana tujuan algoritma ini adalah
menentukan profil pengguna di dalam tabel Interest
dan tabel Behavior.
Personalisasi Rekomendasi
Dalam menentukan rekomendasi yang akan diberikan
kepada pengguna,
ada dua
pendekatan yang umum digunakan dalam personalisasi rekomendasi Balabanovic 1997
yaitu:
a. Content-Based Recommendation
Pendekatan yang
digunakan dalam
content-based untuk
menghasilkan rekomendasi berasal dari teknik temu
kembali informasi.
Teks dokumen
direkomendasi berdasarkan perbandingan antara isi dokumen dengan profil pengguna.
Rekomendasi yang
akan dihasilkan
berdasarkan tingkat kesesuaian isi konten suatu dokumen dengan isi konten dokumen-
dokumen yang
pernah diunduh
oleh pengguna sebelumnya.
Ada dua kelemahan yang terdapat di dalam pendekatan content-based. Kelemahan
pertama adalah bahwa sistem ini umumnya hanya dapat digunakan untuk item yang
berisi teks. Untuk item yang berisikan media yang lain yang tidak menggunakan teks
seperti film dan musik, pendekatan content- based
tidak dapat digunakan.
Kelemahan yang kedua adalah sistem hanya dapat merekomendasikan item yang
memiliki nilai
tinggi terhadap
profil pengguna, pengguna hanya dapat melihat
rekomendasi item yang mirip dengan yang telah dilihat sebelumnya. Jika jumlah
pengguna yang ada jauh lebih sedikit dengan volume informasi yang ada karena ada
perubahan dalam jumlah yang besar atau terlalu cepat di dalam basis data maka akan
menghasilkan rekomendasi yang terlalu luas.
b. Collaborative Recommendation
Pendekatan Collaborative
Recommendation berbeda dengan Content-
Based .
Pendekatan Collaborative
Recommendation tidak merekomendasi item
yang karena kemiripan item yang diminati pengguna
pada masa
lalu, tetapi
merekomendasikan item
yang diminati pengguna yang lain.
Pendekatan inipun memiliki kelemahan. Kelemahan yang pertama adalah, jika
terdapat item yang baru di dalam basis data maka
tidak dapat
langsung direkomendasikan sampai ada pengguna lain
berminat terhadap item tersebut. Masalah yang kedua yang dihadapi
adalah jika terdapat pengguna yang memiliki selera yang berbeda tidak lazim, maka
tidak ada pengguna yang lain yang bisa dikatakan mirip dengan pengguna tersebut,
sehingga tidak dapat menghasilkan suatu rekomendasi poor recommendation
Profil Minat Interest Profile
Jika support c didefinisikan sebagai support
atas kategori c. Kemudian, jika diberikan sebuah threshold α, maka Interest
Profile I pengguna didefinisikan sebagai
berikut:
I={c| Support c≥ α } ........................................1
Jika count c didefinisikan sebagai jumlah kemunculan kategori c dalam data transaksi
suatu pengguna. Kemudian, jika first c adalah kemunculan yang pertama kategori c di dalam
himpunan transaksi pengguna. Serta jika diberikan himpunan transaksi pengguna dengan
sebanyak T transaksi, maka tingkat minat pengguna terhadap kategori c support c
didefinisikan sebagai berikut:
1 firstc
T countc
Supportc
........................
2
Profil Perilaku Behavior Profile
Jika support[c,d]
didefinisikan sebagai support
atas 2-category set [c,d]. Kemudian, jika diberikan threshold β, maka Behavior
Profile B pengguna didefinisikan sebagai
berikut:
B= {[c,d]| Support [c,d]≥ β }……………….……..3
Jika count [c,d] didefinisikan sebagai jumlah kemunculan 2-set category [c,d] dalam
data transaksi suatu pengguna. Kemudian, jika first [c,d]
adalah kemunculan yang pertama 2- set category [c,d]
di dalam himpunan transaksi pengguna. Serta jika diberikan himpunan
transaksi pengguna sebanyak T transaksi, maka tingkat perilaku pengguna terhadap kategori c
dan d support [c,d] didefinisikan sebagai berikut:
1 d]
first[c, T
d] count[c,
d] Support[c,
.................
.4
Dynamic Clustering
Dynamic Clustering dikembangkan oleh
Yong 2001, di mana digunakan jarak Euclidean
untuk mengukur jarak masing- masing matriks vektor. Berikut ini algoritma
Dynamic Clustering:
1 forall vector matrix do 2
if cluster=Ø then 3 create new cluster;
4 centroid=vector matrix;
5 end
6
else
7 if minimal distance ≤ δ then
8
put vector matrix into cluster
with shortest distance; 9
update centroid considering the
vector matrix; 10
end
11 else
12
create new cluster;
13 centroid=vektor matriks; 14
end 15 end
16 End
Euclidean distance
Jika A dan B merupakan sebuah matriks vektor, serta A
i
dan B
i
merupakan elemen ke-i dari vektor A dan vektor B, maka jarak
Euclidean vektor A dengan vektor B dirumuskan sebagai berikut:
n 1
i 2
i B
i A
B ,
DistanceA
……….......
5
Web Mining
Web mining adalah proses menggali dan
menemukan suatu informasi knowledge menggunakan teknik data mining terhadap
dokumen, layanan, dan data pada World Wide Web Etzoni 1996. Web mining merupakan
bagian dari proses data mining yang khusus dilakukan pada sebuah situs web.
Klasifikasi web mining dapat dibagi dalam tiga kategori Huysmans et al. 2004, yaitu:
a. Web content mining