Algoritma Incremental mining Content-Based Recommendation Collaborative Recommendation

Item k Himpunan item yang memilki item k . Setiap anggota himpunan memiliki dua field, yaitu itemset dan support count. k C Himpunan kandidat k-items di mana TID yang dihasilkan transaksi disimpan dan diasosiasikan dengan para kandidiat Pada Algoritma Appriori seperti yang tampak pada kode sumber di bawah, terjadi pemanggilan fungsi Appriori-gen yang merupakan fungsi algoritma Appriori Candidate Generation . 1 L 1 ={large 1-itemset}; 2 for k=2;L k-1 =Ø;k++ do begin 3 C k =Appriori-genL k-1 ; Kandidat baru 4 forall transaction t  D do begin 5 C t =subsetCk,t; kandidat yang terdapat pada t 6 forall candidates c  C t do 7 c.count++; 8 end 9 L k ={ c  C k | c.count≥minsup} 10 end 11 Answer= k k L  ; Algoritma Appriori Candidate Generation Dalam alogritma Appriori diperlukan sebuah algoritma yang mengambil input L k-1 , di dalam himpunan large k-1 itemset dan menghasilkan himpunan superset yang terdiri dari semua himpunan large k-1 itemset. Seperti yang tampak pada kode sumber di bawah. 1 Insert into C k 2 select p.item 1 ,p.item 2 ,…,p.item k- 1 ,q.item k-1 3 from L k-1 p,L k-1 q 4 where p.item 1 =q.item 1 ,…,p.item k- 2 =q.item k-2 , p.item k-1 q.item k-1 ; 5 forall itemset c  C k do 6 forall k-1 subset s of c do 7 If s  L then 8 delete c form C k ; 9 end 10 end 11 end

b. Algoritma ApprioriTid

Pada Algoritma ApprioriTid seperti yang tampak pada kode sumber di bawah, juga terjadi pemanggilan fungsi appriori-gen yang merupakan fungsi algoritma Appriori Candidate Generation . 1 L 1 ={large 1-itemset};. 2 C 1 =Database D; 3 for k=2;L k-1 =Ø;k++ do begin 4 k C =Appriori-genL k-1 ; Kandidat baru 5 k C = Ø ; 6 forall entries t  1  k C do begin untuk menentukan himpunan itemset di dalam Ck terdapat pada transaksi dengan identfier t.TD 7 C t ={ c  C k |c-c[k]  t.set-of-itemsets c-c[k-1]  t.set-of-itemsets }; 8 forall candidates c  C t do 9 c.count++; 10 end 11 L k ={ c  C k | c.count≥minsup} 12 end 13 Answer= k k L  ; Selain dua algortima di atas ada juga algoritma hasil modifikasinya, yaitu:

c. Algoritma Incremental mining

Algoritma ini merupakan modifikasi dari Algoritma Appriori dan Algoritma ApprioriTid yang dikembangkan oleh Yong 2001. Di mana tujuan algoritma ini adalah menentukan profil pengguna di dalam tabel Interest dan tabel Behavior. Personalisasi Rekomendasi Dalam menentukan rekomendasi yang akan diberikan kepada pengguna, ada dua pendekatan yang umum digunakan dalam personalisasi rekomendasi Balabanovic 1997 yaitu:

a. Content-Based Recommendation

Pendekatan yang digunakan dalam content-based untuk menghasilkan rekomendasi berasal dari teknik temu kembali informasi. Teks dokumen direkomendasi berdasarkan perbandingan antara isi dokumen dengan profil pengguna. Rekomendasi yang akan dihasilkan berdasarkan tingkat kesesuaian isi konten suatu dokumen dengan isi konten dokumen- dokumen yang pernah diunduh oleh pengguna sebelumnya. Ada dua kelemahan yang terdapat di dalam pendekatan content-based. Kelemahan pertama adalah bahwa sistem ini umumnya hanya dapat digunakan untuk item yang berisi teks. Untuk item yang berisikan media yang lain yang tidak menggunakan teks seperti film dan musik, pendekatan content- based tidak dapat digunakan. Kelemahan yang kedua adalah sistem hanya dapat merekomendasikan item yang memiliki nilai tinggi terhadap profil pengguna, pengguna hanya dapat melihat rekomendasi item yang mirip dengan yang telah dilihat sebelumnya. Jika jumlah pengguna yang ada jauh lebih sedikit dengan volume informasi yang ada karena ada perubahan dalam jumlah yang besar atau terlalu cepat di dalam basis data maka akan menghasilkan rekomendasi yang terlalu luas.

b. Collaborative Recommendation

Pendekatan Collaborative Recommendation berbeda dengan Content- Based . Pendekatan Collaborative Recommendation tidak merekomendasi item yang karena kemiripan item yang diminati pengguna pada masa lalu, tetapi merekomendasikan item yang diminati pengguna yang lain. Pendekatan inipun memiliki kelemahan. Kelemahan yang pertama adalah, jika terdapat item yang baru di dalam basis data maka tidak dapat langsung direkomendasikan sampai ada pengguna lain berminat terhadap item tersebut. Masalah yang kedua yang dihadapi adalah jika terdapat pengguna yang memiliki selera yang berbeda tidak lazim, maka tidak ada pengguna yang lain yang bisa dikatakan mirip dengan pengguna tersebut, sehingga tidak dapat menghasilkan suatu rekomendasi poor recommendation Profil Minat Interest Profile Jika support c didefinisikan sebagai support atas kategori c. Kemudian, jika diberikan sebuah threshold α, maka Interest Profile I pengguna didefinisikan sebagai berikut: I={c| Support c≥ α } ........................................1 Jika count c didefinisikan sebagai jumlah kemunculan kategori c dalam data transaksi suatu pengguna. Kemudian, jika first c adalah kemunculan yang pertama kategori c di dalam himpunan transaksi pengguna. Serta jika diberikan himpunan transaksi pengguna dengan sebanyak T transaksi, maka tingkat minat pengguna terhadap kategori c support c didefinisikan sebagai berikut: 1 firstc T countc Supportc    ........................ 2 Profil Perilaku Behavior Profile Jika support[c,d] didefinisikan sebagai support atas 2-category set [c,d]. Kemudian, jika diberikan threshold β, maka Behavior Profile B pengguna didefinisikan sebagai berikut: B= {[c,d]| Support [c,d]≥ β }……………….……..3 Jika count [c,d] didefinisikan sebagai jumlah kemunculan 2-set category [c,d] dalam data transaksi suatu pengguna. Kemudian, jika first [c,d] adalah kemunculan yang pertama 2- set category [c,d] di dalam himpunan transaksi pengguna. Serta jika diberikan himpunan transaksi pengguna sebanyak T transaksi, maka tingkat perilaku pengguna terhadap kategori c dan d support [c,d] didefinisikan sebagai berikut: 1 d] first[c, T d] count[c, d] Support[c,    ................. .4 Dynamic Clustering Dynamic Clustering dikembangkan oleh Yong 2001, di mana digunakan jarak Euclidean untuk mengukur jarak masing- masing matriks vektor. Berikut ini algoritma Dynamic Clustering: 1 forall vector matrix do 2 if cluster=Ø then 3 create new cluster; 4 centroid=vector matrix; 5 end 6 else 7 if minimal distance ≤ δ then 8 put vector matrix into cluster with shortest distance; 9 update centroid considering the vector matrix; 10 end 11 else 12 create new cluster; 13 centroid=vektor matriks; 14 end 15 end 16 End Euclidean distance Jika A dan B merupakan sebuah matriks vektor, serta A i dan B i merupakan elemen ke-i dari vektor A dan vektor B, maka jarak Euclidean vektor A dengan vektor B dirumuskan sebagai berikut:       n 1 i 2 i B i A B , DistanceA ………....... 5 Web Mining Web mining adalah proses menggali dan menemukan suatu informasi knowledge menggunakan teknik data mining terhadap dokumen, layanan, dan data pada World Wide Web Etzoni 1996. Web mining merupakan bagian dari proses data mining yang khusus dilakukan pada sebuah situs web. Klasifikasi web mining dapat dibagi dalam tiga kategori Huysmans et al. 2004, yaitu:

a. Web content mining