yang menggunakan pendekatan
collaborative-based
paling sederhana menghitung korelasi antara pengguna, memprediksi peringkat produk untuk
pengguna saat ini didasarkan pada peringkat yang diberikan oleh pengguna lain, yang sangat berhubungan dengan preferensi pengguna saat ini
[Herlocker et al, 1999]. Sedangkan sistem dengan pendekatan
content-based
hanya menggunakan preferensi dari pengguna saat ini, memprediksi peringkat untuk item yang tak terlihat berdasarkan seberapa banyak
deskripsinya atau isinya mirip dengan pengguna [Pazzani dan Billsus, 2007].
2.1.1. Content Based Filtering
Pendekatan
Information filtering
didasarkan pada bidang
information retrieval
IR dan teknik yang digunakan pun banyak yang sama [Hanani et al, 2001]. Satu aspek yang membedakan
antara
information filtering
dan
information retrieval
adalah mengenai kepentingan pengguna. Pada IR pengguna menggunakan
ad-hoc queries
, sedangkan
information filtering
pengguna sudah mempunyai profil yang merepresentasikan kepentingan jangka
panjang, dan sistem mencoba memberikan kepada setiap pengguna, item yang relevan. Berdasarkan pada ukuran kesamaan antara
masing-masing profil, sistem memilih dan membuat peringkat pada item yang relevan, kemudian diberikan kepada pengguna. Terdapat
dua pendekatan pada
information filtering
, yaitu
collaborative filtering
dan
content-based filtering.
Pada tugas akhir ini akan menggunakan pendekatan
content- based filtering.
Berbeda dengan
collaborative filtering
yang memilih dan membuat peringkat item untuk pengguna berdasarkan kesamaan
dari pengguna untuk pengguna lain yang menyukai item serupa di masa lalu, tetapi pada pendekatan
conten-based filtering
ini, sistem memilih dan melakukan peringkat item berdasarkan kesamaan profil
pengguna dan profil item. Keuntungan dari pendekatan ini adalah pengguna mendapatkan wawasan tentang mengapa suatu item
dianggap relevan untuk mereka, karena konten di setiap item nya diketahui dari representasinya. Namun pendekatan ini juga
mempunyai kelemahan, misalnya kenyataan bahwa pendekatan ini berfokus pada kemiripan kata kunci. Pendekatan ini tidak mampu
menangkap hubungan yang lebih kompleks pada level semantik yang lebih dalam, berdasarkan pada berbagai jenis atribut yang
berhubungan dengan obyek terstruktur dari teks [Dai dan Mobasher, 2001]. Kesamaan antara representasi dari pengguna dan representasi
dari item akan didasarkan pada prinsip kedekatan yang menyatakan bahwa jarak dari dua deskripsi item secara langsung berkaitan
dengan kesamaan mereka [Knappe, 2005]. Menurut International Journal Information Theories
Applications Vol.15 2008 oleh Peretz Shoval, Veronica Maidel, Brancha Shapira dijelaskan bahwa representasi dari konten untuk
profil item adalah : Profil item terdiri dari serangkaian konsep yang
mewakili isinya. Misalnya, jika item berkaitan dengan olahraga, dan secara khusus sepak bola, ini diwakili dengan konsep sepak bola
saja. Sedangkan representasi dari konten untuk profil pengguna adalah : Profil pengguna terdiri dari daftar yang berbobot yang
merepresentasikan keinginannya. Sebagai contoh, profil pengguna berisi konsep „olahraga‟ saja, atau „olahraga‟ dan „sepakbola‟, atau
„sepak bola‟ dan „basket‟, atau ketiganya. Ini berarti bahwa konsep tertentu dalam profil item mungkin “
matched
” yaitu dibandingkan dengan lebih dari satu konsep setara dalam profil pengguna.
Misalnya jika dalam pro fil item terdapat „sepak bola‟ dan profil
pengguna terdapat „olahraga‟ dan „sepak bola‟ maka terdapat “
perfect match
” antara dua profil tersebut. Dalam jurnal yang berjudul „Using Content-based Filtering
for Recommendation‟ oleh Robin van Meteren dan Marteen van Someren, sistem rekomendasi yang sedang diperkenalkan saat itu
adalah PRES, yang merupakan akronim dari Personal Recommender System. Sistem ini bertujuan untuk membantu pengguna
menemukan informasi yang sesuai dengan kepentingan mereka pada website. Sistem rekomendasi dapat meningkatkan website untuk
pengguna individu dengan menambahkan
hyperlink
secara dinamis. Tujuannya adalah untuk memudahkan pengguna dalam menemukan
item yang sesuai, sehingga dapat meningkatkan interaksi antara sistem dan pengguna. PRES menggunakan
content-based filtering
dimana sistem membuat rekomendasi dengan membandingkan profil pengguna dengan isi setiap dokumen dalam koleksi. Isi dokumen
dapay direpresentasikan dengan satu set
term.
Term diekstrak dari dokumen dengan menjalankan sejumlah langkah parsing. Pertama,
semua tag html dan
stop word
kata yang sering muncul dan tidak dapat digunakan sebagai diskriminator akan dihapus. Kata yang
tersisa dikurangi menjadi induk mereka dengan menghapus awalan dan akhiran [Porter, 1980].
Terdapat beberapa cara untuk merepresentasikan agar dapat digunakan sebagai komponen pembelajaran. Sebuah metode yang
paling sering digunakan adalah Vector Space Model. Pada metode ini, dokumen D direpresentasikan sebagai vektor m dimensional.
Dimana setiap dimensi berkorespondensi terhadap
term
yang berbeda dan
m
adalah total jumlah
term
yang dipakai dalam koleksi dokumen. Vektor dokumen adalah ditulis sebagai,
w
i
adalah bobot dari
term t
i
yang menunjukkan tingkat kepentingan. Jika pada dokumen D tidak mengandung
term t
i
maka bobot dari
w
i
adalah nol. Bobot
term
dapat ditentukan dengan menggunakan skema
tf-idf.
Pada pendekatan ini bobot dihitung berdasarkan pada seberapa sering sebuah
term
muncul pada sebuah dokumen, dan seberapa sering ditemukan dalam koleksi dokumen. Selanjutnya teori
mengenai vector space model akan dibahas dalam sub bab
berikutnya
2.1.2. Vector Space Model