Tabel 3.2 Hasil dokumen setelah melalui tahapan eliminasi
Urutan Isi
D0 system system recommendation recommendation
D1 system recommendation system recommendation
D2 news system recommendation news system
recommendation D3
news retrieval Q
N1 system recommendation
N2 news recommendation
3.3. CSR SpMV CSR SpMV digunakan untuk mencari tingkat relevansi dokumen. Sesuai algoritma
CSR SpMV yang telah dibahas pada bagian 2.7 tahapan – tahapan yang akan dilalui
ditunjukkan pada gambar 3.2.
Kumpulan term setiap dokumen Membuat tabel Tf Term Frequency
Membuat tabel Df Document Frequency dan Idf Inverse document Frequency
Membuat Sparse Matrix Membentuk Format CSR
Melakukan CSR Sparse Matrix Vector Multiplication
Hasil Relevansi Dari CSR SpMV Membuat query
Gambar 3.2 Alur tahapan CSR SpMV
Dari tabel 3.2 akan dibentuk tabel tf term frequency yang akan menampilkan frekuensi setiap term dalam sebuah dokumen. Selanjutnya untuk setiap term akan
Universitas sumatera utara
dibuat tabel df untuk menampilkan frekuensi dokumen yang memiliki term tertentu. Untuk lebih lengkapnya akan penulis jabarkan berikut ini :
tf = frekuensi term pada masing
– masing dalam sebuah dokumen df
= frekuensi dukumen yang memiliki suatu term d
= Jumlah dokumen yang yang dijadikan pembanding, dalam hal ini = 4 idf
= log
Tabel 3.3 Tf term frequency
Tabel 3.4 df
dan idf Term_id
Term Df
Idf
system 3
0.12 1
recommendation 3
0.12 2
news 2
0.30 3
retrieval 1
0.60 Setelah tabel tf, df dan idf dibentuk selanjutnya akan diimplementasi ke dalam
sparse matrix , kolom merupakan term dan baris merupakan nomor dokumen yang
dimulai dengan angka 0. Nilai yang ada di dalam sparse matrix merupakah nilai dari hasil tfidf untuk setiap term pada masing
– masing dokumen.
DOCS Tf
D0
system 2
recommendation 2
D1
system 2
recommendation 2
D2
news 2
system 2
recommendation 2
D3
news 1
retrieval 1
Universitas sumatera utara
Tabel 3.5
Sparse matrix yang ditampilkan dalam bentuk tabel
term doc
System Recommendation
News Retrieval
0.24 0.24
1 0.24
0.24 2
0.24 0.24
0.60 3
0.30 0.60
Dari tabel 3.5 yang merupakan sparse matrix akan dibentuk dalam format kompresi CSR yang akan ditampilkan pada gambar 3.3 .
Gambar 3.3
Format CSR dari sparse matrix tabel 3.5 Untuk query, dibentuk berdasarkan kolom term yang tersedia pada tabel 3.5.
Query yang dimasukkan dalam kasus ini adalah “system recommendation”. Untuk
term “system” berada pada kolom ke- 0 dan untuk term “recommendation” berada pada kolom ke-1. Sedangkan untuk nilai diambil dari idf dari masing
– masing term. Term “system” bernilai 0.12 dan term “recommendation” bernilai 0.30. Jika dibentuk
dalam bentuk vector, maka hasilnya seperti pada gambar 2.2.
Gambar 3.4 Format vektor query
Vektor query yang terdapat pada gambar 3.4 akan menjadi vektor pengali terhadap nilai sparse matrix dengan kolom yang sama, kolom disini yang berarti term
yang sama antara pada sparse matrix dan pada vektor query, hal ini yang menjadi kunci dari hubungan CSR SpMV dengan information retrieval. Yang artinya hasil dari
masing – masing dokumen akan memberikan hasil relevansi berupa nilai jika pada
suatu kolom antara sparse matrix dan vektor query keduanya tidak bernilai 0. val_vector = 0.24, 0.24, 0.24, 0.24, 0.24, 0.24, 0.6, 0.3, 0.6
col_vector = 0, 1, 0, 1, 0, 1, 2, 2, 3 row_ptr_vector = 0, 2, 4, 7, 9
Q = 0.12 0.30 0 0
Universitas sumatera utara
Berdasarkan algoritma pada gambar 2.3, akan dijabarkan hasil perhitungan untuk masing
– masing dokumen D0 – D3 pada tabel 3.6 untuk memaparkan secara jelas tentang jalannya algoritma.
Tabel 3.6
Hasil relevansi dokumen menggunakan algoritma CSR SpMV
Dokumen Iterasi Nilai
Nilai Akhir
D0 0 + 0.24 0.12 = 0.0288
0.0576
1 0.0288 + 0.24 0.12 = 0.0576
D1 0 + 0.24 0.12 = 0.0288
0.0576
1 0.0288 + 0.24 0.12 = 0.0576
D2 0+0.24 0.12 = 0.0288
0.0576
1 0.0288 + 0.24 0.12 = 0.0576
D3 0 + 0.30 0.00 = 0.00
0.00
1 0.00 + 0.60 0.00 = 0.00
Nilai relevansi dokumen dari tabel 3.6 diurutkan secara descending berdasarkan nilai akhir yang didapatkan masing
– masing dokumen, untuk mengetahui dokumen yang paling relevan diantara keempat dokumen. Tingkat relevansi ditunjukkan dari
nilai akhir masing – masing dokumen setelah dijalankan algoritma dari Gambar 2.3.
Tabel 3.7
Hasil pengurutan nilai akhir secara descending.
Dokumen Nilai Akhir
D0 0.0576
D1 0.0576
D2 0.0576
D3 0.00
Dari hasil relevansi yang ditunjukkan pada Tabel 3.7, menunjukkan bahwa dokumen D0, D1 dan D2 menunjukkan nilai relevansi yang sama, padahal jika kita
lihat pada Tabel 3.2 yang memaparkan daftar dokumen, seharusnya dokumen D1 dan D2 memberikan nilai relevansi yang lebih tinggi dari pada D0, karena query yang
dimasukkan adalah “system recommendation” dan yang paling relevan jika kita melihat secara manual
pada dokumen D1 dan D2 yang memiliki kalimat “system recommendation
” secara berurutan. Dalam sistem rekomendasi hal ini penulis menilai belum mencukupi, maka dari itu penulis menambahkan proximity processing.
Universitas sumatera utara
3.4. Proximity Processing