CSR SpMV CSR SpMV digunakan untuk mencari tingkat relevansi dokumen. Sesuai algoritma

Tabel 3.2 Hasil dokumen setelah melalui tahapan eliminasi Urutan Isi D0 system system recommendation recommendation D1 system recommendation system recommendation D2 news system recommendation news system recommendation D3 news retrieval Q N1 system recommendation N2 news recommendation

3.3. CSR SpMV CSR SpMV digunakan untuk mencari tingkat relevansi dokumen. Sesuai algoritma

CSR SpMV yang telah dibahas pada bagian 2.7 tahapan – tahapan yang akan dilalui ditunjukkan pada gambar 3.2. Kumpulan term setiap dokumen Membuat tabel Tf Term Frequency Membuat tabel Df Document Frequency dan Idf Inverse document Frequency Membuat Sparse Matrix Membentuk Format CSR Melakukan CSR Sparse Matrix Vector Multiplication Hasil Relevansi Dari CSR SpMV Membuat query Gambar 3.2 Alur tahapan CSR SpMV Dari tabel 3.2 akan dibentuk tabel tf term frequency yang akan menampilkan frekuensi setiap term dalam sebuah dokumen. Selanjutnya untuk setiap term akan Universitas sumatera utara dibuat tabel df untuk menampilkan frekuensi dokumen yang memiliki term tertentu. Untuk lebih lengkapnya akan penulis jabarkan berikut ini : tf = frekuensi term pada masing – masing dalam sebuah dokumen df = frekuensi dukumen yang memiliki suatu term d = Jumlah dokumen yang yang dijadikan pembanding, dalam hal ini = 4 idf = log Tabel 3.3 Tf term frequency Tabel 3.4 df dan idf Term_id Term Df Idf system 3 0.12 1 recommendation 3 0.12 2 news 2 0.30 3 retrieval 1 0.60 Setelah tabel tf, df dan idf dibentuk selanjutnya akan diimplementasi ke dalam sparse matrix , kolom merupakan term dan baris merupakan nomor dokumen yang dimulai dengan angka 0. Nilai yang ada di dalam sparse matrix merupakah nilai dari hasil tfidf untuk setiap term pada masing – masing dokumen. DOCS Tf D0 system 2 recommendation 2 D1 system 2 recommendation 2 D2 news 2 system 2 recommendation 2 D3 news 1 retrieval 1 Universitas sumatera utara Tabel 3.5 Sparse matrix yang ditampilkan dalam bentuk tabel term doc System Recommendation News Retrieval 0.24 0.24 1 0.24 0.24 2 0.24 0.24 0.60 3 0.30 0.60 Dari tabel 3.5 yang merupakan sparse matrix akan dibentuk dalam format kompresi CSR yang akan ditampilkan pada gambar 3.3 . Gambar 3.3 Format CSR dari sparse matrix tabel 3.5 Untuk query, dibentuk berdasarkan kolom term yang tersedia pada tabel 3.5. Query yang dimasukkan dalam kasus ini adalah “system recommendation”. Untuk term “system” berada pada kolom ke- 0 dan untuk term “recommendation” berada pada kolom ke-1. Sedangkan untuk nilai diambil dari idf dari masing – masing term. Term “system” bernilai 0.12 dan term “recommendation” bernilai 0.30. Jika dibentuk dalam bentuk vector, maka hasilnya seperti pada gambar 2.2. Gambar 3.4 Format vektor query Vektor query yang terdapat pada gambar 3.4 akan menjadi vektor pengali terhadap nilai sparse matrix dengan kolom yang sama, kolom disini yang berarti term yang sama antara pada sparse matrix dan pada vektor query, hal ini yang menjadi kunci dari hubungan CSR SpMV dengan information retrieval. Yang artinya hasil dari masing – masing dokumen akan memberikan hasil relevansi berupa nilai jika pada suatu kolom antara sparse matrix dan vektor query keduanya tidak bernilai 0. val_vector = 0.24, 0.24, 0.24, 0.24, 0.24, 0.24, 0.6, 0.3, 0.6 col_vector = 0, 1, 0, 1, 0, 1, 2, 2, 3 row_ptr_vector = 0, 2, 4, 7, 9 Q = 0.12 0.30 0 0 Universitas sumatera utara Berdasarkan algoritma pada gambar 2.3, akan dijabarkan hasil perhitungan untuk masing – masing dokumen D0 – D3 pada tabel 3.6 untuk memaparkan secara jelas tentang jalannya algoritma. Tabel 3.6 Hasil relevansi dokumen menggunakan algoritma CSR SpMV Dokumen Iterasi Nilai Nilai Akhir D0 0 + 0.24 0.12 = 0.0288 0.0576 1 0.0288 + 0.24 0.12 = 0.0576 D1 0 + 0.24 0.12 = 0.0288 0.0576 1 0.0288 + 0.24 0.12 = 0.0576 D2 0+0.24 0.12 = 0.0288 0.0576 1 0.0288 + 0.24 0.12 = 0.0576 D3 0 + 0.30 0.00 = 0.00 0.00 1 0.00 + 0.60 0.00 = 0.00 Nilai relevansi dokumen dari tabel 3.6 diurutkan secara descending berdasarkan nilai akhir yang didapatkan masing – masing dokumen, untuk mengetahui dokumen yang paling relevan diantara keempat dokumen. Tingkat relevansi ditunjukkan dari nilai akhir masing – masing dokumen setelah dijalankan algoritma dari Gambar 2.3. Tabel 3.7 Hasil pengurutan nilai akhir secara descending. Dokumen Nilai Akhir D0 0.0576 D1 0.0576 D2 0.0576 D3 0.00 Dari hasil relevansi yang ditunjukkan pada Tabel 3.7, menunjukkan bahwa dokumen D0, D1 dan D2 menunjukkan nilai relevansi yang sama, padahal jika kita lihat pada Tabel 3.2 yang memaparkan daftar dokumen, seharusnya dokumen D1 dan D2 memberikan nilai relevansi yang lebih tinggi dari pada D0, karena query yang dimasukkan adalah “system recommendation” dan yang paling relevan jika kita melihat secara manual pada dokumen D1 dan D2 yang memiliki kalimat “system recommendation ” secara berurutan. Dalam sistem rekomendasi hal ini penulis menilai belum mencukupi, maka dari itu penulis menambahkan proximity processing. Universitas sumatera utara

3.4. Proximity Processing