BAB 3 ANALISIS DAN PERANCANGAN
Dalam bab ini penulis akan membahas tentang analisis data, tahapan eliminasi, CSR SpMV, proximity processing, bayesian framework for user interest dan perancangan
sistem untuk memudahkan pembaca dalam memahami cara kerja sistem rekomendasi secara bertahap.
3.1. Analisis Data
Dalam penelitian ini ada sekumpulan data yang digunakan untuk mencapai tujuan dari
penelitian. Hasil analisis dan keterangan data adalah sebagai berikut : - Menggunakan 265 judul serta isi berita yang diambil dari kompas.com,
liputan6.com, merdeka.com, beritateknologi.com dan okezone.com mengandung karakter ASCII
American Standard Code for Information Interchange .
- Judul berita diambil yang terbit pada bulan april, mei dan agustus. - Dokumen bagian dari proses dalam rekomendasi adalah judul berita.
- Karakter huruf dalam ASCII 65 – 90 dan 97 - 122, angka dalam ASCII 48 -
57 dan spasi dalam ASCII 32 hanya yang akan diambil dari dokumen, selain ketiga jenis karakter tersebut akan dieliminasi dari proses rekomendasi.
- Riwayat click dari user yang mengakses url berita supaya bisa diberikan rekomendasi secara tepat pada user.
- Stopword yang merupakan daftar kata yang akan dihilangkan dari berita, karena jika kata
– kata yang ada di dalam stopword tidak dihilangkan, maka akan memberikan hasil yang kurang efektif untuk rekomendasi Tala, 2003.
- Term merupakan kata yang mempertegas maksud dari dokumen yang merupakan
karakter huruf atau angka dan selain dari kata yang ada dalam daftar stopword.
Universitas sumatera utara
3.2. Tahapan Eliminasi Untuk menghapus kata dan karakter yang tidak dibutuhkan akan dilakukan beberapa
tahapan berikut ini : 1. Melakukan eliminasi dengan mengganti karakter selain dari karakter a-z, A
– Z, – 9 dan spasi akan diganti dengan karakter spasi menggunakan regular
expression , yaitu :
- [a-zA-Z0-9\s] = yang karakter a-z, A-Z, 0-9 dan spasi digantikan jadi spasi - [\s+] = melakukan penghapusan jika ada spasi yang lebih banyak dari 1
diantara kedua kata 2. Menjadikan semua karakter huruf menjadi huruf kecil.
3. Melakukan stopword removal berdasarkan daftar kata yang tersedia pada lampiran 2 akan dihapus dari data yang akan diproses untuk rekomendasi.
4. Melakukan stemming, untuk mendapatkan setiap kata dasar dari setiap masing –
masing kata. 5. Melakukan stopword removal sekali lagi setelah proses stemming dilakukan, hal
ini dilakukan supaya jika ada kata yang belum berhasil dihapus dikarenakan kata tersebut tidak tersedia dalam daftar stopword, maka setelah dilakukan stemming
dan mendapatkan kata dasarnya. Jika kata dasar tersebut tersedia dalam daftar stopword
maka akan dihapus.
Dokumen Ambil hanya karakter a-z A-Z
0-9 dan spasi Menjadikan huruf kecil
Hapus stopword Lakukan stemming
Hapus stopword Kumpulan term setiap dokumen
Gambar 3.1 Alur tahapan eliminasi
Universitas sumatera utara
Untuk memperjelas penjelasan penulis tentang tahapan – tahapan dalam
penelitian serta manfaat dari setiap tahapan, maka penulis menjelaskan melalui contoh.
Ada 6 dokumen yang merupakan judul berita dengan diberikan identias D0, D1, D2, D3, Q untuk query dan N berita pernah akses. Karena contoh ini akan berlanjut
sampai kepada sistem rekomendasi personal maka contoh ini penulis buat secara lengkap, walaupun pada bagian 3.2 tidak diperlukan semuanya namun pada bagian 3.3
sampai 3.5 akan dibutuhkan.
Tabel 3.1 Contoh kumpulan dokumen serta keterangan
Urutan Isi
Ket
D0 Seberapa bagus system yang menggunakan System
Recommendation dengan tujuan Recommendation akan dinilai
D1 System untuk recommendation saat ini adalah system
recommendation akan dinilai
D2 News system recommendation merupakan news system
untuk tujuan recommendation akan dinilai
D3 news retrieval merupakan hal sederhana
akan dinilai Q
N1 system recommendation yang lebih baik
tidak dinilai, karena
sedang diakses
N2 news recommendation saat ini
tidak dinilai, karena
pernah akses Dari tabel 3.1 ada dokumen yang akan dinilai D0,D1,D2,D3 untuk proses
rekomendasi dan ada yang tidak diproses, hal ini karena untuk yang sedang diakses Q akan dijadikan query dan yang pernah diakses N1,N2 akan dijadikan
pertimbangan dalam memberikan nilai pada bagian 3.5 bayesian framework for user interest
. Penggunaan query akan digunakan pada Algoritma CSR SpMV dan juga Algoritma proximty processing dan berita yang pernah diakses akan menggunakan
bayesian framework for user interest untuk menentukan nilai ketertarikan pengguna
anonim terhadap masing – masing judul berita. Setelah melewati proses eliminasi
setiap dokumen akan menjadi seperti tabel 3.2.
Universitas sumatera utara
Tabel 3.2 Hasil dokumen setelah melalui tahapan eliminasi
Urutan Isi
D0 system system recommendation recommendation
D1 system recommendation system recommendation
D2 news system recommendation news system
recommendation D3
news retrieval Q
N1 system recommendation
N2 news recommendation
3.3. CSR SpMV CSR SpMV digunakan untuk mencari tingkat relevansi dokumen. Sesuai algoritma