Analisis Data ANALISIS DAN PERANCANGAN

BAB 3 ANALISIS DAN PERANCANGAN

Dalam bab ini penulis akan membahas tentang analisis data, tahapan eliminasi, CSR SpMV, proximity processing, bayesian framework for user interest dan perancangan sistem untuk memudahkan pembaca dalam memahami cara kerja sistem rekomendasi secara bertahap.

3.1. Analisis Data

Dalam penelitian ini ada sekumpulan data yang digunakan untuk mencapai tujuan dari penelitian. Hasil analisis dan keterangan data adalah sebagai berikut : - Menggunakan 265 judul serta isi berita yang diambil dari kompas.com, liputan6.com, merdeka.com, beritateknologi.com dan okezone.com mengandung karakter ASCII American Standard Code for Information Interchange . - Judul berita diambil yang terbit pada bulan april, mei dan agustus. - Dokumen bagian dari proses dalam rekomendasi adalah judul berita. - Karakter huruf dalam ASCII 65 – 90 dan 97 - 122, angka dalam ASCII 48 - 57 dan spasi dalam ASCII 32 hanya yang akan diambil dari dokumen, selain ketiga jenis karakter tersebut akan dieliminasi dari proses rekomendasi. - Riwayat click dari user yang mengakses url berita supaya bisa diberikan rekomendasi secara tepat pada user. - Stopword yang merupakan daftar kata yang akan dihilangkan dari berita, karena jika kata – kata yang ada di dalam stopword tidak dihilangkan, maka akan memberikan hasil yang kurang efektif untuk rekomendasi Tala, 2003. - Term merupakan kata yang mempertegas maksud dari dokumen yang merupakan karakter huruf atau angka dan selain dari kata yang ada dalam daftar stopword. Universitas sumatera utara 3.2. Tahapan Eliminasi Untuk menghapus kata dan karakter yang tidak dibutuhkan akan dilakukan beberapa tahapan berikut ini : 1. Melakukan eliminasi dengan mengganti karakter selain dari karakter a-z, A – Z, – 9 dan spasi akan diganti dengan karakter spasi menggunakan regular expression , yaitu : - [a-zA-Z0-9\s] = yang karakter a-z, A-Z, 0-9 dan spasi digantikan jadi spasi - [\s+] = melakukan penghapusan jika ada spasi yang lebih banyak dari 1 diantara kedua kata 2. Menjadikan semua karakter huruf menjadi huruf kecil. 3. Melakukan stopword removal berdasarkan daftar kata yang tersedia pada lampiran 2 akan dihapus dari data yang akan diproses untuk rekomendasi. 4. Melakukan stemming, untuk mendapatkan setiap kata dasar dari setiap masing – masing kata. 5. Melakukan stopword removal sekali lagi setelah proses stemming dilakukan, hal ini dilakukan supaya jika ada kata yang belum berhasil dihapus dikarenakan kata tersebut tidak tersedia dalam daftar stopword, maka setelah dilakukan stemming dan mendapatkan kata dasarnya. Jika kata dasar tersebut tersedia dalam daftar stopword maka akan dihapus. Dokumen Ambil hanya karakter a-z A-Z 0-9 dan spasi Menjadikan huruf kecil Hapus stopword Lakukan stemming Hapus stopword Kumpulan term setiap dokumen Gambar 3.1 Alur tahapan eliminasi Universitas sumatera utara Untuk memperjelas penjelasan penulis tentang tahapan – tahapan dalam penelitian serta manfaat dari setiap tahapan, maka penulis menjelaskan melalui contoh. Ada 6 dokumen yang merupakan judul berita dengan diberikan identias D0, D1, D2, D3, Q untuk query dan N berita pernah akses. Karena contoh ini akan berlanjut sampai kepada sistem rekomendasi personal maka contoh ini penulis buat secara lengkap, walaupun pada bagian 3.2 tidak diperlukan semuanya namun pada bagian 3.3 sampai 3.5 akan dibutuhkan. Tabel 3.1 Contoh kumpulan dokumen serta keterangan Urutan Isi Ket D0 Seberapa bagus system yang menggunakan System Recommendation dengan tujuan Recommendation akan dinilai D1 System untuk recommendation saat ini adalah system recommendation akan dinilai D2 News system recommendation merupakan news system untuk tujuan recommendation akan dinilai D3 news retrieval merupakan hal sederhana akan dinilai Q N1 system recommendation yang lebih baik tidak dinilai, karena sedang diakses N2 news recommendation saat ini tidak dinilai, karena pernah akses Dari tabel 3.1 ada dokumen yang akan dinilai D0,D1,D2,D3 untuk proses rekomendasi dan ada yang tidak diproses, hal ini karena untuk yang sedang diakses Q akan dijadikan query dan yang pernah diakses N1,N2 akan dijadikan pertimbangan dalam memberikan nilai pada bagian 3.5 bayesian framework for user interest . Penggunaan query akan digunakan pada Algoritma CSR SpMV dan juga Algoritma proximty processing dan berita yang pernah diakses akan menggunakan bayesian framework for user interest untuk menentukan nilai ketertarikan pengguna anonim terhadap masing – masing judul berita. Setelah melewati proses eliminasi setiap dokumen akan menjadi seperti tabel 3.2. Universitas sumatera utara Tabel 3.2 Hasil dokumen setelah melalui tahapan eliminasi Urutan Isi D0 system system recommendation recommendation D1 system recommendation system recommendation D2 news system recommendation news system recommendation D3 news retrieval Q N1 system recommendation N2 news recommendation

3.3. CSR SpMV CSR SpMV digunakan untuk mencari tingkat relevansi dokumen. Sesuai algoritma