Normalisasi Uclidean Distance Pengujian sistem

6 Berdasarkan pada ukuran kesamaan antara masing-masing profil, sistem memilih dan membuat peringkat pada item yang relevan, kemudian diberikan kepada pengguna. Terdapat dua pendekatan pada information filtering, yaitu collaborative filtering dan content-based filtering [Dai dan Mobasher, 2001]. Keuntungan dari pendekatan content-based filtering adalah pengguna mendapatkan wawasan tentang mengapa suatu item dianggap relevan untuk pengguna, karena konten di setiap itemnya diketahui dari representasinya. Namun pendekatan ini juga mempunyai kelemahan, misalnya kenyataan bahwa pendekatan ini berfokus pada kemiripan kata kunci. Pendekatan ini tidak mampu menangkap hubungan yang lebih kompleks pada level semantik yang lebih dalam, berdasarkan pada berbagai jenis atribut yang berhubungan dengan obyek terstruktur dari teks [Dai dan Mobasher, 2001]. Kesamaan antara representasi dari pengguna dan representasi dari item akan didasarkan pada prinsip kedekatan. Perinsip kedekatan ini menyatakan bahwa jarak dari dua deskripsi item secara langsung berkaitan dengan kesamaan mereka [Knappe, 2005].

C. Normalisasi

Faktor normalisasi digunakan untuk menormalkan vektor dokumen sehingga proses retrieval tidak terpengaruh oleh panjang dari dokumen. Normalisasi ini diperlukan karena dokumen panjang biasanya mengandung perulangan term yang sama sehingga menaikkan frekuensi term tf. Dokumen panjang juga mengandung banyak term yang berbeda sehingga menaikkan ukuran kemiripan antara query dengan dokumen tersebut, meningkatkan peluang di-retrievenya dokumen yang lebih panjang. Beberapa pendekatan normalisasi adalah normalisasi cosinus, penjumlahan bobot, normalisasi ke- 4, normalisasi bobot maksimal dan normalisasi pivoted unique . Dalam penelitian ini akan digunakan normalisasi bobot maksimal [Husni, 2010]. Normalisasi bobot maksimal suatu term i di dalam dokumen j tf ij dapat didefinisikan sebagai berikut: 7 ntf = tf Max tf Diketahui: • Tf ik merupakan frekuensi dari istilah k dalam dokumen i. • n adalah jumlah dokumen dalam kumpulan dokumen. • Max j tf ik adalah frekuensi istilah terbesar pada satu dokumen.

D. Uclidean Distance

Dalam matematika, euclidean distance atau adalah jarak antara dua titik dapat diukur menggunakan formula pytagoras. Euclidean sering disebut dengan vector obyek geometri yang memiliki panjang magnitude dan arah direction. Sedangkan ruang vektor adalah sebuah struktur matematika yang dibentuk oleh sekumpulan vektor. Vektor-vektor tersebut dapat ditambahkan, dikalikan dengan bilangan real dan lain-lain. [Sandi, 2010]. Berikut merupakan penyelesaian dalam menghitung jarak antara vektor A dan vektor B. Panjang vektor A dan B dapat didefinisikan sebagai berikut: Dengan demikian, untuk menghitung jarak antara kedua vektor tersebut menggunakan persamaan sebagai berikut :

E. K-Mean

1. Pengertian

Jika diberikan sekumpulan data X = {x1, x2, …, xn} dimana xi = xi1, xi2, …, xin adalah vector dalam ruang real Rn, maka algoritma k-means akan mempartisi X dalam k buah cluster. Setiap cluster memiliki centroid titik 8 tengah atau mean dari data-data dalam cluster tersebut. Pada tahap awal, algoritma k-means memilih secara acak k buah data sebagai centroid. Kemudian, jarak antara data dan centroid dihitung menggunakan Euclidian distance. Data ditempatkan dalam cluster yang terdekat, dihitung dari titik tengah cluster. Centroid baru akan ditentukan bila semua data telah ditempatkan dalam cluster terdekat. Proses penentuan centroid dan penempatan data dalam cluster diulangi sampai nilai centroid konvergen centroid dari semua cluster tidak berubah lagi [Munzir dan Taufik , 2009].

2. Teknik Metode K-Mean

K-means memilih secara acak k buah data sebagai centroid. Kemudian menempatkan data dalam cluster yang terdekat, dihitung dari titik tengah cluster centroid. Centroid baru akan ditentukan bila semua data telah ditempatkan dalam cluster terdekat. Proses penentuan centroid dan nempatan data dalam cluster diulangi sampai nilai centroid konvergen. Gambar 1 memperlihatkan cara kerja k-means dan algoritma 1 memperlihatkan langkah- langkah proses k-means [Munzir dan Taufik , 2009]. Algoritma 1 Proses K-Means Input: vektor dokumen D, k Output: k cluster dokumen 1. Pilih secara acak k vektor sebagai centroid 2. repeat 3. tempatkan data vektor dalam cluster atau centroid terdekat 4. hitung centroid baru dari cluster yang terbentuk 5. until centroid tidak berubah lagi 9 Gambar 1. Proses dari clustering

F. Pengujian sistem

Sistem IR mengembalikan sekumpulan dokumen sebagai jawaban dari query pengguna. Terdapat dua kategori dokumen yang dihasilkan oleh sistem IR terkait pemrosesan query, yaitu relevant documents dokumen yang relevan dengan query dan retrieved documents dokumen yang diterima pengguna. Ukuran umum yang digunakan untuk mengukur kualitas dari text retrieval adalah kombinasi precision dan recall. Presisi mengevaluasi kemampuan sistem IR untuk menemukan kembali dokumen top-ranked yang paling relevan, dan didefinisikan sebagai persentase dokumen yang diretrieve yang benar-benar relevan terhadap query pengguna. [Husni , 2010]. Precision =|relevant ∩ retrieved| |retrieved Recall mengevaluasi kemampuan sistem IR untuk menemukan semua item yang relevan dari dalam koleksi dokumen dan didefinisikan sebagai persentase dokumen yang relevan terhadap query pengguna dan yang diterima. [Husni , 2010] . Recall = |relevant ∩ retrieved| |relevant|

G. Android