Penggabungan Kata Berdasarkan Sinonim Pembobotan Kata

14 2. tf murni raw tf, nilai tf diberikan berdasarkan jumlah kemunculan suatu kata di dokumen. 3. tf logaritmik, hal ini untuk menghindari dominansi dokumen yang mengandung sedikit kata dalam query, namun mempunyai frekuensi yang tinggi. tf = 1 + log tf 2.1 4. tf normalisasi, menggunakan perbandingan antara frekuensi sebuah kata dengan jumlah keseluruhan kata pada dokumen. 2.2 Pada Inverse Document Frequency idf perhitungannya adalah : idf j = log D df j 2.3 Keterangan : D : jumlah semua dokumen dalam koleksi df j : jumlah dokumen yang mengandung term t j Jenis formula yang akan digunakan untuk perhitungan term frequency tf yaitu tf murni raw tf Robertson, 1974. Oleh karena itu untuk rumus yang digunakan untuk TF-IDF adalah nilai raw tf dikalikan dengan nilai inverse document frequency Persamaan 2.3: 15 2.4 Keterangan : w ij : bobot term t j terhadap dokumen d i tf ij : jumlah kemunculan term t j dalam dokumen d i D : jumlah semua dokumen yang ada dalam database df j : jumlah dokumen yang mengandung term t j minimal ada satu kata yaitu term t j Berdasarkan Persamaan 2.4 berapapun besarnya nilai tf ij , jika D = df j didapatkan hasil 0 nol untuk perhitungan idf. Maka dapat ditambahkan nilai 1 pada sisi idf, sehingga perhitungan bobot menjadi sebagai berikut : 2.5

2.1.1.1.6. Normalisasi ZScore

Z-score merupakan metode normalisasi yang berdasarkan mean nilai rata-rata dan standar deviasi dari data. Metode ini sangat berguna jika kita tidak mengetahui nilai aktual minimum dan maksimum dari data. Martiana, 2013. Lihat Persamaan 2.6 newdata = data-meanstd 2.6 Pada persamaan 2.6 new data = data baru mean = rata-rata std = standar deviasi 16

2.1.1.1.7. Variance Initialization

Variance Initialization merupakan salah satu teknik analisis multivariate yang berfungsi untuk membedakan rerata lebih dari dua kelompok data dengan cara membandingkan variansinya. Analisis varian termasuk dalam kategori statistik parametric. Ghozali, 2009. Untuk membandingkan variansinya, maka digunakan rumus variance yang terdapat pada persamaan 2.7 2.7 Pada persamaan 2.7 xi = nilai x ke-i = rata-rata n = ukuran sampel s 2 = varian Untuk menghitung standar deviasi simpangan baku maka digunakan rumus standar deviasi seperti yang terdapat pada persamaan 2.8 2.8 Pada persamaan 2.8 s 2 = varian s = standar deviasi simpangan baku 17

2.2. K-Means Clustering

K Means clustering merupakan metode yang populer digunakan untuk mendapatkan deskripsi dari sekumpulan data dengan cara mengungkapkan kecenderungan setiap individu data untuk berkelompok dengan individu- individu data lainnya. Kecenderungan pengelompokan tersebut didasarkan pada kemiripan karakteristik tiap individu data yang ada. Ide dasar dari metode ini adalah menemukan pusat dari setiap kelompok data yang mungkin ada untuk kemudian mengelompokkan setiap data individu kedalam salah satu dari kelompok-kelompok tersebut berdasarkan jaraknya Turban dkk., 2005. Semakin dekat jarak data individual, sebut saja X1 dengan salah satu pusat dari kelompok yang ada , sebut saja A, maka semakin jelas bahwa X1 tersebut merupakan anggota dari kelompok yang berpusat di A dan semakin jelas pula bahwa X1 bukan anggota dari kelompok-kelompok yang lainnya ilustrasi dapat dilihat pada gambar 2.2. Secara kuantitatif hal ini ditunjukkan melalui fakta bahwa d1A yaitu jarak dari X1 ke A mempunyai nilai yang paling kecil jika dibandingankan dengan d1B dan d1C.