12
∑
Persamaan 2.2. Rumus penghitungan skor dan perankingan dokumen terhadap query
2.1.4. Evaluasi Pemerolehan Informasi
Pengukuran hasil relevansi dapat dilakukan dengan penghitungan recall dan precision. Recall digunakan untuk mengukur seberapa baik suatu sistem
melakukan pencarian terhadap dokumen yang relevan terhadap suatu query pengguna. Sementara itu, precision digunakan untuk melihat seberapa baik sistem
pemerolehan informasi mengeliminasi dokumen yang tidak relevan Croft et al., 2010.
Rumus dari recall dan precision adalah sebagai berikut Manning et al, 2008 : ∑
∑
Persamaan 2.3. Rumus penghitungan nilai recall Manning et al, 2008
∑ ∑
Persamaan 2.4. Rumus penghitungan nilai precision Manning et al, 2008
2.2. Konsep Pengelompokan Dokumen 2.2.1. Clustering dalam Pemerolehan Informasi
Algoritma clustering mengelompokan sekumpulan dokumen ke dalam suatu subset atau cluster. Tujuan algoritma clustering dalam pemerolehan
informasi bertujuan untuk mengelompokan sekumpulan dokumen yang koheren secara internal, namun memiliki perbedaan jauh dengan dokumen dari cluster
yang lain. Dengan kata lain, antar dokumen di dalam satu cluster yang sama seharusnya memiliki tingkat kemiripan yang tinggi, dan antar dokumen di dalam
13
cluster yang berbeda seharusnya memiliki tingkat perbedaan yang setinggi- tingginya Manning et al, 2008.
2.2.2. Hipotesis Cluster
Hipotesis cluster berisi tentang asumsi dasar yang dibuat ketika menerapkan clustering dalam pemerolehan informasi. Hipotesis cluster menyebutkan bahwa
dokumen dalam cluster yang sama akan memiliki keidentikan sifat, berkenaan dengan relevansi terhadap kebutuhan informasi Manning et al, 2008.
2.2.3. K-Means
K-Means adalah salah satu algoritma flat clustering yang paling penting Manning et al, 2008. Tujuan K-Means adalah meminimalkan rata-rata kuadrat
jarak Euclidean dokumen terhadap centroid pusat cluster dokumen tersebut Manning et al, 2008.
Algoritma k-Means ditunjukkan dalam gambar berikut ini :
Gambar 2.2. Pseudocode algoritma K-Means Manning et al, 2008
Dalam bukunya, Manning 2008 menjabarkan langkah dari algoritma K- Means. Pertama-tama, dilakukan pemilihan pusat cluster K secara acak dari
dokumen yang ada. Terjadi proses iteratif dimana pusat cluster bergerak terus PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
untuk meminimalkan RSS residual sum of squares. Setelah itu, tiap dokumen ditempatkan pada cluster yang memiliki centroid terdekat dengan dokumen
tersebut. Proses kembali lagi ke iterasi pergerakan pusat cluster. Visualisasi proses yang terjadi dalam k-Means ditampilkan dalam gambar berikut
ini :
Gambar 2.3. Visualisasi proses yang terjadi dalam algoritma K-Means Manning et al, 2008
15
Ada beberapa cara penghentian iterasi, antara lain : Banyak iterasi I yang telah ditetapkan sebelumnya. Ketika iterasi telah
mencapai langkah ke-i, maka proses akan berhenti. Penempatan dokumen dalam suatu cluster fungsi partisi γ tidak berubah-
ubah lagi. Centroid µ
k
tida k berubah lagi. Hal ini sama dengan γ tidak berubah.
Berhenti ketika nilai RSS dibawah batas yang ditentukan.
2.2.4. G-Means
Algoritma G-Means diperkenalkan oleh Greg Hamerly dan Charles Elkan dari University of California pada tahun 2004. G-Means adalah algoritma
pengembangan dari K-Means yang memiliki fitur penghitungan jumlah cluster yang optimum dengan menggunakan uji statistik untuk memutuskan apakah suatu
pusat cluster perlu dipecah menjadi dua pusat cluster Hamerly et al., 2004. Algoritma G-Means akan dimuai dari jumlah pusat cluster yang kecil,
misalnya satu atau dua. Tiap iterasi dimulai dengan pengelompokan data menggunakan K-Means seperti biasa untuk mendapatkan himpunan anggota tiap
cluster, selanjutnya algoritma ini akan memecah pusat cluster menjadi dua apabila suatu cluster nampak tidak terdistribusi normal.
Visualisasi G-Means dalam suatu dataset 2 dimensi dengan 1000 point ditampilkan dalam gambar berikut ini :
Gambar 2.4. Visualisasi G-Means dalam suatu dataset 2 dimensi dengan 1000 point. Algoritma G- Means mencoba mencari normalitas dalam sebaran titik pada suatu cluster Hamerly et al., 2004
16
Algoritma G-Means dapat dilihat sebagai berikut Hamerly et al., 2004 : 1. Pilih C sebagai sekumpulan pusat cluster centroid awal
2. Lakukan K-Means pada dataset X dengan C sebagai pusat-pusat clusternya. 3. x
i
adalah sekumpulan datapoint yang menjadi member centroid c
j
, dimana { x
i
| classx
i
= j } 4. Gunakan uji statistik untuk melihat apakah tiap { x
i
| classx
i
= j } mengikuti distribusi normal pada suatu confidence level
α. 5. Jika data terlihat terdistribusi normal, maka c
j
tidak berubah. Namun jika sebaliknya, maka c
j
diganti menjadi dua pusat cluster 6. Ulangi langkah no. 2 hingga tidak ada lagi pusat cluster yang ditambahkan.
Terdapat dua hipotesis dalam uji statistik pada no. 4, yaitu sebagai berikut Hamerly et al., 2004 :
H : data disekitar pusat cluster terdistribusi normal
H
1
: data disekitar pusat cluster tidak terdistribusi normal Jika H
diterima, maka pusat cluster tidak perlu dipisah lagi menjadi dua. Sementara itu, jika H
1
diterima, maka pusat cluster harus dipecah menjadi dua.
Uji statistik yang digunakan adalah adalah uji Anderson-Darling, dengan formula sebagai berikut :
Persamaan 2.5. Rumus Uji Statistik Anderson Darling
dengan : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
∑ [
Persamaan 2.6. Rumus Uji Statistik Anderson Darling
X adalah subset dengan pusat cluster C. Tiap instance dari X diwakili dengan x
i
, x
i+1, …,
x
n-1,
x
n
. Sementara itu, z
i
adalah hasil dari fungsi distribusi kumulatif untuk distribusi normal baku terhadap nilai x
i
. Untuk melakukan uji statistik diatas, dilakukan langkah seperti berikut ini
Hamerly et al., 2004 : 1. Ambil suatu subset X
2. Pilih level signifikan α untuk uji. 3. Dari pusat cluster tersebut, ambil dua buah “anak” pusat cluster, dinotasikan
dengan c1 dan c2. Caranya dengan menggunakan rumus c±m, dimana m adalah random atau dengan rumus berikut :
√
Persamaan 2.7. Rumus mencari anak cluster Hamerly et al., 2004
Dimana, m = vector anak
s = eigenvalue terbesar yang didapat dari data λ = principal component utama, yaitu eigenvector dengan eigenvalue
terbesar 4. Jalankan K-Means pada X dengan dua centroid tersebut c1 dan c2.
5. Hitung nilai vektor v dengan v = c1 – c2. 6. Proyeksikan X ke v, menjadi X’, dengan rumus sebagai berikut
‖ ‖
Persamaan 2.8. Rumus proyeksi vektor-vektor di X ke vektor v
7. Normalisasi X` sehingga memiliki rerata 0 dan varian 1. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI