Konsep Pemerolehan Informasi Sistem pemerolehan informasi karya ilmiah berbasis Cluster dengan G-Means Clustering.

12 ∑ Persamaan 2.2. Rumus penghitungan skor dan perankingan dokumen terhadap query

2.1.4. Evaluasi Pemerolehan Informasi

Pengukuran hasil relevansi dapat dilakukan dengan penghitungan recall dan precision. Recall digunakan untuk mengukur seberapa baik suatu sistem melakukan pencarian terhadap dokumen yang relevan terhadap suatu query pengguna. Sementara itu, precision digunakan untuk melihat seberapa baik sistem pemerolehan informasi mengeliminasi dokumen yang tidak relevan Croft et al., 2010. Rumus dari recall dan precision adalah sebagai berikut Manning et al, 2008 : ∑ ∑ Persamaan 2.3. Rumus penghitungan nilai recall Manning et al, 2008 ∑ ∑ Persamaan 2.4. Rumus penghitungan nilai precision Manning et al, 2008 2.2. Konsep Pengelompokan Dokumen 2.2.1. Clustering dalam Pemerolehan Informasi Algoritma clustering mengelompokan sekumpulan dokumen ke dalam suatu subset atau cluster. Tujuan algoritma clustering dalam pemerolehan informasi bertujuan untuk mengelompokan sekumpulan dokumen yang koheren secara internal, namun memiliki perbedaan jauh dengan dokumen dari cluster yang lain. Dengan kata lain, antar dokumen di dalam satu cluster yang sama seharusnya memiliki tingkat kemiripan yang tinggi, dan antar dokumen di dalam 13 cluster yang berbeda seharusnya memiliki tingkat perbedaan yang setinggi- tingginya Manning et al, 2008.

2.2.2. Hipotesis Cluster

Hipotesis cluster berisi tentang asumsi dasar yang dibuat ketika menerapkan clustering dalam pemerolehan informasi. Hipotesis cluster menyebutkan bahwa dokumen dalam cluster yang sama akan memiliki keidentikan sifat, berkenaan dengan relevansi terhadap kebutuhan informasi Manning et al, 2008.

2.2.3. K-Means

K-Means adalah salah satu algoritma flat clustering yang paling penting Manning et al, 2008. Tujuan K-Means adalah meminimalkan rata-rata kuadrat jarak Euclidean dokumen terhadap centroid pusat cluster dokumen tersebut Manning et al, 2008. Algoritma k-Means ditunjukkan dalam gambar berikut ini : Gambar 2.2. Pseudocode algoritma K-Means Manning et al, 2008 Dalam bukunya, Manning 2008 menjabarkan langkah dari algoritma K- Means. Pertama-tama, dilakukan pemilihan pusat cluster K secara acak dari dokumen yang ada. Terjadi proses iteratif dimana pusat cluster bergerak terus PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 14 untuk meminimalkan RSS residual sum of squares. Setelah itu, tiap dokumen ditempatkan pada cluster yang memiliki centroid terdekat dengan dokumen tersebut. Proses kembali lagi ke iterasi pergerakan pusat cluster. Visualisasi proses yang terjadi dalam k-Means ditampilkan dalam gambar berikut ini : Gambar 2.3. Visualisasi proses yang terjadi dalam algoritma K-Means Manning et al, 2008 15 Ada beberapa cara penghentian iterasi, antara lain :  Banyak iterasi I yang telah ditetapkan sebelumnya. Ketika iterasi telah mencapai langkah ke-i, maka proses akan berhenti.  Penempatan dokumen dalam suatu cluster fungsi partisi γ tidak berubah- ubah lagi.  Centroid µ k tida k berubah lagi. Hal ini sama dengan γ tidak berubah.  Berhenti ketika nilai RSS dibawah batas yang ditentukan.

2.2.4. G-Means

Algoritma G-Means diperkenalkan oleh Greg Hamerly dan Charles Elkan dari University of California pada tahun 2004. G-Means adalah algoritma pengembangan dari K-Means yang memiliki fitur penghitungan jumlah cluster yang optimum dengan menggunakan uji statistik untuk memutuskan apakah suatu pusat cluster perlu dipecah menjadi dua pusat cluster Hamerly et al., 2004. Algoritma G-Means akan dimuai dari jumlah pusat cluster yang kecil, misalnya satu atau dua. Tiap iterasi dimulai dengan pengelompokan data menggunakan K-Means seperti biasa untuk mendapatkan himpunan anggota tiap cluster, selanjutnya algoritma ini akan memecah pusat cluster menjadi dua apabila suatu cluster nampak tidak terdistribusi normal. Visualisasi G-Means dalam suatu dataset 2 dimensi dengan 1000 point ditampilkan dalam gambar berikut ini : Gambar 2.4. Visualisasi G-Means dalam suatu dataset 2 dimensi dengan 1000 point. Algoritma G- Means mencoba mencari normalitas dalam sebaran titik pada suatu cluster Hamerly et al., 2004 16 Algoritma G-Means dapat dilihat sebagai berikut Hamerly et al., 2004 : 1. Pilih C sebagai sekumpulan pusat cluster centroid awal 2. Lakukan K-Means pada dataset X dengan C sebagai pusat-pusat clusternya. 3. x i adalah sekumpulan datapoint yang menjadi member centroid c j , dimana { x i | classx i = j } 4. Gunakan uji statistik untuk melihat apakah tiap { x i | classx i = j } mengikuti distribusi normal pada suatu confidence level α. 5. Jika data terlihat terdistribusi normal, maka c j tidak berubah. Namun jika sebaliknya, maka c j diganti menjadi dua pusat cluster 6. Ulangi langkah no. 2 hingga tidak ada lagi pusat cluster yang ditambahkan. Terdapat dua hipotesis dalam uji statistik pada no. 4, yaitu sebagai berikut Hamerly et al., 2004 :  H : data disekitar pusat cluster terdistribusi normal  H 1 : data disekitar pusat cluster tidak terdistribusi normal Jika H diterima, maka pusat cluster tidak perlu dipisah lagi menjadi dua. Sementara itu, jika H 1 diterima, maka pusat cluster harus dipecah menjadi dua. Uji statistik yang digunakan adalah adalah uji Anderson-Darling, dengan formula sebagai berikut : Persamaan 2.5. Rumus Uji Statistik Anderson Darling dengan : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 17 ∑ [ Persamaan 2.6. Rumus Uji Statistik Anderson Darling X adalah subset dengan pusat cluster C. Tiap instance dari X diwakili dengan x i , x i+1, …, x n-1, x n . Sementara itu, z i adalah hasil dari fungsi distribusi kumulatif untuk distribusi normal baku terhadap nilai x i . Untuk melakukan uji statistik diatas, dilakukan langkah seperti berikut ini Hamerly et al., 2004 : 1. Ambil suatu subset X 2. Pilih level signifikan α untuk uji. 3. Dari pusat cluster tersebut, ambil dua buah “anak” pusat cluster, dinotasikan dengan c1 dan c2. Caranya dengan menggunakan rumus c±m, dimana m adalah random atau dengan rumus berikut : √ Persamaan 2.7. Rumus mencari anak cluster Hamerly et al., 2004 Dimana, m = vector anak s = eigenvalue terbesar yang didapat dari data λ = principal component utama, yaitu eigenvector dengan eigenvalue terbesar 4. Jalankan K-Means pada X dengan dua centroid tersebut c1 dan c2. 5. Hitung nilai vektor v dengan v = c1 – c2. 6. Proyeksikan X ke v, menjadi X’, dengan rumus sebagai berikut ‖ ‖ Persamaan 2.8. Rumus proyeksi vektor-vektor di X ke vektor v 7. Normalisasi X` sehingga memiliki rerata 0 dan varian 1. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Konsep Pemerolehan Informasi Sistem pemerolehan informasi karya ilmiah berbasis Cluster dengan G-Means Clustering.

2.1.4. Evaluasi Pemerolehan Informasi

2.2.2. Hipotesis Cluster

2.2.3. K-Means

2.2.4. G-Means

Parts

Dokumen yang terkait

Algoritma Modified K-MEANS Clustering Pada Penentuan Cluster Centre Berbasis Sum Of Squared Error (SSE)

Sistem Informasi Geografis Berbasis Web untuk Produksi Kedelai di Indonesia Menggunakan K-Means Clustering

SISTEM INFORMASI GEOGRAFIS BERBASIS WEB UNTUK PRODUKSI KEDELAI DI INDONESIA MENGGUNAKAN K-MEANS CLUSTERING

PERANCANGAN SISTEM CLUSTERING SUSU SAPI DENGAN MENGGUNAKAN METODEK-MEANS Perancangan Sistem Clustering Susu Sapi dengan Menggunakan Metode K-Means.

Cluster Quasi-Random Data Using Fuzzy C-Means Clustering - MATLAB & Simulink.

DATA MINING PENERAPAN K-MEANS ALGORITM CLUSTERING

Implementasi Alokasi Memori Dinamis pada Sistem Komputer Berbasis Clustering K-Means

Algoritma Modified K-MEANS Clustering Pada Penentuan Cluster Centre Berbasis Sum Of Squared Error (SSE)

Algoritma Modified K-MEANS Clustering Pada Penentuan Cluster Centre Berbasis Sum Of Squared Error (SSE)

Algoritma Modified K-MEANS Clustering Pada Penentuan Cluster Centre Berbasis Sum Of Squared Error (SSE)

Dukungan

Links

Konsep Pemerolehan Informasi Sistem pemerolehan informasi karya ilmiah berbasis Cluster dengan G-Means Clustering.

2.1.4. Evaluasi Pemerolehan Informasi

2.2.2. Hipotesis Cluster

2.2.3. K-Means

2.2.4. G-Means

Parts

Dokumen yang terkait

Algoritma Modified K-MEANS Clustering Pada Penentuan Cluster Centre Berbasis Sum Of Squared Error (SSE)

Sistem Informasi Geografis Berbasis Web untuk Produksi Kedelai di Indonesia Menggunakan K-Means Clustering

SISTEM INFORMASI GEOGRAFIS BERBASIS WEB UNTUK PRODUKSI KEDELAI DI INDONESIA MENGGUNAKAN K-MEANS CLUSTERING

PERANCANGAN SISTEM CLUSTERING SUSU SAPI DENGAN MENGGUNAKAN METODEK-MEANS Perancangan Sistem Clustering Susu Sapi dengan Menggunakan Metode K-Means.

Cluster Quasi-Random Data Using Fuzzy C-Means Clustering - MATLAB & Simulink.

DATA MINING PENERAPAN K-MEANS ALGORITM CLUSTERING

Implementasi Alokasi Memori Dinamis pada Sistem Komputer Berbasis Clustering K-Means

Algoritma Modified K-MEANS Clustering Pada Penentuan Cluster Centre Berbasis Sum Of Squared Error (SSE)

Algoritma Modified K-MEANS Clustering Pada Penentuan Cluster Centre Berbasis Sum Of Squared Error (SSE)

Algoritma Modified K-MEANS Clustering Pada Penentuan Cluster Centre Berbasis Sum Of Squared Error (SSE)

Dokumen yang Anda mencari sudah siap untuk unduhkan