Pembahasan 1. Rerata Interpolasi 11 Titik Recall – Precision

107 Dari grafik tersebut, terlihat sistem pemerolehan informasi berbasis cluster memiliki waktu eksekusi yang lebih baik dibandingkan dengan sistem pemerolehan informasi konvensional. Dalam penelitian ini, sistem pemerolehan informasi berbasis cluster memiliki waktu eksekusi yang lebih singkat dibandingkan dengan sistem pemerolehan informasi konvensional. Hal ini terjadi karena sistem tidak perlu membaca dan memberikan bobot kepada seluruh dokumen yang terdapat dalam koleksi, melainkan hanya pada dokumen anggota cluster yang paling mirip dengan query pencarian.

5.3. Kelebihan dan Kekurangan Sistem

Dengan membandingkan presisi pencarian terhadap sistem pemerolehan informasi konvensional, didapatkan beberapa kekurangan dan kelebihan dari sistem pemerolehan informasi berbasis cluster, antara lain sebagai berikut :

5.3.1. Kelebihan Sistem

Sistem pemerolehan informasi berbasis cluster memiliki kecepatan retrieval yang lebih cepat dibandingkan dengan sistem pemerolehan informasi konvensional. Hal ini dimungkinkan karena sistem tidak perlu menghitung skor seluruh dokumen koleksi terhadap query. Hanya dokumen anggota cluster yang memiliki skor terbesar terhadap query saja yang diperhitungkan.

5.3.2. Kekurangan Sistem

Sebagai tradeoff terhadap kecepatan retrieval yang lebih baik, sistem pemerolehan informasi berbasis cluster memiliki precision yang lebih rendah dibandingkan dengan sistem pemerolehan informasi konvensional. Hal ini dikarenakan pemodelan cluster menggunakan jenis pemodelan hard clustering, dimana satu dokumen hanya bisa menempati satu cluster, dan retrieval pun hanya dibatasi dengan pengambilan satu cluster saja yang paling mirip dengan query. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 108

BAB VI KESIMPULAN DAN SARAN

6.1. Kesimpulan

1. Purity dari pengelompokan dokumen dalam sistem ini sebesar 0.75 atau 75. Dengan melihat nilai purity tersebut, dapat disimpulkan bahwa hasil pengelompokan dokumen yang dilakukan oleh sistem menghasilkan kualitas cluster sedang. 2. Dalam penelitian ini, diketahui bahwa sistem pemerolehan informasi berbasis cluster cenderung memiliki waktu retrieval yang lebih singkat dibandingkan dengan sistem pemerolehan informasi konvensional, yaitu 16.3 lebih singkat. Sebagai tradeoff, sistem pemerolehan informasi berbasis cluster memberikan hasil retrieval dengan nilai precision yang lebih rendah, yaitu 47, dibandingkan sistem pemerolehan informasi konvensional, yaitu 71.

6.2. Saran

1. Penggunaan pemodelan cluster dengan jenis soft clustering dapat dicoba untuk kasus pengelompokan dokumen. Pengubahan yang dapat dilakukan antara lain mengganti algoritma dari G-Means ke Fuzzy c-Means Clustering FCM. 2. Reduksi dimensi dengan feature selection juga dimungkinkan dapat meningkatkan hasil dan kualitas cluster. 3. Untuk inisialisasi centroid awal, dapat dicoba penggunaan algoritma inisialisasi centroid seperti k-Means++ agar menghasilkan cluster yang lebih baik. 109 DAFTAR PUSTAKA Agusta, Ledy. 2009. Perbandingan Algoritma Porter dengan Algoritma Nazief Adriani untuk Stemming Dokumen Teks Bahasa Indonesia. Bali: KNSI 2009. Baeza-Yates, R., Ribeiro-Neto, B. 1999. Modern Information Retrieval the Concept and Technology Behind Search. England: ACM Press. Booch, G., Rumbaugh, J., Jacobsen, I. 2005. The Unified Modeling Language User Guide, 2 nd ed. Addison-Wesley. Büttcher, Stefan., Clarke, L.A. Charles., Cormack, V. Gordon. 2010. Information Retrieval Implementing and Evaluating Search Engine. Massachusetts: MIT Press. Chen, Berlin. 2010. Clustering Techniques for Information Retrieval. Taiwan: National Taiwan Normal University. Chen, Gengxin., Jaradat, Saied A., Banerjee, Nila., Tanaka, Tetsuya T., Ko, Minoru S.H., Zhang, Michael Q. 2002. Evaluation and Comparison of Clustering Algorithms in Analyzing ES Cell Gene Expression Data. Baltimore: National Institute of Health 110 Connolly, Thomas., Begg, Carolyn E. 2005. Database Systems : A Practical Aproach to Design, Implementation, and Management 4 th ed. New York: Addison-Wesley. Croft, Bruce W., Meltzer, Donald., Strohman, Trevor. 2010. Search Engines Information Retrieval in Practice. Massachusetts: Amherst. Pearson Education USA. Göker, Ayşe., Davies, John. 2009. Information Retrieval Searching in 21 st Century. West Sussex: John Wiley Sons. Grossman, David A., Frieder, Ophir. 2004. Information Retrieval Algorithm and Heuristics 2 nd ed. Dordrecht: Springer. Hamerly, Greg., Elkan, Charles. 2004. Learning the k in k-means. Electronic Proceeding of Advances in Neural Information Processing Systems 16 NIPS 2004 KOMPAS.com. 2016. Kemenristekdikti Nyatakan Indonesia Lampaui Target Publikasi Internasional - Kompas.com. Diakses pada 7 Januari 2016, dari http:sains.kompas.comread2015103016544281Kemenristekdikti.Ny atakan.Indonesia.Lampaui.Target.Publikasi.Internasional Manning, Christoper D., Raghavan, Prabhakar., Schütze, Hinrich. 2008. Introduction to Information Retrieval. New York: Cambridge University Press. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 111 Pressman, Roger S. 2010. Software Engineering : A Practiti oner’s Approach, 7 th ed. New York: McGraw-Hill. Scimagojr.com,. 2016. SJR - International Science Ranking. Diakses pada 7 Januari 2016, dari http:scimagojr.comcountryrank.php Yang, Yiming. Pedersen, Jan O. 1997. A Comparative Study on Feature Selection in Text Categorization. ACM Digital Library. LAMPIRAN 1.1. Implementasi Basis Data 1.1.1. Tabel Cluster 1. CREATE TABLE `cluster` 2. `id_cluster` int11 NOT NULL AUTO_INCREMENT, 3. `uuid` varchar100 NOT NULL, 4. PRIMARY KEY `id_cluster`, 5. UNIQUE KEY `uuid_UNIQUE` `uuid` 6. ENGINE=MyISAM AUTO_INCREMENT=1 DEFAULT CHARSET=latin1;

1.1.2. Tabel Centroid

1. CREATE TABLE `centroid` 2. `id_centroid` int11 NOT NULL AUTO_INCREMENT, 3. `id_cluster` int11 NOT NULL, 4. `id_term` int11 NOT NULL, 5. `value` double NOT NULL DEFAULT 0, 6. PRIMARY KEY `id_centroid`, 7. KEY `fk_centroid_1_idx` `id_cluster`, 8. KEY `fk_centroid_2_idx` `id_term` 9. ENGINE=MyISAM AUTO_INCREMENT=1 DEFAULT CHARSET=latin1;

1.1.3. Tabel Document

1. CREATE TABLE `document` 2. `id_document` int11 NOT NULL AUTO_INCREMENT, 3. `id_cluster` int11 NOT NULL, 4. `record_id` varchar1000 NOT NULL, 5. PRIMARY KEY `id_document`, 6. KEY `fk_document_1_idx` `id_cluster` 7. ENGINE=MyISAM AUTO_INCREMENT=1 DEFAULT CHARSET=latin1;

1.1.4. Tabel Term

1. CREATE TABLE `term` 2. `id_term` int11 NOT NULL AUTO_INCREMENT, 3. `term` varchar512 NOT NULL, 4. PRIMARY KEY `id_term`, 5. UNIQUE KEY `term_UNIQUE` `term` 6. ENGINE=MyISAM AUTO_INCREMENT=1 DEFAULT CHARSET=latin1;