107
Dari grafik tersebut, terlihat sistem pemerolehan informasi berbasis cluster memiliki waktu eksekusi yang lebih baik dibandingkan dengan sistem
pemerolehan informasi konvensional. Dalam penelitian ini, sistem pemerolehan informasi berbasis cluster memiliki
waktu eksekusi yang lebih singkat dibandingkan dengan sistem pemerolehan informasi konvensional. Hal ini terjadi karena sistem tidak perlu membaca dan
memberikan bobot kepada seluruh dokumen yang terdapat dalam koleksi, melainkan hanya pada dokumen anggota cluster yang paling mirip dengan query
pencarian.
5.3. Kelebihan dan Kekurangan Sistem
Dengan membandingkan presisi pencarian terhadap sistem pemerolehan informasi konvensional, didapatkan beberapa kekurangan dan kelebihan dari sistem
pemerolehan informasi berbasis cluster, antara lain sebagai berikut :
5.3.1. Kelebihan Sistem
Sistem pemerolehan informasi berbasis cluster memiliki kecepatan retrieval yang lebih cepat dibandingkan dengan sistem pemerolehan
informasi konvensional. Hal ini dimungkinkan karena sistem tidak perlu menghitung skor seluruh dokumen koleksi terhadap query. Hanya
dokumen anggota cluster yang memiliki skor terbesar terhadap query saja yang diperhitungkan.
5.3.2. Kekurangan Sistem
Sebagai tradeoff terhadap kecepatan retrieval yang lebih baik, sistem pemerolehan informasi berbasis cluster memiliki precision yang
lebih rendah dibandingkan dengan sistem pemerolehan informasi konvensional. Hal ini dikarenakan pemodelan cluster menggunakan jenis
pemodelan hard clustering, dimana satu dokumen hanya bisa menempati satu cluster, dan retrieval pun hanya dibatasi dengan pengambilan satu
cluster saja yang paling mirip dengan query. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
108
BAB VI KESIMPULAN DAN SARAN
6.1. Kesimpulan
1. Purity dari pengelompokan dokumen dalam sistem ini sebesar 0.75 atau
75. Dengan melihat nilai purity tersebut, dapat disimpulkan bahwa hasil pengelompokan dokumen yang dilakukan oleh sistem menghasilkan
kualitas cluster sedang. 2.
Dalam penelitian ini, diketahui bahwa sistem pemerolehan informasi berbasis cluster cenderung memiliki waktu retrieval yang lebih singkat
dibandingkan dengan sistem pemerolehan informasi konvensional, yaitu 16.3 lebih singkat. Sebagai tradeoff, sistem pemerolehan informasi
berbasis cluster memberikan hasil retrieval dengan nilai precision yang lebih rendah, yaitu 47, dibandingkan sistem pemerolehan informasi
konvensional, yaitu 71.
6.2. Saran
1. Penggunaan pemodelan cluster dengan jenis soft clustering dapat dicoba
untuk kasus pengelompokan dokumen. Pengubahan yang dapat dilakukan antara lain mengganti algoritma dari G-Means ke Fuzzy c-Means Clustering
FCM. 2.
Reduksi dimensi dengan feature selection juga dimungkinkan dapat meningkatkan hasil dan kualitas cluster.
3. Untuk inisialisasi centroid awal, dapat dicoba penggunaan algoritma
inisialisasi centroid seperti k-Means++ agar menghasilkan cluster yang lebih baik.
109
DAFTAR PUSTAKA
Agusta, Ledy. 2009. Perbandingan Algoritma Porter dengan Algoritma Nazief Adriani untuk Stemming Dokumen Teks Bahasa Indonesia. Bali: KNSI
2009.
Baeza-Yates, R., Ribeiro-Neto, B. 1999. Modern Information Retrieval the Concept and Technology Behind Search. England: ACM Press.
Booch, G., Rumbaugh, J., Jacobsen, I. 2005. The Unified Modeling Language User Guide, 2
nd
ed. Addison-Wesley.
Büttcher, Stefan., Clarke, L.A. Charles., Cormack, V. Gordon. 2010. Information Retrieval Implementing and Evaluating Search Engine. Massachusetts: MIT
Press.
Chen, Berlin. 2010. Clustering Techniques for Information Retrieval. Taiwan: National Taiwan Normal University.
Chen, Gengxin., Jaradat, Saied A., Banerjee, Nila., Tanaka, Tetsuya T., Ko, Minoru S.H., Zhang, Michael Q. 2002. Evaluation and Comparison of
Clustering Algorithms in Analyzing ES Cell Gene Expression Data. Baltimore: National Institute of Health
110
Connolly, Thomas., Begg, Carolyn E. 2005. Database Systems : A Practical Aproach to Design, Implementation, and Management 4
th
ed. New York: Addison-Wesley.
Croft, Bruce W., Meltzer, Donald., Strohman, Trevor. 2010. Search Engines Information Retrieval in Practice. Massachusetts: Amherst. Pearson
Education USA.
Göker, Ayşe., Davies, John. 2009. Information Retrieval Searching in 21
st
Century. West Sussex: John Wiley Sons.
Grossman, David A., Frieder, Ophir. 2004. Information Retrieval Algorithm and Heuristics 2
nd
ed. Dordrecht: Springer.
Hamerly, Greg., Elkan, Charles. 2004. Learning the k in k-means. Electronic Proceeding of Advances in Neural Information Processing Systems 16
NIPS 2004
KOMPAS.com. 2016. Kemenristekdikti Nyatakan Indonesia Lampaui Target Publikasi Internasional - Kompas.com. Diakses pada 7 Januari 2016, dari
http:sains.kompas.comread2015103016544281Kemenristekdikti.Ny atakan.Indonesia.Lampaui.Target.Publikasi.Internasional
Manning, Christoper D., Raghavan, Prabhakar., Schütze, Hinrich. 2008. Introduction to Information Retrieval. New York: Cambridge University
Press. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
111
Pressman, Roger S. 2010. Software Engineering : A Practiti oner’s Approach, 7
th
ed. New York: McGraw-Hill.
Scimagojr.com,. 2016. SJR - International Science Ranking. Diakses pada 7 Januari 2016, dari
http:scimagojr.comcountryrank.php
Yang, Yiming. Pedersen, Jan O. 1997. A Comparative Study on Feature Selection in Text Categorization. ACM Digital Library.
LAMPIRAN
1.1. Implementasi Basis Data 1.1.1. Tabel Cluster
1. CREATE TABLE `cluster` 2. `id_cluster` int11 NOT NULL AUTO_INCREMENT,
3. `uuid` varchar100 NOT NULL, 4. PRIMARY KEY `id_cluster`,
5. UNIQUE KEY `uuid_UNIQUE` `uuid` 6. ENGINE=MyISAM AUTO_INCREMENT=1 DEFAULT CHARSET=latin1;
1.1.2. Tabel Centroid
1. CREATE TABLE `centroid` 2. `id_centroid` int11 NOT NULL AUTO_INCREMENT,
3. `id_cluster` int11 NOT NULL, 4. `id_term` int11 NOT NULL,
5. `value` double NOT NULL DEFAULT 0, 6. PRIMARY KEY `id_centroid`,
7. KEY `fk_centroid_1_idx` `id_cluster`, 8. KEY `fk_centroid_2_idx` `id_term`
9. ENGINE=MyISAM AUTO_INCREMENT=1 DEFAULT CHARSET=latin1;
1.1.3. Tabel Document
1. CREATE TABLE `document` 2. `id_document` int11 NOT NULL AUTO_INCREMENT,
3. `id_cluster` int11 NOT NULL, 4. `record_id` varchar1000 NOT NULL,
5. PRIMARY KEY `id_document`, 6. KEY `fk_document_1_idx` `id_cluster`
7. ENGINE=MyISAM AUTO_INCREMENT=1 DEFAULT CHARSET=latin1;
1.1.4. Tabel Term
1. CREATE TABLE `term` 2. `id_term` int11 NOT NULL AUTO_INCREMENT,
3. `term` varchar512 NOT NULL, 4. PRIMARY KEY `id_term`,
5. UNIQUE KEY `term_UNIQUE` `term` 6. ENGINE=MyISAM AUTO_INCREMENT=1 DEFAULT CHARSET=latin1;