Efektivitas Algoritma Similaritas Semantik Berbasis Jejaring Kata Untuk Mengukur Kemiripan Kalimat Bahasa Indonesia

LAPORAN TAHUNAN
PENELITIAN FUNDAMENTAL

EFEKTIVITASTALGORITMATSIMILARITASTSEMANTIK
BERBASISTJEJARINGTKATATUNTUKTMENGUKURTKEMIRIPAN
KALIMATTBAHASATINDONESIA

Tahun ke-1 dari rencana 2 tahun

Husni Thamrin, MT, Ph.D (0618077001)
Dra. Atiqa Sabardila, M.Hum (0621066401)

UNIVERSITAS MUHAMMADIYAH SURAKARTA
OKTOBER 2014

RINGKASAN
Algoritma similaritas semantik adalah urutan langkah untuk menghitung
kemiripan kalimat atas dasar makna/konsep kata yang menyusun kalimat. Algoritma
similaritas banyak diterapkan misalnya untuk software deteksi plagiasi, pengelompokan
dokumen, dan software penerjemah. Penerapan algoritma similaritas semantik pada teks
bahasa Indonesia belum banyak menunjukkan hasil antara lain karena belum adanya

jejaring kata bahasa Indonesia. Penelitian ini mengupayakan penyusunan jejaring kata
bahasa Indonesia dan melakukan studi “Efektivitas Algoritma Similaritas Semantik
Berbasis Jejaring Kata dalam Mengukur Kemiripan Kalimat Bahasa Indonesia.”
Tujuan dari program penelitian ini pada tahun pertama ada dua. Pertama adalah
membuat sistem basis data kamus bahasa Indonesia yang menyediakan informasi tentang
kata termasuk dalam konteks jejaring kata melalui web service. Kedua adalah membuat
aplikasi yang menerapkan algoritma similaritas semantik berbasis jejaring kata atau
kamus untuk mengukur similaritas kata, frase atau kalimat dalam sebuah kalimat bahasa
Indonesia.
Penelitian pada tahun pertama menghasilkan kamus online bahasa Indonesia yang
dapat memberi informasi tentang kata, definisi kata, dan sinonim. Kamus online semacam
ini sudah tersedia. Kamus yang dihasilkan dalam penelitian ini memberikan informasi
tambahan yang tidak ada pada kamus lain yaitu informasi tentang hiponim dan meronim.
Informasi tentang sinonim dan hiponim merupakan dasar pembentukan jejaring kata.
Pengetahuan tentang kata, sinonim dan hiponim digunakan dalam penelitian ini sebagai
ukuran keterkaitan antar kata. Keterkaitan antar kata digunakan dalam algoritma
similaritas untuk mengukur kemiripan antar kalimat. Penggunaan pengetahuan tentang
sinonim dan hiponim terbukti meningkatkan skor kemiripan antara kalimat yang
mengandung kata berbeda namun mempunyai keterkaitan sebagai sinonim atau hiponim.
Pengujian algoritma dilakukan lebih lanjut dengan menerapkan algoritman pada

proses pengelompokan teks (text clustering). Objek pengelompokan teks diambil dari
ratusan kalimat pendek yang diperoleh dari analisis SWOT (strength weakness
opportunity threat) sebuah lembaga. Pengujian menunjukkan bahwa klustering
berdasarkan kemiripan kalimat yang memanfaatkan pengetahuan sinonim dan hiponim
tidak lebih baik dibanding klustering dengan perhitungan kemiripan kosinus biasa.
Kesimpulan penelitian ini adalah bahwa skor kemiripan kalimat dapat diperbaiki
jika algoritma memperhatikan keterkaitan makna antar kata. Pemanfaatan algoritma
dalam proses klustering tidak memperbaiki hasil pengelompokan kalimat. Tahap
berikutnya yang perlu dilakukan adalah membuat kumpulan dokumen (korpus) sebagai
alat uji standar dari observasi tentang similaritas, menguji algoritma pada proses
klasifikasi dokumen, dan menguji proses klustering pada dokumen dengan jumlah kata
yang bervariasi.
KataTkunci:Tsimilaritas,TsimilaritasTsemantik,Tsinonim,Thiponim,TbahasaTIndonesia

PRAKATA
Puji Syukur kami panjatkan kehadirat Allah Subhanahu wa Ta'ala dengan
selesainya penelitian tahun pertama hibah fundamental berjudul: “EFEKTIVITAS
ALGORITMA T SIMILARITAS T SEMANTIK T BERBASIS T JEJARING T KATA
UNTUKTMENGUKURTKEMIRIPANTKALIMATTBAHASATINDONESIA.”
Hingga tahap ini proses penelitian tidak akan berlangsung lancar tanpa bantuan

berbagai pihak. Oleh karena itu penulis hendak mengucapkan terima kasih yang besar
kepada:
1. Saudara Fauzan Natsir yang banyak membantu dalam proses penghimpunan data
kamus dan entri data kamus hiponim dan meronim.
2. Bapak Dr. Nurgiyatna, M.Sc yang mengijinkan penulis menggunakan kalimatkalimat dalam analisis SWOT di lembaga yang dipimpinnya sebagai bahan
analisis similaritas.
3. Tim pengembang website kateglo.com yang menjadikan data kamus besar bahasa
Indonesia tersedia secara online sehingga dapat digunakan dalam penelitian terkait
kata-kata bahasa Indonesia.
4. Direktorat Jenderal Pendidikan Tinggi, Kemdiknas yang melalui Lembaga
Penelitian

dan

Pengabdian

kepada

Masyarakat


(LPPM)

Universitas

Muhammadiyah Surakarta yang telah menyediakan dana dalam skema penelitian
hibah fundamental sehingga penelitian ini dapat berjalan.
Kami telah berusaha melaksanakan kegiatan penelitian ini sebaik mungkin, namun
kami menyadari bahwa tidak ada yang sempurna dari hasil karya manusia. Kritik dan
saran sangat kami butuhkan untuk kebaikan dan penyempurnaan pelaksanaan penelitian
ini selanjutnya.

Surakarta, 6 Nopember 2014
Peneliti

DAFTARTISI
HALAMAN SAMPUL.........................................................................................................i
HALAMAN PENGESAHAN..............................................................................................ii
RINGKASAN.....................................................................................................................iii
PRAKATA...........................................................................................................................iv
DAFTAR ISI........................................................................................................................v

DAFTAR GAMBAR...........................................................................................................vi
DAFTAR LAMPIRAN......................................................................................................vii
BAB 1. PENDAHULUAN...................................................................................................1
BAB 2. TINJAUAN PUSTAKA..........................................................................................3
2.1. Penelitian yang Mendahului................................................................................3
2.2. Peta Jalan Penelitian............................................................................................5
BAB 3. TUJUAN DAN MANFAAT PENELITIAN...........................................................8
3.1. Tujuan Penelitian.................................................................................................8
3.2. Manfaat Penelitian...............................................................................................8
BAB 4. METODE PENELITIAN......................................................................................10
4.1. Perhitungan similaritas......................................................................................13
4.2. Data uji...............................................................................................................15
4.3. Penilaian Kinerja................................................................................................16
BAB 5. HASIL PENELITIAN...........................................................................................17
5.1 Website Kamus...................................................................................................17
5.2. Konsep basis data kamus...................................................................................19
5.3. Implementasi Jejaring Kata dalam Program Komputer.....................................19
5.4. Data pengujian...................................................................................................23
5.5. Kinerja algoritma berbasis elemen jejaring kata................................................24
BAB 6. RENCANA TAHAPAN BERIKUTNYA..............................................................27

BAB 7. KESIMPULAN DAN SARAN.............................................................................28
7.1. Kesimpulan........................................................................................................28
7.2. Saran..................................................................................................................28
DAFTAR PUSTAKA.........................................................................................................29

DAFTARTGAMBAR
Gambar 1. Peta jalan penelitian yang mengawali penelitian yang sedang diusulkan..........7
Gambar 2. Rangkaian Kegiatan Penelitian "Efektivitas Algoritma Similaritas Semantik
Berbasis Jejaring Kata untuk Mengukur Kemiripan Kalimat Bahasa Indonesia". 12
Gambar 3. Tampilan kamus online untuk kata "rumah". Pada kamus terdapat informasi
tentang hiponim dan meronim dari kata yang dicari..............................................17
Gambar 4. Data dalam format JSON yang menyajikan informasi tentang kata “bunga”
sebagaimana ditampilkan melalui sebuah web browser.........................................18
Gambar 5. Class diagram dari basis data kamus................................................................19

DAFTARTLAMPIRAN
Lampiran 1. Instrumen penelitian......................................................................................32
Lampiran 2. Personalia Tenaga Peneliti.............................................................................32
Lampiran 3. Publikasi.........................................................................................................32
Lampiran 4. Kluster dengan similaritas kosinus murni......................................................45

Lampiran 5. Kluster dengan metode similaritas kosinus yang dimodifikasi.....................50
Lampiran 6. Produk Penelitian Lainnya.............................................................................55

BAB 1. PENDAHULUAN
Similaritas antara dua teks atau kalimat merupakan angka yang menggambarkan
kedekatan makna antara kedua teks atau kalimat. Perhitungan similaritas digunakan
dalam berbagai keperluan, misalnya untuk melakukan pencarian informasi di internet,
pencarian dokumen di harddisk, klasifikasi dokumen dalam arsip, deteksi plagiasi, dan
kegiatan menganalisis informasi di dunia maya (data analysis) (Islam dan Inkpen, 2008).
Penerapan algoritma similaritas paling banyak terjadi pada proses pencarian
informasi. Algoritma similaritas digunakan untuk mengukur kemiripan makna kata atau
frase yang dicari dengan teks yang ada dalam halaman yang ditelusuri. Pencarian
informasi tidak cukup dilakukan dengan membandingkan kata atau frase yang dicari
dengan kata atau frase yang ada dalam dokumen. Pencarian yang efektif memerlukan
analisis mengenai makna kata dan frase yang diinginkan oleh user dan penentuan tema
dokumen yang ditelusuri. Efektifitas pencarian dapat diperbaiki pula dengan
memanfaatkan fitur-fitur yang ada dalam sebuah dokumen, semisal hyperlink pada
pencarian di sebuah halaman web. Ochoa (2012) menyatakan bahwa analisis backlink
(banyaknya link ke sebuah website) yang dipadukan dengan skor similaritas akan
menghasilkan daftar hasil pencarian yang mempunyai kemungkinan tinggi mengandung

informasi yang diinginkan oleh pengguna.
Penerapan algoritma similaritas dapat membantu proses klasifikasi dengan
menentukan tag atau kata kunci yang paling tepat untuk sebuah dokumen.
Pengklasifikasian kumpulan dokumen diperlukan pada sebuah perpustakaan digital untuk
mengelompokkan dokumen dengan subjek yang sama (Boyack, dkk., 2011; Sun dkk.,
2010). Algoritma similaritas juga diterapkan dalam proses deteksi plagiasi, yaitu dengan
membandingkan dua dokumen atau lebih dan menentukan tingkat kemiripan dari
paragraf-paragraf yang ada dalam dokumen (Malcolm dan Lane, 2008). Adapun dalam
kegiatan analisis data, algoritma similaritas digunakan untuk mendefinisikan kata yang
dicermati beserta kata sejenis untuk dihitung frekuensi kemunculannya dalam berita di
dunia maya atau dalam obrolan di situs media sosial.
Similaritas dua buah kalimat dapat ditentukan dengan algoritma similaritas
semantik, yaitu algoritma yang memperhatikan makna kata yang menyusun kalimat.
1

Penentuan similaritas secara semantik lebih akurat daripada perhitungan similaritas
berdasarkan pencocokan kata (Mihalcea, Corley & Strapparava, 2006). Namun,
penerapan algoritma similaritas semantik untuk teks bahasa Indonesia belum banyak
dilakukan karena berbagai kendala di antaranya karena jejaring kata bahasa Indonesia
belum tersedia baik secara gratis maupun komersial. Kendala lain adalah belum adanya

kumpulan dokumen (atau korpus) berbahasa Indonesia yang diterima sebagai standar
untuk melakukan pengujian algoritma similaritas (Asian, Williams & Tahaghoghi, 2005)
sehingga penelitian tentang algoritma similaritas menjadi sangat minim.
Uraian beberapa paragraf di atas menunjukkan perlunya upaya observasi terhadap
algoritma similaritas semantik pada kalimat bahasa Indonesia untuk dapat digunakan
dalam berbagai aplikasi. Oleh karena itu, perlu diupayakan penyusunan basis data
pengetahuan (knowledge) dalam konteks jejaring kata bahasa Indonesia kemudian
mencari algoritma similaritas semantik yang terbaik. Perlu juga dibuat korpus standar
berbahasa Indonesia yang sebagai alat uji dalam observasi algoritma similaritas. Yang
menjadi pertanyaan kemudian adalah sejauh mana ’Efektivitas Algoritma Similaritas
Semantik Berbasis Jejaring Kata untuk Mengukur Kemiripan Kalimat Bahasa
Indonesia?’ Pertanyaan inilah yang akan dibahas dalam penelitian ini.

2

BABT2.TTINJAUANTPUSTAKA
2.1.TPenelitianTyangTMendahului
Penulis mencermati berbagai penelitian terkait dengan analisis similaritas, seperti
diurai pada beberapa paragraf berikut.
Bao, et al. (2007) membandingkan berbagai algoritma analisis similaritas. Dalam

penelitian tersebut, dicermati sistem Ferret yang menggunakan similaritas leksikal (kata
per kata), kemudian dicermati pula metode yang menggunakan similaritas semantik
(berdasarkan makna kata dalam kalimat). Teks yang diteliti berasal dari kalimat-kalimat
bahasa Inggris yang terdapat dalam majalah Financial Times. Hasil penelitian tersebut
menunjukkan bahwa similaritas semantik menggunakan sinonim lebih penting dibanding
frase atau deretan kata ketika mencari teks yang mirip. Frase kata benda memberi
kontribusi penting dalam identifikasi similaritas teks, namun kontribusinya tidak lebih
besar dibanding sinonim.
Winarsono, et al. (2009) meneliti penerapan metode syntactic-semantic similarity
(SynSemSim) untuk mencermati kemiripan kalimat singkat. Metode tersebut mencermati
struktur kalimat (sintaksis) dan makna kata dalam kalimat (semantik). Para peneliti ini
menyimpulkan bahwa metode SynSemSim dapat dengan baik digunakan pada struktur
kalimat yang mirip, namun kurang baik digunakan pada struktur kalimat majemuk atau
kalimat yang mengandung banyak stop word (kata tambahan seperti “it is”, “yet”).
Sayangnya, para peneliti dari Indonesia ini menggunakan WordNet, yaitu jejaring kata
bahasa Inggris, dalam penelitiannya sehingga belum dapat digunakan pada kalimat
berbahasa Indonesia.
Sun, et al. (2010) melakukan pengamatan terkait similaritas teks pada kumpulan
artikel biomedis. Para peneliti memeriksa lebih dari 70 ribu dokumen. Tiap dokumen
dicermati kemudian dibuat himpunan data untuk full text, subjudul, dan paragraf. Tiap

himpunan diperiksa dan dihitung similaritasnya. Para peneliti ini mendapat kesimpulan
bahwa similaritas abstrak yang tinggi mencerminkan similaritas full text yang tinggi.
Similaritas abstrak dan similaritas full text mempunyai korelasi moderat. Di antara subbab
dalam sebuah tulisan, subbab “Metode Penelitian” mempunyai tingkat pengulangan yang
paling tinggi. Namun, dalam pemeriksaan manual terhadap artikel dan duplikatnya,
3

subbab “Hasil Penelitian” merupakan bagian yang sering berulang. Pengulangan subbab
“Pendahuluan” dan “Metodologi” lebih sering dilakukan oleh penulis yang sama. Tingkat
similaritas lebih tinggi didapat pada perbandingan antara dua paper yang di-review, dan
similaritas jauh lebih rendah terdapat pada perbandingan antara satu paper yang di-review
dan paper yang tidak di-review. Para peneliti ini menyimpulkan bahwa penentuan
similaritas abstrak cukup efektif untuk mencari duplikasi sitasi, sedangkan analisis full
text diperlukan untuk menemukan semua kemungkinan duplikasi sitasi.
Boyack, et al. (2011) meneliti penerapan algoritma similaritas pada proses
pengelompokan dokumen. Sembilan metode diteliti untuk melihat keakuratannya dalam
mengelompokkan dua juta artikel biomedis. Pengelompokan artikel bermanfaat antara
lain untuk manajemen koleksi, mempermudah penelusuran berkas, dan menganalisis data.
Para peneliti ini mencermati artikel pada MEDLINE yang di-submit pada kurun 2004 –
2008. Boyack dkk. menggunakan metode statistik dan algoritma semantik dalam
penelitiannya. Contoh metode yang digunakan adalah frekuensi kemunculan kata
(statistik) dan LSA (latent semantic analysis). Sumber data yang digunakan adalah
katagori subjek, kata-kata pada judul, dan abstrak. Disimpulkan bahwa metode related
article yang ada pada PubMed menghasilkan pengelompokan (kluster) yang paling
terkonsentrasi di antara kesembilan metode yang diamati.
Thamrin dan Wantoro (2012) meneliti penerapan jarak Levenshtein sebagai
landasan dalam menilai kemiripan jawaban siswa dengan kunci jawaban. Tingkat
kemiripan dihitung berbanding terbalik (resiprokal) terhadap jarak Levenshtein. Tingkat
kemiripan hasil perhitungan kemudian dibandingkan dengan cara guru sekolah dasar dan
menengah menilai jawaban siswa. Kedua peneliti memodifikasi perangkat lunak Moodle
dan membuat tipe soal baru. Dengan tipe soal baru tersebut, jawaban soal pendek dapat
diberi skor secara fleksibel secara otomatis oleh komputer. Terdapat kesamaan dalam pola
pemberian skor oleh guru maupun oleh komputer. Namun, kecenderungan penilaian oleh
guru dan komputer akan mempunyai perbedaan signifikan jika jawaban yang diberikan
siswa membentuk kata yang dikenal dalam kamus. Kedua peneliti menyarankan
penggunaan algoritma similaritas semantik untuk meningkatkan akurasi penentuan skor
secara otomatis.

4

2.2.TPetaTJalanTPenelitian
Gambar 1 pada halaman 7 memperlihatkan peta jalan penelitian yang
menggambarkan penelitian terdahulu yang telah dilakukan baik oleh pengusul maupun
oleh peneliti lain. Penelitian terdahulu dapat dikategorikan dalam empat objek penelitian,
yaitu:
1. Pengembangan algoritma umum,
2. Pengembangan algoritma untuk penerapan spesifik,
3. Kajian penerapan algoritma, dan
4. Kajian penerapan pada bahasa Indonesia.
Pengembangan algoritma umum dilakukan dalam berbagai bentuk. Cai dkk.
(2004) dan Islam & Inkpen (2008) meneliti algoritma similaritas berdasarkan data dalam
korpus. Sedangkan Dao (2002) dan Liu & Liang (2013) mencermati algoritma berbasis
jejaring kata. Serrano dkk. (2009) membuat model teks sedangkan Sandhya dkk. (2011)
meneliti tentang algoritma stemming untuk mendapatkan makna kata secara lebih akurat.
Selain itu, Islam dkk. (2012) mengembangkan metode N-Gram termasuk yang berasal
dari mesin pencari Google.
Berbagai penelitian telah dilakukan untuk mengembangkan algoritma untuk
penerapan spesifik. Pengembangan metode untuk mengukur kemiripan kalimat pendek
dilakukan oleh Metzler dkk. (2007), O'shea dkk. (2008) dan Mihalcea dkk. (2006).
Pengembangan metode untuk mengukur kemiripan kode program komputer dilakukan
oleh Noh dkk. (2006). Kemiripan kalimat ringkasan diteliti oleh Sun dkk. (2010) dan
Castillo & Cardenas (2010). Sedangkan upaya menemukan sinonim secara otomatis
diteliti oleh Mendes dkk. (2012).
Kajian penerapan algoritma untuk kebutuhan nyata dilakukan oleh banyak orang.
Malcolm & Lane (2008) dan Malakasiotis (2009) mencoba mengerapkan algoritma
similaritas untuk mendeteksi plagiasi. Wenqian dkk. (2009) mencoba membuat mesin
peringkas otomatis. Islam & Inkpen (2009) meneliti lebih lanjut mesin pengkoreksi
otomatis sedangkan Mohler & Mihalcea (2009) mencoba menerapkan algoritma

5

similaritas untuk memberi skor otomatis pada sistem evaluasi belajar. Boyack dkk. (2011)
telah pula berupaya menerapkan pada proses pengelompokan dokumen atau artikel.
Kebanyakan penelitian dilakukan terhadap dokumen dan teks berbahasa Inggris.
Kajian penerapan algoritma similaritas pada bahasa Indonesia belum banyak dilakukan.
Talla (2003) dan Adriani dkk. (2007) telah berupaya mengembangkan algoritma
stemming untuk memisahkan kata dasar dari imbuhannya. Sementara itu, Hamzah dkk.
(2008), Asy'arie & Pribadi (2009) dan Hamzah (2009) telah berupaya menerapkan
algoritma untuk pengelompokan dokumen berbahasa Indonesia. Penerapan untuk deteksi
plagiasi telah pula dicoba oleh Hamzah (2011). Belum lama ini, Thamrin & Wantoro
(2012) berupaya menerapkan pada proses skoring otomatis. Ketiadaan jejaring kata
menjadi salah satu kendala dalam upaya menerapkan pengukuran similaritas untuk
mengukur kemiripan teks bahasa Indonesia. Oleh karena itu dalam penelitian ini akan
diupayakan konstruksi jejaring kata sekaligus dilakukan pengujian Efektivitas Algoritma
Similaritas Semantik Berbasis Jejaring Kata dalam Mengukur Kemiripan Kalimat
Bahasa Indonesia.

6

Gambar 1. Peta jalan penelitian yang mengawali penelitian yang sedang diusulkan

7

DAFTARTPUSTAKA

Adriani, M., Asian, J., Nazief, B., Tahaghoghi, S. M. M., & Williams, H. E., 2007.
“Stemming Indonesian: A confix-stripping approach,” ACM Transactions on Asian
Language Information Processing (TALIP), vol. 6, no. 4, hal. 1-33.
Asian, J., Williams, H. E., Tahaghoghi, S. M. M., 2005, “Stemming Indonesian,” 28th
Australian Computer Science Conference (ACS2005).
Asy'arie, A. D., & Pribadi, A. W., 2009.. “Automatic news articles classification in
indonesian language by using naive bayes classifier method.” dalam Proceedings of
the 11th International Conference on Information Integration and Web-based
Applications & Services, hal. 658-662. ACM.
Bao, J.P., Lyon, C., Lane, P.C.R., Ji, W., Malcolm, J.A., 2007. “Comparing Different Text
Similarity Methods,” UH Computer Science Technical Report, vol. 461 , University
of Hertfordshire, dilihat 5 Januari 2012, .
Banerjee, S., 2002. “Adapting the Lesk Algorithm for Word Sense Disambiguation to
Wordnet,” Master Research Thesis, University of Minesota.
Boyack, K., Newman, D., Duhon, R.J., Klavans, R., Patek, M., Biberstine, J.R.,
Shijvenaars, B., Skupin, A., Ma, N., Borner, K., 2011. “Clustering More than Two
Million Biomedical Publications: Comparing the Accuracies of Nine Text-Based
Similarity Approaches,” PLoS ONE 6(3): e18029, dilihat 5 Januari 2012,
.
Cai, Z., McNamara, D.S., Louwerse, M., Hu, X., Rowe, M., Graesser, A.C., 2004. “NLS:
A Non-Latent Similarity Algorithm,” Proc. 26th Ann. Meeting of the Cognitive
Science Soc.(CogSci’04), hal. 180-185.
Castillo, J. J., & Cardenas, M. E., 2010. “Using sentence semantic similarity based on
WordNet in recognizing textual entailment,” dalam Advances in Artificial
Intelligence–IBERAMIA 2010, hal. 366-375, Springer Berlin Heidelberg.
Hamzah, A., 2009. “Temu Kembali Informasi Berbasis Kluster untuk Sistem Temu
Kembali Informasi Teks Bahasa Indonesia ,” Jurnal Teknologi, vol.2, no.1, hal. 1-7.
Hamzah, A., 2011. “Aplikasi N-Gram Untuk Deteksi Plagiat Pada Dokumen Teks ,”
Prosiding Seminar Nasional Teknoin 2011.
Hamzah, A., Soesianto, F., Susanto, A., Istiyanto, J.E., 2008. “Studi Kinerja FungsiFungsi Jarak dan Similaritas dalam Clustering Dokumen Teks Berbahasa
Indonesia,” Prosiding Seminar Nasional Informatika 2008 (semnasIF 2008) ,
Yogyakarta.
Islam, A. dan Inkpen, D., 2008. “Semantic Text Similarity Using Corpus-Based Word
Similarity and String Similarity,” ACM Trans. Knowl. Discov. Data, vol. 2, No. 2,
Artikel 10.
Islam, A., dan Inkpen, D., 2009. “Real-word spelling correction using Google Web IT 329

grams,” dalam Proceedings of the 2009 Conference on Empirical Methods in
Natural Language Processing: Volume 3, vol. 3 hal. 1241-1249. Association for
Computational Linguistics.
Islam, A., Milios, E., Keselj, V., 2012. “Text Similarity using Google Tri-Grams,” dalam
25th Canadian Conference on Advances in Artificial Intelligence, Mei 28-30, hal.
312-317.
Leacock, C. dan Chodorow, M., 1998. “Combining Local Context and WordNet Sense
Similiarity for Word Sense Disambiguation,” dalam WordNet, An Electronic
Lexical Database, The MIT Press.
Lesk, M.E., 1986. “Automatic Sense Disambiguation Using Machine Readable
Dictionaries: How to tell a Pine Cone from an Ice Cream Cone,” dalam
Proceedings of the SIGDOC Conference 1986, Toronto, Juni.
Liu, H., Wang, P. Fei, 2013. “Assessing Sentence Similarity Using WordNet based Word
Similarity,” Journal of Software, Vol. 8, No. 6, hal. 1451-1458.
Malakasiotis, P., 2009. “Paraphrase recognition using machine learning to combine
similarity measures,” dalam Proceedings of the ACL-IJCNLP 2009 Student
Research Workshop, hal. 27-35. Association for Computational Linguistics.
Malcolm, J.A., Lane, P.C.R., 2008. “Efficient Search for Plagiarism on the Web ,”
Kuwait, vol. 2008, pp. 206-211.
Mendes, S., Necsulescu, S., Bel, N., 2012. “Synonym extraction using a language graph
model ” dalam Semantic Relations-II. Enhancing Resources and Applications.
Metzler, D., Dumais, S., & Meek, C., 2007. “Similarity measures for short segments of
text,” dalam Advances in Information Retrieval, hal. 16-27, Springer Berlin
Heidelberg.
Milhalcea, R., Corley, C., Strapparava, C., 2006. 'Corpus-based and Knowledge-based
Measures of Text Semantic Similarity,” dalam Proceedings of the 21st national
conference on Artificial intelligence, vol. 1, hal. 775-780.
Mohler, M., & Mihalcea, R., 2009. “Text-to-text semantic similarity for automatic short
answer grading,” dalam Proceedings of the 12th Conference of the European
Chapter of the Association for Computational Linguistics, hal. 567-575. Association
for Computational Linguistics.
Mudjiono, Atika W., (2013). “Nick D'Aloisio, Remaja 17 Tahun Pencipta Aplikasi Rp 290
Miliar”, Kompas, 3 April, h. 16.
Noh, S. Y., Kim, S., & Jung, C., 2006. “A lightweight program similarity detection model
using xml and levenshtein distance,” FECS, hal. 3-9.
O’Shea, J., Bandar, Z., Crockett, K., & McLean, D., 2008. “A comparative study of two
short text semantic similarity measures” dalam Agent and Multi-Agent Systems:
Technologies and Applications, hal. 172-181. Springer Berlin Heidelberg.
Ochoa, E.D., 2012. An Analysis of the Application of Selected Search Engine
30

Optimization (SEO) Techniques and Their Effectiveness on Google’s Search
Ranking Algorithm , Thesis, California State University, Northbridge.
Purwanto, D., 2012. “Bikin Apps, Remaja 16 Tahun Raih Investasi Rp 2,2 Miliar”,
Kompas, dilihat 7 April 2013, .
Pusat Bahasa, 2009. Tesaurus Alfabetis Bahasa Indonesia, Bandung: Mizan.
Sandhya, N., Lalitha, Y. S., Sowmya, V., Anuradha, K., & Govardhan, A., 2011. “Analysis
of Stemming Algorithm for Text Clustering,” International Journal of Computer
Science, no. 8.
Serrano, M. Á., Flammini, A., & Menczer, F. 2009. “Modeling statistical properties of
written text,” PloS one, vol. 4. no. 4, e5372.
Sun, Z., Errami, M., Long, T., Renard, C., Choradia, N., Renard, C., Choradia, N., Garner,
H., 2010. “Systematic Characterizations of Text Similarity in Full Text Biomedical
Publications,” PloS ONE 5(9): e12704, dilihat 5 Januari 2012,
.
Tala, F., 2003. A study of stemming effects on information retrieval in Bahasa Indonesia.
Thamrin, H. dan Wantoro, J., 2012. “Pengembangan Modul Penilaian Otomatis terhadap
Jawaban Soal Pendek Terbuka dalam Sistem E-Learning,” dalam Prosiding SNFT
Umsida 2012, hal. B31-B38.
Thamrin, H. dan Wantoro, J., 2014. “An Attempt to Create an Automatic Scoring Tool of
Short Text Answer in Bahasa Indonesia,” dalam Proceeding of International
Conference on Electrical Engineering, Computer Science and Informatics (EECSI
2014), Yogyakarta, pp. 96-98.
Wenqian, J. I., Zhoujun, L. I., Wenhan, C. H. A. O., Xiaoming, C. H. E. N., 2009.”A New
Method for Calculating Similarity between Sentences and Application on
Automatic Abstracting,” Intelligent Information Management, vol. 1, no.1, hal. 3642.
Winarsono, D., Siahaan D.D., Yuhana, U., 2009. “Sistem Penilaian Otomatis Kemiripan
Kalimat Menggunakan Syntactic-Semantic Similarity pada Sistem E-Learning,”
Kursor, vol. 5, no. 2, hal. 75-82.
Wu, Z. dan Palmer, M., 1994. “Verb Semantics and Lexical Selection.” dalam
Proceedings of the 32nd Annual Meeting of the Association for Computational
Linguistics, Las Cruces, New Mexico.
Yazdani, M., dan Popescu-Belis, A., 2012. “Computing text semantic relatedness using
the contents and links of a hypertext encyclopedia,” Artificial Intelligence.

31