Analisis Hasil BAB IV

64 Gambar 4.22 Hasil Akurasi

4.2 Analisis Hasil

Implementasi yang telah dipaparkan di atas membantu analisis terhadap pengelompokan artikel berbahasa Jawa sebagaimana judul dari tulisan ini. Analisis ini dilakukan terhadap seluruh artikel berbahasa Jawa, dengan demikian diharapkan dapat diketahui kelompok dari artikel dan mengetahui jenis topik artikel pada dokumen berbahasa Jawa. Seluruh artikel yang telah dikumpulkan diolah melalui tahap information retrieval data awal berupa dokumen diperlakukan beberapa tahap seperti tokenizing untuk memenggal dokumen menjadi kata per kata, stop word untuk menghilangkan tanda baca dan kata-kata yang tidak memiliki arti, serta digunakan distribusi zipf untuk menghilangkan kata yang memiliki frekuensi terlalu rendah dan terlalu tinggi. Tahap berikutnya adalah stemming , yaitu untuk mengubah kata menjadi kata dasar dan kemudian mencocokkan pada kamus apakah ada atau tidak, kata-kata yang diambildigunakan adalah kata-kata yang ada pada kamus untuk dijadikan kata unik yang kemudian dicek ke data awal untuk menentukan jumlah kemunculanfrekuensi dari kata tersebut. Kata harus terlebih dahulu diubah menjadi data numerik melalui proses indexing. Proses indexing berfungsi untuk mencari mana kata yang bisa menjadikan suatu ciri khas dari sebuah dokumen, 65 karena kata yang lebih sering muncul pada suatu dokumen dianggap lebih penting. Untuk mengukur keberhasilan dari penulisan ini adalah dengan menggunakan percobaan. Langkah mengetahuinya adalah dengan melakukan percobaan. Berikut adalah langkah-langkah perobaan yang dilakukan: 1. Menentukan jumlah cluster=3, sesuai dengan topik yang telah ditentukan sebelumnya 2. Memilih computation c awal jumlah dilakukan K Means pertama, ditentukan dua buah parameter percobaan, c=2 dan c=4. Computation dipilih 2 dan 4 karena di penelitian sebelumnya digunakan 10 computation dari 1000, karena pada percobaan ini jumlah data ada 75, maka dipilihlah computation 2 dan 4 agar kurang lebih serupa dengan perbandingan antara jumlah data dengan computation-nya. 3. Menerapkan distribusi zipf dengan memilih beberapa range pemotongan frekuensi kata unik yang digunakan, dengan menentukan range pertama 0-152tanpa pemotongan frekuensi, range ke dua 20-130, range ke tiga 50-150, range ke empat 70- 90, dan range ke lima 75-85. 4. Tiap c dipasangkan dengan masing-masing range untuk mendapatkan akurasi dan errornya. 5. Melakukan masing-masing percoabaan dengan tiap percobaan diulangi 10 kali. 66 Tabel 4.1 Percobaan 1 dengan range term frekuensi 0-152 tanpa pemotongan term dengan jumlah kata unik 2.358 No Hasil Percobaan Hasil Akurasi confusion matrix Hasil SSE Pembentukan cluster 1 20,6 12588 2 17 12940 3 21,3 11106 4 17,3 14128 5 17 13948 67 6 23 14361 7 17 14294 8 20,6 12339 9 20,6 13233 10 17,3 14219 Tabel 4.2 Hasil Akurasi 1 dengan tf 0-152tanpa pemotongan dengan jumlah kata unik 2.358 SSE Akurasi max 14361 23,00 min 11106 17,00 rerata 13315,6 19,17 68 Tabel 4.3 Percobaan 2 dengan range term frekuensi 20-130, dengan jumlah kata unik 236. No Hasil Percobaan Hasil Akurasi confusion matrix Hasil SSE Pembentukan cluster 1 38,6 685 2 40 730 3 37,3 800 4 37,3 1030 5 37,3 977 69 6 40 678 7 36 1043 8 38,6 763 9 37,3 1040 10 38,6 954 Tabel 4.4 Hasil Akurasi 2 dengan tf 20-130 dengan jumlah kata unik 236. SSE Akurasi max 1043 40,00 min 678 36,00 rerata 870 38,10 70 Tabel 4.5 Hasil Percobaan 3 dengan c=2 dan range 70-90 dengan jumlah kata unik 11. Percobaan ke: compt TF_0 TF_1 SSEMIN Pembagian Cluster akurasi error c1 c2 c3 1 2 70 90 22,83278 29 27 19 80 20 2 2 70 90 23,4099 29 20 26 76 24 3 2 70 90 22,10818 24 22 29 70,6 29,4 4 2 70 90 21,93853 30 24 21 63,5 36,5 5 2 70 90 22,39229 13 36 26 76 24 6 2 70 90 22,21632 26 19 30 68 32 7 2 70 90 19,84822 34 19 22 76 24 8 2 70 90 22,91106 24 23 28 80 20 9 2 70 90 22,22598 15 32 28 73,3 26,7 10 2 70 90 22,38202 14 30 31 77,3 22,7 Tabel 4.6 Hasil Akurasi 3 c=2 dan range 70-90 dengan jumlah kata unik 11. SSE Akurasi max 23,4099 80 min 19,84822 63,5 rata-rata 22,22653 74,07 71 Tabel 4.7 Hasil Percobaan 4 dengan c=4 dan range 70-90 dengan jumlah kata unik 11. Percobaan ke: Compt TF_0 TF_1 SSEMIN Pembagian Cluster akurasi error c1 c2 c3 1 4 70 90 22,3336 35 17 23 66,6 33,4 2 4 70 90 20,7682 31 27 17 52 48 3 4 70 90 21,22373 18 27 30 72 28 4 4 70 90 22,06013 32 24 19 54,6 45,4 5 4 70 90 23,34443 27 25 23 70,6 29,4 6 4 70 90 22,9735 21 26 28 62,6 37,4 7 4 70 90 21,8329 18 30 27 58,65 41,35 8 4 70 90 18,6674 26 20 29 62,6 37,4 9 4 70 90 23,0809 25 26 24 65,3 34,7 10 4 70 90 22,9603 25 25 25 70,6 29,4 Tabel 4.8 Hasil Akurasi 4 c=4 dan range 70-90 dengan jumlah kata unik 11. SSE Akurasi max 23,34443 72 min 18,6674 52 rata-rata 21,92451 63,555 72 Tabel 4.9 Hasil Percobaan 5 dengan c=2 dan range 50-150 dengan jumlah kata unik 40. Percobaan ke: compt TF_0 TF_1 SSEMIN Pembagian Cluster akurasi error c1 c2 c3 1 2 50 150 98,5651 41 5 29 56 44 2 2 50 150 98,1921 21 29 25 60 40 3 2 50 150 98,6601 22 29 24 68 32 4 2 50 150 87,2725 15 28 32 52 48 5 2 50 150 106,6736 17 33 25 54,6 45,4 6 2 50 150 90,1228 38 32 5 57,3 42,7 7 2 50 150 100,9536 10 37 28 64 36 8 2 50 150 96,6804 23 27 25 60 40 9 2 50 150 100,60754 28 21 26 56 44 10 2 50 150 84,40719 25 37 13 52 48 Tabel 4.10 Hasil Akurasi 5 c=2 dan range 50-150 dengan jumlah kata unik 40. SSE Akurasi max 106,6736 68 min 84,40719 52 rata-rata 96,21349 57,99 73 Tabel 4.11 Hasil Percobaan 6 dengan c=4 dan range 50-150 dengan jumlah kata unik 40. Percobaan ke: compt TF_0 TF_1 SSEMIN Pembagian Cluster akurasi error c1 c2 c3 1 4 50 150 89,773 21 17 37 45,3 54,7 2 4 50 150 99,9551 29 13 34 58,6 41,4 3 4 50 150 118,9248 22 41 12 60 40 4 4 50 150 94,631719 19 22 34 66,6 33,4 5 4 50 150 84,7839 39 28 8 52 48 6 4 50 150 111,2917 12 39 24 62,6 37,4 7 4 50 150 94,6199 31 27 17 58,6 41,4 8 4 50 150 107,8188 12 29 34 57,3 42,7 9 4 50 150 91,348 22 43 10 44 56 10 4 50 150 80,1049 29 36 10 56 44 Tabel 4.12 Hasil Akurasi 6 c=4 dan range 50-150 dengan jumlah kata unik 40. SSE Akurasi max 118,9248 66,6 min 80,1049 44 rata-rata 97,32518 56,1 74 Tabel 4.13 Percobaan 7 dengan range term frekuensi 75-85 dengan jumlah kata unik 4. No Hasil Percobaan Hasil Akurasi confusion matrix Hasil SSE Pembentukan cluster 1 40 29,10 2 48 28,04 3 53,3 27,94 4 44 29,121 5 44 29,121 6 46,6 27,118 75 7 46,6 28,44 8 40 26,70 9 42,6 26,34 10 45,3 27,42 Tabel 4.14 Hasil Akurasi 7 dengan tf 75-85 dengan jumlah kata unik 4. SSE Akurasi Max 29,121 53,30 Min 26,34 40,00 Rerata 27,934 45,04 . Berdasarkan hasil tabel percobaan di atas tabel 4.1-4.14 dapat ditarik kesimpulan sebagai berikut: 1. Pada percobaan 1 yang menggunakan seluruh kata unik berjumlah 2358 kata ternyata didapati akurasi yang sangat rendah rata-rata 19,17. Hal ini terjadi karena terlalu banyak kata yang digunakan sehingga terjadi bias dan ciri dari suatu dokumen pun juga 76 membias. Dapat juga dilihat dengan pembagian anggota cluster yang terlalu timpang sehingga dihaslikan SSE yang sangat besar, yaitu mencapai 13315 menjauhi nol. Kata unik apa saja yang digunakan dapat dilihat di lampiran 8. 2. Pada percobaan 2 yang menggunakan kata unik berjumlah 236 kata dengan frekuensi 20-130 ternyata didapati akurasi lebih baik daripada percobaan yang pertama rata-rata akurasi 38,10 dan SSE 870. Hal ini dikarenakan pembiasan ciri dari dokumen sedikit menurun seiiring dengan dibuangnya kata dengan frekuensi yang terlalu rendah dan terlalu tinggi. Kata unik apa saja yang digunakan dapat dilihat di lampiran 9. 3. Pada percobaan 5 dan 6 menggunakan kata unik berjumlah 40 kata dengan frekuensi 50-150 terjadi peningkatan akurasi yang cukup signifikan, yaitu mencapai akurasi rata-rata 57,99 dengan rata- rata SSE yang relatif lebih rendah yaitu 96,213. Hal ini dikarenakan frekuensi kata unik yang digunakan lebih menyempit dan mendekati ciri dari dokumen dan kata-kata yang tidak memiliki makna semakin banyak tereduksi. Kata unik apa saja yang digunakan dapat dilihat di lampiran 11. 4. Pada percobaan 3 dan 4 menggunakan kata unik berjumlah 11 kata dengan frekuensi 70-90 . Pada range pemotongan inilah diperoleh akurasi optimum, yaitu mencapai akurasi tertinggi 80 dengan rata-rata SSE yang lebih rendah yaitu 19,85. Pada percobaan ini 77 semakin banyak kata yang terbuang, namun akurasinya justru meningkat. Hal ini dikarenakan frekuensi kata unik yang digunakan semakin menyempit, sehingga dihasilkan kata unik dapat manjadi ciri dari dokumen. Kata unik apa saja yang digunakan dapat dilihat di lampiran 10. 5. Pada percobaan 7 menggunakan kata unik berjumlah 4 kata dengan frekuensi 75-85. Pada range pemotongan ini diperoleh akurasi rata-rata 45,04 dengan rata-rata SSE 27,93. Pada percobaan ini kata yang digunakan lebih sedikit daripada percobaan 3 dan 4, namun akurasi yang dihasilkan justru menurun kembali. Hal ini disebabkan karena kata unik pada range 75-85 terlalu sedikit sehingga kata unik pada range tersebut tidak bisa mewakili dalam merepresentasikan kelompok dokumen yang ada. Kata unik apa saja yang digunakan dapat dilihat di lampiran 12. Berdasarkan hasil percobaan yang telah dilakukan, terlihat jelas pada pada tabel 4.5, dimana pemotongan frekuensi kata 70-90 11 kata unik menghasilkan cluster dengan akurasi tertinggi 80 dan memiliki rata-rata SSE 19,85. Dapat disimpulkan bahwa semakin banyak persebaran frekuensi kata yang digunakan, maka error semakin besar ditunjukkan dengan percobaan 1 dan 2, namun hal ini tidak berlaku pada percobaan dengan frekuensi pemotongan kata antara 75-85. Pada percobaan ini jumlah kata unik yang digunakan semakin sedikit 4 kata, namun akurasi yang dihasilkan justru menurun. Hal ini dikarenakan kata unik pada range 78 75-85 terlalu sedikit sehingga kata unik pada range tersebut tidak bisa mewakili dalam merepresentasikan kelompok dokumen yang ada. Gambar 4.23 Perbandingan Pemotongan Frekuensi Kata Masuk ke proses pengelompokan, proses pengelompokan dilakukan melalui tiga tahap, yaitu dengan K Means, single linkage, dan K Means kembali. Berdasarkan percobaan yang dilakukan, ternyata computation dengan jumlah 2 relatif lebih baik, karena error yang dihasilkan lebih minimum. Metode hierarchical K Means mengenai optimasi initial centorid ternyata dapat diterapkan pada pengelompokan dokumen berbahasa Jawa. Dibuktikan dengan hasil K Means kedua yang cukup baik karena menggunakan centroid hasil dari hierarchical clustering walaupun hanya dengan sekali percobaan. Setelah dilakukan pengelompokan, maka langkah berikutnya adalah melakukan evaluasi, baik itu internal dan eksternal. Evaluasi internal diukur berdasarkan SSE-nya. SSE yang minimum merupakan pembagian cluster yang terbaik. Dapat dilihat di tabel percobaan 4.1-4.16, dimana SSE minimum menghasilkan pengelompokan dengan jumlah anggota cluster yang relatif seimbang. SSE juga digunakan sebagai parameter pengukuran evaluasi eksternal, dengan mengambil percobaan dengan SSE minimum untuk dihitung pada proses 79 evalusi eksternal dengan menggunakan confussion matrix. Evaluasi eksternal yang dilakukan adalah menghitung perbandingan antara anggota cluster yang tepat atau relevan dengan dokumen dengan kelompok idealnya. Ternyata benar adanya bahwa SSE minimum akan menghasilkan akurasi yang maksimum lihat gambar 4.21. Gambar 4.24 Gambar Tabel Percobaan 80

5. BAB V

PENUTUP Bab akhir tulisan ini berisikan tentang kesimpulan dan saran. Kesimpulan berisi tentang hal-hal yang berkaitan dengan pengelompokan artikel berbahasa Jawa. Saran akan memuat hal-hal yang berkaitan tentang pengembangan sistem dalam tulisan ini. 5.1.Kesimpulan Berdasarkan hasil analisis dari implementasi dan percobaan menggunakan data artikel Berbahasa Jawa berjumlah 75 dan kcluster=3, dan dengan total kata unik sebelum dilakukan pemotongan 2358 kata, diperoleh kesimpulan sebagai berikut: 1. Percobaan dengan c=2dilakukan dua kali K Means pertama secara random dan range term frekuensi 70-90 11 kata unik merupakan pengelompokan yang terbaik dimana memiliki akurasi tertinggi uji eksternal, yaitu 80 dan dengan SSE uji internal 19,85. 2. Pada penelitian ini juga dilakukan percobaan lain dengan berbagai macam range pemotongan term frekuensi tf, sehingga didapatkan hasil sebagai berikut: a. Pada percobaan yang menggunakan seluruh kata unik 2358 kata ternyata didapati akurasi yang sangat rendah rata-rata 19,17. Hal ini terjadi karena terlalu banyak kata yang digunakan sehingga terjadi bias dan ciri dari suatu dokumen pun juga membias. Dapat