64 Gambar 4.22 Hasil Akurasi
4.2 Analisis Hasil
Implementasi yang telah dipaparkan di atas membantu analisis terhadap pengelompokan artikel berbahasa Jawa sebagaimana judul dari tulisan ini.
Analisis ini dilakukan terhadap seluruh artikel berbahasa Jawa, dengan demikian diharapkan dapat diketahui kelompok dari artikel dan mengetahui jenis topik
artikel pada dokumen berbahasa Jawa. Seluruh artikel yang telah dikumpulkan diolah melalui tahap information retrieval data awal berupa dokumen
diperlakukan beberapa tahap seperti tokenizing untuk memenggal dokumen menjadi kata per kata, stop word untuk menghilangkan tanda baca dan kata-kata
yang tidak memiliki arti, serta digunakan distribusi zipf untuk menghilangkan kata yang memiliki frekuensi terlalu rendah dan terlalu tinggi. Tahap berikutnya adalah
stemming , yaitu untuk mengubah kata menjadi kata dasar dan kemudian
mencocokkan pada
kamus apakah
ada atau
tidak, kata-kata
yang diambildigunakan adalah kata-kata yang ada pada kamus untuk dijadikan kata
unik yang kemudian dicek ke data awal untuk menentukan jumlah kemunculanfrekuensi dari kata tersebut. Kata harus terlebih dahulu diubah
menjadi data numerik melalui proses indexing. Proses indexing berfungsi untuk mencari mana kata yang bisa menjadikan suatu ciri khas dari sebuah dokumen,
65 karena kata yang lebih sering muncul pada suatu dokumen dianggap lebih
penting. Untuk mengukur keberhasilan dari penulisan ini adalah dengan
menggunakan percobaan. Langkah mengetahuinya adalah dengan melakukan percobaan. Berikut adalah langkah-langkah perobaan yang dilakukan:
1. Menentukan jumlah cluster=3, sesuai dengan topik yang telah
ditentukan sebelumnya 2.
Memilih computation c awal jumlah dilakukan K Means pertama, ditentukan dua buah parameter percobaan, c=2 dan c=4.
Computation dipilih 2 dan 4 karena di penelitian sebelumnya
digunakan 10 computation dari 1000, karena pada percobaan ini jumlah data ada 75, maka dipilihlah computation 2 dan 4 agar
kurang lebih serupa dengan perbandingan antara jumlah data dengan computation-nya.
3. Menerapkan distribusi zipf dengan memilih beberapa range
pemotongan frekuensi kata unik yang digunakan, dengan menentukan range pertama 0-152tanpa pemotongan frekuensi,
range ke dua 20-130, range ke tiga 50-150, range ke empat 70-
90, dan range ke lima 75-85. 4.
Tiap c dipasangkan dengan masing-masing range untuk mendapatkan akurasi dan errornya.
5. Melakukan masing-masing percoabaan dengan tiap percobaan
diulangi 10 kali.
66 Tabel 4.1 Percobaan 1 dengan range term frekuensi 0-152 tanpa pemotongan
term dengan jumlah kata unik 2.358
No Hasil Percobaan
Hasil Akurasi
confusion matrix
Hasil SSE Pembentukan
cluster
1 20,6
12588
2 17
12940
3 21,3
11106
4 17,3
14128
5 17
13948
67 6
23 14361
7 17
14294
8 20,6
12339
9 20,6
13233
10 17,3
14219
Tabel 4.2 Hasil Akurasi 1 dengan tf 0-152tanpa pemotongan dengan jumlah kata unik 2.358
SSE Akurasi
max 14361 23,00
min 11106 17,00
rerata 13315,6 19,17
68 Tabel 4.3 Percobaan 2 dengan range term frekuensi 20-130, dengan jumlah
kata unik 236.
No Hasil Percobaan
Hasil Akurasi
confusion matrix
Hasil SSE Pembentukan
cluster
1 38,6
685
2 40
730
3 37,3
800
4 37,3
1030
5 37,3
977
69 6
40 678
7 36
1043
8 38,6
763
9 37,3
1040
10 38,6
954
Tabel 4.4 Hasil Akurasi 2 dengan tf 20-130 dengan jumlah kata unik 236. SSE
Akurasi max
1043 40,00 min
678 36,00 rerata
870 38,10
70
Tabel 4.5 Hasil Percobaan 3 dengan c=2 dan range 70-90 dengan jumlah kata
unik 11. Percobaan
ke: compt TF_0 TF_1 SSEMIN
Pembagian Cluster
akurasi error c1 c2 c3
1 2
70 90
22,83278 29 27 19
80
20 2
2 70
90 23,4099 29 20 26
76 24
3 2
70 90
22,10818 24 22 29 70,6
29,4 4
2 70
90 21,93853 30 24 21
63,5 36,5
5 2
70 90
22,39229 13 36 26 76
24 6
2 70
90 22,21632 26 19 30
68 32
7 2
70 90
19,84822 34 19 22
76
24 8
2 70
90 22,91106 24 23 28
80 20
9 2
70 90
22,22598 15 32 28 73,3
26,7 10
2 70
90 22,38202 14 30 31
77,3 22,7
Tabel 4.6 Hasil Akurasi 3 c=2 dan range 70-90 dengan jumlah kata unik 11.
SSE Akurasi
max 23,4099
80
min 19,84822
63,5 rata-rata 22,22653
74,07
71 Tabel 4.7 Hasil Percobaan 4 dengan c=4 dan range 70-90 dengan jumlah kata
unik 11. Percobaan
ke: Compt TF_0 TF_1 SSEMIN
Pembagian Cluster
akurasi error
c1 c2
c3 1
4 70
90 22,3336 35
17 23
66,6 33,4
2 4
70 90
20,7682 31 27
17 52
48 3
4 70
90 21,22373 18
27 30
72 28
4 4
70 90
22,06013 32 24
19 54,6
45,4 5
4 70
90 23,34443 27
25 23
70,6 29,4
6 4
70 90
22,9735 21 26
28
62,6 37,4
7 4
70 90
21,8329 18 30
27 58,65
41,35 8
4 70
90 18,6674 26
20 29
62,6 37,4
9 4
70 90
23,0809 25 26
24 65,3
34,7 10
4 70
90 22,9603 25
25 25
70,6 29,4
Tabel 4.8 Hasil Akurasi 4 c=4 dan range 70-90 dengan jumlah kata unik 11.
SSE Akurasi
max 23,34443
72
min 18,6674
52 rata-rata 21,92451
63,555
72 Tabel 4.9 Hasil Percobaan 5 dengan c=2 dan range 50-150 dengan jumlah kata
unik 40. Percobaan
ke: compt TF_0 TF_1 SSEMIN
Pembagian Cluster
akurasi error c1 c2 c3
1 2
50 150
98,5651 41 5
29
56
44 2
2 50
150 98,1921 21 29
25
60
40 3
2 50
150 98,6601 22 29
24 68
32 4
2 50
150 87,2725 15 28
32 52
48 5
2 50
150 106,6736 17 33
25 54,6
45,4 6
2 50
150 90,1228 38 32
5
57,3 42,7
7 2
50 150
100,9536 10 37 28
64 36
8 2
50 150
96,6804 23 27 25
60
40 9
2 50
150 100,60754 28 21 26
56
44 10
2 50
150 84,40719 25 37
13 52
48
Tabel 4.10 Hasil Akurasi 5 c=2 dan range 50-150 dengan jumlah kata unik 40.
SSE Akurasi
max 106,6736
68
min 84,40719
52 rata-rata 96,21349
57,99
73 Tabel 4.11 Hasil Percobaan 6 dengan c=4 dan range 50-150 dengan jumlah
kata unik 40. Percobaan
ke: compt TF_0 TF_1 SSEMIN
Pembagian Cluster
akurasi error c1
c2 c3
1 4
50 150
89,773 21
17 37
45,3 54,7
2 4
50 150
99,9551 29
13 34
58,6 41,4
3 4
50 150
118,9248 22
41 12
60 40
4 4
50 150 94,631719
19 22
34 66,6
33,4 5
4 50
150 84,7839
39 28
8 52
48 6
4 50
150 111,2917
12 39
24
62,6 37,4
7 4
50 150
94,6199 31
27 17
58,6 41,4
8 4
50 150
107,8188 12
29 34
57,3 42,7
9 4
50 150
91,348 22
43 10
44 56
10 4
50 150
80,1049 29
36 10
56 44
Tabel 4.12 Hasil Akurasi 6 c=4 dan range 50-150 dengan jumlah kata unik 40.
SSE Akurasi
max 118,9248
66,6
min 80,1049
44 rata-rata 97,32518
56,1
74 Tabel 4.13
Percobaan 7 dengan range term frekuensi 75-85 dengan jumlah kata unik 4.
No Hasil Percobaan
Hasil Akurasi
confusion matrix
Hasil SSE Pembentukan
cluster
1 40
29,10
2 48
28,04
3 53,3
27,94
4 44
29,121
5 44
29,121
6 46,6
27,118
75 7
46,6 28,44
8 40
26,70
9 42,6
26,34
10 45,3
27,42
Tabel 4.14 Hasil Akurasi 7 dengan tf 75-85 dengan jumlah kata unik 4. SSE
Akurasi Max
29,121 53,30 Min
26,34 40,00 Rerata
27,934 45,04
. Berdasarkan hasil tabel percobaan di atas tabel 4.1-4.14 dapat ditarik kesimpulan sebagai berikut:
1. Pada percobaan 1 yang menggunakan seluruh kata unik berjumlah
2358 kata ternyata didapati akurasi yang sangat rendah rata-rata 19,17. Hal ini terjadi karena terlalu banyak kata yang digunakan
sehingga terjadi bias dan ciri dari suatu dokumen pun juga
76 membias. Dapat juga dilihat dengan pembagian anggota cluster
yang terlalu timpang sehingga dihaslikan SSE yang sangat besar, yaitu mencapai 13315 menjauhi nol. Kata unik apa saja yang
digunakan dapat dilihat di lampiran 8. 2.
Pada percobaan 2 yang menggunakan kata unik berjumlah 236 kata dengan frekuensi 20-130 ternyata didapati akurasi lebih baik
daripada percobaan yang pertama rata-rata akurasi 38,10 dan SSE 870. Hal ini dikarenakan pembiasan ciri dari dokumen sedikit
menurun seiiring dengan dibuangnya kata dengan frekuensi yang terlalu rendah dan terlalu tinggi. Kata unik apa saja yang digunakan
dapat dilihat di lampiran 9. 3.
Pada percobaan 5 dan 6 menggunakan kata unik berjumlah 40 kata dengan frekuensi 50-150 terjadi peningkatan akurasi yang cukup
signifikan, yaitu mencapai akurasi rata-rata 57,99 dengan rata- rata SSE yang relatif lebih rendah yaitu 96,213. Hal ini
dikarenakan frekuensi kata unik yang digunakan lebih menyempit dan mendekati ciri dari dokumen dan kata-kata yang tidak
memiliki makna semakin banyak tereduksi. Kata unik apa saja yang digunakan dapat dilihat di lampiran 11.
4. Pada percobaan 3 dan 4 menggunakan kata unik berjumlah 11 kata
dengan frekuensi 70-90 . Pada range pemotongan inilah diperoleh akurasi optimum, yaitu mencapai akurasi tertinggi 80 dengan
rata-rata SSE yang lebih rendah yaitu 19,85. Pada percobaan ini
77 semakin banyak kata yang terbuang, namun akurasinya justru
meningkat. Hal ini dikarenakan frekuensi kata unik yang digunakan semakin menyempit, sehingga dihasilkan kata unik
dapat manjadi ciri dari dokumen. Kata unik apa saja yang digunakan dapat dilihat di lampiran 10.
5. Pada percobaan 7 menggunakan kata unik berjumlah 4 kata dengan
frekuensi 75-85. Pada range pemotongan ini diperoleh akurasi rata-rata 45,04 dengan rata-rata SSE 27,93. Pada percobaan ini
kata yang digunakan lebih sedikit daripada percobaan 3 dan 4, namun akurasi yang dihasilkan justru menurun kembali. Hal ini
disebabkan karena kata unik pada range 75-85 terlalu sedikit sehingga kata unik pada range tersebut tidak bisa mewakili dalam
merepresentasikan kelompok dokumen yang ada. Kata unik apa saja yang digunakan dapat dilihat di lampiran 12.
Berdasarkan hasil percobaan yang telah dilakukan, terlihat jelas pada pada tabel 4.5, dimana pemotongan frekuensi kata 70-90 11 kata
unik menghasilkan cluster dengan akurasi tertinggi 80 dan memiliki rata-rata SSE 19,85. Dapat disimpulkan bahwa semakin banyak persebaran
frekuensi kata yang digunakan, maka error semakin besar ditunjukkan dengan percobaan 1 dan 2, namun hal ini tidak berlaku pada percobaan
dengan frekuensi pemotongan kata antara 75-85. Pada percobaan ini jumlah kata unik yang digunakan semakin sedikit 4 kata, namun akurasi
yang dihasilkan justru menurun. Hal ini dikarenakan kata unik pada range
78 75-85 terlalu sedikit sehingga kata unik pada range tersebut tidak bisa
mewakili dalam merepresentasikan kelompok dokumen yang ada.
Gambar 4.23 Perbandingan Pemotongan Frekuensi Kata
Masuk ke proses pengelompokan, proses pengelompokan dilakukan melalui tiga tahap, yaitu dengan K Means, single linkage, dan K Means kembali.
Berdasarkan percobaan yang dilakukan, ternyata computation dengan jumlah 2 relatif lebih baik, karena error yang dihasilkan lebih minimum. Metode
hierarchical K Means mengenai optimasi initial centorid ternyata dapat
diterapkan pada pengelompokan dokumen berbahasa Jawa. Dibuktikan dengan hasil K Means kedua yang cukup baik karena menggunakan centroid hasil dari
hierarchical clustering walaupun hanya dengan sekali percobaan.
Setelah dilakukan pengelompokan, maka langkah berikutnya adalah melakukan evaluasi, baik itu internal dan eksternal. Evaluasi internal diukur
berdasarkan SSE-nya. SSE yang minimum merupakan pembagian cluster yang terbaik. Dapat dilihat di tabel percobaan 4.1-4.16, dimana SSE minimum
menghasilkan pengelompokan dengan jumlah anggota cluster yang relatif seimbang. SSE juga digunakan sebagai parameter pengukuran evaluasi eksternal,
dengan mengambil percobaan dengan SSE minimum untuk dihitung pada proses
79 evalusi eksternal dengan menggunakan confussion matrix. Evaluasi eksternal
yang dilakukan adalah menghitung perbandingan antara anggota cluster yang tepat atau relevan dengan dokumen dengan kelompok idealnya. Ternyata benar
adanya bahwa SSE minimum akan menghasilkan akurasi yang maksimum lihat gambar 4.21.
Gambar 4.24 Gambar Tabel Percobaan
80
5. BAB V
PENUTUP
Bab akhir tulisan ini berisikan tentang kesimpulan dan saran. Kesimpulan berisi tentang hal-hal yang berkaitan dengan pengelompokan artikel berbahasa
Jawa. Saran akan memuat hal-hal yang berkaitan tentang pengembangan sistem dalam tulisan ini.
5.1.Kesimpulan
Berdasarkan hasil analisis dari implementasi dan percobaan menggunakan data artikel Berbahasa Jawa berjumlah 75 dan kcluster=3, dan dengan total kata
unik sebelum dilakukan pemotongan 2358 kata, diperoleh kesimpulan sebagai berikut:
1. Percobaan dengan c=2dilakukan dua kali K Means pertama secara random
dan range term frekuensi 70-90 11 kata unik merupakan pengelompokan yang terbaik dimana memiliki akurasi tertinggi uji eksternal, yaitu 80 dan
dengan SSE uji internal 19,85. 2.
Pada penelitian ini juga dilakukan percobaan lain dengan berbagai macam range
pemotongan term frekuensi tf, sehingga didapatkan hasil sebagai berikut:
a. Pada percobaan yang menggunakan seluruh kata unik 2358 kata
ternyata didapati akurasi yang sangat rendah rata-rata 19,17. Hal ini terjadi karena terlalu banyak kata yang digunakan sehingga
terjadi bias dan ciri dari suatu dokumen pun juga membias. Dapat