4.4. Hasil Pengujian
Pada bagian ini dijabarkan hasil percobaan akurasi algoritma Naive Bayes Classifier dengan menggunakan dataset yang telah didapatkan dengan cara mencoba dengan 50
artikel yang bertopik kesehatan, 50 artikel yang tidak bertopik kesehatan dan 50 artikel yang memiliki kata kesehatan tetapi isi dari artikel tersebut bukan merupakan topik
kesehatan semi kesehatan. Maka dari itu didapatkan hasil yang tertera pada tabel 4.2.
Tabel 4.2. Hasil percobaan akurasi klasifikasi Jenis
Artikel Terklasifikasi kesehatan
Terklasifikasi bukan kesehatan
Jumlah
Kesehatan 45
90.00 5
10.00 50
Semi Kesehatan
28 56.00
22 44.00
50 Bukan
Kesehatan 4
8.00 46
92.00 50
Lalu dilakukan pengujian dengan menggunakan jumlah thread yang berbeda dan menggunakan bandwith yang berbeda seperti pada tabel 3.4. dimana untuk setiap
percobaannya dihitung jumlah fileartikel yang ter-download, total ukuran file, penggunaan heap memory dan penggunaan cpu untuk setiap penggunaannya untuk
setiap penggunaan Larger Site First LSF dan tidak menggunakan LSF yang dilihat hasilnya per menit. Untuk perhitungan heap memory dan penggunaan cpu dengan
perumpamaan A = Komputer 1, B = Komputer 2, C = Komputer 3 dan D = Komputer 4. Yang dapat dilihat pada tabel 4.3 sampai tabel 4.22
Tabel 4.3. Hasil Crawling dengan LSF pada bandwith 2 Mbps jumlah file
Thread Kom
Total A
B C
D
100 5592 7594 7568 5995 26749
200 7454 5592 6006 7719 26771
500 7373 6963 7403 5459 27198
1000 3158 7138 4105 7607 22008
2000 4531 3016 3028 3000 13575
Universitas Sumatera Utara
Tabel 4.4. Hasil Crawling tidak dengan LSF pada bandwith 2 Mbps jumlah file
Thread Kom
Total A
B C
D
100 3344 10451 8702
2695 25192
200 8629 10852 4498
2907 26886
500 8242
4400 3353 11293 27288
1000 2219 10205 7384
2927 22735
2000 2104
5446 3245
2625 13420
Tabel 4.5. Hasil Crawling dengan LSF pada bandwith 2 Mbps ukuran file KB
Thread Kom
Total A
B C
D
100 69577725 28904271 21708161 17909664 138099821
200 28240542 69363015 16990193 22133799 136727549
500 21737395 21052132 27264842 67375033 137429402
1000 11419831 21140539 11169824 70258637 113988831
2000 57665947
8669302 10601608
9494330 86431187
Tabel 4.6. Hasil Crawling tidak dengan LSF pada bandwith 2 Mbps ukuran file KB
Thread Kom
Total A
B C
D
100 14718288
89496311 24427857
7904326 136546782
200 25044483
91823031 11781590
9574337 138223441
500 67823083 350922098 81962878 32384743 533092802
1000 5941639
85488993 21988304
9288824 122707760
2000 6547383
17507643 10360783
7500809 41916618
Tabel 4.7. Hasil Crawling dengan LSF pada bandwith 3 Mbps jumlah file
Thread Kom
Total A
B C
D
100 5470 6406
6973 10035 28884
200 9745 3637
9363 6423
29168 500
4624 8083 5638
11167 29512 1000
6627 4880 10316 5144
26967 2000
2690 2947 2583
1963 10183
Universitas Sumatera Utara
Tabel 4.8. Hasil Crawling tidak dengan LSF pada bandwith 3 Mbps jumlah file
Thread Kom
Total A
B C
D
100 1580
4419 10712 10741 27452
200 4894 10031 10744
1791 27460
500 9555
3017 4612
11250 28434 1000
4673 9798
9050 2753
26274 2000
1117 3462
2499 1206
8284
Tabel 4.9. Hasil Crawling dengan LSF pada bandwith 3 Mbps ukuran file KB
Thread Kom
Total A
B C
D
100 14930791 24675201 26849071 77356101 143811164
200 79393592 13159151 28111764 22526793 143191300
500 15507508 20164305 19650188 91818267 147140268
1000 20570748 11616420 81307259 18364192 131858619
2000 9066175
9715376 8560876
26880628 54223055
Tabel 4.10. Hasil Crawling tidak dengan LSF pada bandwith 3 Mbps ukuran file KB
Thread Kom
Total A
B C
D
100 5499864
11544501 31959601 88003350 137007316 200
12658901 33030603 90312660 6564870
142567034 500
27654417 9868587
12234356 91667497 141424857 1000
12394699 28218157 78866222 8396623
127875701 2000
16237303 8748434
8110208 4158332
37254277
Tabel 4.11. Hasil Crawling dengan LSF pada bandwith 5 Mbps jumlah file
Thread Kom
Total A
B C
D
100 3665
8919 12146 3684 28414
200 3945
9300 12387 3816 29448
500 9690
5397 9879
4989 29955 1000
2183 11366 7659
3455 24663 2000
1622 2626
1968 2337
8553
Universitas Sumatera Utara
Tabel 4.12. Hasil Crawling tidak dengan LSF pada bandwith 5 Mbps jumlah file
Thread Kom
Total A
B C
D
100 4415
10580 10710 2156
27861 200
11131 2202
10634 4778
28745 500
10596 4783
2185 11328 28892
1000 2283
9874 4440
2715 19312
2000 655
3292 604
1857 6408
Tabel 4.13. Hasil Crawling dengan LSF pada bandwith 5 Mbps ukuran file KB
Thread Kom
Total A
B C
D
100 11786681 26607674 91382004 12488697 142265056
200 13581048 29354225 92855846 12495532 148286651
500 29452814 18572552 79056376 20216666 147298408
1000 6440600
87225347 23189401 11615549 128470897 2000
5389701 8673330
9265317 7543570
30871918
Tabel 4.14. Hasil Crawling tidak dengan LSF pada bandwith 5 Mbps ukuran file KB
Thread Kom
Total A
B C
D
100 12196295 89421099 32282044
6115772 140015210
200 93513614
6261529 32133699 13097025 145005867
500 31295701 13099098
6484052 92576902 143455753
1000 7303126
85691176 12004445 8088835
113087582 2000
1406993 8412054
2384958 23342528
35546533
Jika dilihat dari tabel 4.3, 4.4, 4.7, 4.8, 4.11, 4.12 maka dapat diketahui bahwa sebagian besar crawling menggunakan algoritma Larger Site First LSF memiliki jumlah hasil
yang lebih tinggi dibandingkan dengan tidak menggunakan LSF dengan perbandingan 12:3 2:3 untuk bandwith 2 Mbps, 5:0 untuk bandwith 3 Mbps dan 5:0 untuk bandwith
5 Mbps, yang untuk lebih jelasnya dapat dilihat pada gambar 4.6, 4.7 dan 4.8.
Universitas Sumatera Utara
Gambar 4.6. Grafik perbandingan hasil jumlah crawling menggunakan LSF dan tidak 2 Mbps
Gambar 4.7. Grafik perbandingan hasil jumlah crawling menggunakan LSF dan tidak 3 Mbps
100 200
500 1000
2000 LSF
26749 26771
27198 22008
13575 No LSF
25192 26886
27288 22735
13420 5000
10000 15000
20000 25000
30000
Am o
u n
t o
f Fi le
s
Threads
LSF vs No LSF 2 Mbps
100 200
500 1000
2000 LSF
28884 29168
29512 26967
10183 NO LSF
27452 27460
28434 26274
8284 5000
10000 15000
20000 25000
30000 35000
Am o
u n
t o
f Fi le
s
Threads
LSF vs No LSF 3 Mbps
Universitas Sumatera Utara
Gambar 4.8. Grafik perbandingan hasil jumlah crawling menggunakan LSF dan tidak 5 Mbps
Sedangkan untuk perbandingan hasil menggunakan bandwith yang berbeda maka sebagian data menunjukkan kenaikan performa ketika bandwith semakin besar, akan
tetapi jika melihat perbedaan antara jumlah hasil pada bandwith 3 Mbps dan 5 Mbps maka sebagian mengalami kenaikan dan sebagian lagi tidak dengan perbandingan 5:5
jika dibandingan dengan bandwith 3 Mbps dan 2 Mbps sebagian mengalami kenaikan dengan perbandingan 8:2. Yang dapat dilihat pada gambar 4.9 dan 4.10.
Gambar 4.9. Grafik perbandingan jumlah hasil dengan bandwith yang berbeda menggunakan LSF
100 200
500 1000
2000 LSF
28884 29168
29512 26967
10183 NO LSF
27452 27460
28434 26274
8284 5000
10000 15000
20000 25000
30000 35000
Am o
u n
t o
f Fi le
s
Threads
LSF vs No LSF 5 Mbps
100 200
500 1000
2000 2 Mbps
26749 26771
27198 22008
13575 3 Mbps
28884 29168
29512 26967
10183 5 Mbps
28414 29448
29955 24663
8553 5000
10000 15000
20000 25000
30000 35000
Am o
u n
t o
f Fi le
s
Threads
With Larger Site First Algorithm
Universitas Sumatera Utara
Gambar 4.10. Grafik perbandingan jumlah hasil dengan bandwith yang berbeda tidak menggunakan LSF
Sedangkan untuk ukuran file dengan jumlah file tidak selalu berbanding lurus yang artinya jika semakin banyak file maka jumlah ukuran file tidak selalu bertambah besar
yang dapat dilihat pada gambar 4.11, 4.12
Gambar 4.11. Grafik perbandingan jumlah hasil ukuran file dengan bandwith yang berbeda menggunakan LSF
100 200
500 1000
2000 2 Mbps
25192 26886
27288 22735
13420 3 Mbps
27452 27460
28434 26274
8284 5 Mbps
27861 28745
28892 19312
6408 5000
10000 15000
20000 25000
30000 35000
Am o
u n
t o
f Fi le
s
Threads
Without Larger Site First Algorithm
100 200
500 1000
2000 2 Mbps
138099821 136727549
137429402 113988831
86431187 3 Mbps
143811164 143191300
147140268 131858619
54223055 5 Mbps
142265056 148286651
147298408 128470897
30871918 20000000
40000000 60000000
80000000 100000000
120000000 140000000
160000000
Am o
u n
t o
f Fi le
s
Threads
With Larger Site First Algorithm
Universitas Sumatera Utara
Gambar 4.12. Grafik perbandingan jumlah hasil ukuran file dengan bandwith yang berbeda tidak menggunakan LSF
Ketika percobaan dilakukan terjadi error pada saat pengujian menggunakan 2000 thread dimana terdapat masalah pada heap memory seperti pada gambar 4.13.
Gambar 4.13. Error yang didapatkan pada percobaan menggunakan 2000 thread
Maka dari itu penguji mengubah initial java heap size dan maximum java heap size yang semula adalah 512 MB menjadi 768 MB. Dan semenjak dilakukan perubahan
tersebut tidak dijumpai lagi error seperti pada gambar 4.13. Maka untuk hasil penggunaan heap memory tidak terlalu berpengaruh dengan
perubahan jumlah thread, pemakaian LSF, ataupun bandwith yang dipakai melainkan dipengaruhi berapa banyak jumlah heap memory yang pengguna definisikan untuk
menjalankan program tersebut seperti contoh pada gambar 4.14 dan 4.15.
1 2
3 4
5 2 Mbps
136546782 138223441
140621984 122707760
41916618 3 Mbps
137007316 142567034
141424857 127875701
37254277 5 Mbps
140015210 145005867
143455753 113087582
35546533 20000000
40000000 60000000
80000000 100000000
120000000 140000000
160000000
Am o
u n
t o
f Fi le
s
Threads
Without Larger Site First Algorithm
Universitas Sumatera Utara
Gambar 4.14. Grafik penggunaan heap memory di komputer A menggunakan LSF
Gambar 4.15. Grafik penggunaan heap memory di komputer B tidak menggunakan LSF
Sedangkan untuk penggunaan cpu akan semakin besar jika thread semakin besar, pada percobaan ini terkecuali pada pemakaian thread 2000 dikarenakan heap memory yang
dinaikkan sehingga beban program sebagian dialihkan ke penggunaan heap memory. Untuk lebih jelasnya dapat dilihat pada gambar 4.16. dan 4.17.
200 400
600 800
1 3 5 7 9 11131517192123252729313335373941434547495153555759
Me m
o ry
U sage
MB
Minutes
Rata-rata Penggunaan Heap Memory pada Komputer A Menggunakan LSF 2 Mbps
100 Thread 200 Thread
500 Thread 1000 Thread
2000 Thread
200 400
600 800
1 3 5 7 9 11131517192123252729313335373941434547495153555759
Me m
o ry
U sage
MB
Minutes
Rata-rata Penggunaan Heap Memory pada Komputer A Tidak Menggunakan LSF 3 Mbps
100 Thread 200 Thread
500 Thread 1000 Thread
2000 Thread
Universitas Sumatera Utara
Gambar 4.16. Grafik penggunaan CPU di komputer C menggunakan LSF
Gambar 4.17. Grafik penggunaan CPU di komputer C tidak menggunakan LSF
Dari hasil pengujian yang didapatkan bahwa pada penggunaan 1000 dan 2000 thread terjadi penurunan performa dikarenakan CPU mempunyai batas dalam memproses
thread, jadi tidak serta merta semakin banyak thread maka semakin tinggi performa yang didapatkan. Justru apabila terlalu banyak thread yang akan diproses maka
terdapat thread yang sedang menunggu untuk diproses dan mengakibatkan terganggunya kinerja thread yang sedang dijalankan dan pada akhirnya menurunkan
kinerja secara keseluruhan.
20 40
60 80
100
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59
Penggu n
an CPU
Minutes
Penggunaan CPU Pada Komputer C Menggunakan LSF 2 Mbps
100 Thread 200 Thread
500 Thread 1000 Thread
2000 Thread
20 40
60 80
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59
Penggu n
aa n
CPU
Minutes
Penggunaan CPU Pada Komputer C Tidak Menggunakan LSF 3 Mbps
100 Thread 200 Thread
500 Thread 1000 Thread
2000 Thread
Universitas Sumatera Utara
Secara umum klasifikasi menggunakan naive bayes classifier pada focused crawler mempunyai tingkat akurasi sebesar 90, yang keakuratannya dapat berkurang apabila
terdapat kata kunci kesehatan pada artikel bukan kesehatan dikarenakan pada naive bayes classifier menghitung frekuensi kemunculan kata dan tidak melihat
keterkaitannya dengan kata yang lain. Untuk performa crawling menggunakan algoritma larger site first lebih besar dibandingkan dengan yang tidak
menggunakannya. Apabila semakin banyak thread maka semakin banyak pula hasil crawling yang didapatkan yang dibatasi oleh kemampuan komputer. Jika melebihi batas
kemampuan maka justru akan menurunkan performa. Dan dapat disimpulkan bahwa penggunaan jumlah thread yang efektif pada penelitian kali ini adalah menggunakan
500 thread. Pada pemakaian bandwith apabila semakin besar bandwith maka semakin tinggi hasil yang didapatkan. Untuk jumlah ukuran file tidak selalu berbanding lurus
dengan jumlah file yang didapatkan. Apabila semakin banyak thread yang dipakai maka tidak mempengaruhi penggunaan heap memory, melainkan dipengaruhi oleh inisialisasi
oleh pengguna. Dan apabila semakin banyak thread yang dipakai maka semakin banyak cpu usage yang dibutuhkan, yang dapat diminimalisir oleh penambahan jumlah heap
memory yang dipakai.
4.5. Implementasi Sistem Bagian Depan Front-End