Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009.
USU Repository © 2009
2. Corpus harus tersebar luas, seperti melalui internet sehingga peneliti dapat
dengan mudah mendapatkannya. 3.
Corpus harus berisi materi yang umum pada masyarakat, bukan materi atau content yang jarang pada masyarakat umum.
4. Besar ukuran Corpus haruslah sesuai, tidak boleh terlalu besar juga tidak boleh
terlalu kecil. 5.
Corpus harus valid, bukan data rekaan.
4.1.2 Canterbury Corpus
Canterbury Corpus adalah sebuah set file yang dibuat sebagai standar dalam pengujian dan perbandingan algoritma kompresi sebagai penyempurnaan dari Calgary
Corpus. Canterbury Corpus dibuat untuk mengikuti perkembangan tipe file baru yang umum dipakai masyarakat. Canterbury Corpus berisi file teks bacaan, fax image, kode
sumber bahasa c, spreadsheet file, file biner, dokumentasi teknik, puisi berbahasa inggris, HTML, kode sumber lisp, dan buku manual GNU. Walaupun Calgary Corpus
sudah disempurnakan dengan Canterbury Corpus, mencoba keduanya pada analisis ini akan memberikan hasil analisis yang lebih baik. Semakin banyak file yang dicoba
diharapkan dapat memberikan analisis yang lebih baik.
4.2 Analisis Pengaruh Panjang Bit Kode pada Program Kompresi yang Menggunakan Algoritma LZW
Analisis pengaruh panjang bit kode pada program kompresi yang menggunakan algoritma LZW adalah mencoba set file pada program kompresi yang telah
diimplementasikan dengan menggunakan panjang bit yang berbeda-beda. Dari analisis ini diharapkan didapatkan kesimpulan mengenai pengaruh panjang bit kode pada
kinerja program kompresi.
Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009.
USU Repository © 2009
4.2.1 Analisis Pada Calgary Corpus
File-file Calgary Corpus bib, book1, book2, paper1, paper2, paper3, paper4, paper5, paper6 adalah file teks berisi teks bahasa inggris baik berupa fiksi maupun non fiksi.
File news adalah file yang berisi berita. File progc, progl, progp adalah file teks berisi kode sumber program. File trans adalah file yang berisi transkip dari sebuah sesi pada
terminal komputer. File obj1 dan obj2 adalah excutable file dan file pic berisi gambar bitmap hitam putih dan file geo adalah file yang berisi data geophysical. File-file ini
akan dikompresi menggunakan program yang telah dibuat sebelumnya. Setelah itu rasio file hasil kompresi akan dicatat dan dibandingkan untuk mendapatkan
kesimpulan keunggulan masing-masing panjang bit kode. Ukuran file merupakan faktor yang menentukan hasil kompresi oleh sebab itu ukuran file dapat dilihat pada
Tabel 4.1.
Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009.
USU Repository © 2009
Tabel 4.1 Daftar ukuran file pada Calgary Corpus
File-file Calgary Corpus dikompresi menggunakan program yang telah dibuat sebelumnya. Program memberikan informasi ukuran file asli, file terkompresi, rasio
kompresi dalam persen dan waktu yang dibutuhkan untuk melakukan proses kompresi. Hasil pengujian dapat dilihat pada Tabel 4.2 yang merupakan hasil rata-rata
dari keseluruhan file yang dicoba, sedangkan hasil pengujiannya secara lengkap terdapat pada tabel Lampiran A.
Nama File Ukuran File Byte
bib 111261
book1 768771
book2 610856
geo 102400
news 377109
obj1 21504
obj2 246814
paper1 53161
paper2 82199
paper3 46526
paper4 13286
paper5 11954
paper6 38105
pic 513216
progc 39611
progl 71646
progp 49379
trans 93695
Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009.
USU Repository © 2009
Tabel 4.2 Hasil pengujian rasio kompresi algoritma LZW pada Calgary Corpus
Penggunaan bit kode yang terlalu pendek maka jumlah item pada dictionary akan menjadi sedikit dan berdampak pada rasio kompresi yang tidak maksimal. Begitu
juga penggunaan bit kode yang terlalu panjang juga akan menyebabkan rasio yang tidak maksimal. Semakin kecil rasio artinya hasil kompresi semakin kecil. Oleh sebab
itu setelah menganalisis dan mencoba file satu persatu disimpulkan jika panjang bit kode lebih panjang dari 24 bit maka rasio kompresi semakin besar, begitu juga jika
panjang bit kode lebih pendek dari 12 bit maka rasio kompresi semakin besar. Panjang Bit Kode
Rasio rata-rata 9 Bit
71,39 10 Bit
63,94 11 Bit
59,48 12 Bit
56,29 13 Bit
54,16 14 Bit
52,98 15 Bit
54,20 16 Bit
56,24 17 Bit
58,89 18 Bit
62,18 19 Bit
65,63 20 Bit
68,87 21 Bit
72,54 22 Bit
75,99 23 Bit
79,28 24 Bit
82,90
Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009.
USU Repository © 2009
Pemilihan panjang kode bit tidak lebih dari 24 bit disebabkan karena panjang bit lebih dari 24 bit tidak akan optimal, disebabkan oleh panjang bit 24 bit tersebut mempunyai
jumlah item dictionary yang tidak terpakai yang sangat banyak sehingga terjadi pemborosan pemakaian bit.
Hasil Rasio Rata-rata Kompresi Algoritma LZW pada Calgary Corpus
20 40
60 80
100
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Panjang bitbit R
asi o
Gambar 4.1 Grafik rasio rata-rata hasil kompresi algoritma LZW pada Calgary Corpus
Dari Tabel 4.2 rata-rata hasil kompresi yang terbaik adalah pada panjang bit kode 14 bit. Sehingga dapat disimpulkan bahwa untuk file-file Calgary Corpus hasil
kompresi terbaik secara rata-rata adalah menggunakan panjang bit kode 14 bit. Dan semakin panjang bit kode setelah lebih besar dari 14 bit makin membesar pula rasio
kompresi. Hal ini disebabkan karena pada panjang kode 14 bit jumlah item dictionary untuk menyimpan frase telah mencukupi sehingga untuk panjang bit berikutnya
terdapat bit-bit yang tidak digunakan. Sehingga dapat disimpulkan bahwa panjang bit kode setelah 14 bit seterusnya tidak akan optimal.
Setelah analisis pengaruh panjang bit kode pada rasio hasil kompresi, waktu proses kompresi harus bandingkan juga. Hal ini dimaksudkan agar efisiensi algoritma
dapat diketahui tidak dari parameter rasio saja tetapi juga dari waktu proses. Semakin sedikit waktu yang dibutuhkan dalam sebuah proses maka semakin efisien algoritma
tersebut.
Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009.
USU Repository © 2009
Tabel 4.3 Hasil pengujian waktu proses rata-rata kompresi algoritma LZW pada Calgary Corpus
Dari Tabel 4.3 dan Lampiran B dapat dilihat bahwa waktu rata-rata tercepat adalah pada 12 bit sampai 15 bit, setelah itu waktu rata-rata dari 16 bit sampai 24 bit
perbedaan tidak begitu signifikan. Sehingga panjang bit kode berpengaruh pada waktu kompresi akan tetapi tidak dapat dipastikan bahwa semakin panjang bit kode tersebut
maka semakin lama pula proses kompresi. Untuk lebih jelas dapat dilihat pada Gambar 4.2.
Panjang Bit Kode Waktu Rata-rata milisekon
9 Bit 251
10 Bit 257
11 Bit 260
12 Bit 255
13 Bit 267
14 Bit 275
15 Bit 290
16 Bit 301
17 Bit 308
18 Bit 308
19 Bit 308
20 Bit 311
21 Bit 309
22 Bit 308
23 Bit 306
24 Bit 310
Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009.
USU Repository © 2009
Grafik Waktu Rata-rata Proses Kompresi Algoritma LZW pada Calgary Corpus
50 100
150 200
250 300
350
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Panjang Bitbit W
akt u
m il
iseko n
Gambar 4.2 Grafik waktu rata-rata proses kompresi pada Calgary Corpus
Selain faktor panjang bit kode, faktor yang menentukan waktu proses kompresi adalah jumlah item dictionary pada proses kompresi. Item dictionary
berpengaruh pada waktu proses disebabkan oleh semakin banyak item dictionary yang digunakan maka semakin banyak pencarian pada binary tree yang menyimpan
dictionary dan berdampak semakin lama waktu yang dibutuhkan pada setiap pencarian item.
Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009.
USU Repository © 2009
Tabel 4.4 Jumlah item dictionary rata-rata proses kompresi algoritma LZW pada Calgary Corpus
Pada Tabel 4.4 dapat dilihat bahwa pada 17 bit sampai 24 bit jumlah item rata- rata sama, dan dilihat pada Gambar 4.2 pada 17 bit sampai 24 bit perbedaan waktu
rata-rata kompresi tidak signifikan. Sedangkan pada 12 bit sampai 16 bit mempunyai jumlah item rata-rata yang cukup signifikan berdampak pula pada waktu proses
kompresi yang cukup signifikan. Sehingga dapat disimpulkan bahwa semakin banyak jumlah item yang digunakan pada proses kompresi maka akan semakin lama pula
proses kompresi tersebut. Panjang Bit
Kode Jumlah Rata-rata Item
Dictionary item 9 Bit
4096 10 Bit
4096 11 Bit
4096 12 Bit
4096 13 Bit
7829 14 Bit
13838 15 Bit
20557 16 Bit
28554 17 Bit
36853 18 Bit
36853 19 Bit
36853 20 Bit
36853 21 Bit
36853 22 Bit
36853 23 Bit
36853 24 Bit
36853
Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009.
USU Repository © 2009
4.2.2 Analisis Pada Canterbury Corpus
Ukuran file sangat berpengaruh pada rasio maupun waktu yang dibutuhkan untuk kompresi. Canterbury Corpus terdiri dari file-file serta ukurannya dapat dilihat pada
Tabel 4.5.
Tabel 4.5 Daftar ukuran file pada Canterbury Corpus
Setelah itu seluruh file Canterbury Corpus dicoba dengan panjang bit yang berbeda. Seluruh hasil percobaan file Canterbury Corpus terdapat pada Lampiran C. Berikut
hasil pengujian rasio rata-rata kompresi dapat dilihat pada Tabel 4.6. Nama File
Ukuran File Byte Alice29.txt
82028 Asyoulik.txt
71929 Cp.html
24603 Fields.c
5318 Grammar.lsp
3721 Kennedy.xls
1029744 Lcet10.txt
426754 Ptt5
513216 Sum
38240 Xargs.1
4227
Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009.
USU Repository © 2009
Tabel 4.6 Hasil pengujian rasio kompresi algoritma LZW pada Canterbury Corpus
Dari Tabel 4.6 dapat dilihat bahwa rasio kompresi terbaik didapat pada panjang bit yaitu 13 Bit. Hal ini berbeda dengan hasil yang didapat pada pengujian
menggunakan Calgary Corpus yaitu panjang bit paling optimalnya adalah 14 bit. Panjang Bit Kode
Rasio Rata-rata 9 Bit
49,46 10 Bit
49,46 11 Bit
49,46 12 Bit
49,46 13 Bit
48,77 14 Bit
49,66 15 Bit
50,71 16 Bit
52,92 17 Bit
55,43 18 Bit
58,17 19 Bit
61,80 20 Bit
65,05 21 Bit
68,30 22 Bit
71,07 23 Bit
74,37 24 Bit
78,05
Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009.
USU Repository © 2009
Rasio Rata-rata Hasil Kompresi Algoritma LZW pada Canterbury Corpus
20 40
60 80
100
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Panjang Bit bit R
asi o
R at
a- rat
a
Gambar 4.3 Grafik rasio rata-rata kompresi pada Canterbury Corpus
Dari Gambar 4.3 dapat dilihat bahwa dimulai dari panjang kode bit 16 sampai 24 bit rasio kompresi semakin membesar secara signifikan. Hasil yang sama juga
ditunjukkan pada Calgary Corpus dimana grafik pada Gambar 4.1 juga menunjukkan bahwa dimulai dari panjang bit 16 sampai 24 bit rasio kompresi semakin membesar
secara signifikan. Sehingga penggunaan panjang bit kode 16 bit sampai 24 bit pada Calgary Corpus maupun Canterbury Corpus tidak optimal.
4.2.3 Analisis Menggunakan Canterbury Corpus Large File
Penggolongan file yang besar dan kecil itu sangat relatif. Akan tetapi Canterbury Corpus telah diciptakan sebagai set file yang dapat merepresentasikan bagaimana
karateristik rata-rata dari file yang digunakan dalam masyarakat. Dan seluruh file-file tersebut berukuran dibawah 1 Mb. Sedangkan pada Canterbury Corpus Large File
ukuran-ukuran file-nya adalah bigbook.txt dengan ukuran 3,85 MB, E.coli dengan ukuran 4,42 MB, dan world192.txt dengan ukuran 2,35 MB.
Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009.
USU Repository © 2009
Tabel 4.7 Hasil pengujian rasio algoritma LZW pada Canterbury Corpus Large File
Dari Tabel 4.7 dapat dilihat bahwa hasil rasio terkecil adalah pada panjang bit 19 bit. Berbeda dengan Calgary maupun Canterbury dimana panjang bit kode yang
optimal masing-masing adalah 14 bit dan 13 bit. Baik Calgary maupun Canterbury menghasilkan rasio kompresi yang tidak optimal pada 19 bit. Salah satu penyebab 19
bit unggul pada Canterbury Large File adalah semakin besar ukuran file maka akan membutuhkan semakin banyak item pada dictionary. Dan pada panjang 13 bit dan 14
bit tidak dapat menyimpan item dengan jumlah yang cukup besar untuk file Panjang
Bit Kode bigbook.txt
E.coli world192.txt
Rata-rata rasio
9 Bit 54,56
38,00 67,55
53,37 10 Bit
52,24 34,05
64,54 50,27
11 Bit 49,54
33,23 61,99
48,25 12 Bit
48,25 31,00
60,94 46,73
13 Bit 44,69
30,26 56,49
43,81 14 Bit
41,64 29,70
52,04 41,12
15 Bit 39,09
29,28 47,54
38,63 16 Bit
37,09 28,94
43,51 36,51
17 Bit 35,31
28,62 39,71
34,54 18 Bit
34,25 28,63
36,96 33,28
19 Bit 33,17
28,35 34,78
32,10 20 Bit
33,91 29,33
36,62 33,28
21 Bit 35,61
30,08 38,45
34,95 22 Bit
37,30 32,27
40,28 36,61
23 Bit 39,00
33,73 42,11
38,28 24 Bit
40,69 35,20
43,94 39,94
Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009.
USU Repository © 2009
Canterbury Large File. Pada Gambar 4.4 dapat dilihat bagaimana grafik rasio file hasil kompresi Canterbury Large File.
Rasio Rata-rata Hasil Kompresi Algoritma LZW pada Canterbury Large File
10 20
30 40
50 60
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Panjang Bit Kodebit R
asi o
Gambar 4.4 Grafik rasio rata-rata kompresi pada Canterbury Large File
Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009.
USU Repository © 2009
BAB 5
PENUTUP
5.1 Kesimpulan