Analisis Pengaruh Panjang Bit Kode pada Program Kompresi yang Menggunakan Algoritma LZW

Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009. USU Repository © 2009 2. Corpus harus tersebar luas, seperti melalui internet sehingga peneliti dapat dengan mudah mendapatkannya. 3. Corpus harus berisi materi yang umum pada masyarakat, bukan materi atau content yang jarang pada masyarakat umum. 4. Besar ukuran Corpus haruslah sesuai, tidak boleh terlalu besar juga tidak boleh terlalu kecil. 5. Corpus harus valid, bukan data rekaan.

4.1.2 Canterbury Corpus

Canterbury Corpus adalah sebuah set file yang dibuat sebagai standar dalam pengujian dan perbandingan algoritma kompresi sebagai penyempurnaan dari Calgary Corpus. Canterbury Corpus dibuat untuk mengikuti perkembangan tipe file baru yang umum dipakai masyarakat. Canterbury Corpus berisi file teks bacaan, fax image, kode sumber bahasa c, spreadsheet file, file biner, dokumentasi teknik, puisi berbahasa inggris, HTML, kode sumber lisp, dan buku manual GNU. Walaupun Calgary Corpus sudah disempurnakan dengan Canterbury Corpus, mencoba keduanya pada analisis ini akan memberikan hasil analisis yang lebih baik. Semakin banyak file yang dicoba diharapkan dapat memberikan analisis yang lebih baik.

4.2 Analisis Pengaruh Panjang Bit Kode pada Program Kompresi yang Menggunakan Algoritma LZW

Analisis pengaruh panjang bit kode pada program kompresi yang menggunakan algoritma LZW adalah mencoba set file pada program kompresi yang telah diimplementasikan dengan menggunakan panjang bit yang berbeda-beda. Dari analisis ini diharapkan didapatkan kesimpulan mengenai pengaruh panjang bit kode pada kinerja program kompresi. Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009. USU Repository © 2009

4.2.1 Analisis Pada Calgary Corpus

File-file Calgary Corpus bib, book1, book2, paper1, paper2, paper3, paper4, paper5, paper6 adalah file teks berisi teks bahasa inggris baik berupa fiksi maupun non fiksi. File news adalah file yang berisi berita. File progc, progl, progp adalah file teks berisi kode sumber program. File trans adalah file yang berisi transkip dari sebuah sesi pada terminal komputer. File obj1 dan obj2 adalah excutable file dan file pic berisi gambar bitmap hitam putih dan file geo adalah file yang berisi data geophysical. File-file ini akan dikompresi menggunakan program yang telah dibuat sebelumnya. Setelah itu rasio file hasil kompresi akan dicatat dan dibandingkan untuk mendapatkan kesimpulan keunggulan masing-masing panjang bit kode. Ukuran file merupakan faktor yang menentukan hasil kompresi oleh sebab itu ukuran file dapat dilihat pada Tabel 4.1. Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009. USU Repository © 2009 Tabel 4.1 Daftar ukuran file pada Calgary Corpus File-file Calgary Corpus dikompresi menggunakan program yang telah dibuat sebelumnya. Program memberikan informasi ukuran file asli, file terkompresi, rasio kompresi dalam persen dan waktu yang dibutuhkan untuk melakukan proses kompresi. Hasil pengujian dapat dilihat pada Tabel 4.2 yang merupakan hasil rata-rata dari keseluruhan file yang dicoba, sedangkan hasil pengujiannya secara lengkap terdapat pada tabel Lampiran A. Nama File Ukuran File Byte bib 111261 book1 768771 book2 610856 geo 102400 news 377109 obj1 21504 obj2 246814 paper1 53161 paper2 82199 paper3 46526 paper4 13286 paper5 11954 paper6 38105 pic 513216 progc 39611 progl 71646 progp 49379 trans 93695 Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009. USU Repository © 2009 Tabel 4.2 Hasil pengujian rasio kompresi algoritma LZW pada Calgary Corpus Penggunaan bit kode yang terlalu pendek maka jumlah item pada dictionary akan menjadi sedikit dan berdampak pada rasio kompresi yang tidak maksimal. Begitu juga penggunaan bit kode yang terlalu panjang juga akan menyebabkan rasio yang tidak maksimal. Semakin kecil rasio artinya hasil kompresi semakin kecil. Oleh sebab itu setelah menganalisis dan mencoba file satu persatu disimpulkan jika panjang bit kode lebih panjang dari 24 bit maka rasio kompresi semakin besar, begitu juga jika panjang bit kode lebih pendek dari 12 bit maka rasio kompresi semakin besar. Panjang Bit Kode Rasio rata-rata 9 Bit 71,39 10 Bit 63,94 11 Bit 59,48 12 Bit 56,29 13 Bit 54,16 14 Bit 52,98 15 Bit 54,20 16 Bit 56,24 17 Bit 58,89 18 Bit 62,18 19 Bit 65,63 20 Bit 68,87 21 Bit 72,54 22 Bit 75,99 23 Bit 79,28 24 Bit 82,90 Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009. USU Repository © 2009 Pemilihan panjang kode bit tidak lebih dari 24 bit disebabkan karena panjang bit lebih dari 24 bit tidak akan optimal, disebabkan oleh panjang bit 24 bit tersebut mempunyai jumlah item dictionary yang tidak terpakai yang sangat banyak sehingga terjadi pemborosan pemakaian bit. Hasil Rasio Rata-rata Kompresi Algoritma LZW pada Calgary Corpus 20 40 60 80 100 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Panjang bitbit R asi o Gambar 4.1 Grafik rasio rata-rata hasil kompresi algoritma LZW pada Calgary Corpus Dari Tabel 4.2 rata-rata hasil kompresi yang terbaik adalah pada panjang bit kode 14 bit. Sehingga dapat disimpulkan bahwa untuk file-file Calgary Corpus hasil kompresi terbaik secara rata-rata adalah menggunakan panjang bit kode 14 bit. Dan semakin panjang bit kode setelah lebih besar dari 14 bit makin membesar pula rasio kompresi. Hal ini disebabkan karena pada panjang kode 14 bit jumlah item dictionary untuk menyimpan frase telah mencukupi sehingga untuk panjang bit berikutnya terdapat bit-bit yang tidak digunakan. Sehingga dapat disimpulkan bahwa panjang bit kode setelah 14 bit seterusnya tidak akan optimal. Setelah analisis pengaruh panjang bit kode pada rasio hasil kompresi, waktu proses kompresi harus bandingkan juga. Hal ini dimaksudkan agar efisiensi algoritma dapat diketahui tidak dari parameter rasio saja tetapi juga dari waktu proses. Semakin sedikit waktu yang dibutuhkan dalam sebuah proses maka semakin efisien algoritma tersebut. Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009. USU Repository © 2009 Tabel 4.3 Hasil pengujian waktu proses rata-rata kompresi algoritma LZW pada Calgary Corpus Dari Tabel 4.3 dan Lampiran B dapat dilihat bahwa waktu rata-rata tercepat adalah pada 12 bit sampai 15 bit, setelah itu waktu rata-rata dari 16 bit sampai 24 bit perbedaan tidak begitu signifikan. Sehingga panjang bit kode berpengaruh pada waktu kompresi akan tetapi tidak dapat dipastikan bahwa semakin panjang bit kode tersebut maka semakin lama pula proses kompresi. Untuk lebih jelas dapat dilihat pada Gambar 4.2. Panjang Bit Kode Waktu Rata-rata milisekon 9 Bit 251 10 Bit 257 11 Bit 260 12 Bit 255 13 Bit 267 14 Bit 275 15 Bit 290 16 Bit 301 17 Bit 308 18 Bit 308 19 Bit 308 20 Bit 311 21 Bit 309 22 Bit 308 23 Bit 306 24 Bit 310 Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009. USU Repository © 2009 Grafik Waktu Rata-rata Proses Kompresi Algoritma LZW pada Calgary Corpus 50 100 150 200 250 300 350 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Panjang Bitbit W akt u m il iseko n Gambar 4.2 Grafik waktu rata-rata proses kompresi pada Calgary Corpus Selain faktor panjang bit kode, faktor yang menentukan waktu proses kompresi adalah jumlah item dictionary pada proses kompresi. Item dictionary berpengaruh pada waktu proses disebabkan oleh semakin banyak item dictionary yang digunakan maka semakin banyak pencarian pada binary tree yang menyimpan dictionary dan berdampak semakin lama waktu yang dibutuhkan pada setiap pencarian item. Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009. USU Repository © 2009 Tabel 4.4 Jumlah item dictionary rata-rata proses kompresi algoritma LZW pada Calgary Corpus Pada Tabel 4.4 dapat dilihat bahwa pada 17 bit sampai 24 bit jumlah item rata- rata sama, dan dilihat pada Gambar 4.2 pada 17 bit sampai 24 bit perbedaan waktu rata-rata kompresi tidak signifikan. Sedangkan pada 12 bit sampai 16 bit mempunyai jumlah item rata-rata yang cukup signifikan berdampak pula pada waktu proses kompresi yang cukup signifikan. Sehingga dapat disimpulkan bahwa semakin banyak jumlah item yang digunakan pada proses kompresi maka akan semakin lama pula proses kompresi tersebut. Panjang Bit Kode Jumlah Rata-rata Item Dictionary item 9 Bit 4096 10 Bit 4096 11 Bit 4096 12 Bit 4096 13 Bit 7829 14 Bit 13838 15 Bit 20557 16 Bit 28554 17 Bit 36853 18 Bit 36853 19 Bit 36853 20 Bit 36853 21 Bit 36853 22 Bit 36853 23 Bit 36853 24 Bit 36853 Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009. USU Repository © 2009

4.2.2 Analisis Pada Canterbury Corpus

Ukuran file sangat berpengaruh pada rasio maupun waktu yang dibutuhkan untuk kompresi. Canterbury Corpus terdiri dari file-file serta ukurannya dapat dilihat pada Tabel 4.5. Tabel 4.5 Daftar ukuran file pada Canterbury Corpus Setelah itu seluruh file Canterbury Corpus dicoba dengan panjang bit yang berbeda. Seluruh hasil percobaan file Canterbury Corpus terdapat pada Lampiran C. Berikut hasil pengujian rasio rata-rata kompresi dapat dilihat pada Tabel 4.6. Nama File Ukuran File Byte Alice29.txt 82028 Asyoulik.txt 71929 Cp.html 24603 Fields.c 5318 Grammar.lsp 3721 Kennedy.xls 1029744 Lcet10.txt 426754 Ptt5 513216 Sum 38240 Xargs.1 4227 Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009. USU Repository © 2009 Tabel 4.6 Hasil pengujian rasio kompresi algoritma LZW pada Canterbury Corpus Dari Tabel 4.6 dapat dilihat bahwa rasio kompresi terbaik didapat pada panjang bit yaitu 13 Bit. Hal ini berbeda dengan hasil yang didapat pada pengujian menggunakan Calgary Corpus yaitu panjang bit paling optimalnya adalah 14 bit. Panjang Bit Kode Rasio Rata-rata 9 Bit 49,46 10 Bit 49,46 11 Bit 49,46 12 Bit 49,46 13 Bit 48,77 14 Bit 49,66 15 Bit 50,71 16 Bit 52,92 17 Bit 55,43 18 Bit 58,17 19 Bit 61,80 20 Bit 65,05 21 Bit 68,30 22 Bit 71,07 23 Bit 74,37 24 Bit 78,05 Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009. USU Repository © 2009 Rasio Rata-rata Hasil Kompresi Algoritma LZW pada Canterbury Corpus 20 40 60 80 100 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Panjang Bit bit R asi o R at a- rat a Gambar 4.3 Grafik rasio rata-rata kompresi pada Canterbury Corpus Dari Gambar 4.3 dapat dilihat bahwa dimulai dari panjang kode bit 16 sampai 24 bit rasio kompresi semakin membesar secara signifikan. Hasil yang sama juga ditunjukkan pada Calgary Corpus dimana grafik pada Gambar 4.1 juga menunjukkan bahwa dimulai dari panjang bit 16 sampai 24 bit rasio kompresi semakin membesar secara signifikan. Sehingga penggunaan panjang bit kode 16 bit sampai 24 bit pada Calgary Corpus maupun Canterbury Corpus tidak optimal.

4.2.3 Analisis Menggunakan Canterbury Corpus Large File

Penggolongan file yang besar dan kecil itu sangat relatif. Akan tetapi Canterbury Corpus telah diciptakan sebagai set file yang dapat merepresentasikan bagaimana karateristik rata-rata dari file yang digunakan dalam masyarakat. Dan seluruh file-file tersebut berukuran dibawah 1 Mb. Sedangkan pada Canterbury Corpus Large File ukuran-ukuran file-nya adalah bigbook.txt dengan ukuran 3,85 MB, E.coli dengan ukuran 4,42 MB, dan world192.txt dengan ukuran 2,35 MB. Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009. USU Repository © 2009 Tabel 4.7 Hasil pengujian rasio algoritma LZW pada Canterbury Corpus Large File Dari Tabel 4.7 dapat dilihat bahwa hasil rasio terkecil adalah pada panjang bit 19 bit. Berbeda dengan Calgary maupun Canterbury dimana panjang bit kode yang optimal masing-masing adalah 14 bit dan 13 bit. Baik Calgary maupun Canterbury menghasilkan rasio kompresi yang tidak optimal pada 19 bit. Salah satu penyebab 19 bit unggul pada Canterbury Large File adalah semakin besar ukuran file maka akan membutuhkan semakin banyak item pada dictionary. Dan pada panjang 13 bit dan 14 bit tidak dapat menyimpan item dengan jumlah yang cukup besar untuk file Panjang Bit Kode bigbook.txt E.coli world192.txt Rata-rata rasio 9 Bit 54,56 38,00 67,55 53,37 10 Bit 52,24 34,05 64,54 50,27 11 Bit 49,54 33,23 61,99 48,25 12 Bit 48,25 31,00 60,94 46,73 13 Bit 44,69 30,26 56,49 43,81 14 Bit 41,64 29,70 52,04 41,12 15 Bit 39,09 29,28 47,54 38,63 16 Bit 37,09 28,94 43,51 36,51 17 Bit 35,31 28,62 39,71 34,54 18 Bit 34,25 28,63 36,96 33,28 19 Bit 33,17 28,35 34,78 32,10 20 Bit 33,91 29,33 36,62 33,28 21 Bit 35,61 30,08 38,45 34,95 22 Bit 37,30 32,27 40,28 36,61 23 Bit 39,00 33,73 42,11 38,28 24 Bit 40,69 35,20 43,94 39,94 Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009. USU Repository © 2009 Canterbury Large File. Pada Gambar 4.4 dapat dilihat bagaimana grafik rasio file hasil kompresi Canterbury Large File. Rasio Rata-rata Hasil Kompresi Algoritma LZW pada Canterbury Large File 10 20 30 40 50 60 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Panjang Bit Kodebit R asi o Gambar 4.4 Grafik rasio rata-rata kompresi pada Canterbury Large File Fahrur Razi : Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch LZW, 2009. USU Repository © 2009 BAB 5 PENUTUP

5.1 Kesimpulan