Hubungan Peluang Kemuculan Setiap Karakter dengan Jumlah

Berdasarkan hasil pengujian dari ketiga algoritma tersebut, Huffman Modifikasi jauh lebih baik untuk waktu yang diperlukan dalam sekali melakukan kompresi. Selain itu ukuran file hasil kompresi lebih kecil dibandingkan algoritma Huffman Statis dan Huffman Dinamis. Menurut data hasil pengujian di atas, terdapat satu permasalahan yang sangat menganggu yaitu masalah waktu yang dibutuhkan untuk melakukan proses. Terlihat pada percobaan terhadap uji6.txt untuk Huffman Statis memerlukan waktu 21 jam 29 menit 16 detik, hal ini akan sangat menganggu jika ukuran file yang dikompres melebihi 1 Mb. Hal tersebut dikarenakan algoritma yang digunakan melakukan proses loop yang banyak, setiap algoritma paling tidak melakukan dua kali proses loop. Jumlah proses ini akan mengikuti banyaknya dari karakter dalam suatu file, oleh karena itu semakin banyak karakter akan semakin besar ukuran file dan semakin lama dalam memprosesnya. Permasalahan waktu tersebut juga disebabkan karena di Java, memakai banyak memori untuk menyimpan proses yang berjalan sehingga dapat memperlambat proses dan memerlukan waktu yang cukup banyak.

5.3 Hubungan Peluang Kemuculan Setiap Karakter dengan Jumlah

Bit Hasil Kompresi Pengujian selanjutnya, penulis akan menganalisis sejauh mana pengaruh jumlah kemunculan setiap karakter dengan ukuran bit hasil kompresi. Pengujian akan dilakukan terhadap 20 teks yang masing-masing 10 teks berbahasa Indonesia dan 10 teks berbahasa Inggris. Penggunaan dua bahasa ini, sekaligus untuk menganalisis sejauh mana algoritma kompresi ini dapat bekerja optimal di dalam bahasa berbeda.

5.3.1 Data Bahasa Indonesia Nama

file Jumlah karakter Jumlah bit sebelum Jumlah bit sesudah rasio kompresi Peluang karakter 5 terbanyak Statis Dinamis Modifikasi ind1.txt 3644 28324 34620 -22.2 3489 -23.1 21918 22.6 spasi=0.14 a=0.13 e=0.08 n=0.07 i=0.06 ind2.txt 3772 29230 34977 -19.6 35303 -20.7 22269 23.8 a=0.16 spasi=0.13 n=0.07 e=0.06 i=0.06 ind3.txt 3614 28126 30094 -6.9 30257 -7.5 19624 30.2 a=0.15 spasi=0.13 n=0.08 e=0.06 i=0.06 ind4.txt 4069 31667 35701 -12.7 35841 -13.1 23000 27.3 a=0.13 spasi=0.13 n=0.09 e=0.07 i=0.06 ind5.txt 3745 29094 36390 -25.0 37054 -27.3 22924 21.2 spasi=0.13 a=0.13 n=0.08 e=0.07 i=0.07 ind6.txt 3668 28446 34770 -22.2 35499 -24.7 22023 22.5 a=0.15 spasi=0.13 e=0.06 n=0.06 i=0.05 ind7.txt 3889 30134 38180 -26.7 38465 -27.6 24001 20.3 spasi=0.13 a=0.13 i=0.07 n=0.07 e=0.07 ind8.txt 3677 28718 32071 -11.6 32291 -12.4 20695 27.9 a=0.16 spasi=0.13 n=0.08 e=0.07 i=0.06 ind9.txt 3903 30324 35234 -16.1 35880 -18.3 22547 25.6 a=0.13 spasi=0.13 n=0.1 i=0.08 e=0.07 ind10.txt 3831 29841 34116 -14.2 34404 -15.1 21905 26.6 a=0.14 spasi=0.12 n=0.07 e=0.07 i=0.06 Tabel 5.5 Hasil pengujian jumlah bit data bahasa Indonesia Untuk mencari karakter dengan peluang kemunculan terbanyak di bahasa Indonesia. maka dari data di atas dapat dihitung : Karakter terbanyak Rata-rata peluang dalam 10 sample data a 0.13 + 0.16 + 0.15 + 0.13 + 0.13 + 0.15 + 0.13 + 0.16 + 0.13 + 0.14 10 0.14 spasi 0.14 + 0.13 + 0.13 + 0.13 + 0.13 + 0.13 + 0.13 + 0.13 + 0.13 + 0.12 10 0.13 n 0.07 + 0.07 + 0.08 + 0.09 + 0.08 + 0.06 + 0.07 + 0.08 + 0.1 + 0.07 10 0.08 i 0.06 + 0.06 + 0.06 + 0.06 + 0.07 + 0.05 + 0.07 + 0.06 + 0.08 + 0.06 10 0.06 e 0.08 + 0.06 + 0.06 + 0.07 + 0.07 + 0.06 + 0.07 + 0.07 + 0.07 + 0.07 10 0.07 Tabel 5.6 Peluang karakter terbanyak data bahasa Indonesia Dari data tersebut dapat dilihat bahwa karakter ‘a’ menempati posisi teratas dengan peluang kemunculan 0.14 dalam 10 data sample. Rata-rata rasio kompresi Huffman Modifikasi untuk data bahasa Indonesia yaitu 24.8. Hasil minus pada rasio Huffman Statis dan Dinamis dipengaruhi hasil bit setelah kompresi lebih besar dari jumlah bit asli.

5.3.2 Data Bahasa Inggris Nama

file Jumlah karakter Jumlah bit sebelum Jumlah bit sesudah rasio kompresi Peluang karakter 5 terbanyak Statis Dinamis Modifikasi eng1.txt 3215 25443 29943 -17.6 30305 -19.1 19082 25.0 spasi=0.15 e=0.08 a=0.07 o=0.06 t=0.06 eng2.txt 2897 22858 25917 -13.3 26034 -13.8 16658 27.1 spasi=0.17 e=0.1 a=0.06 t=0.06 o=0.05 eng3.txt 3473 27161 31147 -14.6 31543 -16.1 19988 26.4 spasi=0.16 e=0.11 t=0.07 a=0.07 o=0.05 eng4.txt 3264 25576 28269 -10.5 28437 -11.1 18303 28.4 spasi=0.17 e=0.1 a=0.07 t=0.06 o=0.05 eng5.txt 3325 26112 28350 -8.5 28945 -10.8 18431 29.4 spasi=0.16 e=0.09 t=0.07 o=0.07 a=0.06 eng6.txt 3210 25258 27967 -10.7 28290 -12.0 18101 28.3 spasi=0.16 e=0.08 a=0.07 o=0.07 t=0.07 eng7.txt 3085 24165 26798 -10.8 27040 -11.8 17341 28.2 spasi=0.16 t=0.08 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI e=0.08 a=0.08 o=0.06 eng8.txt 3060 23834 26495 -11.1 26706 -12.0 17156 28.0 spasi=0.16 e=0.1 t=0.07 a=0.06 o=0.06 eng9.txt 3328 25860 30949 -19.6 31045 -20.0 19719 23.7 spasi=0.15 e=0.1 a=0.06 o=0.06 t=0.06 eng10.txt 3253 25275 28717 -13.6 28857 -14.1 18527 26.6 spasi=0.16 e=0.1 a=0.08 o=0.05 t=0.06 Tabel 5.7 Hasil pengujian jumlah bit data bahasa Inggris Seperti pada data bahasa Indonesia, penulis juga menghitung peluang kemunculan 5 karakter terbanyak pada data bahasa Inggris : Karakter 5 terbanyak Rata-rata peluang dalam 10 sample data spasi 0.15 + 0.17 + 0.16 + 0.17 + 0.16 + 0.16 + 0.16 + 0.16 + 0.15 + 0.16 10 0.16 e 0.08 + 0.1 + 0.11 + 0.1 + 0.09 + 0.08 + 0.08 + 0.1 + 0.1 + 0.1 10 0.10 a 0.07 + 0.06 + 0.07 + 0.07 + 0.06 + 0.07 + 0.08 + 0.06 + 0.06 + 0.08 10 0.07 t 0.06 + 0.06 + 0.07 + 0.06 + 0.07 + 0.07 + 0.08 + 0.07 + 0.06 + 0.06 10 0.07 o 0.06 + 0.05 + 0.05 + 0.05 + 0.07 + 0.07 + 0.06 + 0.06 + 0.06 + 0.06 10 0.06 Tabel 5.8 Peluang karakter terbanyak data bahasa Inggris Dari data bahasa Inggris tersebut, karakter terbanyak adalah ‘spasi’ dengan peluang 0.16 yang mempunyai selisih cukup jauh dengan karakter terbanyak kedua. Rata-rata rasio kompresi Huffman Modifikasi untuk data bahasa Inggris yaitu 27.11. Beberapa hasil dari Huffman Statis dan Huffman Dinamis memiliki rasio kompresi bernilai negatif. Semakin variatif karakter yang muncul, akan memperkecil rasio kompresi yang dihasilkan, baik oleh algoritma Huffman Statik, maupun pada algoritma Huffman Dinamis [ ] . Di dalam data bahasa Indonesia dan Inggris, selain terdapat karakter huruf, juga terdapat karakter seperti tanda baca, tanda ekspresi dan lain-lain yang menyebabkan hasil rasio menjadi negatif. 6 BAB VI PENUTUP Bab akhir tulisan ini berisikan tentang kesimpulan dan saran. Kesimpulan berisi tentang hal-hal yang berkaitan hasil pengujian ketiga algoritma. Saran akan