Dalil Shannon Mengenai Lossless Source Coding

D. Third-Order Model. Misalkan P k j,i adalah probabilitas berkondisi yang berlaku untuk karakter saat ini dan merupakan karakter ke-k dalam alphabet yang didapat dari karakter sebelumnya yaitu huruf ke-j dan satu karakter sebelum huruf ke-i. Entropy rate untuk model tersebut adalah: H= ∑ � � ∑ � �|� � �=1 ∑ � �|�,� � �=1 ��� 2 � �|�,� � �=1 bitschar ............................... 2.6 Dengan menggunakan third-order distribution, entropy rate dari teks Inggris dengan model di atas adalah 2,77 bitscharacter. B. General Model. Misalkan B n merepresentasikan karakter n pertama. Entropy rate dalam kasus yang umum dinyatakan dengan persamaan berikut ini: H = lim �→∞ 1 � ∑ �� � ��� 2 �� � bitschar ......................................... 2.7 Dimana seluruh jumlah dari semua m n merupakan kemungkinan nilai dari B n . Adalah tidak mungkin untuk menghitung entropy rate menurut persamaan di atas. Dengan menghitung metoda prediksi, Shannon mampu memperkirakan entropy rate dari ke-27 teks Inggris adalah 2,3 bitscharacter. Hanya terdapat satu entropy rate untuk suatu sumber yang diberikan. Semua definisi di atas untuk entropy rate saling bersesuaian satu sama lainnya.

2.7.4 Dalil Shannon Mengenai Lossless Source Coding

Dalil Shannon mengenai Lossless Source Coding berdasarkan pada konsep dari block coding. Untuk mengilustrasikan konsep tersebut, diperkenalkan suatu sumber informasi khusus dimana suatu alphabet terdiri atas hanya dua huruf: A = {a,b} Di sini, huruf ‘a’ dan ‘b’ sama-sama mempunyai kemungkinan untuk muncul. Bagaimanapun juga, misalkan ‘a’ muncul dalam karakter sebelumnya, probabilitas ‘a’ untuk muncul lagi dalam karakter saat ini adalah 0,9. Sama halnya dengan ‘b’ muncul sebagai karakter sebelumnya, probabilitas ‘b’ akan muncul sekali lagi sebagai karakter saat ini adalah 0,9. Ini dikenal sebagai Binary Symmetric Markov Source. Suatu urutan block code ke-n merupakan suatu pemetaan yang ditetapkan untuk tiap blok dari karakter berurutan n dalam suatu untaian bit dengan panjang yang beragam. Contoh berikut mengilustrasikan konsep ini: Universitas Sumatera Utara 1. First-Order Block Code. Tiap karakter dipetakan sebagai suatu bit tunggal. B 1 PB 1 Codeword a 0.5 b 0.5 1 R =1 bitcharacter Contoh: Original Data : a a a a a a a b b b b b b b b b b b b b a a a a Compressed Data : 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 Sebagai catatan 24 bit dipakai untuk merepresentasi 24 karakter − rata-rata 1 bit karakter. 2. Second-Order Block Code. Tiap pasangan karakter dipetakan dengan satu, dua, atau tiga bit. B 2 PB 2 Codeword aa 0.45 0 bb 0.45 10 ab 0.05 110 ba 0.05 111 R=0.825 bitscharacter Contoh: Original Data : a a a a a a a b b b b b b b b b b b b b a a a a Compressed Data : 0 0 0 110 10 10 10 10 10 10 10 10 Sebagai catatan 20 bit dipakai untuk merepresentasi 24 karakter − rata-rata 0,83 bit karakter. 3. Third-Order Block Code. Triplet dari karakter dipetakan dengan satu urutan bit dengan panjang mulai dari satu hingga enam. Universitas Sumatera Utara B 3 PB 3 Codeword aaa 0.405 0 bbb 0.405 10 aab 0.045 1100 abb 0.045 1101 bba 0.045 1110 baa 0.045 11110 aba 0.005 111110 bab 0.005 111111 R=0.68 bitscharacter Contoh: Original Data : aaa aaa abb bbb bbb bbb bba aaa Compressed Data : 0 0 0 110 10 10 1110 0 Sebagai catatan 17 bit dipakai untuk merepresentasi 24 karakter − rata -rata 0,71 bit karakter. Dengan catatan: A. Nilai tingkat yang ditunjukkan pada tabel dikalkulasi dengan persamaan: R = 1 � ∑ �� � � � � bitssampel ........................................................... 2.8 dimana lBn adalah panjang dari codeword untuk block B n . B. Semakin tinggi urutan, maka semakin rendah laju berarti semakin baik kompresinya. C. Kode yang dipakai sebagai contoh di atas merupakan kode Huffman. D. Code Table yang ditampilkan merupakan data terkompresi yang diturunkan dari data asli. Semua contoh yang ditampilkan merupakan lossless. Dalil: Misalkan R n adalah laju untuk urutan ke-n dari kode kompresi data lossless yang optimal dalam bit karakter. Maka: Universitas Sumatera Utara - ∑ 1 � ∑ � � � ��� 2 �� � ≤ � ∗ � − 1 � ∑ � � � ��� 2 �� � + 1 � ......... 2.9 Dikarenakan baik upper dan lower bound dari R n mendekati entropy rate. H maka n menuju ketakterhinggaan, maka: lim �→∞ � � ∗ = H. .................................................................................................. 2.10 Jadi, dalil ditetapkan bahwa entropy rate adalah laju untuk kode kompresi data lossless optimal. Limit yang berada sepanjang sumber diistilah sebagai stationary.

2.7.5 Perbedaan Antara