2.10 Pengertian Audio Digital - Analisis Perbandingan Zero Compresion Dengan Difference Coding Pada Kompresi File Audio

BAB 2 LANDASAN TEORI Sebelum melakukan penelitian, penulis mengumpulkan informasi berupa teori-teori

  yang berkenaan atau yang relevan dengan objek penelitian yaitu kompresi file audio berformat Wav serta algoritma kompresi yang digunakan. Adapun teori-teori yang menyangkut penelitian ini adalah sebagai berikut.

2.10 Pengertian Audio Digital

  Suara yang kita dengar sehari-hari adalah merupakan gelombang analog. Gelombang ini berasal dari tekanan udara yang ada di sekeliling kita, yang dapat kita dengar dengan bantuan gendang telinga. Gendang telinga ini bergetar, dan getaran ini dikirim dan diterjemahkan menjadi informasi suara yang dikirimkan ke otak, sehingga kita dapat mendengarkan suara. Suara yang kita hasilkan sewaktu berbicara berbentuk tekanan suara yang dihasilkan oleh pita suara. Pita suara ini akan bergetar, dan getaran ini menyebabkan perubahan tekanan udara, sehingga kita dapat mengeluarkan suara (Binanto,2010).

  Komputer hanya mampu mengenal sinyal dalam bentuk digital. Bentuk digital yang dimaksud adalah tegangan yang diterjemahkan dalam angka “0” dan “1”, yang juga disebut dengan istilah “bit”. Tegangan ini berkisar 5 volt bagi angka “1” dan mendekati 0 volt bagi angka “0”. Dengan kecepatan perhitungan yang dimiliki komputer, komputer mampu melihat angka “0” dan “1” ini menjadi kumpulan bit-bit dan menerjemahkan kumpulan bit-bit tersebut menjadi sebuah informasi yang bernilai.

  Bagaimana caranya memasukkan suara analog ini sehingga dapat dimanipulasi oleh peralatan elektronik yang ada? Alat yang diperlukan untuk melakukan ini adalah

  

transducer . Dalam hal ini, transducer adalah istilah untuk menyebut sebuah peralatan

  yang dapat mengubah tekanan udara (yang kita dengar sebagai suara) ke dalam tegangan elektrik yang dapat dimengerti oleh perangkat elektronik, serta sebaliknya.

  Contoh transducer adalah mikrofon dan speaker. Mikrofon dapat mengubah tekanan udara menjadi tegangan elektrik, sementara speaker melakukan pekerjaan sebaliknya.

  Anda merekam suara atau musik ke dalam komputer, sound card akan mengubah gelombang suara (bisa dari mikrofon atau stereo set) menjadi data digital, dan ketika suara itu dimainkan kembali, sound card akan mengubah data digital menjadi suara yang kita dengar (melalui speaker), dalam hal ini gelombang analog. Proses pengubahan gelombang suara menjadi data digital ini dinamakan Analog-to-Digital

  

Conversion (ADC), dan kebalikannya, pengubahan data digital menjadi gelombang

suara dinamakan Digital-to-Analog Conversion (DAC).

  Proses pengubahan dari tegangan analog ke data digital ini terdiri atas beberapa tahap yang ditunjukkan pada Gambar 2.1, yaitu:

  1. Membatasi frekuensi sinyal yang akan diproses dengan Low Pass Filter.

  2. Mencuplik sinyal analog ini (melakukan sampling) menjadi beberapa potongan waktu.

  3. Cuplikan-cuplikan ini diberi nilai eksak, dan nilai ini diberikan dalam bentuk data digital .

Gambar 2.1 Konversi Sinyal Analog ke Digital (Binanto, 2010)

  Proses sebaliknya, yaitu pengubahan dari data digital menjadi tegangan analog juga terdiri atas beberapa tahap, yang ditunjukkan pada gambar 2.2, yaitu:

  1. Menghitung data digital menjadi amplitudo-amplitudo analog.

  2. Menyambung amplitudo analog ini menjadi sinyal analog.

  3. Memfilter keluaran dengan Low Pass Filter sehingga bentuk gelombang keluaran menjadi lebih mulus.

Gambar 2.2 Konversi Sinyal Digital ke Analog (Binanto, 2010)

  Proses pengubahan sinyal analog menjadi digital harus memenuhi sebuah kriteria, yaitu kriteria Nyquist. Kriteria ini mengatakan bahwa untuk mencuplik sebuah sinyal yang memiliki frekuensi X Hertz, maka harus mencupliknya minimal dua kali lebih rapat, atau 2X Hertz. Jika tidak, sinyal tidak akan dapat dikembalikan ke dalam bentuk semula.

2.11 Kelebihan Audio Digital

  Kelebihan audio digital adalah kualitas reproduksi yang sempurna. Kualitas reproduksi yang sempurna yang dimaksud adalah kemampuannya untuk menggandakan sinyal audio secara berulang-ulang tanpa mengalami penurunan kualitas suara.

  Kelebihan lain dari audio digital adalah ketahanan terhadap noise (sinyal yang tidak diinginkan). Pada saat transmisi data dan pemrosesan dengan komponen- komponen elektrik, pada sinyal analog sangat mudah sekali terjadi gangguan- gangguan berupa noise. Suara desis pada kaset rekaman merupakan salah satu contoh terjadinya noise berupa gangguan pada frekuensi tinggi.

  Audio digital akan mempermudah pemrosesan sinyal, karena proses-proses

  pengolahan sinyal digital dapat dilakukan dengan menggunakan operasi-operasi matematis yang diimplementasikan dalam bentuk digital signal processor atau melalui software. Operasi-operasi tersebut antara lain meliputi mixing, filtering,

  

volume control, equalizing, noise reduction , high frequency rebirth, DC offset

correction, pengaturan tempo, penambahan efek dan sebagainya.

2.12 Istilah dalam Audio Digital

  Dalam dunia audio digital, ada beberapa istilah yaitu channel (jumlah kanal), satu sample), bit rate (laju bit) (Dangarwala, 2010).

  2.12.1 Channel (Jumlah Kanal)

  Jumlah kanal menentukan banyaknya kanal audio yang digunakan. Audio satu kanal dikenal dengan mono, sedangkan audio dua kanal dikenal dengan stereo. Saat ini untuk audio digital standar, biasanya digunakan dua kanal, yaitu kanal kiri dan kanal kanan. Audio untuk penggunaan theater digital menggunakan lebih banyak kanal. Ada yang menggunakan tiga kanal, yaitu 2 kanal depan dan surround. Ada yang menggunakan 6 kanal (dikenal dengan format audio 5.1) yaitu terdiri dari 2 kanal depan dan 2 kanal surround, 1 kanal tengah dan 1 kanal subwoofer. Bahkan ada yang menggunakan 8 kanal (format audio 7.1) yaitu terdiri dari 2 kanal depan dan 2 kanal

  

surround , 1 kanal tengah dan 1 kanal subwoofer dan ditambah 2 buah speaker EX

(Environmental Extended) untuk menghasilkan suara dari belakang.

  2.12.2 Sampling Rate (Laju Pencuplikan)

  Ketika sound card mengubah audio menjadi data digital, sound card akan memecah suara tadi menurut nilai menjadi potongan-potongan sinyal dengan nilai tertentu. Proses sinyal ini bisa terjadi ribuan kali dalam satuan waktu. Banyak pemotongan dalam satu satuan waktu ini dinamakan sampling rate (laju pencuplikan). Satuan

  sampling rate yang biasa digunakan adalah KHz (kilo Hertz) (Binanto, 2010).

  Kerapatan laju pencuplikan ini menentukan kualitas sinyal analog yang akan diubah menjadi data digital. Makin rapat laju pencuplikan ini, kualitas suara yang dihasilkan akan makin mendekati suara aslinya. Sebagai contoh, lagu yang disimpan dalam Compact Disc Audio (CDA) memiliki sampling rate 44.1 KHz, yang berarti lagu ini dicuplik sebanyak 44100 kali dalam satu detik untuk memastikan kualitas suara yang hampir sama persis dengan aslinya.

Tabel 2.1 Frekuensi Sampling dan Kualitas Suara yang Dihasilkan

  Sampling Rate (KHZ) Aplikasi

  8 Telepon 11,025 Radio AM

  16 Kompromi antara 11,025 dan 22,025 KHz 22,025 Mendekati Radio FM 32,075 Lebih baik dari Radio FM

  44,1 Compact Disc Audio (CDA)

  48 Digital Audio Tape (DAT)

  Sampling rate yang umumnya digunakan antara lain 8 KHz, 11 KHz, 16 KHz,

  22 KHz, 24 KHz, 44 KHz, 88 KHz. Makin tinggi sampling rate, semakin baik kualitas audio. Teori Nyquist menyatakan bahwa sampling rate yang diperlukan minimal 2 kali bandwidth sinyal. Hal ini berkaitan dengan kemampuan untuk merekonstruksi ulang sinyal audio.

  2.12.3 Bandwidth

Bandwitdth adalah selisih antara frekuensi tertinggi dan frekuensi terendah yang akan

  diolah. Misalnya sinyal audio pada telepon yang digunakan untuk menyampaikan sinyal dengan frekuensi 300 – 3400 Hz (ucapan manusia), berarti bandwidth-nya adalah 3100 Hz (3400 dikurangi 300). Maka sampling rate minimum yang diperlukan adalah 2 kali yaitu 6,2 KHz. Demikian pula dengan frekuensi suara secara umum, frekuensi yang dapat didengar manusia adalah 20 – 20.000 Hz, dengan bandwidth 19.980. Berarti sampling rate minimum yang digunakan adalah 39.960 Hz. Jadi frekuensi sampling yang mencukupi adalah 44.100 Hz.

  2.12.4 Bit Per Sample (Banyaknya Bit Dalam Satu Sampel)

Bit per sample menyatakan seberapa banyak bit yang diperlukan untuk menyatakan

  hasil sample tersebut, hal ini berkaitan dengan proses kuantisasi. Bit rate yang digunakan adalah 8 bit per sample atau 16 bit per sample. Proses kuantisasi akan mengubah amplitudo sinyal audio menjadi suatu level sinyal tertentu. Dengan 8 bit

  

per sample akan ada 256 level pilihan sedangkan 16 bit per sample akan ada 65.536

level pilihan. Makin tinggi bit per sample makin teliti proses kuantisasi. Dalam contoh ini, penggunaan 16 bit per sample dibandingkan penggunaan 8 bit per sample akan mempertinggi ketelitian kualitas kuantisasi sebanyak 256 kali.

  Istilah bit rate merupakan gabungan dari istilah sampling rate dan bit per sample. Bit

  8 1 192.000 24.000 1,44 MB 24 kHz 8 2 348.000 48.000 2,88 MB 24 kHz

  Audio sekualitas CD Audio menggunakan sampling rate 44,1 kHz, 16 bit per

sample , 2 kanal. Total media yang diperlukan untuk menyimpan data audio ini

  16 2 1.411.200 176.400 10,584 MB

  16 1 705.600 88.200 5,292 MB 44.1 kHz

  8 2 705.600 88.200 5,292 MB 44.1 kHz

  8 1 352.800 44.100 2,646 MB 44.1 kHz

  44.1 kHz

  16 1 348.000 48.000 2,88 MB 24 kHz 16 2 768.000 96.000 5,76 MB

  16 1 192.000 24.000 1,44 MB 12 kHz 16 2 348.000 48.000 2,88 MB 24 kHz

  

rate menyatakan banyaknya bit yang diperlukan untuk menyimpan audio selama satu

  8 1 96.000 12.000 720 KB 12 kHz 8 2 192.000 24.000 1,44 MB 12 kHz

  12 kHz

  Byte rate per menit

  Sampling rate Bit per sample Jumlah kanal Bit rate Byte rate (1 byte = 8 bit)

Tabel 2.2 Tabel Penyimpanan Berbagai Konfigurasi Audio DigitalTabel 2.2 di bawah ini

  detik, satuannya adalah bit per detik. Bit rate (dengan satuan bit per detik) diperoleh dengan rumus yang sederhana yaitu perkalian antara jumlah kanal, sampling rate (dengan satuan Hertz) dan bit per sample (dengan satuan bit).Seperti dapat dilihat di

  perdetik adalah 176.400 byte, untuk durasi 1 menit diperlukan 10,584 MB. Jika rata- rata durasi satu lagu selama 5 menit, maka dibutuhkan tempat lebih dari 50 MB untuk menyimpan data audio lagu tersebut jika diasumsikan 1 KB = 1.000 byte dan 1 MB = 1.000 KB = 1.000.000 byte.

  Salah satu tipe data multimedia adalah audio yang berupa suara ataupun bunyi, data

  

audio sendiri telah mengalami perkembangan yang cukup pesat seiring dengan

  semakin umumnya orang dengan perangkat multimedia. Tentunya yang merupakan syarat utama supaya komputer mampu menjalankan tipe data tersebut adalah adanya

  

speaker yang merupakan output untuk suara yang dihasilkan dan untuk menghasilkan

  maupun mengolah data suara yang lebih kompleks seperti *.WAV, *.MIDI tersebut tentunya sudah diperlukan perangkat yang lebih canggih lagi yaitu sound card.

  Tipe dari pelayanan audio memerlukan format yang berbeda untuk informasi

  

audio dan teknologi yang berbeda untuk menghasilkan suara. Windows menawarkan

  beberapa tipe dari pelayanan audio : 1.

  Pelayanan audio Waveform menyediakan playback dan recording untuk perangkat keras digital audio. Waveform digunakan untuk menghasilkan non- musikal audio seperti efek suara dan suara narasi. Audio ini mempunyai keperluan penyimpanan yang sedang dan keperluan untuk tingkat transfer paling kecil yaitu 11 K/detik.

  2. Midi Audio, menyediakan pelayanan file MIDI dan MIDI playback melalui

  synthesizer internal maupun eksternal dan perekaman MIDI. MIDI digunakan

  untuk aplikasi yang berhubungan dengan musik seperti komposisi musik dan program MIDI sequencer. Karena memerlukan tempat penyimpanan lebih kecil dan tingkat transfer yang lebih kecil daripada Waveform audio, maka sering digunakan untuk keperluan background.

  3. Compact Disc Audio (CDA) menyediakan pelayanan untuk playback informasi Red Book Audio dalam CD dengan drive CD-ROM pada komputer multimedia.

  CD menawarkan kualitas suara tertinggi, namun juga memerlukan daya penyimpanan yang paling besar pula, sekitar 176 KB/detik.

  4. Wave Audio merupakan kreasi perusahaan raksasa perangkat lunak Microsoft yang berasal dari standar RIFF (Resource Interchange File Format). Wave audio ini telah menjadi standar format file audio komputer dari suara sistem dan

  games sampai CD Audio. File Wave diidentifikasikan dengan nama yang

  berekstensi *.WAV. Format asli dari tipe file tersebut sebenarnya berasal dari

2.14 Struktur File Wave

  Aplikasi multimedia seperti diketahui memerlukan manajemen penyimpanan dari sejumlah jenis data yang bervariasi, termasuk bitmap, data audio, data video, informasi mengenai kontrol device periperal. Rule Interchange File Format (RIFF) menyediakan suatu cara untuk menyimpan semua jenis data tersebut (Dangarwala, 2010). Tipe data pada sebuah file RIFF dapat diketahui dari ekstensi filenya. Sebagai contoh jenis-jenis file yang disimpan dalam bentuk format RIFF adalah sebagai berikut: 1.

  Audio/visual interleaved data (.AVI) 2. Waveform data (.WAV) 3. Bitmapped data (.RDI) 4. MIDI information (.RMI) 5. Color palette (.PAL) 6. Multimedia Movie (.RMN) 7. Animated cursor (.ANI)

  Pada saat ini, file *.AVI merupakan satu-satunya jenis file RIFF yang telah secara penuh diimplementasikan menggunakan spesifikasi RIFF. Meskipun file

  • .WAV juga menggunakan spesifikasi RIFF, karena struktur file *.WAV ini begitu sederhana maka banyak perusahaan lain yang mengembangkan spesifikasi dan standar mereka masing-masing.

  Format file WAVE seperti yang diketahui, merupakan bagian dari spesifikasi RIFF Microsoft yang digunakan sebagai penyimpan data digital audio. Format file ini merupakan salah satu format file audio pada PC. Seiring dengan popularitas Windows maka banyak aplikasi yang mendukung format file ini. Karena bekerja pada lingkungan Windows yang menggunakan prosesor Intel, maka format data dari file WAVE disimpan dalam format urutan little-endian (least significant byte) dan sebagian dalam urutan big-endian.

  File WAVE menggunakan struktur standar RIFF yang mengelompokkan isi

file (sampel format, sampel digital audio, dan lain sebagainya) menjadi “chunk” yang

  terpisah, setiap bagian mempunyai header dan byte data masing-masing. Header

  

chunck menetapkan jenis dan ukuran dari byte data chunk. Dengan metoda

  pengaturan seperti ini maka program yang tidak mengenali jenis chunk yang khusus dapat dengan mudah melewati bagian chunk ini dan melanjutkan langkah memproses

  

chunk yang dikenalnya. Jenis chunk tertentu mungkin terdiri atas sub-chunk. Sebagai

  contoh, pada gambar 2.3 dapat dilihat chunk “fmt ” dan “data” sebenarnya merupakan sub-chunk dari chunk “RIFF”.

  Chunk pada file RIFF merupakan suatu string yang harus diatur untuk tiap

  kata. Ini berarti ukuran total dari chunk harus merupakan kelipatan dari 2 byte (seperti 2, 4, 6, 8 dan seterusnya). Jika suatu chunk terdiri atas jumlah byte yang ganjil maka harus dilakukan penambahan byte (extra padding byte) dengan menambahkan sebuah nilai nol pada byte data terakhir. Extra padding byte ini tidak ikut dihitung pada ukuran chunk. Oleh karena itu sebuah program harus selalu melakukan pengaturan kata untuk menentukan ukuran nilai dari header sebuah chunk untuk mengkalkulasi offset dari chunk berikutnya. Layout file wave dapat dilihat seperti pada Gambar 2.3.

Gambar 2.3 Layout File Wave (Dangarwala,2010)

  2.14.1 Header File Wave

Header file Wave mengikuti struktur format file RIFF standar. Delapan byte pertama

  dalam file adalah header chunk RIFF standar yang mempunyai chunk ID “RIFF” dan ukuran chunk didapat dengan mengurangkan ukuran file dengan 8 byte yang digunakan sebagai header. Empat byte data yaitu kata “RIFF” menunjukkan bahwa

  

file tersebut merupakan file RIFF. File Wave selalu menggunakan kata “WAVE”

  untuk membedakannya dengan jenis file RIFF lainnya sekaligus digunakan untuk mendefinisikan bahwa file tersebut merupakan file audio waveform (Dangarwala,2010). Seperti terlihat pada Tabel 2.3.

Tabel 2.3 Nilai Jenis Chunk RIFF

  Offset Ukuran Deskripsi Nilai 0x00 4 Chunk ID "RIFF" (0x52494646) 0x04 4 Ukuran Data Chunk (ukuran file) – 8 0x08 4 Jenis RIFF "WAVE" (0x57415645) 0x10 Chunk WAVE

  2.14.2 Chunk File WAVE

  Ada beberapa jenis chunk untuk menyatakan file Wave. Kebanyakan file Wave hanya terdiri atas 2 buah chunk, yaitu Chunk Format dan Chunk Data. Dua jenis chunk ini diperlukan untuk menggambarkan format dari sampel digital audio. Meskipun tidak diperlukan untuk spesifikasi file Wave yang resmi, lebih baik menempatkan Chunk

  

Format sebelum Chunk Data. Kebanyakan program membaca chunk tersebut dengan

  urutan di atas dan jauh lebih mudah dilakukan streaming digital audio dari sumber yang membacanya secara lambat dan linear seperti Internet. Jika Chunk Format lebih dulu ditempatkan sebelum Chunk Data maka semua data dan format harus di-stream terlebih dahulu sebelum dilakukan playback (Dangarwala, 2010). Seperti terlihat pada Tabel 2.4.

Tabel 2.4 Format Chunk RIFF

  Offset Ukuran (byte) Deskripsi 0x00 4 Chunk ID 0x04 4 Ukuran Data Chunk 0x08 Byte Data Chunk

2.14.3 Chunk Format

  dan cara untuk dimainkan kembali, termasuk jenis kompresi yang digunakan, jumlah kanal, laju pencuplikan (sampling rate), jumlah bit tiap sampel dan atribut lainnya.

  

Chunk format ini ditandai dengan chunnk ID “fmt“ (Kadhim, 2012). Seperti dapat kita

lihat Tabel 2.5.

Tabel 2.5 Nilai-Nilai Chunk Format File Wave (Kadhim, 2012)

  Offset Ukuran Deskripsi Nilai

  0x00

  4 Chunk ID "fmt " (0x666D7420) 0x04

  

Chunk format terdiri atas informasi tentang bagaimana suatu data waveform disimpan

  2 Kode Kompresi 1 - 65,535 0x0a

  2 Jumlah Kanal 1 - 65,535 0x0c

  4 Laju Pencuplikan 1 - 0xFFFFFFFF 0x10

  4 Jumlah rata-rata byte tiap detik 1 - 0xFFFFFFFF 0x14

  2 Block align 1 - 65,535 0x16

  2 Bit Significant tiap sampel 2 - 65,535 0x18

  2 Extra format bytes 0 - 65,535 0x1a Extra format bytes

  4 Ukuran Data Chunk 16 + extra format bytes 0x08

  A. Chunk ID dan Ukuran Data Chunk ID selalu ditandai dengan kata “fmt “ (0x666D7420) dan ukurannya

  sebesar data format Wave (16 byte) ditambah dengan extra format byte yang diperlukan untuk format Wave khusus, jika tidak terdiri atas data PCM tidak terkompresi. Sebagai catatan string chunk ID ini selalu diakhir dengan karakter spasi (0x20). Chunk ID “fmt “ digunakan sebagai informasi file Wave, informasi ini berupa: Compression Code, Number of Channels, Sample Rate, Average Bytes per Second, Block Align, Significant Bits per Sample, Extra Format Bytes.

  B. Compression Code

  Setelah chunk ID dan ukuran data chunk maka bagian pertama dari format data

  file Wave menyatakan jenis kompresi yang digunakan pada data Wave. Seperti terlihat pada Table 2.6.

Tabel 2.6 Compression Code Wave (Gunawan, 2005)

  Kode Deskripsi

  0 (0x0000) Tidak Diketahui 1 (0x0001) PCM / Tidak Terkompresi 2 (0x0002) Microsoft ADPCM 6 (0x0006)

  ITU G.711 a-law 7 (0x0007)

  ITU G.711 µ-law 17 (0x0011)

  IMA ADPCM 20 (0x0016)

  ITU G.723 ADPCM (Yamaha) 49 (0x0031) GSM 6.10 64 (0x0040)

  ITU G.721 ADPCM 80 (0x0050) MPEG 65,536 (0xFFFF) Tahap Uji Coba

  C. Number of Channels

  Jumlah kanal menyatakan berapa banyak signal audio terpisah yang di-encode dalam chunk data Wave. Nilai 1 (satu) berarti merupakan signal mono, nilai 2 (dua) berarti signal stereo dan seterusnya.

  D. Sampling Rate

  Menyatakan jumlah potongan sampel tiap detik. Nilai ini tidak dipengaruhi oleh jumlah kanal.

  Nilai ini mengindikasikan berapa besar byte data Wave harus di-stream ke konverter D/A (Digital Audio) tiap detik sewaktu suatu file Wave dimainkan. Informasi ini berguna ketika terjadi pengecekan apakah data dapat di-stream cukup cepat dari suatu sumber agar sewaktu playback pembacaan data tidak terhenti. Nilai ini dapat dihitung dengan menggunakan rumus di bawah ini:

  .................................................................. (2.1)

  AvgBytesPerSec = SampleRate * BlockAlign

  F. Block Align

  Menyatakan jumlah byte tiap potongan sampel. Nilai ini tidak dipengaruhi oleh jumlah kanal dan dapat dikalkulasi dengan rumus di bawah ini:

  BlockAlign = SignificantBitsPerSample / 8 * NumChannels

  .................... (2.2)

  G. Significant Bits Per Sample

  Nilai ini menyatakan jumlah bit yang digunakan untuk mendefinisikan tiap sampel. Nilai ini biasanya berupa 8, 16, 24 atau 32 (merupakan kelipatan 8). Jika jumlah bit tidak merupakan kelipatan 8 maka jumlah byte yang digunakan tiap sampel akan dibulatkan ke ukuran byte paling dekat dan byte yang tidak digunakan akan diset 0 (nol) dan diabaikan.

  H. Extra Format Byte

  Nilai ini menyatakan berapa banyak format byte tambahan. Nilai ini tidak ada jika kode kompresi adalah 0 (file PCM yang tidak terkompresi). Jika terdapat suatu nilai pada bagian ini maka ini digunakan untuk menentukan jenis file Wave yang memiliki kompresi dan ini memberikan informasi mengenai jenis kompresi apa yang diperlukan untuk men-decode data Wave. Jika nilai ini tidak dilakukan word

  aligned (merupakan kelipatan 2), penambahan byte (padding) pada bagian akhir data ini harus dilakukan.

2.14.4 Chunk Data

  

Chunk ini ditandai dengan adanya string “data”. Chunk Data pada file Wave terdiri

  kompresi atau format biasa yang dinyatakan dalam chunk format Wave. Jika kode kompresinya adalah 1 (jenis PCM tidak terkompresi), maka “Data Wave terdiri atas nilai sampel mentah (raw sample value).Seperti terlihat pada Tabel 2.7.

Tabel 2.7 Format Data Chunk (Gunawan,2005)

  Offset Ukuran Tipe Deskripsi Nilai

  0x00 4 char[4] chunk ID "data" (0x64617461) Tergantung pada panjang sampel dan

  0x04 4 dword Ukuran chunk jenis kompresi 0x08 Sampel data

  Sampel digital audio multi-channel disimpan dalam bentuk data wave . File wave multi-channel (seperti stereo dan surround) disimpan dengan

  Interlaced

  mensiklus tiap kanal sampel audio sebelum melakukan pembacaan lagi untuk tiap waktu cuplik berikutnya. Dengan cara seperti ini maka file audio tersebut dapat dimainkan atau di-stream tanpa harus membaca seluruh isi file. Lebih praktis dengan cara seperti ini ketika sebuah file wave dengan ukuran yang besar dimainkan dari disk (mungkin tidak dapat dimuat seluruhnya ke dalam memori) atau ketika melakukan streaming sebuah file wave melalui jaringan internet.

  Seperti dikemukan di atas, semua chunk pada RIFF (termasuk chunk Wave “data”) harus di-word align. Jika data sampel menggunakan byte angka ganjil, maka dilakukan penambahan sebuah byte dengan nilai nol yang ditempatkan pada bagian akhir sampel data. Ukuran Header chunk “data” tidak termasuk byte ini.

2.14.5 Format Wave PCM

  Jenis format Wave ini merupakan jenis file Wave yang paling umum dan hampir

  

wave yang tidak terkompresi, akibatnya ukuran file sangat besar jika file mempunyai

  durasi yang panjang. Berikut ini diagram (Gambar 2.4) yang menggambarkan format file Wave PCM. (Kadhim,2012).

Gambar 2.4 Diagram Format File Wave (Kadhim,2012). Berikut ini penjelasan mengenai struktur file Wave yang dimulai dengan header RIFF: Seperti terlihat pada Tabel 2.8.

  Offset Size Nama Field Deskripsi

  4 ChunkID Terdiri atas kata “RIFF” dalam bentuk ASCII (0x52494646 dalam bentuk big-endian).

  4

  4 Chunksize 36 + SubChunk2Size atau lebih tepatnya: 4 + (8 + SubChunk1Size) + (8 + SubChunk2Size).

  Ini adalah besar seluruh file dalam byte dikurangi 8

  byte untuk 2 field yang tidak termasuk dalam

  hitungan: ChunkID dan ChunkSize

  8

  4 Format Terdiri atas kata “WAVE” (0x57415645 dalam bentuk big-endian).

  12

  4 SubChunk1ID Terdiri atas kata “fmt “ (0x666d7420 dalam bentuk big-endian ).

  16 4 SubChunk1Size 16 untuk jenis PCM.

  20

  2 AudioFormat PCM = 1 (Linear quantization). Nilai lebih dari 1 mengindikasikan file Wave kompresi.

  22

  2 NumChannels Mono = 1, Stereo = 2 dan seterusnya

  24

  4 SampleRate 8000, 44100, dan seterusnya dalam satuan Hz

  28

  4 ByteRate = SampleRate * NumChannels * BitsPerSample / 8

  32

  2 BlockAlign = NumChannels * BitsPerSample / 8 Jumlah byte untuk satu sampel termasuk semua channel .

  34 2 BitsPerSample 8 bits = 8, 16 bits = 16, dan seterusnya.

  36

  4 SubChunk2ID Terdiri atas kata “data” (0x64617461 dalam bentuk big-endian ).

  40

  4 SubChunk2Size = NumSamples * NumChannels * BitsPerSample / 8

  • 44 Data Data Sound sebenarnya.
Keterangan: Format “WAVE” terdiri atas 2 buah SubChunk2: “fmt ” dan “data”.

  SubChunk “fmt “ menggambarkan format data sound. SubChunk “data” terdiri atas ukuran besar data dan data sound

  Sebagai contoh, berikut ini merupakan 72 byte pertama dari sebuah file Wave 24 17 1e f3 3c 13 3c 14 16 f9 18 f9 34 e7 23 a6 3c f2 24 f2 11 ce 1a 0d 22 56 00 00 88 58 01 00 04 00 10 00 64 61 74 61 00 08 00 00 00 00 00 00 52 49 46 46 24 08 00 00 57 41 56 45 66 6d 74 20 10 00 00 00 01 00 02 00 yang ditampilkan dalam heksadesimal: Berikut ini (Gambar 2.5) interpretasi dari tiap byte pada file Wave di atas:

Gambar 2.5 Interpretasi tiap Byte pada File Wave (Gunawan, 2005)

  Selain bentuk standar dari file Wave di atas, seperti yang dikemukakan sebelumnya file Wave dapat ditambahkan chunk-chunk lain. Penambahan ini tidak berpengaruh sebab suatu program yang membaca file Wave jika tidak memerlukan informasi pada chunk ini akan mengabaikannya dan mencari chunk lain yang diperlukannya. Sebagai contoh berikut ini ditampilkan suatu tabel sebuah file Wave dengan penambah chunk “rgad”.Seperti terlihat pada table dibawah ini

Tabel 2.9 Penambahan Chunk Lain Pada File Wave(Gunawan,2010)

  44 AC 00

  10 B1 02

  4 ASCII 56 size 176400

  52 Data name "data" 64 61 74 61

  2 uInt16 50 nAudiophileRgAdjust 18999 37 4A 2 uInt16

  4 ASCII 40 size 8 08 00 00 00 4 uInt32 44 fPeakAmplitude 1 00 00 80 3F 4 float32 48 nRadioRgAdjust 10822 46 2A

  36 Rgad name "rgad" 72 67 61 64

  16 10 00 2 uInt16

  00 4 uInt32 32 nBlockAlign 4 04 00 2 uInt16 34 nBitsPerSample

  10 B1 02

  00 4 uInt32 28 nAvgBytesPerSec 176400

  16 Size 16 10 00 00 00 4 uInt32 20 wFormatTag 1 01 00 2 uInt16 22 nChannels 2 02 00 2 uInt16 24 nSamplesPerSec 44100

  Start Byte

  4 ASCII

  20

  12 Fmt Name "fmt " 66 6D 74

  4 ASCII

  8 WAVE Name "WAVE" 57 41 56 45

  00 4 uInt32

  3C B1 02

  4 Size 176444

  4 ASCII

  RIFF Name "RIFF" 52 49 46 46

  Chunk Chunk Field Name contents contents (HEX) bytes Format

  00 4 uInt32 60 waveform data ..... ..... 176400 Int16

2.15 Hubungan Multimedia dengan Aplikasi Windows

  Arsitektur dari pelayanan multimedia dirancang berdasarkan konsep dari extensibilitas

  

multimedia dapat diasumsikan bahwa multimedia merupakan suatu wadah atau

  penyatuan beberapa media menjadi satu. Elemen-elemen dalam pembentukan aplikasi

  

multimedia adalah teks, gambar, suara dan video. Untuk itu ekstensibilitas

  memungkinkan arsitektur perangkat lunak dengan mudah mengakomodasikan lebih canggih dalam teknologi tanpa perubahan pada arsitektur itu sendiri (Santi,2010).

  Kebebasan alat memungkinkan aplikasi multimedia menjadi lebih mudah dikembangkan yang akan berjalan pada perangkat keras yang berbeda-beda. 3 (tiga) elemen desain dari perangkat lunak sistem mendukung ekstensibilitas dan kebebasan alat yaitu:

  1. Lapisan translasi (MMSystem) yang mengisolasikan aplikasi dari driver peralatan dan memusatkan pada kode kebebasan alat.

  2. Hubungan run-time yang memungkinkan lapisan translasi untuk menghubungkan dengan driver yang dibutuhkan.

  3. Suatu bentuk yang diatur sesuai dan driver konsisten interface yang meminimalkan kode khusus dan membuat instalasi dan meningkatkan proses menjadi lebih mudah.

  Untuk lebih jelasnya maka digambarkan bagaimana lapisan translasi menterjemahkan sebuah fungsi multimedia menjadi panggilan kepada driver alat

  audio : Level Aplikasi Level Translasi

  Level Device Driver

Gambar 2.6 Lapisan-Lapisan Multimedia dengan Windows

2.7 Kompresi Data

  Kompresi data dilakukan untuk mereduksi ukuran data atau file. Dengan melakukan dapat mengurangi waktu transmisi sewaktu data dikirim dan tidak banyak menghabiskan ruang media penyimpan (Nadarajan, 2008).

2.7.1 Teori Kompresi Data

  Dalam makalahnya di tahun 1948, “A Mathematical Theory of Communication”, Claude E. Shannon merumuskan teori kompresi data. Shannon membuktikan adanya batas dasar (fundamental limit) pada kompresi data jenis lossless. Batas ini, disebut dengan entropy rate dan dinyatakan dengan simbol H. Nilai eksak dari H bergantung pada informasi data sumber, lebih terperinci lagi, tergantung pada statistikal alami dari data sumber. Adalah mungkin untuk mengkompresi data sumber dalam suatu bentuk

  

lossless , dengan laju kompresi (compression rate) mendekati H. Perhitungan secara

matematis memungkinkan ini dilakukan lebih baik dari nilai H (Adhitama, 2009).

  Shannon juga mengembangkan teori mengenai kompresi data lossy. Ini lebih dikenal sebagai rate-distortion theory. Pada kompresi data lossy, proses dekompresi data tidak menghasilkan data yang sama persis dengan data aslinya. Selain itu, jumlah

  

distorsi atau nilai D dapat ditoleransi. Shannon menunjukkan bahwa, untuk data

  sumber (dengan semua properti statistikal yang diketahui) dengan memberikan pengukuran distorsi, terdapat sebuah fungsi R(D) yang disebut dengan rate-distortion

  

function . Pada teori ini dikemukakan jika D bersifat toleransi terhadap jumlah distorsi,

maka R(D) adalah kemungkinan terbaik dari laju kompresi (Dangarwala, 2010).

  Ketika kompresi lossless (berarti tidak terdapat distorsi atau D = 0), kemungkinan laju kompresi terbaik adalah R(0) = H (untuk sumber alphabet yang terbatas). Dengan kata lain, laju kompresi terbaik yang mungkin adalah entropy rate. Dalam pengertian ini, teori rate-distortion adalah suatu penyamarataan dari teori kompresi data lossless, dimana dimulai dari tidak ada distorsi (D = 0) hingga terdapat beberapa distorsi (D > 0).

  Teori kompresi data lossless dan teori rate-distortion dikenal secara kolektif sebagai teori pengkodean sumber (source coding theory). Teori pengkodean sumber menyatakan batas fundamental pada unjuk kerja dari seluruh algoritma kompresi data. mengimplementasikan algoritma tersebut. Bagaimana pun juga algoritma tersebut menyediakan beberapa petunjuk dan panduan untuk memperoleh unjuk kerja yang optimal. Dalam bagian ini, akan dijelaskan bagaimana Shannon membuat model dari sumber informasi dalam istilah yang disebut dengan proses acak (random process). Di bagian selanjutnya akan dijelaskan mengenai teorema pengkodean sumber lossless Shannon, dan teori Shannon mengenai rate-distortion. Latar belakang mengenai teori probabilitas diperlukan untuk menjelaskan teori tersebut.

2.7.2 Pemodelan Sumber (Source Modeling)

  Pada umumnya perpustakaan mempunyai pilihan buku-buku yang banyak, misalnya terdapat 100 juta buku dalam perpustakaan tersebut. Tiap buku dalam perpustakaan ini sangat tebal, sebagai contoh tiap buku mempunyai 100 juta karakter (atau huruf). Ketika anda pergi ke perpustakaan tersebut, mengambil sebuah buku secara acak dan meminjamnya. Buku yang dipilih tersebut merupakan informasi sumber yang akan dikompresi. Buku yang terkompresi tersebut disimpan pada zip disk untuk dibawa pulang, atau ditransmisi secara langsung melalui internet ke rumah anda ataupun bagaimana kasusnya.

  Secara matematis buku yang dipilih tersebut didenotasikan sebagai:

  X = (X 1 , X

2 , X

3 , X 4 , …)

  Dimana X merepresentasikan seluruh buku, dan X

  1 merepresentasikan karakter pertama dari buku tersebut, X merepresentasikan karakter kedua, dan seterusnya.

2 Meskipun pada kenyataannya panjang karakter dalam buku tersebut terbatas, secara

  matematis diasumsikan mempunyai panjang karakter yang tidak terbatas. Alasannya adalah buku tersebut terlalu tebal dan dapat dibayangkan jumlah karakternya terlalu banyak. Untuk menyederhanakan hal tersebut, misalkan diasumsi semua karakter dalam buku tersebut terdiri atas huruf kecil (‘a’ hingga ‘z’) atau SPACE. Sumber alphabet misalkan A didefinisikan merupakan kumpulan dari 27 kemungkinan nilai dari tiap karakter:

  A={a, b, c, d, e, f, g, h, i, j, k, l, m, n, o, p, q, r, s, t, u, v, w, x, y, z, SPACE} sangat sulit baginya untuk mengetahui buku yang mana yang akan dipilih. Orang tersebut hanya mengetahui bahwa seseorang akan memilih sebuah buku dari perpustakaan tersebut. Dengan cara pandangnya, karakter-karakter dalam buku merupakan (Xi, i = 1, 2 , …) merupakan variabel acak yang diambil dari nilai alphabet A. Keseluruhan buku, X merupakan urutan tak berhingga dari variabel acak, makanya X merupakan suatu proses acak. Ada beberapa cara untuk menyatakan model statistik dari buku tersebut:

  A.

  Zero-Order Model. Tiap karakter distatistik secara bebas dari semua karakter dan 27 kemungkinan nilai dalam alphabet A dinyatakan sama seperti yang muncul. Jika model tersebut akurat, maka cara tipikal untuk membuka sebuah buku adalah seperti berikut (Dangarwala, 2010)

   rxkhrjffjuj zlpwcfwkcyj ffjeyvkcqsghyd qpaamkbzaacibzlhjqd

  B. First-Order Model. Dalam bahasa Inggris diketahui beberapa huruf muncul lebih sering dibandingkan huruf yang lain. sebagai contoh, huruf ‘a’ dan ‘e’ lebih umum daripada huruf ‘q’ dan ‘z’. Jadi dalam model ini karakter masih secara bebas terhadap satu sama lain, tetapi distribusi probabilitas dari karakter-karakter tersebut menurut distribusi statistikal urutan pertama dari teks bahasa Inggris. Teks yang secara tipikal dari model ini berbentuk seperti ini:

  ocroh hli rgwr nmielwis eu ll nbnesebya th eei alhenhttpa oobttva nah brl

  C. Second-Order Model. Dua model sebelumnya diasumsi menurut statistik secara bebas dari satu karakter hingga karakter berikutnya. Ini tidak begitu akurat dibandingkan dengan bahasa alami Inggris. Sebagai contoh, beberapa huruf dalam kalimat tersebut hilang. Bagaimanapun juga, kita masih dapat menerka huruf-huruf tersebut dengan mencarinya pada konteks kalimat. Ini mengimplikasikan beberapa ketergantungan antara karakter-karakter. Secara alami, karakter yang saling berhubungan dekat lebih saling bergantung daripada karakter yang berhubungan jauh satu sama lainnya. Pada model ini, karakter yang ada X i bergantung pada karakter sebelumnya X i , tetapi secara

  −1

  kondisional tidak bergantung dengan semua karakter (X

  1 , X 2 , …, X i ).

  −2

  karakter sebelumnya X i . Sebagai contoh, huruf ‘u’ jarang muncul

  −1

  (probabilitas = 0.022). Bagaimanapun juga, jika dinyatakan karakter sebelumnya adalah ‘q’ maka probabilitas dari ‘u’ dalam karakter berikutnya lebih tinggi (probabilitas = 0.995). Teks tipikal untuk model ini terlihat seperti berikut:

  on ie antsoutinys are t inctore st be s deamy achin d ilonasive tucoowe at

teasonare fuso tizin andy tobe seace ctisbe

D. Third-Order Model. Ini merupakan pengembangan model sebelumnya.

  Berikut ini merupakan karakter X i yang bergantung pada dua karakter

  , X

  sebelumnya (X i i ) tetapi secara kondisional tidak bergantung pada semua

  −2 −1

  karakter sebelumnya sebelum: (X

  1 , X 2 ,…, X i ). Pada model ini, distribusi dari −3 X i beragam menurut (X i , X i ). Teks tipikal dari model ini seperti bentuk

  −2 −1

  berikut ini:

  in no ist lat whey cratict froure birs grocid pondenome of demonstures of the reptagin is regoactiona of cre

  Penyusunan kembali menjadi teks Inggris asli akan memudahkan tiap teks di atas dapat dibaca.

  E. General Model. Pada model ini, buku X merupakan proses acak seimbang yang berubah-ubah. Properti statistikal pada model seperti ini terlalu kompleks untuk dipertimbangkan sebagai tujuan praktikal. Model ini disukai hanya dalam sudut pandang teoritikal saja.

  Model A di atas merupakan kasus khusus dari model B. Model B merupakan kasus spesial dari Model C. Model C merupakan kasus spesial dari model D. Model D merupakan kasus spesial dari model E.

2.7.3 Entropi Rate Dari Suatu Sumber

  

Entropy rate dari suatu sumber adalah suatu bilangan yang bergantung hanya pada

  tersebut dapat dengan mudah dikalkulasi. Berikut ini, contoh dari sumber yang berubah-ubah: X = (X

  1 , X

2 , X

3 , X 4 , ...),

  Dimana X merupakan teks dalam bahasa Inggris. Maka model statistik sumber di atas adalah sebagai berikut: A. Zero-Order Model. Karakter-karakter secara statistik bersifat bebas untuk setiap alphabet A dan secara bersamaan muncul. Misalkan m merupakan ukuran dari alphabet. Dalam kasus ini, entropy rate dapat dinyatakan dengan persamaan:

  H = log 2 m bits/char ..................................................................................... (2.3)

  Untuk teks dalam bahasa Inggris, ukuran alphabet m = 27. Jadi, jika ini merupakan model akurat untuk teks dalam bahasa Inggris, maka entropy rate akan bernilai H = log 2 27 = 4,75 bits/character.

  B. First-Order Model. Karakter-karakter secara statistik bersifat bebas. Misalkan

  m adalah ukuran dari alphabet dan misalkan P i merupakan probabilitas dari huruf ke-i dalam alphabet.

  Entropy rate nya adalah: H= bits/char .............................. (2.4)

  ∑

  2 =1

  Dengan menggunakan first-order distribution, entropy rate dari teks Inggris sebesar 4,07 bits/character.

  A. j adalah probabilitas yang berkondisi untuk

  i

  Second-Order Model. Misalkan P karakter yang berlaku saat ini dan merupakan huruf ke-j dalam alphabet yang merupakan karakter sebelumnya yaitu huruf ke-i. maka entropy ratenya adalah:

  = bits/char ................................................... (2.5)

  H

  ∑ ∑

  =1 =1 | 2 |

  Dengan menggunakan second-order distribution, entropy rate dengan model di atas adalah 3,36 bits/character. D. Third-Order Model. Misalkan P k adalah probabilitas berkondisi yang

  

j,i

  berlaku untuk karakter saat ini dan merupakan karakter ke-k dalam alphabet yang didapat dari karakter sebelumnya yaitu huruf ke-j dan satu karakter sebelum huruf ke-i. Entropy rate untuk model tersebut adalah:

  H = bits/char ............................... (2.6)

  ∑ ∑ ∑

  =1 =1 | =1 | , 2 | ,

  Dengan menggunakan third-order distribution, entropy rate dari teks Inggris dengan model di atas adalah 2,77 bits/character.

  B. merepresentasikan karakter n pertama. Entropy

  n

  General Model. Misalkan B

  

rate dalam kasus yang umum dinyatakan dengan persamaan berikut ini:

  1 H = lim bits/char ......................................... (2.7)

  ∑ ( ) ( )

  →∞

  2 n Dimana seluruh jumlah dari semua m merupakan kemungkinan nilai dari B n .