ANALISA DAN SIMULASI TEKNIK PENGKODEAN SUARA CELP (CODE EXCITED LINEAR PREDICTIVE CODING) DENGAN PEMROGRAMAN MATLAB
ANALISA DAN SIMULASI TEKNIK PENGKODEAN SUARA CELP (CODEBOOK EXCITED LINEAR PREDICTION) DENGAN
PEMROGRAMAN MATLAB (Skripsi)
Oleh
EDY KURNIAWAN
FAKULTAS TEKNIK UNIVERSITAS LAMPUNG
BANDAR LAMPUNG 2010
(2)
ANALISA DAN SIMULASI TEKNIK PENGKODEAN SUARA CELP (CODEBOOK EXCITED LINEAR PREDICTION) DENGAN
PEMROGRAMAN MATLAB (Skripsi)
Oleh
EDY KURNIAWAN Skripsi
Sebagai salah satu syarat untuk mencapai gelar SARJANA TEKNIK
Pada
Jurusan Teknik Elektro
Fakultas Teknik Universitas Lampung
FAKULTAS TEKNIK UNIVERSITAS LAMPUNG
BANDAR LAMPUNG 2010
(3)
ABSTRAK
ANALISA DAN SIMULASI TEKNIK PENGKODEAN SUARA CELP(CODEEXCITED LINEAR PREDICTIVE CODING)
DENGAN PEMROGRAMAN MATLAB
Oleh
EDY KURNIAWAN
Keterbatasan bandwidth sebagai kanal komunikasi bergerak menjadi salah satu persoalan yang dihadapi oleh para penyelenggara jasa telekomunikasi. Kapasitas kanal yang terbatas mendorong untuk terus melakukan efisiensi di semua bagian pada sistem komunikasi. Komunikasi suara pada lebar pita 4 kHz pada format PCM 8-bit menyebabkan kanal harus menyediakan lebar pita 64 kbps untuk dapat mengirimkan informasi yang dapat ditangkap sesuai dengan aslinya.
Teknik pengkodean CELP (Codebook Excited Linear Prediction) adalah salah satu teknik pengkodean sinyal suara yang dapat mengkodekan sinyal suara dengan
bit rate yang rendah sehingga dapat menghemat kanal komunikasi. Pada penelitian ini telah disimulasikan teknik pengkodean CELP dengan bit rate 9,5 kbps. Dimulai dengan pengambilan sampel suara melalui proses perekaman, mensimulasikan denganEncoder danDecodersampai dengan pengambilan suara hasil keluaran CELP. Sinyal yang didapatkan akan dihitung MSE (Mean Square Error) dan SNR (Signal to Noise Ratio) untuk mengetahui rata-rata kesalahannya.
Sinyal hasil keluaran CELP memiliki amplitudo yang kecil dibandingkan dengan suara aslinya, namun bentuk sinyalvoice, unvoiceddansilenceakan tetap terlihat nyaris sama dengan sinyal aslinya. Sehingga dapat meminimalisasi energi sinyal wicara yang dikirimkan. Sinyal keluaran yang dihasilkan dari teknik pengkodean CELP memiliki nilai MSE yang mendekati nol sehingga nyaris tidak ada kesalahan.
(4)
ABSTRACT
ANALYSIS AND SIMULATION OF VOICE ENCODING TECHNIQUE OF CELP ( CODE EXCITED LINEAR PREDICTIVE CODING)
BY MATLAB PROGRAMMING
By
EDY KURNIAWAN
Limitation of bandwidth as mobile communication channel become one of problem faced by the telecommunications service organizers. Limited channel capacity motivated them to always does efficiency in all parts at communications system. Voice communications at bandwidth 4 kHz at format PCM 8-bit causes the channel must provide bandwidth 64 kbps to be able to send information which can be received as according to the original signal.
Encoding technique of CELP (Codebook Excited Linear Prediction) is one of encoding technique of voice signal which can decode voice signal with low bit rate so it can economize communication channel. At this research has been simulation encoding technique of CELP with bit rate 9.5 kbps. It is started with voice sampling through recording process, Encoder and Decoder simulation up to retrieval of voice result of output CELP. Signal got will calculated MSE (Mean Square Error) and SNR (Signal to Noise Ratio) to know average of the error. The output signal of CELP has small amplitude compared to the original voice, but form of signal voice, unvoiced and silence would still seen almost equal to the original signal. So it can minimized speech signal energy sent. Output signal from encoding technique of CELP has value MSE closing zero so that almost there is no error.
(5)
Judul Skripsi :ANALISA DAN SIMULASI TEKNIK
PENGKODEAN SUARA CELP (CODEBOOK EXCITED LINEAR PREDICTION) DENGAN PEMROGRAMAN MATLAB
Nama Mahasiswa :EDY KURNIAWAN
No. Pokok Mahasiswa : 0515031046
Jurusan : Teknik Elektro
Fakultas : Teknik
MENYETUJUI 1. Komisi Pembimbing
Pembimbing Pendamping Pembimbing Utama
Sofiati Augustine, S.T., M.T Herlinawati, S.T., M.T. NIP.19720807 199903 2 001 NIP.19710314 199903 2 001
2. Ketua Jurusan,
Ir. Abdul Haris, M.T. NIP.19630801 199603 1 001
(6)
MENGESAHKAN
1. Tim Penguji
Ketua :Herlinawati, S.T., M.T. ………....
Sekretaris :Sofiati Augustine, S.T., M.T. ………
Penguji Utama :F.X Arinto Setyawan, S.T., M.T. ...
2. Dekan Fakultas Teknik Universitas Lampung
Dr. Lusmeilia Afriani, DEA. NIP. 19650510 199303 2 008
(7)
RIWAYAT HIDUP PENULIS
Penulis dilahirkan di Bungur, Tanjung Tirto, Kecamatan Way Bungur, Kabupaten Lampung Timur, Propinsi Lampung, pada tanggal 19 April 1987, sebagai anak ketiga dari tiga bersaudara, dari Bapak Edy Suwarno dan Ibu Nurjannah.
Penulis memasuki dunia pendidikan Sekolah Dasar (SD) di SD Negeri 2 Tanjung Tirto, Purbolinggo, Lampung Timur, lulus tahun 1999, Sekolah Lanjutan Tingkat Pertama (SLTP) di SLTPN 2 Purbolinggo, Tambah Subur, Lampung Timur, lulus tahun 2002, Sekolah Menengah Atas (SMA) di SMA 1 Purbolinggo, Tanjung Intan, Lampung Timur, lulus tahun 2005.
Tahun 2005, penulis terdaftar sebagai mahasiswa Jurusan Teknik Elektro Fakultas Teknik Universitas Lampung Melalui Jalur SPMB (Seleksi Penerimaan Mahasiswa Baru). Selama menjadi mahasiswa, penulis aktif di Lembaga Kemahasiswaan yang ada di Jurusan Teknik Elektro yaitu Himatro (Himpunan Mahasiswa Teknik Elektro) menjabat sebagai anggota Divisi Mikat (Minat dan Bakat) pada tahun 2006/2007.
Penulis melaksanakan Kerja Praktik (KP) selama 1 bulan yakni 16 Juni sampai 16 Juli 2008 di PT. Sampoerna Telekomunikasi Indonesia Cabang Lampung dan menyelesaikan laporan KP dengan judul: “Fungsi Sistem BSC 6600 Pada Jaringan Telekomunikasi CDMA2000 1x Daerah Gunung Balau Pada PT. Sampoerna Telekomunikasi Indonesia”.
(8)
Ku Persembahkan Untuk :
IBUKUtercinta yang penuh dengan kasih sayang AYAHKUyang selalu jadi sumber inspirasi dalam hidup
KAKAKyang selalu mendukung dan pemberi nasehat yang baik ADIKyang selalu memberi motivasi dan semangat
Rekan-rekan Teknik Elektroatas kerjasamanya yang baik
(9)
Motto :
Memilih reaksi yang memuliakan kehidupan
Memilih reaksi yang memuliakan orang lain
Mengisi pikiran dengan kebaikan untuk orang lain
Mengisi hati dengan sikap mengenai kebaikan untuk orang lain
Semua sikap dilakukan untuk memuliakan kehidupan bagi orang lain
“
Dan Lihat Apa Yang Terjadi...
”
(10)
SANWACANA
Dengan mengucapkan segala puji bagi Allah SWT atas limpahan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan laporan tugas akhir dengan judul: “Analisa dan Simulasi Teknik Pengkodean Suara CELP (Codebook Excited
Linear Prediction) dengan Pemrograman Matlab” yang merupakan salah satu
syarat untuk mencapai gelar Sarjana Teknik pada Jurusan Teknik Elektro Fakultas Teknik Universitas Lampung.
Dalam proses penyelesaian laporan ini penulis melibatkan banyak pihak yang telah membantu, untuk itu dengan segala hormat penulis mengucapkan terima kasih kepada:
1. Ibu Dr. Lusmeilia Afriani, DEA., sebagai Dekan Fakultas Teknik. 2. Bapak Ir. Abdul Haris, M.T., sebagai Ketua Jurusan Teknik Elektro. 3. Ibu Herlinawati, S.T., M.T., sebagai dosen pembimbing utama dalam
menyelesaikan laporan tugas akhir.
4. Ibu Sofiati Augustine, S.T., M.T., sebagai dosen pembimbing pendamping dalam menyelesaikan laporan tugas akhir.
5. Bapak F.X Arinto Setyawan, S.T., M.T., sebagai dosen penguji.
6. Ayahanda dan Ibunda tercinta yang telah memberikan doa dan dukungannya selama ini.
(11)
7. Paman-paman dan Tante-tanteku tersayang yang telah memberikan doa dan dukungannya selama ini.
8. Kakak-kakakku Tolak Hamzah, Siti Soleha, Ikhwan Zainudin, dan Amro Sri Astuti yang telah memberikan doa dan dukungannya.
9. Adik-adikku Ika Putri Ayu, Eva Yulianti yang membuatku semangat dalam mengerjakan tugas akhir ini.
10. Rekan-rekan konsentrasi telekomunikasi dan seluruh rekan-rekan Jurusan Teknik Elektro Universitas Lampung yang telah memberikan dukungan, kritik dan sarannya.
11. Semua pihak yang tidak dapat penulis sebutkan satu persatu yang telah turut membantu penulis dalam menyelesaikan laporan tugas akhir ini.
Penulis menyadari dalam penulisan laporan ini masih jauh dari apa yang diinginkan. Walaupun penulis telah berusaha semaksimal mungkin untuk memberikan yang terbaik, namun karena keterbatasan ilmu yang penulis miliki maka hanya inilah yang dapat penulis berikan. Oleh karena itu, kritik dan saran sangat penulis harapkan demi kebaikan dan kemajuan di masa yang akan datang. Harapan penulis semoga Allah SWT membalas semua kebaikan semua pihak yang telah membantu penulis dan semoga laporan tugas akhir ini dapat bermanfaat serta menambah ilmu pengetahuan bagi yang membacanya.
Bandar Lampung, Juni 2010 Penulis
(12)
DAFTAR ISI
Halaman
LEMBAR JUDUL ... i
LEMBAR PENGESAHAN ... ii
ABSTRAK ... vi
SANWACANA ... vii
DAFTAR ISI ... viii
DAFTAR GAMBAR ... xi
DAFTAR TABEL... xiv
DAFTAR SINGKATAN ... xv
DAFTAR ISTILAH ... xvii
I . PENDAHULUAN A. Latar Belakang Masalah ... 1
B. Tujuan Penelitian ... 3
C. Manfaat Penelitian ... 4
D. Permasalahan ... 4
E. Batasan Masalah ... 5
F. Hipotesa ... 5
G. Sistematika Penulisan ... 6
II. TINJAUAN PUSTAKA A. Pengkodean Sinyal Suara... 7
1. Gambaran Umum ... 7
2. Sinyal Suara Manusia (Sinyal Wicara) ... 8
(13)
2.2. Bentuk Sinyal Wicara dalam Domain Waktu... 11
2.3. Proses Sampling... 12
2.4. Energi Suatu Sinyal ... 14
2.5. Energi Pada Sinyal Wicara ... 16
2.6. Representasi Sinyal Wicara dalam Domain Waktu dan Domain Frekuensi... 19
2.7. Discrete Fourier Transform(DFT) ... 21
3. Filter Pada Sinyal Suara ... 23
3.1. Filter IIR ... 23
3.2. Filter FIR... 24
3.3. Filter Pre-Emphasis ... 26
4. Analisa Sinyal Suara ... 30
4.1. Auto Korelasi Sinyal Wicara ... 30
4.2. AnalisaSpectralSinyal Wicara ... 31
4.3. CepstrumSinyal Wicara ... 34
5. Representasi Sinyal dalam Domain Waktu dan frekuensi ... 36
5.1. Penyajian Daerah Waktu ... 36
5.2. Penyajian Daerah Frekuensi ... 37
B. Codebook Excited Linear Prediction(CELP) ... 38
1. Pengertian CELP... 38
2.CODEBOOK... 42
2.1 Codebookstokastik ... 42
2.2 CodebookAdaptif ... 43
3. Persepsi Kriteria Suara ... 45
4.Perhitungan MSE dan SNR ... 47
III. METODE PENELITIAN A. Metode Penelitian ... 50
B. Waktu dan Tempat ... 50
C. Jadwal Kegiatan ... 51
(14)
E. Tahapan Penelitian ... 52
F. Bagan Alir Penelitian ... 53
G. Algoritma Teknik Pengkodean CELP ... 55
IV. HASIL DAN PEMBAHASAN A. Analisa Teknik Pengkodean CELP... 56
B. Simulasi Teknik pengkodean CELP ... 57
1.CODEBOOK... 59
2.ENCODER ... 63
2.1. DC bias removal ... 63
2.2. Analisa Frame ... 66
2.2.1. Linear Prediction Coefficient... 66
2.2.2. Line Spectral Frequency(LSF) ... 67
2.3. AnalisaSubframe... 69
3.DECODER... 73
3.1. Decoding sub-vektor LSF... 73
3.2. PenyisipanDelaydanGainpada LSF ... 73
3.3. Sintesa Subframe ... 74
3.3.1. PemisahanSubframe... 74
3.3.2. Rekontruksi sinyal wicara... 74
4. Hasil Simulasi ... 75
5. Perhitungan MSE dan SNR ... 87
6. PerhitunganBit Rate... 89
V. SIMPULAN DAN SARAN A. Simpulan ... 90
B. Saran ... 91 DAFTAR PUSTAKA
(15)
DAFTAR GAMBAR
Gambar Halaman
1 Organ wicara manusia ... 8
2 Sederetan impuls dan pitch pada sinyal wicara ... 9
3 Proses produksi suara... 10
4 Contoh sinyal wicara ucapan “Selamat Datang”... 11
5 Blok diagram konversi sinyal kontinyu menjadi sinyal diskrit ... 12
6 Rangkaian Sampling ... 13
7 Blok diagram rangkaian ADC ... 13
8 Contoh sinyal sinus dengan frekuensi 200 Hz... 15
9 Sinyal sinus dalam bentuk energi ... 16
10 Sinyal wicara... 18
11 Segmen sinyal wicara ‘a’ dan window hamming 20ms per frame window... 19
12 Bentukspectrogramdanwaveform“a-i-u-e-o”... 20
13 Blok diagram system Bank Filter Spectrum Analyzer untuk menghitung DFT... 21
14 Spektral Frekuensi kalimat “a-i-u-e-o” ... 22
15 Diagram blok Filter IIR ... 24
(16)
17 Posisi FilterPre-Emphasispada sistem pengolah wicara ... 26
18 Diagram blokpre-emphasisfilter ... 27
19 Respon frekuensi filter pre-emphasis ... 28
20 Sinyal input dan output daripre-emphasisfilter dalam domain waktu ... 29
21 Sinyal input dan output daripre-emphasisfilter dalam domain frekuensi. 30 22 Sinyal wicara dalam bentuk gelombang, dan fungsi auto korelasi ... 31
23 Diagram blok extraksi ciri sinyal wicara ... 31
24 Sinyal wicara dalam domain waktu dan sebagai fungsi sample ke-n ... 33
25 Satu frame sinyal wicara dalam domain waktu ... 33
26 Power spectral density sinyal wicara ... 34
27 Gambaran frekuensi sinyal wicara ”a.wav”... 35
28 Perbandingan nilai psd dan cepstrum sinyal wicara ”a.wav”... 36
29 Perbandingan dari suara voice dan unvoice... 37
30 Block diagram CELP ... 41
31 Prinsip kerja CELP ... 42
32 Bagan alir penelitian ... 54
33 Algoritma Teknik Pengkodean CELP ... 55
34 Format dan propertisinyal suara ‘Telekomunikasi’... 58
35 Sinyal Eksitasi LSF 1 sampai 3 dengan kapasitas sinyal 10 bit ... 60
36 Sinyal Eksitasi LSF 4 sampai 6 dengan kapasitas sinyal 10 bit ... 61
37 Sinyal Eksitasi LSF 7 sampai 10 dengan kapasitas sinyal 10 bit ... 62
38 Sinyal masukan dengan bunyi ‘Bandar Lampung’... 75
39 Sinyal keluaran CELP dengan bunyi ‘Bandar Lampung’... 76
(17)
41 Sinyal masukan dengan bunyi ‘Fakultas Teknik’... 78
42 Sinyal keluaran CELP dengan bunyi ‘Fakultas Teknik’... 79
43 Sinyal error pada bunyi ‘Fakultas Teknik’... 79
44 Sinyal masukan dengan bunyi ‘Teknik Elektro’... 81
45 Sinyal keluaran CELPdengan bunyi ‘Teknik Elektro’... 81
46 Sinyal error pada bunyi ‘Teknik Elektro’... 82
47 Sinyal masukan dengan bunyi ‘Telekomunikasi’... 83
48 Sinyal keluaran CELP dengan bunyi ‘Telekomunikasi’... 83
49 Sinyal error pada bunyi ‘Telekomunikasi’... 84
50 Sinyal masukan dengan bunyi ‘Universitas Lampung’... 85
51 Sinyal keluaran CELP dengan bunyi ‘Universitas Lampung’... 86
(18)
DAFTAR TABEL
Tabel Halaman
1 Jadwal Penelitian ... 51 2 Hasil Perhitungan MSE dan SNR ... 88 3 Alokasi bitsubframeCELP... 89
(19)
DAFTAR SINGKATAN
ACB : Adaptif Codebook yaitu suatu ruang
penyimpanan suara prediksi yang akan di eksitasi dengan sinyal suara yang diolah pada teknik pengkodean suara.
ADC : Analog to Digital Conversion yaitu pengubahan suatu sinyal analog kedalam bentuk digital.
CELP : Codebook Excited Linear Prediction yaitu suatu teknik pengkodean suara yang menggunakan sinyal suara codebook untuk dieksitasi membangkitkan sinyal asli dengan
bit rateyang lebih rendah.
DFT : Discrete Fourier Transform adalah cara mentransformasi sinyal dari domain waktu ke dalam domain frekuensi.
FFT : Fast Fourier Transform adalah cara
mentransformasi sinyal dari domain waktu ke dalam domain frekuensi dengan pengoptimalan proses komputasi.
GLA : General Llyod Algorithma yaitu algoritma pembuatan sinyal eksitasi.
IIR : Infinite Inpulse Responseyaitu filter sinyal suara yang bekerja dengan masukkan berdasarkan keluaran sistem sebelumnya.
LPC : Linear Predction Coding yaitu teknik pengkodean suara dengan acuan suara vocal dan konsonan.
LPF : Low Pass Filter adalah filter yang memfilter suara dengan energi sinyal suara yang relatif rendah.
(20)
LSF : Line Spectral Frequencyadalah Garis spectrum Frekuensi.
MSE : Mean Square Error adalah rata-rata kesalahan pada sinyal suara berdasarkan perbandingan suara asli dan suara hasil pemrosesan sinyal. Semakin mendekati nol suatu nilai MSE maka semakin baik.
PAM : Pulse Amplitude Modulation adalah suatu bentuk dari modulasi sinyal dimana informasi pesan disandikan di dalam amplitudo dari satu rangkaian pulsa sinyal.
PCM : Pulse code modulation adalah penyajian sinyal digital dari sinyal analog yang didapat dari hasil pencuplikan yang dikuantisasi untuk dikodekan kemudian dikirimkan dengan dibawa sinyal carrier mengikuti bentuk sinyal pembawa.
PSD : Power Spectral Density adalah kekuatan spektrum sinyal suara.
STC : sinusoidal transform coding yaitu teknik pengkodean suara dengan transformasi atau perubahan sinyal sinusoidal.
SNR : Signal to Noise Ratioadalah perbandingan atau rasio kekuatan sinyal dengan persentase noise. Semakin besar SNR maka akan semakin baik performansi sistem pengkodean suara tersebut.
(21)
DAFTAR ISTILAH
Bandwidth : Digital bandwidth adalah jumlah atau volume data yang dapat dikirimkan melalui sebuah saluran komunikasi dalam satuanbits per second
tanpa distorsi. Sedangkan analog bandwidth
adalah perbedaan antara frekuensi terendah dengan frekuensi tertinggi dalam sebuah rentang frekuensi yang diukur dalam satuan Hertz (Hz) atau siklus per detik, yang menentukan berapa banyak informasi yang bisa ditransmisikan dalam satu saat.
Bit rate : Pada telekomunikasi dan komputasi, bit rate
adalah banyaknya bit-bit yang disampaikan atau diproses per unit dari waktu.
Cepstrum : Hasil tentang pengambilan Transformasi Fourier (FT) dari spektrum decibel yang seolah-olah adalah suatu sinyal.
Cut off : Suatu batas tanggapan frekuensi sistem di mana merupakan penyaluran langsung energi melalui sistem yang sebelumnya dikurangi (disusutkan atau dibiaskan) dibanding dialirkan.
Decoder : Suatu alat yang berfungsi mengembalikan proses encoding sehingga informasi aslinya bisa diterima. Kebalikan dari decoder adalah
encoder.
Encoder : Sebuah alat yang digunakan untuk mengubah sinyal seperti data atau bitstream ke dalam bentuk yang dapat diterima untuk transmisi data atau penyimpanan data. Umumnya ini dilakukan melalui suatu algoritma tertentu, terutama jika ada bagian yang berupa digital.
(22)
Pitch : Sifat dari nada musik atau suara manusia yang dibentuk karena hubungan frekuensi dan intensitas.
Formant : Formant berarti satu resonansi,yang akustik dan, di dalam ilmu pengetahuan tentang suara dan ilmu fonetik, formant merupakan suatu resonansi dari saluran suara manusia.
Fourier : Transformasi Fourier, dinamakan atas Joseph Fourier, adalah sebuah transformasi integral yang menyatakan-kembali sebuah fungsi dalam fungsi basis sinusioidal, yaitu sebuah fungsi sinusoidal penjumlahan atau integral dikalikan oleh beberapa koefisien ("amplitudo").
Frame : Suatu sistem yang struktural yang mendukung komponen-komponen lain dari suatu konstruksi secara fisik atau panjang total dari slot waktu pentransmisian data.
Hamming : Hamming kode adalah suatu kode pengoreksi kesalahan kode secara linier. Dinamai menurut penciptanya, Richard Hamming. Hamming
kode dapat mendeteksi sampai dengan dua
errorbit secara bersama, dan mengoreksi error
bit tunggal. Dengan demikian, komunikasi yang dapat diandalkan adalah ketika jarak
Hamming antara pola bit yang diterima dan yang dipancarkan adalah kurang dari atau sama denganhammingkode tersebut.
Narrow-band : Suatu situasi di dalam komunikasi radio di mana bandwidth dari pesan itu tidak dengan baik melebihi koheren dari bandwidth saluran itu.
Nyquist rate : Dua kali dari bandwidth suatu sinyal yang lebarnya terbatas atau kanal dengan lebar terbatas.
Pre-emphasis : Suatu proses sistem yang dirancang untuk meningkatkan energy sinyal, di dalam suatu range frekuensi, besaran energi dari sebagian frekuensi (biasanya yang lebih tinggi) daripada frekuensi yang lain untuk memperbaiki SNR dengan pengecilan efek yang tak diinginkan
(23)
dari gejala seperti distorsi, atenuasi atau kejenuhan media perekaman.
Sampling Rate : Banyaknya sampel per detik atau per unit yang diambil dari suatu sinyal yang kontinyu untuk membuat suatu sinyal yang terpisah.
Sliding window : Ukuran “window” atau jumlah frame yang dapat dikirim atau diterima oleh sender dan receiver
Spectral : Suatu garis gelap atau terang di dalam suatu frekuensi seragam dalam bentuk yang berkebalikan bersifat spektrum kontinyu, sebagai hasil satu kelebihan atau kekurangan dari foton-foton di suatu cakupan frekuensi yang sempit, dibandingkan dengan frekuensi yang dekat.
Spectrogram : Suatu gambaran yang menunjukkan bagaimana rapat spektral suatu sinyal bervariasi terhadap waktu.
Teorema Shannon : Memberikan batas atas kapasitas saluran, dalam bit per detik (bps), sebagai fungsi dari
bandwidth yang tersedia dan signal-to-noise ratiodari kanal.
(24)
I. PENDAHULUAN
A. Latar Belakang Masalah
Jumlah kanal yang tersedia untuk komunikasi menjadi semakin terbatas seiring dengan makin pesatnya penggunaan kanal komunikasi. Kapasitas kanal yang terbatas mendorong untuk terus melakukan efisiensi di semua bagian pada sistem komunikasi. Komunikasi suara pada lebar pita 4 kHz pada format PCM 8-bit menyebabkan kanal harus menyediakan lebar pita 64 kbps untuk dapat mengirimkan informasi yang dapat ditangkap sesuai dengan aslinya.
Pada perkembangannya, telah dilakukan upaya untuk melakukan kompresi sinyal suara agar diperoleh laju yang lebih rendah, untuk menghemat penggunaan kanal transmisi. Sinyal suara telah diolah sedemikian rupa sehingga dapat menghilangkan redundansi dan diperoleh informasi yang cukup ringkas untuk ditransmisikan.
Sinyal suara manusia memiliki komponen yang hampir periodik, terutama pada bagian sinyal yang bergetar. Jenis sinyal suara selain yang bergetar ada juga yang memiliki sifat periodik, misalnya sinyal desis. Sinyal suara manusia terdiri atas bagian bergetar yang umumnya dilambangkan dalam bentuk huruf vokal dan bagian yang tidak bergetar yang dilambangkan sebagai konsonan.
(25)
Sinyal bergetar memiliki periode getar tertentu yang disebut sebagai pitch.
Sinyal yang periodik, secara teoritis dapat didekomposisi dalam bentuk sinusoida dengan menggunakan bantuan deretFourier.
Jika ditinjau dari kawasan frekuensi, maka sinyal bergetar memiliki spektra tertentu. Bagian-bagian spektra yang menonjol, yaitu frekuensi-frekuensi yang memiliki nilai amplituda terbesar dibanding sekitarnya disebut sebagai
formant. Pada umumnya, suara manusia memiliki empatformantuntuk daerah
frekuensi dari 0 sampai dengan 4 kHz.
Selain itu terdapat formant yang lebih tinggi untuk frekuensi di atas 4 kHz.
Sinyal tidak bergetar memiliki spektra frekuensi dari nol sampai dengan tak terhingga, seperti spektra sinyal derau. Sinyal ini lebih sulit dianalisis mengingat karakteristiknya yang mirip derau. Berdasarkan karakteristik sinyal suara yang demikian, maka dapat dilakukan pemodelan dengan mengacu pada bentuk sinusoida seperti dilakukan oleh beberapa peneliti.
Dalam pengkodean sinyal suara telah dikenal dengan adanya pengkodean transformasi sinusoidal (STC). Dilain pihak ada model lain yang dikenal sebagai STN (Sines + Transients + Noise). Masing-masing mempunyai
kelebihan dan kekurangannya sendiri. Dengan menggunakan teknik pengkodean CELP dapat dilakukan proses kuantisasi untuk mengkodekan sinyal suara pada laju bit rate yang rendah. Kuantisasi adalah proses untuk
mengelompokkan elemen-elemen yang bernilai kontinyu. Pada proses pengubahan sinyal analog menjadi digital, mula-mula sinyal analog diambil pada selang waktu yang tetap yang disebut juga dengan proses pencuplikan.
(26)
Hasil pencuplikan adalah berupa PAM (Pulse Amplitude Modulation).
Selanjutnya nilai PAM dikelompokkan atau dikuantisasi ke dalam nilai-nilai sinyal digital yang dikenal sebagai PCM (Pulse Code Modulation). Proses
kuantisasi juga dilakukan pada pengolahan sinyal suara, utamanya pada pengkodean sinyal suara.
Pada pengkodean berbasis CELP (Codebook Excited Linear Prediction),
sinyal acak dikelompokkan atau dikuantisasi dalam bentuk buku kode. Buku kode disusun berdasarkan sifat-sifat sinyal yang akan dikelompokkan. Jika sinyal yang akan dikelompokkan bersifat Gaussian seperti halnya pada sinyal kesalahan prediksi dari sinyal suara, maka buku kode harus disusun dengan memperhatikan sifat sinyal acak Gaussian. Pada tulisan ini dipaparkan proses pengkodean suara CELP yang disimulasikan dengan menggunakan Matlab.
B. Tujuan Penelitian
Adapun tujuan penelitian ini yaitu :
• Memahami teknik pengkodean sinyal suara dengan teknik pengkodean CELP (Codebook Exited linier Prediction).
• Membuat simulasi pengkodean CELP dengan menggunakan perangkat lunak.
• Mengetahui perbandingan kualitas suara asli dengan suara hasil pengkodean CELP.
(27)
C. Manfaat Penelitian
Hasil dari penelitian ini diharapkan memberikan manfaat sebagai berikut: 1. Memberikan suatu referensi mengenai penggunaan teknik pengkodean
sinyal suara yang efektif dan efisien padabit raterendah.
2. Mengetahui efektifitas dari kinerja pengiriman sinyal suara yang menghasilkan suara dengan tingkat yang dapat diperbandingkan pada bit rendah untuk suara dari tingkat medium sehingga diperoleh suara keluaran yang hampir sama dengan suara asli.
D. Permasalahan
Pentransmisian sinyal suara digital tidak terlepas dari metode pengkodean sinyal yang mendukung kinerja dari pengiriman sinyal tersebut, metode pengkodean sinyal suara pada umumnya bekerja pada bit rate pada tingkat medium yang tidak terlalu rendah. Sedangkan pada pengkodean suara pada bit rate yang rendah lebih sulit dilakukan karena sinyal asli yang kecil dengan persentase noise yang begitu besar. Bandwidth yang digunakan pada jalur
telekomunikasi memiliki kapasitas yang terbatas yang dibagi pada beberapa kanal untuk dilewatkan data dan suara. Pada komunikasi suara diperlukan kompresi suara untuk memperkecil laju bit dan menghindari pemborosan kanal transmisi. Oleh karena itu diperlukan teknik pengkodean sinyal suara yang dapat bekerja secara efektif pada laju bit rendah yaitu teknik pengkodean sinyal suara CELP (Codebook Excitation Linear Prediction).
(28)
E. Batasan Masalah
Batasan masalah dalam penelitian ini adalah sebagai berikut:
1. Pemrosesan sinyal dilakukan dengan pengkodean CELP.
2. Efektifitas CELP pada pengkodean sinyal suara pada bit rate rendah
sekitar 9,5 kbps dengan frekuensi, 8 kHz dan durasi 4 detik. 3. Suara yang dikodekan memiliki format wav.
4. Pembuatan simulasi dan pengujian kualitas audio asli dan hasil pengkodean CELP dilakukan dengan menggunakan perangkat lunak Matlab.
5. Pengujian dilakukan dengan menghitung nilai MSE (Mean Square Error)
dan SNR (Signal to Noise Rasio) dan membandingkan bentuk sinyal asli
dan keluaran dari simulasi pengkodean CELP.
F. Hipotesa
Pengkodean sinyal suara CELP memiliki kinerja yang cukup baik untuk laju bit yang rendah. Hal ini didasari pada keefektifitasan CELP untuk membangun kode dari sinyal suara frekuensi rendah dengan laju bit rendah. Dimana pada sinyal suara dengan frekuensi yang rendah akan lebih sulit diterjemahkan dalam kode karena memiliki persentase noise yang relatif besar.
(29)
G. Sistematika Penulisan
Dalam rangka penulisan skripsi ini, disusun suatu sistematika penulisan dengan membaginya menjadi beberapa bab. Susunan sistematika tersebut adalah:
BAB I PENDAHULUAN
Dalam bab ini diuraikan tentang latar belakang, tujuan penulisan, manfaat penelitian, permasalahan, batasan masalah, hipotesa dan sistematika penulisan.
BAB II TINJAUAN PUSTAKA
Bab ini membahas teknik pengkodean sinyal suara, karakteristik dan prinsip kerja pengkodean CELP.
BAB III METODE PENELITIAN
Bab ini membahas mengenai bagaimana metode pengerjaan tugas akhir ini dilakukan dan langkah-langkah pengerjaan yang dilakukan.
BAB IV HASIL DAN PEMBAHASAN
Bab ini berisi analisis dan simulasi mengenai pemrosesan sinyal suara menggunakan teknik pengkodean CELP pada sinyal suara dengan laju bit rendah.
BAB VI SIMPULAN DAN SARAN
Bab ini berisi simpulan dan saran yang diperoleh berdasarkan hasil pembahasan.
(30)
II. DASAR TEORI
A. Pengkodean Sinyal Suara 1. Gambaran Umum
Pengkodean sinyal suara adalah suatu bidang penelitian yang banyak diteliti didalam pengolahan sinyal suara sejak adanya telepon - telepon yang koneksinya menggunakan kawat. Banyak teknik - teknik pengkodean suara telah secara menyeluruh diteliti dan dikembangkan, namun ditolak lebih lanjut oleh kemajuan di dalam didunia internet, dan teknologi komunikasi nirkabel. Pengkodean menjadi suatu dasar dari unsur komunikasi-komunikasi digital yang secara terus-menerus menarik perhatian peneliti karena permintaan-permintaan akan jasa telekomunikasi yang meningkat.
Pengkodean suara sudah menjadi suatu keperluan yang pokok karena adanya pembatasanbandwidth pada kebanyakan sistem transmisi sinyal. Pengkodean
suara merupakan suatu penyajian digital sinyal suara dengan kode yaitu menggunakan suatu nomor yang minimum dari bit-bit untuk mencapai kualitas suara yang baik dan tetap memelihara kompleksitas. Pengkodean suara mempunyai dua aplikasi utama yakni transmisi digital dan penyimpanan sinyal suara. Tujuannya untuk memperkecil laju bit namun tetap memelihara
(31)
mutu sinyal suara, atau untuk memperbaiki mutu suara pada suatu laju bit tertentu.
3. Sinyal Suara Manusia (Sinyal Wicara)
3.1. Pembangkitan Sinyal Wicara pada Manusia
Speech (wicara) dihasilkan dari sebuah kerjasama antara lungs
(paru-paru), glottis (dengan vocal cords) dan articulation tract (mouth/mulut
dannose cavity/rongga hidung).
Gambar 1 menunjukkan penampang melintang dari organ wicara manusia. Untuk menghasilkan sebuah voiced sounds (suara ucapan),
paru-paru lungs menekan udara melalui epiglottis, vocal cords bergetar,
menginterupsi udara melalui aliran udara dan menghassilkan sebuah gelombang tekananquasi-periodic.
(32)
Impuls tekanan pada umumnya disebut sebagai pitch impulses dan
frekuensi sinyal tekanan adalah pitch frequency atau fundamental
frequency. Di dalam Gambar 2a sederetan impuls (fungsi tekanan suara)
dihasikan olehvocal cordsuntuk sebuah suara.
Ini merupakan bagian dari sinyal voice (suara) yang mendefinisikan
speech melody (melodi wicara). Ketika kita berbicara dengan sebuah
frekuensi pitch konstan, suara sinyal wicara monotonous tetapi dalam
kasus normal sebuah perubahan permanen pada frekuensi terjadi. Variasi frekuensipitchdapat dilihat seperti pada Gambar 2b.
a. Sederetan impulse yang sama
b. Variasi pada frekuensi pitch
(33)
Impuls pitch merangsang udara di dalam mulut, dan untuk suara tertentu
(nasals) juga merangsang nasal cavity (rongga hidung). Ketika rongga
beresonansi, akan menimbulkan radiasi sebuah gelombang suara yang mana merupakan sinyal wicara. Kedua rongga beraksi sebagai resonators dengan karacteristik frekuensi resonansi masing-masing, yang disebut
formant frequencies. Pada saat rongga mulut dapat mengalami perubahan
besar, kita mampu untuk menghasilkan beragam pola ucapan suara yang berbeda.
Di dalam kasus unvoiced sounds (suara tak terucap), exitasi pada vocal
tract lebih menyerupai noise (derau). Gambar 3 menampilkan proses
produksi suara-suara /a/, dan /f/. Untuk sementara perbedaan bentuk dan posisi pada organarticulationdiabaikan saja.
a) pembangkitan ucapan /a/
b) pembangkitan ucapan /f/
(34)
2.2. Bentuk Sinyal Wicara dalam Domain Waktu
Sinyal wicara merupakan sinyal yang bervariasi lambat sebagai fungsi waktu, dalam hal ini ketika diamati pada durasi yang sangat pendek (5 sampai 100 mili detik) karakteristiknya masih stasioner. Tetapi bilamana diamati dalam durasi yang lebih panjang (>1/5 detik) karakteristik sinyalnya berubah untuk merefleksikan suara ucapan yang keluar dari pembicara [7].
Gambar 4. Contoh sinyal wicara ucapan “Selamat Datang”
Salah satu cara dalam menyajikan sebuah sinyal wicara adalah dengan menampilkannya dalam tiga kondisi dasar, yaitusilence(S) atau keadaan
tenang dimana sinyal wicara tidak diproduksi, unvoice (U) dimanavocal
cord tidak berfibrasi, dan yang ketiga adalah voiced (V) dimana vocal
(35)
kerongkongan melalui mekanisme akustik sampai keluar mulut dan menghasilkan sinyal wicara.
2.3. Proses Sampling
Berikut ini sinyal sinus:
x(t) = A cos(ωt +φ)... (1)
Sinyal tersebut merupakan contoh sinyal waktu kontinyu. Seringkali digunakan terminologi sinyal analog untuk menyebutnya.
Untuk proses komputasi, sinyal waktu kontinyu harus dirubah menjadi bentuk waktu diskrit dan dilanjutkan dengan proses digitalisasi. Untuk memperoleh bentuk sinyal waktu diskrit, sinyal waktu kontinyu harus di-sampel.
Gambar 5.Blok diagram konversi sinyal kontinyu menjadi sinyal diskrit
Sekuen x[n] didapatkan setelah proses perubahan dari continues to
discrete(C-to-D). Kondisi realnya secarahardwareadalah menggunakan
(36)
Gambar 6.Rangkaian Sampling
Rangkaian sampling diatas merupakan sebuah ujung tombak dari sebuah
analog to digital conversion(ADC).
Gambar 7. Blok diagram rangkaian ADC
Persyaratan frekuensi sampling menurut teorema Shannon harus sama
dengan atau melebihi 2 kali frekuensi sinyal yang di sample.
fs > 2xfi ... (2)
Jika sinyal informasi yang menjadi sample memiliki komponen frekuensi beragam, misalnya untuk sinyal wicara memungkinkan untuk memiliki frekuensi dari 20 sampai 4000 Hz, maka sinyal informasi tersebut bisa dituliskan sebagai:
. ... (3)
(37)
fs > 2xfimax ... (4)
Frekuensi sampling seringkali dikatakan dengan terminology sampling
rate, yaitu jumlah sample yang diambil setiap detik, fs=1/Ts yang juga
dikenal sebagaiNyquist rate.
2.4. Energi Suatu Sinyal
Berikut ini sinyal sinus:
x(t) = A cos(2πt +φ) ... (5)
Bentuk persamaan (5) diatas merepresentasikan nilai magnitudo sinyal sebagai fungsi waktu. Di dalam kondisi real seringkali dinyatakan dalam besaran volt. Nilai x(t) dalam parameter yang umum untuk pengukuran dinyatakan dalam V(t) yang menunjukkan nilai simpangan sinyal atau magnitudonya pada suatu waktu t.
(38)
Sedangkan untuk besaran lain dari sinyal dalam hal ini daya dinyatakan sebagai:
... (6)
Dalam hal ini nilai nilai R biasanya dinyatakan sebesar 1 Ω . Dan parameter ini seringkali tidak dituliskan, sehingga persamaan 6 menjadi lebih sederhana.
... (7)
Sedangkan besarnya energi dari suatu sinyal diketahui sebagai total daya pada suatu durasi waktu tertentu. Dengan mengacu pada persamaan (6) yang sudah dimodifikasi, maka dapat dinyatakan sebagai:
... (8)
dan energi rata-rata untuk suatu durasi tertentu T, dinyatakan sebagai
... (9)
Untuk sinyal sinus diatas dalam bentuk energi dapat diberikan seperti gambar 9 berikut ini.
(39)
Gambar 9.Sinyal sinus dalam bentuk energi
2.5. Energi Pada Sinyal Wicara
Untuk pengukuran nilai energi pada sinyal wicara harus melibatkan fungsi window. Hal ini karena dalam pengukuran energi sinyal wicara harus disusun dalam frame-frame tertentu. Ini merupakan standar dalam teknologi speech processing, sebab secara umum dalam pengolahan
sinyal wicara akan berkaitan dengan sinyal dengan durasi yang terlalu panjang bila dihitung dalam total waktu pengukuran. Fenomena ini juga dikenal sebagaishort term speech signal energy.
Untuk menghitung energi sinyal wicara digunakan formulasi dasar seperti berikut:
(40)
... (10)
dimana:
E = Energi Sinyal
V(t) = Nilai Simpangan Sinyal (Magnitudo)
w(t) = Merupakan fungsi window seperti hamming, hanning,
bartlett, danboxcarr.
Panjang window dalam hal ini adalah m, untuk durasi dari t=0 sampai t=T akan didapatkan window sebanyak n=T/m apabila tidak ada
overlappingantara window satu dengan yang lain.
Jika terjadi overlapping antara window satu dengan yang lain, misalnya
sebesar m/2, maka jumlah window dalam satu durasi T adalah sebanyak : n = 1 + T/(m/2).
Untuk suatu pengamatan energi pada frame ke-k bentuk persamaan (10)
menjadi:
... (11)
dimana k akan menentukan posisi titik-titik window pada sinyal tersebut, ini juga dikenal sebagai modelsliding window.
(41)
Gambar 10.Sinyal wicara
Dengan menggunakan model short time measurement dapat digunakan
untuk memilah bagian dari sinyal wicara yang merupakan voiced atau
unvoiced. Sebab pada umumnya unvoiced speech memiliki durasi yang
lebih pendek. Untuk pengukuran sinyal wicara menggunakan window biasanya dipilih panjang window dengan durasi 10 s/d 20 mili detik. Apabila menggunakan frekuensisamplingsebesar 16 KHz, maka nilainya
akan ekuivalen dengan sampel sebanyak 160 sampai 320 sampel setiap
(42)
Gambar 11.Segmen sinyal wicara ‘a’ dan window hamming 20 mili detik per
frame window
2.6. Representasi Sinyal Wicara dalam Domain Waktu dan Domain Frekuensi
Salah satu cara untuk mencirikan sinyal wicara dan mereprensetasikan suaranya adalah melalui representasi spectral. Cara yang paling popular dalam hal ini adalah sound spectrogram yang mana merupakan suatu bentukgray scale imageyang merepresentasikan nilai freukensi sinyal pada waktu tertentu [9].
(43)
Gambar 12. Bentukspectrogramdanwaveform“a-i-u-e-o”
Intensitas spectral pada suatu titik waktu ditunjukkan dengan tingkat
keabuan yang merupakan suatu bentuk analisis frekuensi particular dari sinyal wicara yang sedang diamati. Perhatikan Gambar 12 pada nilai t = 1,5 detik. Tampak bahwa banyak nilai frekuensi muncul pada bagian
spectrogram-nya, ini sesuai dengan tampilan grafik domain waktu yang
menunjukkan simpangan gelombang pada waktu tersebut cukup tinggi dan beragam. Sedangkan pada nilai t = 2,3 detik tampak spectrogram
menunjukkan sedikit sekali warna hitam, yang menunjukkan komponen frekuensi yang muncul sangat sedikit, ini sesuai dengan bentuk gelombang dalam domain waktu yang hampir tidak ada sinyal.
(44)
2.7.Discrete Fourier Transform(DFT)
Salah satu cara mentransformasi sinyal dari domain waktu ke dalam domain frekuensi adalah dengan meggunakandiscrete fourier transform(DFT).
... (12) Persamaan (12) diatas menyatakan bahwa sinyal akan periodik pada setiap nilai N. Implementasi DFT dapat diwujudkan dengan sebuah Bank Filter seperti Gambar 13 berikut ini.
Gambar 13.Blok diagram system Bank Filter Spectrum Analyzer untuk menghitung DFT
(45)
Untuk mengoptimalkan proses komputasi, DFT bias dimodifikasi dengan satu algorithma yang disebut sebagai fast fourier transform (FFT).
Dengan FFT proses komputasi bias direduksi dari N2 menjadi N log2 N. Misalnya dengan menggunakan DFT akan melakukan transformasi sebanyak N=1024 titik, maka diperlukan perkalian sebanyak N2 = 1.048.567. Sedangkan dengan menggunakan FFT perkalian yang diperlukan sebanyak N log2N = 5120 perkalian.
Sebuah contoh hasil penggunakan algorithma FFT untuk system yang lebih komplek adalah untuk mengolah sinyal wicara. Pada gambar 14 ditunjukkan sebuah hasil proses FFT untuk kalimat“a-i-u-e-o”.
(46)
4. Filter Pada Sinyal Suara
3.1. Filter IIR
Infinite inpulse response (IIR) dalam hal ini bukan berarti filter yang
bekerja dari nilai negatif tak hingga sampai positif tak hingga. Pengertian sederhana untuk infinite impulse respon filter disini adalah bahwa output
filter merupakan fungsi dari kondisi input sekarang, input sebelumnya dan output di waktu sebelumnya. Konsep ini kemudian lebih kita kenal sebagairecursive filter, yang mana melibatkan proses feedback dan feed
forward. Dalam bentuk persamaan beda yang menghubungkan input
dengan output dinyatakan seperti persamaaan (13) berikut ini.
... (13)
dimana:
- {bk} koefisienfeed forward
- {al} koefisienfeed back
- banyaknya (total koefisien) = M+N+1 - N ditetapkan sebagai orde filter IIR
Untuk merealisasikan ke dalam sebuah program simulasi atau perangkat keras maka bentuk persamaan diatas dapat disederhanakan ke dalam diagram blok Gambar 15.
(47)
Untuk implementasi sebuah low pass filter bersifat narrow-band
menggunakan sebuah filter IIR merupakan pilihan yang sangat sulit tetapi masih mungkin dilakukan. Satu alasannya adalah penentuan orde yang tepat sehingga menghasilkan bentuk yang tajam pada respon frekuensi relative sulit. Pada domain unit circle bidang-z sering ditandai dengan
letakpole-poleyang ada diluar lingkaran, hal ini secara fisis memberikan
arti bahwa filter yang dihasilkan tidak stabil.
Gambar 15.Diagram blok Filter IIR
3.2. Filter FIR
Sebuah finite impulse respon filter (filter FIR) memiliki hubungan input
dan output dalam domain waktu diskrit sebagai berikut:
(48)
dimana:
-{bk}= koefisienfeed forward
- banyaknya (total koefisien) L = M + 1 - M ditetapkan sebagai orde filter FIR
Dalam realisasi diagram blok akan dapat digambarkan seperti pada Gambar 16 berikut ini,
Gambar 16.Diagram blok FIR Filter
Untuk tujuan simulasi perangkat lunak dapat memanfaatkan fungsi standar berikut ini: B = FIR1(N,Wn)
Ini merupakan sebuah langkah untuk merancang filter digital FIR dengan orde sebesar N, dan frekuensi cut off Wn. Secara default oleh Matlab
ditetapkan bahwa perintah tersebut akan menghasilkan sebuah low pass
(49)
sepanjang (N+1) dan akan disimpan pada vektor B. Karena dalam domain digital, maka nilai frekuensi cut off harus berada dalam rentang
0<Wn<1.0. Nilai 1.0 akan memiliki ekuivalensi dengan nilai 0,5 dari
sampling rate (fs/2).Yang perlu anda ketahui juga adalah bahwa B
merupakan nilai real dan memiliki fase yang linear. Sedangkan gain
ternormalisasi filter pada Wn sebesar -6 dB.
3.3. Filter Pre-Emphasis
Dalam proses pengolahan sinyal wicara pre emphasis filter diperlukan
setelah proses sampling. Tujuan dari pemfilteran ini adalah untuk mendapatkan bentuk spectral frekuensi sinyal wicara yang lebih halus.
Dimana bentuk spectral yang relatif bernilai tinggi untuk daerah rendah
dan cenderung turun secara tajam untuk daerah fekuensi diatas 2000 Hz.
Gambar 17.Posisi FilterPre-Emphasispada sistem pengolah wicara
Filter pre-emphasis didasari oleh hubungan input/output dalam domain
waktu yang dinyatakan dalam persamaan seperti berikut:
(50)
dimanaamerupakan konstanta filterpre-emhasis, biasanya bernilai 0.9 < a < 1.0. Dalam bentuk dasar operator z sebagai unit filter, persamaan diatas akan memberikan sebuah transfer function filter pre-emphasis
seperti berikut.
H(z) = 1
−
az
−1 ... (16)Bentuk ini kemudian akan memberikan dasar pembentukan diagram blok yang menggambarkan hubungan input dan output seperti pada Gambar 18.
Gambar 18.Diagram blokpre-emphasisfilter
Dengan memanfaatan perangkat lunak Matlab akan dengan mudah mendapatkan bentuk respon frekuensi filterpre-empasis.
clear all;
w=0:.01:3.14;
a=0.93;
H=1-a*exp(-j*w);
plot(w/3.14,20*log10(abs(H)),'linewidth',2)
grid
(51)
xlabel('frekuensi ternormalisasi')
ylabel('magnitudo (dB)')
title('Pre-Emphasis filter')
Gambar 19. Respon frekuensi filter pre-emphasis
Dengan nilai a = 0,93 akan mampu melakukan penghalusan spectral
sinyal wicara yang secara umum mengalami penurunsan sebesar 6 dB/octav.
Pengaruh filter ini pada sebuah sinyal wicara dapat memanfaatkan program dibawah ini.
clear all;
fs=10000;[x,fs]=wavread('a.wav');
xx=length(x)+1;x(xx)=0; alpha=0.96;
for i=2:xx
(52)
end
for i=1:xx
y(i) = x(i) - alpha*y0(i); end
subplot(211)
t=1:xx;
plot(t/fs,y);legend('input');grid
xlabel('waktu (dt)'); ylabel('magnitudo');axis([0 0.7 -0.25
0.25]);
subplot(212)
plot(t/fs,y0); legend('output');grid
xlabel('waktu (dt)'); ylabel('magnitudo'); axis([0 0.7 -1
...1.5])
Hasilnya adalah berupa sebuah gambaran bentuk sinyal input dan output dari file sinyal wicara’a.wav’ dalam domain waktu.
Gambar 20.Sinyal input dan output daripre-emphasisfilter dalam domain waktu
(53)
Sedangkan hasil yang didapatkan dalam bentuk domain frekuensi adalah seperti berikut.
Gambar 21.Sinyal input dan output daripre-emphasisfilter dalam domain frekuensi
4. Analisa sinyal suara
4.1. Auto Korelasi Sinyal Wicara
Tujuan melakukan estimasi dalam domain waktu adalah untuk mendapatkan nilai autokorelasi sinyal wicara. Nilai autokorelasi suatu sinyal wicara akan menunjukkan bagaimana bentuk gelombang itu membentuk suatu korelasi pada dirinya sendiri sebagai fungsi perubahan waktu ke waktu. Bentuk-bentuk yang sama atau mirip pada setiap delay
waktu tertentu menunjukkan perulangan bentuk atau periodisitas pola sinyal wicara. Dengan demikian akan dapat dilakukan estimasi nilai frekuensi fundamentalnya [3].
(54)
Gambar 22. Sinyal wicara dalam bentuk gelombang, dan fungsi auto korelasi
4.2. AnalisaSpectralSinyal Wicara
Proses ekstraksi ciri sinyal wicara didasarkan pada sebuah diagram blok yang cukup popular seperti berikut.
Gambar 23.Diagram blok extraksi ciri sinyal wicara.
Dengan mengikuti diagram blok diatas, akan didapatkan langkah-demi langkah ekstraksi ciri. Kemudian pada proses melihat short time fourier
(55)
analisys dari sinyal wicara, atau yang juga kita kenal sebagai power
spectral density (PSD) sebuah sinyal wicara pada durasi atau frame
tertentu. Dengan mengetahui bentuk PSD sinyal wicara kita akan mampu melakukan ekstraksi ciri sinyal wicara tersebut.
Sebelum proses pada gambar diatas dilakukan sebelumnya melihat gambaran sebuah sinyal wicara yang telah disimpan dalam bentuk file “a.wav”. Setelah didapatkan bentuknya dalam domain waktu seperti pada
gambar 24, selanjutnya melihatnya sebagai fungsi dari sampling. Dalam
hal ini bentuk sinyal wicara akan sesuai dengan urutan sampel yang ada. Seperti kita lihat bahwa untuk nilai sampel ke-700 sampai dengan sampel ke-8200, menunjukkan nilai magnitudo sinyal yang relatif stabil.
Selanjutkan dengan melakukan pembentukanframesebuah sinyal wicara
seperti pada gambar 25. Dengan melakukan windowing akan didapatkan bentuk frame sinyal wicara terwindow seperti pada Gambar 25. Sebelumnya harus sudah dipahami proses windowing yang dilakukan.
Dengan dapat diambil satu frame sinyal dari sampel ke-2000 sampai dengan sampel ke 2480. Karena dalam satu frame terbentuk dari:
Sampel/frame = (sample/detik)*(detik/frame) = 8000 * 0,02= 160 sampel/frame
Hal ini dilakukan dengan menetapkan bahwa satu frame sinyal wicara sepanjang 20 ms.
(56)
Gambar 24.Sinyal wicara dalam domain waktu dan sebagai fungsi sample ke-n
Gambar 25.Satu frame sinyal wicara dalam domain waktu
Proses dilanjutkan dengan melakukan transformasi sinyal ke dalam domain frekuensi. Dengan menggunakan FFT dan proses logaritmik akan
(57)
didapatkan nilai power spectral density (PSD) sinyal wicara seperti pada
gambar26.
Gambar 26.Power spectral densitysinyal wicara
4.3.CepstrumSinyal Wicara
Cepstrum (c(τ)) didefinisikan sebagai inverse transformasi Fourier pada short-time nilai logarithmik spektrum amplitudo sebuah sinyal, |X(ω)|.
Jika log amplitudo spectrum tersusun dari banyak spasi harmonik yang teratur, maka analisis Fourier pada spectrum ini akan menunjukkan sebuah puncak yang berhubungan dengan jarak antar harmonisa tersebut, yang juga dikenal sebagai frekuensi fundamental [2].
Dengan melakukan proses mengikuti diagram blok pada Gambar 23, maka proses berkutnya adalah melakukan ifft nilai PSD yang sudah diperoleh. Proses ini menghasilkan sebuah nilai frekuensi dari sinyal wicara.
(58)
Gambar 27.Gambaran frekuensi sinyal wicara ”a.wav”
Langkah ini dilanjutkan dengan lifter window, yaitu proses pengambilan sebagian saja dari nilaifrekuensisinyal wicara yang terdapat pada Gambar
27. Dalam hal ini dapat diambil kuefrensi sinyal 16 sampai 20 nilai pertama yang muncul. Nilai ini sudah cukup representatif untuk mendapatkan ciri dari sinyal wicara.
Yang terakhir adalah melakukan transformasi fourier pada hasil lifter
window yang selanjutnya akan menghasilkan sebuah cepstrumdari sinyal
(59)
Gambar 28.Perbandingan nilai psd dan cepstrum sinyal wicara ”a.wav”
Dari Gambar 28 diatas didapatkan gambaran bentuk cepstrum sinyal
wicara menunjukkan pola yang mirip dengan pola PSD. Disini tampak bahwa bentuk cepstrum merupakan penghalusan dari bentuk PSD sebuah
sinyal wicara.
5.
Representasi Sinyal Dalam Domain Waktu Dan Domain Frekuensi
5.1 Penyajian Daerah Waktu
Analisa sinyal digital gelombang suara yaitu dengan memisahkan suara
voice dan unvoice. Untuk suara yang diucapkan, pembukaan dan
penutupan celah suara mengakibatkan satu rangkaian pulsa yang berhubungan dengan celah suara. Proses eksitasi ini meliputi suatu perilaku periodik, dimana masing-masing siklus opening dan closing
(60)
periode waktu. Suatu dawai pulsa berhubungan dengan celah suara yang berurutan, yang dikenal sebagai pembangkitan pulsa, mengakibatkan suatu bentuk gelombang eksitasi periodik. Satu contoh dari suara yang berisi kata [ dia ] dapat dilihat pada gambar 29 [2].
Gambar29. perbandingan dari suara voice dan unvoice
5.2 Penyajian Daerah Frekuensi
Pada umumnya dapat dipahami bahwa saluran suara menghasilkan sinyal suara berisi semua karakteristik-karakteristik filter [1]. Didalam persepsi suara, telinga manusia secara normal bertindak sebagai suatu bank filter dan menggolongkan isyarat-isyarat yang masuk kedalamnya sebagai komponen-komponen frekuensi yang terpisah. Pada keadaan paralel perilaku dari sistem persepsi suara manusia adalah sinyal suara terpisah yang dapat dianalisa dalam daerah frekuensinya, dimana suara diubah
(61)
menjadi gelombang sinusoidal berdasarkan daerah frekuensi yang berbeda secara serempak. Secara teknis, telinga manusia mampu mendengar sinyal berkisar antara 20 Hz sampai 20 kHz, tergantung pada amplitudonya. Bagaimanapun juga hal itu dikenal sebagai pendengaran paling sensitif untuk frekuensi di sekitar 1 sampai 5 kHz [3]. Karenanya distorsi amplitudo didalam bandwidth-bandwidth frekuensi tinggi lebih sedikit
yang dapat manusia dengar dibandingkan distorsi amplitudo yang sama didalam daerah frekuensi rendah. Karena karakteristik ini, kinerja dari teknik pengkodean CELP tidak hanya semata-mata berdasarkan pada nilai kesalahan rata-rata (MSE). Ukuran MSE yang sesuai persepsi akan dimasukkan untuk mengevaluasi kinerja dari pengkodean berdasar pada kejelasan dan mutu sinyal yang direkonstruksi.
B.Codebook Excited Linear Prediction(CELP) 1. Pengertian CELP
Codebook Excited Linear Prediction (CELP) adalah salah satu teknik
pengkodean yang paling luas digunakan dengan kelas pengkode suara yang didasarkan pada konsep dari LPC (Linear Prediction Coding). Peningkatannya
adalah bahwa pada suatu codebook, sinyal-sinyal eksitasi yang berbeda akan
dipelihara atau dipertahankan di encoder dan decoder. Encoder menemukan
indeks sinyal eksitasi paling cocok dan mengirimkannya kepada decoderyang
kemudian digunakan untuk reproduksi sinyal. Karenanya nama Codebook
(62)
Prinsip kerjanya adalah mendeskripsikan sinyal suara yang menjadi input untuk diubah dalam bentuk bit-bit kode pada encoder, sinyal suara yang
masuk akan dieksitasi, yaitu membangkitkan sinyal pada codebook untuk
memperkecil derau dan noise suara yang akan dikirimkan pada decoder. Laju
bit yang digunakan pun lebih kecil agar dapat menghemat bandwidth pada
kanal transmisi.
Ada banyak varian dari CELP yang digunakan dalam berbagai aplikasi-aplikasi. Low-DelayCELP (LD-CELP) danAlgebraic CELP (ACELP) secara
umum digunakan pada panggilan suara internet. Perbedaan utama di dalam varian-varian ini adalah pembuatan sinyal eksitasi yang digunakan di dalam
dekoder beserta informasi yang lain untuk merekonstruksi sinyal suara.
Perbedaan-perbedaan lain meliputi di dalamnya adalah pengolahan sebelum proses dan sesudah proses untuk menyaring pembentukan sinyal-sinyal asli yang direkonstruksi dan untuk suatu kinerja yang lebih baik. Varian-varian ini bekerja pada bit yang berbeda.
Hal yang pernah dilakukan pada pengembangan pengkodean CELP adalah merancang dan menerapkan suatu pengkodean CELP dengan dasar penerimaan sinyal suara manusia pada frekuensi 8 kHz dan keluaran bit yang dikodekan pada 6,7 kbps. Laju bit keluaran dapat disesuaikan menurut ketentuan saluran dan kualitas suara yang diinginkan. Kode itu dapat juga diberlakukan bagi sinyal suara manusia yang lebih tinggi dibanding 8 kHz sampai 16 kHz tetapi hal itu memerlukan suatu perubahan yang kecil dan seperti yang akan dijelaskan contoh delay untuk ucapan 50 Hz komponen
(63)
frekuensi mengubah dari 160 sample ke 320 sample dengan demikian
panjangnyaframeperlu untuk disesuaikan.
Suatu diagram blok dari pengkodean CELP analisa oleh sintesis ditunjukkan di dalam gambar 30. Pengkodean ini disebut analisa oleh sintesa karena mengkodekan sinyal suara padadecoderdengan menganalisa suara dienkoder
kemudian menemukan parameter-parameter yang memperkecil energi dari sinyal yang tidak dikehendaki. Pertama-tama analisa LP (Linear Prediction)
digunakan untuk memprediksi sistem vokal yang berkenaan dengan tanggapan suara pada setiap frame. Kemudian suara hasil penggabungan di enkoder
dengan menkhususkan filter untuk sistem suara vokal. Perbedaan antara suara yang sintetik dan sinyal suara manusia yang asli menghasilkan suatu perbedaan yang merupakan kesalahan sinyal, yang secara spektral diasumsikan untuk memprioritaskan frekuensi sinyal yang penting dan kemudian diperkecil oleh pengoptimalan sinyal eksitasi. Urutan-urutan eksitasi optimal dihitung dengan empat blok di dalam durasi frame, hal itu dimaksudkan agar eksitasi lebih sering dibaharui dibanding filter sistem suara. Di dalam implementasi durasi frame 20 ms digunakan untuk analisa saluran suara (160 sample satu tingkat sampling 8 kHz) dan 5 ms block durasi (40
(64)
Gambar 30. Block diagram CELP
Keterangan:
a = koefisien linear prediksi
G = penguatan
b = koefisien filter nada
P = delay nada
(65)
Gambar 31. Prinsip kerja CELP
Semua kalkulasi dilakukan atas kondisi awal yang menunjukkan kondisi kosong untuk filter-filter pada permulaan masing-masing subframe. kondisi awal diperhitungkan oleh perhitungan pertama yaitu tidak adanya masukan untuk filter-filter dan kemudian mengurangi perhitungannya dari sinyal suara ujaran yang dimaksudkan sebelum pengulangan pencarian tertutup [4].
2. CODEBOOK
Codebook yang digunakan pada encoderdan decoderharus sama. berikut
ini adalahcodebookyang paling umum digunakan:
2.1 Codebookstokastik
Yang berisi bentuk gelombang gaussian yang acak, mempunyai suatu nilai spektrum dan suatu energi yang dinormalisir. Pada Codebookini
(66)
memiliki ketentuan didalam coder dan didalam decoder yang dikenal
dengan sebuah priori. Tiap code-vektor mengandung 160 sampel.
Codebookstokastik mengandung 1082 nilai acak dengan pengaturan
{-1, 0, +1} dengan probabilitas {0.{-1, 0.8, 0.1}. nilai k memiliki interval 0≤ k ≤ 511 yang membutuhkan 9 bits.
2.2 CodebookAdaptif
Codebook adaptif berisi hasil perubahan dari satu subframe ke
subframe yang lain dan bergantung pada sinyal wicara yang dikodekan. Isi dari codebook ini tidak terlalu diprioritaskan. Tujuan
dari codebook adaptip adalah untuk mengambil perhitungan dari waktu periodik suatu sinyal suara.
Karena bunyi bersuara seperti huruf hidup, vokal merupakan suatu periode waktu dengan suatu L (nada) dengan periode waktu tertentu, hal itu menunjukkan bahwa eksitasi terbaik yang diberikan kepada
subframe harus tertutup bagi eksitasi terbaik L yang diperoleh
sebelumnya. Jika eksitasi-eksitasi yang lampau bertahan dalam
memori, sinyal suara akan dipancarkan kepada decoder dengan nilai dari L dan nilai dari suatu penguatan diasumsikan pada eksitasi yang sebelumnya.
Decoder harus menjaga sinyal eksitasi-eksitasi yang sebelumnya.
Memori yang berisi eksitasi-eksitasi itu disebut codebook adaptip.
Nilai L disebut kelajuan dalam standar HR GSM. Biasanya, L dihitung dengan suatu ketepatan yang sama dengan sebagian dari interval
(67)
sample, dan delay yang kecil atau kelajuan bit rendah yang digunakan. Kelajuan itu diperbaharui untuk masing-masing subframe. Biasanya
yang dihitung dalam dua langkah:
1. Langkah yang pertama adalah metoda penilaian nada open loop
klasik.
Dengan pemrograman dinamik untuk mengoreksi kekuatan diskontinuitas-diskontinuitas antarasubframe.
2. Langkah yang kedua adalah pencariancodebook adaptip.
Yaitu melaksanakan suatu pencarian yang bersifat close loop
dengan pendekatan analisa oleh sintesis untuk memperbaiki hasil-hasil yang didapat dari pencarianopen loop.
Pemecahan optimal yang digunakan adalah dengan pencarian berulang-ulang. Pencarian berulang-ulang dimaksudkan untuk menemukan solusi terbaik pada suatu codebook yang pertama, mengurangi suara sintetik
yang diperoleh dengan suara asli untuk memperoleh suatu perbedaan sinyal dan kemudian mencari solusi terbaik pada codebook yang kedua
untuk mendekati perbedaan vector, dan seterusnya secara
berulang-ulang. Pendekatan berulang-ulang ini dapat ditambahkan oleh codebook
(68)
3. Persepsi Kriteria Suara
Persepsi kriteria suara merupakan penyembunyian elemen sinyal yang artinya suatu frekuensi amplitudo yang kuat dapat menyembunyikan sebuah sinyal yang memiliki amplitudo kecil.
Dengan persepsi kriteria suara dari suatu spektrum suara dapat menyembunyikan noise yang ditimbulkan oleh pengkodean. Persepsi
kriteria suara adalah suatu galat kuadrat rata-rata di dalam daerah spektral.
Perbedaan antara spektrum dari suara sintetik dan suara asli dilambangkan oleh suatu fungsi W(f). Fungsi besar Spektral noise W(f) adalah kecil untuk frekuensi asli yang memiliki spektrum yang kuat, dan akan besar bila spektrum suaranya lemah.
Dalam praktek W(f) berasal dari filter sintese 1 A (f) yang menunjukkan spektrum dalam satu frame. Suatu penyelesaian klasik adalah:
(17)
Fungsi pengukuran spektral ini diterapkan didalam daerah sementara oleh penyaringan perbedaan sinyal antara suara sintetik dan asli dengan filter W(z). Lalu rata-rata kesalahan dihitung dari perbedaan yang disaring. Bentuk gelombang terbaik memaksimalkan rasio berikut:
(69)
... (18)
Dimana:
vi(n) adalah ith codebook bentuk gelombang yang disaring oleh produk
dari filter sintesa dan fungsi pengukuran (H(z)), dan
s(n) adalah penyaringan bentuk gelombang suara tanpa memori oleh fungsi pengukuran W(f).
Memori sedikit berarti masukan kosong tanggapan filter dari H(z) sudah dikurangi dari ukuran sinyal wicara.
Fungsi pengukuran lain dapat ditambahkan pada W(f) di dalam kasus pengukuran sinyal suara. Karena bunyi suara bersifat berkala dengan sebuah periode L yang merupakan periode dasar, spektrum tersebut memperlihatkan ruang yang secara teratur dan selaras dari nada frekuensi fe/L (fe adalah frekuensi sampling).
Suatu filter C(z) digunakan dengan W(z) untuk menyembunyikan suara noise di bawah periode sinyal yang dipersepsikan. C(z) disebut filter pengukur suara noise yang harmonik. Secara Sederhana C(z) mempunyai bentuk :
(70)
... (19)
di mana L bisa merupakan bernilai kecil.
C(f) memiliki periode fe/L sepadan dengan frekuensi nada. Yang
merupakan frekuensi minimum dari frekuensi suara.
4. Perhitungan MSE dan SNR
Simulasi menghasilkan bahwa pada suara hasil teknik pengkodean CELP mempunyai karakteristik tidak jauh berbeda dari karakteristik suara asli. Hal ini diketahui dengan adanya kemiripan bentuk amplitude (Magnitudo) suara asli dengan suara rekonstruksi sesuai hasil simulasi. (pada halaman sebelumnya) dan kualitas suara yang mirip berdasarkan pendengaran.
Kemudian untuk lebih mendukung hal tersebut diatas maka dilakukan analisis berdasarkan penghitungan objektif pada perangkat lunak MATLAB menggunakan metode MSE (Mean Squared Error) dan SNR
(Signal To Noise Ratio). Analisis dilakukan sepanjang sampel suara
dimana berdurasi 3 sampai 4 detik dengan frekuensi sampling sebesar
8000 Hz.
Secara umum analisis MSE merupakan pengukuran tingkat kesalahan dari suatu sistem sesuai dengan rumus [10] seperti persamaan (20) pada halaman berikut:
(71)
... (20)
Dimana;
s(n) : sinyal suara asli
s’(n) : sinyal suara rekonstruksi n : banyaknya data
MSE tidak mempunyai besaran nilai. Suatu sistem dikatakan mempunyai kinerja yang baik apabila nilai MSE mendekati nol (≤ 0) atau dapat dikatakan tidak ada nya kesalahan pada sistem tersebut.
Kemudian pada analisis SNR diberi perlakuan yang sama seperti pada analisis MSE sesuai rumus yang berlaku [10] seperti pada persamaan (21):
... ... (21) Dimana;
s’(n) : Sinyal suara rekonstruksi s(n) : Sinyal suara asli
(72)
dimana SNR mempunyai besaran decibel. Desibel adalah besaran
relative yang mengacu pada pendengaran manusia dan merupakan salah satu cara yang tepat dalam mengetahui penguatan dari suatu sistem dengan menampilkan perbandingan antara dua sinyal [9]. Dalam hal ini ditetapkan agar nilai yang dihasilkan mempunyai persentase cukup besar, dengan demikian sistem mempunyai kinerja cukup baik dalam menghasilkan suara rekonstruksi berdasarkan suara asli.
(73)
III. METODE PENELITIAN
A. Metode Penelitian
Metode yang digunakan dalam penelitian ini yaitu pemodelan dan simulasi terhadap pemrosesan sinyal suara dengan teknik pengkodean CELP menggunakan program Matlab. Metode ini digunakan karena merupakan suatu metode yang praktis dan cukup menghemat biaya karena semua parameter-parameter yang dibutuhkan serta hasil yang diinginkan dapat langsung dimodelkan dengan menggunakan suatu perangkat lunak komputer. Pada proses pengkodean sinyal suara sangat diperlukan sinyal suara itu sendiri, dalam penelitian dilakukan proses perekaman yang akan menjadi sampel suara padacodebook yang merupakan bagian dari pengkodean CELP.
Sinyal suara yang dikodekan adalah sinyal suara yang bekerja pada frekuensi antara 8 kHz. Sinyal suara yang didapat dipecah menjadi sinyal suara vokal dan konsonan.
B. Waktu dan Tempat
Penelitian ini dilakukan di Laboratotium Terpadu Teknik Telekomunikasi Jurusan Teknik Elektro Universitas Lampung yang membahas analisa dan simulasi pemrosesan sinyal suara dengan mengunakan teknik pengkodean CELP yang disimulasikan dengan perangkat lunak Matlab.
(74)
C. Jadwal Kegiatan
Jadwal kegiatan penelitian ini yaitu:
Tabel 1. Jadwal Penelitian
Kegiatan November Desember Januari Februari I II III IV I II III IV I II III IV I II III IV Studi Pustaka dan Literatur
Seminar usul
Pembuatan program simulasi
Analisis dan Pembahasan Seminar Hasil
Perbaikan Komprehensive
Kegiatan Maret April Mei Juni
I II III IV I II III IV I II III IV I II III IV Studi Pustaka dan Literatur
Seminar usul
Pembuatan program simulasi
Analisis dan Pembahasan Seminar Hasil
Perbaikan Komprehensive
D. Alat dan Bahan
Adapun alat dan bahan yang akan digunakan pada penelitian ini yaitu
Personal Computer (PC) Intel Pentium 3,06 GHz dengan RAM 1024 MB
yang ter-install software Matlab sebagai program untuk mensimulasikan
penelitian yang dilaksanakan, dan sebuah microphone yang digunakan untuk merekam sinyal suara.
(75)
E. Tahapan Penelitian
Untuk memudahkan analisis dan pembahasan maka penelitian dibagi ke dalam beberapa tahapan yaitu:
a) Studi pustaka dan literatur tentang teori yang menunjang penelitian
b) Menganalisa masalah yang berkaitan dengan teknik pengkodean CELP
c) Pembuatan rancangan algoritma pengkodean sinyal suara dengan pengkodean CELP.
Rancangan algoritma ini dibuat untuk menentukan efektifitas penggunaan metode penggunaan pengkodean CELP untuk pemrosesan sinyal suara yang secara efektif dapat mengkodekan sinyal suara pada bit-bit rendah.
d) Pembuatan model simulasi Matlab untuk simulator.
Dalam tahap ini dilakukan penentuan parameter apa saja yang harus diperhatikan dalam pemrosesan sinyal dengan pengkodean CELP dan mengkorelasikannya dengan variabel-variabel yang terdapat dalam program Matlab sehingga dapat dilakukan pensimulasian dari kinerja CELP tersebut pada program Matlab.
e) Simulasi pemrosesan sinyal dengan pengkodean CELP.
Simulasi pemrosesan sinyal dengan pengkodean CELP dilakukan dengan menjalankan simulator Matlab yang telah dibuat dan menampilkan hasilnya dalam bentuk grafik dan nilai yang menggambarkan kinerja dari
(76)
pemrosesan sinyal dengan pengkodean CELP sebagai metode untuk pengkodean suara pada bit-bit rendah yang bekerja secara efektif.
F. Bagan Alir Penelitian
Untuk memudahkan penelitian ini maka disusunlah prosedur kerja sebagai urutan langkah-langkah penelitian. Dalam penelitian ini, maka langkah awal yang dilakukan penulis yaitu melakukan studi pustaka dan literatur buku maupun jurnal dari berbagai sumber yang mendukung. Setelah didapatkan literatur yang mendukung penelitian maka dilakukan pembuatan skenario mengenai algoritma pengkodean sinyal suara dengan teknik pengkodean CELP yang dilanjutkan dengan pembuatan model simulasi yang dibutuhkan untuk simulasi selama proses penelitian.
(77)
Gambar 32. Bagan alir penelitian
Pada simulasi ini, dilakukan penelitian mengenai proses pengkodean suara yang dihasilkan dengan pengkodean CELP. Parameter dari kinerja yang dibandingkan yaitu:
(78)
1. Perbandingan suara asli dengan suara pada pengkodean CELP dan
2. Keefektifitasan teknik pengkodean CELP untuk mengkodekan sinyal suara pada laju bit rendah.
Parameter-parameter di atas dihasilkan dengan suara keluaran yang digambarkan dengan suatu grafik yang dihasilkan dari program Matlab yang merupakan hasil simulasi dari kinerja teknik pengkodean sinyal suara CELP tersebut.
Setelah didapatkan data yang diperlukan maka akan dilakukan analisis sesuai dengan tinjauan pustaka dan menemukan tujuan penelitian serta hal-hal yang baru yang tidak tersurat dalam tujuan penelitian dan menarik kesimpulan.
G. Algoritma Teknik Pengkodean CELP
(79)
IV. ANALISA DAN PEMBAHASAN
A. Analisa Teknik Pengkodean CELP
Teknik pengkodean CELP (Codebook Excited Linear Prediction) merupakan
teknik pengkodean suara yang mengkodekan sinyal suara dengan laju bit yang rendah, mengolah sinyal suara masukan untuk dikirimkan pada penerima dengan suara yang telah diatur laju bitnya dilengkapi dengan suatu
codebook yang berfungsi sebagai acuan sinyal suara yang menjadi inputan
dengan tujuan untuk tetap mempertahankan kulitas sinyal suara yang laju bitnya telah diubah.
Cara kerja CELP adalah setiap suara yang masuk sebagai input sinyal akan diolah pada LP (Linear Prediction) yang berfungsi untuk menganalisa dan
mensintesa sinyal tersebut, sehingga didapatkan parameter-parameter seperti bentuk sinyal dan energi yang dapat ditampilkan dalam grafik sinyal sinusoidal yang menunjukkan kuat frekuensi dan amplitudo sinyal. Pada masing-masing sinyal suara dapat dibedakan dari vokal dan konsonan. Setelah parameter tersebut didapatkan maka sinyal keluaran LP akan dikirimkan pada encoder yang bertugas mengubah sinyal tersebut menjadi
kode-kode yang akan dikirimkan pada decoder untuk diterjemahkan namun
(80)
codebook sebagai acuan. Setelah itu akan digunakan pemilihan energi
pengiriman sinyal yang sudah ditentukan.
Dalam tugas akhir ini dibuat sebuah simulasi teknik pengkodean CELP dengan bantuan Software Matlab. Dengan demikian dapat dianalisa
pengkodean yang terjadi dengan menghitung nilai MSE dan SNR dari sinyal yang diproses. Yaitu menggunakan sample sinyal hasil perekaman suara dengan durasi pendek antara 3-4 detik dan frekuensi yang digunakan 8000 Hz. Dengan demikian dapat diketahui apakah CELP dapat dengan baik mengolah sinyal tersebut dengan kualitas sinyal yang dapat diperbandingkan dengan sinyal frekuensi medium.
Pada simulasi CELP digunakan ACB (Adaptive codebook) yang bersifat tetap yang berfungsi untuk suatu ruang penyimpanan suara prediksi yang akan di-eksitasi(dibangkitkan) dengan sinyal suara yang diolah oleh CELP.
B. Simulasi Teknik Pengkodean CELP (Codebook Excited Linear Prediction).
Proses awal yang dilakukan adalah merekam suara yang akan dijadikan sampel untuk diproses pada pengkodean CELP. Perekaman yang dilakukan adalah dengan microphone dan perangkat lunak matlab, durasi 4 detik
(81)
Gambar 34.Format dan properti sinyal suara ‘Telekomunikasi’ yang merupakan
salah satu suara rekaman untuk masukan CELP
Adapunscript atau sintak matlab yang dibutuhkan untuk merekam suara dari
microphoneadalah
clearall; Fs = 8000;
Speech = wavrecord(4.0*Fs, Fs,'double'); wavwrite(Speech,Fs,'Nama Sinyal Audio.wav');
Kemudian menentukan sinyal codebook yang akan digunakan pada
pemrosesan sinyal suara pada teknik pengkodean suara CELP,codebookyang
digunakan terdiri dari tiga sinyal acak gaussian. Ke tiga codebook tersebut
(82)
VQDTool dari 200,000 vektor LSF yang menggunakan General Lloyd Algoritma (GLA). Codebook yang digunakan bersifat adaptif, dimana sinyal
suara yang menjadi masukan akan direkonstruksi untuk dijadikan sinyal keluaran dengan laju bit rendah.
Masukan codebook terbaik untuk masing-masing subvector dipilih
berdasarkan pada ukuran jarakEuclidesminimum. Untuk sampai dicodeword
yang optimal, Suatu pencarian secara berurutan dilakukan pada tiap-tiap
codebook tersebut. Ketiga codeword tersebut bersifat tetap dan
memasangkannya pada LSFs yang dipastikan telah terkuantisasi dan stabilitas LP filter akan tetap terjaga.
1. CODEBOOK
Codebook yang digunakan pada simulasi pengkodean CELP ini dihasilkan
dengan menggunakan VQD tool yang dapat digunakan untuk mengeksitasi sinyal masukan yang berbeda sesuai dengan yang diinginkan.
Codebookdalam simulasi ini dibagi menjadi tiga bentuk sinyal yang
masing-masing berpasangan dengan subvektor LSF (Line Spectral Frequency) pada
penyisipan sinyal pada vektor kuantisasi LSF dengan menggunakan General
Lloyd Algorithma.
LSF dipecah menjadi 3 bagian yang akan dikodekan dengan penggabungan sinyal hasil koversi dari LPC dan sinyal pembebanan LPC terhadap LSF. LSF terdiri dari 10 vektor yang dibagi menjadi 3 yaitu, LSF 1to3, LSF 4to6, dan LSF 7to10 yang masing-masing memiliki panjang 10 bit dengan kapasitas
(83)
masing-masing codebook LSF adalah 1024. Masing-masing codebook dapat dijabarkan sebagai berikut:
1. Codebook untuk LSF 1 to 3.
Gambar 35.Sinyal Eksitasi LSF 1 sampai 3 dengan kapasitas sinyal 10 bit.
Gambar 35 adalah bentuk gelombang sinyal suara yang dibentuk dari sinyal acak gaussian pada VQD tool dimana energi dan waktunya telah di tentukkan, sinyal tersebut digunakan sebagai masukkan pada LSF untuk mengeksitasi sinyal masukkan pada CELP dengan mencari bentuk dan energi sinyal yang sesuai. Sinyal eksitasi memiliki energi sinyal suara atau magnitudo yang berbanding lurus terhadap waktu. Dimana semakin lama nilai magnitudo akan semakin besar. sinyal eksitasi tersebut berjumlah 10 bit dengan urutan sinyal eksitasi 1, 2, dan 3. Ketiga sinyal dari codebook
tersebut masuk pada encoder bersama-sama dengan sinyal keluaran LSF yang pertama yang seluruhnya ada tigaencoder.
(84)
Gambar 36.Sinyal Eksitasi LSF 4 sampai 6 dengan kapasitas sinyal 10 bit.
Gambar 36 adalah sinyal eksitasi LSF dari codebook yang merupakan
sambungan dari sinyal eksitasi LSF 1 sampai 3. Sinyal tersebut akan masuk pada encoder yang kedua bersama-sama dengan sinyal hasil
keluaran LSF yang kedua pula. Sinyal eksitasi dari codebook ini terdiri
dari 3 buah sinyal yaitu 4, 5, dan 6 yang berkapasitas 10 bit. Sinyal terssebut masuk ke encoder untuk di kodekan sebelu dikirimkan ke
(85)
2. Codebook untuk LSF 7 to 10
Gambar 37.Sinyal Eksitasi LSF 7 sampai 10 dengan kapasitas sinyal 10 bit.
Begitu pula dengan sinyal codebook eksitasi LSF 7 sampai 10 yang
merupakan sambungan sinyal eksitasi LSF 4 sampai 6. Sinyal eksitasi ini mewakili 4 buah sinyal eksitasi dengan urutan 7, 8, 9, dan 10 dengan kapasitas 10 bit. Sinyal eksitasi 7 sampai 10 ini akan menjadi masukkan
encoder ketiga bersama-sama dengan LSF yang ketiga. Sinyal eksitasi
dengan durasi 4 detik ini akan menjadi sinyal acuan untuk merekonstruksi sinyal masukkan CELP yang masuk sebagai acuan tingkat energi dan kecepatan laju bit nya.
Dapat dilihat pada ketiga gambar tersebut bahwa sinyal yang direpresentasikan merupakan sinyal yang memiliki magnitudo (Kekuatan sinyal wicara) 0-3 yang dilihat secara keseluruhan. Sinyal pada codebook ini
(1)
Tabel 2. Hasil Perhitungan MSE dan SNR
Nama Sinyal Nilai MSE Nilai SNR (dB)
Bandar Lampung.wav 0,0090517 89,463
Fakultas Teknik.wav 0,0041270 91,556
Teknik Elektro.wav 0,0071996 90,226
Telekomunikasi.wav 0,0065258 90,529
Universitas Lampung. wav 0,0082323 90,020
Setelah menganalisa dan menghitung data hasil simulasi teknik pengkodean CELP didapatkan nilai MSE dan SNR yang merupakan acuan apakah teknik pengkodean tersebut baik atau tidak.
Dapat dilihat pada tabel 2 sinyal keluaran CELP memiliki tingkat rata-rata error yang rendah, hal ini dibuktikan dengan data nilai hasil perhitungan MSE pada sinyal pengkodean CELP yang seluruhnya mendekati nilai nol. Kinerja suatu sistem dikatakan baik apabila MSE mendekati nilai nol atau hampir tidak ada kesalahan pada sistem tersebut.
Demikian pula dengan hasil perhitungan SNR, sinyal hasil pengkodean CELP memiliki kualitas yang baik dengan ditunjukkan semakin besarnya nilai SNR.
Berdasarkan pada hasil pengamatan, nilai SNR sangat dipengaruhi oleh nilai kekuatan sinyal atau amplitudo. Semakin kecil nilai amplitudo sinyal keluaran CELP maka akan mengakibatkan penurunan pada nilai SNR. Namun dengan demikian energi sinyal wicara dapat diminimalisasi.
(2)
Berdasarkan tabel diatas dapat disimpulkan bahwa pada teknik pengkodean CELP mampu mengkodekan sinyal suara dengan kecepatan yang relatif rendah dengan tetap menjaga kualitas sinyal suara tersebut yang dapat dibuktikan dengan rata-rata kesalahan sinyal (MSE) yang mendekati nol dan Sinyal to Noise Ratio(SNR) yang besar.
6. Perhitunganbit rate
Bit rate yang digunakan pada CELP ini adalah 9,5 kbps yang mana parameternya dapat ditentukan pada simulasi, yaitu dapat dilihat pada tabel 3 sebagai berikut:
Tabel 3. Alokasi bitsubframeCELP
Mode Parameter Subframe Total
1 2 3 4
LSF set (bitCodebook) 30
9,5 kbps
Pitch Delay 7 7 7 7 28
Gain 6 6 6 6 24
Algebraic Code 17 17 17 17 68
Codebook Gain 6 6 6 6 24
Algebgraic Sign 4 4 4 4 16
Jumlah 190
Pada teknik pengkodean CELP, sinyal suara yang menjadi masukan adalah sebesar 8.000 Hz, dengan demikian sample time yang digunakan adalah 1/8000. Sinyal wicara dibagi menjadi frame-frame dengan ukuran 20 ms. sehingga sample per frame nya adalah 160 sampel, masing-masing frame dibagi lagi ke dalam empat subframe dari 5 ms (40 sampel). Bit rate didapat dengan mengambil jumlah total nilai parameter dari 4 buah subframe kemudian dibagi dengan ukuran frame yaitu 20 ms yaitu 190/20 = 9,5 kbps.
(3)
V. SIMPULAN DAN SARAN
A. Simpulan
Berdasarkan simulasi dan pembahasan yang telah dilakukan, dapat disimpulkan hal-hal sebagai berikut:
a. Bit rate yang digunakan pada pengiriman sinyal suara dengan teknik pengkodean suara CELP memiliki kecepatan 9,5 kbps dengan suara asli yang sebelumnya direkam dengan bit rate 128 kbps, sehingga dapat dibedakan sinyal asli dan keluarannya pada kuat magnitudo-nya yang mengecil.
b. Dengan kualitas yang cukup baik, CELP hanya mengirimkan beberapa parameter saja seperti gain, alokasi bit, delay, dan beta (pitch reduksi), yang dinyatakan dalam bentuk stream. Tentu saja hal ini akan sangat menghemat bandwitdh transmisi dan mengurangi daya pancar, sehingga CELP sangat efisien untuk komunikasi seluler.
c. CELP dijalankan pada frekuensi masukan sebesar 8.000 Hz dengan durasi 4 detik atau sekitar 200 frame, menyebabkan sinyal masukan dan keluaran CELP memiliki sampling rate 32000. Hal ini menunjukkkan bahwa
(4)
semakin lama durasi suara pada frekuensi yang sama maka nilai sample rate akan semakin besar.
d. Suara yang diperoleh dari teknik pengkodean CELP memiliki kualitas suara yang cukup bagus dengan nilai kasalahan sinyal yang kecil dimana MSE mendekati nol dan nilai SNR yang rata-rata cukup besar.
B. Saran
a. Berdasarkan efisiensi pengiriman, maka CELP sangat cocok untuk diterapkan dalam pemakaian komunikasi yang memiliki keterbatasan bandwidth. Dan ini cocok digunakan untuk daerah-daerah yang memiliki kapasitas bandwidth sinyal komunikasi yang sangat minim karena kurangnya sarana komunikasi.
b. Pada simulasi teknik pengkodean suara CELP dalam skripsi ini menggunakanfixed codebookyang dapat dieksitasi dengan suara masukan yang berbeda-beda, ada baiknya bila nantinya dibuat pula simulasi teknik pengkodean CELP yang menggunakan adaptif codebook yang implementasinya dapat digunakan pada sistem keamanan berbasis suara sepertiscurity voice lockdan pengenalan identitas melalui suara.
(5)
DAFTAR PUSTAKA
[1] Atal, B. S., Cuperman, V., Gersho, A.,Advances in Speech Coding, Kluwer Academic Publishers, Boston, 1991.
[2] Barnwell III, T. P., Nayebi, K., Richardson, C. H.,Speech Coding:A Computer Laboratory Textbook, John Wiley and Sons Publishing, New York, 1996.
[3] Klejin, W. B., Paliwal, K. K.,Speech Coding and Synthesis, Elsevier, Amsterdam, 1995.
[4] Kondoz. A. M., Digital Speech:Coding for Low Bit Rate Communications Systems, John Wiley and Sons Publishing, England, 1994.
[5] N.s.Jayant,High-Quality Coding of telephone Speech and Wideband Audio, IEEE Communications Magazine, January 1990.
[6] Quackenbush, S. R., Barnwell III, T. P., Clements, M. A.,Objective Measures of Speech Quality, Prentice-Hall, Englewood.
[7] Quatiery, "Discrete Time Signal Processing,principles and practice", Prentice Hall, 2002
(6)
[8] Rabiner Juang, "Fundamentals of Speech Recognition", Prentice Hall 1993
[9] Smith & Steven W. 1999.The Scientist and Engineer's Guide to Digital Signal Processing.2nd (electronic) Edition. California: California Technical Publishing.
[10] Terrel, T.J. & Lik-Kwan Shark. 1996.Digital Signal Processing, A Student Guide. London: MacMillan Press.
[11] Vinay K Ingle dan John G Proakis,Digital Signal Processing using Matlab.PWS Publising Company, 1997.
[12] http://www.mathworks.com/access/helpdesk/help/techdoc/matlab.shtml tentang pengkodean CELP.
[13] http://mi.eng.cam.ac.uk/~ajr/SA95/SpeechAnalysis.html tentang analisa sinyal suara.