BAB 2 LANDASAN TEORI 2.1. Suara - Penerapan Hidden Markov Model Untuk Pengenalan Ucapan

BAB 2 LANDASAN TEORI

2.1. Suara

Suara adalah fenomena fisik yang dihasilkan oleh getaran suatu benda yang berupa sinyal analog dengan amplitudo yang berubah secara kontinu terhadap waktu. Suara merupakan gelombang yang mengandung sejumlah parameter (amplitudo, simpangan, frekuensi, spectrum), yang dapat menyebabkan suara yang satu berbeda dari suara lain. Suara beramplitudo lebih besar akan terdengar lebih keras. Suara dengan frekuensi lebih besar akan terdengar lebih tinggi. Sementara itu bisa juga ditemukan dua suara yang beramplitudo dan berfrekuensi sama, misalnya biola dan piano dibunyikan secara bersamaan dengan tingkat kekerasaan dan nada yang sama, namun telinga masih dapat membedakan mana yang suara piano dan mana yang suara biola. Ini terjadi karena suara memiliki warna suara. Warna suatu suara ditentukan oleh pola dasar dari gelombang suara (Nurlaily, 2009).

Perbedaan pola dasar gelombang bunyi biola dan piano antara lain disebabkan oleh perbedaan faktor resonansi yang timbul pada masing- masing instrumen. Demikian juga pada manusia, resonansi yang terjadi pada rongga mulut akan menimbulkan pola dasar gelombang bunyi yang berbeda-beda.

Proses pembentukan bunyi bahasa dimulai dengan memanfaatkan pernapasan sebagai sumber tenaganya. Pada saat manusia mengeluarkan nafas, paru-paru manusia akan menghembuskan tenaga berupa arus udara. Arus udara ini dapat mengalami perubahan pada pita suara yang terletak pada pangkal tenggorokan. Arus udara dari paru-paru itu dapat membuka kedua pita suara yang merapat sehingga menyebabkan corak bunyi tertentu.Gerakan membuka dan menutup pita suara itu akan mengakibatkan arus udara dan udara yang berada di sekitar pita suara akan turun berubah tekanan dan ikut bergetar.

Adanya perubahan bentuk saluran suara yang terdiri dari rongga faring, rongga mulut dan rongga hidung akan menghasilkan bunyi bahasa yang berbeda-beda. Pada saat udara dari paru-paru dihembuskan, kedua pita suara dapat merapat atau merenggang. Jika kedua pita itu bergantian merapat atau merenggang dalam pembentukan suatu bunyi bahasa, maka bunyi bahasa yang dihasilkan terasa berat. Bunyi bahasa ini dinamakan bunyi bersuara (voiced). Jika kedua pita merenggang sehingga arus udara dapat lewat dengan mudah (ringan), maka bunyi bahasa ini umumnya dinamakan bunyi tak bersuara (unvoiced).

Gambar 2.1. Organ Pernapasan Manusia

Sumber: http://ridwanaz.com/wp-content/uploads/2012/06/Sistem- Respirasi-pernapasan-Manusia.jpg

2.2. Proses Sinyal Suara

Di sekitar kita, dalam kehidupan sehari-hari, sebenarnya lebih banyak sinyal yang direpresentasikan dalam bentuk analog daripada sinyal dalam bentuk digital. Misalnya, suara, cahaya, suhu, bau dan sebagainya. Namun sinyal- sinyal analog semacam itu akan lebih mudah disimpan, diolah, direproduksi kembali apabila disimpan dalam bentuk data digital. Sebagai contoh,

Compact Disc yang dijual di pasaran dapat menampung sejumlah besar lagu

adalah hasil konversi sinyal suara analog ke dalam bentuk digital. Film-film yang dapat dinikmati melalui DVD juga merupakan hasil dari rekayasa digital. Dan masih banyak lagi manfaat yang dapat kita rasakan saat ini dengan adanya teknologi digital (Mafisamin, 2014).

Untuk memperoleh data digital dibutuhkan suatu proses untuk mengubah sinyal analog menjadi data digital. Ada beberapa metode yang dapat digunakan, yaitu Pulse Code Modulation (PCM) dan Delta Modulation (DM).

2.2.1. Pulse Code Modulation (PCM)

PCM merubah sinyal analog menjadi data digital melalui proses awal yang disebut dengan sampling. Sampling adalah proses mencacah sinyal analog menjadi potongan-potongan sinyal dengan amplitudo sesuai dengan sinyal asli. Setelah didapatkan sinyal hasil sampling, sinyal tersebut selanjutnya dikuantisasi. Kuantisasi adalah proses pembulatan amplitudo sinyal terkuantisasi ke bilangan integer terdekat. Proses terakhir adalah melakukan pengkodean digital terhadap kode hasil kuantisasi. Jadi dapat disimpulkan bahwa PCM menggunakan tiga langkah utama di dalam mengubah sinyal analog menjadi data digital, yaitu proses pencacahan (sampling), proses kuantisasi, dan proses pengkodean digital.

Gambar 2.2. memberikan ilustrasi seluruh proses mengubah sinyal analog menjadi data digital dengan menggunakan PCM.

Kuantisasi Pengkodean Pencacaha n 1101 ... 001

Data Sinyal

Pengkodean PCM

Digital

Analog

Gambar 2.2. Pengkodean PCM

Sumber: (Mafisamin, 2014) 1.

Proses pencacahan (sampling) Proses pencacahan dilakukan dengan mencacah sinyal analog dalam periode waktu tertentu dirumuskan sebagai berikut:

(2.1)

f = _{s s} 1 / T

Keterangan :

f _s = frekuensi pencacahan T = periode pencacahan _s

Semakin tinggi frekuensi pencacahan, atau semakin kecil periode pencacahan maka sinyal hasil cacahan akan semakin menyerupai sinyal analog asli. Sinyal hasil cacahan seringkali disebut juga istilah sinyal Pulse Amplitudo Modulation (PAM). Namun semakin tinggi frekuensi pencacahan membawa konsekuensi pada harga keseluruhan dalam proses pencacahan semakin mahal. Sebaliknya menggunakan frekuensi pencacahan rendah akan menurunkan harga proses pencacahan tetapi mengandung konsekuensi pada represensitasi sinyal PAM yang kurang dapat mewakili sinyal analog asli.

Proses pencacah dilakukan dengan didasarkan asumsi bahwa sinyal percakapan berada pada daerah frekuensi 300-3400 Hz.

Teori Nyquist menyebutkan bahwa frekuensi pencacah harus minimal dua kali frekuensi tertinggi (bukan bandwidth) yang dikandung oleh sinyal asli.

Dengan menggunakan representasi domain frekuensi tersebut kita dapat melihat frekuensi tertinggi yang dikandung oleh suatu sinyal. Karena itu dapat menarik acuan umum bahwa proses pencacahan hanya dapat dilakukan apabila sinyal memiliki

bandwidth

terbatas (band-limited). Apabila bandwidth dari suatu sinyal tak terbatas, maka pencacahan tidak dapat dilakukan. Dengan kata lain, akan dibutuhkan frekuensi tak terhingga untuk mencacah sinyal dengan bandwidth tak terbatas.

Gambar 2.3. Pencacahan dengan berbagai frekuensi pencacah

Sumber: (Mafisamin, 2014) Efek dari variasi frekuensi pencacah ditunjukkan dalam

Gambar 2.3. Gambar sebelah kanan atas adalah contoh pencacahan sinyal dengan menggunakan frekuensi pencacah sama dengan

frekuensi yang diisyaratkan oleh Nyquist, yaitu f = 2 f . _{s max} Gambar bawah sebelah kiri adalah pencacahan dengan frekuensi pencacah kurang dari syarat Nyquist. Karena jumlah sinyal pencacah kurang dari syarat minimal, maka sinyal pencacah tidak akan dapat merepresentasikan sinyal analog asli. Sedangkan pada gambar terakhir terlihat bahwa frekuensi pencacah jauh di atas syarat Nyquist, karena itu sinyal pencacah dapat merepresentasikan sinyal analog asli dengan sangat baik.

Contoh 1: Dalam Gambar 2.3., sinyal memiliki frekuensi 1 Hz. Tentukan frekuensi pencacah yang dibutuhkan untuk mencacah sinyal tersebut.

Sesuai dengan kriteria Nyquist, maka frekuensi pencacah minimal adalah f = 2 f , maka nilai f = _{s max s}

2 Hz. Frekuensi pencacah tersebut adalah pencacah minimal. Apabila frekuensi pencacah ditingkatkan menjadi 5 kali frekuensi maksimal, maka f = _s 5 Hz. Seperti terlihat dalam Gambar 2.3, dengan menggunakan frekuensi pencacah 5 Hz, sinyal hasil sampling lebih menyerupai sinyal asli.

Proses pencacahan seperti dalan Gambar 2.3, disebut dengan pencacahan ideal. Pencacahan ideal tidak mungkin dicapai dalam aplikasi nyata, karena membutuhkan peralatan yang dapat menghasilkan periode waktu setiap cacahan pendek sekali (setiap cacahan hanya berupa garis). Pencacahan natural akan menghasilkan cacahan berupa persegi panjang dengan tinggi sesuai dengan amplitudo gelombang, dan lebar sesuai dengan periode cacahan.

2. Proses kuantisasi

Pencacahan menghasilkan deretan pulsa PAM dengan amplitudo bervariasi dari nilai minimum tegangan sampai nilai maksimum tegangan sinyal analog asli. Jumlah variasi amplitudo tak terhingga. Karena itu langkah selanjutnya adalah melakukan proses kuantisasi amplitudo.

Gambar 2.4. Pencacahan natural dan sample and hold

Sumber: (Mafisamin, 2014) Lebar kuantisasi (∆ ditentukan dengan rumusan berikut: )

V −

_{max min}

∆ = (2.2)

Keterangan:

V = tegangan maksimal dari sinyal analog asli _max V = tegangan minimum yang dapat dicapai oleh _min

sinyal analog asli

L = jumlah level kuantisasi yang diinginkan Ilustrasi proses kuantisasi dapat dilihat dalam gambar 2.4.

Tegangan sinyal analog bervariasi antara -8 volt sampai 8 volt.

Apabila diinginkan level kuantisasi sebanyak 8 level, maka dengan menggunakan persamaan 2.2 didapatkan lebar kuantisasi volt. Normalisasi PAM dalam Gambar 2.4 adalah nilai

∆ =

tegangan PAM hasil dari pencacahan dibagi dengan delta (∆ . ) Sedangkan normalisasi kuantisasi adalah hasil pembulatan normalisasi PAM ke level kuantisasi terdekat, dalam gambar level kuantisasi ditandai dengan garis terputus-putus yaitu pada:

− 3 , 5 ∆ ; − 2 , 5 ∆ ; − 1 , 5 ∆ ; − , 5 ∆ ; , 5 ∆ ; 1 , 5 ∆ ; 2 , 5 ∆ ; 3 , 5 ∆ .

PCM dengan lebar kuantisasi (∆ yang memiliki nilai tetap ) seperti terlihat dalam gambar disebut dengan kuantisasi seragam

(uniform quantization). Dalam kasus yang lain, misalnya perubahan amplitudo sinyal analog lebih sering terjadi pada tegangan rendah, tidak digunakan kuantisasi seragam tetapi digunakan kuantisasi tidak seragam. Kuantisasi tidak seragam akan menghasilkan lebar kuantisasi berbeda-beda untuk setiap level kuantisasi. Berikut adalah gambar dari proses kuantisasi dan tabel pengkodean digital.

Normalisasi Level Kuantisasi

Amplitudo Volt

∆ =

2 Gambar 2.5. Proses kuantisasi Sumber: (Mafisamin, 2014)

Tabel 2.1. Pengkodean digital

Normalisasi PAM -2,3 -1,8 1,7 3,2 3,7 2,6 0,6 -0,7 -2,6

Normalisasi kuantisasi -2,5 -1,5 1,5 3,5 3,5 2,5 0,5 -0,5 -2,5

Kesalahan kuantisasi 0,2 0,3 0,2 0,3 0,2 0,1 0,1 0,2 0,1

Level kuantisasi

1 Pengkodean 001 010 101 111 111 110 100 011 001

Sumber: (Mafisamin, 2014) Hal lain yang perlu mendapatkan perhatian khusus adalah adanya kesalahan kuantisasi akibat adanya pembulatan level tegangan PAM ke level kuantisasi terdekat. Nilai kesalahan dari setiap cacahan tidak akan melebihi ∆ /

2 , karena itu kesalahan

kuantisasi akan berada pada nilai − ∆ /

2 ≤ kesalahan kuantisasi ≤ ∆ / 2 . Kesalahan kuantisasi berkontribusi pada peningkatan Signal

to Noise Ratio (SNR) dari sinyal yang tentu saja akan berakibat

langsung pada penurunan kapasitas kanal. SNR akibat adanya kesalahan kuantisasi dirumuskan oleh persamaan berikut: 6 , 02 x log L + SNR ( dB ) = 1 . 76 (2.3)

2 Keterangan: SNR

= perbandingan sinyal asli dengan sinyal gangguan (noise)

L = jumlah level kuantisasi

Rata-rata kesalahan kuantisasi dapat dikurangi dengan memberikan penambahan derau dalam jumlah kecil. Proses penambahan derau seperti ini disebut dengan dithering. Perlu diketahui bahwa tidak semua derau bersifat mengganggu, justru sebaliknya derau yang terkendali akan sangat bermanfaat sebagaimana halnya implementasi dithering dalam proses kuantisasi. Contoh 2: Berapakah SNR akibat adanya kesalahan kuantisasi dari proses kuantisasi dalam Gambar 2.5. dan Tabel 2.1.

Dalam Gambar 2.5. dan Tabel 2.1 terlihat bahwa proses kuantisasi menggunakan 8 level kuantisasi, berarti untuk setiap cacahan dibutuhkan representasi kode digital sebanyak 3 bit.

6 , 02 x log ( 8 ) + SNR ( dB ) = 1 , 76 = 19 , 82 dB .

2 Sesuai dengan persamaan 2.3, apabila level kuantisasi dinaikkan, maka nilai SNR juga akan meningkat.

3. Proses Pengkodean Digital

Langkah terakhir dalam metode PCM adalah pengkodean data digital. Seperti terlihat dalam Gambar 2.5., pengkodean digital terletak pada baris terakhir dalam gambar. Pengkodean ini mengubah level kuantisasi seperti dalam Gambar 2.5. ke dalam bentuk digital. Misalnya level kuantisasi 7 memiliki bentuk digital 111, level kuantisasi 3 memiliki bentuk digital 011, dan seterusnya. Dengan cara demikian, sinyal analog sekarang telah berubah menjadi bentuk digital.

Kecepatan data dapat dihitung dengan rumusan dalam persamaan berikut:

R = f x log L (2.4)

_s ₂ Keterangan:

R = kecepatan data (dalam satuan bps) f _s = frekuensi cacahan (dalam satuan Hz) Dalam persamaan 2.4, log L pada dasarnya adalah jumlah bit yang

digunakan untuk merepresentasikan L level, sebagai contoh untuk

L = 8 , maka dibutuhkan jumlah bit 3 seperti dapat dilihat dalam Gambar 2.5.

2.2.2. Delta Modulation (DM)

Teknik konversi dari sinyal analog menjadi data digital akan menjadi lebih sederhana apabila diimplementasikan dengan menggunakan

Delta Modulation (DM) daripada menggunakan Pulse Code Modulation

(PCM). DM tidak mendeteksi amplitudo sebagaimana halnya pada PCM, melainkan mendeteksi perubahan amplitudo antara cacahan seperti ini dengan cacahan sebelumnya. Perbedaan antara amplitudo saat ini dengan amplitudo sebelumnya disebut dengan δ (Mafisamin, 2014). Ilustrasi Delta Modulation (DM) digambarkan sebagai berikut.

Gambar 2.6. Ilustrasi Delta Modulation (DM)

Sumber: (Mafisamin, 2014) Apabila bernilai positif, maka DM akan membangkitkan

bit 1, sebaliknya apabila bernilai negatif maka DM akan

membangkitkan nilai 0. Dengan demikian keluaran dari DM merupakan deretan bit yang menggambarkan perubahan amplitudo dari sinyal analog. Untuk dapat menghasilkan unjuk kerja DM yang lebih baik, δ dapat dibuat menjadi adaptif. Dengan menggunakan DM adaftif nilai δ akan berubah-ubah mengikuti amplitudo dari sinyal analog.

2.3. Pengenalan ucapan

Pengenalan ucapan dalam perkembangan teknologinya merupakan bagian dari pengenalan suara (voice recognition), yaitu proses identifikasi seseorang berdasarkan suaranya.

Pengenalan ucapan adalah proses yang dilakukan komputer untuk mengenali kata yang diucapkan oleh sesorang tanpa memperdulikan identitas orang terkait. Pengenalan ucapan merupakan suatu teknik yang memungkinkan sistem komputer untuk menerima input berupa kata yang diucapkan. Kata-kata tersebut diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka lalu disesuaikan dengan kode-kode tertentu dan dicocokkan dengan suatu pola yang tersimpan dalam suatu perangkat. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi.

Pengenalan ucapan juga dikenal sebagai Automatic Speech

Recognition (ASR). ASR merupakan pengenalan ucapan komputer yang

berarti suara pemahaman komputer dan melakukan setiap tugas yang diperlukan atau kemampuan untuk mencocokkan suara terhadap kosakata yang tersedia atau diperoleh (Saini dan Kaur, 2013).

Secara umum prinsip kerja dari ASR adalah ketika seseorang berbicara kepada komputer, program menangkap suara orang tersebut melalui mikrophone dan mengubahnya menjadi sinyal digital. Kemudian program menganalisa sinyal digital tersebut dengan membandingkannya dengan digital pattern yang ada dalam databasenya. Setelah itu akan diambil digital pattern yang paling besar prosentase kemiripannya, kemudian dari digital pattern tersebut diubah menjadi teks. Karena setiap manusia memiliki karakteristik suara yang berbeda-beda, maka diberikan suatu metode untuk melatih program dan kemudian data-data spesifik tentang karakter suara tersebut disimpan dalam database dengan tujuan supaya proses pengenalan suara berikutnya memiliki prosentase keberhasilan yang lebih besar.

Ada 2 tipe pengenalan ucapan (speech recognition), dilihat dari ketergantungan pembicara yaitu: a.

Independent Speech Recognition(ISR), yaitu sistem pengenalan ucapan tanpa terpengaruh dengan siapa yang berbicara, tetapi mempunyai keterbatasan dalam jumlah kosakata. Model ini akan mencocokkan setiap ucapan dengan kata yang dikenali dan memilih yang “sepertinya” cocok. Untuk mendapatkan kecocokan kata yang diucapkan maka digunakan model statistik yang dikenal dengan nama Hidden Markov

Model (HMM).

Dependent Speech Recognition(DSR), yaitu sistem pengenal ucapan yang memerlukan pelatihan khusus dari pembicara, dimana hasil penelitian dari masing-masing pembicara akan disimpan dalam sebuah profil. Profil inilah yang nantinya digunakan untuk berinteraksi dengan sistem pengenalan ucapan dan sistem akan bergantung siapa yang berbicara. Sistem ini biasanya lebih mudah untuk dikembangkan, dimana contoh suara sudah dibuat sebelumnya dan disimpan dalam database (basis data) dan jumlah kosakatanya lebih besar dibandingkan dengan independent speech recognition. Proses pengenalan ucapan dengan cara membandingkan ucapan pembicara dengan contoh suara yang sudah ada.

Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 4 jenis kata yaitu:

1. Kata-kata yang terisolasi : proses pengidentifikasi kata yang hanya terdapat mengenali kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata.

2. Kata-kata yang berhubungan : proses pengidentifikasian kata yang mirip dengan kata yang terisolasi, namun membutuhkan jeda waktu yang sangat sedikit.

3. Kata-kata yang berkelanjutan : proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenali kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara normal.

4. Kata-kata spontan : proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata. Proses pengenalan suara ini sangat bergantung pada bahasa yang digunakan, karena setiap bahasa memiliki cara pengucapan yang berbeda. Sehingga teknologi ASR ini bersifat language dependent.

2.4. Tahapan-tahapan dalam pengenalan ucapan (speech recognition)

Sistem pengenalan ucapan (speech recognition system) terdiri dari 5 blok, yaitu: ekstraksi fitur (feature extraction), pemodelan akustik (acoustic

modelling ), pemodelan pengucapan (pronounciation modelling), model

bahasa (language model), dan decoder.

Blok diagram untuk sistem pengenalan ucapan adalah sebagai berikut:

Feature Words Speech Vectors ... “Stop that.”

Feature Decoder Extraction O W

Acoustic Pronounciation Language Modelling Modelling Model

Gambar 2.7. Blok diagram untuk sistem pengenalan ucapan

Sumber : (Gales dan Young, 2007) 2.4.1.

Ekstraksi Fitur

Gelombang input audio dari sebuah microphone dikonversikan

O = O O

menjadi sebuah urutan vektor akustik ,..., dalam proses _{1 :} _{T T} ₁ yang disebut ekstraksi fitur (fitur extraction)(Gales dan Young, 2007).

Tahap ekstraksi fitur bertujuan untuk memberikan sebuah gambaran dari gelombang ucapan. Tahap ekstraksi fitur ini dapat meminimalkan hilangnya informasi yang membedakan antara kata- kata, dan memberikan kecocokan dengan asumsi distribusi yang dibuat oleh model akustik. Metode yang digunakan adalah Linear Predictive Coding (LPC). Pre-emphasis Frame

Blocking Windowing

Auto Correlation

Analisa LPC LPC

Parameter LPCmerupakan salah satu teknik analisis sinyal percakapan yang paling powerful dan menyediakan ekstraksi fitur yang berkualitas baik dan efisien untuk digunakan dalam perhitungan .

Prosedur untuk mendapatkan koefisien LPC diperlihatkan pada blok diagram berikut:

Gambar 2.8. Blok Diagram LPC

Langkah-langkah dasar yang harus dilakukan mengenai blok diagram tersebut adalah sebagai berikut:

1. Pre-emphasis : Proses dimana sinyal/ speech ucapan dirubah menjadi sinyal.

2. Frame Blocking : pada tahap ini, sinyal yang telah di pre- emphasis, diblok menjadi beberapa bagian dengan jumlah sampel N, dan tiap bagian dipisahkan dengan sejumlah M sampel.

3. Windowing : Tahap berikutnya adalah melakukan proses window pada setiap bagian sinyal yang telah dibuat sebelumnya. Hal ini dilakukan untuk meminimalkan pada bagian awal dan akhir sinyal. Jika didefinisikan sebuah window

) (n w dan sinyal tiap

bagian adalah ) (n

x maka sinyal hasil proses windowing.

4. Auto Correlation Analysis : Tiap bagian yang telah diberi window kemudian akan dibentuk autokorelasinya.

5. Analisa LPC : Langkah berikutnya adalah analisa LPC dimana semua nilai autokorelasinya yang telah dihitung pada tahap sebelumnya akan diubah menjadi parameter LPC.

6. Pengubahan parameter LPC menjadi koefisien cepstral : Parameter LPC yang sangat penting yang bisa diturunkan dari koefisien LPC adalah koefisien cepstral LPC, c

(m )

Adapun langkah-langkah analisa LPC untuk pengenalan ucapan (speech recognition) adalah sebagai berikut:

1. Pre-emphasis terhadap cuplikan sinyal dengan persamaan Pre-

emphasizer s n = s n − as n − (2.5)

( ) ( ) ( 1 ) s a

dengan adalah sampel ke-n dan harga yang paling sering

(n )

digunakan adalah 0.95

2. (n ) ke dalam frame-frame yang Membagi hasil pre-emphasis

masing-masing memuat buah sampel yang dipisahkan sejauh M

M N

buah sample. Semakin < semakin baik perkiraan spektral LPC dari frame ke frame.

3. Melakukan windowing terhadap setiap frame yang telah dibentuk untuk meminimalkan diskontinuitas pada ujung awal dan ujung akhir setiap frame dengan persamaan Hamming Window untuk sampel ke-n adalah :

1 (2.6)

W n = − n N − ( ) . 54 . 46 cos(

2 π /

1 ) , ≤ n ≤ N −

x ( n )

Analisis autokorelasi terhadap setiap frame hasil windowing

dengan persamaan :

(2.7)

dengan m dimulai dari 0 dan nilai tertinggi dari m = p adalah orde LPC yang biasa bernilai 8-16.

p 5.

1 buah hasil autokorelasi pada masing-masing

Mengubah _{( p )}

frame a a m = p

menjadi koefisien LPC = untuk _{m m} 1 , 2 ,..., dengan persamaan dibawah ini : _{( )}

E = r ( ) _{m − m −} _{1 (} _{1 )} (2.8) k = r m − r m − j E m p

{ ( ) (| |) / , ≤ ≤ _m

1 ∑ _{( )} _m

(2.9) α k _{m m} = _{( ) (} _{m m − m −} _{1 ) (} _{1 )} (2.10) = − k ≤ j ≤ m −

α α α , _{j j m m − j}

1 _{( ) ( −} _{m m} ₂ _{1 )} (2.11) E = − k E

( 1 ) _m

(2.12) r

dengan adalah hasil autokorelasi, E adalah error, k

( ) _{(m )} _{(m )} ^m

adalah koefisien pantulan, a adalah koefisien prediksi untuk _j ≤ j ≤ m .

6. a ke koefisien cepstral c untuk Mengubah parameter LPC m m mendapatkan kinerja yang lebih baik dan tahan terhadap noise, yaitu dengan persamaan” ^{m −} ¹

c = a k m c a ≤ m ≤ p
_{m m k m − k} _{k =}

( / ) ,

1 ∑ ¹ _{m −} ₁ (2.13) c = k m c a _{m k m − k} _{k =} ( / ) , m > p

∑ ^{1 (2.14)}

Koefisien cepstral ini adalah koefisien dari representasi pada spectrum logarithms .

2.4.2. Pemodelan Akustik

Dalam sistem pengenalan ucapan automatis (automatic speech

recognition )berbasis statistik, ucapan diwakili oleh beberapa urutan pengamatan fitur akustik O , berasal dari urutan kata-kata W .

Sinyal akustik dirumuskan oleh:

W = arg max { P ( W | O )} _w (2.15)

P W O

Akan tetapi, karena ( | ) sulit untuk dimodelkan secara langsung, maka dapat menggunakan aturan Baye (Baye’s Rule) dapat ditulis sebagai berikut:

W P O W P W (2.16)

= arg max ( | ) . ( ) _w Keterangan:

P O W W

( | ) = probabilitas bahwa ketika string kata

diucapkan

P W

(W ) = probabilitas bahwa string kata akan

diucapkan Dalam persamaan (2.13), P ( O | W ) adalah probabilitas pengamatan dan dievaluasi berdasarkan pemodelan akustik

(acoustic modelling), sedangkan adalah probabilitas sebagai

(W ) model bahasa (language model).

Model akustik diimplementasikan dengan menggunakan pendekatan model seperti Hidden Markov Model (HMM), Artificial

Neural Network (ANN), jaringan Bayesian dinamis (DBN), mendukung mesin vektor (SVM).

HMM digunakan dalam beberapa bentuk atau yang lain di

Rabiner (1989) mengemukakan bahwa transisi pada Rantai

Markov yaitu: a.

Transisi dari suatu keadaan tergantung pada keadaan sebelumnya.

= = = = = = P [ q S | q S | q S ......] P [ q S | q S ] (2.17) _{t j t} − − −

1 i t 2 k t j t 1 i b.

Transisi keadaan bebas terhadap waktu.

(2.18)

a = P [ q = S | q = i ] _{ij t j t} − ¹ Berikut ini adalah contoh gambar dari rantai Markov.

₁₁

a ₁₃ a ₁₂

a a

₃₁ ₂₁ a

₃₂

₂₃

a a ₃₃ ₂₂ Gambar 2.9. Rantai Markov

Sumber: (Monika, 2012) 2.4.3.

Pemodelan ucapan

Dalam pemodelan pengucapan (pronounciation modelling), selama pengenalan, urutan simbol-simbol yang dihasilkan oleh model akustik HMM dibandingkan dengan serangkaian kata yang ada dalam kamus untuk menghasilkan urutan kata-kata yang hasil akhir sistem berisi informasi tentang kata-kata yang dikenal ke sistem dan bagaimana kata-kata yang diucapkan yaitu apa yang representasi fonetik mereka.

Gales dan Young (2007) mengemukakan bahwa setiap kata yang diucapkan didekomposisi menjadi urutan suara dasar yang disebut basis phones. Urutan ini disebut pengucapannya. Untuk memungkinkan kemungkinan beberapa pengucapan-pengucapan dapat dihitung:

p ( O | W ) = p ( O | Q ) P ( Q | W ) (2.19) ∑ _Q

di mana penjumlahan selesai semua urutan pengucapan berlaku untuk w , Q adalah urutan pengucapan partikular, _L _{( l )} _w

P Q W = P q Wl (2.20)

( | ) ( | ),

∏ _l = ¹ dan di mana masing-masing pengucapan berlaku untuk kata Wl .

Setiap base phone diwakili oleh kepadatan kontinu HMM dengan parameter probabilitas transisi dan distribusi observasi output digambarkan sebagai berikut:

Markov a a a ₂₂

₃₃

₄₄ Model a a a a ₁₂ ₂₃ ₃₄ ₄₅

5 Acoustic Vector b ( O ) b ( O ) b ( O ) b O ₂ ₁ ₂ ₂ ₃ ₃ ₄ ( ) b ( O ) ₄ ₄ ₅ Sequence

O = O O O O ₁ O ₂ ₃ ₄ ₅ Gambar 2.10. HMM model basis phone

Dalam operasi, HMM membuat transisi dari kondisi saat ini ke salah satu keadaan (state) yang terhubung setiap langkah waktu. Kemungkinan membuat transisi stertentu dari state ke state diberikan oleh probabilitas transisi a . Masuk ke state, fitur vector

{ } ij

yang dihasilkan dengan menggunakan distribusi terkait dengan keadaan (state) yang masuk, b () .

{ } j

Bentuk proses menghasilkan asumsi bebas bersyarat standar untuk HMM:

keadaan (state) yang bersyarat independen dari semua state-state lain mengingat keadaan sebelumnya
pengamatan bersyarat independen dari semua pengamatan lainnya mengingat keadaan yang dihasilkan itu.

2.4.4. Model Bahasa

Model bahasa (Language Model) digunakan untuk membatasi proses pencarian pada pengenalan ucapan (speech recognition), yaitu menuntun pencarian urutan kata yang benar dengan memprediksi kemungkinan kata n menggunakan (n-1) kata-kata sebelumnya.

Model bahasa dapat diklasifikasikan menjadi: 1.

Model seragam: setiap kata memiliki probabilitas yang sama terhadap kejadian.

2. Model stokastik: probabilitas terhadap kejadian dari sebuah kata tergantung pada kata yang mendahuluinya.

3. Bahasa state yang terbatas: bahasa menggunakan jaringan anegara yang terbatas untuk menentukan urutan kata yang diperbolehkan.

4. Konteks tata bahasa bebas: dapat digunakan untuk mengkodekan yang jenis kalimat diperbolehkan.

Model bahasa N-gram merupakan sebuah metode yang diaplikasikan untuk pembangkitan kata atau karakter. Probabilitas = sebelumnya dari urutan kata W W W diperoleh dari persamaan _{1 k} ,..., berikut: _K

P ( W ) = P ( W | W ,..., W ) _{k k −} ₁ _{1 (2.21)} ∏ _k

= ¹ Untuk pengenalan kosakata yang besar, sejarah pendingin

kata dalam biasanya dipotong ke N-1 kata-kata untuk membentuk model bahasa N-gram _K

P ( W ) = P ( W | W , W ,..., W ) (2.22) ^{i i i i N} − ^{1 −} ^{2 −} ¹ ∏ _i ₁

dimana N biasanya diantara 2-4. Model bahasa sering dinilai dari segi kebingungan (perplexity) mereka, H, yang didefinisikan sebagai

1 H P W W = − log ( ( ,..., )) ₂ _{1 K} lim _{K K} → ∞ _K

1 P W W W W ≈ − log ( ( | , ,..., ) ) _{2 i i} _{1 i} _{2 i N} ₁

− − + − ∑

K i = ¹

dimana perkiraan tersebut digunakan untuk model bahasa N- gram dengan urutan kata dengan panjang terbatas.

Probabilitas N-gram diperkirakan dari training teks dengan menghitung kejadian N-gram untuk membentuk maximum likelihood (ML) estimasi parameter.

Sebuah pendekatan alternatif untuk estimasi model bahasa yang kuat adalah dengan menggunakan model berbasis kelas di

W C

mana untuk setiap kata ada kelas yang sesuai . Maka, _K _{k k}

P ( W ) = P ( W | C ) p ( C | C ,..., C ) (2.23)

_{k =}

₁

^{k k k k k N}

^{1 −}

(Gales dan Young, 2007)

2.4.5. Decoder

Decoder adalah peralatan yang digunakan untuk mendapatkan kembali sinyal analog yang telah dikodekan menjadi data digital. Perlu diingat bahwa untuk dapat melakukan pembalikkan kode, persyaratan Nyquist harus dipenuhi pada saat melakukan pencacahan (sampling) (Mafisamin, 2014).

Decoder merupakan suatu tahapan yang paling penting dalam proses pengenalan ucapan (speech recognition). Sebuah decoder berfungsi untukmelakukan keputusan yang sebenarnya dengan menggabungkan pemodelan akustik (acoustic modelling), pemodelan pengucapan (pronounciation modelling)dan model bahasa (language model) untuk mencari semua urutan kata yang mungkin dan akan menghasilkan output.

2.5. Hidden Markov Model (HMM)

Hidden Markov Model (HMM) adalah suatu model statistik dari sebuah

sistem yang diasumsikan sebuah proses Markov dengan parameter yang tidak diketahui. Kita harus menentukan parameter-parameter tersembunyi (state) dari parameter-parameter yang dapat diamati. Parameter-parameter yang ditentukan kemudian dapat digunakan untuk analisis yang lebih jauh, misalnya untuk aplikasi pattern recognition(Monika, 2012).

HMM pada dasarnya perluasan dari rantai Markov yang merupakan model stokastik. Biasanya dalam model Markov setiap keadaan (state) dapat terlihat langsung oleh pengamat, sehingga kemungkinan transisi antara keadaan menjadi satu-satunya parameter yang teramati. Dalam HMM, keadaan tidak dapat terlihat langsung meskipun parameter model diketahui, model tersebut tetap tersembunyi, tetapi hasil keluaran (output) yang bergantung pada keadaan tersebut dapat dilihat.

HMM terdiri dari dua proses stokastik. Proses stokastik pertama adalah rantai Markov yang ditandai oleh state-state dan probabilitas transisi.

State pada bagian rantai Markov secara eksternal tidak terlihat, karena itu

“tersembunyi”. Sedangkan proses stokastik kedua menghasilkan emisi diamati pada setiap saat, tergantung pada distribusi probabilitas tergantung pada state. Hal ini penting untuk melihat bahwa dominasi “tersembunyi” serta menciptakan Hidden Markov Model dirujuk ke state bagian Rantai

Markov , bukan dengan parameter pada model tersebut.

2.5.1 Tipe HMM Ada dua tipe HMM, yaitu HMM ergodic dan HMM kiri-kanan.

HMM ergodic Pada HMM ergodic perpindahan keadaan satu ke keadaan yang lain semuanya memungkinkan, hal ini ditunjukkan pada gambar berikut:

Sumber: (Paul, 1990) b. HMM kiri-kanan

Pada HMM kiri-kanan perpindahan keadaan hanya dapat berpindah dari kiri ke kanan, perpindahan keadaan tidak dapat mundur ke belakang, hal ini ditunjukkan pada gambar berikut: ³ S ¹ S

2 S

S S S S S ₁ ₂ ₃ ₄ ₅ Gambar 2.12. HMM model kiri-kanan

Sumber: (Paul, 1990)

Hidden Markov Model

(HMM) terdiri dari keadaan (state), peluang transisi (state probabilities), peluang emisi (emission

probabilities ), dan peluang awal(initial probabilities).

2.5.2 Elemen HMM

HMM didefinisikan sebagai berikut: 1.

N, jumlah state dalam model yang didefinisikan oleh

S S S

= { ,..., } ₁ _N 2.

M, jumlah simbol pengamatan yang berbeda tiap state, misalnya ukuran alfabet diskrit didefinisikan oleh

V = v v . Jika { ,..., } _{1 M} pengamatankontinu maka M adalah tak terbatas.

A a

3. = , dimana adalah Distribusi peluang keadaan transisi { } ij a _ij

distribusi yang state pada waktu t adalah , diberikan ketika 1 j keadaan pada waktu adalah

S . Struktur matriks stokastik ini _i t mendefinisikan hubungan struktur model. j N a = p q = S q = S ≤ (2.24)

| , 1 i ≤ , ^{ij [ t} ^{1 j i ]} ^t

4. Distribusi peluang simbol pengamatan pada masing-masing

b (k ) v state j , B = b (k ) dimana adalah peluang yang simbol j { j } _k diemisi dalam keadaan .

S _j

(2.25)

b ( k ) = p o = v | q = S , _{j [ t k t j ]} 1 ≤ j ≤ N ,

1 ≤ k ≤ M jika pengamatankontinu, maka kita harus menggunakan fungsi kepadatan peluang kontinu. 5. π = π dimana π adalah peluang

{ }

Distribusi keadaan awal i i

bahwa model tersebut berada dalam keadaan pada waktu _i

= didefinisikan oleh

π = p { q = i } , (2.26) _i ≤ i ≤ N

1 Adapun contoh Hidden Markov Model (HMM) digambarkan sebagai berikut:

Sumber : (Dymarski, 2011)

Hidden Markov Model (HMM) dapat dituliskan sebagai model

= ( A , B , ) . Dengan diketahuinya parameter-parameter N , M , A , B ,

π dan (Dymarski, 2011).

2.5.3 Fungsi Rekursif HMM

∑ ^{t j} ^N _i ^{ij t t}

O b i j

Ada tiga fungsi rekursif HMM, yaitu: 1.

Algoritma Forward Variabel algoritma forward : ) | , ,..., , ( ₂ ₁ λ α _{T i T i} S q O O O P = = . Berikut ini langkah-langkah dalam algoritma Forward:

 Inisialisasi ), ( ) ( ₁ ₁ O b i a _{i i} π

N i ≤ ≤ 1 (2.27)

 Induksi ), ( ) ( ) ( ₁ ₁ _{1 +}

α α α (2.28) dengan

  

  

S 1 + t

j _t

) ( ₁

) (i _t α

2 S ^j a ₁ _j a ₂ Nj a

S ¹ S

Sumber: (Rabiner, 1989) ^j

. .

1 1 − ≤ ≤ T t dan N j

Ilustrasi algoritma forward dapat dilihat pada gambar berikut: .

1 (2.29)

), ( ) | ( α λ N i ≤ ≤

O i P ₁

= ^N _i _T

 Terminasi

≤ ≤

∑

α ^N

2. Algoritma Backward Variabel algoritma Backward: β = P ( O , O ,..., O , q = S | λ ). _{t T T i} ₁ ₂ Berikut ini langkah-langkah dalam algoritma Backward: Inisialisasi

 i N β ( = i ) _T

1 ,

1 ≤ ≤ (2.30)

 _N   β α β _{t i j j t t} = ⋅ b ( O ) ⋅ ( j ) , (2.31) _,

Induksi

 ∑  _i ₁

 

t T T i j N

dengan = − 1 , − 2 ,..., 1 dan 1 ≤ , ≤ . Ilustrasi untuk algoritma backward dapat dilihat pada gambar berikut:

S a _i ₁ ¹ a _i ₂ S S _i ₂ . a _iN .

S _N

t t

β (i ) β ( j )

t t

Backward

Sumber: (Rabiner, 1989) 3.

Algoritma Baum Welch Algoritms Baum Welch melibatkan algoritma forward dan algoritma backward.

Untuk menggambarkan prosedur update parameter HMM, diperlukan variabel ξ ( j i , ) yang merupakan peluang _t gabungan state i dan state j terhadap peluang pengamatan pada model yang diberikan, dan γ (i ) state pada waktu dan _t merepresentasikan peluang berada di state i pada waktu t .

( j i , ) γ (i ) Secara matematis nilai ξ dan dapat _{t t} diformulasikan dengan persamaan berikut:

ξ λ ( i , j ) = P ( q = S , q = S | O , ) ^{t t i t j} ¹

(2.32)

α ( i ) α b ( O ) β ( j ) _{t i j j t t} _, ₁

P O

( | λ ) Variabel state:

γ ( i ) = P ( q = S | O , λ ) (2.33) _{t t i} _N = ( i , j )

∑ _j = ¹ Dengan menggunakan persamaan (2.32) dan (2.33),

maka persamaan untuk mengupdate parameter-parameter

A B π pada HMM dapat dirumuskan sebagai berikut:

( , , ) _T ₁ Probabilitas state transisi:

 −

ξ ( i , j ) _t _ij ∑ _{t =} ₁

a = , i N j M _{T −} ₁ 1 ≤ ≤ , 1 ≤ ≤ (2.34)

γ ( i ) _t

∑ _{t =} ₁ Simbol probabilitas emisi

BAB 2 LANDASAN TEORI 2.1. Suara - Penerapan Hidden Markov Model Untuk Pengenalan Ucapan