2.4.2. Pemodelan Akustik
Dalam sistem pengenalan ucapan automatis automatic speech recognitionberbasis statistik, ucapan diwakili oleh beberapa urutan
pengamatan fitur akustik O , berasal dari urutan kata-kata W . Sinyal akustik dirumuskan oleh:
2.15
Akan tetapi, karena |
O W
P sulit untuk dimodelkan secara
langsung, maka dapat menggunakan aturan Baye Baye’s Rule dapat ditulis sebagai berikut:
2.16
Keterangan:
| W
O P
= probabilitas bahwa ketika string kata
W
diucapkan
W P
= probabilitas bahwa string kata
W
akan diucapkan
Dalam persamaan 2.13,
| W
O P
adalah probabilitas pengamatan dan dievaluasi berdasarkan pemodelan akustik
acoustic modelling, sedangkan
W P
adalah probabilitas sebagai model bahasa language model.
Model akustik diimplementasikan dengan menggunakan pendekatan model seperti Hidden Markov Model HMM, Artificial
Neural Network ANN, jaringan Bayesian dinamis DBN, mendukung mesin vektor SVM.
HMM digunakan dalam beberapa bentuk atau yang lain di setiap keadaan state dari sistem pengenalan ucapan.
} |
{ max
arg O
W P
W
w
=
. |
max arg
W P
W O
P W
w
=
HMM pada dasarnya perluasan dari rantai Markov yang merupakan model stokastik. Biasanya dalam model Markov setiap
keadaan state dapat terlihat langsung oleh pengamat, sehingga kemungkinan transisi antara keadaan menjadi satu-satunya
parameter yang teramati.
Rabiner 1989 mengemukakan bahwa transisi pada Rantai Markov yaitu:
a. Transisi dari suatu keadaan tergantung pada keadaan
sebelumnya. 2.17
b. Transisi keadaan bebas terhadap waktu.
2.18
Berikut ini adalah contoh gambar dari rantai Markov.
Gambar 2.9. Rantai Markov Sumber: Monika, 2012
2.4.3. Pemodelan ucapan
Dalam pemodelan pengucapan pronounciation modelling, selama pengenalan, urutan simbol-simbol yang dihasilkan oleh model
12
a
13
a
31
a
21
a
32
a
23
a
33
a
22
a
11
a
1
2
3
] |
[ ......]
| |
[
1 2
1 i
t j
t k
t i
t j
t
S q
S q
P S
q S
q S
q P
= =
= =
= =
− −
−
] |
[
1
i q
S q
P a
t j
t ij
= =
=
−
akustik HMM dibandingkan dengan serangkaian kata yang ada dalam kamus untuk menghasilkan urutan kata-kata yang hasil akhir
sistem berisi informasi tentang kata-kata yang dikenal ke sistem dan bagaimana kata-kata yang diucapkan yaitu apa yang representasi
fonetik mereka.
Gales dan Young 2007 mengemukakan bahwa setiap kata yang diucapkan didekomposisi menjadi urutan suara dasar yang
disebut basis phones. Urutan ini disebut pengucapannya. Untuk memungkinkan kemungkinan beberapa pengucapan-pengucapan
dapat dihitung:
∑
=
Q
W Q
P Q
O p
W O
p |
| |
2.19
di mana penjumlahan selesai semua urutan pengucapan berlaku untuk w ,
Q
adalah urutan pengucapan partikular,
, |
|
1
Wl q
P W
Q P
l
w L
l
∏
=
=
2.20 dan di mana masing-masing pengucapan berlaku untuk kata
Wl
.
Setiap base phone diwakili oleh kepadatan kontinu HMM dengan parameter probabilitas transisi dan distribusi observasi output
digambarkan sebagai berikut:
Gambar 2.10. HMM model basis phone
Model Markov
Sequence Vector
Acoustic
1 2
3 4
5
= O
12
a
23
a
34
a
45
a
22
a
33
a
44
a
1
O
2
O
3
O
4
O
5
O
1 2
O b
2 2
O b
3 3
O b
4 4
O b
5 4
O b
Dalam operasi, HMM membuat transisi dari kondisi saat ini ke salah satu keadaan state yang terhubung setiap langkah waktu.
Kemungkinan membuat transisi stertentu dari state ke state diberikan oleh probabilitas transisi
{ }
ij
a . Masuk ke state, fitur vector
yang dihasilkan dengan menggunakan distribusi terkait dengan keadaan state yang masuk,
{ }
j
b
.
Bentuk proses menghasilkan asumsi bebas bersyarat standar untuk HMM:
• keadaan state yang bersyarat independen dari semua state-state lain mengingat keadaan sebelumnya
• pengamatan bersyarat independen dari semua pengamatan lainnya mengingat keadaan yang dihasilkan itu.
2.4.4. Model Bahasa