Pengembangan model markov tersembunyi pada identifikasi pembicara

PENGEMBANGAN MODEL MARKOV TERSEMBUNYI
P ADA IDENTlFlKASI PEMBICARA

MAHYUS IHSAN

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR

2006

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI
Dengan ini saya menyatakan bahwa Tesis Pengembangan Model Markov
Tersembunyi pada Identifikasi Pembicara, adalah karya saya sendiri dan belum
diajukan dalam bentuk apapun kepada Perguruan Tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir tesis ini.

Bogor, September 2006


Mahyus Ihsan
NRP. G651030034

ABSTRAK
Model Markov Tersembunyi merupakan suatu model yang tersusun dari
dua buah proses stokastik, yaitu rantai Markov untuk menampung kemajuan
temporal dan proses yang teramati untuk menampung variasi akustik. Model ini
dapat digunakan sebagai metode pencocokkan pola pada sistem identifikasi
pembicara. Setiap model mewakili referensi pola dari seorang pembicara didalam
sistem identifikasi pembicara.
Pada penelitian ini, Model Markov Tersembunyi dibangun terhadap enam
kelompok pembagi lebar frame dan overlap yang berasal dari kombinasi tiga lebar
frame (20 ms, 30 ms, dan 40 ms) dan 2 overlap antar frame (25% dan 50%).

Selanjutnya, tingkat identifikasi dan waktu prosesnya akan diamati terhadap setiap
kelompok pembagi tersebut.
HasH eksperimen menunjukkan bahwa sistem identifikasi pembicara yang
menggunakan metode


Model Markov Tersembunyi memberikan tingkat

identifikasi tertinggi dan waktu proses tercepat sebesar 98.9% dan 7.875 detik
pada lebar frame 40 ms dan overlap antar frame 25%.
Kata kunei: Identifikasi pembicara, deteksi aktifnya suara, pembentukan frame
dan window, lebar frame, overlap, Linear Predictive Coding, Model
Markov Tersembunyi, Segmental K-means, dan prosedur Forward

ABSTRACT
Hidden Markov Model (HMM) is a composition of two stochastic
processes, a hidden Markov chain, which accounts for temporal variability, and an
observable process, which accounts for spectral variability. This model can be
used as a pattern matching method in speaker identification systems. Each model
represents the template for each speaker in speaker identification systems.
In this research, Hidden Markov Model was built for six groups of frame
segment of the speech signal. These 'groups was generated from combination of
three frame wides (20 ms, 30 ms, and 40 ms) and two overlaps between frame
(25% and 50%). Then, identification accuracy and process time can be observed
for every group of frame segment.
The experiments result of speaker identification give the largest

identification accuracy of 98,9% which in a frame segment made by 40 ms and
25%.
Keywords:

Speaker identification, voice activacy detection, frame blocking and
windowing, frame wide, overlap, Linear Predictive Coding, Hidden
Markov Model, Segmental K-means, and forward procedure

© Hak cipta milik Institut Pertanian Bogor, tahun 2006
Hak cipta dilindungi
Dilarang mengutip dan memperbanyak tanpa izin tertulis dari
Institut Pertanian Bogar, sebagian atau seluruhllya dalam
bentuk apa pun, baik cetak, fotokopi, microfilm, dan sebagainya

PENGEMBANGAN MODEL MARKOV TERSEMBUNYI
PADA IDENTIFlKASI PEMBICARA

MAHYUS IHSAN

Tesis

Sebagai salah satu syarat untuk memperoleh gelar
Magister Sains pada
Program Studi Ilmu Komputer

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR

2006

Judul Tesis

Pengembangan Model Markov Tersembunyi pada Identifikasi
Pembicara
Mahyus Ihsan
G651030034

Nama
NIM


Disetujui
Komisi Pembimbing

[" Agw

bセGsゥ@

Aziz Kustiyo, S.Si, M.Kom
Anggota

M.Korn
Ketua

Diketahui
Ketua Program Studi
Pascasarjana IImu Komputer

todiputro, MS

Tanggal ujian : 30 Agustus 2006


Tanggal ruIns :

1 4 SEP 2006

PRAKATA
Puji dan syukur penulis panjatkan kepada ALLAH SWT atas segala
karuniaNya sehingga karya ilmiah ini berhasil diselesaikan. Topik yang dipilih
dalam penelitian yang dilaksanakan sej ak bulan Januari 2006 ini adalah
Pengembangan Model Ml!rkov Tersembunyi pada Identifikasi Pembicara.

Terima kasih penulis ucapkan kepada Bapak Ir. Agus Buono, M.Si, M.Kom
dan Bapak Aziz Kustiyo, S.Si, M.Kom selalru pembimbing yang telah banyak
meluangkan waktu dalam memberikan arahan dan masukan serta Bapak Irman
Hermadi, S.Kom, MS selaku penguji Iuar komisi yang telah banyak memberikan
masukan. Dan tak lupa penulis ucapkan terima kasih kepada ternan-ternan
mahasiswa Magister Ilmu Komputer yang telah membantu, baik secara langsung
maupun tidak langsung, terutama kepada Pak Agus Hasim, Pak Roni, Bung Jeff,
Ria, lin, Ibu Titi, Pak Marsani yang telah memberikan sumbangan suaranya.
Ucapan terima kasih juga disampaikan kepada istri Yenni Irawati yang dengan

sabar dan penuh pengertian memberi semangat dan dukungan serta seluruh
keluarga yang turut mendukung.
Semoga karya ilmiah ini bermanfaat.

Bogor, September 2006

Mahyus Ihsan
NRP. G651030034

RIWAYATHIDUP
Penulis dilahirkan di Banda Aceh pada tanggal 5 Oktober 1970. Putra
ketujuh dari delapan bersaudara dari orang tua Mahyuddin dan Murkinah. Penulis
beristrikan Yenni Irawati dan mempunyai dua orang anak putri dan putra.
Penulis menempuh pendidikan sarjana sains pada Jurusan Matematika
FMIPA Institut Teknologi Sepuluh Nopember Surabaya mulai dari tahun 1990
hingga 1997.
Semenjak tahun 1997 hingga saat ini, penulis bekerja sebagai staf pengajar
pada Jurusan Matematika FMIPA Universitas Syiah Kuala Banda Aceh.

DAFTARISI

Halaman

DAFTAR TABEL ..........................................................................................

xii

DAFTAR GAMBAR ......................................................................................

xiii

DAFTAR LAMPlRAN ..................................................................................

XIV

IPENDAHULUAN
1.1 Latar Belakang ........ ................ ...... .............. .......... ................ ........ ......

I

1.2 Tujuan Penelitian ...... ............ ............ .............. ............ .............. ..........


2

1.3 Ruang Lingkup Penelitian .. .......... .............. ............ ............ ................

3

1.4 Manfaat Penelitian ..... ....... ......... ....... ..... ......... ................ .......... ..........

3

2 TINJAUAN PUSTAKA
2.1 Prinsip Dasar Identifikasi Pembicara .. ........ ................ .............. .........

4

2.2 Representasi Sinyal Ucapan ..............................................................

6


2.3 Akuisisi Data Ucapan .........................................................................

8

2.4 Ekstraksi Inforrnasi ............................................................................

9

2.4.1 Pemrosesan Awal ......................................................................

10

2.4.2 Frame Blocking and Windowing ..............................................

12

2.4.3 Ekstraksi Ciri ............................................................................

14


2.4.4 Pemrosesan Akhir .....................................................................

17

2.5 Proses Stokastik ..................................................................................

18

2.6 Rantai Markov...................................................................................

19

2.7 Hidden Markov Model .. .......... ...................... ............ .............. ..........

20

2.7.1 Pelatihan pada Model HMM .............. .............. .............. ..........

21

2.7.2 Identifikasi Pembicara .............. .......... ...... .................... ........ ....

24

2.7.3 Pengujian Sistem Identifikasi Pembicara .................................

26

3 METODOLOGI PENELITIAN
3.1 Kerangka Pemikiran .......... .......... ...... ................ .......... .............. ........

28

3.1.1 StudiPustaka ...........................................................................

29

3.1.2 Akuisisi Data Pengucapan ...... .............. ............ .............. .........

29

3.1.3 Ekstraksi Inforrnasi .... .............. ................ .......... .......................

30

3.1.4 Koefisien Cepstral ...... .................... ........ .............. ............ ........

30

3.1.5 Pelatihan Model ...................................................................... ·

30

3.1.6 Identifikasi dan Pengujian ........................................................

31

3.2. Bahan dan Alat .................................................................................

31

3.3. Waktu dan Tempat Penelitian ...........................................................

31

4 PERANCANGAN DAN IMPLEMENTASI SISTEM
4.1 Data ....................................................................................................

33

4.2 Ekstraksi Informasi ............................................................................

33

4.2.1 Deteksi Aktifnya Suara .............................................................

34

4.2.2 Frame Blocking and Windowing ..............................................

35

4.2.3 Ekstraksi Ciri ...... .... ...... ...... ....... ...... ........ ... ...... ........ ........... .....

37

4.2.4 Pernrosesan Akhir .....................................................................

37

4.3 Hidden Markov Model ......................................................................

38

4.3.1 Pelatihan pada Model HMM ....................................................

38

4.3.2 Identifikasi Pembicara ..............................................................

40

4.3.3 Pengujian Sistem Identifikasi Pembicara .......... ............. ..........

40

4.4 Program Aplikasi .................................................................................

41

5 HASIL DAN PEMBAHASAN
5.1 Ekstraksi Informasi ..............................................................................

42

5.2 Pelatihan pada Model HMM ...............................................................

44

5.3 Pengujian Sistem .................................................................................

45

6 SIMPULAN DAN SARAN
6.1 Simpulan ..............................................................................................

49

6.2 Saran ................................................................................... :................

50

DAFTARPUSTAKA......................................................................................

51

LAMPlRAN ....................................................................................................

53

DAFTAR TABEL
Berbagai penerapan metode pencocokkan pola pada sistem identifikasi
pembicara ... ......... ......... ............. ..... ............ ......... ........... .............. ...............

6

2

Interval frekuensi sampling dan jumlah sampel yang dihasilkan .............. .

33

3

Ketentuan dan struktur sinyal ucapan pada proses V AD .......................... ..

34

4

Estimasi jumlahframe dan jumlah sampel pada metode V AD ................ ..

34

5

Iumlahframe danjumlah sampel per frame dari 6 kelompok pembagi .
frame ................................ ,::..........................................................................

36

6

Inisialisasi posisi pusat cluster pada lebar waktu 20 ms .............................

39

7

Inisialisasi posisi pusat cluster pada lebar wakh! 30 ms .............................

39

8

Inisialisasi posisi pusat cluster pada lebar wakh!40 ms .............................

40

9

Wakh! proses ekstraksi informasi pada enam kelompok pembagi .............

42

10

Waktu proses ekstraksi informasi pada lebar waktu 20 ms ........................

43

11

Waktu proses ekstraksi infomlasi pada lebar waktu 30 ms ........................

43

12

Waktu proses ekstraksi informasi pada lebar waktu 40 ms ........................

44

13

Waktu proses pelatihan model HMM pada enam kelompok pembagi .......

44

14

Hasil pengujian identifikasi pada empat kondisi data pelatihan dan
pengujian .....................................................................................................

15

Hasil pengujian identifikasi pada tiga kelompok data berbeda dimana
data pelatihan dan pengujian tidak ditambahkan noise ...............................

16

46

47

Hasil pengujian identifikasi pada tiga kelompok data berbeda dimana
data pelatihan dan pengujian ditambahkan noise ........................................

48

DAFTAR GAMBAR
1

Stru kt ur dasar SIS
. tem I'd enh'fik'
I aSI pemb'Icara ............................................. .

4

2

Stru ktur pendaft aran pa d
'
a slstem
I'denh'fik'
I aSI pemb'lCara .......................... .

5

3

Representasi dalam tiga buah state ............................................................ .

7

4

Spectrogram menggunakan metode Welch dan amplitudo ucapan ........... .

7

5

Bagian dasar konverter analog ke digital ................................................... .

9

6

Tahapan-tahapan dalam ekstraksi informasi .............................................. .

9

7

Suatu sinyal ucapan sebelum dan sesudah dikenakan proses deteksi
aktifnya suara ...... ....... ......... ..... .......... ...... ..... ... ...... ..... ... ........... ........... .......

11

8

Pembentukanframe pada sinyal ucapan .................................................... .

13

9

Window Hamming untuk 661 sampel (lebarframe 30 ms) ........................ .

14

10

Frame pertama sebelum dikenakan window Hamming dan setelah
dikenakan window Hamming ......................................................................

14

II

Topologi model HMM jenis kiri ke kanan dengan empat state ..................

20

12

Topologi model HMM jenis kiri ke kanan pada kata yang terbentuk dari
empat fonem ................................................................................................

21

13

Tahapan pembentukan satu barisan observasi dari satu sinyal ucapan .......

22

14

Diagram alir prosedur pelatihan untuk pendugaan parameter B(.) .............

24

15

Diagram alir model HMM pada identifikasi pembicara ............ ......... ........

25

16

Diagram alir penelitian pengembangan model dan prototipe identifikasi
pembicara ........ ....... .... .............. ........... .... ......... ............ ............. ......... .........

28

17

Perancangan model sistem identifikasi pembicara ......................................

32

18

Struktur dari isifile data pelatihan untuk setiap kelompok pembagiframe

37

19

Penentuan empat state pada sinyal ucapan dan topologi model HMM
untuk kata "ujar" .........................................................................................

38

DAFTAR LAMPIRAN
Tabel Estimasi jumlah sampel dan lebar ji'ame pada metode VAD ...........
2

Tabel waktu proses pelatihan dan jumlah iterasi re-estimasi Viterbi untuk
setiap pembicara terhadap enam kelompok pembagi ..................................

3

54

56

Tabe! nilai ambang batas (Threshold) pada enam kelompok pembagi
lebar frame dan overlap ..............................................................................

58

4

Algoritma Viterbi (Rabiner 1989) ...............................................................

59

5

Gambar kekonvergenan setiap pembicara untuk enam kelompok pembagi

6

lebar frame dan overlap ....................................... , .......... ........ ..... ... ...... .......

60

Gambar Tampilan aplikasi identifikasi pembicara ......................................

63

BAB 1 PENDAHULUAN
1.1

Latar Beiakang

Identitas memiliki peranan yang sangat penting dalam kehidupan manusia.
Proses pengenalan terhadap identitas seseorang sering dijumpai pada berbagai
bentuk aplikasi pelayanan (pengaksesan fasilitas), misalnya pengamanan akses
gedung (ruang), sistem komputer, penggunaan mesin ATM, absensi, dan forensik.
Penerapan proses tersebut diperlukan untuk memastikan agar fasilitas hanya dapat
diakses oleh pengguna yang berhak sehingga terhindar dari pencurian dan
manipulasi informasi (data).
Adanya perkembangan teknologi perangkat keras (device) dan pengenalan
pola (pattern recognition) telah memotivasi orang-orang untuk melakukan
pengalihan proses pengenalan identitas dari cara konvensional (password, PIN,
kunci) menjadi secara biometrik (suara, sidik jari, tanda tangan, wajah, retina, dan
lain-lain). Pengalihan tersebut disebabkan adanya kelebihan biometrik daripada
konvensional, yaitu tidak gampang lupa/hilang dan ditiru. Biometrik merupakan
pengenalan seseorang berdasarkan karakteristik fisiologi atau perilaku manusia
atau gabungan dari keduanya (Jain et 01. 2004).
Ditinjau dari konteks aplikasi, proses pengenalan identitas terbagi atas dua,
yaitu proses identifikasi (identification) dan verifikasi (verification). Pada proses
identifikasi, sistem mengenali seseorang dengan cara mencari referensi pola
(template) yang sesuai dengannya dari seluruh pengguna di dalam basisdata.

Sedangkan pada proses verifikasi, sistem mengesahkan identitas seseorang dengan
cara membandingkan data biometrik yang diambil dan template biometrik
miliknya yang disimpan di dalam sistem basisdata (Jain et al. 2004).
Proses identifikasi dengan suara memiliki keuntungan secara ekonomis
dibandingkan dengan identifikasi secara biometrik lainnya, yaitu biaya peralatan
yang relatif murah di mana hanya dengan menambahlcan kartu suara (sound card)
dan mikrofon pada device (komputer) yang digunakan. Sedangkan proses
identifikasi dengan karakteristik lainnya, membutuhkan alat tambahan yang lebih
mahal, misalnya scanner. Keuntungan lainnya adalah aplikasi dapat diakses dari
jarakjauh dengan menggunakanjaringan telepon atau internet (Peacocke dan Graf

2

1990; Cox et at. 2000). Ketahanan (robustness) proses identifikasi dengan suara
bergantung pada adanya perhatian terhadap berbagai faktor yang menyebabkan
terjadinya variasi sinyal suara, yaitu inkonsistensi ruang akustik (misalnya
munculnya noise), perubahan channel transmisi

(misalnya menggunakan

mikrofon yang berbeda saat pelatihan dan identifikasi), kondisi pembicara (flu
atau tidak), kecepatan pengucapan (lambat, sedang, dan cepat), intonasi (berirama,
datar, keras, lemah, dan emosional), usia pembicara dan peniruan suara (mimicry)
(Campbell 1997; Cox et al. 2000).
Ucapan merupakan rentetan bunyi gelombang suara yang berbentuk sinyal
analog. Selanjutnya, sinyal analog dikonversikan menjadi data digital. Rentetan
bunyi dapat dipilah-pilah menjadi bagian-bagian yang kecil (frame) berdasarkan
satuan ucapan yang dipilih. Kemunculan bagian-bagian tersebut dapat dipandang
sebagai kejadian stokastik, yaitu kemunculannya sekuensial dan kemunculan satu
bagian memiliki hubungan dengan kemunculan bagian sebelumnya.
Salah satu metode pencocokkan pola yang dapat digunakan di dalam
model pengenalan pembicara adalah Hidden Markov Model (HMM). Di samping
itu, terdapat pula metode lainnya, yaitu dynamic time warping (DTW), artificial

neural networks (NN), dan vector quantization (VQ) (Campbell 1997). Beberapa
sistem identifikasi pembicara yang telah dikembangkan dengan menggunakan
metode-metode tersebut memiliki tingkat identifikasi mencapai 99% (Campbell
1997).
Di dalam penelitian ini akan digunakan model HMM sebagai metode
pencocokan pola pada pengembangan identifikasi pembicara. Pemilihan metode
tersebut dikarenakan model HMM merupakan model stokastik temporal sehingga
model tersebut cocok untuk digunakan sebagai metode pencocokkan pola pada
sis tern identifikasi dengan ucapan.

1.2

Tujuan Penelitian
Tujuan utama dari penelitian ini adalah mengembangkan model HMM

sebagai model pendekatan pencocokan pola (pattern matching) pada prototipe
sistem identifikasi pembicara dengan metode text-dependent. Dalam sistem

3

identifikasi pembicara ini digunakan meta de Linear Predictive Coding (LPC)
sebagai metode ekstraksi ciri.

1.3 Ruang Lingkup Penelitian
Ruang lingkup penelitian meliputi:
Identifikasi pembicara dilakukan dengan menggunakan kata yang
bersifat text-dependent, yaitu satu kata yang sarna untuk tahap pelatihan
sistem dan tahap pengidentifikasian pembicara.
2

Model suara pembicara dibentuk dari 6 orang dewasa yang terdiri atas 3
pria dan 3 wanita.

3

Pembentukan frame sinyal ucapan secara seragam dilakukan terhadap
tiga lebar waktu yang berbeda, yaitu 20 ms, 30 ms dan 40 ms. Dan

overlap antar frame adalah 25% dan 50%.
4

Pembahasan difokuskan pada pelatihan dan pengujian model HMM.

5

Unit bunyi yang digunakan adalah fonem.

6

Pengujian juga dilakukan terhadap data ucapan yang ditambahkan noise
dengan signal-to-noise ratio (SNR) sebesar 10 dB.

7

Sistem yang dikembangkan bam sampai model komputasi yang
diimplementasikan dengan menggunakan perangkat lunak Matlab.

1.4

Manfaat Penelitian
Model komputasi yang dihasilkan dalam penelitian ini diharapkan dapat

dikembangkan lebih lanjut pada pengembangan aplikasi yang berbasis ucapan,
khususnya pada identifikasi pembicara.

BAB 2 TINJAUAN PUSTAKA
2.1

Prinsip Dasar Identifikasi Pembicara
Proses identifikasi pembicara adalah suatu proses untuk mengenali

seseorang berdasarkan suara yang direkam (capture). Cara kerja proses ini adalah
mencari template ucapan yang sesuai dari seluruh pengguna di dalam basisdata
(Jain et al. 2004). Output dari proses ini yaitu seseorang dapat dikenali atau tidak.
Metode identifikasi pembicara dapat dibagi menjadi dua bagian, yaitu textdependent dan text-independent. Pada metode text-dependent, pembicara diminta

mengucapkan satu kata atau rangkaian kata yang sama untuk tahap pelatihan
sistem dan pengidentifikasian (Furui 1997b). Pada metode text-independent,
rangkaian kata yang diucapkan berbeda antara tahap pelatihan sistem dan
pengidentifikasian.
Secara umum, struktur dasar dari sistem identifikasi pembicara terdiri atas
dua tahap utama (Gambar I), yaitu tahap ekstraksi ciri dan pencocokkan pola.
Ekstraksi ciri merupakan proses mengekstraksi data hasil akuisisi menjadi
berukuran lebih kecil. Sebelum proses ini dilakukan, terlebih dahulu data dipilahpilah dalam sejumlahframe yang berukuran sama agar karakteristik ucapan dapat
dipertahankan. Pencocokkan pola adalah proses mencocokkan karakteristik
ucapan yang belum dikenal terhadap koleksi template ucapan dari pembicara yang
sudah dikenal oleh sistem.
Kemiripan
Template atau

referensi pol a
(pembieara #1)

Hasil
identifikasi
(10 Pembieara)

Template atau
referensi pola
(pembieara #N)

Gambar 1 Struktur dasar sistem identifikasi pembicara (Furui 1997b)

5

Sistem identifikasi pembicara juga menyajikan dua sesi yang berbeda,
yaitu sesi pertama menunjukkan sesi pendaftaran (fase pelatihan) dan sesi kedua
menunjukkan sesi operasi (fase pengujian). Di dalam fase pelatihan (Gambar 2),
sistem membangun template untuk setiap pembicara berdasarkan contoh (sampel)
suara yang diberikan oleh pembicara yang bersangkutan (Agustini 2006).
Ekstraksi
ciri

Pelatihan
pola

Templatel
referensi pola

Gambar 2 Struktur pendaftaran pada sistem identifikasi pembicara

Berbagai metode pencocokkan pola telah diterapkan pada sistem
identifikasi pembicara mulai tahun 1974 hingga 1996 dengan tingkat identifikasi
mencapai 99% (Campbell 1997). Sistem identifikasi pembicara pada kata yang
bersifat text-dependent dan jumlah populasi 10 orang telah dikembangkan oleh
Atal (1974) dengan menggunakan metode Pattern Match sebagai metode
pencocokkan pola dan Cepstrum sebagai metode ekstraksi ciri (Campbell 1997).
Penerapan metode dynamic time warping (DTW) sebagai metode pencocokkan
pola telah dilakukan oleh Furui (1981) (Furui 1997a). Penerapan metode vector
quantization (VQ) sebagai metode pencocokkan pola telah dilakukan oleh Matsui
dan Furui (1990,1991), Rosenberg dan Soong (1987), dan Shikano (1985) (Furui
1997a). Penerapan metode Hidden Markov Model (HMM) sebagai metode
pencocokkan pola telah dilakukan oleh Che dan Lin (1995) dan Colombi et al.
(1996)

(Campbell

1997). Pada Tabel

1 dicantumkan berbagai metode

pencocokkan pola yang telah diterapkan dalam sistem identifikasi pembicara
(Campbell 1997).

6
Tabel I Berbagai penerapan metode pencocokkan pola pada sistem identifikasi
pembicara

._-----Stmrcc

Org.

Ala11974 (II

AT&T

f」オBャイセ@

cBGiセエイャュ@

Method

Input

T'::)(1

PIIUI,lIH J..f:llch

I.ub

l)cfX!ndent

l.:ib

hldcpllndcnl

10

i: RoOセcjNZウ[@

I ()

v; O.2%!'iil:-;

-----_."""-r..f.nkel amJ

S-T1

Duv.i,.. 197')

1.1'

LtlllC
tセョ@

v.2%.«fj\,'i.

Srilli!llh."'$

1Jk s(n-k)
k=l

Di mana sen) adalah sinyal ucapan yang sesungguhnya dan

s(n)

adalah sinyal

ucapan hasil estimasi. Selanjutnya, e(n) diperoleh dari:
p

e(n) = sen) - sen)

= sen) - La, s(n-k)

(18)

k=l

Dengan menggunakan transformasi z, persamaan (18) menjadi:
E(z)

p

p

k=1

k=I

= S(z) - La, z-' S(z) = S(z) [ 1- La, z-' 1

(19)

Sehingga diperoleh fungsi transfer kesalahan, yaitu:
A(z)

E(z)

P

S(z)

'=1

= - - = 1- La,z-'

(20)

Pendekatan dasar di dalam menemukan koefisien penduga adalah dengan
meminimalkan kesalahan pendugaan mean-squared pada frame sinyal ucapan.
Bentuk persamaan sinyal ucapan untuk setiap frame adalah:
Sn(m) = sen + m)
(21)

en(m) = e(n + m)
Persamaan kesalahan pendugaim mean-squared adalah:

En =

セ・[HュI@

=

セ{ウLHュIM

t,akS,,(m-k)r

(22)

Untuk menemukan koefisien penduga, persamaan (22) diturunkan terhadap setiap
koefisien ak dan hasilnya bernilai 0, yaitu:
(JE" =0, k
(Ja k

= 1,2, ... , P

17

Sehingga diperoleh:
p

Ls"(m-i)s,, (m)= La k Ls,,(m-i)s,,(m-k)
"'

k",]

(23)

III

Dengan memandang bentuk Ls,,(m-i)s,,(m-k) merupakan covariance dari
m

bentuk sn(m), yaitu:

9" (i,k)

=Ls,,(m-i)s,,(m-k)
m

Bentuk persamaan (23) dapat ditulis sebagai:
p

9,,(i,0)= La k 9" (i,k)

(24)

k=l

Persamaan (24) merupakan p buah persamaan yang dapat diekspresikan ke dalam
bentuk persamaan matriks. Ada tiga metode yang dapat digunakan untuk mencari
koefisien penduga, {a k

},

dari persamaan (24), yaitu: metode autocorrelation,

covariance, dan rekursi Levinson-Durbin (Nilsson dan Ejnarsson 2002).

2.4.4 Pemrosesan Akhil'
Tahap pemrosesan akhir digunakan untuk mengkonversikan koefisien
LPC menjadi koefisien cepstral. Hal ini diyakini dapat meningkatkan keandalan
dari aplikasi yang akan dibuat (Rabiner dan Juang 1993). Tahap ini terdiri atas
dua proses (Rabiner dan Juang 1993), yaitu:
Konversi dari koefisien penduga (parameter LPC) ke dalam bentuk koefisien

cepstral
Rumus yang digunakan, secara berturut-turut (persamaan (25), (26), dan (27»:
co=ln(5

2

'

(25)
(26)

(27)

m>p

Pada persamaan (25), (52 adalah gain pada model LPC. Nilai (52 dapat
diperoleh dari energi estimasi error setiap frame sinyal ucapan

(52

= E)

MathWorks, Inc. 2004), sehingga persamaan (25) dapat diubah menjadi:

(The

18

Co

= -In (E)

(28)

Tanda negatif disertakan ke dalam persamaan (28) dengan maksud untuk
menghindari nilai koefisien

Co

bernilai negatif, karena energi estimasi error

(E) setiapframe sinyal ucapan, memiliki kecenderungan nilai antara 0 < E < 1.

2 Pembobotan parameter cepstral
Proses ini dibutuhkan untuk meminimalkan sensitivitas dari koefisien cepstral
urutan kecil terhadap seluruh kemiringan spectral dan sensitivitas dari
koefisien cepstral urutan besar terhadap noise.
Rumus yang digunakan adalah sebagai berikut:
(29)
(30)

Proses Stokastik

2.5

Proses stokastik dengan waktu clislcrit adalah suatu koleksi {X,

:tE

T} dari

peubah acak yang terurut berdasarkan indeks dislcrit t dengan t adalah bilangan
bulat positif. Di dalam proses stokastik secara umum, distribusi dari setiap peubah
X t dapat berubah-ubah dan berbeda untuk setiap waktu t.
Proses stokastik dikatakan bebas dan berdistribusi identik jika memenuhi
kondisi berikut ini:
p(X t = X" X'+l

= x,+!, ... , Xt+h = X'+h) = {=o
n" p(X =X,+i)

(31)

untuk semua t; h 2:: 0; semua Xtt+h dan beberapa distribusi p(X = x) yang bebas
pada indeks t.
Proses stokastik {X, : t

セ@

I} dikatakan seimbang jika dua koleksi peubah

+/t,""X, +/t} memiliki distribusi peluang
acak {X, I ,X,2 , ... ,X,n } clan {X,+/t'X,
1
2
/I

bersama yang sarna untuk seluruh nilai n clan h (Bilmes 1999).
Di dalam kasus waktu-kontinyu, keseimbangan dicapai pada kondisi
Fx

(a)=Fx
Il: n

'1:11 +h

(a) untuk seluruh a di mana F(.) adalah fungsi distribusi

komulatif untuk peubah acak dan a adalah beberapa vektor konstan dengan
panjang n. Di dalarn kasus waktu-dislcrit, keseimbangan dicapai pada kondisi

19

P(Q'I =ql ,Q'2 =q2,· .. ,Q,,, =qn )=P(Q" +h =ql , Q'2 +h =q2 ,···,Q,,,+h =qn}

untuk

selumh tJ, 1" ... , tn ; n > 0 dan h > 0 (Bilmes 1999).

2.6

Rantai Markov
Rantai Markov (Markov chain) atau sering juga disebut sebagai proses

Markov adalah suatu proses stokastik jika memenuhi: kondisi pada saat state s"

state berikutnya (S'+I) bebas terhadap state sebelurnnya (S'_I) (Sirl 2005).
Menurut Costello (2004), rantai Markov dikatakan sebagai proses stokastik yang
memiliki dua buah karakteristik, yaitu:

I

Proses terdiri atas finite state di mana indeks dari setiap state adalah bilangan
bulat non-negatif.

2 Proses mengikuti bentuk Markovian, yaitu ketika proses sedang berlangsung
pada state ke-i, terdapat peluang gabungan antara proses pada saat itu dengan
proses peralihannya pada state ke-j, yaitu Pij.

Suatu rantai Markov dikatakan diskret (Diskrete-Time Markov Processes)
jika mang dari proses Markov tersebut adalah himpunan yang terbatas (finite) atau
tercacah (countable), dengan himpunan indeks adalah T={O, 1,2, ... }. Jika nilai
suatu state pada saat tertentu hanya tergantung pada satu state sebelunmya, maka
disebut sebagai rantai Markov orde satu (first orde Markov chain) (Buono 2005).
Rantai Markov orde satu dapat dimmuskan sebagai:

P(q,

=j Iq,_1 =i, q