IMPLEMENTASI TEKNOLOGI SPEECH PADA APLIK

Tugas Akhir - 2012

IMPLEMENTASI TEKNOLOGI SPEECH PADA APLIKASI ASISTEN PRIBADI
KOMPUTER DENGAN SPEECH RECOGNITION ENGINE BERBASIS HIDDEN
MARKOV MODEL
Anak Agung Ngurah Bagus Maha Praja Dinata¹, Suyanto², Agung Toto Wibowo³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Memodelkan sinyal model untuk pengenalan suara adalah suatu tugas yang menantang.
Pemodelan tersebut akan menuntut kita sejumlah besar informasi tentang masalah yang akan
dimodelkan. Sistem pengenalan suara pada umumnya mengasumsikan bahwa sinyal suara adalah
realisasi dari beberapa pesan, yang terkodekan dalam satu atau lebih sekuen simbol simbol.
Simbol-simbol ini disebut dengan fitur suara (sekuen vector suara yang teramati). Dalam
pengenalan suara berbasis HMM, biasanya diasumsikan bahwa sekuen vektor suara yang teramati
tersebut akan diberkoresponden dengan setiap kata, yang dipresentasikan oleh suatu model
suara yang disebut Markov Model.
Dalam tugas akhir ini, fitur-fitur suara akan dianalisa menggunakan MFCC (Mel Frequency
Cepstral Coefficient), dan digunakan algoritma Viterbi untuk mencapai jalur rangkaian terbaik
dari sekuen simbol-simbol, yang berkorespondensi dengan suatu kata, yang dikembalikan sebagai
hasil pengenalan.
Kata Kunci : fitur, MFCC, HMM, Algoritma Viterbi


Abstract
Modeling signal model for speech recognition is challenging task. It gives us great deal of
information about problem being modeled. Speech recognition systems generally assume that the
speech signal is a realization of some mesage encoded as a sequence of one or more symbols.
These symbols called speech features (sequence of observed speech vectors). In HMM based
speech recognition, it is assumed that the sequence of observed speech vectors corresponding to
each word, represented by a speech model called Markov Model.
In this final project, speech feature analysed with MFCC (Mel Freuency Cepstral Coefiecient), and
Viterbi Algorithm is used to find the best path of symbols sequence corresponding to a word and
return is as recognition result.
Keywords : feature, MFCC, Viterbi Algorithm

Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)

Program Studi S1 Teknik Informatika

Tugas Akhir - 2012


BAB I
PENDAHULUAN

1.

Latar belakang masalah
Salah satu perkembangan teknologi terbesar saat ini adalah mencoba
membuat sistem komputer, yang dalam hal ini mesin, untuk dapat mengenali
perintah yang diucapkan user dan kemudian memberikan respon yang sesuai
perintah tersebut. Teknologi ini disebut speech recognition system. Dengan
menerapkan teknologi ini, seseorang tidak perlu menekan tombol mouse atau
mengetik di keyboard jika menginginkan komputer melakukan sesuatu, tetapi
cukup memberikan perintah suara dan komputer akan menjalankannya.
Speech recognition system adalah proses pengubahan suatu sinyal suara
akustik yang diterima oleh alat input microphone, menjadi serangkaian data
masukan untuk dikenali oleh mesin (contohnya: byte, binary code, dll), untuk
kemudian diterjemahkan dan dilaksanakan aksi yang sesuai seperti dengan yang
telah ditentukan. Sistem pengenalan suara (speech recognition system) bukanlah
teknologi baru, dan telah dikembangkan lebih dari empat dekade.
Pada awal tahun 1970-an diperkenalkan suatu metode statistik yang disebut

dengan Hidden Markov Model. Penerapan metode ini dalam teknologi speech baru
diimplementasikan dan menjadi pupoler beberapa tahun ini. Hidden Markov Model
memberikan struktur matematis yang sangat kaya dan karenanya dapat digunakan
untuk membentuk dasar-dasar teori untuk berbagai aplikasi [UCHAT6,05].
Hidden Markov Model merupakan model statistik dimana sistem yang
dimodelkan diasumsikan sebagai Markov proses dengan parameter yang tidak
diketahui, dan bertujuan untuk menentukan parameter-parameter tersembunyi
(hidden)

tersebut

berdasarkan

parameter-parameter

yang

dapat

diketahui


[RAB2,01]. Pada speech recognition engine, sinyal suara input akan mengalami
front-end processing. Hasil dari front-end processing/frequency analysis berupa
segmen-segmen suara (phonemes) dan fitur-fitur yang kemudian akan dikirimkan
ke decoder untuk dilakukan pengenalan pola terhadap model yang dibentuk dengan
15

Fakultas Teknik Informatika

Program Studi S1 Teknik Informatika

Tugas Akhir - 2012

HMM (pattern reconitiori) dengan berdasar pada acoustic model, language model,
dan lexicon. Proses recognition sendiri dilakukan dengan memaksimalkan nilai
probabilitas P(O|λ) dari suatu sekuen pengamatan signal suara O = O1,O2,..Or
terhadap model yang diberikan A=(A,B,π), dimana A adalah matrik probabilitas
transisi (aij) = P(qt=j \ qt-i=i)> B adalah set parameter untuk menentukan probabilitas
bj(0t) = P(ot \ qt =j), dan π adalah initial state distribution (πi) = P(qi = i). Sekuen
state dengan P(O\A) terbaik akan dikembalikan sebagai satu pola kata yang dikenali

dan dinyatakan dalam text untuk kemudian diproses di level aplikasi untuk
dilakukan respon [RAB2,05].
Fokus pembahasan dan pengerjaan akan dilakukan pada speech processing
dan aplikasinya, yang melibatkan proses statistical modeling untuk pengenalan
sinyal suara. Dalam penerapannya, dilakukan dengan memanfaatkan komponenkomponen serta toolkit yang dapat diperoleh secara gratis dari internet seperti Java
SAPI sebagai antarmuka ataupun template-template dataset model yang diperlukan
untuk keseluruhan proses. Analisis yang membedakan dengan referensi-referensi
yang ada, yaitu parameter-parameter uji seperti word error rate (WER),
penggunaan memori akan diukur secara langsung pada percobaan tanpa perlu
perekaman suara terlebih dulu, serta dilakukan penelitian terhadap frekuensi sample
suara manusia yang paling cocok terhadap sistem pengenalan suara dengan model
HMM.

2.

Perumusan masalah
Implementasi rumusan Tugas Akhir ini berangkat dari konsep dasar bahwa
suara dapat diambil karakteristik-karakteristik khususnya dan dinyatakan dalam
serangkaian objek pengamatan, untuk kemudian dikenali dengan mencoba menilai
kemiripan polanya dengan model HMM yang ada. Diharapkan dengan Hidden

Markov Model ini, sistem pengenalan suara akan memiliki performansi yang baik
dalam hal akurasi dan kecepatan respon. Permasalahan yang timbul dari latar
belakang pembuatan Tugas Akhir ini diantaranya sebagai berikut:

16

Fakultas Teknik Informatika

Program Studi S1 Teknik Informatika

Tugas Akhir - 2012

1. Bagaimana

memanfaatkan

Hidden

Markov


Model

pada

suatu

speech recognition system.
2. Membuat

aplikasi

speech personal asisten

pada komputer

dengan

memanfaatkan speech engine yang telah dibuat untuk menangani proses
command and control Windows pada isolated word recognition.
3. Bagaimana mengukur tingkat akurasi berdasar jumlah kebenaran respon

yang diberikan aplikasi pada input sejumlah user, serta performansi dalam
kaitannya dengan waktu respon dan penggunaan memori.

3.

Tujuan
Beberapa tujuan yang ingin dicapai dari pengerjaan tugas akhir ini nantinya
dapat dijelaskan sebagai berikut:
a) Menerapkan suatu sistem pengenalan suara dengan berbasiskan Hidden Markov
Model. Suatu sistem pengenalan suara terdiri dari modul-modul yang
mendefinisikan dan melakukan pemrosesan recognition berdasarkan input yang
diterima dan model yang ada.
b) Menerapkan speech engine yang telah dibuat ke dalam suatu aplikasi Speech
Computer Personal Assistant, yang mampu menjalankan sejumlah aksi pada
sistem operasi Windows dengan perintah yang diberikan melalui ucapan.
c) Melakukan pengukuran akurasi terhadap hasil pengerjaan dengan menghitung
word error rate, performansi dalam kaitannya dengan waktu respon dan
penggunaan sumber daya memori, serta efektifltas implementasi dalam hal
frekuensi sample suara manusia yang terbaik untuk digunakan.


4.

Batasan masalah
Adapun batasan-batasan masalah yang diberikan pada Tugas akhir ini adalah :


Input

suara yang dikenali

adalah pengucapan dalam bahasa Inggris

serta menggunakan template dataset yang telah tersedia.


Tipe aplikasi speech recognition adalah speaker independent (tidak
memperhatikan /tergantung pada pembicara tertentu)

17


Fakultas Teknik Informatika

Program Studi S1 Teknik Informatika

Tugas Akhir - 2012



Implementasi hanya pada sistem command and control windows dengan
isolated word (kata perintah yang telah ditentukan dan dibatasi untuk dikenali).



Perintah yang diterima sistem pengenalan suara untuk menjalankan aksi di
Windows hanya terbatas pada beberapa kata perintah berikut: start, open note,
open word, open excel, press enter, press escape, press up, press down, press
left, press right, dan close application.

5.


Metodologi penyelesaian masalah
Metodologi penelitian yang dilakukan dalam penyusunan Tugas Akhir ini meliputi:
1. Studi literatur
Studi literatur dilakukan untuk memahami teori dasar mengenai struktur Java
SAPI, Hidden Markov Model, Viterbi algorithm, optimasi fungsi P(O|λ), serta
teori-teori dasar lain tentang teknologi speech recognition itu sediri.
2. Analisis Perancangan Perangkat Lunak
Dilakukan proses analisis requirement dari sistem yang akan dibangun sehingga
didapat gambaran mengenai sistem yang akan dibuat.
3. Implementasi Desain Sistem
Melakukan implementasi terhadap hasil desain sistem yang telah dilakukan
dengan menggunakan bantuan NetBeans IDE 6.7 sebagai program pembangun.
Implementasi dimulai dengan pemrosesan terhadap input sinyal suara.
Selanjutnya pembuatan speech engine dengan menerapkan HMM sebagai dasar
metode modelnya dan menghasilkan output text dari input yang berupa sinyal
suara digital yang telah diolah sebelumnya. Output dari engine akan dijadikan
input untuk aplikasi speech dan melakukan suatu respon terhadap input tersebut.
4. Analisa Data dan Pelaporan
Menganalisis hasil implementasi aplikasi sehingga didapat data-data mengenai
performansi

dan

akurasi

dari

metode

yang

diimplementasikan,

serta

mendokumentasikannya dalam bentuk laporan Tugas Akhir.

18

Fakultas Teknik Informatika

Program Studi S1 Teknik Informatika

Tugas Akhir - 2012

6.

Jadwal kegiatan
Tabel 1: jadwal pengerjaan

Kegiatan (2009

April
1

2

3

Mei
4

1

2

3

Juni
4

1

2

3

Juli
4

1

2

3

Agustus
4

1

2

3

Sptember
4

1

2

3

4

Studi Literatur
Analisa dan Desain
Implementasi
Analisa Hasil
Kesimpulan dan
Penyusunan Lap

19

Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)

Program Studi S1 Teknik Informatika

Tugas Akhir - 2012

BAB I
PENDAHULUAN

1.

Latar belakang masalah
Salah satu perkembangan teknologi terbesar saat ini adalah mencoba
membuat sistem komputer, yang dalam hal ini mesin, untuk dapat mengenali
perintah yang diucapkan user dan kemudian memberikan respon yang sesuai
perintah tersebut. Teknologi ini disebut speech recognition system. Dengan
menerapkan teknologi ini, seseorang tidak perlu menekan tombol mouse atau
mengetik di keyboard jika menginginkan komputer melakukan sesuatu, tetapi
cukup memberikan perintah suara dan komputer akan menjalankannya.
Speech recognition system adalah proses pengubahan suatu sinyal suara
akustik yang diterima oleh alat input microphone, menjadi serangkaian data
masukan untuk dikenali oleh mesin (contohnya: byte, binary code, dll), untuk
kemudian diterjemahkan dan dilaksanakan aksi yang sesuai seperti dengan yang
telah ditentukan. Sistem pengenalan suara (speech recognition system) bukanlah
teknologi baru, dan telah dikembangkan lebih dari empat dekade.
Pada awal tahun 1970-an diperkenalkan suatu metode statistik yang disebut
dengan Hidden Markov Model. Penerapan metode ini dalam teknologi speech baru
diimplementasikan dan menjadi pupoler beberapa tahun ini. Hidden Markov Model
memberikan struktur matematis yang sangat kaya dan karenanya dapat digunakan
untuk membentuk dasar-dasar teori untuk berbagai aplikasi [UCHAT6,05].
Hidden Markov Model merupakan model statistik dimana sistem yang
dimodelkan diasumsikan sebagai Markov proses dengan parameter yang tidak
diketahui, dan bertujuan untuk menentukan parameter-parameter tersembunyi
(hidden)

tersebut

berdasarkan

parameter-parameter

yang

dapat

diketahui

[RAB2,01]. Pada speech recognition engine, sinyal suara input akan mengalami
front-end processing. Hasil dari front-end processing/frequency analysis berupa
segmen-segmen suara (phonemes) dan fitur-fitur yang kemudian akan dikirimkan
ke decoder untuk dilakukan pengenalan pola terhadap model yang dibentuk dengan
15

Fakultas Teknik Informatika

Program Studi S1 Teknik Informatika

Tugas Akhir - 2012

HMM (pattern reconitiori) dengan berdasar pada acoustic model, language model,
dan lexicon. Proses recognition sendiri dilakukan dengan memaksimalkan nilai
probabilitas P(O|λ) dari suatu sekuen pengamatan signal suara O = O1,O2,..Or
terhadap model yang diberikan A=(A,B,π), dimana A adalah matrik probabilitas
transisi (aij) = P(qt=j \ qt-i=i)> B adalah set parameter untuk menentukan probabilitas
bj(0t) = P(ot \ qt =j), dan π adalah initial state distribution (πi) = P(qi = i). Sekuen
state dengan P(O\A) terbaik akan dikembalikan sebagai satu pola kata yang dikenali
dan dinyatakan dalam text untuk kemudian diproses di level aplikasi untuk
dilakukan respon [RAB2,05].
Fokus pembahasan dan pengerjaan akan dilakukan pada speech processing
dan aplikasinya, yang melibatkan proses statistical modeling untuk pengenalan
sinyal suara. Dalam penerapannya, dilakukan dengan memanfaatkan komponenkomponen serta toolkit yang dapat diperoleh secara gratis dari internet seperti Java
SAPI sebagai antarmuka ataupun template-template dataset model yang diperlukan
untuk keseluruhan proses. Analisis yang membedakan dengan referensi-referensi
yang ada, yaitu parameter-parameter uji seperti word error rate (WER),
penggunaan memori akan diukur secara langsung pada percobaan tanpa perlu
perekaman suara terlebih dulu, serta dilakukan penelitian terhadap frekuensi sample
suara manusia yang paling cocok terhadap sistem pengenalan suara dengan model
HMM.

2.

Perumusan masalah
Implementasi rumusan Tugas Akhir ini berangkat dari konsep dasar bahwa
suara dapat diambil karakteristik-karakteristik khususnya dan dinyatakan dalam
serangkaian objek pengamatan, untuk kemudian dikenali dengan mencoba menilai
kemiripan polanya dengan model HMM yang ada. Diharapkan dengan Hidden
Markov Model ini, sistem pengenalan suara akan memiliki performansi yang baik
dalam hal akurasi dan kecepatan respon. Permasalahan yang timbul dari latar
belakang pembuatan Tugas Akhir ini diantaranya sebagai berikut:

16

Fakultas Teknik Informatika

Program Studi S1 Teknik Informatika

Tugas Akhir - 2012

1. Bagaimana

memanfaatkan

Hidden

Markov

Model

pada

suatu

speech recognition system.
2. Membuat

aplikasi

speech personal asisten

pada komputer

dengan

memanfaatkan speech engine yang telah dibuat untuk menangani proses
command and control Windows pada isolated word recognition.
3. Bagaimana mengukur tingkat akurasi berdasar jumlah kebenaran respon
yang diberikan aplikasi pada input sejumlah user, serta performansi dalam
kaitannya dengan waktu respon dan penggunaan memori.

3.

Tujuan
Beberapa tujuan yang ingin dicapai dari pengerjaan tugas akhir ini nantinya
dapat dijelaskan sebagai berikut:
a) Menerapkan suatu sistem pengenalan suara dengan berbasiskan Hidden Markov
Model. Suatu sistem pengenalan suara terdiri dari modul-modul yang
mendefinisikan dan melakukan pemrosesan recognition berdasarkan input yang
diterima dan model yang ada.
b) Menerapkan speech engine yang telah dibuat ke dalam suatu aplikasi Speech
Computer Personal Assistant, yang mampu menjalankan sejumlah aksi pada
sistem operasi Windows dengan perintah yang diberikan melalui ucapan.
c) Melakukan pengukuran akurasi terhadap hasil pengerjaan dengan menghitung
word error rate, performansi dalam kaitannya dengan waktu respon dan
penggunaan sumber daya memori, serta efektifltas implementasi dalam hal
frekuensi sample suara manusia yang terbaik untuk digunakan.

4.

Batasan masalah
Adapun batasan-batasan masalah yang diberikan pada Tugas akhir ini adalah :


Input

suara yang dikenali

adalah pengucapan dalam bahasa Inggris

serta menggunakan template dataset yang telah tersedia.


Tipe aplikasi speech recognition adalah speaker independent (tidak
memperhatikan /tergantung pada pembicara tertentu)

17

Fakultas Teknik Informatika

Program Studi S1 Teknik Informatika

Tugas Akhir - 2012



Implementasi hanya pada sistem command and control windows dengan
isolated word (kata perintah yang telah ditentukan dan dibatasi untuk dikenali).



Perintah yang diterima sistem pengenalan suara untuk menjalankan aksi di
Windows hanya terbatas pada beberapa kata perintah berikut: start, open note,
open word, open excel, press enter, press escape, press up, press down, press
left, press right, dan close application.

5.

Metodologi penyelesaian masalah
Metodologi penelitian yang dilakukan dalam penyusunan Tugas Akhir ini meliputi:
1. Studi literatur
Studi literatur dilakukan untuk memahami teori dasar mengenai struktur Java
SAPI, Hidden Markov Model, Viterbi algorithm, optimasi fungsi P(O|λ), serta
teori-teori dasar lain tentang teknologi speech recognition itu sediri.
2. Analisis Perancangan Perangkat Lunak
Dilakukan proses analisis requirement dari sistem yang akan dibangun sehingga
didapat gambaran mengenai sistem yang akan dibuat.
3. Implementasi Desain Sistem
Melakukan implementasi terhadap hasil desain sistem yang telah dilakukan
dengan menggunakan bantuan NetBeans IDE 6.7 sebagai program pembangun.
Implementasi dimulai dengan pemrosesan terhadap input sinyal suara.
Selanjutnya pembuatan speech engine dengan menerapkan HMM sebagai dasar
metode modelnya dan menghasilkan output text dari input yang berupa sinyal
suara digital yang telah diolah sebelumnya. Output dari engine akan dijadikan
input untuk aplikasi speech dan melakukan suatu respon terhadap input tersebut.
4. Analisa Data dan Pelaporan
Menganalisis hasil implementasi aplikasi sehingga didapat data-data mengenai
performansi

dan

akurasi

dari

metode

yang

diimplementasikan,

serta

mendokumentasikannya dalam bentuk laporan Tugas Akhir.

18

Fakultas Teknik Informatika

Program Studi S1 Teknik Informatika

Tugas Akhir - 2012

6.

Jadwal kegiatan
Tabel 1: jadwal pengerjaan

Kegiatan (2009

April
1

2

3

Mei
4

1

2

3

Juni
4

1

2

3

Juli
4

1

2

3

Agustus
4

1

2

3

Sptember
4

1

2

3

4

Studi Literatur
Analisa dan Desain
Implementasi
Analisa Hasil
Kesimpulan dan
Penyusunan Lap

19

Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)

Program Studi S1 Teknik Informatika

Dokumen yang terkait

PENGARUH PEMBERIAN SEDUHAN BIJI PEPAYA (Carica Papaya L) TERHADAP PENURUNAN BERAT BADAN PADA TIKUS PUTIH JANTAN (Rattus norvegicus strain wistar) YANG DIBERI DIET TINGGI LEMAK

23 199 21

KEPEKAAN ESCHERICHIA COLI UROPATOGENIK TERHADAP ANTIBIOTIK PADA PASIEN INFEKSI SALURAN KEMIH DI RSU Dr. SAIFUL ANWAR MALANG (PERIODE JANUARI-DESEMBER 2008)

2 106 1

FREKUENSI KEMUNCULAN TOKOH KARAKTER ANTAGONIS DAN PROTAGONIS PADA SINETRON (Analisis Isi Pada Sinetron Munajah Cinta di RCTI dan Sinetron Cinta Fitri di SCTV)

27 310 2

MANAJEMEN PEMROGRAMAN PADA STASIUN RADIO SWASTA (Studi Deskriptif Program Acara Garus di Radio VIS FM Banyuwangi)

29 282 2

ANALISIS PROSPEKTIF SEBAGAI ALAT PERENCANAAN LABA PADA PT MUSTIKA RATU Tbk

273 1263 22

PENERIMAAN ATLET SILAT TENTANG ADEGAN PENCAK SILAT INDONESIA PADA FILM THE RAID REDEMPTION (STUDI RESEPSI PADA IKATAN PENCAK SILAT INDONESIA MALANG)

43 322 21

KONSTRUKSI MEDIA TENTANG KETERLIBATAN POLITISI PARTAI DEMOKRAT ANAS URBANINGRUM PADA KASUS KORUPSI PROYEK PEMBANGUNAN KOMPLEK OLAHRAGA DI BUKIT HAMBALANG (Analisis Wacana Koran Harian Pagi Surya edisi 9-12, 16, 18 dan 23 Februari 2013 )

64 565 20

PEMAKNAAN BERITA PERKEMBANGAN KOMODITI BERJANGKA PADA PROGRAM ACARA KABAR PASAR DI TV ONE (Analisis Resepsi Pada Karyawan PT Victory International Futures Malang)

18 209 45

STRATEGI KOMUNIKASI POLITIK PARTAI POLITIK PADA PEMILIHAN KEPALA DAERAH TAHUN 2012 DI KOTA BATU (Studi Kasus Tim Pemenangan Pemilu Eddy Rumpoko-Punjul Santoso)

119 459 25

PENGARUH BIG FIVE PERSONALITY TERHADAP SIKAP TENTANG KORUPSI PADA MAHASISWA

11 131 124