Speech Recognition

10 Speech Recognition

Overview

Voice Recognition merupakan model interaksi yang relatif masih sangat baru. Berbagai riset masih terbuka lebar untuk mempebaiki model interaksi ini. Melalui bab ini akan dibahas salah satu cabang dari Voice Recognition yaitu Speech Recogniton.

Tujuan

1. Siswa memahami cara kerja Speech Recognition.

2. Siswa dapat merancang dan membangun aplikasi yang menggunakan interaksi Speech Recogniton.

Biometrik, termasuk di dalamnya speech recognition, secara umum digunakan untuk identifikasi dan verifikasi. Identifikasi ialah mengenali identitas seseorang, dilakukan perbandingan kecocokan antara data biometric seseorang dalam database berisi record karakter seseorang. Sedangkan verifikasi adalah menentukan apakah seseorang sesuai dengan apa yang dikatakan terhadap dirinya. Biometric recognition merupakan sistem pengenalan atau identifikasi seseorang berdasarkan karakteristik biologis khusus yang dimiliki oleh orang tersebut. Fungsinya selain untuk sistem keamanan dengan mengenali identitas seseorang, juga untuk identifikasi penyakit yang diderita seseorang, keperluan militer, dan lain-lain. Aplikasi biometric recognition antara lain retinal scan (identifikasi berdasarkan pola pembuluh darah pada retina mata), fingerprint recognition (identifikasi pola sidik jari unik pada setiap orang), face recognition (pengenalan seseorang berdasarkan raut dan ekspresi seseorang dengan kunci utama pada letak mata dan mulut), dan voice recognition.

Speech recognition adalah proses identifikasi suara berdasarkan kata yang diucapkan. Parameter yang dibandingkan ialah tingkat penekanan suara yang kemudian akan dicocokkan dengan template database yang tersedia. Sedangkan sistem pengenalan suara berdasarkan orang yang berbicara dinamakan speaker recognition. Pada pembahasan selanjutnya akan difokuskan kepada speech recogntion dimana komputer diminta untuk mengenali isi ucapan dari pengguna. Selain itu speech recognition memiliki kompleksitas algoritma yang lebih sederhana daripada speaker recognition.

Voice Recognition secara harfiah dapat diartikan sebagai pengenalan suara. Secara istilah terdapat beberapa pengertian lain dari berbagai sumber diantararnya:

1. http://www.hitl.washington.edu/scivw/EVE/IV.Definitions.html The technology by which sounds, words or phrases spoken by humans are converted into electrical signals, and these signals are transformed into coding patterns that can be identified by a computer. Based on this identification, the computer usually takes some action.

2. www.phonedog.com/cell-phone-buying-guide/glossary-of-cellular- terms.aspx Is a technology that makes your wireless device or computers capable of being activated and controlled by voice commands.

Speech Recognition 189 Speech Recognition 189

Sebagai ilustrasi mengenai voice recogntion, misalkan terdapat dua orang yaitu orang A dan orang B, keduanya sama-sama mengucapkan “Selamat Pagi”. Pada Speech Recogniton komputer cukup diminta mengenali bahwa suar yang dimasukkan adalah “Selamat Pagi”. Namun Pada Speaker Recogniton, komputer tidak cukup hanya mengenali suara “Selamat Pagi”, namun lebih jauh ia harus mampu membedeakan yang mana suara orang A dan yang mana suara orang B.

10.2 Skema Utama Speech Recognition

Skema Utama Speech Recognition dapat digambar sebagai berikut.

2. Ekstraksi yaitu penyimpanan data masukan sekaligus pembuatan database template

3. Pembandingan/pencocokan, yaitu tahap pencocokan data baru dengan data suara pada template.

4. Validasi suara pengguna.

10.3 Proses Pencocokan Pola Suara

Secara umum speech recogntion mengolah data secara digital. Suara aseli merupakan sinyal analog. Sebelum diolah suara ini harus diubah menjadi sinyal digital melalui teknik sampling.

Dari sinyal diatas dilakukan sampling sehingga menjadi sinyal sebagai berikut.

Speech Recognition 191 Speech Recognition 191

Beberapa faktor dapat menyebabkan kesalahan dalam proses pencocokan ini antara lain:

1. Kesalahan dalam pengucapan (misspoken) dan pembacaan (misread) frasa

2. Keadaan emosional yang ekstrim (misalnya stress, sedang marah, sedang sedih)

3. Pergantian penempatan microphone (intrasession atau intersession)

4. Kekurangan atau ketidak-konsistenan akustik dari ruangan (misalnya multipath dan noise)

5. channel mismatch (misalnya penggunaan microphone yang berbeda dalam perekaman dan verifikasi)

6. Sakit (misalnya flu yang dapat merubah vocal tract)

7. Penuaan / aging (model vocal tract dapat berubah berdasarkan usia)

10.4 Aplikasi berbasis Speech Recogniton

Saat ini telah banyak vendor-vendor yang menawarkan aplikasi yang menggunakan teknolog Speech Recognition. Bahkan Microsoft Windows (pada XP dan Vista) telah dilengkapi fitur ini. Tentu saja fitur ini belumlah sempurna apalagi jika digunakan dalam bahasa Indonesia.

Berbagai aplikasi freeware pun sudah banyak tersedia di internet. Dengan aplikasi freeware inipun, seseorang dapat membuat aplikasi speech recognition sederhana yang mampu merperlihatkan keunggulan penggunaan Speech Recogntion. Sebagai contoh, perintah pada game yang menekan tombol panah atas sebagai perintah untuk menembak, dapat diganti dengan p erintah “Tembak!” ke komputer. Tentu saja, sebelumnya harus ada training untuk memperkenalkan ucapan “Tembak” tersebut. Dengan training kualitas pengenalan suara dapat ditingkatkan. Semakin banyak latihan, semakin baik kemampuan pengenalan suaranya.

Rangkuman

1. Voice Recognition merupakan model interaksi yang relatif masih sangat baru dibanding meodel interakasi lain yang telah ada.

2. Biometrik, termasuk di dalamnya speech recognition, secara umum digunakan untuk identifikasi dan verifikasi.

3. Speech recognition adalah proses identifikasi suara berdasarkan kata yang diucapkan.

4. Pada Speaker Recogniton, komputer tidak cukup hanya mengenali suara namun lebih jauh ia harus mampu mengenali siapa yang mengucapkan suatu kata.

5. Secara umum speech recogntion mengolah data secara digital.

6. Suara aseli merupakan sinyal analog.

7. Data dari sinyal analog dikonversi menjadi sinyal digital dilakukan melalui proses sampling

8. Terdapat beberapa faktor yang dapat mempengaruhi kegagalan pengenlan suara pada Speech Recognition.

9. Untuk dapat meningkatkan kualitas pengengenalan suara pada Speech Recogntion diperlukan training.

10. Berbagai aplikasi Speech Recogntion freeware sudah banyak tersedia di internet dan dapat digunakan untuk membuat program sederhana.

Speech Recognition 193

Kuis Benar Salah

1. Voice Recoginiton termasuk bagian dari Biometrik

2. Voice Recognition lebih luas dari Speech Recognition

3. Speaker Recognition lebih mudah diimplementasikan dibanding Speech Recogniton.

4. Speech recognition adalah proses identifikasi suara berdasarkan kata yang diucapkan.

5. Suara manusia merupakan sinyal analog.

6. Suara manusia disimpan dalam komputer secara analog.

7. Suara manusia disimpan dalam komputer telah mengalamai perubahan sinyal.

8. Proses Sampling mengubah sinyal digital menjadi sinyal analog.

9. Speech recogntion merupakan teknologi modern dan belum ada versi freewarenya.

10. Pola suara seseorang senantiasa tetap setiap saat.

Pilihan Ganda

1. Berikut ini yang tidak termasuk biomertik adalah ______

A. Suara manusia

D Sidik jari

B. Password

E. Retina mata

C. Rajah Tangan

2. Pernyataan yang benar dari ketiga pernyataan berikut adalah____

1. Kesalahan dalam pengucapan (misspoken) dan pembacaan (misread) frasa mempengaruhi keakuratan speech recognition.

2. Keadaan emosional yang ekstrim (misalnya stress, sedang marah, sedang sedih) mempengaruhi keakuratan speech recognition.

3. Pergantian penempatan microphone (intrasession atau intersession) tidak berpengaruh pada interaksi speech recognition.

A. 1,2,3

D. 1saja

3. 1. Perbedaan ruangan

2. Perbedaan peralatan

3. Sakit

4. Penuaan Dari keempat hal di atas, yang berpengaruh pada kegagalan pengenalan suara adalah_________

A. 1,2,3

D. 4 saja

Speech Recognition 195

4. Sampling merupakan proses mengubah sinyal _____ ke sinyal _____

A. Digital – Radio

D. Analog – Analog

B. Digital – Analog

E. Radio – Analog

C. Analog – Digital

5. 1. Speech Recognition tidak mementingkan siapa pengucap suara

2. Speaker Recognition lebih mudah dibandung Speech Recognition.

3. Speaker Recognition merupakan Voice Recogntion Pernyataan yang benar dari ketiga pernyataan di atas adalah ____

E. 2 saja

3. Windows XP

4. Windows Vista Operating System Windows yang mendukung Speech Recogntion adalah _____

A. Tak satupun

D. 2,3,4

B. 4 E. 1,2,3,4

C. 3,4

7 1. Pantai

2. Puncak gedung

3. Pegunungan

4. Ruang kamar dengan dinding karpet dan kapas Pada saat merekam suara, tempat di atas yang dapat memberikan hasil suara yang terbebas dari noise adalah _______

B 4 saja

E. 1,2,3,4

C 3,4

8. Tujuan utama Speaker Recogniton adalah _____

A Mengenali kata yang diucapkan

D Pencocokan data suara

B Mengenali siapa yang berbicara

E Mengubah sinyal Analog

C Menyimpan data suara ke digital

9 Yang merupakan sinyal analog adalah_______

1. Suara manusia berbicara

2. Suara Speaker dari komputer

3. Suara Burung berkicau

4. Suara kipas komputer

A 1 saja

D 1,2,3,4

B 1,2

E 4 saja

C 1,2,3

10 Speech Recogntion bermanfaat untuk:

1. Menulis di text editor tanpa mengetik ke kyeboard

2. Bermain game cukup dengan perintah oral

3. Mebuka email dari jarak jauh

4. Mematikan komputer secara lisan

Speech Recognition 197

Latihan

1. Sebutkan contoh biometrik!

2. Apa yang dimaksud dengan Voice Recongnition?

3. Apa yang dimaksud dengan Speech Recognition?

4. Apa yang dimaksud dengan Speaker Recognition?

5. Apa yang dimaksud dengan Sampling?

6. Apa perbedaan sinyal analog dan digital?

7. Apa yang mempengaruhi kegagalan pola pengenalan suara pada Voice Recognition?

8. Sebutkan Operating System yang support untuk voice Recogniton!

9. Sebutkan softare komersial Speech Reconition!

10. Sebutkan softare freeware Speech Reconition!

Project

Buatlah sebuah aplikasi yang memanfaatkan Speech Recogntion (pengembangan dari yang sudah ada pada Operating System), dengan mengintegrasikan ke game atau aplikasi lainnya. Delivery dari project ini adalah:

1. sebuah CD yang berisi

a. Program executable

b. Laporan Project yang berkaitan dengan :

i. Pendahuluan Latar Belakang Rumusan Masalah Tujuan Batasan Masalah Sistematika Penulisan Jadwal Pengerjaan dan pembagian tugas

ii. Dasar Teori

iii. Perancangan iv. Implementasi v. Pengujian vi. Kesimpulan

c. Panduan berupa:

i. Plainte text

ii. Document Guide

iii. Video Guide iv. FAQ

d. Slide Presentation

2. Presentasi / sidang di kelas

Ketentuan Tugas:

1. Dikerjakan berkelompok, maksimal 4 orang

2. Peran serta/pemahaman anggota menentukan nilai individu. Tidak Boleh terlambat, pada saat deadline harus dikumpulkan sedapatnya. Apabila tidak mengumpulkan nilai project otomatis NOL!

Speech Recognition 199