Fase Menentukan Tujuan dan Syarat-syarat Informasi .1 Analisa Kebutuhan Masalah Fase Perancangan Workshop Design .1 Perancangan Algoritma Program Aplikasi Gambar 4.1
BAB IV
ANALISA, RANCANGAN, PELAKSANAAN DAN PENGUJIAN PROGRAM
Dalam perancangan dan pengembangan aplikasi kalkulator audio visual ini penulis menggunakan metode RAD, Kendal Kendal 1998,2000, yang terdiri:
Fase Menentukan Tujuan dan Syarat-syarat Informasi, Fase Perancangan, Fase Kontruksi, serta Fase Pelaksanaan.
4.1 Fase Menentukan Tujuan dan Syarat-syarat Informasi 4.1.1 Analisa Kebutuhan Masalah
Sering kali, untuk dapat melakukan kegiatan kehidupannya sehari-hari secara mandiri, orang tunanetra harus menggunakan teknik alternatif, yaitu teknik yang memanfaatkan indera-indera lain
untuk menggantikan fungsi indera penglihatan dalam kegiatan kehidupannya sehari-hari sehingga pola kehidupan kesehariannya pun sangat berubah dan dalam banyak hal menjadi berbeda dari orang pada
umumnya.
Teknik alternatif adalah cara khusus baik dengan ataupun tanpa alat bantu khusus yang memanfaatkan indera-indera nonvisual atau sisa indera penglihatan untuk melakukan suatu kegiatan
yang normalnya dilakukan dengan indera penglihatan. Teknik-teknik alternatif itu diperlukannya dalam berbagai bidang kegiatan seperti dalam membaca dan menulis, bepergian, menggunakan komputer,
menata rumah, menata diri, dll. Kadang-kadang teknologi diperlukan untuk membantu menciptakan teknik-teknik alternatif tersebut.
Indera pendengaran dan perabaan merupakan saluran penerima informasi yang paling efisien sesudah indera penglihatan. Oleh karena itu, teknik alternative itu pada umumnya memanfaatkan indera
pendengaran danatau perabaan. Sejalan dengan hal ini, untuk memungkinkan orang tunanetra menggunakan kalkulator, teknik alternative yang dikembangkan adalah dengan memanfaatkan speech
recognition untuk membuat aplikasi kalkulator audio visual. Dengan adanya aplikasi ini, seorang tunanetra dapat merasakan manfaat kalkulator seperti orang pada umumnya menggunakan kalkulator.
4.2 Fase Perancangan Workshop Design 4.2.1 Perancangan Algoritma Program Aplikasi Gambar 4.1
Dalam pembuatan aplikasi ‘kalkulator audio visual’ ini penulis menggunakan system pengenalan suara speech to text untuk memasukan
angka-angka dan operasinya, selain itu user juga dapat menggunakan alternatif lain seperti mouse dan keyboard. Speech to text digunakan pada
saat si user memasukan suaranya yang kemudian dirubah menjadi bentuk teks lalu disimpan didalam registry computer. Sedangkan text to speech
digunakan untuk merubah teks angka hasil perhitungan menjadi speech suara.
Suara Speech Mouse
Keyboard
Speech Recognition
Command Button
Text
SYSTEM KALKULATOR
Text KeyPrees
Text to Speech
Suara Speech OUTPUT
INPUT
PROSES
Gambar 4.1 Alur Proses inpuoutput Dalam Aplikasi Kalkulator Audio Visxual
4.2.2 Speech to Text Pengenalan Suara
Speech Recognition pada dasarnya berfungsi sebagai saluran yang mengkonversi PCM Pulse Code Modulation audio digital dari
sebuah sound card ke dalam recognized speech pengenalan ucapan. Elemen dari saluran tersebut adalah:
1. Mengubah bentuk PCM audio digital ke dalam suatu penyajian
yang lebih baik. 2.
Menerapkan sebuah “grammar” sehingga speech recognizer mengenali fonem apa yang dimaksud dari sebuah ucapan.
3. Merepresentasikan fonem yang diucapan.
4. Mengkonversi fonem ke dalam kata-kata.
Unsur Pertama dari saluran mengkonversi audio digital berasal dari sound card menjadi bentuk yang lebih representatif
seperti apa yang seseorang dengar. Digital audio adalah suatu arus amplitudo, dengan sample sekitar 16,000 kali per detik. Jika data
yang masuk divisualisasi maka itu seperti hasil osiloskop, yaitu berupa suatu garis berombak yang secara periodik mengulang ketika
user sedang berbicara. Data dalam format ini tidak dapat digunakan bagi Speech Recognition karena terlalu sulit untuk diidentifikasikan
pola apa yang sebenarnya dikatakan. Pada Gambar 4.2 menjelaskan bagaimana tahapan-tahapan dari suara yang di input menjadi teks
didalam sistem komputer.
Gambar 4.2 Urutan proses dari suara ke text. Speech Ucapan
Microphone
SoundCard Digital Audio
Arus Amplitudo
windowed fast-Fourier
Merepresentasikan Fonem
Text Grammar
Frequenscy Domain Pencocokan dengan
codebook Database Grafik
amplitudo komponen frekwensi
feature number
Fonem
Untuk membuat pola pengenalan lebih mudah, PCM audio digital diubah ke dalam frequency domain. Perubahan dilakukan
dengan menggunakan suatu windowed fast-Fourier. Hasilnya mirip seperti yang dihasilkan spektrograf. Di frequency domain, dapat
diidentifikasi komponen frekwensi dari suatu bunyi. Dari komponen frekwensi inilah, dimungkinkan untuk memperkirakan
bagaimana telinga manusia mendengar suara. Transformasi Fourier dengan cepat menganalisa setiap
1100 detik dan mengkonversi data audio ke dalam daerah frekwensi. Setiap 1100 detik menghasilkan suatu grafik amplitudo
komponen frekwensi, yang menggambarkan suara yang terdengar setiap 1100 detik tersebut. Pengenal suara mempunyai suatu
database beberapa ribu grafik seperti itu yang disebut suatu codebook yang mengidentifikasi jenis suara manusia yang
berbeda. Bunyi yang diidentifikasi melalui pencocokan data di codebook, menghasilkan angka yang menggambarkan suara.
Angka ini disebut ” feature number” sebenarnya ada beberapa ” feature number” untuk setiap 1100 detik tetapi proses yang lebih
mudah untuk dijelaskan hanya satu. Masukan kepada recognizer mulai pada arus 16,000 PCM per
detik. Melalui penggunaan transformasi fast fourier dan codebook, data diubah menjadi informasi penting, menghasilkan 100 ” feature
number” per detik.
Ucapan manusia dihasilkan oleh suatu sistem produksi ucapan yang dibentuk oleh alat alat ucap manusia. Proses tersebut
dimulai dengan formulasi pesan dalam otak pembicara. Pesan tersebut akan diubah menjadi perintah-perintah yang diberikan
kepada alat-alat ucap manusia, sehingga akhirnya dihasilkan ucapan yang sesuai dengan pesan yang ingin diucapkan.
Gambar 4.3 Foto sinar X penampang alat-alat ucap manusia[Rab 93]
Gambar 4.3. memperlihatkan foto sinar X penampang alat-alat ucap manusia.
Vocal tract pada gambar tersebut ditandai oleh garis putus-
putus, dimulai dari vocal cords atau glottis, dan
berakhir pada mulut. Vocal tract terdiri dari
pharynx koneksi antara esophagus dengan mulut dan mulut. Panjang vocal tract pria pada
umumnya sekitar 17 cm. Daerah pertemuan vocal tract ditentukan oleh lidah, bibir, rahang,
dan bagian belakang langit-langit; luasnya berkisar antara 20 cm
2
sampai dengan mendekati nol.
Nasal tract mulai dari bagian
belakang langit-langit dan berakhir pada nostrils. Pada keadaan tertentu, suara nasal
akan dikeluarkan melalui rongga ini. Gambar 4.4 memperlihatkan model sistem
produksi ucapan manusia yang disederhanakan. Pembentukan ucapan dimulai dengan adanya
hembusan udara yang dihasilkan oleh paru- paru. Cara kerjanya mirip seperti piston atau
pompa yang ditekan untuk menghasilkan tekanan udara. Pada saat
vocal cord berada dalam keadaan tegang, aliran udara akan
menyebabkan terjadinya vibrasi pada vocal cord
dan menghasilkan bunyi ucapan yang disebut voiced speech sound. Pada saat vocal cord berada
dalam keadaan lemas, aliran udara akan melalui daerah yang sempit pada
vocal tract dan menyebabkan terjadinya turbulensi, sehingga
menghasilkan suara yang dikenal sebagai unvoiced sound.
Gambar 4.4 Model Sistem Produksi Ucapan Manusia
Ucapan dihasilkan sebagai rangkaian atau urutan komponen-komponen bunyi-bunyi
pembentuknya. Setiap komponen bunyi yang berbeda dibentuk oleh perbedaan posisi, bentuk,
serta ukuran dari alat-alat ucap manusia yang berubah-ubah selamat terjadinya proses
produksi ucapan.
4.2.2.1
Representasi Sinyal Ucapan.
Sinyal ucapan merupakan sinyal yang berubah terhadap waktu dengan kecepatan
perubahan yang relatif lambat. Jika diamati pada selang waktu yang pendek
antara 5 sampai dengan 100 mili detik, karakteristiknya praktis bersifat tetap;
tetapi jika diamati pada selang waktu yang lebih panjang karakteristiknya terlihat
berubah-ubah sesuai dengan kalimat yang sedang diucapkan. Gambar 4.5
memperlihatkan contoh sinyal ucapan dari suatu kalimat bahasa Inggris
“It’s time” yang diucapkan oleh seorang pria. Setiap
baris pada gambar tersebut memperlihatkan potongan sinyal selama
100 mili detik, sehingga seluruh gambar tersebut memperlihatkan sinyal ucapan
sepanjang 500 mili detik.
Gambar 4.5 Contoh Sinyal Ucapan “It’s Time” [Rab 93]
Ada berbagai cara untuk mengklasifikasikan bagian-bagian atau
komponen sinyal ucapan. Salah satu cara yang sederhana adalah dengan cara
mengklasifikasikannya menjadi tiga keadaan yang berbeda, yaitu 1
silence S, keadaan pada saat tidak ada ucapan yang
diucapkan; 2 unvoiced U, keadaan pada
saat vocal cord tidak melakukan vibrasi, sehingga suara yang dihasilkan bersifat
tidak periodic atau bersifat random; 3 voiced V, keadaan pada saat terjadinya
vibrasi pada vocal cord, sehingga
menghasilkan suara yang bersifat kuasi periodik.
Pada gambar 4.5 di atas sudah tercantum label-label S, U dan V yang
dapat mempermudah untuk mengamati perbedaan keadaan-keadaan tersebut. Baris
pertama serta awal baris kedua ditandai dengan S, artinya bagian tersebut
merepresentasikan keadaan diam dimana pembicara belum mengucapkan apapun.
Amplituda kecil yang tampak pada perioda tersebut merupakan noise latar belakang
yang ikut terekam. Suatu perioda singkat unvoiced U
tampak mendahului vocal pertama dalam kata “It”. Selanjutnya diikuti oleh daerah
voiced V yang cukup panjang, merepresentasikan vocal “i”. Berikutnya
diikuti oleh daerah unvoiced U yang merepresentasikan daerah pelemahan
pengucapan “i”. Setelah itu diikuti oleh silence S yang merupakan bagian dari
fonem “t”, dan seterusnya. Dari contoh tersebut jelas bahwa
segmentasi ucapan menjadi S, U dan V tidak bersifat eksak, artinya ada daerah-
daerah yang tidak dapat dikategorikan dengan tegas ke dalam salah satu dari tiga
kategori tersebut. Salah satu penyebabnya adalah perubahan dari keadaan-keadaan
alat ucap manusia yang tidak bersifat diskrit dari satu keadaan ke keadaan
lainnya, sehingga bunyi transisi dari satu segmen ke segmen lainnya menghasilkan
bentuk yang tidak mudah ditentukan. Selain itu, ada segmen-segmen ucapan yang
mirip atau bahkan mengandung silence
didalamnya. Representasi sinyal dalam diagram
waktu terhadap amplituda seperti gambar sebelumnya seringkali tidak cukup untuk
mendapatkan besaran-besaran kuantitatif
yang efektif untuk melakukan analisis dari suatu ucapan. Untuk melakukan analisis
sinyal ucapan, lebih sering digunakan representasi spektral menggunakan
spektogram seperti terlihat pada Gambar 4.6. Dengan menggunakan spektogram,
dapat diidentifikasikan komponenkomponen frekuensi dari suatu
segmen ucapan. Segmen ucapan yang bentuknya mirip pada domain waktu lebih
mudah dibedakan pada spektogram dengan cara melihat perbedaan komponen
frekuensinya.
Gambar 4.6. Spektogram Pita Lebar, Spektogram Pita Sempit, dan Amplitudo
dari Ucapan “Every Salt Breeze Comes From Sea”.
Spektogram dibedakan menjadi spektogram pita lebar
wideband spectogram dan spektogram pita sempit
narrowband spectogram. Spektogram pita lebar adalah
analisis spectral pada suatu interval sepanjang 15 mili detik
menggunakan filter dengan lebar pita 125 Hz serta analisis detail yang dilakukan
setiap 1 mili detik. Spektogram pita sempit adalah analisis
spectral pada suatu interval sepanjang 50 mili detik menggunakan filter
dengan lebar pita 40 Hz serta analisis detail yang dilakukan setiap 1 mili detik.
Spektogram pita lebar dapat digunakan untuk melihat komponen-komponen
frekuensi utama dari suatu ucapan dengan jelas, seperti terlihat pada gambar paling
atas dari gambar 4.6 tersebut. Sebagian komponen frekuensi yang tidak dominan
menjadi tidak terlihat pada spektogram pita lebar. Untuk melihat komponen-
komponen frekuensi yang lebih rinci dilakukan menggunakan
spektogram pita sempit, seperti yang terlihat pada gambar
kedua dari atas pada Gambar 4.6. Dalam kegiatan penelitian dan
pengembangan sistem TTS, analisis spektral diantaranya digunakan untuk
melakukan segmentasi komponen- komponen sinyal ucapan, indetifikasi
komponen frekuensi segmen ucapan, serta analisis frekuensi dasar yang diperlukan
untuk analisis intonasi ucapan.
4.2.2.2
Karakteristik Sinyal Ucapan
Unit bunyi terkecil yang dapat dibedakan oleh manusia disebut fonem.
Suatu ucapan kata atau kalimat pada prinsipnya dapat dilihat sebagai urutan
fonem. Himpunan fonem yang ada dalam suatu bahasa berbeda-beda. Setiap fonem
disimbolkan dengan suatu symbol yang unik.
Saat ini ada beberapa standar cara penamaan fonem yang berlaku [Rab93], diantaranya adalah standar 1 IPA
International Phonetic Alphabet
1
, 2 ARPABET, serta 3 SAMPA. Tabel 4.1 memperlihatkan daftar fonem bahasa
Inggris-Amerika serta representasinya dalam simbol-simbol IPA serta ARPABET.
Tabel 4.1 Fonem-fonem Bahasa Inggris-Amerika dalam standar IPA dan ARPABET [Rab93]
Gambar 4.7 Daftar dan Klsifikasi Fonem Bahasa Inggris- Amerika.