Fase Menentukan Tujuan dan Syarat-syarat Informasi .1 Analisa Kebutuhan Masalah Fase Perancangan Workshop Design .1 Perancangan Algoritma Program Aplikasi Gambar 4.1

BAB IV ANALISA, RANCANGAN, PELAKSANAAN DAN PENGUJIAN PROGRAM Dalam perancangan dan pengembangan aplikasi kalkulator audio visual ini penulis menggunakan metode RAD, Kendal Kendal 1998,2000, yang terdiri: Fase Menentukan Tujuan dan Syarat-syarat Informasi, Fase Perancangan, Fase Kontruksi, serta Fase Pelaksanaan. 4.1 Fase Menentukan Tujuan dan Syarat-syarat Informasi 4.1.1 Analisa Kebutuhan Masalah Sering kali, untuk dapat melakukan kegiatan kehidupannya sehari-hari secara mandiri, orang tunanetra harus menggunakan teknik alternatif, yaitu teknik yang memanfaatkan indera-indera lain untuk menggantikan fungsi indera penglihatan dalam kegiatan kehidupannya sehari-hari sehingga pola kehidupan kesehariannya pun sangat berubah dan dalam banyak hal menjadi berbeda dari orang pada umumnya. Teknik alternatif adalah cara khusus baik dengan ataupun tanpa alat bantu khusus yang memanfaatkan indera-indera nonvisual atau sisa indera penglihatan untuk melakukan suatu kegiatan yang normalnya dilakukan dengan indera penglihatan. Teknik-teknik alternatif itu diperlukannya dalam berbagai bidang kegiatan seperti dalam membaca dan menulis, bepergian, menggunakan komputer, menata rumah, menata diri, dll. Kadang-kadang teknologi diperlukan untuk membantu menciptakan teknik-teknik alternatif tersebut. Indera pendengaran dan perabaan merupakan saluran penerima informasi yang paling efisien sesudah indera penglihatan. Oleh karena itu, teknik alternative itu pada umumnya memanfaatkan indera pendengaran danatau perabaan. Sejalan dengan hal ini, untuk memungkinkan orang tunanetra menggunakan kalkulator, teknik alternative yang dikembangkan adalah dengan memanfaatkan speech recognition untuk membuat aplikasi kalkulator audio visual. Dengan adanya aplikasi ini, seorang tunanetra dapat merasakan manfaat kalkulator seperti orang pada umumnya menggunakan kalkulator. 4.2 Fase Perancangan Workshop Design 4.2.1 Perancangan Algoritma Program Aplikasi Gambar 4.1 Dalam pembuatan aplikasi ‘kalkulator audio visual’ ini penulis menggunakan system pengenalan suara speech to text untuk memasukan angka-angka dan operasinya, selain itu user juga dapat menggunakan alternatif lain seperti mouse dan keyboard. Speech to text digunakan pada saat si user memasukan suaranya yang kemudian dirubah menjadi bentuk teks lalu disimpan didalam registry computer. Sedangkan text to speech digunakan untuk merubah teks angka hasil perhitungan menjadi speech suara. Suara Speech Mouse Keyboard Speech Recognition Command Button Text SYSTEM KALKULATOR Text KeyPrees Text to Speech Suara Speech OUTPUT INPUT PROSES Gambar 4.1 Alur Proses inpuoutput Dalam Aplikasi Kalkulator Audio Visxual 4.2.2 Speech to Text Pengenalan Suara Speech Recognition pada dasarnya berfungsi sebagai saluran yang mengkonversi PCM Pulse Code Modulation audio digital dari sebuah sound card ke dalam recognized speech pengenalan ucapan. Elemen dari saluran tersebut adalah: 1. Mengubah bentuk PCM audio digital ke dalam suatu penyajian yang lebih baik. 2. Menerapkan sebuah “grammar” sehingga speech recognizer mengenali fonem apa yang dimaksud dari sebuah ucapan. 3. Merepresentasikan fonem yang diucapan. 4. Mengkonversi fonem ke dalam kata-kata. Unsur Pertama dari saluran mengkonversi audio digital berasal dari sound card menjadi bentuk yang lebih representatif seperti apa yang seseorang dengar. Digital audio adalah suatu arus amplitudo, dengan sample sekitar 16,000 kali per detik. Jika data yang masuk divisualisasi maka itu seperti hasil osiloskop, yaitu berupa suatu garis berombak yang secara periodik mengulang ketika user sedang berbicara. Data dalam format ini tidak dapat digunakan bagi Speech Recognition karena terlalu sulit untuk diidentifikasikan pola apa yang sebenarnya dikatakan. Pada Gambar 4.2 menjelaskan bagaimana tahapan-tahapan dari suara yang di input menjadi teks didalam sistem komputer. Gambar 4.2 Urutan proses dari suara ke text. Speech Ucapan Microphone SoundCard Digital Audio Arus Amplitudo windowed fast-Fourier Merepresentasikan Fonem Text Grammar Frequenscy Domain Pencocokan dengan codebook Database Grafik amplitudo komponen frekwensi feature number Fonem Untuk membuat pola pengenalan lebih mudah, PCM audio digital diubah ke dalam frequency domain. Perubahan dilakukan dengan menggunakan suatu windowed fast-Fourier. Hasilnya mirip seperti yang dihasilkan spektrograf. Di frequency domain, dapat diidentifikasi komponen frekwensi dari suatu bunyi. Dari komponen frekwensi inilah, dimungkinkan untuk memperkirakan bagaimana telinga manusia mendengar suara. Transformasi Fourier dengan cepat menganalisa setiap 1100 detik dan mengkonversi data audio ke dalam daerah frekwensi. Setiap 1100 detik menghasilkan suatu grafik amplitudo komponen frekwensi, yang menggambarkan suara yang terdengar setiap 1100 detik tersebut. Pengenal suara mempunyai suatu database beberapa ribu grafik seperti itu yang disebut suatu codebook yang mengidentifikasi jenis suara manusia yang berbeda. Bunyi yang diidentifikasi melalui pencocokan data di codebook, menghasilkan angka yang menggambarkan suara. Angka ini disebut ” feature number” sebenarnya ada beberapa ” feature number” untuk setiap 1100 detik tetapi proses yang lebih mudah untuk dijelaskan hanya satu. Masukan kepada recognizer mulai pada arus 16,000 PCM per detik. Melalui penggunaan transformasi fast fourier dan codebook, data diubah menjadi informasi penting, menghasilkan 100 ” feature number” per detik. Ucapan manusia dihasilkan oleh suatu sistem produksi ucapan yang dibentuk oleh alat alat ucap manusia. Proses tersebut dimulai dengan formulasi pesan dalam otak pembicara. Pesan tersebut akan diubah menjadi perintah-perintah yang diberikan kepada alat-alat ucap manusia, sehingga akhirnya dihasilkan ucapan yang sesuai dengan pesan yang ingin diucapkan. Gambar 4.3 Foto sinar X penampang alat-alat ucap manusia[Rab 93] Gambar 4.3. memperlihatkan foto sinar X penampang alat-alat ucap manusia. Vocal tract pada gambar tersebut ditandai oleh garis putus- putus, dimulai dari vocal cords atau glottis, dan berakhir pada mulut. Vocal tract terdiri dari pharynx koneksi antara esophagus dengan mulut dan mulut. Panjang vocal tract pria pada umumnya sekitar 17 cm. Daerah pertemuan vocal tract ditentukan oleh lidah, bibir, rahang, dan bagian belakang langit-langit; luasnya berkisar antara 20 cm 2 sampai dengan mendekati nol. Nasal tract mulai dari bagian belakang langit-langit dan berakhir pada nostrils. Pada keadaan tertentu, suara nasal akan dikeluarkan melalui rongga ini. Gambar 4.4 memperlihatkan model sistem produksi ucapan manusia yang disederhanakan. Pembentukan ucapan dimulai dengan adanya hembusan udara yang dihasilkan oleh paru- paru. Cara kerjanya mirip seperti piston atau pompa yang ditekan untuk menghasilkan tekanan udara. Pada saat vocal cord berada dalam keadaan tegang, aliran udara akan menyebabkan terjadinya vibrasi pada vocal cord dan menghasilkan bunyi ucapan yang disebut voiced speech sound. Pada saat vocal cord berada dalam keadaan lemas, aliran udara akan melalui daerah yang sempit pada vocal tract dan menyebabkan terjadinya turbulensi, sehingga menghasilkan suara yang dikenal sebagai unvoiced sound. Gambar 4.4 Model Sistem Produksi Ucapan Manusia Ucapan dihasilkan sebagai rangkaian atau urutan komponen-komponen bunyi-bunyi pembentuknya. Setiap komponen bunyi yang berbeda dibentuk oleh perbedaan posisi, bentuk, serta ukuran dari alat-alat ucap manusia yang berubah-ubah selamat terjadinya proses produksi ucapan. 4.2.2.1 Representasi Sinyal Ucapan. Sinyal ucapan merupakan sinyal yang berubah terhadap waktu dengan kecepatan perubahan yang relatif lambat. Jika diamati pada selang waktu yang pendek antara 5 sampai dengan 100 mili detik, karakteristiknya praktis bersifat tetap; tetapi jika diamati pada selang waktu yang lebih panjang karakteristiknya terlihat berubah-ubah sesuai dengan kalimat yang sedang diucapkan. Gambar 4.5 memperlihatkan contoh sinyal ucapan dari suatu kalimat bahasa Inggris “It’s time” yang diucapkan oleh seorang pria. Setiap baris pada gambar tersebut memperlihatkan potongan sinyal selama 100 mili detik, sehingga seluruh gambar tersebut memperlihatkan sinyal ucapan sepanjang 500 mili detik. Gambar 4.5 Contoh Sinyal Ucapan “It’s Time” [Rab 93] Ada berbagai cara untuk mengklasifikasikan bagian-bagian atau komponen sinyal ucapan. Salah satu cara yang sederhana adalah dengan cara mengklasifikasikannya menjadi tiga keadaan yang berbeda, yaitu 1 silence S, keadaan pada saat tidak ada ucapan yang diucapkan; 2 unvoiced U, keadaan pada saat vocal cord tidak melakukan vibrasi, sehingga suara yang dihasilkan bersifat tidak periodic atau bersifat random; 3 voiced V, keadaan pada saat terjadinya vibrasi pada vocal cord, sehingga menghasilkan suara yang bersifat kuasi periodik. Pada gambar 4.5 di atas sudah tercantum label-label S, U dan V yang dapat mempermudah untuk mengamati perbedaan keadaan-keadaan tersebut. Baris pertama serta awal baris kedua ditandai dengan S, artinya bagian tersebut merepresentasikan keadaan diam dimana pembicara belum mengucapkan apapun. Amplituda kecil yang tampak pada perioda tersebut merupakan noise latar belakang yang ikut terekam. Suatu perioda singkat unvoiced U tampak mendahului vocal pertama dalam kata “It”. Selanjutnya diikuti oleh daerah voiced V yang cukup panjang, merepresentasikan vocal “i”. Berikutnya diikuti oleh daerah unvoiced U yang merepresentasikan daerah pelemahan pengucapan “i”. Setelah itu diikuti oleh silence S yang merupakan bagian dari fonem “t”, dan seterusnya. Dari contoh tersebut jelas bahwa segmentasi ucapan menjadi S, U dan V tidak bersifat eksak, artinya ada daerah- daerah yang tidak dapat dikategorikan dengan tegas ke dalam salah satu dari tiga kategori tersebut. Salah satu penyebabnya adalah perubahan dari keadaan-keadaan alat ucap manusia yang tidak bersifat diskrit dari satu keadaan ke keadaan lainnya, sehingga bunyi transisi dari satu segmen ke segmen lainnya menghasilkan bentuk yang tidak mudah ditentukan. Selain itu, ada segmen-segmen ucapan yang mirip atau bahkan mengandung silence didalamnya. Representasi sinyal dalam diagram waktu terhadap amplituda seperti gambar sebelumnya seringkali tidak cukup untuk mendapatkan besaran-besaran kuantitatif yang efektif untuk melakukan analisis dari suatu ucapan. Untuk melakukan analisis sinyal ucapan, lebih sering digunakan representasi spektral menggunakan spektogram seperti terlihat pada Gambar 4.6. Dengan menggunakan spektogram, dapat diidentifikasikan komponenkomponen frekuensi dari suatu segmen ucapan. Segmen ucapan yang bentuknya mirip pada domain waktu lebih mudah dibedakan pada spektogram dengan cara melihat perbedaan komponen frekuensinya. Gambar 4.6. Spektogram Pita Lebar, Spektogram Pita Sempit, dan Amplitudo dari Ucapan “Every Salt Breeze Comes From Sea”. Spektogram dibedakan menjadi spektogram pita lebar wideband spectogram dan spektogram pita sempit narrowband spectogram. Spektogram pita lebar adalah analisis spectral pada suatu interval sepanjang 15 mili detik menggunakan filter dengan lebar pita 125 Hz serta analisis detail yang dilakukan setiap 1 mili detik. Spektogram pita sempit adalah analisis spectral pada suatu interval sepanjang 50 mili detik menggunakan filter dengan lebar pita 40 Hz serta analisis detail yang dilakukan setiap 1 mili detik. Spektogram pita lebar dapat digunakan untuk melihat komponen-komponen frekuensi utama dari suatu ucapan dengan jelas, seperti terlihat pada gambar paling atas dari gambar 4.6 tersebut. Sebagian komponen frekuensi yang tidak dominan menjadi tidak terlihat pada spektogram pita lebar. Untuk melihat komponen- komponen frekuensi yang lebih rinci dilakukan menggunakan spektogram pita sempit, seperti yang terlihat pada gambar kedua dari atas pada Gambar 4.6. Dalam kegiatan penelitian dan pengembangan sistem TTS, analisis spektral diantaranya digunakan untuk melakukan segmentasi komponen- komponen sinyal ucapan, indetifikasi komponen frekuensi segmen ucapan, serta analisis frekuensi dasar yang diperlukan untuk analisis intonasi ucapan. 4.2.2.2 Karakteristik Sinyal Ucapan Unit bunyi terkecil yang dapat dibedakan oleh manusia disebut fonem. Suatu ucapan kata atau kalimat pada prinsipnya dapat dilihat sebagai urutan fonem. Himpunan fonem yang ada dalam suatu bahasa berbeda-beda. Setiap fonem disimbolkan dengan suatu symbol yang unik. Saat ini ada beberapa standar cara penamaan fonem yang berlaku [Rab93], diantaranya adalah standar 1 IPA International Phonetic Alphabet 1 , 2 ARPABET, serta 3 SAMPA. Tabel 4.1 memperlihatkan daftar fonem bahasa Inggris-Amerika serta representasinya dalam simbol-simbol IPA serta ARPABET. Tabel 4.1 Fonem-fonem Bahasa Inggris-Amerika dalam standar IPA dan ARPABET [Rab93] Gambar 4.7 Daftar dan Klsifikasi Fonem Bahasa Inggris- Amerika.

a. Vokal