Sejarah Pengenalan Suara Pengenalan Suara speech recognition

22

2.2.1 Sejarah Pengenalan Suara

Sejarah penelitian di bidang pengenalan suara speech recognition antara lain : a. Tahun 1952, di Labotorium Bell, Davis, Bidullph, Balashek membuat suatu sistem pengenalan digit terisolasi untuk seorang pembicara. Sistem tersebut sangat tergantung kepada pengukuran resonasi spectral di daerah vokal dari setiap digit; b. Tahun 1956, sebuah usaha independen pada Labotorium RCA, Olson dan Belar berusaha untuk mengenali sepuluh suku kata yang berbeda dari setiap pembicara yang juga bergantung pada pengukuran spectral pada area vokal; c. Tahun 1959, Universitas Collage di Inggis, Fry and Denes mencoba untuk membuat suatu pengenalan fenom untuk mengenali empat vokal dan sembilan konsonan. Mereka menggunakan keputusan dari pengenalan; d. Usaha lain pada periode ini adalah mengenalkan vokal oleh Forgie dan Forgie, dikonstruksikan di Labotorium Lincoln MIT pada tahun 1959, dimana sepuluh vokal disisipkan dalam format ab-vokal-t dapat dikenali. Sekali lagi sebuah filter bank analyzer digunakan untuk menyediakan informasi spectral dan pengukuran waktu yang dipakai untuk memperkirakan resonasi jejak vokal yang menentukan vokal mana yang diucapkan; e. Pada tahun 1960-an, sejumlah ide fundamental dalam speech recognition mucul kepermukaan dan diterbitkan. Dekade ini dimulai dengan beberapa 23 Labotorium Jepang yang memasuki arena pengenalan dan membangun special-purpose hardware sebagai bagian dari sistem mereka. Awal dari sistem Jepang dimulai dari Suzuki dan Nakata dari Lab. Penelitian Radio di Tokyo yang merupakan hardware pengenalan huruf vokal; f. Usaha lainnya dilakukan oleh Sakai dan Doshita dari Universitas Kyoto tahun 1962, yang membangun sebuah hardware pengenalan fenom. Usaha yang ketiga merupakan hardware pengenalan digit oleh Nagata dan rekan kerjanya di Lab. NEC pada tahun 1963. Usaha ini mungkin yang paling dikenali sebagai percobaan perdana dari speech recognition pada NEC dan menjadi awal bagi sebuah program penelitian yang produktif; g. Di era 60-an, terdapat tiga proyek penelitian kunci, yang pertama adalah usaha yang dilakukan oleh Martin dan rekannya pada labotorium RCA, untuk membangun solusi realistik bagi problem yang berkaitan dengan ketidakseragaman dalam interval waktu, dari speech event. Martin membangun sistem dengan dasar pada kemampuan unutk mendeteksi awal dan akhir dari suatu speech. Martin membangun metodenya dan mendirikan satu perusahaan bernama Threshold Technology yang membuat, memasarkan, dan menjual produk–produk speech recognition. Sementara pada waktu yang bersamaan di Uni Sovyet, Vintsyuk mengajukan penggunaan dari metode dynamic programming untuk penyamaan waktu dari sepasang pengutaraan speech; 24 h. Pencapaian yang akhir tahun 1960-an merupakan penelitian pioneer dari Reddy dalam bidang continues speech recognition dan dynamic tracking dari fenom; i. Pada tahun 1970-an penelitian speech recognition meraih sejumlah batu pijakan yang signifikan. Pertama, area dari kata terisolasi atau pengenalan ucapan diskrit menjadi suatu teknologi yang mungkin dan berguna berdasarkan pada pembelajaran fundamental oleh Velicho dan Zagoruyko di Rusia, Sakoe dan Chiba di Jepang, dan Itakura di Amerika. Pembelajaran di Rusia membantu memajukan penggunaan dari ide pattern recognition dalam speech recognition. Penelitian di Jepang memajukan bagaimana metode dynamic programming dapat diterapkan dengan sukses dan penelitian di Itakura menunjukkan bagaimana ide dari Linear Predictive Logic LPC yang mana telah digunakan dengan sukses pada pengkodean speech ber-bit rendah; j. Penelitian speech pada tahun 1980-an bercirikan pada pergeseran teknologi dari pendekatan berbasis template menjadi statistik modeling, terutama pendekatan model Hidden Markov Model. Ide lain diperkenalkan pada akhir 1980-an adalah penerapan neural network pada speech recognition. Neural networks pertama kali dikenalkan tahun 1950, tapi tidak terbukti berguna pada awalnya karena terlalu banyaknya masalah praktikal. 25

2.2.2 Kinerja Sistem Pengenalan Suara