EFEKTIVITAS IDENTIFIKASI UCAPAN HURUF VOKAL MANUSIA PADA DOMAIN FREKUENSI DENGAN MENGGUNAKAN 2048 POINT FFT

  

EFEKTIVITAS IDENTIFIKASI UCAPAN HURUF VOKAL

MANUSIA PADA DOMAIN FREKUENSI DENGAN

MENGGUNAKAN 2048 POINT FFT

1

2 1,2

Hendra Setiawan , Miftahuddin

  Universitas Islam Indonesia, Yogyakarta

  

Kontak Person:

  Hendra Setiawan Teknik Elektro, FTI-UII, Jl. Kaliurang km.14.5,

  Yogyakarta 55584 Telp: 0274-895287, Fax: 0274-895007 ext.148, E-mail: hendra.setiawan@uii.ac.id

  

Abstrak

Pada makalah ini disajikan teknik pengenalan suara di kawasan frekuensi hanya dengan

menggunakan transformasi Fourier dan tanpa tambahan algoritma lainnya untuk mengetahui

efektifitas pengenalan suara di kawasan frekuensi. Suara yang diteliti dibatasi hanya pada suara

vokal manusia. Dengan hipotesis bahwa setiap suara vocal yang sama memiliki kemiripan dengan

suara vocal orang lain, maka dapat dibuat suatu pola suara vocal yang bersifat umum. Tahapan yang

digunakan pada penelitian ini meliputi pengambilan sample suara vokal dari responden, ekstraksi

keunikan pola setiap vokal untuk setiap responden, dan pengujian kemiripan untuk setiap vokal. Dari

pengujian diperoleh nilai akurasi pengen alan huruf vokal ‘a’ adalah 68%, huruf vokal ‘e’ adalah

  36

%, huruf vokal ‘i’ adalah 58%, huruf vokal ‘o’ adalah 76%, huruf vokal ‘u’ adalah 36%. Sehingga

secara teknis pengenalan suara vokal secara langsung di kawasan frekuensi memberikan hasil yang

kurang memuaskan.

  Kata kunci: suara vokal, kawasan frekuensi, FFT, identifikasi suara Pendahuluan

  Suara merupakan salah satu jenis gelombang longitudinal yang perambatannya memerlukan media penghantar. Suara sangat penting untuk interaksi manusia dengan lingkungan sekitarnya termasuk dengan peralatan/ mesin yang bukan merupakan benda hidup. Untuk dapat memahami informasi yang disampaikan oleh manusia, maka diperlukan suatu teknik pengenalan suara [1].

  Setiap vokal mempunyai komponen frekuensi tertentu yang membedakan karakter satu fonem vokal dengan fonem vokal lainnya [2]. Selain itu seseorang mempunyai karakteristik fonem yang unik dan berbeda dengan orang lain. Untuk itu dengan mengenali karakteristik setiap fonem, dapat digunakan untuk banyak keperluan dari pengenalan jenis kelamin [3][4], sampai ke identifikasi masalah di tenggorokan [5].

  Teknik pengenalan suara dapat dilakukan di kawasan waktu maupun di kawasan frekuensi dengan berbagai macam algoritma yang terlibat. Pengenalan di kawasan waktu mempunyai kendala pada pemotongan/pengambilan sample yang harus cukup panjang untuk dapat memperoleh klasifikasi suara yang diinginkan [6]. Selain itu pemrosesan sinyal di kawasan waktu sangat rentan terhadap gangguan noise.

  Metode yang sering digunakan dalam identifikasi suara adalah dengan menggunakan transformasi Fourier [3], [4] dan dapat dipadukan dengan jaringan saraf tiruan (JST) [7]. Metode lain yang juga digunakan dalam pengenalan suara adalah dengan transformasi wavelet [5], [8].

  Penggunaan tambahan algoritma untuk pengenalan suara memang akan meningkatkan keakuratan hasil deteksi. Pada tataran implementasi, penambahan algoritma seperti JST juga membawa masalah tersendiri seperti kompleksitas dan penundaan (delay) proses. Sehingga terdapat suatu tradeoff antara penambahan kompleksitas dengan hasil deteksi yang diperoleh. Namun seberapa akuratnya identifikasi suara vokal di kawasan frekuensi tanpa adanya tambahan algoritma tertentu belum dapat diketahui. Untuk itu melalui penelitian ini diharapkan akan diperoleh hasil identifikasi suara di kawasan frekuensi tanpa menggunakan algoritma khusus.

IV-46 SENTRA

  Metode Penelitian

  Langkah-langkah yang ditempuh dalam penelitian ini secara garis besar meliputi pengambilan sample, transformasi ke kawasan frekuensi, identifikasi dan pembuatan pola, dan pengujian pola. Selanjutnya proses ini ditunjukkan dalam gambar 1.

  Gambar 1. Diagram proses penelitian Sample suara yang digunakan dalam penelitian ini adalah suara vokal (‘a’, ‘i’, ‘u’, ‘e’, ‘o’) yang dikeluarkan oleh lima orang responden (dua pria dan tiga wanita) yang berasal dari beberapa daerah yang berbeda di Indonesia. Masing-masing responden diambil 100 data suara untuk setiap huruf vokal. Suara direkam menggunakan mikrofon dengan panjang durasi selama dua detik. Adapun frekuensi sampling yang digunakan adalah 44100Hz agar tidak terjadi aliasing pada suara audio yang berkisar antara 20 sampai 20000Hz.

  Semua sample suara (dilambangkan dengan s) disimpan dalam format *.WAV yang kemudian diekstraksi menggunakan MATLAB menjadi variable di dalam workspace. Sinyal dalam kawasan waktu tersebut diubah ke kawasan frekuensi dengan transformasi Fourier diskret sesuai dengan persamaan berikut ini: N 1

   jn X nx ne (1)

       n

  Dengan

  X n adalah sinyal diskret hasil transformasi di domain frekuensi, x   n adalah sinyal diskret   di domain waktu, adalah banyaknya sample, dan adalah indeks sinyal.

  N n

  Dengan durasi pengambilan setiap sample 2 detik dan frekuensi sampling 44100Hz, maka setiap

  

s mempunyai panjang 88200. Dengan tingkat resolusi di 20Hz, maka diperlukan Fourier transform

  dengan N=2205. Karena pada realitas yang digunakan adalah fast Fourier transform (FFT) yang nilai k N = 2 , maka diambil nilai N=2048. Untuk panjang data 88200, maka diperlukan 5 kali proses FFT untuk masing-masing sample suara (s). Hasil semua FFT untuk setiap s, selanjutnya dilakukan perhitungan rata-rata ( S ). Sehingga setiap responden akan memiliki 100 buah S untuk setiap suara

  

  vokal. 100 buah S dilakukan proses rerata dan normalisasi sehingga dihasilkan sebuah pola ( S ). Pola

   

  S inilah yang kemudian menjadi pola untuk setiap responden. S 1 menyatakan pola suara vokal ‘a’ A untuk responden 1. Sehingga total terdapat 25 pola untuk lima orang responden.

  Untuk mengetahui tingkat kedekatan semua vokal, dilakukan proses korelasi sesuai dengan persamaan: M 1 N m 1

    

  1 R ( m )  y    n x nmyx 1  (2)  

  N m n  

  dengan R   m adalah nilai hasil korelasi saat indeks ke-m, N adalah panjang data, sedangkan y n yx

    dan x n adalah sinyal yang dikorelasi saat indeks ke-n.   Proses korelasi di atas juga digunakan untuk melakukan pengujian pola dengan suara vokal yang sama yang berasal dari responden yang sama.

  Hasil Penelitian dan Pembahasan

  Hasil pengamatan di domain frekuensi diketahui bahwa komponen frekuensi dominan berkisar antara indeks 8 sampai dengan 72. Jika dinyatakan dalam nilai frekuensi adalah 172Hz sampai dengan 1550Hz. Sedangkan komponen frekuensi di atas index 100 (lebih dari 2153Hz) bernilai sangat kecil, sehingga dapat diabaikan.

  Pola yang didapat untuk setiap responden ternyata berbeda-beda. Gambar 2 dan 3 masing- masing menunjukkan pola suara vokal di kawasan frekuensi untuk responden 3 dan responden 5. Terlihat bahwa keduanya tidak mempunyai kemiripan sama sekali. Hal ini tentu akan mempersulit pembuatan pola yang berlaku umum untuk semua orang.

  Untuk mengetahui kemiripan antar vokal pada setiap responden dilakukan korelasi pola di kawasan frekuensi. Hasil korelasi ini disajikan dalam Tabel 1. Dari tabel tersebut tampak bahwa beberapa vokal mempunyai kemiripan yang lebih besar dengan vokal lain daripada dengan pola vokal dirinya sendiri. Misalnya pada responden 2, vokal ‘o’ memiliki nilai korelasi yang lebih besar dengan vokal ‘e’ daripada vokal ‘o’ dengan vokal ‘o’ sendiri. Contoh lainnya adalah pada responden 5, dimana vokal ‘u’ memiliki korelasi paling besar dengan vokal ‘i’. Hal ini akan berdampak pada kesalahan interpretasi ketika pola ini digunakan untuk identifikasi.

  Gambar 2. Pola di kawasan frekuensi untuk responden 3 Gambar 3. Pola di kawasan frekuensi untuk responden 5

  Tabel 1 Hasil korelasi antar pola suara vokal di kawasan frekuensi Responden 1

  A E

  I O U A 1.4027 0.1691 0.0715 1.0796 0.0986 E 1.4878 1.0050 0.5690 1.1539 I 1.3493 0.6592 1.2563 O 2.0629 0.7605 U 1.5488

IV-48 SENTRA

  Responden 2 A E

  I O U A 1.3687 0.0632 1.0548 0.0167 0.4334 E 1.0059 0.1984 0.9135 0.9991 I 1.0822 0.1532 0.6458 O 0.8621 0.8999 U 1.4517

  Responden 3 A E

  I O U A 4.6337 1.0148 0.1388 0.7981 0.0434 E 1.7661 0.0681 0.4298 0.0283 I 0.9304 0.0290 0.1274 O 1.4155 0.0341 U 1.0502

  Responden 4 A E

  I O U A 1.4389 1.1103 0.8119 0.9083 0.5206 E 1.3103 1.0875 1.2716 0.7664 I 1.6545 1.5765 1.2726 O 1.9696 1.4644 U 1.3209

  Responden 5 A E

  I O U A 1.4558 0.5683 0.3900 0.2247 0.2594 E 2.4544 0.7635 0.7031 0.5253 I 1.2076 1.1128 0.8188 O 1.4808 0.7269 U 0.6211 Selanjutnya dilakukan identifikasi suara responden dengan menggunakan pola yang telah ada.

  Berdasarkan hasil pengujian diperoleh hasil sebagaimana diberikan di Tabel 2. Masing-masing pengujian dilakukan sepuluh kali.

  Tabel 2 Hasil identifikasi suara responden berdasarkan pola yang diperoleh Keberhasilan deteksi untuk responden (%)

  Vokal

  1

  2

  3

  4

  5 A 100 20 100

  40

  80 E

  30

  40

  90

  10

  10 I

  20

  50

  80

  80

  60 O

  70

  50 90 100

  70 U

  10

  10

  90

  10

  60 Dari Tabel 2 diketahui bahwa keberhasilan deteksi vokal sangat tergantung pola antar vokal.

  Responden 3 yang memiliki pola antar vokal yang unik, mempunyai tingkat deteksi yang tinggi, sedangkan pada responden lainnya, cenderung memiliki tingkat deteksi yang rendah untuk beberapa vokal. Secara umum, tingkat deteksi v okal ‘a’ sebesar 68%, vokal ‘e’ sebesar 36%, vokal ‘i’ sebesar 58%, vokal ‘o’ sebesar 76%, dan vokal ‘u’ sebesar 36%.

  Kesimpulan

  Pada penelitian ini telah berhasil dilakukan identifikasi suara vokal manusia di kawasan frekuensi dengan menggunakan 2048 point FFT. Analisis di kawasan frekuensi menunjukkan bahwa frekuensi-frekuensi dominan berada di daerah frekuensi 170Hz sampai dengan 3200Hz. Pola yang diperoleh di kawasan frekuensi menunjukkan adanya kemiripan antar vokal untuk beberapa responden. Hal ini berpengaruh pada hasil deteksi yang kurang akurat.

  Dari hasil pengujian nilai akurasi identifikasi, diperoleh bahwa identifikasi vokal ‘a’ mempunyai akurasi 68 %, vokal ‘e’ 36%, vokal ‘i’ 58%, vokal ‘o’ 76%, dan vokal ‘u’ adalah 36%. Sehingga pengenalan suara vokal secara langsung di kawasan frekuensi memberikan hasil yang kurang memuaskan, dan diperlukan algoritma tambahan untuk meningkatkan hasil identifikasi.

  Referensi th

  [1] edition.

  L. B. Rabiner, R. W. Schafer, Teory and Applications of Digital Speech Processing. 5 New Jersey. Pearson:2011. [2] Arman, Ari Akhmad. Proses Pembentukan dan Karakteristik Sinyal Ucapan. Thesis S2.

  Bandung:ITB: 2008. [3]

  Safriadi dan Risawandi, Identifikasi Gender Melalui Suara Menggunakan Metode Discrete , Seminar Nasional Inovasi dan Teknologi Informasi 2014 (SNITI).

  Fourier Transform (DFT) Samosir. 2014:351-354.

  [4]

B. W. Prasetya, B. Susanto, J. Purwadi, Identifikasi Suara Pria dan Wanita Berdasarkan Frekuensi Suara . Jurnal Informatika. 2008; 4(1):11-17.

  [5] L. Hakim, A. Arifin, T. A. Sardjono, Identifikasi Suara Serak Berbasis Transformasi Wavelet Dan Algoritma Jaringan Syaraf Tiruan . Seminar on Intelligent Technology and Its Applications.

  Surabaya. 2012:119-124. [6] K.W. Lindenberg. Time domain speech recognition system, U.S. Patent no.3940565, 1976. [7]

  M. Ambarjati, B. L. Widjiantoro, A. Rahmadiasah, Identifikasi suara ucap berbasis fitur non- akustik dengan menggunakan jaringan syaraf tiruan . Skripsi S1. Surabaya: ITS; 2011. [8]

  I. L. May, Pengenalan Vokal Bahasa Indonesia Dengan Jaringan Syaraf Tiruan Melalui Transformasi Wavelet Diskret . Skripsi S1. Semarang:Undip;2002.

  IV-50 SENTRA