IMPLEMENTASI DYNAMIC TIME WARPING UNTUK VOICE RECOGNITION.
IMPLEMENTASI DYNAMIC TIME WARPING
UNTUK VOICE RECOGNITION
TUGAS AKHIR
Diajukan Untuk Memenuhi Sebagian Persyaratan
Dalam Memperoleh Gelar Sarjana Komputer
Jurusan Teknik Informatika
Disusun oleh :
PAULA PUTRI RADHITASARI
0734010223
JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNOLOGI INDUSTRI
UNIVERSITAS PEMBANGUNAN NASIONAL “VETERAN”
JAWA TIMUR
Hak Cipta © milik UPN "Veteran" Jatim :
(2)
KATA PENGANTAR
Puji syukur senantiasa penulis ucapkan kehadirat Tuhan YME, yang telah
melimpahkan rahmat dan hidayah-Nya, sehingga penulis dimudahkan dalam
penyelesaian penulisan laporan Tugas Akhir
Selama pelaksanaan kegiatan Tugas Akhir dan dalam penyelesaian penulisan
laporan Tugas Akhir di Universitas Pembangunan Veteran, Jawa Timur ini, penulis
mendapatkan banyak bantuan dan bimbingan dari berbagai pihak. Karena itu, penulis
ingin mengucapkan terima kasih kepada :
1. Ibu Dr Ir Ni Ketut Sari,Mt selaku Kepala Jurusan Teknik Informatika.
2. Bapak Mochamad Irwan Afandi,ST M.Som selaku dosen pembimbing yang
telah meluangkan waktu memberikan bimbingan selama pelaksanaan Tugas
Akhir.
3. Bapak Agus Heramanto,S.Kom selaku pembimbing kedua yang telah
mengizinkan penulis untuk dibimbing dalam mengerjakan Tugas Akhir.
4. Seluruh pimpinan Jurusan Teknik Informatika dan staff Universitas
Pembangunan nasional yang telah membantu kelancaran Tugas Akhir ini.
5. Orang tua dan keluarga atas segala motivasi dan doanya, sehingga semua
dapat berjalan lancar.
6. Teman-teman dan Kekasih hati pujaan bangsa yang selalu memberikan ilmu,
dukungan, motivasi serta doa untuk tetap maju dan berjuang menjadi lebih
baik lagi.
i
Hak Cipta © milik UPN "Veteran" Jatim :
(3)
Penulis menyadari sepenuhnya masih terdapat banyak kekurangan dalam
penyelesaian penulisan laporan Tugas Akhir ini. Namun penulis berusaha
menyelesaikan laporan ini dengan sebaik mungkin.
Segala kritik saran yang bersifat membangun sangat diharapkan dari semua
pihak, guna perbaikan dan pengembangan dimasa yang akan datang. Akhirnya besar
harapan penulis agar laporan ini dapat diterima dan berguna bagi semua pihak.
Aamiin…
Surabaya, November 2011
Penulis
ii
Hak Cipta © milik UPN "Veteran" Jatim :
(4)
DAFTAR ISI
KATA PENGANTAR ………..………... i
ABSTRAK ………... iii
DAFTAR ISI ………... iv
DAFTAR TABEL ………... vii
DAFTAR GAMBAR ……… viii
BAB I : PENDAHULUAN ………. 1
1.1 Latar Belakang Penelitian ……… 1
1.2 Rumusan Penelitian ……… 1
1.3 Tujuan Penelitian ………... 2
1.4 Manfaat Penelitian ………... 2
1.5 Batasan Penelitian ………..………. 2
1.6 Sistematika Penelitian ………... 3
BAB II : TINJAUAN PUSTAKA ……… 4
2.1 Deskripsi Konsep ………..……… 4
2.2 Kecerdasan Buatan ( AI ) ……….………. 4
2.3 Pengenalan Pola ………..……….. 8
iv
Hak Cipta © milik UPN "Veteran" Jatim :
(5)
2.4 Pengenalan Suara Dengan DTW ……….……….. 13
2.4.1 Dasar-Dasar
Speech Recopnition ……….……… 18
2.4.2 Klasifikasi Fonem dan Pendekatan Statis ……….…. 23
2.5 Sinyal Percakapan ……..……….. 25
2.6 Tranformasi Fourier …………..……… 28
2.6.1 Discrete Fourier Transform ( DFT ) ……….. 36
2.6.2 Fast Fourier Transform ( FFT ) ………. 37
2.7 Metode Dynamic Time Warping ( DTW ) ……….... 39
2.8 Waktu Seri ( Time Series ) ……….………..
46
2.8.1 Eksplorasi Grafis Pemeriksaan Series Data……….47
2.8.2 Prediksi dan Peramalan Model …………..……… 48
2.8.3 Notasi dan Kondisi …….………... 50
2.8.4 Model Autoregressive ……….……….. 52
BAB III : METODE PENELITIAN ……… 54
3.1 Kerangka Berpikir ………. 54
3.2 Diagram Alir Percobaan Penelitian ( Flowchart )……….. 55
3.3 Rumusan Hipotesis ……… 56
v
Hak Cipta © milik UPN "Veteran" Jatim :
(6)
BAB IV : ANALISA HASIL PERCOBAAN ………. 59
4.1 Desain Eksperimen ……….... 59
4.2 Analisa Hasil Percobaan ……… 60
4.3 Pengujian Metode …….………. 60
4.3.1 Proses Perekaman Suara dan Normalisasi ………... 61
4.3.2 Proses Pengenalan Suara ……… 77
BAB IV : KESIMPULAN DAN SARAN ……….. 81
5.1 Kesimpulan ……….. 81
5.2 Saran ……… 82
DAFTAR PUSTAKA ……… 83
vi
Hak Cipta © milik UPN "Veteran" Jatim :
(7)
DAFTAR TABEL
Tabel 2.1 Rasio Kecepatan FFT terhadap DFT ………...
38
vii
Hak Cipta © milik UPN "Veteran" Jatim :
(8)
DAFTAR GAMBAR
Gambar 2.1 Diagram Sinyal Analog dan Sinyal Digital ……….…… 27
Gambar 2.2 Diagram Model Sistem Produksi Suara ………... 28
Gambar 2.3 Plot Data secara Time Series ……….………. 48
Gambar 3.1 Diagram Alir Percobaan Penelitian ………. 55
Gambar 3.2 Arsitektur Sistem Yang Akan Digunakan ……….……….. 56
Gambar 3.3 Diagram Sinyal Suara Menjadi Sinyal Digital ………... 57
Gambar 4.1 Metode MEL-SCALED CEPSTRAL COEFISIENT
( EKSTRASI CIRI ) ………….………. 59
Gambar 4.2 Tampilan Program MATLAB Pertama Kali
dioperasikan ……….
61
Gambar 4.3 Hasil Pembacaan Sinyal Suara Awal Dialog
Interaksi Suara Yang Telah Direkam ………... 63
Gambar 4.4 Hasil Suara Yang Telah Direkam Dijadikan
Matriks Untuk Proses Pelatihan ……….. 64
Gambar 4.5 Hasil Ekstrasi Suara Yang Telah Difilter
dan Diekstrak Cirinya ………. 66
viii
Hak Cipta © milik UPN "Veteran" Jatim :
(9)
Gambar 4.6 Hasil dari Perekaman dan Grafik Angka Satu ………..………. 67
Gambar 4.7 Hasil dari Perekaman dan Grafik Angka Dua ……… 68
Gambar 4.8 Hasil dari Perekaman dan Grafik Angka Tiga …………..………….. 69
Gambar 4.9 Hasil dari Perekaman dan Grafik Angka Empat……….. 70
Gambar 4.10 Hasil dari Perekaman dan Grafik Angka Lima ……….……… 71
Gambar 4.11 Hasil dari Perekaman dan Grafik Angka Enam ……..………. 72
Gambar 4.12 Hasil dari Perekaman dan Grafik Angka Tujuh ………. 73
Gambar 4.13 Hasil dari Perekaman dan Grafik Angka Delapan ………. 74
Gambar 4.14 Hasil dari Perekaman dan Grafik Angka Sembilan…..………. 75
Gambar 4.15 Hasil dari Perekaman dan Grafik Angka Nol …….……….. 76
Gambar 4.16 Pola Suara “3” yang tidak cocok setelah dilakukan pengujian ………78
Gambar 4.17 Pola Suara “3” yang tidak cocok setelah dilakukan pengujian ………80
ix
Hak Cipta © milik UPN "Veteran" Jatim :
(10)
Nama
: PAULA PUTRI RADHITASARI
NPM
: 0734010223
Jurusan
: Teknik Informatika
Judul
: IMPLEMENTASI DYNAMIC TIME WARPING UNTUK VOICE
RECOGNITION
Abstrak
Penelitian tentang proses pengenalan suara telah menjadi wacana yang sedang
berkembang dalam perkembangan disiplin ilmu komputer, termasuk bagaimana
pengenalan suara tersebut dapat membantu pada aplikasi kehidupan kita sehari-hari.
Pada skripsi ini proses pengenalan suara merupakan tugas pengenalan pola secara
multileveled, di mana sinyal akustik diperiksa dan terstruktur dalam hirarki unit
subword (misalnya, fonem). Algortima yang digunakan adalah algoritma
Dynamic
Time Warping
merupakan algoritma untuk mengukur kesamaan antara dua urutan
yang mungkin berbeda dalam waktu atau kecepatan.
DTW sebagai metode yang memungkinkan komputer untuk menemukan
kecocokan yang optimal antara dua sekuens diberikan (misalnya time series) dengan
pembatasan tertentu. Urutan yang non-linear dalam dimensi waktu untuk menentukan
ukuran kesamaan tertentu independen mereka non-linear variasi dalam dimensi
waktu. Uji coba dilakukan dengan melakukan proses perekaman suara dengan
menyebutkan bilangan angka 0 (nol) hingga angka 9 (sembilan). Angka ini direkam
secara realtime dan dilatih menggunakan DTW. Hasil yang diperoleh selama
penelitian mendapati pola grafik dari tiap suara yang direkam akan merujuk hasil
suara yang diinginkan.
Ada banyak faktor yang dapat mempengaruhi kualitas suara yang direkam.
Selain perangkat keras yang digunakan, salah satunya tingkat kepekaan
microphone
sangatlah berpengaruh pada frekwensi suara yang disimpan dan dilatih datanya.
Keyword :
Dynamic Time Warping i Microphone.
iii
Hak Cipta © milik UPN "Veteran" Jatim :
(11)
BAB I
PENDAHULUAN
1.1. Latar Belakang Penelitian
Semakin pesatnya perkembangan disiplin ilmu komputer menuntut juga
disertainya perkembangan terhadap suatu disiplin ilmu baru yaitu tentang Kecerdasan
Buatan (AI). Kecerdasan Buatan yang dimaksud disini adalah bagaimana suatu
metode atau program dapat membantu pekerjaan manusia lebih baik tanpa disertai
instruksi – instruksi khusus sebelumnya. Proses pengenalan suara telah menjadi
wacana yang sedang berkembang sangat pesat, bagaimana pengenalan suara tersebut
dapat membantu pada aplikasi kehidupan kita dari yang paling sederhana hingga yang
kompleks. Metode – metode baru juga berkembang seiiring dinamisnya ide – ide baru
dalam hal penciptaan program komputer yang mana dapat langsung diaplikasikan
kedalam kehidupan kita sehari – hari.
1.2. Rumusan Penelitian
Rumusan dari penelitian ini adalah bagaimana “Menerapkan metode Dynamic
Time Warping pada proses pengenalan suara”
1
Hak Cipta © milik UPN "Veteran" Jatim :
(12)
2
1.3. Tujuan Penelitian
Penelitian ini bertujuan bagaimana metode yang sedang berkembang pada
ranah Kecerdasan Buatan dapat diterapkan pada proses pengenalan suara, dalam hal
ini metode yang digunakan sebagai metode latih dan metode pengenalan data adalah
Dynamic Time Warping dan juga dapat mengoptimasi metode tersebut secara
bersamaan.
1.4. Manfaat Penelitian
Mengembangkan metode yang berkembang ke ranah kecerdasan buatan
dalam hal ini Dynamic Time Warping sehingga ke depannya dapat meningkatkan
akurasi pada pengenalan suara yang menggunakan Dynamic Time Warping .
1.5. Batasan Penelitian
Sebagai batasan terhadap penelitian ini, antara lain :
1) Suara yang direkam hanya satu suara saja
2) Kecepatan pemrosesan sangat tergantung pada perangkat keras komputer
yang digunakan.
3) Proses pengambilan / perekaman suara dilakukan dengan menggunakan
perangkat komputer yang sama dengan perangkat komputer untuk memproses
data latih pola suara.
Hak Cipta © milik UPN "Veteran" Jatim :
(13)
4) Mengabaikan derau (noise) selama proses pengambilan suara.
3
1.6. Sistematika Penelitian
Sistematika laporan penelitian ini diatur dan disusun dalam lima bab dan tiap
bab terdiri dari beberapa sub bab, sebagai berikut :
BAB I.
PENDAHULUAN
Pada bab ini peneliti membahas tentang latar belakang masalah pokok
penelitian dan sistematika penulisannya.
BAB II. TINJAUAN PUSTAKA
Pada bab ini membahas tentang teori yang menunjang untuk
menganalisa permasalahan.
BAB III. METODE PENELITIAN
Pada bab ini membahas tentang metode percobaan yang akan
dilakukan selama proses penelitian dilakukan.
BAB IV. ANALISA HASIL PERCOBAAN
Pada bab ini membahas tentang hasil percobaan dari metode yang
digunakan juga interpretasi program yang dijalankan.
BAB V. KESIMPULAN DAN SARAN
Hak Cipta © milik UPN "Veteran" Jatim :
(14)
Pada bab terakhir ini berisi kesimpulan dari semua bab sebelumnya
serta saran untuk penelitian selanjutnya.
Hak Cipta © milik UPN "Veteran" Jatim :
(15)
BABBIIB
TINJAUANBPUSTATAB
B
2.1.BDeskripsiBTonsepB
Pada subbab tinjauan pustaka ini akan dijelaskan seluruh teori yang
berhubungan dengan pengenalan suara. Teori-teori yang akan dijelaskan antara lain
mengenai kecerdasan buatan, sinyal percakapan, analisa sinyal dengan metode
Dynamic Time Warping (DTW), transformasi Fourier (FFT/Fast Fourier Transform),
dan tingkat akurasi pengenalan ucapan/suara.
2.2.BTecerdasanBBuatanB(AI)B
Kecerdasan buatan (artificial intelligence) merupakan inovasi baru di bidang
ilmu pengetahuan. Mulai ada sejak muncul komputer modern, yakni pada 1940 dan
1950. Ini kemampuan mesin elektronika baru menyimpan sejumlah besar info, juga
memproses dengan kecepatan sangat tinggi menandingi kemampuan manusia.
Banyak hal yang kelihatannya sulit untuk kecerdasan manusia, tetapi untuk
Informatika relatif tidak bermasalah. Seperti contohT mentransformasikan persamaan,
menyelesaikan persamaan integral, membuat permainan catur atau Backgammon. Di
sisi lain, hal yang bagi manusia kelihatannya menuntut sedikit kecerdasan, sampai
sekarang masih sulit untuk direalisasikan dalam Informatika. Seperti contohT
Pengenalan Obyek/Muka, bermain sepak bola.
(16)
5
Walaupun AI memiliki konotasi fiksi ilmiah yang kuat, AI membentuk
cabang yang sangat penting pada ilmu komputer, berhubungan dengan perilaku,
pembelajaran dan adaptasi yang cerdas dalam sebuah mesin. Penelitian dalam AI
menyangkut pembuatan mesin untuk mengotomatisasikan tugas-tugas yang
membutuhkan perilaku cerdas. Termasuk contohnya adalah pengendalian,
perencanaan dan penjadwalan, kemampuan untuk menjawab diagnosa dan pertanyaan
pelanggan, serta pengenalan tulisan tangan, suara dan wajah. Hal-hal seperti itu telah
menjadi disiplin ilmu tersendiri, yang memusatkan perhatian pada penyediaan solusi
masalah kehidupan yang nyata. Sistem AI sekarang ini sering digunakan dalam
bidang ekonomi, obat-obatan, teknik dan militer, seperti yang telah dibangun dalam
beberapa aplikasi perangkat lunak komputer rumah dan video game.
'Kecerdasan buatan' ini bukan hanya ingin mengerti apa itu sistem kecerdasan,
tapi juga mengkonstruksinya. Tidak ada definisi yang memuaskan untuk 'kecerdasan',
bahwasanya kecerdasan adalah kemampuan untuk memperoleh pengetahuan dan
menggunakannya, atau kecerdasan yaitu apa yang diukur oleh sebuah 'Test
Kecerdasan'.
Secara garis besar, AI terbagi ke dalam dua faham pemikiran yaitu AI
Konvensional dan Kecerdasan Komputasional (CI, Computational Intelligence). AI
konvensional kebanyakan melibatkan metoda-metoda yang sekarang diklasifiksikan
sebagai pembelajaran mesin, yang ditandai dengan formalisme dan analisis statistik.
(17)
6
Dikenal juga sebagai AI simbolis, AI logis, AI murni dan AI cara lama
(GOFAI, Good Old Fashioned Artificial Intelligence). Metoda-metodanya meliputi:
1)
Sistem pakar : Menerapkan kapabilitas pertimbangan untuk mencapai
kesimpulan. Sebuah sistem pakar dapat memproses sejumlah besar informasi
yang diketahui dan menyediakan kesimpulan-kesimpulan berdasarkan pada
informasi-informasi tersebut.
2)
Pertimbangan berdasar kasus
3)
Jaringan Bayesian
4)
AI berdasar tingkah laku : Metoda modular pada pembentukan sistem AI
secara manual
Kecerdasan komputasional melibatkan pengembangan atau pembelajaran
iteratif (misalnya penalaan parameter seperti dalam sistem koneksionis. Pembelajaran
ini berdasarkan pada data empiris dan diasosiasikan dengan AI non-simbolis, AI yang
tak teratur dan perhitungan lunak. Metoda-metoda pokoknya meliputi:
1)
Jaringan Syaraf: sistem dengan kemampuan pengenalan pola yang sangat
kuat.
2)
Sistem Fuzzy: teknik-teknik untuk pertimbangan di bawah ketidakpastian,
telah digunakan secara meluas dalam industri modern dan sistem kendali
produk konsumen.
(18)
7
3)
Komputasi EvolusionerT menerapkan konsep-konsep yang terinspirasi secara
biologis seperti populasi, mutasi dan “survival of the fittest” untuk
menghasilkan pemecahan masalah yang lebih baik.
Metoda-metoda ini terutama dibagi menjadi algoritma evolusioner (misalnya
algoritma genetik) dan kecerdasan berkelompok (misalnya algoritma semut). Dengan
sistem cerdas hibrid, percobaan-percobaan dibuat untuk menggabungkan kedua
kelompok ini. Aturan inferensi pakar dapat dibangkitkan melalui jaringan syaraf atau
aturan produksi dari pembelajaran statistik seperti dalam ACT-R. Sebuah pendekatan
baru yang menjanjikan disebutkan bahwa penguatan kecerdasan mencoba untuk
mencapai kecerdasan buatan dalam proses pengembangan evolusioner sebagai efek
samping dari penguatan kecerdasan manusia melalui teknologi.
Sebagai bagian dari ilmu pengetahuan komputer, kecerdasan buatan ini
khusus ditujukan dalam perancangan otomatisasi tingkah laku cerdas dalam sistem
kecerdasan komputer. Sistem memperlihatkan sifat-sifat khas yang dihubungkan
dengan kecerdasan dalam kelakuan atau tindak-tanduk yang sepenuhnya bisa
menirukan beberapa fungsi otak manusia, seperti pengertian bahasa, pengetahuan,
pemikiran, pemecahan masalah, dan lain sebagainya.
(19)
Kecerdasan buatan mungkin satu dari perkembangan yang paling penting di
abad ini. Hal ini akan memengaruhi kehidupan negara-negara yang memainkan
peranan penting dalam perkembangan kecerdasan buatan, yang kemudian muncul
8
sebagai negara-negara adikuasa. Pentingnya kecerdasan buatan menjadi nyata
bagi negara-negara yang berperan sejak tahun 1970.
Dibandingkan dengan program konvensional, program kecerdasan buatan
lebih sederhana dalam pengoperasiannya, sehingga banyak membantu pemakai.
Program konvensional dijalankan secara prosedural dan kaku, rangkaian tahap
solusinya sudah didefinisikan secara tepat oleh pemrogramnya. Sebaliknya, pada
program kecerdasan buatan untuk mendapatkan solusi yang memuaskan dilakukan
pendekatan trial and error, mirip seperti apa yang dilakukan oleh manusia. Program
konvensional tidak dapat menarik kesimpulan seperti halnya pada program
kecerdasan buatan kendati dengan informasi-informasi yang terbatas.
2.3. Pengenalan Pola
Pengenalan pola adalah disiplin ilmu yang mengklasifikasikan object berdasar
image, berat atau parameter-parameter yang telah ditentukan kedalam sejumlah
kategori atau kelas. Pengenalan pola meliputi berbagai aplikasi dan implementasi
dalam kasus-kasus real world. Contoh aplikasi yang menerapkan pengenalan pola
adalah sebagai berikut :
(20)
Pengenalan pola menjadi dasar dari sistem mesin ini. Mesin ini
menangkap sebuah atau sekelompok
object
dengan kamera dan selanjutnya
dianalisa untuk di deskripsikan object atau benda tersebut.
9
2)
Character recognition (OCR)
Salah satu area pengenalan pola yang secara umum menangani
permasalahan otomatisasi dan informasi. Sistem OCR mempunyai
front end
device
yang terdiri dari pembangkit cahaya, lensa scan,
document transport
dan sebuah detektor.
3)
Computer aided diagnosis
Sistem ini membantu dokter dalam mengambil keputusan suatu
diagnosa
4)
Speech recognition
Pengenalan pola suara salah satu aplikasi yang berkembang saat ini.
Sistem ini mengijinkan kita untuk berkomunikasi antara manusia dengan
memasukkan data ke computer. Meningkatakan efisiensi industri manufaktur,
mengontrol mesin dengan berbicara pada mesin itu.
5)
Face recognition
Pengenalan wajah adalah sebuah system yang mengenali image wajah
manusia yang digunakan dalam otomatisasi dan security sebuah industry
(21)
10
6)
Biometrics
Biometric beguna untuk mengenali suatu pola mahluk hidup yang
dihubungkan dengan parameter – parameter psikologi maupun tingkah laku
7)
Image Data Base retrieval
Adalah sebuah system untuk pengembalian imagi data base
8)
Data mining
Adalah pengelompokan pola objek sejumlah data yang terurut dengan
harapan dapat memberikan informasi yang berguna dan diinginkan.
9)
Bioinformatics
Bioinformatik berhubungan erat dengan disiplin kedokteran,
pengenalan pola atau image dari suatu image penyakit atau pola dalam sebuah
analisa diagnosa penyakit atau pengenalan pola pola yang berhubungan
dengan dunia biologi secara umum
(22)
11
Fitur adalah object yang kuantitas dapat diukur dari sebuah pola, Pengklasifikasian
berdasar dari masing masing nilai dari fitur-fitur tersebut.
a . Vektor fitur adalah sejumlah atau sekumpulan dari fitur, misalakan sebuah
fitur adalah x maka kumpulan fitur dapat direpresentasikan berikutT
memberikan vector fitur sebagai berikutT
Dimana T adalah transpose dari matrik fitur tersebut. Sebuah vektor fitur
merupakan sebuah random vector.
ContohT
,
,...,
1x
lx
,
,...,
1
x
l
(23)
12
Dalam system pattern recognition terdapat tahapan tahapanT
a)
Pattern pertama kali ditangkap oleh sensor untuk dianalisa dan didapat
berbagai fiturnya
b)
Setelah mendapat informasi dari fitur fitur yang ada maka selanjutnya
adalah meng-generate fitur.
c)
Tidak semua fitur yang didapat dari sensor digunakan untuk
pengenalan pattern tersebut. Maka langkah selanjutnya adalah dengan
memilih fitur yang tepat untuk pengklasifiksian object tersebut.
d)
Selanjutnya mendesain pengklasifikasian, tipe nonlinearity yang
bagaimana yang diadopsi, dan bagaimana mendapatkan criteria fitur
yang optimal.
e)
Ketika terjadi error dalam pengklasifikasian maka terjadi ketidak
beresana dalam system maka system perlu diadakan evaluasi
(24)
13
Algoritma klasifikasi digolongkan menjadi 2, yang pemilihnya tergantung pada
kesediaan data awal, yaitu:
a)
Supervised : Pattern yang mempunyai kelas yang telah diketahui dan
digunakan untuk traimning (aster klasifikasi yang sudah fix).
Melakukan identifikasi suatu pola yang diamati sebagai
anggota dari suatu kelas pola yang sudah diketahui.
b)
Unsupervised : Sejumlah kelas tidak diketahui dan tidak terdapat traning
pattern. Memasukkan suatu pola yang diamati ke suatu
kelas pola yang belum diketahui
2 . 4 . Pengenalan Suara dengan DTW
Speech adalah modus alami komunikasi bagi orang-orang. Kita mempelajari
semua keterampilan yang relevan pada anak usia dini, tanpa instruksi, dan kami terus
mengandalkan komunikasi speech sepanjang hidup kita. Ini datang begitu alami bagi
kita bahwa kita tidak menyadari betapa kompleks speech fenomena ini. Saluran vokal
manusia dan artikulator adalah organ biologis dengan sifat nonlinear, yang operasi
tidak hanya di bawah kendali kesadaran tetapi juga dipengaruhi oleh faktor mulai dari
gender untuk pendidikan ke negara emosional. Akibatnya, vokalisasi bisa sangat
bervariasi dalam hal aksen mereka, pengucapan, artikulasi, kekasaran, sifat bunyi
sengau, pitch, volume, dan kecepatan, apalagi, selama transmisi, pola tidak teratur
(25)
kita bicara dapat lebih terdistorsi oleh kebisingan latar belakang dan gema, serta
sebagai karakteristik listrik (jika telepon atau peralatan elektronik lainnya yang
14
digunakan). Semua sumber-sumber variabilitas membuat pengenalan suara, bahkan
lebih dari generasi speech, masalah yang sangat kompleks.
Apa yang membuat orang begitu baik mengenali speech? Menariknya, otak
manusia diketahui kabel berbeda dari komputer konvensional, bahkan beroperasi di
bawah paradigma komputasi yang berbeda secara radikal. Sementara komputer
konvensional menggunakan prosesor sentral sangat cepat & kompleks dengan
instruksi program eksplisit dan memori lokal beralamat, sebaliknya otak manusia
menggunakan paralel koleksi massal elemen pemrosesan lambat & sederhana
(neuron), padat dihubungkan oleh bobot (sinapsis) yang kekuatan adalah dimodifikasi
dengan pengalaman, langsung mendukung integrasi beberapa kendala, dan
menyediakan bentuk didistribusikan memori asosiatif.
Superioritas mengesankan otak di berbagai keterampilan kognitif, termasuk
pengenalan suara, telah memotivasi penelitian paradigma komputasi baru sejak
1940-an, pada asumsi bahwa model brainlike akhirnya dapat mengakibatkan kinerja
brainlike pada tugas-tugas kompleks. Daerah penelitian ini menarik adalah sekarang
dikenal sebagai koneksionisme, atau studi tentang jaringan syaraf tiruan. Apakah
keadaan saat ini seni di speech recognition? Ini adalah pertanyaan rumit, karena
(26)
akurasi sistem tergantung pada kondisi-kondisi yang dievaluasiT dalam kondisi cukup
sempit hampir sistem apapun dapat mencapai akurasi mirip manusia, tapi itu jauh
lebih sulit untuk mencapai akurasi yang baik dalam kondisi umum. Kondisi evaluasi
15
dan karenanya keakuratan sistem apapun - dapat bervariasi sepanjang dimensi
sebagai berikutT
1)
Kosakata ukuran dan confusability.
Sebagai aturan umum, mudah untuk membedakan antara set kecil
kata-kata, namun tingkat kesalahan secara alami meningkat dengan ukuran kosa
kata tumbuh. Sebagai contoh, 10 digit "nol" untuk "sembilan" dapat dikenali
pada dasarnya sempurna, tapi kosakata ukuran 200,, 5000 atau 100000
mungkin memiliki tingkat kesalahan 3%, 7%, atau 45%. Di sisi lain, bahkan
kosakata yang kecil akan sulit untuk mengenali jika mengandung kata-kata
confusable. Sebagai contoh, 26 huruf dari abjad Inggris (diperlakukan sebagai
26 "kata") sangat sulit untuk membedakan karena mengandung kata-kata
confusable begitu banyak (yang paling terkenal, E-setT "B, C, D, E, G, P, T,
V, Z "); tingkat kesalahan 8% dianggap baik untuk kosakata ini
(27)
Menurut definisi, sebuah sistem speaker dependent dimaksudkan
untuk digunakan oleh seorang pembicara tunggal, melainkan sistem speaker
independen dimaksudkan untuk digunakan oleh pembicara apapun.
Kemerdekaan speaker sulit dicapai karena sistem parameter a menjadi disetel
16
ke speaker (s) bahwa itu dilatih, dan parameter-parameter ini cenderung
sangat speaker-spesifik.
3)
Terisolasi speech, terputus, atau kontinu.
Speech Terisolasi berarti kata-kata tunggal; speech diskontinyu berarti
kalimat lengkap di mana kata-kata secara artifisial dipisahkan oleh
keheningan, dan berbicara terus menerus berarti alami diucapkan kalimat.
Pengenalan suara terisolasi dan diskontinyu relatif mudah karena batas kata
yang terdeteksi dan kata-kata cenderung bersih diucapkan.
4)
Tugas dan kendala bahasa.
Bahkan dengan kosakata yang tetap, kinerja akan bervariasi dengan
sifat kendala pada urutan kata yang diizinkan selama pengakuan. Beberapa
kendala mungkin tugas-tergantung (misalnya, aplikasi airlinequerying dapat
memberhentikan hipotesis "apel adalah merah"); kendala lain mungkin
semantik (menolak "Apel marah"), atau sintaksis (menolak "Merah adalah
(28)
apel "). Kendala yang sering diwakili oleh tata bahasa, yang idealnya
menyaring kalimat tidak masuk akal sehingga recognizer speech
mengevaluasi hanya kalimat yang masuk akal. Tata bahasa biasanya dinilai
oleh kebingungan mereka, angka yang menunjukkan rata-rata faktor tata
bahasa yang bercabang (yaitu, jumlah kata yang dapat mengikuti setiap kata
17
yang diberikan). Kesulitan tugas lebih andal diukur dengan kebingungan
dibanding dengan ukuran kosa kata.
5)
Baca vs speech spontan.
Sistem dapat dievaluasi dalam sambutannya yang baik dibaca dari
script siap, atau speech yang diucapkan secara spontan. Speech spontan
adalah jauh lebih sulit, karena cenderung dibumbui dengan ketidaklancaran
seperti "eh" dan "um", mulai palsu, kalimat tidak lengkap, gagap, batuk, dan
tawa, lagipula, kosakata pada dasarnya terbatas, sehingga sistem harus dapat
menangani cerdas dengan kata-kata yang tidak diketahui (misalnya,
mendeteksi dan lesu kehadiran mereka, dan menambahkan mereka ke kosa
kata, yang mungkin memerlukan beberapa interaksi dengan pengguna).
(29)
Kinerja Sebuah sistem juga dapat terdegradasi oleh berbagai kondisi
yang merugikan. Ini termasuk kebisingan lingkungan (misalnya, kebisingan di
dalam mobil atau pabrik); distorsi akustik (misalnya, gema, akustik ruang);
mikrofon yang berbeda (misalnya, dekat berbahasa, omnidirectional, atau
telepon); frekuensi bandwidth terbatas (dalam transmisi telepon) ; dan
berbicara dengan cara diubah (berteriak, merengek, berbicara cepat, dll).
18
Dalam rangka untuk mengevaluasi dan membandingkan sistem yang berbeda
di bawah kondisi yang didefinisikan dengan baik, sejumlah database standar telah
diciptakan dengan karakteristik tertentu. Sebagai contoh, satu database yang telah
banyak digunakan adalah DARPA Manajemen Sumberdaya database - kosa kata
yang besar (1000 kata), speaker-independen, speech database yang terus menerus,
yang terdiri dari 4000 kalimat pelatihan dalam domain manajemen sumber daya laut,
dibaca dari script dan dicatat di bawah kondisi lingkungan jinak, pengujian biasanya
dilakukan dengan menggunakan tata bahasa dengan kebingungan 60. Di bawah
kondisi yang terkendali, state-of-the-art kinerja sekitar 97% akurasi pengenalan kata
(atau kurang untuk sistem sederhana).
2.4.1. Dasar-dasar Speech Recognition
Pengenalan suara adalah tugas pengenalan pola multileveled, di mana sinyal
akustik diperiksa dan terstruktur dalam hirarki unit subword (misalnya, fonem), kata,
(30)
frasa, dan kalimat. Setiap tingkat dapat memberikan kendala temporal tambahan,
misalnya, pengucapan kata yang dikenal atau urutan kata hukum, yang dapat
mengkompensasi kesalahan atau ketidakpastian di tingkat bawah. Hirarki ini kendala
terbaik dapat dimanfaatkan dengan menggabungkan probalistik keputusan di semua
tingkat yang lebih rendah, dan membuat keputusan diskrit hanya pada tingkat
tertinggi.
19
Struktur dari sistem pengenalan suara standar diilustrasikan pada Gambar.
Unsur-unsur adalah sebagai berikut:
(31)
1)
Speech speech. Mentah biasanya sampel pada frekuensi tinggi, misalnya,
16 KHz melalui mikrofon atau 8 KHz melalui telepon. Hal ini
menghasilkan urutan nilai amplitudo dari waktu ke waktu.
2)
Analisis sinyal. Speech awalnya baku harus diubah dan dikompresi, untuk
mempermudah pengolahan selanjutnya. Banyak teknik analisis sinyal
yang tersedia yang dapat mengekstrak fitur yang berguna dan kompres
data dengan faktor sepuluh tanpa kehilangan informasi penting. Di antara
yang paling populerT
20
a) Analisis Fourier (FFT) menghasilkan frekuensi diskrit dari waktu ke
waktu, yang dapat ditafsirkan secara visual. Frekuensi sering
didistribusikan menggunakan skala Mel, yang linear pada rentang rendah
tapi logaritmik dalam kisaran tinggi, sesuai dengan karakteristik fisiologis
telinga manusia.
b) Prediksi Linear perseptual (PLP) juga fisiologis termotivasi, tetapi
menghasilkan koefisien yang tidak dapat ditafsirkan secara visual.
c) Linear Predictive Coding (LPC) menghasilkan koefisien persamaan
linear yang mendekati sejarah nilai speech mentah.
d) Analisis cepstral menghitung invers transformasi Fourier dari logaritma
dari spektrum kekuatan sinyal.
(32)
Dalam prakteknya, itu membuat sedikit perbedaan yang teknik used1. Setelah itu,
prosedur seperti Linear Diskriminan Analisis (LDA) opsional dapat diterapkan untuk
lebih mengurangi dimensi representasi apapun, dan untuk decorrelate koefisien.
21
1)
Speech frame.
Hasil analisis sinyal adalah urutan frame speech,
biasanya pada interval 10 msec, dengan sekitar 16 koefisien per
frame. Frame ini dapat ditambah dengan terlebih dahulu mereka
sendiri dan / atau turunan kedua, memberikan informasi eksplisit
tentang dinamika speech, hal ini biasanya mengarah ke
peningkatan kinerja. Para frame speech digunakan untuk analisis
akustik.
2)
Model akustik.
Dalam rangka untuk menganalisis frame speech
untuk konten akustik mereka, kita perlu satu set model akustik.
(33)
Ada banyak jenis model akustik, yang bervariasi dalam perwakilan
mereka, granularity, ketergantungan konteks, dan properti lainnya.
22
Model akustik: template dan representasi kata.
Gambar menunjukkan dua representasi populer untuk model akustik. Yang paling
sederhana adalah template, yang hanya contoh yang disimpan dari unit speech
dimodelkan, misalnya, rekaman dari sebuah kata. Sebuah kata yang tidak diketahui
dapat dikenali hanya dengan membandingkannya terhadap semua template yang
(34)
dikenal, dan menemukan pertandingan terdekat. Template memiliki dua kelemahan
utamaT (1) mereka tidak bisa model variabilities akustik, kecuali dengan cara yang
kasar dengan menetapkan beberapa template untuk setiap kata, dan (2) dalam praktek
mereka dibatasi untuk seluruh kata model, karena sulit untuk merekam atau segmen
sampel lebih pendek dari kata - template sehingga hanya berguna dalam sistem kecil
yang mampu membayar kemewahan menggunakan seluruh kata model. Sebuah
representasi yang lebih fleksibel, yang digunakan dalam sistem yang lebih besar,
didasarkan pada model akustik yang terlatih, atau negara. Dalam pendekatan ini,
23
setiap kata dimodelkan dengan urutan negara dilatih, dan masing-masing negara
menunjukkan suara yang mungkin didengar di segmen kata, menggunakan distribusi
probabilitas atas ruang akustik. Distribusi probabilitas dapat dimodelkan
parametrically, dengan asumsi bahwa mereka memiliki bentuk sederhana (misalnya,
distribusi Gaussian) dan kemudian mencoba untuk menemukan parameter yang
menggambarkan hal itu; atau non-parametrically, dengan mewakili distribusi
langsung (misalnya, dengan histogram atas suatu kuantisasi dari ruang akustik, atau,
sebagaimana akan kita lihat, dengan jaringan saraf).
2.4.2. Klasifikasi fonem dan Pendekatan Statis
Klasifikasi fonem dapat dilakukan dengan akurasi tinggi dengan
menggunakan pendekatan baik statis atau dinamis. Di sini kita meninjau beberapa
(35)
eksperimen yang khas menggunakan pendekatan masing-masing. Sebuah percobaan
sederhana namun elegan dilakukan oleh Huang & Lippmann (1988), menunjukkan
bahwa jaringan saraf dapat membentuk permukaan keputusan yang kompleks dari
data speech. Mereka menerapkan perceptron multilayer dengan hanya 2 input, 50 unit
tersembunyi, dan 10 output, koleksi Peterson & Barney vokal diproduksi oleh pria,
wanita, dan anak-anak, menggunakan dua forman pertama dari vokal sebagai
representasi speech masukan. Setelah 50.000 iterasi pelatihan, jaringan yang
dihasilkan daerah keputusan yang ditunjukkan pada Gambar di bawah ini. Daerah ini
keputusan hampir optimal, menyerupai daerah keputusan yang akan digambar dengan
24
tangan, dan mereka menghasilkan akurasi klasifikasi sebanding dengan algoritma
yang lebih konvensional, seperti k-tetangga terdekat dan klasifikasi Gaussian.
Keputusan daerah dibentuk oleh perceptron 2-lapisan menggunakan pelatihan
backpropagation dan data forman vokal. (Dari Huang & Lippmann, 1988.)
(36)
Dalam sebuah percobaan yang lebih kompleks, Elman dan Zipser (1987)
melatih jaringan untuk mengklasifikasikan vokal / a, i, u / dan konsonan / b, d, g /
karena mereka terjadi dalam ucapan-ucapan ba, bi, bu, da, di, du, dan ga, gi, gu.
Masukan jaringan mereka terdiri dari 16 koefisien spektral lebih dari 20 frame
(meliputi 64 seluruh msec ucapan, berpusat dengan tangan selama awal konsonan
yang menyuarakan); ini dimasukkan ke lapisan tersembunyi dengan antara 2 dan 6
unit, yang mengarah ke 3 output untuk vokal baik atau konsonan klasifikasi. Jaringan
ini mencapai tingkat kesalahan sekitar 0,5% untuk vokal dan 5,0% untuk konsonan.
Sebuah analisis dari unit tersembunyi menunjukkan bahwa mereka cenderung fitur
25
detektor, membedakan antara kelas penting dari suara, seperti vokal konsonan
dibandingkan.
Di antara yang paling sulit tugas klasifikasi adalah apa yang disebut E-set,
yaitu, membedakan antara huruf Inggris berima "B, C, D, E, G, P, T, V, Z". Burr
(1988) diterapkan jaringan statis untuk tugas ini, dengan hasil yang sangat baik.
Jaringannya menggunakan jendela input dari 20 frame spektral, secara otomatis
diekstrak dari seluruh ucapan menggunakan informasi energi. Input ini dipimpin
langsung ke output mewakili 9 E-set huruf. Jaringan ini dilatih dan diuji dengan
menggunakan 180 token dari pembicara tunggal. Ketika bagian awal dari ucapan itu
oversampled, efektif menyoroti fitur disambiguating, akurasi pengenalan hampir
sempurna.
(37)
2.5. Sinyal Percakapan
Sinyal dapat didefinisikan sebagai kuantitas fisik yang bervariasi seiring
waktu atau variabel bebas lainnya yang menyimpan suatu informasi.[8]. Contoh
sinyal adalah: suara manusia, tegangan listrik di kabel telepon, intensitas cahaya pada
sebuah serat optik yang digunakan pada telepon atau jaringan komputer, dan
lain-lainnya. Sinyal dapat diklasifikasikan menjadi beberapa jenis yaitu: sinyal waktu
kontinyu, sinyal waktu diskrit, sinyal nilai kontinyu, sinyal nilai diskrit, sinyal
random
, dan sinyal
nonrandom
.[8]
26
Sinyal waktu kontinyu dengan nama lain sinyal analog adalah sinyal yang
belum melalui proses apapun. Sedangkan sinyal nilai diskrit atau sinyal digital adalah
sinyal analog yang telah melalui proses
sampling, quantization, dan encoding.
Sampling
adalah suatu proses dalam mengambil nilai-nilai sinyal pada
titik-titik diskrit sepanjang variabel waktu dari sinyal waktu kontinyu, sehingga
didapatkan sinyal waktu diskrit. Jumlah titik-titik yang diambil setiap detik
dinamakan sebagai
sampling rate.
Dalam melakukan
sampling,
perlu diperhatikan
kriteria
Nyquist
yang menyatakan bahwa sebuah sinyal harus memiliki
sampling rate
yang lebih besar dari 2
f
m
, dengan
f
m
adalah frekuensi paling tinggi yang muncul
disebuah sinyal.[8]
Quantization
adalah proses memetakan nilai-nilai dari sinyal nilai kontinyu
menjadi nilai-nilai yang diskrit, sehingga didapatkan sinyal nilai diskrit.
(38)
Encoding adalah proses mengubah nilai-nilai sinyal ke menjadi bilangan
biner. Pada
gambar 2
dapat dilihat perbedaan antara sinyal analog dengan sinyal
digital.
27
Gambar 2.1.
Diagram Sinyal Analog dan Sinyal Digital
Sinyal yang berbentuk digital dapat disimpan dalam media penyimpanan di
komputer. WAV file (berasal dari kata
wave) merupakan format umum yang paling
sederhana untuk menyimpan data sinyal audio. WAV file terdiri dari 3 potongan
informasi yaitu:
RIFF chunk, FORMAT chunk,
dan DATA chunk.[6].
RIFF
chunk
berisi informasi yang menandakan bahwa file berbentuk WAV. FORMAT chunk
(39)
berisi parameter-parameter seperti jumlah channel,
sample rate, resolusi.
DATA
chunk yang berisi data aktual sinyal digital.
Sinyal yang dihasilkan dari suara manusia sewaktu melakukan percakapan
disebut sebagai sinyal percakapan. Sinyal percakapan merupakan kombinasi
kompleks dari variasi tekanan udara yang melewati pita suara dan vocal tract, yaitu
mulut, lidah, gigi, bibir, dan langit-langit. Sistem produksi sinyal percakapan dapat
dilihat pada gambar 2.2.
28
Gambar 2.2. Diagram Model Sistem Produksi Suara
Sinyal percakapan terdiri dari serangkaian suara yang masing-masing
menyimpan sepotong informasi. Berdasarkan cara menghasilkannya, suara tersebut
terbagi menjadi voiced dan unvoiced. Suara voiced dihasilkan dari getaran pita suara,
sedangkan suara unvoiced dihasilkan dari gesekan antara udara dengan vocal tract.
(40)
Sinyal percakapan memiliki beberapa karakteristik, misalnyaT formant, pitch,
dan intensitas. Formant adalah variasi resonansi yang dihasilkan oleh
vocal tract.
Pitch adalah frekuensi dari sinyal atau yang sering disebut sebagai intonasi.
Sedangkan intensitas adalah kekuatan suara. Karakteristik-karakteristik tersebut
berguna dalam melakukan analisis sinyal.
2.6. Transformasi Fourier
Transformasi Fourier merupakan suatu metode untuk mentransformasikan
sinyal domain waktu menjadi sinyal domain frekuensi. Transformasi ini penting
dalam analisis sinyal karena karakteristik sinyal domain frekuensi dapat diamati
29
dengan lebih jelas dan dimanipulasi dengan lebih mudah daripada sinyal domain
waktu. Di domain frekuensi, sinyal direpresentasikan sebagai serangkaian nilai yang
menunjukkan banyaknya satuan sinyal yang berada di frekuensi tertentu.
Transformasi Fourier banyak digunakan untuk aplikasi sains, misalnyaT fisika,
teori numerik, pemrosesan sinyal, statistik, akustik, optik, geometri, dan lain-lainnya.
Motivasi untuk Transformasi Fourier berasal dari studi tentang deret Fourier .
Dalam studi dari seri Fourier, fungsi yang rumit yang ditulis sebagai jumlah
gelombang yang sederhana matematis diwakili oleh sinus dan cosinus . Karena sifat
sinus dan kosinus adalah mungkin untuk memulihkan jumlah setiap gelombang
(41)
dalam penjumlahan oleh terpisahkan. Dalam banyak kasus hal ini diinginkan untuk
menggunakan rumus Euler , yang menyatakan bahwa
e
2
= cos 2
πiθ
πθ
+
i
sin 2
πθ,
untuk menulis seri Fourier dalam hal gelombang dasar
e
2
πiθ.
Hal ini memiliki
keuntungan dari banyak menyederhanakan rumus terlibat dan memberikan formulasi
untuk seri Fourier yang lebih dekat menyerupai definisi diikuti dalam artikel ini. Ini
bagian dari sinus dan cosinus untuk eksponensial kompleks membuat perlu untuk
koefisien Fourier untuk menjadi kompleks dihargai. Penafsiran yang biasa dari
bilangan kompleks adalah bahwa ia memberikan baik amplitudo (atau ukuran) yang
hadir dalam fungsi gelombang dan fase (atau sudut awal) gelombang. Bagian ini juga
memperkenalkan perlunya negatif "frekuensi". Jika
θ
diukur dalam detik maka
gelombang
e
2
πiθ
dan
e
-2
πiθ
akan baik satu siklus lengkap per detik, tapi mereka
30
mewakili frekuensi yang berbeda dalam Transformasi Fourier. Oleh karena itu,
frekuensi tidak lagi mengukur jumlah siklus per satuan waktu, tetapi terkait erat.
Ada hubungan erat antara definisi dari seri Fourier dan Transformasi Fourier
untuk fungsi
ƒ
yang berada di luar interval nol. Untuk fungsi seperti kita dapat
menghitung seri Fourier pada setiap interval yang mencakup interval di mana
ƒ
tidak
identik dengan nol. Transformasi Fourier juga didefinisikan untuk fungsi seperti.
Seperti kita meningkatkan panjang interval yang kita menghitung deret Fourier, maka
koefisien deret Fourier mulai terlihat seperti Transformasi Fourier dan jumlah dari
seri Fourier dari
ƒ
mulai terlihat seperti Transformasi Fourier invers. Untuk
(42)
menjelaskan hal ini lebih tepatnya, misalkan T yang cukup besar sehingga interval [-
T / 2, T / 2] berisi interval yang tidak identik ƒ nol. Kemudian seri ke-n
n
koefisien c
diberikan
oleh:
Membandingkan ini dengan definisi dari transformasi Fourier maka yang
sejak ƒ (x) adalah nol luar [- T / 2, T / 2]. Dengan demikian koefisien
Fourier hanya nilai-nilai transformasi Fourier sampel pada grid dengan lebar 1 /
T.
Sebagai T meningkatkan koefisien Fourier lebih dekat mewakili Transformasi Fourier
dari fungsi.
31
Dalam kondisi yang tepat jumlah dari deret Fourier dari ƒ akan sama dengan fungsi ƒ.
Dengan kata lain ƒ dapat
ditulis:
di mana jumlah terakhir adalah hanya jumlah pertama ditulis ulang menggunakan
definisi ξ
n
=
n
/ T, dan Δ ξ = (n + 1) / T - n / T = 1 / T.
Ini jumlah kedua adalah jumlah Riemann , dan sebagainya dengan membiarkan T →
∞ itu akan bertemu dengan integral untuk invers transformasi Fourier diberikan
(43)
dalam bagian definisi. Dalam kondisi yang sesuai argumen ini dapat dilakukan tepat (
Stein & Shakarchi 2003 ). Dalam studi dari seri Fourier nomor
c
n bisa dianggap
sebagai "jumlah" dari gelombang di seri Fourier dari
ƒ.
Demikian, seperti yang
terlihat di atas, transformasi Fourier dapat dianggap sebagai fungsi yang mengukur
berapa banyak masing-masing frekuensi individu hadir dalam
ƒ
fungsi kita, dan kita
bisa bergabung kembali gelombang ini dengan menggunakan integral (atau
"penjumlahan terus menerus") untuk mereproduksi fungsi asli.
Gambar berikut ini memberikan ilustrasi visual tentang bagaimana
transformasi Fourier mengukur apakah frekuensi hadir dalam fungsi tertentu. Fungsi
digambarkan
berosilasi pada 3 hertz (jika
t
detik
langkah-langkah) dan cenderung cepat ke 0. Fungsi ini secara khusus dipilih untuk memiliki
32
Transformasi Fourier nyata yang dengan mudah dapat diplot. Gambar pertama berisi
grafiknya. Dalam rangka untuk menghitung
kita harus mengintegrasikan
e
-2 πi (3
t)
ƒ (t).
Gambar kedua menunjukkan plot bagian real dan imajiner dari fungsi ini.
Bagian nyata dari integran hampir selalu positif, hal ini karena ketika
ƒ (t)
adalah
negatif, maka bagian nyata dari
e
-2
πi (3
t)
adalah negatif juga. Karena mereka
berosilasi pada tingkat yang sama, ketika
ƒ (t)
adalah positif, sehingga merupakan
bagian nyata dari
e
-2
πi (3
t).
Hasilnya adalah bahwa ketika Anda mengintegrasikan
bagian nyata dari integran Anda mendapatkan jumlah yang relatif besar (dalam hal ini
(44)
0,5). Di sisi lain, ketika Anda mencoba untuk mengukur frekuensi yang tidak hadir,
seperti dalam kasus ketika kita melihat
, Integran berosilasi cukup sehingga
integral sangat kecil. Situasi umum mungkin sedikit lebih rumit dari ini, tapi ini
dalam roh adalah bagaimana transformasi Fourier mengukur berapa banyak dari
frekuensi individu hadir dalam fungsi
ƒ (t).
33
Berikut Asli Fungsi yang menunjukkan Asli fungsi yang menunjukkan Transform
Fourier 3hertz-5hertz berlabel T
(45)
( c ) ( d )
Gambar 2.3 Asli Fungsi yang Menunjukkan Transform Fourier
34
A . Sifat-sifat transformasi Fourier
Integrable fungsi adalah fungsi
ƒ pada garis nyata yang Lebesgue-terukur dan
memenuhi
(46)
B . Sifat-sifat dasar
Mengingat integrable fungsi
f (x), g (x), dan
h (x), transformasi Fourier mereka
dilambangkan dengan
,
, Dan
masing-masing. Transformasi Fourier
memiliki sifat dasar berikut ( Pinsky 2002 ).
1) Linearitas
Untuk setiap bilangan kompleks a dan b, jika
h (x) = რ(x) + BG (x), maka
2) Terjemahan
Untuk setiap bilangan real
x
0, jika
h (x) =
ƒ (x -
x
0), maka
35
3) Modulasi
Untuk setiap bilangan real
ξ
0, jika
h (x) =
e
2
πixξ
0
ƒ (x), maka
.
(47)
Untuk non-nol bilangan real
, jika
h (x) =
ƒ (kapak), maka
. Kasus ini
a = -1 mengarah ke properti
waktu-pembalikan, yang menyatakan: jika h (x) = ƒ (- x), maka
.
5) Konjugasi
Jika
, Kemudian
Secara khusus, jika ƒ adalah nyata, maka seseorang memiliki kondisi realitas
Dan jika ƒ adalah murni imajiner, maka
6) Dualitas
Jika
kemudian
36
7) Belit
Jika
, Kemudian
(48)
Untuk melakukan transformasi Fourier terhadap sinyal diskrit, digunakan
Discrete Fourier Transform
(DFT) yang didefinisikan sebagai berikut.[3]
1 0 / 2)
(
)
(
N n N nk je
n
x
k
X
,
j
1
(2.1)
DFT menghasilkan serangkaian
N
buah nilai yang berindeks
k
di dalam
domain frekuensi yang merupakan transformasi dari sinyal domain waktu yang
berindeks
n
. Dari hasil tersebut,
X
(
k
)
dan
X
(
N
k
)
merupakan konjugasi
kompleks.[3] Karena
magnitude
dari konjugasi kompleks adalah sama, maka
didapatkan
X
(
k
)
X
(
N
k
)
untuk
k
bernilai 0 sampai
N
/
2
. Dengan demikian,
nilai hasil transformasi dalam domain frekuensi yang digunakan untuk analisis sinyal
hanya nilai yang berindeks 0 sampai
N
/
2
saja.
Untuk mengembalikan sinyal domain frekuensi ke domain waktu, digunakan
persamaan transformasi
inverse.
Persamaan DFT
inverse
didefinisikan sebagai
berikut.[8]
37
1 0 / 2)
(
1
)
(
N k N nk je
k
X
N
n
x
,
j
1
(2.2)
(49)
Fast Fourier Transform
(FFT) dikembangkan oleh Cooley dan Tukey pada
tahun 1965. Dimana algoritma FFT merupakan penyederhanaan dari algoritma DFT
sebelumnya yang memiliki persyaratan jumlah data harus merupakan bilangan
2
nuntuk
n
0
,
,1
2
,...
. Waktu komputasi DFT memiliki kompleksitas
N
2sedangkan FFT
memiliki kompleksitas
Np
/
2
dengan
p
2log
N, sehingga FFT lebih cepat daripada
DFT dengan rasio kecepatan FFT terhadap DFT adalah:[8]
p
N
Np
N
2
2
/
2
(2.3)
seperti yang terhitung pada tabel 2.1.
38
Tabel 2.1 Rasio Kecepatan FFT Terhadap DFT
P
N
Rasio kecepatan FFT/DFT
2
4
1.00
(50)
.
Sumber: M. J. Roberts,2004
39
4
16
8.00
5
32
12.80
6
64
21.33
7
128
36.57
8
25
64.00
9
512
113.78
10
1,024
204.80
11
2,048
372.36
12
4,096
682.67
13
8,192
1,260.31
14
16,384
2,340.57
15
32,768
4,369.07
(51)
2 . 7 . Metode Dynamic Time Warping (DTW)
Dalam bagian ini kita memotivasi dan menjelaskan algoritma Pembengkokan
Waktu Dinamis, salah satu algoritma yang tertua dan paling penting dalam
pengenalan suara. Cara paling sederhana untuk mengenali kata yang terisolasi sampel
adalah dengan membandingkannya dengan sejumlah template disimpan dan
menentukan kata yang merupakan "paling cocok". Tujuan ini adalah rumit oleh
sejumlah faktor. Pertama, sampel yang berbeda dari kata tertentu akan memiliki
jangka waktu yang agak berbeda. Masalah ini dapat dihilangkan dengan hanya
menormalkan template dan speech yang tidak diketahui sehingga mereka semua
memiliki durasi yang sama. Namun, masalah lain adalah bahwa tingkat pembicaraan
mungkin tidak konstan di seluruh kata, dalam kata lain, keselarasan yang optimal
antara template dan sampel berbicara mungkin nonlinier. Waktu Dinamis Warping
(DTW) adalah metode yang efisien untuk menemukan keselarasan ini nonlinier yang
optimal.
DTW adalah sebuah instance dari kelas umum dari algoritma dikenal sebagai
pemrograman dinamis. Waktu dan kompleksitas ruang hanya linier dalam durasi
speech sampel dan ukuran kosa kata. Algoritma ini membuat single pass melalui
matriks skor bingkai sementara komputasi lokal dioptimalkan segmen jalan
keselarasan global.
(52)
40
Jika D (x, y) adalah jarak Euclidean antara frame x dari sampel speech dan y
kerangka referensi template, dan jika C (x, y) adalah nilai kumulatif sepanjang jalan
keselarasan yang optimal yang mengarah ke (x, y ), maka :
C (x, y) = MIN (C (x - 1, y), C (x - 1, y - 1), C (x, y - 1)) + D (x, y)
Jalan keselarasan yang dihasilkan dapat digambarkan sebagai sebuah lembah
yang rendah skor jarak Euclidean, berkelok-kelok melalui perbukitan lanskap dari
matriks, dimulai pada (0, 0) dan berakhir pada titik akhir (X, Y). Dengan melacak
backpointers, jalan keselarasan penuh dapat dipulihkan dengan menelusuri mundur
dari (X, Y). Jalur keselarasan yang optimal dihitung untuk setiap template referensi
(53)
41
kata, dan satu dengan skor kumulatif terendah dianggap paling cocok untuk sampel
speech diketahui.
Ada banyak variasi pada algoritma DTW. Sebagai contoh, adalah umum
untuk memvariasikan kendala jalan lokal, misalnya, dengan memperkenalkan transisi
dengan kemiringan 1 / 2 atau 2, atau bobot transisi dalam berbagai cara, atau
menerapkan jenis lain dari kendala kemiringan (Sakoe dan Chiba 1978). Sementara
model referensi kata biasanya template, mereka mungkin negara berbasis model
(seperti yang ditunjukkan sebelumnya pada Gambar). Bila menggunakan negara,
transisi vertikal sering dilarang (karena ada negara kurang dari frame), dan sering
tujuannya adalah untuk memaksimalkan nilai kumulatif, daripada menguranginya.
Sebuah variasi penting dari DTW adalah perluasan dari
speech
terus menerus
terisolasi. Ekstensi ini disebut Satu Tahap algoritma DTW (Ney 1984). Berikut
tujuannya adalah untuk menemukan keselarasan yang optimal antara sampel
speech
dan urutan terbaik dari kata referensi. Kompleksitas dari algoritma diperpanjang
masih linier dalam panjang sampel dan ukuran kosa kata. Modifikasi hanya untuk
algoritma DTW dasar adalah bahwa pada awal masing-masing model referensi kata
(yaitu, frame pertama atau negara), jalan diagonal diperbolehkan untuk menunjuk
kembali ke akhir dari semua model referensi kata dalam frame sebelumnya.
Backpointers lokal harus menentukan model referensi kata dari titik sebelumnya,
sehingga urutan kata yang optimal dapat dipulihkan dengan menelusuri mundur dari
(54)
42
titik akhir dari W kata dengan skor akhir terbaik. Tata bahasa bisa dikenakan pada
speech
pengakuan terus menerus dengan membatasi transisi diizinkan di batas kata
(DTW) adalah algoritma untuk mengukur kesamaan antara dua urutan yang
mungkin berbeda dalam waktu atau kecepatan. Misalnya, kesamaan dalam pola
berjalan akan terdeteksi, bahkan jika dalam satu video orang itu berjalan
perlahan-lahan dan jika di lain ia berjalan lebih cepat, atau bahkan jika ada percepatan dan
deselerasi selama satu pengamatan. DTW telah diterapkan ke video, audio, dan grafik
- memang, setiap data yang dapat berubah menjadi representasi linier dapat dianalisis
dengan DTW. Sebuah aplikasi terkenal telah otomatis pengenalan suara , untuk
mengatasi dengan kecepatan berbicara yang berbeda.
Secara umum, DTW adalah metode yang memungkinkan komputer untuk
menemukan kecocokan yang optimal antara dua sekuens diberikan (misalnya time
series ) dengan pembatasan tertentu. Urutan yang "menyesatkan" non-linear dalam
dimensi waktu untuk menentukan ukuran kesamaan tertentu independen mereka
non-linear variasi dalam dimensi waktu. Ini sequence aligment metode yang sering
digunakan dalam konteks model Markov tersembunyi.
Salah satu contoh pembatasan yang dikenakan pada pencocokan dari urutan
adalah pada monotonisitas pemetaan dalam dimensi waktu. Kontinuitas adalah
kurang penting dalam DTW daripada di lain pencocokan pola algoritma; DTW adalah
(55)
43
algoritma sangat cocok untuk urutan sesuai dengan informasi yang kurang, asalkan
ada segmen yang cukup lama untuk pencocokan terjadi.
Perpanjangan dari masalah untuk dua-dimensi "seri" seperti gambar (warping
planar) adalah NP-lengkap , sementara masalah untuk satu-dimensi sinyal seperti
time series dapat diselesaikan dalam waktu polinomial. Contoh ini menggambarkan
pelaksanaan waktu warping dinamis ketika dua sekuens adalah string simbol-simbol
diskrit. d(x, y) adalah jarak antara simbol-simbol, misalnya d(x, y) = | x - y |.
int DTWDistance (char s [1 .. n], char t [1 .. m]) {
int mendeklarasikan DTW [0 .. n, 0 .. m]
mendeklarasikan int i, j, biaya
untuk i: = 1 sampai m
DTW [0, i]: = infinity
untuk i: = 1 sampai n
DTW [i, 0]: = infinity
(56)
44
untuk i: = 1 sampai n
untuk j: = 1 sampai m
biaya: = d (s [i], t [j])
DTW [i, j]: = biaya + minimal (DTW [i-1, j], / / penyisipan
DTW [i, j-1], / / penghapusan
DTW [i-1, j-1]) / / cocok
kembali DTW [n, m]
}
Kita kadang-kadang ingin menambahkan kendala lokalitas. Artinya, kita memerlukan
bahwa jika s[i] yang cocok dengan t[j] , kemudian | i - j | adalah tidak lebih besar dari
w , parameter jendela. Kita dapat dengan mudah memodifikasi algoritma di atas
untuk menambahkan kendala lokalitas. Namun, modifikasi yang diberikan di atas
bekerja hanya jika | n - m | tidak lebih besar dari w , yaitu titik akhir dalam jendela
dari panjang diagonal. Dalam rangka untuk membuat pekerjaan algoritma, jendela
parameter w harus disesuaikan sehingga | n - m ≤ w |.
int DTWDistance (char s [1 .. n], char t [1 .. m], int b) {
int mendeklarasikan DTW [0 .. n, 0 .. m]
(57)
45
mendeklarasikan int i, j, biaya
w: = max (w, abs (nm)) / / menyesuaikan ukuran jendela (*)
untuk i: = 0 sampai n
untuk j: = 0 sampai m
DTW [i, j]: = infinity
DTW [0, 0]: = 0
untuk i: = 1 sampai n
untuk j: = max (1, iw) untuk min (m, i + w)
biaya: = d (s [i], t [j])
DTW [i, j]: = biaya + minimal (DTW [i-1, j], / / penyisipan
DTW [i, j-1], / / penghapusan
DTW [i-1, j-1]) / / cocok
kembali DTW [n, m] }
(58)
46
2 . 8 . Waktu Seri ( Time Series)
Dalam statistik , pemrosesan sinyal , ekonometri dan keuangan matematika ,
deret waktu adalah urutan titik data , diukur biasanya pada kali berturut berjarak pada
interval waktu yang seragam. Contoh deret waktu adalah nilai penutupan harian
indeks Dow Jones atau volume aliran tahunan Sungai Nil di Aswan Waktu analisis
seri terdiri dari metode untuk menganalisis data time series untuk mengekstrak
statistik bermakna dan karakteristik lainnya dari data. Waktu peramalan seri
penggunaan model yang untuk meramalkan peristiwa masa depan berdasarkan
peristiwa masa lalu dikenal untuk memprediksi titik data sebelum mereka diukur.
Time series sangat sering diplot melalui line chart.
Time data seri memiliki data yang dapat memesan sementara alami. Hal ini
membuat waktu analisis yang berbeda dari yang lain seri analisis data masalah, umum
di mana tidak ada memesan alami dari pengamatan (misalnya menjelaskan upah
orang dengan mengacu pada tingkat pendidikan mereka, di mana data individu dapat
dimasukkan dalam urutan apapun). Waktu analisis seri ini juga berbeda dari analisis
data spasial di mana pengamatan biasanya berhubungan dengan lokasi geografis
(misalnya akuntansi untuk harga rumah dengan lokasi serta karakteristik intrinsik dari
rumah). Sebuah model rangkaian waktu umumnya akan mencerminkan kenyataan
bahwa pengamatan bersama dalam waktu dekat akan lebih erat terkait daripada
pengamatan lebih lanjut terpisah. Selain itu, waktu model seri akan sering
(59)
47
memanfaatkan alam satu arah memesan waktu sehingga nilai untuk suatu periode
tertentu akan dinyatakan sebagai berasal dalam beberapa cara dari nilai-nilai masa
lalu, bukan dari nilai masa depan (lihat reversibilitas waktu). Metode untuk analisis
deret waktu dapat dibagi menjadi dua kelas: frekuensi-domain metode dan
waktu-domain metode. Yang pertama meliputi analisis spektral dan baru-baru analisis. Ada
beberapa jenis analisis data yang tersedia untuk time series yang sesuai untuk tujuan
yang berbeda.
2 . 8 . 1 . Eksplorasi Grafis Pemeriksaan Series Data
Analisis spektral untuk memeriksa perilaku siklik yang tidak perlu
berhubungan dengan musim . Sebagai contoh, aktivitas titik matahari bervariasi
selama siklus 11 tahun. Contoh umum lainnya termasuk fenomena langit, pola cuaca,
aktivitas saraf, harga komoditas, dan kegiatan ekonomi.
(60)
48
Gambar 2.4 Plot data secara time series
Pemisahan menjadi komponen-komponen yang mewakili tren, musiman, variasi
lambat dan cepat, tidak teratur siklus: lihat dekomposisi deret waktu
2 . 8 . 2 . Prediksi dan Peramalan Model
Sepenuhnya terbentuk model statistik untuk simulasi stokastik tujuan,
sehingga menghasilkan versi alternatif dari seri waktu, mewakili apa yang mungkin
terjadi selama waktu non-spesifik-periode di masa depan. Sederhana atau sepenuhnya
terbentuk model statistik untuk menggambarkan kemungkinan hasil dari seri waktu
dalam waktu dekat, pengetahuan yang diberikan dari hasil paling baru (forecasting).
(61)
49
Model untuk data time series dapat memiliki banyak bentuk yang berbeda dan
mewakili proses stokastik . Ketika pemodelan variasi dalam tingkat proses, tiga kelas
yang luas dari kepentingan praktis adalah autoregresif (AR) model, yang terintegrasi
(I) model, dan rata-rata bergerak (MA) model. Ketiga kelas tergantung linear [3] pada
titik data sebelumnya. Kombinasi ide-ide ini menghasilkan rata-rata bergerak
autoregressive (ARMA) dan rata-rata bergerak terpadu autoregresif (ARIMA) model.
Para fraksional terpadu autoregresif bergerak rata-rata (ARFIMA) model generalizes
tiga mantan. Ekstensi dari kelas-kelas untuk berurusan dengan vektor-nilai data yang
tersedia di bawah judul multivariat time-series model dan kadang-kadang akronim
sebelumnya diperluas dengan memasukkan sebuah "V" awal untuk "vektor". Paket
tambahan ekstensi dari model-model ini tersedia untuk digunakan di mana diamati
waktu-seri didorong oleh beberapa "memaksa" seri waktu (yang mungkin tidak
memiliki efek kausal pada seri diamati): perbedaan dari kasus multivariat adalah
bahwa seri mungkin memaksa deterministik atau di bawah kontrol eksperimen itu.
Untuk model ini, singkatan diperluas dengan "X" akhir untuk "eksogen".
Non-linear ketergantungan tingkat dari seri titik data sebelumnya adalah
kepentingan, sebagian karena kemungkinan menghasilkan kacau deret waktu.
Namun, yang lebih penting, penyelidikan empiris dapat menunjukkan keuntungan
dari menggunakan prediksi yang berasal dari non-linear model, atas mereka dari
model linier, seperti misalnya dalam nonlinear model autoregresif eksogen. Diantara
jenis lainnya non-linier model time series, ada model untuk mewakili perubahan
(62)
50
varians sepanjang waktu ( heteroskedasticity ). Model ini merupakan
heteroskedasticity kondisional autoregresif (ARCH) dan koleksi terdiri dari berbagai
macam representasi (GARCH, TARCH, EGARCH, FIGARCH, CGARCH, dll).
Berikut perubahan variabilitas terkait dengan, atau diprediksi oleh, nilai-nilai masa
lalu dari seri diamati. Hal ini berbeda dengan representasi lain yang mungkin dari
berbagai variabilitas lokal, di mana variabilitas mungkin dimodelkan sebagai
didorong oleh berbagai waktu terpisah proses, seperti dalam sebuah model yang
ganda stokastik. Dalam karya terbaru pada model-bebas analisis, metode berbasis
transformasi wavelet (wavelet lokal misalnya stasioner dan wavelet dekomposisi
jaringan saraf) telah mendapatkan bantuan. Multiskala (sering disebut sebagai
multiresolusi) teknik terurai serangkaian waktu tertentu, mencoba untuk
menggambarkan ketergantungan waktu di berbagai skala.
2 . 8 . 3 . Notasi dan Kondisi
Sejumlah notasi yang berbeda sedang digunakan untuk analisis time-series. Sebuah
notasi yang umum menetapkan
X
time series yang diindeks oleh alam nomor ditulis
(63)
51
Notasi lain yang umum adalah
Y
=
{Y
t:
t
∈
T},
dimana
T
adalah menetapkan indeks .
Ada dua set kondisi dimana banyak teori dibangun:
Proses stasioner
Ergodicity
Namun, ide-ide stasioneritas harus diperluas untuk mempertimbangkan dua ide
penting: stasioneritas yang ketat dan orde kedua stasioneritas . Kedua model dan
aplikasi dapat dikembangkan di bawah masing-masing kondisi, meskipun model
dalam kasus yang terakhir mungkin dianggap sebagai hanya sebagian yang
ditentukan. Selain itu, analisis time-series dapat diterapkan di mana seri yang
musiman stasioner atau non-stasioner. Situasi dimana amplitudo dari komponen
frekuensi berubah dengan waktu dapat ditangani dengan di waktu-frekuensi analisis
yang membuat penggunaan waktu-frekuensi representasi dari serangkaian waktu atau
sinyal.
(64)
52
2 . 8 . 4 . Model Autoregressive
Representasi umum dari model autoregresif, dikenal sebagai AR (p), adalah
dimana ε
t
panjang adalah sumber keacakan dan disebut white noise . Hal ini
diasumsikan memiliki karakteristik sebagai berikut:
a)
b)
c)
Dengan asumsi ini, proses ini ditetapkan sampai dengan orde kedua momen dan,
tergantung pada kondisi pada koefisien, mungkin orde kedua stasioner .
Jika kebisingan juga memiliki distribusi normal , hal itu disebut kebisingan putih
normal atau Gaussian. Dalam hal ini, proses AR mungkin ketat stasioner , sekali lagi
tergantung pada kondisi pada koefisien. Alat untuk menyelidiki data time-series
meliputi:
(65)
53
1)
Pertimbangan dari fungsi autokorelasi dan fungsi kepadatan
spektral (juga fungsi korelasi silang dan lintas-fungsi kerapatan
spektral )
2)
Melakukan Transformasi Fourier untuk menyelidiki seri di
domain frekuensi
3)
Penggunaan filter yang diinginkan untuk menghilangkan noise
4)
Analisis komponen utama (atau fungsi ortogonal empiris
analisis)
5)
Singular analisis spektrum
6)
Jaringan saraf tiruan
7)
Hidden Markov Model
8)
Dinamis waktu warping
9)
Dinamis jaringan Bayesian
Waktu-teknik analisis frekuensiT
1)
Fast Fourier Transform
(66)
3)
Waktu singkat Transformasi Fourier
4)
Pecahan Transformasi Fourier
(67)
BABBIIIB
METODEBPENELITIAN
3.1.BKerangkaBBerpikirB
B
Di dalam pengenalan pola dengan menggunakan DTW, dikenal istilah
pembelajaran dan pengenalan. Di dalam melakukan pembelajaran terdapat cara
paling sederhana untuk mengenali kata yang terisolasi sampel adalah dengan
membandingkannya dengan sejumlah template disimpan dan menentukan kata yang
merupakan "paling cocok". Tujuan ini adalah rumit oleh sejumlah faktor. Pertama,
sampel yang berbeda dari kata tertentu akan memiliki jangka waktu yang agak
berbeda. Masalah ini dapat dihilangkan dengan hanya menormalkan template dan
pidato yang tidak diketahui sehingga mereka semua memiliki durasi yang sama.
Namun, masalah lain adalah bahwa tingkat pembicaraan mungkin tidak konstan di
seluruh kata, dalam kata lain, keselarasan yang optimal antara template dan sampel
berbicara mungkin nonlinier. Waktu Dinamis Warping (DTW) adalah metode yang
efisien untuk menemukan keselarasan ini nonlinier yang optimal..
B
B
B
(68)
55
3.2. Diagram Alir Percobaan Penelitian (Flowchart)
Gambar 3.1. Diagram Alir Percobaan Penelitian
(69)
3.3. Rumusan Hipotesis
Pada penelitian ini, sistem yang akan diimplementasikan untuk mendeteksi
suara yang menghasilkan output karakter 0 (nol) hingga 9 (sembilan). Secara
sederhana blok diagram dapat dilihat pada gambar 1 yang merupakan sistem
implementasi.
Gambar 3.2. Arsitektur Sistem yang Akan Digunakan
Pada gambar 3.2 terlihat bahwa sistem yang dipakai untuk merealisasikan
sangat kompleks. Secara singkat sistem ini terdiri dari 3 bagian dimana tiap-tiap
bagian mempunyai pola maupun karakteristik yang berbeda-beda yaitu antara lain :
1)
Analog Digital Converter (ADC).
2)
Digital Signal Processing (DSP)
57
Suara / Noise
Pemrosesan
Sinyal Suara
Ekstraksi Ciri
Pemrosesan Awal
Pola suara
Template
Matching
Output Karakter
(70)
1) Analog Digital Converter (ADC)
Pada bagian ini, sinyal suara yang dimasukkan melalui
microphone
yang
berfungsi untuk mengubah sinyal suara analog menjadi sinyal kontinu berupa
tegangan analog, hal ini terlihat seperti pada gambar 3.2.
Gambar 3.3. Diagram Sinyal Suara Menjadi Sinyal Digital
Setelah sinyal analog terbentuk berupa tegangan, maka dilakukan proses
konversi yaitu mengubah sinyal analog menjadi sinyal digital. Pada gambar terdapat
blok diagram buffer data, bagian ini berfungsi sebagai penampung data berupa sinyal
suara untuk menghindari kehilangan data akibat kecepatan pencuplikan data dengan
peralatan untuk mengambil data tidak sama. Pada umumnya peralatan
ADC
mempunyai kecepatan lebih rendah dibandingkan dengan peralatan pengambil data,
untuk itu diperlukan media komunikasi antara kedua peralatan tersebut, salah satunya
dengan memberi sinyal
acknowledgment,
jadi jika akan mengambil data digital
berupa sinyal suara terlebih dahulu mengirim sinyal ACK. Guna untuk menanyakan
apakah data sudah siap diambil.
58
File *.WAV
MicroPhone
ADC
(Sound Card)
Buffer Data
Noise
(71)
2) Digital Signal Processing (DSP)
Pada blok
DSP merupakan proses yang sangat penting untuk menentukan
keberhasilan dan keefektifan suatu metode DTW dalam mengenali pola inputan.
Hasil dari
DSP
inilah yang digunakan sebagai masukan sistem pengenalan suara
dengan DTW.
Berdasarkan hal diatas, maka dalam penelitian ini akan memanfaatkan analisa
sinyal yaitu Fast Fourier Transform sebagai pengekstraksi ciri dari sinyal suara.
(72)
BABBIVB
ANALISABHASILBPERCOBAAN
4.1.BDesainBEksperimenB
Salah satu fungsi yang dipakai pada penelitian ini menggunakan metode
Mel-scale Fresuency Ceptral Coefficients
(MFCC), yaitu suatu fungsi
FFT
yang dapat
dimodifikasi sedemikian hingga kemudian dibagi menjadi beberapa bagian yang pada
akhirnya menghasilkan sampel sebanyak 2756 didapat dari frekuensi
sampling
11025Hz selama 2 detik. Proses ini sekaligus mengubah sinyal suara berbasis
Time
Domain
(domain waktu)
menjadi sinyal suara yang berbasis
Fresuency Domain
(domain frekewensi) yang dapat dimunculkan berupa grafik serta tujuannya adalah
untuk memudahkan dalam menganalisa. Fungsi
FFT
ini nantinya akan digunakan
dengan pertimbangan kecepatan dan kemudahan dalam pemrosesan sinyal suara.
Gambar 4.1. Metode Mel-scaled Ceptral Coefficients (Ekstraksi Ciri)
59
ADC
DTW
FFT
FFT
FFT
FFT
Filter
Filter
Filter
Filter
Normalisasi
(73)
60
Oleh karena keluaran dari
DSP
mempunyai nilai terlalu besar maka dilakukan
normalisasi menggunakan
Sigmoid
.
Dari persamaan diatas nilai hasil dari proses
DSP
menjadi 0
g(x)
1 sehingga nilai
tesebut siap untuk diproses dalam DTW.
4.2. Analisa Hasil Percobaan
Pada bagian ini keluaran (output) dynamic time warping
berfungsi mengenali
suara menjadi sebuah karakter. Sebelum digunakan, DTW
mengalami proses yang
dinamakan
learning
(belajar). Proses belajar yang dilakukan hampir sama dengan
metode-metode yang lain yang tujuan akhirnya DTW dapat mengenali suara yang
telah dilatihkan (bersifat
adaptif
). Proses belajar pada DTW biasa disebut dengan
supervised
(terpandu) karena membutuhkan suatu keluaran (target). Setelah
dilatihkan DTW dapat diaplikasikan untuk menetukan suara dengan jalan
menggunakan vektor referensi (bobot) hasil dari pembelajaran. Proses ini berawal
dari domain waktu (diskrit) kemudian diubah ke dalam domain frequensi yang
akhirnya sebelum masuk ke DTW dilakukan Normalisasi.
4.3. Pengujian Metode
Pada bagian ini akan diujikan metode yang dipakai dalam proses pengenalan
pola suara dari awal proses merekam suara, kemudian normalisasi suara dengan
fungsi
sigmoid
dan setelah itu proses pelatihan suara.
(1)
Berikut tampilan programnya :
A. Pola Suara “2” yang tidak cocok setelah dilakukan pengujian sebanyak 2 kali ini pengujian yang pertama
(2)
B. Pola Suara “2” yang tidak cocok setelah dilakukan pengujian sebanyak 2 kali ini pengujian yang kedua
(3)
BABBVB
KESIMPULANBdanBSARANB
5.1.BKesimpulanB
Beberapa kesimpulan yang dapat ditarik selama penelitian skripsi ini dilakukan antara lain :
1) Ada banyak faktor yang dapat mempengaruhi kualitas suara yang direkam. Selain perangkat keras yang digunakan, salah satunya tingkat kepekaan microphone sangatlah berpengaruh pada frekwensi suara yang disimpan dan kemudian akan dilatih datanya. Dengan menggunakan mic internal sudah dapat memfasilitasi proses perekaman suara ini.
2) Tingkat keberhasilan tidak bisa dibilang berhasil , disebabkan masih banyak suara kebisingan yang ada disekitar lingkungan atau ruangan . 3) Pemanfaatan grafik pola tiap suara yang direkam memudahkan user dalam
menganalisa pola suara untuk tiap-tiap kata yang diucapkan atau yang ingin dikenali.
B
B
B
(4)
5.2. Saran
Sebagai langkah perbaikan untuk penelitian yang akan datang, dapat dipertimbangkan beberapa hal antara lain :
1) Perangkat keras yang digunakan setidaknya dapat mereduksi derau (noise) secara realtime, sehingga akan didapatkan sinyal suara yang jernih.
2) Lingkungan pada saat pengambilan suara harus tetap sunyi tidak tercampur oleh suara lainnya.
3) Penambahan data masukkan suara yang direkam lebih banyak, dalam
mengantisipasi proses pelatihan yang kurang maksimal.
4) Perulangan proses pelatihan dapat diotomatisasi sehingga dapat
mempermudah dan mempercepat proses pengenalan pola suara yang diinginkan.
(5)
(6)
DAFTAR PUSTAKA
Chris, R. (1992). Speech Processing, (Berkshire: McGraw-Hill).
Laurene, F. (1994). Fundamentals of Neural Networks, (Englewood Cliffs: Prentice) M. J. Roberts. (2004). Signals and Systems Analysis Using Transform Methods and Matlab, (New York: McGraw-Hill)
Resmana dan Rudy Adipranata. (1999). “Pengenalan Suara Manusia Dengan Metode Distance Time Warping Berbasis PC”, (Dimensi Teknik Elektro)
Sri Kusumadewi. (2003). Artificial Inteligence, (Yogyakarta:Graha Ilmu). Don Johnson, The Speech Signal from http://cnx.rice.edu/content/m0087/latest/ Lawrence B. Holder, Speech Recognition (Briefly),from
http://www.cs.berkeley.edu/~russell/classes/cs188/s05/slides/chapter15b.pdf Mark Csele, WAV File Format Descriptions,from