IMPLEMENTASI DYNAMIC TIME WARPING UNTUK VOICE RECOGNITION.

(1)

IMPLEMENTASI DYNAMIC TIME WARPING

UNTUK VOICE RECOGNITION

TUGAS AKHIR

Diajukan Untuk Memenuhi Sebagian Persyaratan

Dalam Memperoleh Gelar Sarjana Komputer

Jurusan Teknik Informatika

Disusun oleh :

PAULA PUTRI RADHITASARI

0734010223

JURUSAN TEKNIK INFORMATIKA

FAKULTAS TEKNOLOGI INDUSTRI

UNIVERSITAS PEMBANGUNAN NASIONAL “VETERAN”

JAWA TIMUR

Hak Cipta © milik UPN "Veteran" Jatim :

(2)

KATA PENGANTAR

Puji syukur senantiasa penulis ucapkan kehadirat Tuhan YME, yang telah

melimpahkan rahmat dan hidayah-Nya, sehingga penulis dimudahkan dalam

penyelesaian penulisan laporan Tugas Akhir

Selama pelaksanaan kegiatan Tugas Akhir dan dalam penyelesaian penulisan

laporan Tugas Akhir di Universitas Pembangunan Veteran, Jawa Timur ini, penulis

mendapatkan banyak bantuan dan bimbingan dari berbagai pihak. Karena itu, penulis

ingin mengucapkan terima kasih kepada :

1. Ibu Dr Ir Ni Ketut Sari,Mt selaku Kepala Jurusan Teknik Informatika.

2. Bapak Mochamad Irwan Afandi,ST M.Som selaku dosen pembimbing yang

telah meluangkan waktu memberikan bimbingan selama pelaksanaan Tugas

Akhir.

3. Bapak Agus Heramanto,S.Kom selaku pembimbing kedua yang telah

mengizinkan penulis untuk dibimbing dalam mengerjakan Tugas Akhir.

4. Seluruh pimpinan Jurusan Teknik Informatika dan staff Universitas

Pembangunan nasional yang telah membantu kelancaran Tugas Akhir ini.

5. Orang tua dan keluarga atas segala motivasi dan doanya, sehingga semua

dapat berjalan lancar.

6. Teman-teman dan Kekasih hati pujaan bangsa yang selalu memberikan ilmu,

dukungan, motivasi serta doa untuk tetap maju dan berjuang menjadi lebih

baik lagi.

i

Hak Cipta © milik UPN "Veteran" Jatim :

(3)

Penulis menyadari sepenuhnya masih terdapat banyak kekurangan dalam

penyelesaian penulisan laporan Tugas Akhir ini. Namun penulis berusaha

menyelesaikan laporan ini dengan sebaik mungkin.

Segala kritik saran yang bersifat membangun sangat diharapkan dari semua

pihak, guna perbaikan dan pengembangan dimasa yang akan datang. Akhirnya besar

harapan penulis agar laporan ini dapat diterima dan berguna bagi semua pihak.

Aamiin…

Surabaya, November 2011

Penulis

ii

Hak Cipta © milik UPN "Veteran" Jatim :

(4)

DAFTAR ISI

KATA PENGANTAR ………..………... i

ABSTRAK ………... iii

DAFTAR ISI ………... iv

DAFTAR TABEL ………... vii

DAFTAR GAMBAR ……… viii

BAB I : PENDAHULUAN ………. 1

1.1 Latar Belakang Penelitian ……… 1

1.2 Rumusan Penelitian ……… 1

1.3 Tujuan Penelitian ………... 2

1.4 Manfaat Penelitian ………... 2

1.5 Batasan Penelitian ………..………. 2

1.6 Sistematika Penelitian ………... 3

BAB II : TINJAUAN PUSTAKA ……… 4

2.1 Deskripsi Konsep ………..……… 4

2.2 Kecerdasan Buatan ( AI ) ……….………. 4

2.3 Pengenalan Pola ………..……….. 8

iv

Hak Cipta © milik UPN "Veteran" Jatim :

(5)

2.4 Pengenalan Suara Dengan DTW ……….……….. 13

2.4.1 Dasar-Dasar

Speech Recopnition ……….……… 18

2.4.2 Klasifikasi Fonem dan Pendekatan Statis ……….…. 23

2.5 Sinyal Percakapan ……..……….. 25

2.6 Tranformasi Fourier …………..……… 28

2.6.1 Discrete Fourier Transform ( DFT ) ……….. 36

2.6.2 Fast Fourier Transform ( FFT ) ………. 37

2.7 Metode Dynamic Time Warping ( DTW ) ……….... 39

2.8 Waktu Seri ( Time Series ) ……….………..

46 2.8.1 Eksplorasi Grafis Pemeriksaan Series Data……….47

2.8.2 Prediksi dan Peramalan Model …………..……… 48

2.8.3 Notasi dan Kondisi …….………... 50

2.8.4 Model Autoregressive ……….……….. 52

BAB III : METODE PENELITIAN ……… 54

3.1 Kerangka Berpikir ………. 54

3.2 Diagram Alir Percobaan Penelitian ( Flowchart )……….. 55

3.3 Rumusan Hipotesis ……… 56

v

Hak Cipta © milik UPN "Veteran" Jatim :

(6)

BAB IV : ANALISA HASIL PERCOBAAN ………. 59

4.1 Desain Eksperimen ……….... 59

4.2 Analisa Hasil Percobaan ……… 60

4.3 Pengujian Metode …….………. 60

4.3.1 Proses Perekaman Suara dan Normalisasi ………... 61

4.3.2 Proses Pengenalan Suara ……… 77

BAB IV : KESIMPULAN DAN SARAN ……….. 81

5.1 Kesimpulan ……….. 81

5.2 Saran ……… 82

DAFTAR PUSTAKA ……… 83

vi

Hak Cipta © milik UPN "Veteran" Jatim :

(7)

DAFTAR TABEL

Tabel 2.1 Rasio Kecepatan FFT terhadap DFT ………...

38 vii

Hak Cipta © milik UPN "Veteran" Jatim :

(8)

DAFTAR GAMBAR

Gambar 2.1 Diagram Sinyal Analog dan Sinyal Digital ……….…… 27

Gambar 2.2 Diagram Model Sistem Produksi Suara ………... 28

Gambar 2.3 Plot Data secara Time Series ……….………. 48

Gambar 3.1 Diagram Alir Percobaan Penelitian ………. 55

Gambar 3.2 Arsitektur Sistem Yang Akan Digunakan ……….……….. 56

Gambar 3.3 Diagram Sinyal Suara Menjadi Sinyal Digital ………... 57

Gambar 4.1 Metode MEL-SCALED CEPSTRAL COEFISIENT

( EKSTRASI CIRI ) ………….………. 59

Gambar 4.2 Tampilan Program MATLAB Pertama Kali

dioperasikan ……….

61 Gambar 4.3 Hasil Pembacaan Sinyal Suara Awal Dialog

Interaksi Suara Yang Telah Direkam ………... 63

Gambar 4.4 Hasil Suara Yang Telah Direkam Dijadikan

Matriks Untuk Proses Pelatihan ……….. 64

Gambar 4.5 Hasil Ekstrasi Suara Yang Telah Difilter

dan Diekstrak Cirinya ………. 66

viii

Hak Cipta © milik UPN "Veteran" Jatim :

(9)

Gambar 4.6 Hasil dari Perekaman dan Grafik Angka Satu ………..………. 67

Gambar 4.7 Hasil dari Perekaman dan Grafik Angka Dua ……… 68

Gambar 4.8 Hasil dari Perekaman dan Grafik Angka Tiga …………..………….. 69

Gambar 4.9 Hasil dari Perekaman dan Grafik Angka Empat……….. 70

Gambar 4.10 Hasil dari Perekaman dan Grafik Angka Lima ……….……… 71

Gambar 4.11 Hasil dari Perekaman dan Grafik Angka Enam ……..………. 72

Gambar 4.12 Hasil dari Perekaman dan Grafik Angka Tujuh ………. 73

Gambar 4.13 Hasil dari Perekaman dan Grafik Angka Delapan ………. 74

Gambar 4.14 Hasil dari Perekaman dan Grafik Angka Sembilan…..………. 75

Gambar 4.15 Hasil dari Perekaman dan Grafik Angka Nol …….……….. 76

Gambar 4.16 Pola Suara “3” yang tidak cocok setelah dilakukan pengujian ………78

Gambar 4.17 Pola Suara “3” yang tidak cocok setelah dilakukan pengujian ………80

ix

Hak Cipta © milik UPN "Veteran" Jatim :

(10)

Nama

: PAULA PUTRI RADHITASARI

NPM

: 0734010223

Jurusan

: Teknik Informatika

Judul

: IMPLEMENTASI DYNAMIC TIME WARPING UNTUK VOICE

RECOGNITION

Abstrak

Penelitian tentang proses pengenalan suara telah menjadi wacana yang sedang

berkembang dalam perkembangan disiplin ilmu komputer, termasuk bagaimana

pengenalan suara tersebut dapat membantu pada aplikasi kehidupan kita sehari-hari.

Pada skripsi ini proses pengenalan suara merupakan tugas pengenalan pola secara

multileveled, di mana sinyal akustik diperiksa dan terstruktur dalam hirarki unit

subword (misalnya, fonem). Algortima yang digunakan adalah algoritma

Dynamic

Time Warping

merupakan algoritma untuk mengukur kesamaan antara dua urutan

yang mungkin berbeda dalam waktu atau kecepatan.

DTW sebagai metode yang memungkinkan komputer untuk menemukan

kecocokan yang optimal antara dua sekuens diberikan (misalnya time series) dengan

pembatasan tertentu. Urutan yang non-linear dalam dimensi waktu untuk menentukan

ukuran kesamaan tertentu independen mereka non-linear variasi dalam dimensi

waktu. Uji coba dilakukan dengan melakukan proses perekaman suara dengan

menyebutkan bilangan angka 0 (nol) hingga angka 9 (sembilan). Angka ini direkam

secara realtime dan dilatih menggunakan DTW. Hasil yang diperoleh selama

penelitian mendapati pola grafik dari tiap suara yang direkam akan merujuk hasil

suara yang diinginkan.

Ada banyak faktor yang dapat mempengaruhi kualitas suara yang direkam.

Selain perangkat keras yang digunakan, salah satunya tingkat kepekaan

microphone

sangatlah berpengaruh pada frekwensi suara yang disimpan dan dilatih datanya.

Keyword :

Dynamic Time Warping i Microphone.

iii

Hak Cipta © milik UPN "Veteran" Jatim :

(11)

BAB I

PENDAHULUAN

1.1. Latar Belakang Penelitian

Semakin pesatnya perkembangan disiplin ilmu komputer menuntut juga

disertainya perkembangan terhadap suatu disiplin ilmu baru yaitu tentang Kecerdasan

Buatan (AI). Kecerdasan Buatan yang dimaksud disini adalah bagaimana suatu

metode atau program dapat membantu pekerjaan manusia lebih baik tanpa disertai

instruksi – instruksi khusus sebelumnya. Proses pengenalan suara telah menjadi

wacana yang sedang berkembang sangat pesat, bagaimana pengenalan suara tersebut

dapat membantu pada aplikasi kehidupan kita dari yang paling sederhana hingga yang

kompleks. Metode – metode baru juga berkembang seiiring dinamisnya ide – ide baru

dalam hal penciptaan program komputer yang mana dapat langsung diaplikasikan

kedalam kehidupan kita sehari – hari.

1.2. Rumusan Penelitian

Rumusan dari penelitian ini adalah bagaimana “Menerapkan metode Dynamic

Time Warping pada proses pengenalan suara”

1

Hak Cipta © milik UPN "Veteran" Jatim :

(12)

2 1.3. Tujuan Penelitian

Penelitian ini bertujuan bagaimana metode yang sedang berkembang pada

ranah Kecerdasan Buatan dapat diterapkan pada proses pengenalan suara, dalam hal

ini metode yang digunakan sebagai metode latih dan metode pengenalan data adalah

Dynamic Time Warping dan juga dapat mengoptimasi metode tersebut secara

bersamaan.

1.4. Manfaat Penelitian

Mengembangkan metode yang berkembang ke ranah kecerdasan buatan

dalam hal ini Dynamic Time Warping sehingga ke depannya dapat meningkatkan

akurasi pada pengenalan suara yang menggunakan Dynamic Time Warping .

1.5. Batasan Penelitian

Sebagai batasan terhadap penelitian ini, antara lain :

1) Suara yang direkam hanya satu suara saja

2) Kecepatan pemrosesan sangat tergantung pada perangkat keras komputer

yang digunakan.

3) Proses pengambilan / perekaman suara dilakukan dengan menggunakan

perangkat komputer yang sama dengan perangkat komputer untuk memproses

data latih pola suara.

Hak Cipta © milik UPN "Veteran" Jatim :

(13)

4) Mengabaikan derau (noise) selama proses pengambilan suara.

3 1.6. Sistematika Penelitian

Sistematika laporan penelitian ini diatur dan disusun dalam lima bab dan tiap

bab terdiri dari beberapa sub bab, sebagai berikut :

BAB I.

PENDAHULUAN

Pada bab ini peneliti membahas tentang latar belakang masalah pokok

penelitian dan sistematika penulisannya.

BAB II. TINJAUAN PUSTAKA

Pada bab ini membahas tentang teori yang menunjang untuk

menganalisa permasalahan.

BAB III. METODE PENELITIAN

Pada bab ini membahas tentang metode percobaan yang akan

dilakukan selama proses penelitian dilakukan.

BAB IV. ANALISA HASIL PERCOBAAN

Pada bab ini membahas tentang hasil percobaan dari metode yang

digunakan juga interpretasi program yang dijalankan.

BAB V. KESIMPULAN DAN SARAN

Hak Cipta © milik UPN "Veteran" Jatim :

(14)

Pada bab terakhir ini berisi kesimpulan dari semua bab sebelumnya

serta saran untuk penelitian selanjutnya.

Hak Cipta © milik UPN "Veteran" Jatim :

(15)

BABBIIB

TINJAUANBPUSTATAB

B

2.1.BDeskripsiBTonsepB

Pada subbab tinjauan pustaka ini akan dijelaskan seluruh teori yang

berhubungan dengan pengenalan suara. Teori-teori yang akan dijelaskan antara lain

mengenai kecerdasan buatan, sinyal percakapan, analisa sinyal dengan metode

Dynamic Time Warping (DTW), transformasi Fourier (FFT/Fast Fourier Transform),

dan tingkat akurasi pengenalan ucapan/suara.

2.2.BTecerdasanBBuatanB(AI)B

Kecerdasan buatan (artificial intelligence) merupakan inovasi baru di bidang

ilmu pengetahuan. Mulai ada sejak muncul komputer modern, yakni pada 1940 dan

1950. Ini kemampuan mesin elektronika baru menyimpan sejumlah besar info, juga

memproses dengan kecepatan sangat tinggi menandingi kemampuan manusia.

Banyak hal yang kelihatannya sulit untuk kecerdasan manusia, tetapi untuk

Informatika relatif tidak bermasalah. Seperti contohT mentransformasikan persamaan,

menyelesaikan persamaan integral, membuat permainan catur atau Backgammon. Di

sisi lain, hal yang bagi manusia kelihatannya menuntut sedikit kecerdasan, sampai

sekarang masih sulit untuk direalisasikan dalam Informatika. Seperti contohT

Pengenalan Obyek/Muka, bermain sepak bola.

(16)

5 Walaupun AI memiliki konotasi fiksi ilmiah yang kuat, AI membentuk

cabang yang sangat penting pada ilmu komputer, berhubungan dengan perilaku,

pembelajaran dan adaptasi yang cerdas dalam sebuah mesin. Penelitian dalam AI

menyangkut pembuatan mesin untuk mengotomatisasikan tugas-tugas yang

membutuhkan perilaku cerdas. Termasuk contohnya adalah pengendalian,

perencanaan dan penjadwalan, kemampuan untuk menjawab diagnosa dan pertanyaan

pelanggan, serta pengenalan tulisan tangan, suara dan wajah. Hal-hal seperti itu telah

menjadi disiplin ilmu tersendiri, yang memusatkan perhatian pada penyediaan solusi

masalah kehidupan yang nyata. Sistem AI sekarang ini sering digunakan dalam

bidang ekonomi, obat-obatan, teknik dan militer, seperti yang telah dibangun dalam

beberapa aplikasi perangkat lunak komputer rumah dan video game.

'Kecerdasan buatan' ini bukan hanya ingin mengerti apa itu sistem kecerdasan,

tapi juga mengkonstruksinya. Tidak ada definisi yang memuaskan untuk 'kecerdasan',

bahwasanya kecerdasan adalah kemampuan untuk memperoleh pengetahuan dan

menggunakannya, atau kecerdasan yaitu apa yang diukur oleh sebuah 'Test

Kecerdasan'.

Secara garis besar, AI terbagi ke dalam dua faham pemikiran yaitu AI

Konvensional dan Kecerdasan Komputasional (CI, Computational Intelligence). AI

konvensional kebanyakan melibatkan metoda-metoda yang sekarang diklasifiksikan

sebagai pembelajaran mesin, yang ditandai dengan formalisme dan analisis statistik.

(17)

6 Dikenal juga sebagai AI simbolis, AI logis, AI murni dan AI cara lama

(GOFAI, Good Old Fashioned Artificial Intelligence). Metoda-metodanya meliputi:

1)

Sistem pakar : Menerapkan kapabilitas pertimbangan untuk mencapai

kesimpulan. Sebuah sistem pakar dapat memproses sejumlah besar informasi

yang diketahui dan menyediakan kesimpulan-kesimpulan berdasarkan pada

informasi-informasi tersebut.

2)

Pertimbangan berdasar kasus

3)

Jaringan Bayesian

4)

AI berdasar tingkah laku : Metoda modular pada pembentukan sistem AI

secara manual

Kecerdasan komputasional melibatkan pengembangan atau pembelajaran

iteratif (misalnya penalaan parameter seperti dalam sistem koneksionis. Pembelajaran

ini berdasarkan pada data empiris dan diasosiasikan dengan AI non-simbolis, AI yang

tak teratur dan perhitungan lunak. Metoda-metoda pokoknya meliputi:

1)

Jaringan Syaraf: sistem dengan kemampuan pengenalan pola yang sangat

kuat.

2)

Sistem Fuzzy: teknik-teknik untuk pertimbangan di bawah ketidakpastian,

telah digunakan secara meluas dalam industri modern dan sistem kendali

produk konsumen.

(18)

7 3)

Komputasi EvolusionerT menerapkan konsep-konsep yang terinspirasi secara

biologis seperti populasi, mutasi dan “survival of the fittest” untuk

menghasilkan pemecahan masalah yang lebih baik.

Metoda-metoda ini terutama dibagi menjadi algoritma evolusioner (misalnya

algoritma genetik) dan kecerdasan berkelompok (misalnya algoritma semut). Dengan

sistem cerdas hibrid, percobaan-percobaan dibuat untuk menggabungkan kedua

kelompok ini. Aturan inferensi pakar dapat dibangkitkan melalui jaringan syaraf atau

aturan produksi dari pembelajaran statistik seperti dalam ACT-R. Sebuah pendekatan

baru yang menjanjikan disebutkan bahwa penguatan kecerdasan mencoba untuk

mencapai kecerdasan buatan dalam proses pengembangan evolusioner sebagai efek

samping dari penguatan kecerdasan manusia melalui teknologi.

Sebagai bagian dari ilmu pengetahuan komputer, kecerdasan buatan ini

khusus ditujukan dalam perancangan otomatisasi tingkah laku cerdas dalam sistem

kecerdasan komputer. Sistem memperlihatkan sifat-sifat khas yang dihubungkan

dengan kecerdasan dalam kelakuan atau tindak-tanduk yang sepenuhnya bisa

menirukan beberapa fungsi otak manusia, seperti pengertian bahasa, pengetahuan,

pemikiran, pemecahan masalah, dan lain sebagainya.

(19)

Kecerdasan buatan mungkin satu dari perkembangan yang paling penting di

abad ini. Hal ini akan memengaruhi kehidupan negara-negara yang memainkan

peranan penting dalam perkembangan kecerdasan buatan, yang kemudian muncul

8 sebagai negara-negara adikuasa. Pentingnya kecerdasan buatan menjadi nyata

bagi negara-negara yang berperan sejak tahun 1970.

Dibandingkan dengan program konvensional, program kecerdasan buatan

lebih sederhana dalam pengoperasiannya, sehingga banyak membantu pemakai.

Program konvensional dijalankan secara prosedural dan kaku, rangkaian tahap

solusinya sudah didefinisikan secara tepat oleh pemrogramnya. Sebaliknya, pada

program kecerdasan buatan untuk mendapatkan solusi yang memuaskan dilakukan

pendekatan trial and error, mirip seperti apa yang dilakukan oleh manusia. Program

konvensional tidak dapat menarik kesimpulan seperti halnya pada program

kecerdasan buatan kendati dengan informasi-informasi yang terbatas.

2.3. Pengenalan Pola

Pengenalan pola adalah disiplin ilmu yang mengklasifikasikan object berdasar

image, berat atau parameter-parameter yang telah ditentukan kedalam sejumlah

kategori atau kelas. Pengenalan pola meliputi berbagai aplikasi dan implementasi

dalam kasus-kasus real world. Contoh aplikasi yang menerapkan pengenalan pola

adalah sebagai berikut :

(20)

Pengenalan pola menjadi dasar dari sistem mesin ini. Mesin ini

menangkap sebuah atau sekelompok

object

dengan kamera dan selanjutnya

dianalisa untuk di deskripsikan object atau benda tersebut.

9 2)

Character recognition (OCR)

Salah satu area pengenalan pola yang secara umum menangani

permasalahan otomatisasi dan informasi. Sistem OCR mempunyai

front end

device

yang terdiri dari pembangkit cahaya, lensa scan,

document transport

dan sebuah detektor.

3)

Computer aided diagnosis

Sistem ini membantu dokter dalam mengambil keputusan suatu

diagnosa

4)

Speech recognition

Pengenalan pola suara salah satu aplikasi yang berkembang saat ini.

Sistem ini mengijinkan kita untuk berkomunikasi antara manusia dengan

memasukkan data ke computer. Meningkatakan efisiensi industri manufaktur,

mengontrol mesin dengan berbicara pada mesin itu.

5)

Face recognition

Pengenalan wajah adalah sebuah system yang mengenali image wajah

manusia yang digunakan dalam otomatisasi dan security sebuah industry

(21)

10 6)

Biometrics

Biometric beguna untuk mengenali suatu pola mahluk hidup yang

dihubungkan dengan parameter – parameter psikologi maupun tingkah laku

7)

Image Data Base retrieval

Adalah sebuah system untuk pengembalian imagi data base

8)

Data mining

Adalah pengelompokan pola objek sejumlah data yang terurut dengan

harapan dapat memberikan informasi yang berguna dan diinginkan.

9)

Bioinformatics

Bioinformatik berhubungan erat dengan disiplin kedokteran,

pengenalan pola atau image dari suatu image penyakit atau pola dalam sebuah

analisa diagnosa penyakit atau pengenalan pola pola yang berhubungan

dengan dunia biologi secara umum

(22)

11 Fitur adalah object yang kuantitas dapat diukur dari sebuah pola, Pengklasifikasian

berdasar dari masing masing nilai dari fitur-fitur tersebut.

a . Vektor fitur adalah sejumlah atau sekumpulan dari fitur, misalakan sebuah

fitur adalah x maka kumpulan fitur dapat direpresentasikan berikutT

memberikan vector fitur sebagai berikutT

Dimana T adalah transpose dari matrik fitur tersebut. Sebuah vektor fitur

merupakan sebuah random vector.

ContohT

,

,...,

x

,

,...,

1

x

l

(23)

12 Dalam system pattern recognition terdapat tahapan tahapanT

a)

Pattern pertama kali ditangkap oleh sensor untuk dianalisa dan didapat

berbagai fiturnya

b)

Setelah mendapat informasi dari fitur fitur yang ada maka selanjutnya

adalah meng-generate fitur.

c)

Tidak semua fitur yang didapat dari sensor digunakan untuk

pengenalan pattern tersebut. Maka langkah selanjutnya adalah dengan

memilih fitur yang tepat untuk pengklasifiksian object tersebut.

d)

Selanjutnya mendesain pengklasifikasian, tipe nonlinearity yang

bagaimana yang diadopsi, dan bagaimana mendapatkan criteria fitur

yang optimal.

e)

Ketika terjadi error dalam pengklasifikasian maka terjadi ketidak

beresana dalam system maka system perlu diadakan evaluasi

(24)

13 Algoritma klasifikasi digolongkan menjadi 2, yang pemilihnya tergantung pada

kesediaan data awal, yaitu:

a)

Supervised : Pattern yang mempunyai kelas yang telah diketahui dan

digunakan untuk traimning (aster klasifikasi yang sudah fix).

Melakukan identifikasi suatu pola yang diamati sebagai

anggota dari suatu kelas pola yang sudah diketahui.

b)

Unsupervised : Sejumlah kelas tidak diketahui dan tidak terdapat traning

pattern. Memasukkan suatu pola yang diamati ke suatu

kelas pola yang belum diketahui

2 . 4 . Pengenalan Suara dengan DTW

Speech adalah modus alami komunikasi bagi orang-orang. Kita mempelajari

semua keterampilan yang relevan pada anak usia dini, tanpa instruksi, dan kami terus

mengandalkan komunikasi speech sepanjang hidup kita. Ini datang begitu alami bagi

kita bahwa kita tidak menyadari betapa kompleks speech fenomena ini. Saluran vokal

manusia dan artikulator adalah organ biologis dengan sifat nonlinear, yang operasi

tidak hanya di bawah kendali kesadaran tetapi juga dipengaruhi oleh faktor mulai dari

gender untuk pendidikan ke negara emosional. Akibatnya, vokalisasi bisa sangat

bervariasi dalam hal aksen mereka, pengucapan, artikulasi, kekasaran, sifat bunyi

sengau, pitch, volume, dan kecepatan, apalagi, selama transmisi, pola tidak teratur

(25)

kita bicara dapat lebih terdistorsi oleh kebisingan latar belakang dan gema, serta

sebagai karakteristik listrik (jika telepon atau peralatan elektronik lainnya yang

14 digunakan). Semua sumber-sumber variabilitas membuat pengenalan suara, bahkan

lebih dari generasi speech, masalah yang sangat kompleks.

Apa yang membuat orang begitu baik mengenali speech? Menariknya, otak

manusia diketahui kabel berbeda dari komputer konvensional, bahkan beroperasi di

bawah paradigma komputasi yang berbeda secara radikal. Sementara komputer

konvensional menggunakan prosesor sentral sangat cepat & kompleks dengan

instruksi program eksplisit dan memori lokal beralamat, sebaliknya otak manusia

menggunakan paralel koleksi massal elemen pemrosesan lambat & sederhana

(neuron), padat dihubungkan oleh bobot (sinapsis) yang kekuatan adalah dimodifikasi

dengan pengalaman, langsung mendukung integrasi beberapa kendala, dan

menyediakan bentuk didistribusikan memori asosiatif.

Superioritas mengesankan otak di berbagai keterampilan kognitif, termasuk

pengenalan suara, telah memotivasi penelitian paradigma komputasi baru sejak

1940-an, pada asumsi bahwa model brainlike akhirnya dapat mengakibatkan kinerja

brainlike pada tugas-tugas kompleks. Daerah penelitian ini menarik adalah sekarang

dikenal sebagai koneksionisme, atau studi tentang jaringan syaraf tiruan. Apakah

keadaan saat ini seni di speech recognition? Ini adalah pertanyaan rumit, karena

(26)

akurasi sistem tergantung pada kondisi-kondisi yang dievaluasiT dalam kondisi cukup

sempit hampir sistem apapun dapat mencapai akurasi mirip manusia, tapi itu jauh

lebih sulit untuk mencapai akurasi yang baik dalam kondisi umum. Kondisi evaluasi

15 dan karenanya keakuratan sistem apapun - dapat bervariasi sepanjang dimensi

sebagai berikutT

1)

Kosakata ukuran dan confusability.

Sebagai aturan umum, mudah untuk membedakan antara set kecil

kata-kata, namun tingkat kesalahan secara alami meningkat dengan ukuran kosa

kata tumbuh. Sebagai contoh, 10 digit "nol" untuk "sembilan" dapat dikenali

pada dasarnya sempurna, tapi kosakata ukuran 200,, 5000 atau 100000

mungkin memiliki tingkat kesalahan 3%, 7%, atau 45%. Di sisi lain, bahkan

kosakata yang kecil akan sulit untuk mengenali jika mengandung kata-kata

confusable. Sebagai contoh, 26 huruf dari abjad Inggris (diperlakukan sebagai

26 "kata") sangat sulit untuk membedakan karena mengandung kata-kata

confusable begitu banyak (yang paling terkenal, E-setT "B, C, D, E, G, P, T,

V, Z "); tingkat kesalahan 8% dianggap baik untuk kosakata ini

(27)

Menurut definisi, sebuah sistem speaker dependent dimaksudkan

untuk digunakan oleh seorang pembicara tunggal, melainkan sistem speaker

independen dimaksudkan untuk digunakan oleh pembicara apapun.

Kemerdekaan speaker sulit dicapai karena sistem parameter a menjadi disetel

16 ke speaker (s) bahwa itu dilatih, dan parameter-parameter ini cenderung

sangat speaker-spesifik.

3)

Terisolasi speech, terputus, atau kontinu.

Speech Terisolasi berarti kata-kata tunggal; speech diskontinyu berarti

kalimat lengkap di mana kata-kata secara artifisial dipisahkan oleh

keheningan, dan berbicara terus menerus berarti alami diucapkan kalimat.

Pengenalan suara terisolasi dan diskontinyu relatif mudah karena batas kata

yang terdeteksi dan kata-kata cenderung bersih diucapkan.

4)

Tugas dan kendala bahasa.

Bahkan dengan kosakata yang tetap, kinerja akan bervariasi dengan

sifat kendala pada urutan kata yang diizinkan selama pengakuan. Beberapa

kendala mungkin tugas-tergantung (misalnya, aplikasi airlinequerying dapat

memberhentikan hipotesis "apel adalah merah"); kendala lain mungkin

semantik (menolak "Apel marah"), atau sintaksis (menolak "Merah adalah

(28)

apel "). Kendala yang sering diwakili oleh tata bahasa, yang idealnya

menyaring kalimat tidak masuk akal sehingga recognizer speech

mengevaluasi hanya kalimat yang masuk akal. Tata bahasa biasanya dinilai

oleh kebingungan mereka, angka yang menunjukkan rata-rata faktor tata

bahasa yang bercabang (yaitu, jumlah kata yang dapat mengikuti setiap kata

17 yang diberikan). Kesulitan tugas lebih andal diukur dengan kebingungan

dibanding dengan ukuran kosa kata.

5)

Baca vs speech spontan.

Sistem dapat dievaluasi dalam sambutannya yang baik dibaca dari

script siap, atau speech yang diucapkan secara spontan. Speech spontan

adalah jauh lebih sulit, karena cenderung dibumbui dengan ketidaklancaran

seperti "eh" dan "um", mulai palsu, kalimat tidak lengkap, gagap, batuk, dan

tawa, lagipula, kosakata pada dasarnya terbatas, sehingga sistem harus dapat

menangani cerdas dengan kata-kata yang tidak diketahui (misalnya,

mendeteksi dan lesu kehadiran mereka, dan menambahkan mereka ke kosa

kata, yang mungkin memerlukan beberapa interaksi dengan pengguna).

(29)

Kinerja Sebuah sistem juga dapat terdegradasi oleh berbagai kondisi

yang merugikan. Ini termasuk kebisingan lingkungan (misalnya, kebisingan di

dalam mobil atau pabrik); distorsi akustik (misalnya, gema, akustik ruang);

mikrofon yang berbeda (misalnya, dekat berbahasa, omnidirectional, atau

telepon); frekuensi bandwidth terbatas (dalam transmisi telepon) ; dan

berbicara dengan cara diubah (berteriak, merengek, berbicara cepat, dll).

18 Dalam rangka untuk mengevaluasi dan membandingkan sistem yang berbeda

di bawah kondisi yang didefinisikan dengan baik, sejumlah database standar telah

diciptakan dengan karakteristik tertentu. Sebagai contoh, satu database yang telah

banyak digunakan adalah DARPA Manajemen Sumberdaya database - kosa kata

yang besar (1000 kata), speaker-independen, speech database yang terus menerus,

yang terdiri dari 4000 kalimat pelatihan dalam domain manajemen sumber daya laut,

dibaca dari script dan dicatat di bawah kondisi lingkungan jinak, pengujian biasanya

dilakukan dengan menggunakan tata bahasa dengan kebingungan 60. Di bawah

kondisi yang terkendali, state-of-the-art kinerja sekitar 97% akurasi pengenalan kata

(atau kurang untuk sistem sederhana).

2.4.1. Dasar-dasar Speech Recognition

Pengenalan suara adalah tugas pengenalan pola multileveled, di mana sinyal

akustik diperiksa dan terstruktur dalam hirarki unit subword (misalnya, fonem), kata,

(30)

frasa, dan kalimat. Setiap tingkat dapat memberikan kendala temporal tambahan,

misalnya, pengucapan kata yang dikenal atau urutan kata hukum, yang dapat

mengkompensasi kesalahan atau ketidakpastian di tingkat bawah. Hirarki ini kendala

terbaik dapat dimanfaatkan dengan menggabungkan probalistik keputusan di semua

tingkat yang lebih rendah, dan membuat keputusan diskrit hanya pada tingkat

tertinggi.

19 Struktur dari sistem pengenalan suara standar diilustrasikan pada Gambar.

Unsur-unsur adalah sebagai berikut:

(31)

1)

Speech speech. Mentah biasanya sampel pada frekuensi tinggi, misalnya,

16 KHz melalui mikrofon atau 8 KHz melalui telepon. Hal ini

menghasilkan urutan nilai amplitudo dari waktu ke waktu.

2)

Analisis sinyal. Speech awalnya baku harus diubah dan dikompresi, untuk

mempermudah pengolahan selanjutnya. Banyak teknik analisis sinyal

yang tersedia yang dapat mengekstrak fitur yang berguna dan kompres

data dengan faktor sepuluh tanpa kehilangan informasi penting. Di antara

yang paling populerT

20 a) Analisis Fourier (FFT) menghasilkan frekuensi diskrit dari waktu ke

waktu, yang dapat ditafsirkan secara visual. Frekuensi sering

didistribusikan menggunakan skala Mel, yang linear pada rentang rendah

tapi logaritmik dalam kisaran tinggi, sesuai dengan karakteristik fisiologis

telinga manusia.

b) Prediksi Linear perseptual (PLP) juga fisiologis termotivasi, tetapi

menghasilkan koefisien yang tidak dapat ditafsirkan secara visual.

c) Linear Predictive Coding (LPC) menghasilkan koefisien persamaan

linear yang mendekati sejarah nilai speech mentah.

d) Analisis cepstral menghitung invers transformasi Fourier dari logaritma

dari spektrum kekuatan sinyal.

(32)

Dalam prakteknya, itu membuat sedikit perbedaan yang teknik used1. Setelah itu,

prosedur seperti Linear Diskriminan Analisis (LDA) opsional dapat diterapkan untuk

lebih mengurangi dimensi representasi apapun, dan untuk decorrelate koefisien.

21 1)

Speech frame.

Hasil analisis sinyal adalah urutan frame speech,

biasanya pada interval 10 msec, dengan sekitar 16 koefisien per

frame. Frame ini dapat ditambah dengan terlebih dahulu mereka

sendiri dan / atau turunan kedua, memberikan informasi eksplisit

tentang dinamika speech, hal ini biasanya mengarah ke

peningkatan kinerja. Para frame speech digunakan untuk analisis

akustik.

2)

Model akustik.

Dalam rangka untuk menganalisis frame speech

untuk konten akustik mereka, kita perlu satu set model akustik.

(33)

Ada banyak jenis model akustik, yang bervariasi dalam perwakilan

mereka, granularity, ketergantungan konteks, dan properti lainnya.

22 Model akustik: template dan representasi kata.

Gambar menunjukkan dua representasi populer untuk model akustik. Yang paling

sederhana adalah template, yang hanya contoh yang disimpan dari unit speech

dimodelkan, misalnya, rekaman dari sebuah kata. Sebuah kata yang tidak diketahui

dapat dikenali hanya dengan membandingkannya terhadap semua template yang

(34)

dikenal, dan menemukan pertandingan terdekat. Template memiliki dua kelemahan

utamaT (1) mereka tidak bisa model variabilities akustik, kecuali dengan cara yang

kasar dengan menetapkan beberapa template untuk setiap kata, dan (2) dalam praktek

mereka dibatasi untuk seluruh kata model, karena sulit untuk merekam atau segmen

sampel lebih pendek dari kata - template sehingga hanya berguna dalam sistem kecil

yang mampu membayar kemewahan menggunakan seluruh kata model. Sebuah

representasi yang lebih fleksibel, yang digunakan dalam sistem yang lebih besar,

didasarkan pada model akustik yang terlatih, atau negara. Dalam pendekatan ini,

23 setiap kata dimodelkan dengan urutan negara dilatih, dan masing-masing negara

menunjukkan suara yang mungkin didengar di segmen kata, menggunakan distribusi

probabilitas atas ruang akustik. Distribusi probabilitas dapat dimodelkan

parametrically, dengan asumsi bahwa mereka memiliki bentuk sederhana (misalnya,

distribusi Gaussian) dan kemudian mencoba untuk menemukan parameter yang

menggambarkan hal itu; atau non-parametrically, dengan mewakili distribusi

langsung (misalnya, dengan histogram atas suatu kuantisasi dari ruang akustik, atau,

sebagaimana akan kita lihat, dengan jaringan saraf).

2.4.2. Klasifikasi fonem dan Pendekatan Statis

Klasifikasi fonem dapat dilakukan dengan akurasi tinggi dengan

menggunakan pendekatan baik statis atau dinamis. Di sini kita meninjau beberapa

(35)

eksperimen yang khas menggunakan pendekatan masing-masing. Sebuah percobaan

sederhana namun elegan dilakukan oleh Huang & Lippmann (1988), menunjukkan

bahwa jaringan saraf dapat membentuk permukaan keputusan yang kompleks dari

data speech. Mereka menerapkan perceptron multilayer dengan hanya 2 input, 50 unit

tersembunyi, dan 10 output, koleksi Peterson & Barney vokal diproduksi oleh pria,

wanita, dan anak-anak, menggunakan dua forman pertama dari vokal sebagai

representasi speech masukan. Setelah 50.000 iterasi pelatihan, jaringan yang

dihasilkan daerah keputusan yang ditunjukkan pada Gambar di bawah ini. Daerah ini

keputusan hampir optimal, menyerupai daerah keputusan yang akan digambar dengan

24 tangan, dan mereka menghasilkan akurasi klasifikasi sebanding dengan algoritma

yang lebih konvensional, seperti k-tetangga terdekat dan klasifikasi Gaussian.

Keputusan daerah dibentuk oleh perceptron 2-lapisan menggunakan pelatihan

backpropagation dan data forman vokal. (Dari Huang & Lippmann, 1988.)

(36)

Dalam sebuah percobaan yang lebih kompleks, Elman dan Zipser (1987)

melatih jaringan untuk mengklasifikasikan vokal / a, i, u / dan konsonan / b, d, g /

karena mereka terjadi dalam ucapan-ucapan ba, bi, bu, da, di, du, dan ga, gi, gu.

Masukan jaringan mereka terdiri dari 16 koefisien spektral lebih dari 20 frame

(meliputi 64 seluruh msec ucapan, berpusat dengan tangan selama awal konsonan

yang menyuarakan); ini dimasukkan ke lapisan tersembunyi dengan antara 2 dan 6

unit, yang mengarah ke 3 output untuk vokal baik atau konsonan klasifikasi. Jaringan

ini mencapai tingkat kesalahan sekitar 0,5% untuk vokal dan 5,0% untuk konsonan.

Sebuah analisis dari unit tersembunyi menunjukkan bahwa mereka cenderung fitur

25 detektor, membedakan antara kelas penting dari suara, seperti vokal konsonan

dibandingkan.

Di antara yang paling sulit tugas klasifikasi adalah apa yang disebut E-set,

yaitu, membedakan antara huruf Inggris berima "B, C, D, E, G, P, T, V, Z". Burr

(1988) diterapkan jaringan statis untuk tugas ini, dengan hasil yang sangat baik.

Jaringannya menggunakan jendela input dari 20 frame spektral, secara otomatis

diekstrak dari seluruh ucapan menggunakan informasi energi. Input ini dipimpin

langsung ke output mewakili 9 E-set huruf. Jaringan ini dilatih dan diuji dengan

menggunakan 180 token dari pembicara tunggal. Ketika bagian awal dari ucapan itu

oversampled, efektif menyoroti fitur disambiguating, akurasi pengenalan hampir

sempurna.

(37)

2.5. Sinyal Percakapan

Sinyal dapat didefinisikan sebagai kuantitas fisik yang bervariasi seiring

waktu atau variabel bebas lainnya yang menyimpan suatu informasi.[8]. Contoh

sinyal adalah: suara manusia, tegangan listrik di kabel telepon, intensitas cahaya pada

sebuah serat optik yang digunakan pada telepon atau jaringan komputer, dan

lain-lainnya. Sinyal dapat diklasifikasikan menjadi beberapa jenis yaitu: sinyal waktu

kontinyu, sinyal waktu diskrit, sinyal nilai kontinyu, sinyal nilai diskrit, sinyal

random

, dan sinyal

nonrandom

.[8]

26 Sinyal waktu kontinyu dengan nama lain sinyal analog adalah sinyal yang

belum melalui proses apapun. Sedangkan sinyal nilai diskrit atau sinyal digital adalah

sinyal analog yang telah melalui proses

sampling, quantization, dan encoding.

Sampling

adalah suatu proses dalam mengambil nilai-nilai sinyal pada

titik-titik diskrit sepanjang variabel waktu dari sinyal waktu kontinyu, sehingga

didapatkan sinyal waktu diskrit. Jumlah titik-titik yang diambil setiap detik

dinamakan sebagai

sampling rate.

Dalam melakukan

sampling,

perlu diperhatikan

kriteria

Nyquist

yang menyatakan bahwa sebuah sinyal harus memiliki

sampling rate

yang lebih besar dari 2

f

m

, dengan

f

m

adalah frekuensi paling tinggi yang muncul

disebuah sinyal.[8]

Quantization

adalah proses memetakan nilai-nilai dari sinyal nilai kontinyu

menjadi nilai-nilai yang diskrit, sehingga didapatkan sinyal nilai diskrit.

(38)

Encoding adalah proses mengubah nilai-nilai sinyal ke menjadi bilangan

biner. Pada

gambar 2

dapat dilihat perbedaan antara sinyal analog dengan sinyal

digital.

27 Gambar 2.1.

Diagram Sinyal Analog dan Sinyal Digital

Sinyal yang berbentuk digital dapat disimpan dalam media penyimpanan di

komputer. WAV file (berasal dari kata

wave) merupakan format umum yang paling

sederhana untuk menyimpan data sinyal audio. WAV file terdiri dari 3 potongan

informasi yaitu:

RIFF chunk, FORMAT chunk,

dan DATA chunk.[6].

RIFF

chunk

berisi informasi yang menandakan bahwa file berbentuk WAV. FORMAT chunk

(39)

berisi parameter-parameter seperti jumlah channel,

sample rate, resolusi.

DATA

chunk yang berisi data aktual sinyal digital.

Sinyal yang dihasilkan dari suara manusia sewaktu melakukan percakapan

disebut sebagai sinyal percakapan. Sinyal percakapan merupakan kombinasi

kompleks dari variasi tekanan udara yang melewati pita suara dan vocal tract, yaitu

mulut, lidah, gigi, bibir, dan langit-langit. Sistem produksi sinyal percakapan dapat

dilihat pada gambar 2.2.

28 Gambar 2.2. Diagram Model Sistem Produksi Suara

Sinyal percakapan terdiri dari serangkaian suara yang masing-masing

menyimpan sepotong informasi. Berdasarkan cara menghasilkannya, suara tersebut

terbagi menjadi voiced dan unvoiced. Suara voiced dihasilkan dari getaran pita suara,

sedangkan suara unvoiced dihasilkan dari gesekan antara udara dengan vocal tract.

(40)

Sinyal percakapan memiliki beberapa karakteristik, misalnyaT formant, pitch,

dan intensitas. Formant adalah variasi resonansi yang dihasilkan oleh

vocal tract.

Pitch adalah frekuensi dari sinyal atau yang sering disebut sebagai intonasi.

Sedangkan intensitas adalah kekuatan suara. Karakteristik-karakteristik tersebut

berguna dalam melakukan analisis sinyal.

2.6. Transformasi Fourier

Transformasi Fourier merupakan suatu metode untuk mentransformasikan

sinyal domain waktu menjadi sinyal domain frekuensi. Transformasi ini penting

dalam analisis sinyal karena karakteristik sinyal domain frekuensi dapat diamati

29 dengan lebih jelas dan dimanipulasi dengan lebih mudah daripada sinyal domain

waktu. Di domain frekuensi, sinyal direpresentasikan sebagai serangkaian nilai yang

menunjukkan banyaknya satuan sinyal yang berada di frekuensi tertentu.

Transformasi Fourier banyak digunakan untuk aplikasi sains, misalnyaT fisika,

teori numerik, pemrosesan sinyal, statistik, akustik, optik, geometri, dan lain-lainnya.

Motivasi untuk Transformasi Fourier berasal dari studi tentang deret Fourier .

Dalam studi dari seri Fourier, fungsi yang rumit yang ditulis sebagai jumlah

gelombang yang sederhana matematis diwakili oleh sinus dan cosinus . Karena sifat

sinus dan kosinus adalah mungkin untuk memulihkan jumlah setiap gelombang

(41)

dalam penjumlahan oleh terpisahkan. Dalam banyak kasus hal ini diinginkan untuk

menggunakan rumus Euler , yang menyatakan bahwa

e

2 _{= cos 2}

πiθ

_πθ

₊

_i

_{sin 2}

_πθ,

untuk menulis seri Fourier dalam hal gelombang dasar

e

2 πiθ.

_{Hal ini memiliki}

keuntungan dari banyak menyederhanakan rumus terlibat dan memberikan formulasi

untuk seri Fourier yang lebih dekat menyerupai definisi diikuti dalam artikel ini. Ini

bagian dari sinus dan cosinus untuk eksponensial kompleks membuat perlu untuk

koefisien Fourier untuk menjadi kompleks dihargai. Penafsiran yang biasa dari

bilangan kompleks adalah bahwa ia memberikan baik amplitudo (atau ukuran) yang

hadir dalam fungsi gelombang dan fase (atau sudut awal) gelombang. Bagian ini juga

memperkenalkan perlunya negatif "frekuensi". Jika

θ

diukur dalam detik maka

gelombang

e

2 πiθ

_dan

_e

-2

πiθ

_{akan baik satu siklus lengkap per detik, tapi mereka}

30 mewakili frekuensi yang berbeda dalam Transformasi Fourier. Oleh karena itu,

frekuensi tidak lagi mengukur jumlah siklus per satuan waktu, tetapi terkait erat.

Ada hubungan erat antara definisi dari seri Fourier dan Transformasi Fourier

untuk fungsi

ƒ

yang berada di luar interval nol. Untuk fungsi seperti kita dapat

menghitung seri Fourier pada setiap interval yang mencakup interval di mana

ƒ

tidak

identik dengan nol. Transformasi Fourier juga didefinisikan untuk fungsi seperti.

Seperti kita meningkatkan panjang interval yang kita menghitung deret Fourier, maka

koefisien deret Fourier mulai terlihat seperti Transformasi Fourier dan jumlah dari

seri Fourier dari

ƒ

mulai terlihat seperti Transformasi Fourier invers. Untuk

(42)

menjelaskan hal ini lebih tepatnya, misalkan T yang cukup besar sehingga interval [-

T / 2, T / 2] berisi interval yang tidak identik ƒ nol. Kemudian seri ke-n

n

koefisien c

diberikan

oleh:

Membandingkan ini dengan definisi dari transformasi Fourier maka yang

sejak ƒ (x) adalah nol luar [- T / 2, T / 2]. Dengan demikian koefisien

Fourier hanya nilai-nilai transformasi Fourier sampel pada grid dengan lebar 1 /

T. Sebagai T meningkatkan koefisien Fourier lebih dekat mewakili Transformasi Fourier

dari fungsi.

31 Dalam kondisi yang tepat jumlah dari deret Fourier dari ƒ akan sama dengan fungsi ƒ.

Dengan kata lain ƒ dapat

ditulis:

di mana jumlah terakhir adalah hanya jumlah pertama ditulis ulang menggunakan

definisi ξ

n

=

n

/ T, dan Δ ξ = (n + 1) / T - n / T = 1 / T.

Ini jumlah kedua adalah jumlah Riemann , dan sebagainya dengan membiarkan T →

∞ itu akan bertemu dengan integral untuk invers transformasi Fourier diberikan

(43)

dalam bagian definisi. Dalam kondisi yang sesuai argumen ini dapat dilakukan tepat (

Stein & Shakarchi 2003 ). Dalam studi dari seri Fourier nomor

c

n bisa dianggap

sebagai "jumlah" dari gelombang di seri Fourier dari

ƒ.

Demikian, seperti yang

terlihat di atas, transformasi Fourier dapat dianggap sebagai fungsi yang mengukur

berapa banyak masing-masing frekuensi individu hadir dalam

ƒ

fungsi kita, dan kita

bisa bergabung kembali gelombang ini dengan menggunakan integral (atau

"penjumlahan terus menerus") untuk mereproduksi fungsi asli.

Gambar berikut ini memberikan ilustrasi visual tentang bagaimana

transformasi Fourier mengukur apakah frekuensi hadir dalam fungsi tertentu. Fungsi

digambarkan

berosilasi pada 3 hertz (jika

t

detik

langkah-langkah) dan cenderung cepat ke 0. Fungsi ini secara khusus dipilih untuk memiliki

32 Transformasi Fourier nyata yang dengan mudah dapat diplot. Gambar pertama berisi

grafiknya. Dalam rangka untuk menghitung

kita harus mengintegrasikan

e

-2 πi (3

t)

_{ƒ (t).}

_{Gambar kedua menunjukkan plot bagian real dan imajiner dari fungsi ini.}

Bagian nyata dari integran hampir selalu positif, hal ini karena ketika

ƒ (t)

adalah

negatif, maka bagian nyata dari

e

-2

πi (3

t)

_{adalah negatif juga. Karena mereka}

berosilasi pada tingkat yang sama, ketika

ƒ (t)

adalah positif, sehingga merupakan

bagian nyata dari

e

-2

πi (3

t).

_{Hasilnya adalah bahwa ketika Anda mengintegrasikan}

bagian nyata dari integran Anda mendapatkan jumlah yang relatif besar (dalam hal ini

(44)

0,5). Di sisi lain, ketika Anda mencoba untuk mengukur frekuensi yang tidak hadir,

seperti dalam kasus ketika kita melihat

, Integran berosilasi cukup sehingga

integral sangat kecil. Situasi umum mungkin sedikit lebih rumit dari ini, tapi ini

dalam roh adalah bagaimana transformasi Fourier mengukur berapa banyak dari

frekuensi individu hadir dalam fungsi

ƒ (t).

33 Berikut Asli Fungsi yang menunjukkan Asli fungsi yang menunjukkan Transform

Fourier 3hertz-5hertz berlabel T

(45)

( c ) ( d )

Gambar 2.3 Asli Fungsi yang Menunjukkan Transform Fourier

34 A . Sifat-sifat transformasi Fourier

Integrable fungsi adalah fungsi

ƒ pada garis nyata yang Lebesgue-terukur dan

memenuhi

(46)

B . Sifat-sifat dasar

Mengingat integrable fungsi

f (x), g (x), dan

h (x), transformasi Fourier mereka

dilambangkan dengan

,

, Dan

masing-masing. Transformasi Fourier

memiliki sifat dasar berikut ( Pinsky 2002 ).

1) Linearitas

Untuk setiap bilangan kompleks a dan b, jika

h (x) = áƒ (x) + BG (x), maka

2) Terjemahan

Untuk setiap bilangan real

x

0, jika

h (x) =

ƒ (x -

x

0), maka

35 3) Modulasi

Untuk setiap bilangan real

ξ

0, jika

h (x) =

e

2 πixξ

₀

_{ƒ (x), maka}

.

(47)

Untuk non-nol bilangan real

, jika

h (x) =

ƒ (kapak), maka

. Kasus ini

a = -1 mengarah ke properti

waktu-pembalikan, yang menyatakan: jika h (x) = ƒ (- x), maka

.

5) Konjugasi

Jika

, Kemudian

Secara khusus, jika ƒ adalah nyata, maka seseorang memiliki kondisi realitas

Dan jika ƒ adalah murni imajiner, maka

6) Dualitas

Jika

kemudian

36 7) Belit

Jika

, Kemudian

(48)

Untuk melakukan transformasi Fourier terhadap sinyal diskrit, digunakan

Discrete Fourier Transform

(DFT) yang didefinisikan sebagai berikut.[3]



_ 



1 0 / 2

)

(

)

(

N n N nk j

e

n

x

k

X



_,

_j

_

_

₁

_(2.1)

DFT menghasilkan serangkaian

N

buah nilai yang berindeks

k

di dalam

domain frekuensi yang merupakan transformasi dari sinyal domain waktu yang

berindeks

n

. Dari hasil tersebut,

X

(

k

)

dan

X

(

N



k

)

merupakan konjugasi

kompleks.[3] Karena

magnitude

dari konjugasi kompleks adalah sama, maka

didapatkan

X

(

k

)



X

(

N



k

)

untuk

k

bernilai 0 sampai

N

/

2 . Dengan demikian,

nilai hasil transformasi dalam domain frekuensi yang digunakan untuk analisis sinyal

hanya nilai yang berindeks 0 sampai

N

/

2 saja.

Untuk mengembalikan sinyal domain frekuensi ke domain waktu, digunakan

persamaan transformasi

inverse.

Persamaan DFT

inverse

didefinisikan sebagai

berikut.[8]

37



_



1 0 / 2

)

(

1 )

(

N k N nk j

e

k

X

N

n

x



_,

_j

_

_

₁

_(2.2)

(49)

Fast Fourier Transform

(FFT) dikembangkan oleh Cooley dan Tukey pada

tahun 1965. Dimana algoritma FFT merupakan penyederhanaan dari algoritma DFT

sebelumnya yang memiliki persyaratan jumlah data harus merupakan bilangan

₂

untuk

n



0 ,

,1

2 ,...

. Waktu komputasi DFT memiliki kompleksitas

_N

_{sedangkan FFT}

memiliki kompleksitas

Np

/

2 dengan

p



log

, sehingga FFT lebih cepat daripada

DFT dengan rasio kecepatan FFT terhadap DFT adalah:[8]

p

N

Np

N

2 /



(2.3)

seperti yang terhitung pada tabel 2.1.

38 Tabel 2.1 Rasio Kecepatan FFT Terhadap DFT

P

N

Rasio kecepatan FFT/DFT

2

4

1.00

(50)

.

Sumber: M. J. Roberts,2004

39

4

16

8.00

5

32

12.80

6

64

21.33

7

128

36.57

8

25

64.00

9

512

113.78

10 1,024

204.80

11 2,048

372.36

12 4,096

682.67

13 8,192

1,260.31

14 16,384

2,340.57

15 32,768

4,369.07

(51)

2 . 7 . Metode Dynamic Time Warping (DTW)

Dalam bagian ini kita memotivasi dan menjelaskan algoritma Pembengkokan

Waktu Dinamis, salah satu algoritma yang tertua dan paling penting dalam

pengenalan suara. Cara paling sederhana untuk mengenali kata yang terisolasi sampel

adalah dengan membandingkannya dengan sejumlah template disimpan dan

menentukan kata yang merupakan "paling cocok". Tujuan ini adalah rumit oleh

sejumlah faktor. Pertama, sampel yang berbeda dari kata tertentu akan memiliki

jangka waktu yang agak berbeda. Masalah ini dapat dihilangkan dengan hanya

menormalkan template dan speech yang tidak diketahui sehingga mereka semua

memiliki durasi yang sama. Namun, masalah lain adalah bahwa tingkat pembicaraan

mungkin tidak konstan di seluruh kata, dalam kata lain, keselarasan yang optimal

antara template dan sampel berbicara mungkin nonlinier. Waktu Dinamis Warping

(DTW) adalah metode yang efisien untuk menemukan keselarasan ini nonlinier yang

optimal.

DTW adalah sebuah instance dari kelas umum dari algoritma dikenal sebagai

pemrograman dinamis. Waktu dan kompleksitas ruang hanya linier dalam durasi

speech sampel dan ukuran kosa kata. Algoritma ini membuat single pass melalui

matriks skor bingkai sementara komputasi lokal dioptimalkan segmen jalan

keselarasan global.

(52)

40 Jika D (x, y) adalah jarak Euclidean antara frame x dari sampel speech dan y

kerangka referensi template, dan jika C (x, y) adalah nilai kumulatif sepanjang jalan

keselarasan yang optimal yang mengarah ke (x, y ), maka :

C (x, y) = MIN (C (x - 1, y), C (x - 1, y - 1), C (x, y - 1)) + D (x, y)

Jalan keselarasan yang dihasilkan dapat digambarkan sebagai sebuah lembah

yang rendah skor jarak Euclidean, berkelok-kelok melalui perbukitan lanskap dari

matriks, dimulai pada (0, 0) dan berakhir pada titik akhir (X, Y). Dengan melacak

backpointers, jalan keselarasan penuh dapat dipulihkan dengan menelusuri mundur

dari (X, Y). Jalur keselarasan yang optimal dihitung untuk setiap template referensi

(53)

41 kata, dan satu dengan skor kumulatif terendah dianggap paling cocok untuk sampel

speech diketahui.

Ada banyak variasi pada algoritma DTW. Sebagai contoh, adalah umum

untuk memvariasikan kendala jalan lokal, misalnya, dengan memperkenalkan transisi

dengan kemiringan 1 / 2 atau 2, atau bobot transisi dalam berbagai cara, atau

menerapkan jenis lain dari kendala kemiringan (Sakoe dan Chiba 1978). Sementara

model referensi kata biasanya template, mereka mungkin negara berbasis model

(seperti yang ditunjukkan sebelumnya pada Gambar). Bila menggunakan negara,

transisi vertikal sering dilarang (karena ada negara kurang dari frame), dan sering

tujuannya adalah untuk memaksimalkan nilai kumulatif, daripada menguranginya.

Sebuah variasi penting dari DTW adalah perluasan dari

speech

terus menerus

terisolasi. Ekstensi ini disebut Satu Tahap algoritma DTW (Ney 1984). Berikut

tujuannya adalah untuk menemukan keselarasan yang optimal antara sampel

speech

dan urutan terbaik dari kata referensi. Kompleksitas dari algoritma diperpanjang

masih linier dalam panjang sampel dan ukuran kosa kata. Modifikasi hanya untuk

algoritma DTW dasar adalah bahwa pada awal masing-masing model referensi kata

(yaitu, frame pertama atau negara), jalan diagonal diperbolehkan untuk menunjuk

kembali ke akhir dari semua model referensi kata dalam frame sebelumnya.

Backpointers lokal harus menentukan model referensi kata dari titik sebelumnya,

sehingga urutan kata yang optimal dapat dipulihkan dengan menelusuri mundur dari

(54)

42 titik akhir dari W kata dengan skor akhir terbaik. Tata bahasa bisa dikenakan pada

speech

_{pengakuan terus menerus dengan membatasi transisi diizinkan di batas kata}

(DTW) adalah algoritma untuk mengukur kesamaan antara dua urutan yang

mungkin berbeda dalam waktu atau kecepatan. Misalnya, kesamaan dalam pola

berjalan akan terdeteksi, bahkan jika dalam satu video orang itu berjalan

perlahan-lahan dan jika di lain ia berjalan lebih cepat, atau bahkan jika ada percepatan dan

deselerasi selama satu pengamatan. DTW telah diterapkan ke video, audio, dan grafik

- memang, setiap data yang dapat berubah menjadi representasi linier dapat dianalisis

dengan DTW. Sebuah aplikasi terkenal telah otomatis pengenalan suara , untuk

mengatasi dengan kecepatan berbicara yang berbeda.

Secara umum, DTW adalah metode yang memungkinkan komputer untuk

menemukan kecocokan yang optimal antara dua sekuens diberikan (misalnya time

series ) dengan pembatasan tertentu. Urutan yang "menyesatkan" non-linear dalam

dimensi waktu untuk menentukan ukuran kesamaan tertentu independen mereka

non-linear variasi dalam dimensi waktu. Ini sequence aligment metode yang sering

digunakan dalam konteks model Markov tersembunyi.

Salah satu contoh pembatasan yang dikenakan pada pencocokan dari urutan

adalah pada monotonisitas pemetaan dalam dimensi waktu. Kontinuitas adalah

kurang penting dalam DTW daripada di lain pencocokan pola algoritma; DTW adalah

(55)

43 algoritma sangat cocok untuk urutan sesuai dengan informasi yang kurang, asalkan

ada segmen yang cukup lama untuk pencocokan terjadi.

Perpanjangan dari masalah untuk dua-dimensi "seri" seperti gambar (warping

planar) adalah NP-lengkap , sementara masalah untuk satu-dimensi sinyal seperti

time series dapat diselesaikan dalam waktu polinomial. Contoh ini menggambarkan

pelaksanaan waktu warping dinamis ketika dua sekuens adalah string simbol-simbol

diskrit. d(x, y) adalah jarak antara simbol-simbol, misalnya d(x, y) = | x - y |.

int DTWDistance (char s [1 .. n], char t [1 .. m]) {

int mendeklarasikan DTW [0 .. n, 0 .. m]

mendeklarasikan int i, j, biaya

untuk i: = 1 sampai m

DTW [0, i]: = infinity

untuk i: = 1 sampai n

DTW [i, 0]: = infinity

(56)

44 untuk i: = 1 sampai n

untuk j: = 1 sampai m

biaya: = d (s [i], t [j])

DTW [i, j]: = biaya + minimal (DTW [i-1, j], / / penyisipan

DTW [i, j-1], / / penghapusan

DTW [i-1, j-1]) / / cocok

kembali DTW [n, m]

}

Kita kadang-kadang ingin menambahkan kendala lokalitas. Artinya, kita memerlukan

bahwa jika s[i] yang cocok dengan t[j] , kemudian | i - j | adalah tidak lebih besar dari

w , parameter jendela. Kita dapat dengan mudah memodifikasi algoritma di atas

untuk menambahkan kendala lokalitas. Namun, modifikasi yang diberikan di atas

bekerja hanya jika | n - m | tidak lebih besar dari w , yaitu titik akhir dalam jendela

dari panjang diagonal. Dalam rangka untuk membuat pekerjaan algoritma, jendela

parameter w harus disesuaikan sehingga | n - m ≤ w |.

int DTWDistance (char s [1 .. n], char t [1 .. m], int b) {

int mendeklarasikan DTW [0 .. n, 0 .. m]

(57)

45 mendeklarasikan int i, j, biaya

w: = max (w, abs (nm)) / / menyesuaikan ukuran jendela (*)

untuk i: = 0 sampai n

untuk j: = 0 sampai m

DTW [i, j]: = infinity

DTW [0, 0]: = 0

untuk i: = 1 sampai n

untuk j: = max (1, iw) untuk min (m, i + w)

biaya: = d (s [i], t [j])

DTW [i, j]: = biaya + minimal (DTW [i-1, j], / / penyisipan

DTW [i, j-1], / / penghapusan

DTW [i-1, j-1]) / / cocok

kembali DTW [n, m] }

(58)

46 2 . 8 . Waktu Seri ( Time Series)

Dalam statistik , pemrosesan sinyal , ekonometri dan keuangan matematika ,

deret waktu adalah urutan titik data , diukur biasanya pada kali berturut berjarak pada

interval waktu yang seragam. Contoh deret waktu adalah nilai penutupan harian

indeks Dow Jones atau volume aliran tahunan Sungai Nil di Aswan Waktu analisis

seri terdiri dari metode untuk menganalisis data time series untuk mengekstrak

statistik bermakna dan karakteristik lainnya dari data. Waktu peramalan seri

penggunaan model yang untuk meramalkan peristiwa masa depan berdasarkan

peristiwa masa lalu dikenal untuk memprediksi titik data sebelum mereka diukur.

Time series sangat sering diplot melalui line chart.

Time data seri memiliki data yang dapat memesan sementara alami. Hal ini

membuat waktu analisis yang berbeda dari yang lain seri analisis data masalah, umum

di mana tidak ada memesan alami dari pengamatan (misalnya menjelaskan upah

orang dengan mengacu pada tingkat pendidikan mereka, di mana data individu dapat

dimasukkan dalam urutan apapun). Waktu analisis seri ini juga berbeda dari analisis

data spasial di mana pengamatan biasanya berhubungan dengan lokasi geografis

(misalnya akuntansi untuk harga rumah dengan lokasi serta karakteristik intrinsik dari

rumah). Sebuah model rangkaian waktu umumnya akan mencerminkan kenyataan

bahwa pengamatan bersama dalam waktu dekat akan lebih erat terkait daripada

pengamatan lebih lanjut terpisah. Selain itu, waktu model seri akan sering

(59)

47 memanfaatkan alam satu arah memesan waktu sehingga nilai untuk suatu periode

tertentu akan dinyatakan sebagai berasal dalam beberapa cara dari nilai-nilai masa

lalu, bukan dari nilai masa depan (lihat reversibilitas waktu). Metode untuk analisis

deret waktu dapat dibagi menjadi dua kelas: frekuensi-domain metode dan

waktu-domain metode. Yang pertama meliputi analisis spektral dan baru-baru analisis. Ada

beberapa jenis analisis data yang tersedia untuk time series yang sesuai untuk tujuan

yang berbeda.

2 . 8 . 1 . Eksplorasi Grafis Pemeriksaan Series Data

Analisis spektral untuk memeriksa perilaku siklik yang tidak perlu

berhubungan dengan musim . Sebagai contoh, aktivitas titik matahari bervariasi

selama siklus 11 tahun. Contoh umum lainnya termasuk fenomena langit, pola cuaca,

aktivitas saraf, harga komoditas, dan kegiatan ekonomi.

(60)

48 Gambar 2.4 Plot data secara time series

Pemisahan menjadi komponen-komponen yang mewakili tren, musiman, variasi

lambat dan cepat, tidak teratur siklus: lihat dekomposisi deret waktu

2 . 8 . 2 . Prediksi dan Peramalan Model

Sepenuhnya terbentuk model statistik untuk simulasi stokastik tujuan,

sehingga menghasilkan versi alternatif dari seri waktu, mewakili apa yang mungkin

terjadi selama waktu non-spesifik-periode di masa depan. Sederhana atau sepenuhnya

terbentuk model statistik untuk menggambarkan kemungkinan hasil dari seri waktu

dalam waktu dekat, pengetahuan yang diberikan dari hasil paling baru (forecasting).

(61)

49 Model untuk data time series dapat memiliki banyak bentuk yang berbeda dan

mewakili proses stokastik . Ketika pemodelan variasi dalam tingkat proses, tiga kelas

yang luas dari kepentingan praktis adalah autoregresif (AR) model, yang terintegrasi

(I) model, dan rata-rata bergerak (MA) model. Ketiga kelas tergantung linear [3] pada

titik data sebelumnya. Kombinasi ide-ide ini menghasilkan rata-rata bergerak

autoregressive (ARMA) dan rata-rata bergerak terpadu autoregresif (ARIMA) model.

Para fraksional terpadu autoregresif bergerak rata-rata (ARFIMA) model generalizes

tiga mantan. Ekstensi dari kelas-kelas untuk berurusan dengan vektor-nilai data yang

tersedia di bawah judul multivariat time-series model dan kadang-kadang akronim

sebelumnya diperluas dengan memasukkan sebuah "V" awal untuk "vektor". Paket

tambahan ekstensi dari model-model ini tersedia untuk digunakan di mana diamati

waktu-seri didorong oleh beberapa "memaksa" seri waktu (yang mungkin tidak

memiliki efek kausal pada seri diamati): perbedaan dari kasus multivariat adalah

bahwa seri mungkin memaksa deterministik atau di bawah kontrol eksperimen itu.

Untuk model ini, singkatan diperluas dengan "X" akhir untuk "eksogen".

Non-linear ketergantungan tingkat dari seri titik data sebelumnya adalah

kepentingan, sebagian karena kemungkinan menghasilkan kacau deret waktu.

Namun, yang lebih penting, penyelidikan empiris dapat menunjukkan keuntungan

dari menggunakan prediksi yang berasal dari non-linear model, atas mereka dari

model linier, seperti misalnya dalam nonlinear model autoregresif eksogen. Diantara

jenis lainnya non-linier model time series, ada model untuk mewakili perubahan

(62)

50 varians sepanjang waktu ( heteroskedasticity ). Model ini merupakan

heteroskedasticity kondisional autoregresif (ARCH) dan koleksi terdiri dari berbagai

macam representasi (GARCH, TARCH, EGARCH, FIGARCH, CGARCH, dll).

Berikut perubahan variabilitas terkait dengan, atau diprediksi oleh, nilai-nilai masa

lalu dari seri diamati. Hal ini berbeda dengan representasi lain yang mungkin dari

berbagai variabilitas lokal, di mana variabilitas mungkin dimodelkan sebagai

didorong oleh berbagai waktu terpisah proses, seperti dalam sebuah model yang

ganda stokastik. Dalam karya terbaru pada model-bebas analisis, metode berbasis

transformasi wavelet (wavelet lokal misalnya stasioner dan wavelet dekomposisi

jaringan saraf) telah mendapatkan bantuan. Multiskala (sering disebut sebagai

multiresolusi) teknik terurai serangkaian waktu tertentu, mencoba untuk

menggambarkan ketergantungan waktu di berbagai skala.

2 . 8 . 3 . Notasi dan Kondisi

Sejumlah notasi yang berbeda sedang digunakan untuk analisis time-series. Sebuah

notasi yang umum menetapkan

X

time series yang diindeks oleh alam nomor ditulis

(63)

51 Notasi lain yang umum adalah

Y

=

{Y

t:

t

∈

T},

dimana

T

adalah menetapkan indeks .

Ada dua set kondisi dimana banyak teori dibangun:



Proses stasioner



Ergodicity

Namun, ide-ide stasioneritas harus diperluas untuk mempertimbangkan dua ide

penting: stasioneritas yang ketat dan orde kedua stasioneritas . Kedua model dan

aplikasi dapat dikembangkan di bawah masing-masing kondisi, meskipun model

dalam kasus yang terakhir mungkin dianggap sebagai hanya sebagian yang

ditentukan. Selain itu, analisis time-series dapat diterapkan di mana seri yang

musiman stasioner atau non-stasioner. Situasi dimana amplitudo dari komponen

frekuensi berubah dengan waktu dapat ditangani dengan di waktu-frekuensi analisis

yang membuat penggunaan waktu-frekuensi representasi dari serangkaian waktu atau

sinyal.

(64)

52 2 . 8 . 4 . Model Autoregressive

Representasi umum dari model autoregresif, dikenal sebagai AR (p), adalah

dimana ε

t

panjang adalah sumber keacakan dan disebut white noise . Hal ini

diasumsikan memiliki karakteristik sebagai berikut:

a)

b)

c)

Dengan asumsi ini, proses ini ditetapkan sampai dengan orde kedua momen dan,

tergantung pada kondisi pada koefisien, mungkin orde kedua stasioner .

Jika kebisingan juga memiliki distribusi normal , hal itu disebut kebisingan putih

normal atau Gaussian. Dalam hal ini, proses AR mungkin ketat stasioner , sekali lagi

tergantung pada kondisi pada koefisien. Alat untuk menyelidiki data time-series

meliputi:

(65)

53 1)

Pertimbangan dari fungsi autokorelasi dan fungsi kepadatan

spektral (juga fungsi korelasi silang dan lintas-fungsi kerapatan

spektral )

2)

Melakukan Transformasi Fourier untuk menyelidiki seri di

domain frekuensi

3)

Penggunaan filter yang diinginkan untuk menghilangkan noise

4)

Analisis komponen utama (atau fungsi ortogonal empiris

analisis)

5)

Singular analisis spektrum

6)

Jaringan saraf tiruan

7)

Hidden Markov Model

8)

Dinamis waktu warping

9)

Dinamis jaringan Bayesian

Waktu-teknik analisis frekuensiT

1)

Fast Fourier Transform

(66)

3)

Waktu singkat Transformasi Fourier

4)

Pecahan Transformasi Fourier

(67)

BABBIIIB

METODEBPENELITIAN

3.1.BKerangkaBBerpikirB

B

Di dalam pengenalan pola dengan menggunakan DTW, dikenal istilah

pembelajaran dan pengenalan. Di dalam melakukan pembelajaran terdapat cara

paling sederhana untuk mengenali kata yang terisolasi sampel adalah dengan

membandingkannya dengan sejumlah template disimpan dan menentukan kata yang

merupakan "paling cocok". Tujuan ini adalah rumit oleh sejumlah faktor. Pertama,

sampel yang berbeda dari kata tertentu akan memiliki jangka waktu yang agak

berbeda. Masalah ini dapat dihilangkan dengan hanya menormalkan template dan

pidato yang tidak diketahui sehingga mereka semua memiliki durasi yang sama.

Namun, masalah lain adalah bahwa tingkat pembicaraan mungkin tidak konstan di

seluruh kata, dalam kata lain, keselarasan yang optimal antara template dan sampel

berbicara mungkin nonlinier. Waktu Dinamis Warping (DTW) adalah metode yang

efisien untuk menemukan keselarasan ini nonlinier yang optimal..

B

(68)

55 3.2. Diagram Alir Percobaan Penelitian (Flowchart)

Gambar 3.1. Diagram Alir Percobaan Penelitian

(69)

3.3. Rumusan Hipotesis

Pada penelitian ini, sistem yang akan diimplementasikan untuk mendeteksi

suara yang menghasilkan output karakter 0 (nol) hingga 9 (sembilan). Secara

sederhana blok diagram dapat dilihat pada gambar 1 yang merupakan sistem

implementasi.

Gambar 3.2. Arsitektur Sistem yang Akan Digunakan

Pada gambar 3.2 terlihat bahwa sistem yang dipakai untuk merealisasikan

sangat kompleks. Secara singkat sistem ini terdiri dari 3 bagian dimana tiap-tiap

bagian mempunyai pola maupun karakteristik yang berbeda-beda yaitu antara lain :

1)

Analog Digital Converter (ADC).

2)

Digital Signal Processing (DSP)

57 Suara / Noise

Pemrosesan

_{Sinyal Suara}

Ekstraksi Ciri

Pemrosesan Awal

Pola suara

Template

Matching

Output Karakter

(70)

1) Analog Digital Converter (ADC)

Pada bagian ini, sinyal suara yang dimasukkan melalui

microphone

yang

berfungsi untuk mengubah sinyal suara analog menjadi sinyal kontinu berupa

tegangan analog, hal ini terlihat seperti pada gambar 3.2.

Gambar 3.3. Diagram Sinyal Suara Menjadi Sinyal Digital

Setelah sinyal analog terbentuk berupa tegangan, maka dilakukan proses

konversi yaitu mengubah sinyal analog menjadi sinyal digital. Pada gambar terdapat

blok diagram buffer data, bagian ini berfungsi sebagai penampung data berupa sinyal

suara untuk menghindari kehilangan data akibat kecepatan pencuplikan data dengan

peralatan untuk mengambil data tidak sama. Pada umumnya peralatan

ADC

mempunyai kecepatan lebih rendah dibandingkan dengan peralatan pengambil data,

untuk itu diperlukan media komunikasi antara kedua peralatan tersebut, salah satunya

dengan memberi sinyal

acknowledgment,

jadi jika akan mengambil data digital

berupa sinyal suara terlebih dahulu mengirim sinyal ACK. Guna untuk menanyakan

apakah data sudah siap diambil.

58 File *.WAV

MicroPhone

ADC

(Sound Card)

Buffer Data

Noise

(71)

2) Digital Signal Processing (DSP)

Pada blok

DSP merupakan proses yang sangat penting untuk menentukan

keberhasilan dan keefektifan suatu metode DTW dalam mengenali pola inputan.

Hasil dari

DSP

inilah yang digunakan sebagai masukan sistem pengenalan suara

dengan DTW.

Berdasarkan hal diatas, maka dalam penelitian ini akan memanfaatkan analisa

sinyal yaitu Fast Fourier Transform sebagai pengekstraksi ciri dari sinyal suara.

(72)

BABBIVB

ANALISABHASILBPERCOBAAN

4.1.BDesainBEksperimenB

Salah satu fungsi yang dipakai pada penelitian ini menggunakan metode

Mel-scale Fresuency Ceptral Coefficients

(MFCC), yaitu suatu fungsi

FFT

yang dapat

dimodifikasi sedemikian hingga kemudian dibagi menjadi beberapa bagian yang pada

akhirnya menghasilkan sampel sebanyak 2756 didapat dari frekuensi

sampling

11025Hz selama 2 detik. Proses ini sekaligus mengubah sinyal suara berbasis

Time

Domain

(domain waktu)

menjadi sinyal suara yang berbasis

Fresuency Domain

(domain frekewensi) yang dapat dimunculkan berupa grafik serta tujuannya adalah

untuk memudahkan dalam menganalisa. Fungsi

FFT

ini nantinya akan digunakan

dengan pertimbangan kecepatan dan kemudahan dalam pemrosesan sinyal suara.

Gambar 4.1. Metode Mel-scaled Ceptral Coefficients (Ekstraksi Ciri)

59 ADC

DTW

FFT

Filter

Normalisasi

(73)

60 Oleh karena keluaran dari

DSP

mempunyai nilai terlalu besar maka dilakukan

normalisasi menggunakan

Sigmoid

.

Dari persamaan diatas nilai hasil dari proses

DSP

menjadi 0



g(x)



1 sehingga nilai

tesebut siap untuk diproses dalam DTW.

4.2. Analisa Hasil Percobaan

Pada bagian ini keluaran (output) dynamic time warping

berfungsi mengenali

suara menjadi sebuah karakter. Sebelum digunakan, DTW

mengalami proses yang

dinamakan

learning

(belajar). Proses belajar yang dilakukan hampir sama dengan

metode-metode yang lain yang tujuan akhirnya DTW dapat mengenali suara yang

telah dilatihkan (bersifat

adaptif

). Proses belajar pada DTW biasa disebut dengan

supervised

(terpandu) karena membutuhkan suatu keluaran (target). Setelah

dilatihkan DTW dapat diaplikasikan untuk menetukan suara dengan jalan

menggunakan vektor referensi (bobot) hasil dari pembelajaran. Proses ini berawal

dari domain waktu (diskrit) kemudian diubah ke dalam domain frequensi yang

akhirnya sebelum masuk ke DTW dilakukan Normalisasi.

4.3. Pengujian Metode

Pada bagian ini akan diujikan metode yang dipakai dalam proses pengenalan

pola suara dari awal proses merekam suara, kemudian normalisasi suara dengan

fungsi

sigmoid

dan setelah itu proses pelatihan suara.

(1)

Berikut tampilan programnya :

A. Pola Suara “2” yang tidak cocok setelah dilakukan pengujian sebanyak 2 kali ini pengujian yang pertama

(2)

B. Pola Suara “2” yang tidak cocok setelah dilakukan pengujian sebanyak 2 kali ini pengujian yang kedua

(3)

BABBVB

KESIMPULANBdanBSARANB

5.1.BKesimpulanB

Beberapa kesimpulan yang dapat ditarik selama penelitian skripsi ini dilakukan antara lain :

1) Ada banyak faktor yang dapat mempengaruhi kualitas suara yang direkam. Selain perangkat keras yang digunakan, salah satunya tingkat kepekaan microphone sangatlah berpengaruh pada frekwensi suara yang disimpan dan kemudian akan dilatih datanya. Dengan menggunakan mic internal sudah dapat memfasilitasi proses perekaman suara ini.

2) Tingkat keberhasilan tidak bisa dibilang berhasil , disebabkan masih banyak suara kebisingan yang ada disekitar lingkungan atau ruangan . 3) Pemanfaatan grafik pola tiap suara yang direkam memudahkan user dalam

menganalisa pola suara untuk tiap-tiap kata yang diucapkan atau yang ingin dikenali.

(4)

5.2. Saran

Sebagai langkah perbaikan untuk penelitian yang akan datang, dapat dipertimbangkan beberapa hal antara lain :

1) Perangkat keras yang digunakan setidaknya dapat mereduksi derau (noise) secara realtime, sehingga akan didapatkan sinyal suara yang jernih.

2) Lingkungan pada saat pengambilan suara harus tetap sunyi tidak tercampur oleh suara lainnya.

3) Penambahan data masukkan suara yang direkam lebih banyak, dalam

mengantisipasi proses pelatihan yang kurang maksimal.

4) Perulangan proses pelatihan dapat diotomatisasi sehingga dapat

mempermudah dan mempercepat proses pengenalan pola suara yang diinginkan.

(5)

(6)

DAFTAR PUSTAKA

Chris, R. (1992). Speech Processing, (Berkshire: McGraw-Hill).

Laurene, F. (1994). Fundamentals of Neural Networks, (Englewood Cliffs: Prentice) M. J. Roberts. (2004). Signals and Systems Analysis Using Transform Methods and Matlab, (New York: McGraw-Hill)

Resmana dan Rudy Adipranata. (1999). “Pengenalan Suara Manusia Dengan Metode Distance Time Warping Berbasis PC”, (Dimensi Teknik Elektro)

Sri Kusumadewi. (2003). Artificial Inteligence, (Yogyakarta:Graha Ilmu). Don Johnson, The Speech Signal from http://cnx.rice.edu/content/m0087/latest/ Lawrence B. Holder, Speech Recognition (Briefly),from

http://www.cs.berkeley.edu/~russell/classes/cs188/s05/slides/chapter15b.pdf Mark Csele, WAV File Format Descriptions,from