DESAIN MESIN PRESENSI BERBASIS IDENTIFIKASI SUARA PENUTUR

BAB 1
PENDAHULUAN

1.1 Latar Belakang
Beberapa bagian anggota tubuh manusia adalah media password yang
dijamin aman dan akurat. Salah satunya adalah suara ucapan atau penuturan.
Penuturan akan menghasilkan gelombang suara yang menggambarkan bentuk
vocal tract penuturnya dan bersifat unik pada setiap individu.
Penelitian ini berupa desain sebuah sistem pengenalan dan identifikasi suara
penutur yang diimplementasikan pada mesin presensi. Pengembangan mesin
presensi model ini dimotivasi oleh keinginan untuk meningkatkan performa
akurasi sistem monitoring kehadiran dengan cara menerapkan metode akses harus
menggunakan suara ucapan penutur aslinya secara langsung tanpa bisa diwakilkan
ataupun dengan suara rekaman. Riset juga dilandasi oleh kenyataan bahwa modelmodel mesin presensi yang telah ada masih terdapat beberapa celah kelemahan
terutama pada validitas data hasil presensi. Beberapa mesin presensi tardahulu
seperti mesin jeglog ataupun mesin model gesek kartu, belum mampu menjamin
kesahihan data presensi secara optimal oleh karena media yang digunakan masih
memberikan peluang untuk pemanipulasian kehadiran oleh penggunanya,
misalkan dengan cara dititipkan pada orang lain. Mesin presensi dengan teknologi
pemindai sidik jari (finger print) pun masih memungkinkan dapat dimanipulasi
dengan cara membuat model tiruan jari palsu melalui teknologi dan cara

sedemikian rupa. Bahkan berdasarkan pengalaman pemakaian, jenis mesin
pemindai sidik jari ini membutuhkan perlakuan/persyaratan khusus diantaranya
pada saat pemindaian kondisi permukaan jari tidak boleh kotor, basah terkena air
dan keringat, atau lotion oil karena hal ini akan mengakibatkan mesin presensi
akan gagal mengidentifikasi pola sidik jari.
Berlandaskan pada kenyataan tersebut di atas maka perlu dikembangkan
serta direalisasikan sebuah mesin presensi berteknologi baru berbasis suara yang
benar-benar hanya mengenal “si pemiliknya” saja. Salah satu bentuk sistem yang
dapat dikembangkan untuk merepresentasikan mesin berteknologi ini adalah suatu
model yang memanfaatkan suara penutur. Suara adalah sebuah isyarat di alam
yang dikategorikan mempunyai nilai unik. Hal ini dikarenakan suara dapat
1

direproduksi sendiri oleh manusia melalui penuturan tanpa biaya dan usaha yang
besar. Suara secara karakteristik dapat pula dijadikan pembeda antara seorang
penutur (speaker) dengan penutur lainnya. Suara yang dihasilkan melalui sebuah
pengucapan adalah suatu isyarat berbentuk gelombang yang dapat dianalisis
secara spektral. Bentuk spektrum yang dihasilkan menggambarkan bentuk bidang
penghasil suara (vocal tract) penuturnya yang sifatnya selalu unik. Berlandaskan
konsep dasar tersebut maka suara dapat dijadikan media ampuh untuk sistem

pengenalan dan identifikasi personal.
Manusia mendapatkan karunia alat pengucap yang selalu menghasilkan suara
saling berbeda dan tidak ada dua orang penutur yang mempunyai suara sama.
Sementara yang sering dijumpai hanyalah kemiripan suara saja, bukan
keserupaan, sehingga pastilah bentuk spektrum isyarat suaranya juga berbeda.

1.2 Permasalahan
Berdasarkan pendahuluan di atas, maka dapat dirumuskan masalah sebagai
berikut :
a. Apakah pola spektrum ucapan memberikan informasi mengenai ciri-ciri
khas siapa penuturnya?
b. Bagaimanakah cara merancang sebuah model sistem yang mampu
mengolah multi parameter yang terkandung dalam isyarat suara ucapan
penutur untuk diaplikasikan sebagai suatu model sistem pengidentifikasi
penutur ?

2

DAFTAR PUSTAKA


Atal, B, "Automatic Recognition of Speakers from Their Voices", Proc.IEEE, vol.
64,
pp. 460-475, April 2001.
Bilmes, Jeff, "A Gentle Tutorial of the EM Algorithm and its Application to
Parameter
Estimation for Gaussian Mixture and Hidden Markov Models",
International Computer Science Institute, Berkeley, California, 2003.
Campbell, Joseph P,"Speaker Recognition: A Tutorial", Proc. of the IEEE, vol.
85, no.
9, September 2002.
Duda, Richard O., Peter E. Hart, and David G. Stork, "Pattern Classification, 2nd
ed",
New York: John Wiley & Sons, 2001.
Furui, Sadaoki, "An Overview of Speaker Recognition Tehcnology", in Chin-Hui
Lee,
et.al. (ed.) "Automatic Speech and Speaker Recognition, Advanced
Topics", London: Kluwer Academic Publishers, 2001.
Lathi, B. P., “Signal Processing and Linear System”, Carmichael, California :
Barkeley
Cambridge Press, 1998.

Nabney, Ian, C. M. Bishop, “Netlab Neural Network Software”, 2003, pada
http://www.ncrg.aston.ac.uk/netlab/.
Rabiner, L. R., and R. W. Schafer, “Digital Processing of Speech Signals”, New
Jersey :
Prentice Hall, pp. 141-161, pp. 314-322, 1985
Reynolds, A. Douglas, "Automatic Speaker Recognition Using Gaussian Mixture
Models", The Lincoln Laboratory Journal, Volume 8, Number 2, 2000.
Reynolds, A. Douglas, Richard C. Rose, "Robust Text-Independent Speaker
Identification Using Gaussian Mixture Speaker Models", IEEE Trans.
Speechand Audio Processing, vol. 3, no. 1, January 1995.
Slaney, Malcolm, "Auditory Toolbox: A Matlab Toolbox for Auditory Modeling

30

Work", Interval Research Corporation, 1995.
http://rvl4.ecn.purdue.edu/ malcolm/interval/1998-010/

Available

at


31

REKAYASA

LAPORAN PENELITIAN HIBAH BERSAING

DESAIN MESIN PRESENSI BERBASIS
IDENTIFIKASI SUARA PENUTUR

Oleh :
Hernawan Sulistyanto, ST, MT
Nurgiyatna, ST. MSc

DIBIAYAI OLEH DIREKTORAT JENDERAL PENDIDIKAN TINGGI
DEPARTEMEN PENDIDIKAN NASIONAL
SESUAI DENGAN SURAT PERJANJIAN PELAKSANAAN HIBAH PENELITIAN
NOMOR : 074/SP2H/PP/DP2M/IV//2009

UNIVERSITAS MUHAMMADIYAH SURAKARTA

OKTOBER 2009

RINGKASAN

Manusia mampu mengenali manusia lain berdasarkan suara yang diucapkannya.
Permasalahan dalam identifikasi penutur secara automatis adalah membangun suatu
algoritma yang dapat mengidentifikasi seorang penutur hanya berdasar gelombang
suaranya saja.
Penelitian ini memaparkan suatu model pengidentifikasi penutur takgayut teks
dalam set tertutup menggunakan suatu Gaussian Mixture Model (GMM) berdasar fungsi
rapat peluang (pdf) Gaussian. Pada tahap pelatihan, isyarat ucapan para penutur
Indonesia dilatih secara individual. Ekstraksi feature menggunakan analisis MelFrequency Cepstral Coefficients (MFCC). Untuk memperoleh parameter-parameter
GMM dari setiap model penutur dipakai algoritma Expectation Maximization (EM).
Selanjutnya membangun suatu basis data parameter setiap model penutur. Pada tahap
pengenalan, parameter ucapan pengujian suatu model penutur dibandingkan dengan
parameter-parameter model penutur yang ada dalam basis data. Identifikasi berdasar
pada kemungkinan maksimum kedekatan nilai antara parameter pengujian dan pelatihan
dengan

menerapkan


metode

penilaian

kemungkinan

maksimum

(Maximum

Likelihood=ML). Eksperimen meliputi variasi panjang ucapan tes.
Hasil penelitian menunjukkan bahwa sistem mampu mengidentifikasi seorang
penutur dengan tingkat keberhasilan tinggi. Akurasi identifikasi sekitar 100% pada saat
M, nilai komponen campuran, meningkat dari 6 ke 30. Akurasi identifikasi mencapai
100% saat durasi ucapan minimal 1 menit. Selanjutnya akurasi mempunyai nilai 100%
ketika tanpa derau tetapi akan menurun dengan kehadiran derau, yaitu sekitar 92% saat
SNR=90 dB dan 77% saat SNR=80 dB.

SUMMARY


Human recognize their environment with seemingly effortless manner. This
includes recognizing other human solely on their voices. The problem of automatic
speaker identification is how to build an algorithm that can identify a speaker based on
his speech wave.
This research explains a closed-set of text independent speaker identification
model uses a Gaussian Mixture Model (GMM) which based on Gaussian probability
density function. In the training stage, Indonesian speakers utterance signal were
trained individually. The extraction of features was done by the Mel-Frequency
Cepstral Coefficients (MFCC) analysis. Obtaining the parameters of each speaker
model, EM algorithm has been employed. Then build a database of parameters of each
speaker model. In the recognition stage, the examination of utterance parameters of a
speaker model was compared to parameters of speaker models which there were in
database. Identification based on maximum possibility according to value of parameters
of training and examination by applying Maximum Likelihood (ML) estimation method.
The experiment includes utterance length only.
Result of research indicates that the system was able to identify a speaker with
high successful rate. Accuracy of identify was 100% when M, value of mixture
component, increased from 6 to 30. Accuracy of identification reached at 100% when
the examination of utterance length at least 1 minute. Furthermore, the accuracy had

good value at 100% when noise was not presented but the accuracy would like
decreased moderately within noise presented , namely it was approximately 92% for
SNR = 90 dB and 77% for SNR = 80 dB.

KATA PENGANTAR
Syukur Alhamdulilah penulis panjatkan ke hadirat Allah SWT atas limpahan Rahmat, Hidayah serta
Inayah-Nya kepada penulis dari awal hingga akhir penyusunan laporan penelitian dengan judul “Desain
Mesin Presensi Berbasis Identifikasi Suara Penutur”. Penelitian ini membangun suatu sistem
pengenalan penutur yang diaplikasikan pada proses presensi kehadiran. Pada tahap tahun ini telah
berhasil diciptakan suatu perangkat bantu berupa software yang mampu menganalisa sekaligus
mengidentifikasi seorang penutur berdasarkan suatu suara yang telah diucapkannya. Tahapan penting
berikutnya adalah akan diimplementasikannya perangkat lunak ini dalam sebuah sistem nyata berupa
mesin presensi kehadiran pada tahun selanjutnya.
Selama pelaksanaan penelitian dan penyusunan laporan ini penulis menyadari banyak mendapat
masukan, bantuan serta dukungan. Oleh karena itu penulis menyampaikan banyak terima kasih kepada
DP2M Ditjen Pendidikan Tinggi Departemen Pendidikan Nasional atas dibiayaiya program penelitian ini
melalu program Hibah Bersaing tahun I. Peneliti tidak lupa mengucapkan terimakasih pula kepada semua
pihak atas segala perannya demi terselengaranya penelitian ini.
Akhir kata tiada sesuatu yang sempurna. Penulis mengharapkan saran dan kritik yang membangun
demi kesempurnaan penelitian ini dan penelitian mendatang.


Surakarta, 26 Oktober 2009

Tim Peneliti

DAFTAR ISI
Halaman
Halaman Pengesahan........................................................................................

i

Ringkasan dan Summary …………………………………………………….

ii

Kata Pengantar ……………………………………………………………….

iii

Daftar Isi ……………………………… ….…………………………………


iv

Daftar Tabel ………………………………………………………………….

v

Daftar Gambar ……………………………………………………………….

vi

Daftar Lampiran …………………………………………………………….

ix

I. PENDAHULUAN..………………………………………………………

1

1.1 Latar Belakang...................................................................……....

1

1.2 Perumusan Masalah..................................................................….

2

II. TINJAUAN PUSTAKA …......................................................................

3

2.1 Telaah Pustaka…...................................................................…….

3

2.2 Landasan Teori…………………………………………………...

4

III. TUJUAN DAN MANFAAT PENEILTIAN .........................................

13

3.1 Tujuan Penelitian ...........................................................................

13

3.2 Manfaat Peneiltian .........................................................................

13

IV. METODE DAN CARA PENELITIAN …...........................…………..

14

4.1 Metode Penelitian………………………………..………………..
4.2 Bahan atau Materi dan Alat Penelitian ……....................……….

14
14

4.3 Cara Pengumpulan Data ……..........................................……...…

17

4.4 Cara Penelitian ……………………………………………………

17

V. HASIL PENELITIAN DAN PEMBAHASAN.............................……...

23

5.1 Hasil Penelitian…………………………………………………….

23

5.2 Ragam Pengujian Variasi Durasi Ucapan Tes............................…..

26

5.3 Ragam Pengujian Variasi Tambahan Derau ………………………

27

VI. KESIMPULAN ……………… .............................……………………..

29

Daftar Pustaka ………..……………………………………………………

30

Lampiran ……................................................................................................

32

DAFTAR TABEL
Halaman
Tabel 5.1

Nilai-nilai parameter sebaran data ucapan pelatihan ... ……………

23

Tabel 5.2

Nilai-nilai parameter sebaran data ucapan pengujian)……………..

Tabel 5.3

Durasi pelatihan, pengujian dan identifikasi ....................................

Table 5.4

Akurasi identifikasi terhadap durasi ucapan tes ...............................

25
27

Table 5.5

Akurasi identifikasi terhadap tambahan derau .................................

28

24

DAFTAR GAMBAR
Halaman
Gambar 2.1

Sistem vocal-tract manusia ...………………………………………….

6

Gambar 2.2

Sistem pengenalan tutur..................…....................................................

7

Gambar 4.1

Diagram alir proses pelatihan terhadap satu isyarat tutur .…………….

19

Gambar 4.2

Diagram alir proses identifikasi terhadap satu isyarat tutur...................

20

Gambar 4.3

Ekstraktor Mel Frequecy Cepstral .........................................................

20

Gambar 5.1

Pola sebaran data ucapan pelatihan penutur …………………………..

23

Gambar 5.2

Pola sebaran ucapan pengujian penutur..................................................

24

Gambar 5.3

GUI mode pengenalan pada sistem identifikasi penutur ………………

25

Gambar 5.4

Akurasi identifikasi terhadap durasi ucapan tes .....................................

26

Gambar 5.5

Akurasi identifikasi terhadap adanya tambahan derau ...........................

27

DAFTAR LAMPIRAN
Halaman
Lampiran

………….……………….………... ……………………………..

32