Pengelompokan song-type Burung Ortolan Bunting dengan menggunakan K-Means klastering berbasis HMM (Hidden Markov Model) - USD Repository

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  

PENGELOMPOKAN SONG-TYPE BURUNG ORTOLAN BUNTING

DENGAN MENGGUNAKAN K-MEANS KLASTERING

BERBASIS HMM (Hidden Markov Model)

TUGAS AKHIR

  Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer

  Program Studi Teknik Informatika Oleh:

  Aloysius Bagas Pradipta Irianto 065314005

  

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2011

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  

CLUSTERING BIRD ORTOLAN BUNTING SONG-TYPE

USING K-MEANS CLUSTERING

BASED HMM (Hidden Markov Model)

A Final Assignment

  Presented as Partial Fullfillment of the Requirements To Obtain Sarjana Komputer Degree

  In Department of Informatic Engineering By:

  Aloysius Bagas Pradipta Irianto 065314005

  

INFORMATICS ENGINEERING STUDY PROGRAM

FACULTY OF SCIENCE AND TEKNOLOGI

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2011

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

HALAMAN PERSEMBAHAN

  

“HIDUP ADALAH PILIHAN DAN SETIAP PILIHAN

TIDAK ADA YANG SALAH ASAL KITA BISA

BERTANGGUNGJAWAB

  Skripsi ini ku persembahkan untuk: Yesus Kristus

  Bapak, Ibu ,dan adikku Romo Kuntoro Adi

  Kekasih, Sahabat dan Teman-teman

Terima Kasih Semua…..

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ABSTRAK

  Jenis burung Ortolan bunting memiliki jenis nyanyian/suara yang sangat beragam. Selama ini belum banyak sistem yang secara otomatis mengelompokkan nyanyian/suara burung ortolan bunting. Pengenalan suara adalah salah satu bentuk perkembangan teknologi pada abad 20 yang memanfaatkan suara sebagai masukan. Pada tugas akhir ini akan dibuat suatu sistem untuk mengelompokan nyanyian burung secara otomatis dengan menggunakan algoritma K-means clustering berbasis Hidden Markov Model (HMM). HMM secara umum digunakan pada signal processing dan untuk speech dan speaker recognition pada manusia.

  Penelitian ini menggunakan 5 song-type burung dan setiap song-type

diwakili 100 song, sehingga seluruh data yang digunakan berjumlah 500 data.

  

Pengelompokan menggunakan K-means berbasis HMM, dan validasi hasil

menggunakan perhitungan stability index.

  Berdasarkan hasil penelitian dari 5 kelompok data yang diujikan memiliki

nilai disimilaritas 8.2% yaitu berarti untuk beberapa kali percobaan terdapat 91.2%

anggota yang selalu mengelompok pada kelompok yang sama. Tingkat kesamaan

tertinggi diperoleh menggunakan feature Greenwood function cepstral coefficients

delta-acceleration (GFCC_D_A) dengan 36 parameter.

  

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ABSTRACT

  Ortolan Bunting bird has various song-types. For time being, there are not so many systems which automatically cluster the song-type of Ortolan Bunting bird. Speech recognition is one example of technology development in th the 20 Century which uses voice as the input. This research builds an automatic system to cluster the song-type of Ortolan Bunting bird automatically using K-means clustering algorithm based Hidden Markov Models (HMM).Commonly, HMM is used on signal processing and for speech and speaker recognition on human voice.

  This research uses 5 song-types of bird, and every song-type is represented

by 100 songs. The total data which are used in this research is 500 data. The

clustering is using K-means based HMM and the result validation employs index

stability computation.

  The clustering method group data into 5 clusters with dissimilarity values

8.2%. It means that for several times of experiment there are 8.2% data clustered

into different group and 91.2% of cluster members which always gather in the

same cluster. The highest similarity level obtained using Greenwood function

cepstral coefficients delta-acceleration (GFCC_D_A) feature with 36 parameters.

  

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

KATA PENGANTAR

  Puji dan syukur penulis haturkan kepada Tuhan Yesus Kristus karena dengan anugerah, berkat, kasih, dan pertolongan-Nya penulis dapat menyelesaikan penelitian dan penyusunan skripsi yang berjudul

  

”Pengelompokan Nyanyian Burung Ortolan Bunting dengan

Menggunakan K-Means Klastering Berbasis HMM (Hidden Markov

Model)

  . Skripsi ini disusun guna memenuhi salah satu syarat untuk

  memperoleh gelar Sarjana Strata Satu Program Studi Teknik Informatika (S.Kom).

  Terselesaikannya penulisan laporan akhir ini tidak lepas dari bantuan berbagai pihak yang telah membantu penulis. Oleh karena itu, penulis mengucapkan terima kasih kepada:

  1. Bapak Yosef Agung Cahyanta, S.T.,M.T., selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma.

  2. Bapak Puspaningtyas Sanjoyo Adi, S.T., M.T., sebagai Dosen Pembimbing akademik dan Ketua Jurusan Teknik Informatika, Universitas Sanata Dharma.

  3. Romo Dr. Cyprianus Kuntoro Adi, S.J., M.A., M.Sc. selaku dosen pembimbing yang selalu memberikan bimbingan dengan penuh kasih dan kesabaran. Terimakasih Romo Kun.

  4. Ibu selaku dosen penguji atas saran dan kritik yang diberikan.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  5. Seluruh Dosen Universitas Sanata Dharma, jurusan Teknik Informatika yang telah mengajarkan banyak ilmu kepada penulis.

  6. Laboran Laboratorium Komputer Universitas Sanata Dharma yang memberikan kesempatan dan waktunya kepada penulis untuk dapat menggunakan laboratorium dengan maksimal.

  7. Kedua orang tua saya, Drs. Isnan Irianto RB, dan Enggar Sriasih yang selalu memberikan curahan kasih sayang tak terhingga, doa, dukungan baik moral maupun moril kepada penulis serta pengertian sehingga penulis bisa menjadi seperti sekarang.

  8. Agnes Dotie Octaviani S.Farm., Apt., yang selalu memberikan ide-ide, kasih sayang, dan semangat yang nyata kepada penulis

  9. Semua teman-teman TI angkatan 2006 khususnya Dimas, Atha, Rido, Reno, dan Alfa yang menjadi teman yang setia dalam suka dan duka penulis.

  10. Serta semua pihak yang telah banyak membantu penyusunan skripsi ini yang tidak dapat disebutkan satu per satu.

  Penulis menyadari bahwa penulisan skripsi ini masih banyak kekurangan dan kelemahan karena keterbatasan pikiran, tenaga, dan waktu penulis. Untuk itu penulis mengharapkan saran dan kritik yang membangun dari semua pihak. Akhir kata semoga skripsi ini dapat berguna dan bermanfaat bagi pembaca semua.

  Yogyakarta, 9 Maret 2011 Penulis

  

DAFTAR ISI

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  LEMBAR JUDUL

  

  

  

  

  

  

  

  

  

  

  

  

  

PERNYATAAN KEASLIAN KARYA .....ERROR! BOOKMARK NOT DEFINED.

  

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  

  

  

LAMPIRAN .............................................ERROR! BOOKMARK NOT DEFINED.

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR GAMB

GAMBAR 2.1. CONTOH KEMUNGKINAN PARAMETER DARI HMM ............................ 8GAMBAR 2.2. ALGORITMA K-MEANS (SANTOSO, 2005) ............................................. 16GAMBAR 2.3. LANGKAH-LANGKAH UNTUK PROSES MENGHITUNG KOEFISIEN DARI GFCC......................................................................................................................... 19GAMBAR 2.4. GREENWOOD FILTERBANK.................................................................... 21GAMBAR 3.1. ALUR SISTEM ............................................................................................ 24GAMBAR 3.2. SYLLABLE BURUNG ORTOLAN BUNTING ............................................. 26GAMBAR 3.3. TIME SERIES DAN SPECTROGRAM DARI TIPE NYANYIAN AB ........... 26GAMBAR 3.4. PEMBUATAN MODEL DENGAN MENGGUNAKAN SAMPEL DATA ... 29GAMBAR 3.5. ITERASI PADA K-MEANS BERBASIS HMM ........................................... 30GAMBAR 3.6. ITERASI PADA K-MEANS BERBASIS HMM ........................................... 30GAMBAR 3.7. FLOWCHART VALIDASI HASIL .............................................................. 32GAMBAR 4.1. NILAI DISIMILARITAS K=2 ..................................................................... 39GAMBAR 4.2. GRAFIK HASIL PENGELOMPOKAN DARI EKSTRAKSI GFCC ............. 40GAMBAR 4.3. GRAFIK HASIL PENGELOMPOKAN DARI EKSTRAKSI GFCC_D ........ 40GAMBAR 4.4. GRAFIK HASIL PENGELOMPOKAN DARI EKSTRAKSI GFCC_D_A.... 41GAMBAR 4.5. GRAFIK HASIL GABUNGAN PENGELOMPOKAN DARI EKSTRAKSI GFCC, GFCC_D, DAN GFCC_D_A .................................................................................... 42

  

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR TABEL

TABEL 3.1. CONTOH KELOMPOK K=2 ........................................................................... 33TABEL 3.2. PERBANDINGAN DENGAN NILAI PERMUTASI ........................................ 34TABEL 4.1. CONTOH HASIL PENGELOMPOKAN UNTUK K=2 .................................... 38TABEL 4.2. HASIL PENGELOMPOKAN NYANYIAN BURUNG ..................................... 42

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB I PENDAHULUAN

1.1. Latar Belakang

  Jenis burung Ortolan bunting memiliki jenis nyanyian/suara yang sangat beragam. Jenis burung ini banyak ditemukan di daerah Eropa Selatan, Scandinavia, Jerman, dan Mongolia bagian timur. Burung ini bermigrasi tersebar dari Eropa Barat ke Mongolia (Cramp, Perrins, 1994).

  Burung ini mempunyai ciri khas suara yang unik. Suara yang dihasilkan mempunyai variasi song-type.Setiap burung mempunyai dua sampai tiga

  song-type

  . Burung ortolan bunting memiliki 63 jenis song-type dan 234 variasi nyanyian. Karena beragamnya jenis suara/nyanyian burung jenis ortolan bunting maka terdapat berbagai permasalahan antara lain seringkali kesulitan untuk mengetahui atau menentukan jenis song-type tertentu.

  Hidden Markov Models

  (HMM) adalah salah satu metode pendekatan untuk identifikasi suara. HMM merupakan salah satu contoh metode kuantitatif yaitu pengukuran menggunakan frekuensi dan parameters temporal. Data mining adalah teknik untuk menambang (mining) pengetahuan dari sekumpulan data yang sangat besar. Data

  mining diterapkan untuk menarik pengetahuan yang tersembunyi. Teknik data mining terdiri dari: association, klastering dan klasifikasi.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  Association digunakan untuk mengenali kelakuan dari kejadian-kejadian khusus atau proses dimana link asosiasi muncul pada setiap kejadian.

  Klasifikasi adalah menggolongkan data ke dalam kelas tertentu berdasarkan nilai atribut atau supervised classification. Klastering adalah proses pengelompokan data dalam kelas-kelas sehingga data dalam kelas- kelas memiliki tingkat persamaan yang tinggi satu dengan yang lainya tetapi sangat berbeda dalam cluster lain. K-means klastering merupakan salah satu metode klastering yang sering digunakan, karena k-means klastering memiliki akurasi yang tinggi serta pengolahanya yang mudah dimengerti. K-means klastering diperlukan untuk mengelompokan suatu data kedalam kelompok-kelompok yang memiliki kedekatan yang sama.

  Dalam penulisan Tugas Akhir ini akan menerapkan K-means klastering berbasis HMM untuk mengelompokan nyanyian burung ortolan bunting sesuai dengan jenis nyanyian sehingga akan lebih mudah dikenali.

1.2. Rumusan Masalah

  Dari latar belakang diatas maka rumusan masalah yang akan diselesaikan adalah bagaimana merancang, dan mengimplementasikan sebuah sistem untuk dapat mengelompokan nyanyian burung ortolan bunting yang sangat beragam dengan menggunakan metode K-means

  clustering berbasis Hidden Markov Model (HMM).

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

1.3. Tujuan

  1. Merancang, dan mengimplementasikan sebuah sistem untuk pengelompokan nyanyian burung ortolan bunting, sehingga kita dapat mengetahui jenis nyanyian burung Ortolan Bunting dengan lebih mudah.

2. Menghitung akurasi kelompok-kelompok yang terbentuk.

1.4. Batasan Masalah

  Batasan masalah dalam tugas akhir ini adalah sebagai berikut :

  1. Jenis burung yang akan dikelompokan adalah jenis burung Ortolan Bunting.

  2. Input berupa file suara dengan format *.wav

  3. Feature extraction dilakukan dengan menggunakan metode GFCC (Greenwood Functions Ceptral Coefficients)

  4. Algoritma yang digunakan dalam pengelompokan adalah K- Means Clustering.

  5. Software yang digunakan adalah MATLAB versi 7.8.0. (R2009a).

  6. Menggunakan fungsi-fungsi didalam HTK toolkit.

I.5. Metodologi Penelitian

  Dalam mendapatkan data-data yang diperlukan untuk pengklasifikasian nyanyian burung dengan menggunakan metode K-

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  Means Clustering ini, diperlukan beberapa cara/teknik pengumpulan data, dan langkah-langkah yang akan dikerjakan.

  1. Referensi (Literatur)

  Metode yang dilakukan dengan membaca dokumen, file, maupun referensi buku yang telah ada, maupun sumber lain yang berkenaan dengan objek yang sedang dibutuhkan.

  2. Perancangan Sistem

  Setelah memulai tahap literatur, selanjutnya dilakukan perancangan sistem yang akan dibuat.

  3. Implementasi

  Tahap ini adalah penerapan desain kedalam bentuk program dengan memanfaatkan bahasa pemrograman yang ada berdasarkan perancangan system.

I.6. Sistematika Penulisan

  Sistematika penulisan tugas akhir ini adalah sebagai berikut :

Bab I. Pendahuluan Bab ini berisi latar belakang, rumusan masalah, tujuan, batasan masalah, metodologi penelitian, dan sistematika penulisan. Bab II. Landasan Teori Bab ini mengemukakan teori-teori yang menjadi acuan dalam

  perancangan dan pembuatan sistem pengelompokan suara burung ortolan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  Bab III. Metodologi Bab ini berisi tentang penjelasan alur rancangan program yang akan dibuat dan metode-metode yang digunakan dalam merancang program. Bab IV. Implementasi Sistem dan Analisa Hasil Bab ini akan menguraikan proses pembuatan sistem secara fisik

  serta berisi mengenai analisa hasil yang berupa kelebihan serta kekurangan sistem.

  Bab V. Kesimpulan dan Saran Bab ini menguraikan kesimpulan dan saran-saran dari sistem

  pengelempokan suara burung ortolan bunting dengan menggunakan k- means klastering berbasis Hidden Markov Model.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB II LANDASAN TEORI Pada bab ini akan dibahas mengenai teori-teori yang akan

  Clustering , dan ekstraksi ciri.

  ) (asumsi Markov) (2-1)

  n S n -1

  1 ) = P(S

  ,...,S

  n-1 ,S n-2

  S

  digunakan untuk menunjang pengelompokan song-type burung. Teori yang mendukung mencakup Hidden Markov Models (HMM) , K-means

2.1. Hidden Markov Models (HMM)

2.1.1. Markov Models

  P (S

  }maka

  2 ,...,S n

  1 ,S

  yang dilakukan pada waktu n-1, untuk serangkaian {S

  n -1

  Misalkan sebuah sistem dideskripsikan pada setiap waktu sebagai salah satu dari N state {1, 2, ..., N}. Sistem mungkin mengalami perubahan state dalam satuan waktu diskrit (mungkin kembali ke state semula) tergantung kepada aturan probabilitas setiap state. Dalam Markov model atau first-order-Markov mengasumsikan bahwa probabilitas observasi pada waktu n hanya tergantung pada observasi S

  Markov model menggambarkan sistem dengan serangkaian state dan transisi state (setiap transisi dari state mempunyai sebuah probabilitas) dimana rangkaian dari state-state tersebut disebut dengan Markov chain .

  n

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  Untuk memperoleh probabilitas gabungan (joint probability) dari observasi-observasi sebelumnya maupun observasi sekarang dapat diturunkan menjadi

  , =

  1 2, … , −1 =1 (2-2)

2.1.2. Hidden Markov Models

  Hidden Markov Models

  (HMM) adalah sebuah model statistik yang diasumsikan dari rantai Markov dengan parameter yang tersembunyi (hidden). Hidden Makov Model (HMM) telah banyak dipergunakan dalam sistem pemrosesan suara. HMM merupakan model statistik di mana mempunyai keluaran rangkaian simbol dan kuantitas. Perubahan atau perpindahan state direpresentasikan oleh suatu himpunan peluang yang dinamakan matriks peluang transisi. HMM digunakan untuk pembuatan model pada proses training dan testing. Bentuk model HMM berupa state-state yang saling berhubungan. Proses training bertujuan untuk membuat model untuk data suara burung. Pemodelan ini berupa model yang bersifat kontinu untuk data suara. Pada gambar 2.1 menunjukan kemungkinan parameter dari HMM.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 2.1. Contoh kemungkinan parameter dari HMM

  Keterangan : x

  — states y

  — possible observations a — state transition probabilities b — output probabilities

  HMM terdiri dari elemen-elemen dasar sebagai berikut:

  1.Banyaknya state dalam HMM (N). yang dilabelkan {1, 2, 3, ..., N} dan state ke-t dinyatakan dengan qt.

  2.Banyaknya simbol observasi yang berbeda tiap state (M) dinyatakan:

  3.Matriks peluang transisi dari state ke-i menuju state ke-j (A={aij}) dimana:

  4.Distribusi peluang simbol observasi simbol observasi ke- k pada state ke-j (B={bj(k)}), yang dinyatakan dalam matrik BNxM.

  5. Distribusi awal state ke-i ( π={πi}), dinyatakan: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI HMM dimodelkan sebagai λ=(A,B,π).

2.1.3. Algoritma Viterbi

  Algoritma viterbi digunakan sebagai kriteria pengoptimalisasi yang dilakukan dengan menemukan rangkaian state (part) yang mempunyai likelihood maksimum sehingga pada saat n hanya terdapat

  part yang paling mungkin dipilih untuk setiap state (si). Algoritma ini

  menggunakan dua variable yaitu: 1. (

  ) merupakan likelihood tertinggi (highest) dari single part diantara semua path yang berakhir dalam state pada saat n : (2-3)

  2. Variable (i) merupakan track untuk ―best part‖ berakhir dalam state pada saat n:

  (2-4) Berikut merupakan algoritma dari viterbi :

1. Inisialisasi (Initialization) .

  1 , 1 ≤ i ≥ N

  = (i) = 0

  1 Dimana () merupakan prio probability untuk state s1 pada waktu n=1.

  2. Rekursif ) .

  2 ≤ n N

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  1 ≤ i Ns 1 ≤ J Ns

  3. Terminasi

  ∗

  1 = max

  1 ≤ i Ns

  = arg

  1 ≤ i Ns

  Menemukan

  “best likelihood” ketika sequence dari pengobservasiab terakhir t=T.

  4. Lintasan status (Backtracing)

  ∗ ∗ ∗ ∗ ∗

  = { , } maka = ( )

  1 … , +1

  • 1

  n = N-1, N-2, . . . , 1)

  dengan (

2.1.4. Algoritma Baum-Welch

  Dalam pembentukan model, pengoptimalisasi parameter- parameter model Φ = {A, B, } sangat diperlukan untuk memperoleh model terbaik yang merepresentasikan set dari observasi. Salah satu pendekatan yang digunakan untuk meberikan model terbaik adalah algoritma Baum-Welch.

  Definisi γt(i) adalah probabilitas state Si pada waktu t, menghasilkan deretan X dan model Φ. Dituliskan sebagai berikut :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  i ) = P(s = S | X γt( ,Φ)

  Persamaan di atas dapat dituliskan dalam forward backward variable sebagai berikut : Juga mendefinisikan probability function

  ξt(I,j), yang merupakan probabilitas terjadinya state Si pada saat t dan beralih ke state Sj pada saat t+1, dengan model Φ dan sequence observasi X sebagai berikut:

  (2-5) ξt(I,j) = P(st = Si, st+1 = Sj | X, Φ)

  Berdasarkan definisi forward backward variable, persamaan di atas dapat dituliskan sebagai berikut : (2-6)

  Hubungan a ntara γτ(i) dan ξt(i,j) terlihat pada saat penjumlahan j, Menghasilkan :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  Penjumlahan seluruh bagian dari γτ i), kecuali t = T, menghasilkan angka berupa kemungkinan state Si. Penjumlahan seluruh bagian dari

  ξt(i,j), menghasilkan angka berupa kemungkinan transisi dari state Si ke Sj.

  Estimasi ulang dari parameter model menghasilkan sebagai berikut : = angka kemungkinan pada state Si saat (t

  πι

  = 1) = γτ(i) (2-8)

  (2-9) Setelah re-estimasi parameter model, akan diperoleh model baru

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  Algoritma Baum Welch yang telah dipaparkan di atas merupakan implementasi dari algoritma EM(Expectation Maximization). Di awali dengan inisialisasi perkiraan parameter HMM Φ = (A, B, π), langkah

  Expectation

  dan Maximization dijalankan bergantian. Langkah

  Expectation menghitung expected state occupancy count

  γ dan state

  transition count

  ξ dari probabilitas A dan B sebelumnya yang menggunakan algortima forward-backward. Pada langkah Maximization γ dan ξ digunakan untuk memperoleh probabilitas A, B, dan π baru. A, B, dan π yang baru tersebut dapat diperoleh dengan menggunakan persamaan 2.6, 2.7 dan 2.8.

2.2. K-Means Klastering Berbasis HMM

2.2.1. Klastering

  Tujuan utama dari metode klaster adalah pengelompokan sejumlah data/obyek ke dalam klaster (group) sehingga dalam setiap klaster akan berisi data semirip mungkin (Santoso,2005). Dalam klastering kita berusaha untuk menempatkan obyek yang mirip (jaraknya dekat) dalam satu klaster, dan membuat jarak antar klaster sejauh mungkin. Ini berarti obyek dalam satu klaster sangat mirip satu sama lain dan sangat berbeda dengan obyek dalam klaster-klaster yang lain. K- means klastering adalah salah satu teknik unsupervisited learning dimana tidak memiliki ‗label‘ untuk fase learning.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  Klastering terbagi menjadi beberapa yaitu (Zaiane,1999) :

  1. Partitioning Clustering

  Partitioning Clustering disebut juga exclusive klastering dimana

  setiap data harus termasuk dalam cluster tertentu dan memungkinkan bagi setiap data yang termasuk cluster tertentu pada suatu tahapan proses, pada tahapan berikutnya berpindah ke cluster yang lain .

  2. Hierarchical Clustering Pada Hierarchical Clustering setiap data harus masuk ke dalam cluster tertentu namun suatu data yang masuk kedalam cluster tertentu pada suatu tahapan proses, tidak dapat berpindah ke cluster lain pada proses berikutnya.

   Contoh: Single Linkage, Centroid Linkage, Complete Linkage, Average Linkage.

  3. Overlapping Clustering

  Overlapping Clustering mengijinkan setiap data masuk ke

  beberapa cluster berbada dan data mempunyai nilai keanggotaan (membership) pada beberapa cluster

   Contoh : Fuzzy C-means, Gaussian Mixture

  4. Hybrid

  Hybrid

  Merupakan kombinasi dari karakteristik partitioning, overlapping dan hierarchical.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.2.2. K-Means Clustering

  Ada dua jenis klastering yang sering digunakan dalam proses pengelompokan data yaitu hierarchical (hierarki) data klastering dan non-

  hierarchical

  (non-hierarki) data klastering. K-means clustering merupakan salah satu metode data klastering non hirarki yang berusaha memisahkan data yang ada ke dalam bentuk satu atau lebih cluster/kelompok. Metode ini mempartisi data ke dalam cluster/kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu klaster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain.

  Tujuan dari data klastering ini adalah untuk meminimalisasikan

  objective function yang diatur dalam proses klastering, yang pada

  umumnya berusaha meminimalisasikan variasi di dalam suatu cluster dan memaksimalisasikan variasi antar cluster. Data klastering menggunakan metode K-Means ini secara umum dilakukan dengan algoritma dasar sebagai berikut.

  1. Tentukan jumlah klaster

  2. Alokasikan data ke dalam cluster secara random

  3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster

  4. Alokasikan masing-masing data ke centroid/rata-rata terdekat

  5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai centroid, ada yang di atas nilai threshold

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  yang digunakan di atas nilai threshold yang ditentukan.

Gambar 2.2. Algoritma K-means (santoso, 2005)

  K-means merupakan klasterisasi mengunakan penghitungan jarak. Pada kasus ini jarak yang digunakan menggunakan model. Model didapat menggunakan Hidden Markov Models (HMM). Pada k-means

  FINISH kelompokan dengan centroid terdekat

  START Inisialisasi jumlah K

  Tentukan centroid Hitung jarak dengan centroid

  Hitung centroid baru Centroid tetap?

2.2.3. K-Means Clustering berbasis Hidden Markov Models (HMM)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  berbasis HMM, centroid ditentukan menggunakan model, model dibuat dengan mengambil sampel dari beberapa data yang ada, jarak dihitung dengan menggunakan likelihood probabilitas. Berikut algoritma dari k- means berbasis HMM :

  1. Buat model dari sampel data yang ada sesuai dengan jumlah kelompok.

  2. Bandingkan seluruh data dengan model yang telah dibuat.

  3. Dari data-data yang telah dikelompokan dibuat model baru untuk menggantikan model yang pertama,

  4. Bandingkan semua data dengan model-model baru yang terbentuk.

  5. Lakukan langkah tersebut sampai data konfergen, atau data dalam suatu model tidak berubah keanggotaanya.

2.3. Ekstrak ciri suara

2.3.1. Feature extraction

  Dalam pengidentifikasian individu burung menggunakan data yang memiliki label atau disebut sebagai

  “supervised”. Data suara yang

  diambil merupakan data audio (signal). Semua data audio yang digunakan bukan data mentah, sehingga diperlukan proses feature extraction untuk menentukan feature-feature penting yang diperlukan.

  Tujuan dari proses feature extraction adalah untuk parameterisasi suara (audio) kedalam rangkaian vector feature yang ringkas dan relevan, sehingga dapat mewakili informasi dari suara

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  tersebut. Feature-feature dari hasil proses feature extraction diharapkan mempunyai keterkaitan yang minimal serta mampu untuk membuat model tanpa harus membutuhkan data training yang besar.

2.3.2. Greenwood function cepstral coefficients (GFCC)

  

Greenwood function cepstral coefficients (GFCC) merupakan

  salah satu pendekatan yang digunakan untuk mengekstrak feature berdasarkan pada perceptual model dari spesies yang sudah ditentukan yaitu di dalam kasus ini adalah suara dari spesies burung ortolan bunting.

  

Greenwood (Greenwood,1961,1990) menunjukan bahwa

  beberapa dari spesies mamalia baik mamalia darat maupun perairan menerima frekuensi pada sebuah skala algoritmik yang dimodelkan dengan persamaan :

  (2-10)

  f = A( -b)

  Keterangan : f adalah frekuensi (Hz)

  A, a dan b merupakan konstanta (spesifik untuk masing-masing spesies) x

  menunjukan posisi dari selaput pendengaran Frekuensi warping yang diterima secara umum didefinisikan sebagai :

  (2-11)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  konstanta dan dapat diperoleh sebagai berikut : =

  (2-12)

  1 −

  • dimana pendekatan range pendengaran dari spesies tersebut (

  (2-13) = log 10 ( )

  −

  dan menggunakan pendekatan b = 0.88 (LePage, 2003)

  ) ,

Gambar 2.2 menunjukan proses ekstraksi ciri menggunakan GFCC

  Windowed

Suara burung Greenwood Discrete cosine Cepstral

FFT coefficient waveform filterbank transform s

Gambar 2.3. Langkah-langkah untuk proses menghitung koefisien dari GFCC

  Signal suara akan dilakukan segmentasi menjadi frame-frame dan masing-masing dari frame disebut sebagai window. Window dari data suara kemudian ditransformasi dengan menggunakan Fast Fourier Transform .

  (2-14) Dimana x(n) adalah signal dalam diskrit waktu dengan panjang N ,

  k =0,1,..N-1, dan k berkorespondensi dengan frekuensi f(k) = , adalah sampling frekuensi (Hz) dan w(n) adalah time-window.

  Suara burung ortolan bunting mempunyai range frekuensi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  dengan ukuran window 3ms-6ms. Koefisien magnitude |X(k)| dikorelasikan dengan masing-masing triangular filter dalam greenwood

  filterbank H(k,m). Ini berarti koefisien magnitude dari fast fourier

  transform dikalikan dengan filter gain dan dimodelkan sebagai berikut: Untuk m = 1,2,…,M, dimana M adalah jumlah dari filter bank dan M<<N. Greenwood filterbank merupakan kumpulan dari filter triangular yang didefinisikan dengan center frequencies.

  Filterbank center frequencies dihitung dengan skala Greenwood

  dari persamaan (2-2). Tringular filters tersebar di seluruh frequency

  range dari 0 sampai Nyquist frequency. Band-limiting menggunakan

  frekuensi bawah (lower) dan atas (upper) untuk me-reject frekuensi yang tidak diinginkan. Untuk suara burung ortolan bunting, Greenwood

  filterbank (gambar 2.4) biasa mempunyai range 400 sampai 7400 Hz

  yang merupakan dan dari spesies nyanyian burung (Edward, 1945).

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 2.4. Greenwood filterbank

  

Discrete cosine transform digunakan untuk menghitung

  koefisien cepstral dari log amplitudo filterbank sebagai berikut :

  ′

  ( ( ) = − 0.5))

  =1 cos⁡( (2-16) Untuk i = 1,2,….M, dimana c(i) adalah GFCC.

2.3.3. Greenwood function cepstral coefficients Delta dan Delta Acceleration (GFCC_D) dan (GFCC_D_A)

  Vektor-vektor feature dihitung dari fungsi Greenwood yang memberikan sebuah perkiraan yang terbaik dari local spectra.

  Karakteristik yang penting dari data vokalisasi ini vokalisasi dinamis. Kinerja sistem suara dapat ditingkatkan dengan menambah turunan waktu pada parameter statis. Banyak peneliti memanfaatkan perkiraan daerah turunan waktu. Delta cepstrum (Furui, 1986) adalah salah satu bentuk umum dari langkah ini. Delta cepstrum diimplementasikan sebagai turunan pertama koefisien regresi. Turunan waktu dinyatakan sebagai berikut :

  (2-17)

  )

( −

− + =1

  =

  2

  2

=1

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  dimana adalah koefisien delta pada waktu t dihitung dalam jangka t-k t+k koefisien waktu statis c hingga c .

  Turunan kedua, disebut sebagai delta-delta cepstrum atau koefisien percepatan, sesuai dengan penerapan korelasi yang sama pada koefisien delta. Sebagian besar sistem memadukan feature delta dan delta-delta. Kedua feature tersebut digunakan sebagai tambahan pada perhitungan statis seperti MFCCs atau GFCCs.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB III METODOLOGI Bab ini menjelaskan perancangan dan pengimplementasian

  metode K-means clustering berbasis HMM untuk dapat mengelompokan song-type lebih akurat.

3.1. Analisis Sistem

  Pada Bab ini akan dibahas bagaimana alur jalannya program yang akan dikembangkan dalam tugas akhir ini. Metodologi penelitian ini akan dibahas mengenai data burung ortolan bunting, alur dari identifikasi individu burung ortolan bunting termasuk proses training dalam pembuatan model untuk setiap individu burung ortolan bunting, testing, proses pengklasteran menggunakan algoritma K-means clustering berbasis HMM, serta metode untuk menentukan tingkat akurasi hasil klastering yang didapat. Berikut ini merupakan alur yang akan dibahas pada bab ini.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  Nyanian Burung Ortolan Bunting

  Sebelum dikelompokan input output data.wav Ekstraksi ciri data.mfc input output

  Pengelompokan Data setelah

  Data yang belum menggunakan dikelompokan dikelompkan

  K-means berbasis HMM input output

  Data hasil Nilai

  Validasi Hasil pengelompokan disimilaritas

  Nyanian burung ortolan Bunting yang sudah dikelompokan

Gambar 3.1. Alur sistem

  Dalam gambar 3.1 digambarkan bahwa data mentah akan melalui proses ekstraksi ciri terlebih dahulu sebelum diproses lebih lanjut.

  Didalam ekstraksi ciri tersebut data *.wav akan diubah menjadi *.mfc, dimana setiap ekstraksi ciri memiliki parameter yang berbeda. Setelah melalui proses ekstraksi ciri kemudian semua data dikelompokan menggunakan algortima k-means klastering berbasis HMM hingga mencapai suatu kelompok yang tetap dan tidak berubah. Dari data setiap kelompok diuji nilai stabilitasnya agar bisa diketahui seberapa efektifkah

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

3.2. Data Nyanyian Burung Ortolan Bunting

  Burung ortolan bunting berimigrasi dari Eropa barat ke Mongolia (Cramp, Perrins, 1994). Burung ini mempunyai nyanyian (song) yang sederhana dengan 2-3 tipe nyanyian untuk setiap individu.

  Frekuensi nyanyian berkisar antara 1.9 kHz

  • – 6.7 kHz. Nyanyian dari burung ini dideskripsikan dengan istilah syllable, tipe nyanyian, dan varian nyanyian. Secara keseluruhan terdapat 63 tipe nyanyian, 234 varian nyanyian serta 20 syllable.

  Syllable (suku kata) adalah unit minimal nyanyian yang dihasilkan. Sebuah nyanyian dideskripsikan menggunakan notasi huruf seperti aaaabb atau hhhhuff, dimana huruf-huruf tersebut merupakan bagian dari syllable. Tipe nyanyian merupakan kelompok atau group dari nyanyian dengan syllable yang sama dan mempunyai urutan yang sama. Contoh tipe ab (aaabb), tipe kb (kkkkkbb). Varian nyanyian adalah perbedaan jumlah syllable dalam tipe nyanyian yang sama. Contoh tipe nyanyian gb mempunyai varian nyanyian seperti gggb, ggbbbb, gggbb. Pada penulisan tugas akhir ini, akan dilakukan pengelompokan nyanyian burung orolan bunting berdasarkan song-type nyanyian.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 3.2. Syllable burung ortolan buntingGambar 3.2. merupakan kumpulan silabel dari burung Ortolan

  Bunting. Song-type adalah sebuah kumpulan song yang terdiri dari susunan silabel yang sama pada rangkaian yang sama. Sebagai contoh:

  type -ab(aaabb), type-cb(cccbb)

Gambar 3.3. time series dan spectrogram dari tipe nyanyian ab

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 3.3 merupakan contoh time series dan spectogram dari song type nyanyian ab. Data yang digunakan dalam tugas akhir ini

  berjumlah 500 data, yang terdiri dari 5 jenis song-type yaitu ab, cb, cd, eb, dan ef dimana masing-masing song-type terdiri dari 100 data suara.

  Dalam percobaan ini semua data disatukan menjadi sebuah kelompok data yang berjumlah 500 buah.

3.3. Ekstraksi ciri Greenwood merupakan bagian dari rangkaian ekstraksi ciri.

  Greenwood

  membagi suara menjadi beberapa bagian. Greenwood digunakan pada kasus ini karena objek yang dikenakan adalah suara burung yang lebih cepat dari suara manusia.

  Pada tahap feature extraction, data suara mentah yang berupa .wav diekstrak menjadi data suara .mfc. Feature extraction menggunakan 3 jenis tipe parameter yaitu GFCC, delta (GFCC_D) dan delta-delta (GFCC_D_A). Masing-masing tipe parameter mempunyai parameter yang berbeda, untuk GFCC menggunakan parameter 12, GFCC_D menggunakan parameter 24, dan GFCC_D_A menggunakan parameter

  36. Pada sistem ini, dilakukan pemilihan ukuran window (window-sizes) antara 3 ms hingga 6 ms dan overlap antara 1,5 ms hingga 3 ms. Adapun untuk pemilihan jumlah state yaitu 5, 10 dan 15. Pada proses feature

  extraction , mengubah informasi waktu menjadi informasi frekuensi

  melalui Fast Fourier Transform (FFT). Kemudian, informasi frekuensi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  dari proses membuat window agar informasi-informasi setiap bagian lebih spesifik. Ukuran window (window-sizes) kecil karena suara burung lebih cepat. Selanjutnya, diambil magnitudenya setelah proses membuat

  window

  selesai. Kemudian, proses FFT yang akan menghasilkan nilai besaran signal. Nilai tersebut akan dimasukkan pada Greenwood.