Pengenalan Pola Algoritma Decision Tree

hoterosiklik.

2.2.2. Asam Amino

Asam Amino merupakan bagian struktur protein dan menentukan banyak sifatnya yang penting. Gilisin merupakan asam amino pertama yang telah diisolasi dari hidrolisat protein, sedangkan teronin adalah asam amino pembentuk protein yang paling akhir dapat diisolasi, yaitu dari hidrolisat fibrin. Ke-20 macam amino berserta simbol kependekannya yaitu Alamin A, Arginin R, Asparagin N, Asam Aspartat D, Sistein C, Glutamin Q, Asam Glutamat E, Glisin G, Histidin H, Isolesin I, Lesin L, Lisin K, Metionim M, Femilalanim F, Prolin P, Serin S, Treonin T, Triptofan W, Tirosin Y, Valin V Muhamad Wirawadikusma. 1977.

2.3 Pengenalan Pola

Secara umum pengenalan pola pattern recognition adalah ilmu untuk mengklasifikasikan atau menggambarkan sesuatu berdasarkan kuantitatif fitur ciri atau sifat utama dari suatu objek. Pola sendiri adalah suatu entitas yang terdefinisi dan didefinisikan serta dapat diberi nama. Sidik jari adalah suatu contoh pola. Pola biasanya merupakan hasil kumpulan hasil suatu pengukuran atau pemantauan dan bisa dinyatakan dalam notasi vector atau matrik. Putra, 2010. Gambar 2. 2 Mekanisme Pengenalan Pola Pengenalan pola berkaitan dengan menemukan algoritma dan metode atau alat yang bisa membuata implementasi komputer yang digunakan untuk berbagai macam tugas pengenalan yang biasa dilakukan oleh manusia. Tujuan dari mengerjakan apa yang tidak bisa dilakukan oleh manusia seperti membaca barcode, dan membuat proses pembuatan keputusan menjadi otomatis yang mengarah ke pengenalan klasifikasi. Sankar K. Pal and Pabita Mitra. 2004. Pra- pengolahan n Pencarian dan seleksi fitur Algoritma klasifikasi Terdapat tiga tahapan dalam pengenalan pola yaitu yaitu pre-processing, ekstraksi ciri atau seleksi fitur dan klasifikasi. Pre-processing merupakan tahapan awal dalam mengolah data inputan sebelum masuk pada proses klasifiksi. Data pre-processing kemudian masuk pada tahap ekstraksi ciri. Ekstraksi ciri adalah suatu pengambilan ciri atau fitur dari suatu data, dimana nilai yang didapatkan dianalisis untuk proses klasifikasi. Tahap terakhir adalah klasifikasi, data yang sudah diekstrak akan digunakan untuk klasifikasi yang mengevaluasi informasi yang masuk dan menghasilkan keputusan akhir.

2.4 Preprocessing dan Ekstraksi Ciri

Ekstraksi ciri merupakan proses mendapatkan ciri tertentu dari data yang sudah dikumpulkan. Tujuan dari proses ekstraksi ciri ini adalah mencari karakteristik penting yang berguna untuk proses pengenalan dan mengurangi dimesi reduksi dimensi pengukuran ruang sehingga efektif dan algoritma dengan komputasi yang mudah bisa digunakan untuk klasifikasi yang efektif. Gambar 2. 3 Blok diagram Proses Preprocessing dan Ekstraksi Ciri Langkah Pertama untuk mendapatkan ciri dari data sekuen protein adalah tahap pre-processing yaitu mengubah data .fasta yang bertipe String menjadi bertipe numerik dengan memberikan nilai Electron- Ion Interaction Potential EIIP, lalu diproses menggunakan Fast Fourier Transform FFT untuk mengubah data dari numerik menjadi data sinyal dan Linier Predictive Coding LPC mendapatkan ciri dari setiap data.

2.4.1. Electron- Ion Interaction Potential EIIP

EIIP adalah salah satu paremeter asam amino yang digunakan untuk mengubah data sekuen asam amino menjadi sekuen numerik dimana setiap Data Sekuen Protein EIIP FFT LPC asam amino akan diberikan nilai konstanta berdasarkan EIIP value. Perhitungan dalam EIIP value adalah menggunakan energi dari elektron valensi dan dihitung untuk setiap asam amino menggunakan model umum dari pseudopotensial adalah sebagai berikut. W = . 5 Z ∗ . 4πZ ∗ π 2.1 Dimana Z memwakili dari rata-rata nilai equevalensi, dengan rumus dibawah ini: Z ∗ = N ∑ n = Z 2.2 Dimana Z i adalah nomer valensi dari i-komponen atom, n i adalah nomer dari i-komponen atom, m adalah nomer komponen atom di monekul, dan N adalah total nomer atom. Seperti telah menunjukan bahwa perioditas dari EIIP disepanjang sekuen protein berkorelasi dengan biologis protein, terutama dengan interaksi spesifik dengan ligan dan protein lainnya. Branislava Gemovic et al . 2013. Tabel 2. 1EIIP value amino acid Amino Acid 1-Letter code Numerical code EIIP Leucine L 0.0000 Isoluecine I 0.0000 Asparagine N 0.0036 Glycine G 0.0050 Valine V 0.0057 Glutamic Acid E 0.0058 Proline P 0.0198 Histidine H 0.0242 Lysine K 0.0371 Alanine A 0.0373 Tyrosine Y 0.0516 Trytophan W 0.0548 Glutamine Q 0.0761 Methionine M 0.0823 Serine S 0.0829 Cysteine C 0.0829 Threonine T 0.0941 Phenylalanine F 0.0954 Arginine R 0.0956 Aspartic Acid D 0.1263

2.4.2. Fast Fourier Transform FFT

Algoritma Alihragam Fourier Cepat atau Fast Fourier Transform FFT merupakan prosedur penghitungan DFT yang efisien sehingga akan mempercepat proses penghitungan DFT. Bila diterapkan pada kawasan waktu maka algoritma ini disebut juga sebagai FFT penipisan dalam waktu atau decimation-in-time DIT. Penipisan kemudian mengarah pada pengurangan yang signifikan dalam sejumlah perhitungan yang dilakukan pada data kawasan waktu. Persamaanya menjadi : H k = ∑ h n W N , untuk ≤ k ≤ N − N− = 2.3 Dimana faktor � −�2� � akan ditulis sebagai : W N = e − π N ⁄ = cos π N ⁄ − j sin π N ⁄ 2.4 Akhiran n pada Persamaan 2.4 diperluas dari n=0 sampai dengan n=N-1, bersesuaian dengan nilai data h0, h1, h2, h3...hN-1. Runtun bernomor genap adalah h0, h2, h4....hN-2 dan runtun bernomor ganjil adalah h1, h3....hN-1. Kedua runtun berisi N2-titik. Runtun genap dapat ditandakan h2n dengan n=0 sampai n=N2-1, sedangkan runtun ganjil menjadi h2n-1. Kemudian Persamaan selanjutnya dapat ditulis ulang menjadi : H k = ∑ h n W N + ∑ h n − W N + N − ⁄ = N − ⁄ = = ∑ h n W N + W N ∑ h n − W N N − ⁄ = N − ⁄ = , untuk ≤ k ≤ N − 2.5 Selanjutnya dengan menganti � � �� menjadi � �⁄ �� maka persamaan selanjutnya menjadi : Nandra Pradipta. 2011 H k = ∑ h n W N⁄ + W N ∑ h n − W N⁄ N − ⁄ = N − ⁄ = 2.6 Untuk melakukan analisis frekuensi di dalam MATLAB, telah tersedia command “Fast Fourier Transform” FFT sebagai berikut: y = fft x 2.7

2.4.3. Linier Predictive Coding LPC

Analisa Linear Predictive Coding LPC adalah salah satu cara untuk mendapatkan sebuah pendekatan mengenai spektrum bunyi. Prinsip dasar dari pemodelan sinyal dengan menggunakan LPC adalah bahwa pencuplikan sinyal ucapan sn pada waktu ke-n dapat diperkirakan sebagai kombinasi linear dari p cuplikan sinyal ucapan sebelumnya yaitu : s n ≈ a s n − + a s n − + ⋯ + a p s n − p , p � 2.8 Dimana koefisien a 1 , a 2 ,…,a p diasumsikan konstan selama analisi frame suara Novi Aryanto, 2011. Secara umum metode yang digunakan utuk mendapatkan informasi dari ciri yang dinamis biasa disebut dengan delta-feature. Turunan watu dari ciri dapat dihitung dengan beberapa metode, hasil dari perhitungan delta akan ditambahkan ke vector ciri, sehingga menghasilkan vector ciri yang lebih besar. ∆y = y +D − y −D 2.9 Dimana D mewakili jumlah dari frame untuk menutup kedua sisi frame saat ini dan dengan demikian dapat mengontrol window y dengan pembedaan operasi. D diset bernilai 1 atau 2. ∆y adalah koefisien delta yang dihitung dari frame t untuk vektor fitur LPC F.Z. Chelali, etc, 2015. Nilai dari delta akan diturunkan sekali lagi terhadpa waktu menjadi nilai delta delta pada beberapa kasus delta delta disebut dengan koefisien percepatan, kerena nilai tersebut turunan dari kuadrat waktu dari koefisien. ∆∆y = ∆y +D − ∆y −D 2.10 Pengukuran energi merupakan salah satu cara untuk menambah nilai koefisien yang dihitung dari LPC, nilai tersebut merupakan log energy signal. Ini berarti pada setiap frame tredapat nilai energi yang ditambahkan, berikut rumus untuk menghitung nilai energi : E = log ∑ x_windowed − = k; m 2.11 Dimana x_windowed adalah sinyal hasil windowing, k adalah jumlah frame dan m adalah panjang frame Muslim Sidiq, etc, 2015. Analisis LPC pada dasarnya digunakan untuk mendapatkan koefisien LPC yang diperlihatkan pada gambar 2.4. Gambar 2. 4 Blok diagram analisis LPC

2.5 Algoritma Decision Tree

Pohon keputusan decision tree merupakan metode penambangan data meodel klasifikasi. Salah satu metode data mining yang umum digunakan adalah decision tree. Konsep decision tree adalah suatu struktur flowcart yang menyerupain tree pohon, dimana setiap simpul internal menandakan suatu tes pada atribut, setiap cabang mempresentasikan hasil tes dan simpul daun mempresentasikan kelas atau distribusi kelas. Alur pada decision tree di telusuri dari simpul akar ke simpil daun yang memegang prekdisi kelas untuk untuk contoh tersebut. Jiawei Han dan Micheline Kamber. 2006. Sinyal ucap diskret Pembingkian sinyal Frame Penjendelaan Metode Autokorelasi Parameter Keluaran Gambar 2. 5 Contoh Pohon Keputusan Decision tree digunakan untuk kasus-kasus yang menghasilkan output bernilai diskrit. Walaupun banyak variasi model decision tree dengan tingkat kemampuan dan syarat yang berbeda, pada umumnya beberapa ciri khusus yang cocok untuk diterapkan dengan metode decision tree : 1. Data dinyatakan dengan pasangan atribut dan nilainya. 2. Label output data biasanya bernilai diskrit. 3. Data mempunyai missing value. Dalam decision tree setiap atribut ditanyakan disimpul. Jawaban dari atribut ini dinyatakan dalam cabang sampai akhirnya ditemukan kategorijenis dari suatu objek disimpul akhir .Untuk membuat decision tree perlu diperhatikan beberapa syarat berikut : Budi Santoso. 2007 1. Atribut mana yang akan dipilih untuk memisahan objek 2. Urutan atribut mana yang akan dipilih terlebih dahulu 3. Struktur tree 4. Kriteria pemberhentian 5. Pruning Masalah pertama pada decision tree adalah atribut manakah yang digunakan sebagai akar atau root dari tree yang akan dibentuk. Akar yang dimaksud adalah pemisah pertama dari decision tree. Dikenal dengan istilah Bayesian Score yang menilai suatu atribut atau dalam decision tree disebut dengan entropy. Entropy dihitung dengan rumus sebagai berikut: Prabowo, Rahmadya dan Herlawati. Akar Daun Daun Kemungkinan Kejadian Kemungkinan Kejadian caban g 2013 Entropy S = − ∑ p = ∗ log p 2.12 Keterangan : S = Himpunan Kasus n = jumlah partisi atribut S pi = proporsi Si terhadap S Setelah mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka dapat melakukan pengukuran efektoivitas suatu atribut dalam pengklasifikasikan data. Ukuran efektivitas ini yang disebut dengan information gain. Information Gain adalah salah satu alat ukur seleksi atribut yang digunakan untuk memilih data test atribut tiap node pada tree. Atribut dengan information Gain tertinggi dipilih sebagai data test atribut dari suatu node selanjutnya. Rumus untuk information Gain adalah: Kantardzic. 2003 Gain S, A = Entropy S − ∑ |S i | |S| ∗ Entropy S = 2.10 Keterangan : S = Himpunan Kasus A = Fiture n = jumlah partisi atributA │Si│ = proporsi Si terhadap S │S│ = jumlah kasus pada S

2.6 K-Fold Cross Validation