K-Fold Cross Validation LANDASAN TEORI

2013 Entropy S = − ∑ p = ∗ log p 2.12 Keterangan : S = Himpunan Kasus n = jumlah partisi atribut S pi = proporsi Si terhadap S Setelah mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka dapat melakukan pengukuran efektoivitas suatu atribut dalam pengklasifikasikan data. Ukuran efektivitas ini yang disebut dengan information gain. Information Gain adalah salah satu alat ukur seleksi atribut yang digunakan untuk memilih data test atribut tiap node pada tree. Atribut dengan information Gain tertinggi dipilih sebagai data test atribut dari suatu node selanjutnya. Rumus untuk information Gain adalah: Kantardzic. 2003 Gain S, A = Entropy S − ∑ |S i | |S| ∗ Entropy S = 2.10 Keterangan : S = Himpunan Kasus A = Fiture n = jumlah partisi atributA │Si│ = proporsi Si terhadap S │S│ = jumlah kasus pada S

2.6 K-Fold Cross Validation

Cross validation adalah metode statistic yang mengevaluasi dan membandingkan algoritma pembelajaran dengn membagi data menjadi dua yaitu data training dan data testing. Bentuk dari cross validation adalah k-fold cross validation. Payam R., Lie Tang dan Huan Liu. 2008. Metode k-fold cross validation yang sering dipakai adalah 3-fold cross validation dan 5-fold cross validation. Dalam cross validation, tentukan nilai folds atau partisi untuk data. Prinsip dari k-fold cross validation adalah membagi tiap kelompok data menjadi k bagian kelompok data yang selanjutnya, data tersebut secara bergantian akan digunakan untuk training dan testing sejumlah k pengujian. Tabel 2. 2 3-Fold cross validation Training Testing 2,3 1 1,3 2 1,2 3 Misalkan untuk 3-fold cross validation data dibagi menjadi 3 bagian. Setiap bagian yang akan digunakan unruk training dan testing secara bergantian. Dua dari tiga bagian data digunakan untuk training maka bagian data ketiga digunakan untuk testing Ian H., Frank Eibe, Mark A. Hall . 2010. Jika bagian data pertama dan kedua digunakan untuk training maka data kedua digunakan untuk testing. Jiaka bagian data kedua dan ketiga yang digunakan untuk training maka bagian data pertama yang digunakan untuk testing. 19

BAB III METODOLOGI

Bab metodologi ini berisi gambaran proses yang akan dilakukan dalam penilitian dan penjelasan cara kerja sistem, serta data sekuen protein yang digunakan dalam penilitian.

3.1 Data

Dalam penelitian ini, data yang digunakan untuk klasifikasi kanker paru- paru dan kanker payudara dengan algoritma decision tree adalah data sekuen protein yang berupa sekumpulan asam amino. Data sekuen protein diperoleh dari salah satu bank protein dunia yaitu Uniprot.org dan NCBI. Data sekuen protein yang digunakan berformat .fasta. Sekuen protein yang terdiri dari sekumpulan asam amino. Asam amino memiliki 20 macam yaitu Alamin A, Arginin R, Asparagin N, Asam Aspartat D, Sistein C, Glutamin Q, Asam Glutamat E, Glisin G, Histidin H, Isolesin I, Lesin L, Lisin K, Metionim M, Femilalanim F, Prolin P, Serin S, Treonin T, Triptofan W, Tirosin Y, Valin V. Data sekuen protein yang digunakan bertipe String dengan panjang sekuen yang beda-beda pada setiap data. Data sekuen protein yang digunakan dipre-processing dan diekstraksi ciri terlebih dahulu sebelum digunakan dalam proses klasifikasi dengan algoritma decision tree. Tahap pertama dilakukan adalah pre-prosesing yaitu dengan mentrasformasikan data asam amino yang bertipe String menjadi numerik menggunakan EIIP based protein value tahap kedua adalah ektraksi ciri yaitu mengubah data bertipe numeric yang berupa time based menjadi sinyal frequency based mengunakan FFT dan tahap yang terakhir ekstraksi ciri menggunakan LPC dan turunan LPC dengan order 8 dan 12 untuk mendapatkan ciri dari setiap data. Data yang telah diekstraksi ciri selanjutnya