2013 Entropy S = − ∑
p
=
∗ log p 2.12
Keterangan : S = Himpunan Kasus
n = jumlah partisi atribut S pi = proporsi Si terhadap S
Setelah mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka dapat melakukan pengukuran efektoivitas suatu atribut dalam pengklasifikasikan
data. Ukuran efektivitas ini yang disebut dengan information gain. Information Gain adalah salah satu alat ukur seleksi atribut yang digunakan untuk memilih
data test atribut tiap node pada tree. Atribut dengan information Gain tertinggi dipilih sebagai data test atribut dari suatu node selanjutnya. Rumus untuk
information Gain adalah: Kantardzic. 2003 Gain S, A = Entropy S − ∑
|S
i
| |S|
∗ Entropy S
=
2.10 Keterangan :
S = Himpunan Kasus A = Fiture
n = jumlah partisi atributA │Si│
= proporsi Si terhadap S │S│
= jumlah kasus pada S
2.6 K-Fold Cross Validation
Cross validation adalah metode statistic yang mengevaluasi dan membandingkan algoritma pembelajaran dengn membagi data menjadi dua yaitu
data training dan data testing. Bentuk dari cross validation adalah k-fold cross validation. Payam R., Lie Tang dan Huan Liu. 2008. Metode k-fold cross
validation yang sering dipakai adalah 3-fold cross validation dan 5-fold cross validation. Dalam cross validation, tentukan nilai folds atau partisi untuk data.
Prinsip dari k-fold cross validation adalah membagi tiap kelompok data menjadi k
bagian kelompok data yang selanjutnya, data tersebut secara bergantian akan digunakan untuk training dan testing sejumlah k pengujian.
Tabel 2. 2 3-Fold cross validation
Training Testing
2,3 1
1,3 2
1,2 3
Misalkan untuk 3-fold cross validation data dibagi menjadi 3 bagian. Setiap bagian yang akan digunakan unruk training dan testing secara bergantian. Dua
dari tiga bagian data digunakan untuk training maka bagian data ketiga digunakan untuk testing Ian H., Frank Eibe, Mark A. Hall . 2010. Jika bagian data pertama
dan kedua digunakan untuk training maka data kedua digunakan untuk testing. Jiaka bagian data kedua dan ketiga yang digunakan untuk training maka bagian
data pertama yang digunakan untuk testing.
19
BAB III METODOLOGI
Bab metodologi ini berisi gambaran proses yang akan dilakukan dalam penilitian dan penjelasan cara kerja sistem, serta data sekuen protein yang
digunakan dalam penilitian.
3.1 Data
Dalam penelitian ini, data yang digunakan untuk klasifikasi kanker paru- paru dan kanker payudara dengan algoritma decision tree adalah data sekuen
protein yang berupa sekumpulan asam amino. Data sekuen protein diperoleh dari salah satu bank protein dunia yaitu Uniprot.org dan NCBI. Data sekuen
protein yang digunakan berformat .fasta. Sekuen protein yang terdiri dari sekumpulan asam amino. Asam amino memiliki 20 macam yaitu Alamin A,
Arginin R, Asparagin N, Asam Aspartat D, Sistein C, Glutamin Q, Asam Glutamat E, Glisin G, Histidin H, Isolesin I, Lesin L, Lisin K,
Metionim M, Femilalanim F, Prolin P, Serin S, Treonin T, Triptofan W, Tirosin Y, Valin V. Data sekuen protein yang digunakan bertipe
String dengan panjang sekuen yang beda-beda pada setiap data. Data sekuen protein yang digunakan dipre-processing dan diekstraksi ciri
terlebih dahulu sebelum digunakan dalam proses klasifikasi dengan algoritma decision tree. Tahap pertama dilakukan adalah pre-prosesing yaitu dengan
mentrasformasikan data asam amino yang bertipe String menjadi numerik menggunakan EIIP based protein value tahap kedua adalah ektraksi ciri yaitu
mengubah data bertipe numeric yang berupa time based menjadi sinyal frequency based mengunakan FFT dan tahap yang terakhir ekstraksi ciri
menggunakan LPC dan turunan LPC dengan order 8 dan 12 untuk mendapatkan ciri dari setiap data. Data yang telah diekstraksi ciri selanjutnya