Pengaruh Teknik Seleksi Fitur Terhadap Performa Pengidentifikasi Single Nucleotide Polymorphism Pada Genom Kedelai.
PENGARUH TEKNIK SELEKSI FITUR TERHADAP
PERFORMA PENGIDENTIFIKASI SINGLE NUCLEOTIDE
POLYMORPHISM PADA GENOM KEDELAI
ROSSY NURHASANAH
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis berjudul Pengaruh Teknik Seleksi
Fitur Terhadap Performa Pengidentifikasi Single Nucleotide Polymorphism pada
Genom Kedelai adalah benar karya saya dengan arahan dari komisi pembimbing
dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun.
Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun
tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan
dalam Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Oktober 2015
Rossy Nurhasanah
NRP G651130071
RINGKASAN
ROSSY NURHASANAH. Pengaruh Teknik Seleksi Fitur terhadap Performa
Pengidentifikasi Single Nucleotide Polymorphism pada Genom Kedelai. Dibimbing
oleh WISNU ANANTA KUSUMA dan AGUS BUONO.
Kedelai (Glycine max) merupakan komoditas pangan yang sangat dekat
dengan masyarakat Indonesia. Data dari BPS dan Kementerian Pertanian
menunjukkan bahwa produksi kedelai masih belum dapat memenuhi kebutuhan
dalam negeri sehingga tingkat ketergantungan pada impor masih sangat tinggi,
sementara konsumsi kedelai akan terus meningkat sejalan dengan pertumbuhan
jumlah penduduk. Salah satu usaha peningkatan produksi kedelai adalah melalui
pemuliaan tanaman kedelai berbasis Single Nucleotide Polymorphism atau SNP.
SNP adalah variasi DNA di antara individu pada spesies yang sama. Variasi
ini diketahui dengan melihat adanya perbedaan satu buah basa nukleotida pada
posisi yang sama antara DNA yang dijajarkan. Pada pemuliaan tanaman, SNP
dimanfaatkan dengan mendeteksi keterkaitannya dengan sifat-sifat yang bernilai
ekonomis pada berbagai tanaman pertanian. Tujuannya adalah untuk mendapatkan
varietas unggul yang dapat menghasilkan panen lebih berkualitas dan lebih banyak,
serta tahan terhadap berbagai kondisi lingkungan.
Tantangan utama dalam mengidentifikasi SNP adalah membedakan
polimorfisme genetika yang sebenarnya dengan variasi yang disebabkan oleh error.
Tantangan lainnya adalah membangun model pendeteksi SNP yang dapat
mengatasi ketidakseimbangan data. Karena dari variasi DNA yang ditemukan,
sebagian besarnya adalah variasi yang disebabkan karena error, dan hanya sebagian
kecil saja yang benar-benar merupakan SNP.
Penelitian ini bertujuan mengidentifikasi SNP yang ada pada genom
kedelai dengan menerapkan teknik seleksi fitur Feature Assesment by Sliding
Threshold (FAST) dan Signal to Noise Ratio (SNR). Teknik pemilihan fitur yang
merefleksikan penentuan dimensi dataset merupakan tahap pra-proses yang
dilaporkan dapat dijadikan alternatif dalam mengatasi ketidakseimbangan data.
Data yang digunakan pada penelitian ini merupakan sekuens DNA genom
kedelai dari beberapa jenis kedelai budidaya yang telah dijajarkan dengan sekuens
DNA rujukan, dan telah diekstraksi 24 fitur statistiknya. Proses identifikasi SNP
dilakukan menggunakan Support Vector Machine.
Hasil percobaan menunjukkan bahwa teknik Signal to Noise Ratio mampu
menghasilkan 5 fitur yang menghasilkan performa pengidentifikasi SNP terbaik,
yaitu kualitas maksimum alel minor, kualitas rata-rata alel minor, frekuensi alel
minor, peluang error dan keseimbangan alel. Performa model yang dihasilkan
mampu melampaui model yang menggunakan seluruh fitur yang tersedia dalam hal
sensitivity, G-Mean dan F-Measure. Selain itu, dengan menggunakan seleksi fitur
dapat mengurangi waktu komputasi yang diperlukan dalam membangun model
hingga 3,8 kali.
Kata kunci: Feature selection, imbalance data, Single Nucleotide Polymorphism
SUMMARY
ROSSY NURHASANAH. The Influences of Feature Selection Techniques on the
Performance of Single Nucleotide Polymorphism (SNP) Identification Models of
Soybean Genome. Supervised by WISNU ANANTA KUSUMA and AGUS
BUONO.
Soybean is one of food ingredients most needed by Indonesian people as it is
used in wide variety of food products. Data from Statistics Indonesia and Ministry
of Agriculture show that the supply of soybean in Indonesia depends on a great
extend on imports. Government of Indonesia give a serious concern to increase
productivity of soybean. One of the efforts is developing technology in soybean
breeding to produce good quality seeds. Single Nucleotide Polymorphisms (SNP)
is molecular marker type which can be used in plant breeding.
In this study, we developed a model to identify SNP in soybean genome which
can solve the imbalanced data classification problem, since the characteristics of
SNP dataset is imbalanced between positive and negative class. We focus to observe
the influence of feature selection technique in classifying the imbalanced SNP
dataset. We used Feature Assessment by Sliding Thresholds (FAST) and Signal to
Noise Ratio (SNR) as feature selection techniques. FAST assess each SNP feature
by using Area under ROC Curve (AUC) approach. While SNR evaluate each feature
by calculating the distance between classes.
In the results, SNR selected five most contributed features of 24 available
ones. The features are maximum quality of minor allel, mean quality of minor allel,
frequency of minor allel, error probability and allele balance. Identification of SNP
using selected features yielded performances improvement in terms of F-Measure
and G-Means. Moreover, it could reduce the computational time of identification
process up to 3.8 times. Implementing the selected features in model using
resampling technique also improve its effectiveness and efficiency. Based on model
performance and computation efficiency, this study recommends the application of
using 5 selected features followed by undersampling 1:1 to train a SNP
identification model.
Keyword:
Feature selection, imbalance data, Single Nucleotide Polymorphism
© Hak Cipta Milik IPB, Tahun 2015
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau
menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB
PENGARUH TEKNIK SELEKSI FITUR TERHADAP PERFORMA
PENGIDENTIFIKASI SINGLE NUCLEOTIDE POLYMORPHISM
PADA GENOM KEDELAI
ROSSY NURHASANAH
Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Ilmu Komputer
pada
Program Studi Ilmu Komputer
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015
Penguji Luar Komisi pada Ujian Tesis: Dr Imas Sukaesih Sitanggang, SSi, MKom
Judul Tesis : Pengaruh Teknik Seleksi Fitur terhadap Performa Pengidentifikasi
Single Nucleotide Polymorphism pada Genom Kedelai
Nama
: Rossy Nurhasanah
NIM
: G651130071
Disetujui oleh
Komisi Pembimbing
Dr. Wisnu Ananta Kusuma, ST MT
Ketua
Dr Ir Agus Buono, MSi MKom
Anggota
Diketahui oleh
Ketua Program Studi
Ilmu Komputer
Dekan Sekolah Pascasarjana
Dr Wisnu Ananta Kusuma, ST MT
Dr Ir Dahrul Syah, MScAgr
Tanggal Ujian:
8 Oktober 2015
Tanggal Lulus:
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian ini adalah seleksi fitur dengan judul pengaruh teknik seleksi
fitur terhadap performa model identifikasi single nucleotide polymorphism (SNP)
pada genom kedelai.
Terima kasih penulis ucapkan kepada Bapak Dr. Wisnu Ananta Kusuma, ST
MT selaku ketua komisi pembimbing dan Bapak Dr Agus Buono, MSi MKom
selaku anggota komisi pembimbing dan Ibu Dr Imas Sukaesih Sitanggang, SSi
MKom selaku penguji. Terima kasih juga kepada Bapak Toto Haryanto, SKom MSi
selaku moderator dalam ujian tesis ini juga dosen pada perkuliahan yang telah
banyak memberi masukan dan ilmu kepada penulis. Selain itu, penghargaan penulis
sampaikan kepada Direktorat Jenderal Pendidikan Tinggi (DIKTI) yang telah
memberikan beasiswa melalui program BPPDN Tahun 2013.
Ungkapan terima kasih juga disampaikan kepada ayah, ibu, serta suami
dan putri tercinta, atas segala doa dan dukungannya selama penulis menyusun
karya ilmiah ini.
Terima kasih kepada pengelola pascasarjana, seluruh dosen dan staf
akademik departemen Ilmu Komputer Institut Pertanian Bogor. Terima kasih
kepada teman-teman di Ilmu Komputer khususnya Lailan Sahrina Hasibuan dan
Melly Br Bangun yang telah memberi masukan dan diskusi terkait topik yang
diangkat dalam penelitian ini.
Akhir kata semoga karya ilmiah ini bermanfaat bagi pembaca. Kritik dan
saran sangat penulis harapkan demi kesempurnaan karya ini di kemudian hari.
Bogor, Oktober 2015
Rossy Nurhasanah
DAFTAR ISI
DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
1 PENDAHULUAN
Latar Belakang
Perumusan Masalah
Tujuan Penelitian
Manfaat Penelitian
Ruang Lingkup Penelitian
1
1
3
3
3
3
2 TINJAUAN PUSTAKA
Single Nucleotide Polymorphism (SNP)
Imbalanced Class
Seleksi Fitur
Feature Assessment by Sliding Thresholds (FAST)
Signal to Noise Ratio (SNR)
Support Vector Machine (SVM)
5
5
6
8
9
10
11
3 METODE
Alat Penelitian
Prosedur Penelitian
Pengumpulan data
Pemilihan fitur dengan FAST
Pemilihan fitur dengan SNR
Kombinasi seleksi fitur dengan teknik resampling
Pelatihan dan pengujian model
Evaluasi performa model
14
14
14
15
17
18
19
19
22
4 HASIL DAN PEMBAHASAN
Hasil
Pemilihan fitur dengan FAST
Pemilihan fitur dengan SNR
Pembahasan
Pengaruh teknik seleksi fitur pada pengidentifikasi SNP
Pengaruh kombinasi seleksi fitur dan resampling pada model
pengidentifikasi SNP
Pengujian model dengan dataset lain
25
25
25
26
27
27
5 SIMPULAN DAN SARAN
Simpulan
Saran
34
34
34
DAFTAR PUSTAKA
35
30
32
RIWAYAT HIDUP
38
DAFTAR TABEL
1.
2.
3.
4.
5.
6.
7.
8.
Deskripsi 24 Fitur
Skenario percobaan identifikasi SNP pada genom kedelai
Matriks Konfusi
Hasil seleksi fitur dengan teknik FAST
Hasil seleksi fitur dengan teknik SNR
Fitur-fitur terbaik yang dipilih teknik FAST dan SNR
Fitur-fitur yang digunakan pada setiap model
Perbandingan performa seluruh model dengan berbagai subset fitur
15
20
23
25
26
27
28
28
DAFTAR GAMBAR
1. Visualisasi kandidat SNP dari hasil penjajaran
2. Visualisasi kandidat SNP dari hasil penjajaran
3. Ilustrasi sliding threshold pada FAST
4. Pseudo code metode FAST
5. Penentuan bidang pemisah terbaik dengan margin terbesar
6. Prosedur penelitian
7. Data kandidat SNP dalam bentuk matriks
8. Prosedur seleksi fitur FAST
9. Ilustrasi kurva ROC dan Area under ROC (AUC)
10. Prosedur percobaan pertama
11. Prosedur percobaan kedua
12. Prosedur percobaan ketiga
13. Perbandingan performa model dengan berbagai subset fitur
14. Visualisasi kromosom 16 dengan (a) 24 fitur, (b) 5 fitur SNR.
(c) 5 fitur FAST
15. Performa model 5 fitur tanpa undersampling dan dengan undersampling
16. Performa model dengan 5 fitur dan 24 fitur diikuti undersampling
17. Perbandingan waktu komputasi
18. Pengujian model menggunakan dataset lain
5
7
9
10
11
14
15
17
18
21
22
22
29
30
31
32
32
33
1 PENDAHULUAN
Latar Belakang
Kedelai merupakan komoditas pangan yang sangat dekat dengan masyarakat
Indonesia dan menjadi salah satu target dalam pencapaian swasembada pangan.
Kedelai juga merupakan bahan pangan sumber protein nabati utama bagi
masyarakat dalam upaya meningkatkan kualitas SDM Indonesia. Data dari BPS
dan Kementerian Pertanian menunjukkan bahwa produksi kedelai dalam negeri
masih belum dapat memenuhi kebutuhan domestik sehingga tingkat ketergantungan
pada impor masih sangat tinggi, sementara konsumsi kedelai akan terus meningkat
sejalan dengan pertumbuhan jumlah penduduk (Bappenas 2014).
Berbagai usaha dilakukan pemerintah untuk meningkatkan produksi kedelai.
Salah satunya melalui penguasaan dan pengembangan teknologi untuk menemukan
varietas kedelai unggul yang sesuai dengan agroklimatik Indonesia. Ada berbagai
teknik dalam pengembangan varietas unggul yang dapat dilakukan, di antaranya
adalah dengan memanfaatkan Single Nucleotide Polymorphisms (SNP) sebagai
marka molekuler pada pemuliaan tanaman, yaitu pada proses seleksi selama
persilangan kedelai untuk mendapatkan benih kedelai unggul.
SNP adalah variasi sebuah basa tunggal DNA dalam sebuah populasi individu
dari spesies yang sama (Gupta et al. 2001; Lesk 2005). Namun demikian, tidak
semua variasi dalam sekuen DNA adalah SNP, karena variasi sekuen DNA juga
dapat berasal dari kesalahan perakitan pada proses sequencing yang disebut
sequencing error. Maka tantangan utama dalam mengidentifikasi SNP adalah
membedakan polimorfisme genetika yang sebenarnya yang selanjutnya disebut
dengan SNP positif dengan variasi yang disebabkan oleh sequencing error dan
misalignment yang selanjutnya disebut dengan SNP negatif. Tantangan lainnya
adalah membangun model pendeteksi SNP yang dapat mengatasi
ketidakseimbangan data. Dari variasi DNA yang ditemukan, sebagian besar adalah
variasi yang disebabkan karena sequencing error, dan hanya sebagian kecil saja
yang benar-benar merupakan SNP.
Matukumalli et al. (2006) melakukan pendeteksian SNP berdasarkan 16 fitur
dengan algoritme decision tree. Data yang digunakan berasal dari genom 6 jenis
kedelai dengan rata-rata akurasi mencapai 84,8%. Pemilihan fitur yang relevan
dilakukan dengan pendekatan iteratif, yaitu memilih 10 fitur yang dianggap
berpengaruh pada klasifikasi SNP. Fitur-fitur tersebut kemudian dioptimasi dengan
memodifikasi fitur yang sudah ada dan menambah fitur baru yang meningkatkan
akurasi prediksi.
O'Fallon et al. (2013) membangun model yang disebut SNPSVM dengan
menggunakan sampel exome wanita Kaukasus dari Eropa Timur yang diresequence dengan instrumen Illumina HiSeq 2000. Untuk memperoleh fitur yang
mengarahkan pada sensitivity dan specificity yang tinggi dilakukan dengan
menginisialisasi 3 fitur, selanjutnya menambahkan secara sekuensial fitur baru dan
dihitung dampak fitur tersebut pada performa model. SNPSVM menggunakan 15
fitur dan mencapai akurasi 96,9%.
Istiadi et al. (2015) membangun classifier dalam mengidentifikasi SNP pada
genom kedelai menggunakan algoritme genetic programming (GP). Data yang
2
digunakan adalah data fragmen whole-genome dari penelitian Lam et al. (2010)
yang dijajarkan dengan genom rujukan jenis Williams 82 pada kromosom ke-01.
Hasil terbaik yang diperoleh berupa sensitivity sebesar 92,39% dan specificity
sebesar 86,63%. Namun, dari sisi precision masih diperoleh hasil yang cukup
rendah yaitu sebesar 30,14%. Artinya masih banyak terdapat false positive yang
isebabkan adanya ketidakseimbangan distribusi kelas.
Hasibuan et al. (2015) menggunakan data kandidat SNP yang sama dengan
Istiadi et al. (2015). Data latih yang digunakan adalah kromosom ke-11, sedangkan
data uji adalah kromosom ke-16. Untuk menyeimbangkan data dilakukan
undersampling. Proses klasifikasi dilakukan dengan menggunakan Support Vector
Machine (SVM). Hasil terbaik yang diperoleh adalah model yang dihasilkan
mampu mengidentifikasi 94% dari total SNP positif dengan precision 41%.
Teknik pemilihan fitur yang merefleksikan penentuan dimensi dataset
merupakan tahap pra-proses yang penting dan mempunyai pengaruh yang
signifikan saat mengeksplorasi dataset bioinformatika (Shanab et al. 2012). Selain
itu, teknik seleksi fitur dilaporkan dapat dijadikan alternatif dalam mengatasi
ketidakseimbangan data (Wasikowski dan Chen 2010).
Wasikowski dan Chen (2010) melakukan perbandingan yang sistematik
terhadap 3 tipe penyelesaian persoalan klasifikasi pada data yang tidak seimbang
dan mengevaluasi 7 metrik seleksi fitur menggunakan data sampel kecil. Dari
beberapa skenario eksperimen yang dijalankan pada data kecil tersebut, diketahui
bahwa penggunaan teknik seleksi fitur Signal to Noise Ratio (SNR) tanpa proses
data-sampling dan Feature Assesment by Sliding Thresholds (FAST) adalah
kandidat teknik seleksi fitur terbaik khususnya pada saat memilih jumlah fitur yang
sedikit.
Haury et al. (2011) membandingkan 32 metode seleksi fitur pada 4 dataset
ekspresi gen dengan karakteristik data yang tidak seimbang untuk melihat
kemampuan prediksi, stabilitas dan kemampuan interpretasi yang dihasilkan
dengan menggunakan 5 algoritme klasifikasi yang berbeda, yaitu nearest centroids
(NC), k-nearest neighbors (KNN), SVM, linear discriminant analysis (LDA) dan
Naive Bayes. Dari penelitian tersebut disimpulkan bahwa penggunaan seleksi fitur
mempunyai pengaruh yang signifikan terhadap akurasi dan stabilitas klasifikasi.
Penelitian ini difokuskan untuk melakukan proses seleksi fitur terhadap
dataset genom kedelai. Proses seleksi fitur ini ditujukan untuk mengetahui fiturfitur yang paling berkontribusi terhadap performa pengidentifikasi SNP. Penelitian
ini membandingkan dua teknik seleksi fitur yang direkomendasikan oleh
Wasikowski dan Chen (2010) sebagai kandidat metode penyeleksi fitur terbaik,
yaitu dengan teknik Signal to Noise (SNR) dan teknik Feature Assesment by Sliding
Thresholds (FAST). Tujuan penelitian lainnya adalah untuk mengetahui pengaruh
dari subset fitur terpilih terhadap performa pengidentifikasi SNP dalam mengatasi
permasalahan ketidakseimbangan data. Pengidentifikasian SNP dilakukan dengan
menggunakan pengklasifikasi Support Vector Machine (SVM). Pengaruh tersebut
diukur dengan melakukan evaluasi pada aspek efisiensi dan efektivitas model
berdasarkan beberapa metrik evaluasi.
3
Perumusan Masalah
Tantangan dalam pengidentifikasian SNP berasal dari karakteristik data
kandidat SNP yang tidak seimbang, di mana variasi basa yang disebabkan oleh
error (SNP negatif) jumlahnya sangat jauh melampaui variasi basa yang disebabkan
polimorfisme yang sebenarnya (SNP positif). Teknik yang umum digunakan dalam
mengatasi permasalahan ketidakseimbangan data adalah teknik resampling. Namun
beberapa penelitian terkini menunjukkan bahwa pemilihan fitur juga bisa dijadikan
alternatif dalam menyelesaikan ketidakseimbangan data. Pada penelitian ini
dilakukan pemilihan fitur SNP dengan menggunakan dua teknik yang berbeda yaitu
Signal to Noise Ratio (SNR) dan Feature Assesment by Sliding Thresholds (FAST).
Subset fitur terbaik yang dipilih menggunakan kedua teknik tersebut masingmasing divalidasi dengan menerapkannya pada Support Vector Machine.
Performa dari setiap model dibandingkan untuk mengetahui teknik seleksi fitur
terbaik serta mengetahui pengaruh seleksi fitur terhadap identifikasi SNP.
Selanjutnya dilakukan pula pembandingan terhadap model pengidentifikasi SNP
yang mengkombinasikan teknik seleksi fitur dengan teknik resampling.
Tujuan Penelitian
Tujuan penelitian ini adalah
1. Menemukan fitur-fitur yang paling berkontribusi dalam identifikasi SNP
pada genom kedelai menggunakan teknik Signal to Noise Ratio (SNR) dan
Feature Assesment by Sliding Threshold (FAST).
2. Membandingkan performa model pengidentifikasi SNP pada genom
kedelai yang menggunakan subset fitur yang dipilih oleh teknik SNR
dengan model yang menggunakan fitur yang dipilih oleh teknik FAST.
3. Membandingkan performa model pengidentifikasi SNP pada genom
kedelai dengan teknik seleksi fitur dengan model pengidentifikasi SNP
yang mengkombinasikan teknik seleksi fitur dengan teknik resampling.
Manfaat Penelitian
Manfaat penelitian ini adalah mengetahui fitur-fitur yang paling berkontribusi
pada pengidentifikasian SNP di genom kedelai. Selain itu penelitian ini dapat
mendukung proses validitas SNP yang dihasilkan sehingga dapat dimanfaatkan
pada proses asosiasi SNP. Penelitian ini juga diharapkan dapat menjadi referensi
untuk penelitian terkait.
Ruang Lingkup Penelitian
Ruang lingkup penelitian ini adalah
1. Menurut SNP Calling Pipeline yang digunakan Altmann et al. (2012),
mekanisme identifikasi SNP terdiri atas delapan tahap, yaitu base calling,
quality control, alignment, alignment post processing, quality score
recalibration, variant/genotype calling, penyaringan kandidat SNP dan
klasifikasi SNP. Tujuh tahap awal telah dilakukan dalam penelitian
sebelumnya oleh Istiadi et al. (2014), sehingga pada penelitian ini hanya
4
akan melakukan tahap klasifikasi SNP yang difokuskan pada penggunaan
seleksi fitur pada praprosesnya.
2. Menurut Chan et al. (2012), kedelai memiliki 20 kromosom. Pada
penelitian ini data yang akan digunakan dalam membangun model
pengidentifikasi SNP dibatasi hanya pada kromosom terpendek dari hasil
penjajaran genom kedelai, yaitu kromosom nomor 16 dengan kandidat
SNP sebanyak 1.524.576 data.
5
2 TINJAUAN PUSTAKA
Single Nucleotide Polymorphism (SNP)
Deteksi dan pemanfaatan variasi genetika selalu menjadi bagian integral dari
pemuliaan tanaman. Setelah ditemukannya teknologi Next Generation Sequencing
(NGS), proses resequencing pada berbagai genom tanaman menjadi lebih efisien
dan ekonomis. Ratusan bahkan ribuan genom yang saling berkaitan dapat disekuen
untuk menemukan keragaman genetika pada genom-genom tersebut. Sebagai
dampaknya, identifikasi variasi genetika pada saat ini menjadi sangat efisien dan
lebih teliti, di mana ribuan variasi dapat ditemukan dari suatu populasi yang besar
(Varshney et al. 2009).
Marka molekuler berbasis DNA sangat bermanfaat untuk mengidentifikasi
gen-gen yang mengendalikan sifat-sifat tanaman yang bernilai ekonomis. Salah satu
marka molekuler yang paling banyak diteliti dan dimanfaatkan saat ini adalah SNP.
SNP menjadi variasi genetika yang paling dominan digunakan dalam analisis
genetika dan genomika. Teknologi NGS menghasilkan kuantitas reads yang banyak,
namun dengan kualitas yang rendah. Hal ini menjadi tantangan tersendiri dalam
pendeteksian SNP dengan menggunakan data DNA yang berasal dari hasil
sequencing NGS. Pembedaan variasi yang merupakan SNP dengan variasi yang
disebabkan oleh error pada proses penjajaran atau proses base-calling menjadi
salah satu tantangan utama dalam bidang bioinformatika (O’Fallon et al. 2013).
Visualisasi kandidat SNP dari hasil penjajaran dapat dilihat pada Gambar 1.
Genom
rujukan
Kandidat
SNP
Gambar 1 Visualisasi kandidat SNP dari hasil penjajaran
SNP merupakan bentuk variasi genetika yang jumlahnya paling melimpah
dan merupakan dasar bagi perbedaan fenotipe yang ditemukan di antara individu
(Collins et al. 1997; Jannink et al. 2010; Liao et al. 2012). Setiap individu memiliki
banyak SNP yang bersama-sama membentuk sebuah pola DNA yang unik bagi
individu tersebut. Pada genom manusia, ketika dua genom dibandingkan akan
diperoleh informasi bahwa keduanya 99,9% identik. Namun dengan 3,2 milyar
basepair DNA, setiap orang mengandung sekitar 3,2 juta perbedaan pada
genomnya yang sebagiannya merupakan SNP (Kwok & Chen 2003). Keberadaan
SNP dapat diturunkan dari induk atau dapat berasal dari kesalahan replikasi DNA,
6
modifikasi kimia pada nukleotida atau kerusakan secara fisik disebabkan oleh
ultraviolet atau radiasi ion (Jobling et al. 2004).
Jika SNP ditemukan di dalam sebuah gen, maka gen tersebut memiliki lebih
dari satu alel sehingga keberadaan SNP tersebut dapat mengakibatkan perubahan
fungsional pada DNA, RNA dan protein penyusun asam amino (Mooney 2004).
Namun tidak semua SNP menyebabkan perubahan fungsional dan berdampak pada
fenotipe suatu individu. Mayoritas SNP berada pada 95% wilayah genom noncoding, sehingga DNA diterjemahkan menjadi kodon yang synonymous atau
mengakibatkan substitusi yang tidak menyebabkan dampak berarti pada fungsi
protein (Lesk 2005).
Semenjak manfaat SNP telah dibuktikan pada banyak bidang, penelitian yang
bertujuan untuk menganalisis SNP dan efeknya mendapat banyak perhatian.
Sebagai penanda genetika, SNP dapat digunakan dalam mempelajari pola
pewarisan kromosom dari generasi ke generasi pada berbagai spesies. Di bidang
biomedis, SNP telah dibuktikan sebagai sarana yang baik dalam meneliti faktorfaktor genetika yang terkait dengan penyakit pada manusia (Kwok dan Chen. 2003).
Penelitian ini dilakukan dengan mengidentifikasi SNP yang berkorelasi dengan
efek tertentu pada pasien pengidap suatu penyakit. Sickle-cell anemia adalah contoh
penyakit yang disebabkan oleh SNP, mutasi A menjadi T pada gen β-globin
menyebabkan perubahan pada protein Glu menjadi Val (Lesk 2005). SNP juga
dapat dijadikan sebagai marka molekuler yang memberi informasi pada peneliti di
bidang farmakogenetika tentang efektivitas obat dan reaksi pasien terhadap obat
tertentu.
Di bidang pemuliaan tanaman, SNP telah dimanfaatkan dengan mendeteksi
keterkaitannya dengan sifat-sifat yang bernilai ekonomis pada berbagai tanaman
pertanian. Tujuannya adalah untuk mendapatkan varietas unggul yang dapat
menghasilkan panen lebih berkualitas dan lebih banyak, serta tahan terhadap
berbagai kondisi lingkungan.
Imbalanced Class
Dataset dikatakan memiliki distribusi kelas tidak seimbang jika jumlah
sampel yang merepresentasikan kelas yang penting untuk diamati jauh lebih sedikit
dibandingkan dengan kelas lainnya. Pada penelitian ini menggunakan data kandidat
SNP pada genom kedelai yang seluruhnya berjumlah 39.723.269 data. Dari data
tersebut sebesar 36.631.026 data merupakan kelas SNP negatif dan 2.823.602 data
merupakan SNP positif. Dari jumlah tersebut diketahui bahwa data kelas SNP
negatif jauh lebih besar dari data kelas SNP positif, sehingga distribusi data menjadi
tidak seimbang. Ilustrasi dari perbandingan jumlah SNP negatif dan SNP positif
seperti pada Gambar 2.
7
Gambar 2 Visualisasi kandidat SNP dari hasil penjajaran
Performa algoritme klasifikasi pada umumnya menurun jika menggunakan
dataset yang tidak seimbang, karena algoritme klasifikasi standar dirancang untuk
menggeneralisasi sampel data dan menghasilkan hipotesis yang paling sederhana
dan paling sesuai dengan data. Hipotesis yang dihasilkan pada dataset yang tidak
seimbang biasanya mengklasifikasi hampir seluruh sampel sebagai bagian dari
kelas mayoritas yaitu kelas negatif (Akbani et al. 2004). Sebagian besar algoritme
klasifikasi memiliki performa yang buruk dalam mengidentifikasi data pada kelas
minor. Hal ini disebabkan karena jumlah yang sangat sedikit dari sampel kelas
minor, sehingga classifier cenderung mengabaikannya dan menganggapnya sebagai
derau (López et al. 2013).
Hal lainnya yang perlu diperhatikan dalam persoalan data yang tidak
seimbang adalah penggunaan metrik evaluasi yang umum digunakan dalam
mengukur performa klasifikasi, seperti akurasi. Akurasi tidak sesuai untuk
digunakan sebagai metrik pengukur performa klasifikasi pada data yang tidak
seimbang, karena dapat menghasilkan kesimpulan yang bias yang menguntungkan
kelas mayor.
Solusi yang umum digunakan dalam mengatasi persoalan data yang tidak
seimbang adalah resampling, yaitu dengan menerapkan modifikasi pada dataset
yang tidak seimbang dengan beberapa mekanisme tertentu yang bertujuan untuk
menjadikan distribusi data seimbang. Teknik resampling yang umum digunakan
adalah oversampling dan undersampling. Pada dataset S, oversampling dilakukan
dengan menambahkan sejumlah E data yang merupakan replikasi kelas minor
(Sminor). Dengan penambahan tersebut, jumlah total data dari Sminor bertambah
sebanyak E sehingga dapat memperbaiki keseimbangan distribusi kelas pada S.
Sedangkan undersampling dilakukan dengan memilih sejumlah E data dari kelas
mayor (Smayor) dan menghapus data-data tersebut dari S sehingga S = Sminor +
Smayor – E.
Namun kelemahan undersampling adalah berpotensial menyebabkan
classifier kehilangan konsep yang penting dalam kelas mayor. Adapun kelemahan
pada oversampling adalah dengan menambahkan sejumlah tertentu replikasi data
minor akan mengarahkan pada kondisi overfitting. Pada kondisi overfitting,
walaupun classifier mampu mencapai akurasi yang tinggi pada saat pelatihan, pada
umumnya performa klasifikasi pada data uji adalah rendah. Selain itu, oversampling
juga menambah waktu komputasi seiring bertambahnya data latih (He & Garcia
2009).
Solusi lainnya dalam mengatasi ketidakseimbangan data adalah seleksi fitur.
Seleksi fitur telah menjadi bahan penelitian sejak lama, namun pengaruhnya pada
persoalan data yang tidak seimbang baru diketahui dan banyak menarik minat para
8
peneliti dari bidang machine learning (Wasikowski & Chen 2008). Menurut
Chawla et al. (2004), pemilihan fitur –fitur yang mengarahkan kepada pemisahan
terjauh antara dua kelas dapat menjadi alternatif dalam mengatasi
ketidakseimbangan kelas.
Seleksi Fitur
Seleksi fitur adalah proses pencarian dan pemilihan subset fitur terbaik yang
digunakan untuk membedakan berbagai kelas dan dapat mengurangi kompleksitas
komputasi dari algoritme klasifikasi (Ditzler et al. 2013). Seleksi fitur berbeda
dengan teknik-teknik reduksi dimensi, seperti principle component analysis (PCA).
PCA dapat mengurangi jumlah atribut secara signifikan tanpa kehilangan banyak
informasi dari ruang atribut aslinya. Namun kelemahannya adalah kombinasi linier
dari fitur-fitur aslinya tidak dapat diinterpretasi dan informasi tentang besarnya
kontribusi dari setiap fitur hilang (Janecek et al. 2008).
Tujuan dari seleksi fitur adalah menemukan fitur yang berpengaruh dalam
representasi data dan menghilangkan fitur yang tidak relevan sehingga
menyederhanakan proses klasifikasi dan mempercepat waktu prosesnya dengan
mengurangi dimensi inputnya (Omar et al. 2013). Seleksi fitur dapat meningkatkan
kualitas klasifikasi dalam hal akurasi, karena ada beberapa fitur justru tidak
berpengaruh terhadap klasifikasi, bahkan dalam beberapa kasus mengurangi
performa dari classifier itu sendiri (Kudo & Skalansky 2000). Selain itu seleksi fitur
dapat membantu para ahli untuk fokus meneliti hanya pada subset fitur yang relevan
saja sehingga menghasilkan pengetahuan yang bermanfaat (Al-Shahib et al. 2005).
Sebuah fitur dikatakan relevan terhadap kelas tertentu jika fitur tersebut
mengandung informasi yang penting tentang kelas tersebut. Yu dan Liu (2004)
mengkategorikan fitur ke dalam tiga jenis, yaitu fitur yang sangat relevan, fitur yang
kurang relevan dan fitur yang tidak relevan. Fitur sangat relevan mengindikasikan
bahwa fitur tersebut selalu dibutuhkan dan tidak bisa diabaikan untuk mendapatkan
subset fitur yang optimal. Fitur yang kurang relevan adalah fitur yang tidak selalu
dibutuhkan, tetapi akan diperlukan untuk mencapai subset fitur yang optimal dalam
kondisi tertentu. Adapun fitur yang tidak relevan adalah fitur yang tidak penting
dan tidak dibutuhkan. Subset fitur dikatakan optimal jika mengandung semua fitur
sangat relevan, sebagian fitur yang kurang relevan dan tidak mengandung fitur yang
tidak relevan.
Jika asumsi jumlah subset fitur yang akan digunakan adalah p, dan jumlah
keseluruhan fitur adalah m, dengan p ≤ m, untuk mendapatkan subset terbaik yang
menghasilkan model yang sesuai dengan data, akan ada kombinasi kemungkinan
!
. Misalnya jika terdapat 20 fitur dan subset fitur yang diinginkan
sebanyak
�!
−� !
sebanyak 4 fitur, maka akan ada 4.845 kombinasi kemungkinan subset fitur.
Menurut Saeys et al. (2007), teknik seleksi fitur dapat dibedakan menjadi dua
kategori menurut hubungannya dalam mencari fitur terbaik dengan pembangunan
model klasifikasi, yaitu metode filter dan metode wrapper. Metode filter memilih
fitur dengan menghitung skor relevansi setiap fitur menggunakan properti intristik
pada fitur seperti rataan, standar deviasi dan lainnya. Selanjutnya fitur-fitur dengan
skor yang rendah dihapus. Subset fitur terpilih kemudian menjadi input bagi
algoritme klasifikasi. Keuntungan metode filter adalah memiliki komputasi yang
sederhana dan cepat dan tidak tergantung pada algoritme klasifikasi. Artinya proses
9
seleksi fitur hanya dilakukan sekali, setelah itu subset fitur yang dihasilkan dapat
digunakan pada beberapa classifier yang berbeda. Namun kelemahannya adalah
metode ini mengabaikan keterkaitan antara fitur dan tidak memperhitungkan
interaksi antara fitur dengan classifier. Metode wrapper menanamkan seleksi fitur
pada algoritme klasifikasi. Penyeleksian fitur dimulai dengan mendefinisikan
sebuah prosedur pencarian dan dibangkitkan beberapa subset fitur untuk dievaluasi.
Evaluasi terhadap subset fitur dilakukan dengan melatih dan mengujinya pada
algortime klasifikasi. Metode ini melibatkan interaksi dengan classifer dan
memperhitungkan keterkaitan antara fitur. Namun kelemahannya adalah metode ini
berpotensi mengarahkan pada kondisi overfitting dan fitur-fitur yang dihasilkan
bergantung pada algoritme klasifikasi yang digunakan. Jika metode seleksi fitur
tersebut diterapkan pada classifier yang berbeda maka akan dihasilkan subset fitur
yang berbeda pula. Selain itu, metode ini membutuhkan biaya yang besar jika harus
membangun classifier yang membutuhkan komputasi tinggi.
Feature Assessment by Sliding Thresholds (FAST)
Teknik Feature Assessment by Sliding Thresholds (FAST) diperkenalkan
oleh Wasikowski dan Chen (2008). Kumar dan Bell (2012) melakukan evaluasi
empat teknik seleksi fitur, yaitu Pearson Correlation Coefficient (PCC), Signal-toNoise Ratio (SNR), Feature Assessment by Sliding Threshold (FAST) dan Feature
Assessment by Information Retrieval (FAIR). Subset fitur yang dihasilkan keempat
teknik tersebut divalidasi dengan Support Vector Machine (SVM) menggunakan
berbagai dataset kanker dari NCBI. Dari analisis statistik yang dilakukan
menunjukkan bahwa FAST adalah teknik yang memberi hasil lebih baik dari teknik
seleksi fitur lainnya khususnya dalam menggunakan data yang tidak seimbang.
Teknik FAST melakukan pengujian terhadap setiap fitur dengan
mengklasifikasi seluruh data tidak hanya menggunakan satu nilai tengah dari data,
namun menggunakan beberapa garis pembatas yang selanjutnya disebut threshold.
Beberapa threshold tersebut diperoleh dengan membagi data ke dalam k bagian
(split). Selanjutnya nilai tengah dari setiap split digunakan sebagai sliding threshold.
Ilustrasi sliding threshold dapat dilihat pada Gambar 3.
Gambar 3 Ilustrasi sliding threshold pada FAST
10
Nilai-nilai fitur diklasifikasi menggunakan beberapa sliding threshold. Untuk
setiap fitur dihitung performa klasifikasi pada setiap threshold berdasarkan matriks
konfusi. Dari matriks konfusi dapat dihitung nilai True Positive Rate (TPR) dan
False Positive Rate (FPR) pada setiap threshold. Selanjutnya dapat dibangun
sebuah kurva Receiver Operating Characteristic (ROC) dengan menggunakan FPR
sebagai sumbu x dan TPR sebagai sumbu y. Dari kurva ROC yang dihasilkan dapat
dihitung nilai Area under ROC Curve (AUC), dengan menghitung luas area di
bawah kurva ROC. AUC adalah prediktor yang kuat, khususnya untuk persoalan
klasifikasi data yang tidak seimbang. Berdasarkan nilai AUC pada setiap fitur,
dipilih fitur dengan skor AUC tertinggi yang berarti memiliki kemampuan terbaik
dalam memprediksi dataset.
Skor AUC yang dihasilkan berkisar antara 0,5 dan 1. Jika sebuah fitur tidak
relevan dengan klasifikasi, skornya akan mendekati 0,5, namun jika sebuah fitur
terindikasi memiliki relevansi yang tinggi terhadap klasifikasi maka skornya akan
mendekati 1. Secara umum Wasikowski dan Chen (2008) mendeskripsikan
algoritme FAST dalam pseudo code pada Gambar 4.
K: number of bins
N: number of samples in dataset
M: number of features in dataset
Split = 0 to N with a step size N/K
For i = 1 to M
X is a vector of samples’ values for feature i
Sort X
For j = 1 to K
Bottom = round(Split(j))+1
top = round(Split(j+1))
Mu = mean(X(bottom to top))
Classify X using Mu as threshold
tpr(i, j) = tp/# positive
fpr(i, j) = fp/# negative
Calculate area under ROC by tpr, fpr
Gambar 4 Pseudo code metode FAST
Signal to Noise Ratio (SNR)
Signal to noise ratio (SNR) awalnya merupakan sebuah konsep dalam bidang
teknik elektro. SNR didefinisikan sebagai rasio kekuatan sinyal yang diteliti
dibandingkan dengan kekuatan derau (noise) yang ada pada sinyal. SNR sebagai
koefisien korelasi membandingkan rasio perbedaan antara rata-rata dua kelas
dengan jumlah standar deviasi kedua kelas tersebut. Pada suatu fitur, jika rata-rata
dua kelas pada fitur tersebut berbeda jauh, maka kesempatan suatu sampel untuk
salah dikelaskan akan semakin kecil. Sebaliknya, jika nilai rata-rata kelas pada
suatu fitur hanya sedikit berbeda, maka kemungkinan suatu sampel untuk salah
dikelaskan akan semakin besar.
Masih sedikit penelitian yang menggunakan teknik ini sebagai metrik
penyeleksi fitur. Beberapa peneliti yang menggunakan teknik SNR, di antaranya
adalah Golub et al. (1999) yang mengimplementasikan SNR pada klasifikasi
leukemia dalam menghitung korelasi antara gen dengan pembedaan kelas. SNR
merefleksikan perbedaan antara kedua kelas relatif terhadap standar deviasi kedua
11
kelas tersebut. Semakin besar nilai SNR yang diperoleh mengindikasikan korelasi
yang kuat antara fitur tersebut dengan kemampuannya dalam membedakan kelas.
Atau dengan kata lain fitur dengan nilai SNR yang tinggi merupakan fitur yang
informatif dan dapat dipilih untuk proses klasifikasi (Gunavathi dan Premalatha
2014).
Mishra dan Sahu (2011) menggunakan SNR sebagai penyeleksi fitur dalam
klasifikasi kanker menggunakan dataset Leukimia. Gen-gen pada data microarray
diklasterkan menggunakan teknik k-means clustering kemudian SNR digunakan
untuk memperoleh fitur-fitur dengan ranking tertinggi dari setiap klaster. Fitur yang
diperoleh tersebut divalidasi dengan pengklasifikasi SVM dan k-NN.
Support Vector Machine (SVM)
Support Vector Machine (SVM) merupakan teknik classifier yang relatif baru
dibandingkan dengan teknik lainnya, namun dikenal memiliki performa yang lebih
baik di berbagai bidang aplikasi seperti bioinformatika, pengenalan tulisan tangan,
klasifikasi teks dan lain sebagainya. SVM adalah teknik klasifikasi yang berasal
dari teori statistika (Xuegong 2000). Klasifikasi diterjemahkan sebagai usaha
menemukan garis hyperplane yang memisahkan antara kedua kelas. Tujuan dari
teknik SVM adalah menemukan hyperplane pemisah dengan margin yang
maksimum, harapannya adalah dengan margin yang besar dapat diperoleh
generalisasi classsifier yang lebih baik (Duda et al. 2000).
SVM memiliki karakter yang tidak dimiliki oleh classifier lainnya dalam hal
menentukan hyperplane terbaik yang memisahkan kelas sejauh mungkin, yaitu
berdasarkan titik yang terdekat dengan hyperplane yang disebut support vector
(Cortes dan Vapnik 1995). Gambar 5 menunjukkan pemisahan vektor data latih
menggunakan SVM.
Gambar 5 Penentuan bidang pemisah terbaik dengan margin terbesar
Hyperplane yang optimal diperoleh dengan memaksimumkan margin.
Margin adalah dua kali jarak antara hyperplane dengan support vector. Hyperplane
dinyatakan oleh persamaan .w + = 0, dengan adalah vektor bobot dan adalah
dan dapat dimaksimumkan dengan
bias. Nilai margin di antara kelas adalah
menghitung
|�|
min | |2
(2.1)
12
dengan kendala
.
+
≥
Optimasi hyperplane dapat diselesaikan menggunakan metode Lagrange.
Persamaan 2.1 ditulis kembali ke dalam persamaan Lagrange dengan �� sebagai
variabel Lagrange, menjadi
�
|| || − ∑ � [
, ,� =
=
.
+
− ]
.
Penyelesaian untuk fungsi optimasi tersebut adalah meminimumkan �
terhadap
dan dan memaksimumkan (Cortes & Vapnik 1995). Pada titik
minimum � terhadap dan diperoleh:
� �
.
= → = ∑�
�
�
=
=
→
= ∑�
=
=
Persamaan (2.3) dan (2.4) disubstitusi ke dalam persamaan (2.2) diperoleh
max ∑ � −
=
∑�
=
=
∑∑� �
=
�
=
� ≥
.
.
.
Yang dimaksud support vector adalah sebagian vektor data latih yang
memiliki nilai �� > 0. Support vector terletak pada margin, sehingga nilai dapat
. + = , dengan i adalah indeks support vector.
diperoleh dari persamaan
Metode SVM bukan hanya dapat menyelesaikan masalah klasifikasi secara
linear namun juga dapat menyelesaikan masalah klasifikasi non linear dengan
memasukkan konsep kernel pada ruang data berdimensi tinggi. SVM memberikan
konsep baru bahwa data latih yang tidak dapat dipisahkan secara linear perlu
diberikan toleransi kesalahan klasifikasi untuk mendapatkan hyperplane yang
optimal (Cortes & Vapnik 1995). Variabel ξ� merupakan variabel slack yang
merupakan nilai deviasi vektor data latih terhadap margin, nilai ξ� ≥ 0 (Alpaydin
2010). Konsep ini dikenal dengan soft margin hyperplane. Nilai margin yang
optimal di antara kelas dengan penambahan slack variabel ξ dihitung dengan
�
|| || + � ∑ = �
(2.7)
Parameter � pada persamaan 2.7 merupakan parameter yang mengontrol
toleransi kesalahan klasifikasi pada saat menentukan hyperplane. Jika parameter ini
diatur terlalu kecil, dapat mengakibatkan hyperplane tidak optimal. Jika parameter
ini diatur terlalu besar, dapat diperoleh hyperplane yang optimal, namun waktu
13
komputasi akan meningkat karena terdapat lebih banyak support vector yang
digunakan untuk mencari hyperplane terbaik (Lin et al. 2008).
Fungsi kernel SVM terdiri dari beberapa jenis di antaranya kernel Radial
Basis Function (RBF), kernel Linear, dan kernel Polinomial. RBF merupakan
fungsi kernel yang umum digunakan karena dapat memetakan data ke dimensi baru
yang lebih tinggi, tidak seperti fungsi linear. RBF juga memiliki parameter yang
lebih sedikit dibandingkan dengan fungsi polinomial. Fungsi kernel RBF
dinyatakan dengan
( , ) = exp(−�|| − || ) , � >
.
Parameter � merupakan parameter bebas yang menyatakan pengaruh data latih
terhadap hyperplane.
Menurut Tang et al (2002), SVM lebih handal dalam mengatasi persoalan
data yang tidak seimbang dibandingkan dengan classifier lainnya. Alasannya,
karena SVM hanya menggunakan support vector (SV) dalam membangun model,
dan mayoritas sampel lainnya selain SV yang jauh dari garis pembatas dapat
diabaikan tanpa mengganggu performa klasifikasi. SVM diharapkan tidak
terpengaruh dengan sampel negatif yang posisinya jauh dari garis pembatas
walaupun jumlah sampel negatif tersebut sangat besar. Namun performa SVM
dapat mengalami penurunan dan sensitif terhadap data yang sangat tidak seimbang
di mana jumlah sampel negatif jauh melampaui jumlah sampel positif, sehingga
banyak dilakukan penelitian untuk memperbaiki performa klasifikasi SVM pada
data yang tidak seimbang. SVM juga membutuhkan waktu yang lebih lama pada
dimensi dataset yang besar. Dengan menggunakan teknik seleksi fitur untuk
memilih subset fitur terbaik, diharapkan dapat mengurangi dimensi dataset dan
mengurangi waktu komputasi yang diperlukan oleh SVM dalam melakukan
identifikasi SNP.
14
3 METODE
Alat Penelitian
Alat yang digunakan pada penelitian ini merupakan perangkat keras komputer
yang memiliki spesifikasi processor Intel core i3 3.0 GHz dengan RAM 6GB.
Perangkat lunak yang digunakan adalah Python versi 3.4.3 dan R versi 3.2.2.
Prosedur Penelitian
Prosedur yang dilakukan pada penelitian ini terdiri atas beberapa tahapan
yaitu pengumpulan data, penentuan fitur-fitur yang digunakan, normalisasi data,
pemilihan fitur menggunakan FAST, pemilihan fitur menggunakan SNR,
kombinasi seleksi fitur dengan teknik resampling, pelatihan dan pengujian model,
evaluasi performa model dan pembuatan laporan. Gambar 6 menunjukkan prosedur
penelitian yang dilakukan.
Mulai
Pengumpulan
data
Normalisasi
data
Pemilihan fitur
dengan FAST
Pemilihan fitur
dengan SNR
Subset fitur
terbaik FAST
Subset Fitur
terbaik SNR
Validasi subset
fitur terbaik
Subset Fitur
terbaik
Teknik
Resampling
Pelatihan &
pengujian model
dengan Support
Vector Machine
Evaluasi
performa model
Selesai
Gambar 6 Prosedur penelitian
15
Pengumpulan data
Genom yang menjadi rujukan model pengidentifiksi SNP ini adalah genom
kedelai varietas Williams 82 yang disekuen menggunakan mesin sequencer ABI
3730XL. Dari 955.1 Mb basa hasil sequencing, sebanyak 937.3 Mb berhasil
dipetakan ke dalam 20 kromosom. Data yang digunakan pada penelitian ini adalah
data kandidat SNP genom kedelai hasil penelitian Lam et al. (2010). Keseluruhan
data kandidat SNP kedelai berjumlah 39.723.269 kandidat, yang terdiri dari
36.631.026 SNP negatif dan 2.823.602 SNP positif. Nilai setiap fitur SNP diekstrak
menggunakan library SNPSVM (O’Fallon et al.. 2013) yang telah dimodifikasi
sesuai kebutuhan oleh Istiadi et al. (2015).
Data kandidat SNP dinyatakan dalam matriks berukuran m baris dan n kolom,
yang merepresentasikan m baris jumlah kandidat SNP dan kolom nilai fitur dan
kelas kandidat SNP (kolom ke-1 hingga kolom ke-( −1) adalah fitur, kolom ke-n
adalah kelas). Gambar 7 menunjukkan beberapa contoh kandidat SNP dalam bentuk
matriks.
Gambar 7 Data kandidat SNP dalam bentuk matriks
Seluruh nilai fitur yang digunakan adalah numerik bertipe bilangan real.
Hasibuan et al. (2015) mendeskripsikan 24 jenis fitur yang digunakan pada
penelitian ini seperti tersaji pada Tabel 1.
Tabel 1 Deskripsi 24 Fitur
#1
#2
#3
#4
#5
Nama fitur
Tipe variasi
Deskripsi
Transisi, variasi basa antara purin saja (A ↔ G)
atau pirimidin saja (C ↔ T). Transversi, variasi
basa antara purin dan pirimidin. Nilai fitur transisi
diubah menjadi 0, sedangkan nilai fitur transversi
diubah menjadi 1.
Kualitas maksimum alel
mayor
Kualitas maksimum alel
minor
Alel mayor adalah alel yang paling sering muncul,
alel minor adalah alel kedua yang paling sering
muncul. Fitur ini menyatakan kualitas maksimum
alel mayor dan kualitas maksimum alel minor
pada posisi kandidat SNP.
Rata-rata kualitas alel mayor dan rata-rata kualitas
alel minor pada posisi kandidat SNP
Kualitas rata-rata alel mayor
Kualitas rata-rata alel minor
16
Nama fitur
Deskripsi
#6
#7
Frekuensi alel mayor
Frekuensi alel minor
Banyaknya kemunculan alel mayor dan
banyaknya kemunculan alel minor dibagi
kedalaman penjajaran pada posisi kandidat SNP
#8
Jarak relative
Jarak relatif kandidat SNP ke ujung fragmen
terdekat dibagi dengan panjang fragmen.
#9
#10
Rata-rata kualitas basa
Kedalaman penjajaran
#11
Kualitas pemetaan rata-rata
Rata-rata kualitas basa pasa posisi kandidat SNP
Banyaknya fragmen yang dijajarkan pada posisi
kandidat SNP
Kualitas pemetaan rata-rata
#12
Peluang error
#13
#14
#15
Perulangan dinukleotida (kiri)
Perulangan dinukleotida
(kanan)
Area mismatch
#16
#17
#18
Panjang homopolimer (kiri)
Panjang homopolimer (kanan)
Keragaman nukleotida
#19
#20
Total mismatch pada rujukan
Total mismatch pada fragmen
#21
Keseimbangan alel
#22
Rata-rata kualitas basa
terdekat
Jarak terdekat dengan SNP
lain (kiri)
Jarak terdekat dengan SNP
lain (kanan)
#23
#24
Fragmen-fragmen yang mengandung kandidat
SNP dianggap memiliki distribusi binomial. Fitur
ini menghitung peluang kandidat SNP adalah
homozigot, heterozigot dan error
Banyaknya perulangan dinukleotida pada sebelah
kiri dan kanan genom rujukan di posisi sekitar
kandidat SNP
Rata-rata jumlah kandidat SNP pada setiap
fragmen yang dijajarkan pada posisi kandidat
SNP
Banyaknya homopolimer di kiri dan kanan posisi
kandidat SNP pada genom rujukan
Deviasi basa nukleotida pada genom rujukan pada
daerah 10 bp kanan dan kiri kandidat SNP
Jumlah variasi basa pada fragmen yang memiliki
kandidat SNP dan jumlah variasi basa pada
fragmen yang sama terhadap genom rujukan pada
posisi kandidat SNP
Perbandingan antara fragmen yang mengandung
variasi basa dan kedalaman penjajaran pada posisi
kandidat SNP
Rata-rata kualitas basa yang mengapit posisi
kandidat SNP pada fragmen
Jarak antara kandidat SNP ke kandidat SNP
terdekat lainnya pada posisi kiri dan kanan.
Nilai fitur kandidat SNP memiliki rentang yang berbeda-beda, sehingga
dibutuhkan mekanisme normalisasi untuk mentransformasi nilai-niai fitur ke dalam
rentang yang sama. Teknik normalisasi yang digunakan adalah min-max, yaitu
standarisasi dataset yang digunakan dengan menempatkan data dalam rentang
tertentu, dalam hal ini 0 sampai 1. Tujuannya adalah agar menghasilkan rentang
nilai yang sama. Jika � � adalah nilai minimum fitur A dan
� merupakan
nilai maksimum fitur A, nilai � yang merupakan salah satu nilai pada fitur A
ditransformasi menjadi �′ menggunakan persamaan berikut (Jain & Bhandare,
2011).
17
d' =
[d -
�
� ]*[new_maxa -
max� - min�
new_min� ]
+ new_min�
Pada penelitian ini, normalisasi memetakan nilai d menjadi d’ dalam rentang [0,1],
sehingga nilai new_mina adalah 0 dan new_maxa adalah 1. Sehingga persamaan
normalisasi sebelumnya disederhanakan menjadi persamaan (3.1).
d' =
d- mina
maxa - mina
(3.1)
Pemilihan fitur dengan FAST
Pada penelitian ini setiap fitur dianalisis dengan teknik FAST yang
dikenalkan oleh Wasikowski dan Chen (2010). Prosedur analisis setiap fitur
menggunakan teknik FAST secara umum dijelaskan pada Gambar 8.
Input dataset
kandidat SNP
Sor ting value
setiap single fitur
(X)
Pembagian data
menjadi K bagian
(split 1 s.d split K)
Menghitung nilai r atar ata pada split(i) dan
split(i+1) untuk
dijadikan thr eshold
Klasifikasi X
ber dasar kan
thr esholds
Subset fitur
dengan
skor AUC
ter baik
Hitung skor ar ea
di bawah kur va
ROC (AUC) untuk
setiap fitur
Plot kur va ROC
(TPR vs FPR)
Hitung statistik hasil
klasifikasi (TPR & FPR)
Gambar 8 Prosedur seleksi fitur FAST
Pada setiap fitur, X adalah nilai sampel pada fitur ke-i. Untuk setiap fitur
dilakukan pengurutan X dari nilai yang paling rendah ke nilai yang paling tinggi
(ascending). Nilai yang telah diurutkan dibagi menjadi K bagian (split). Pembagian
ini bertujuan untuk mendapatkan titik-titik yang akan dijadikan sliding threshold.
Titik threshold ditentukan dengan menghitung nilai rata-rata dalam setiap rentang
split. Jumlah threshold yang dihasilkan adalah sebanyak K titik yang akan
digunakan sebagai garis pembatas dalam melakukan analisis. Pada metode FAST
digunakan istilah sliding threshold karena klasifikasinya tidak hanya dalam satu
titik tengah dari data, namun bergeser pada beberapa threshold yang merupakan
titik tengah dari beberapa bagian data.
Setiap nilai fitur diklasifikasi berdasarkan k threshold. Jika nilai fitur kurang
dari nilai threshold maka nilai fitur tersebut dikelaskan sebagai kelas negatif,
sebaliknya jika nilai fitur lebih besar dari threshod, maka nilai fitur tersebut
dikelaskan sebagai kelas positif. Setiap kelas yang diprediksi berdasarkan k
threshold tersebut kemudian dibandingkan dengan kelas aktual dari nilai fitur untu
PERFORMA PENGIDENTIFIKASI SINGLE NUCLEOTIDE
POLYMORPHISM PADA GENOM KEDELAI
ROSSY NURHASANAH
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis berjudul Pengaruh Teknik Seleksi
Fitur Terhadap Performa Pengidentifikasi Single Nucleotide Polymorphism pada
Genom Kedelai adalah benar karya saya dengan arahan dari komisi pembimbing
dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun.
Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun
tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan
dalam Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Oktober 2015
Rossy Nurhasanah
NRP G651130071
RINGKASAN
ROSSY NURHASANAH. Pengaruh Teknik Seleksi Fitur terhadap Performa
Pengidentifikasi Single Nucleotide Polymorphism pada Genom Kedelai. Dibimbing
oleh WISNU ANANTA KUSUMA dan AGUS BUONO.
Kedelai (Glycine max) merupakan komoditas pangan yang sangat dekat
dengan masyarakat Indonesia. Data dari BPS dan Kementerian Pertanian
menunjukkan bahwa produksi kedelai masih belum dapat memenuhi kebutuhan
dalam negeri sehingga tingkat ketergantungan pada impor masih sangat tinggi,
sementara konsumsi kedelai akan terus meningkat sejalan dengan pertumbuhan
jumlah penduduk. Salah satu usaha peningkatan produksi kedelai adalah melalui
pemuliaan tanaman kedelai berbasis Single Nucleotide Polymorphism atau SNP.
SNP adalah variasi DNA di antara individu pada spesies yang sama. Variasi
ini diketahui dengan melihat adanya perbedaan satu buah basa nukleotida pada
posisi yang sama antara DNA yang dijajarkan. Pada pemuliaan tanaman, SNP
dimanfaatkan dengan mendeteksi keterkaitannya dengan sifat-sifat yang bernilai
ekonomis pada berbagai tanaman pertanian. Tujuannya adalah untuk mendapatkan
varietas unggul yang dapat menghasilkan panen lebih berkualitas dan lebih banyak,
serta tahan terhadap berbagai kondisi lingkungan.
Tantangan utama dalam mengidentifikasi SNP adalah membedakan
polimorfisme genetika yang sebenarnya dengan variasi yang disebabkan oleh error.
Tantangan lainnya adalah membangun model pendeteksi SNP yang dapat
mengatasi ketidakseimbangan data. Karena dari variasi DNA yang ditemukan,
sebagian besarnya adalah variasi yang disebabkan karena error, dan hanya sebagian
kecil saja yang benar-benar merupakan SNP.
Penelitian ini bertujuan mengidentifikasi SNP yang ada pada genom
kedelai dengan menerapkan teknik seleksi fitur Feature Assesment by Sliding
Threshold (FAST) dan Signal to Noise Ratio (SNR). Teknik pemilihan fitur yang
merefleksikan penentuan dimensi dataset merupakan tahap pra-proses yang
dilaporkan dapat dijadikan alternatif dalam mengatasi ketidakseimbangan data.
Data yang digunakan pada penelitian ini merupakan sekuens DNA genom
kedelai dari beberapa jenis kedelai budidaya yang telah dijajarkan dengan sekuens
DNA rujukan, dan telah diekstraksi 24 fitur statistiknya. Proses identifikasi SNP
dilakukan menggunakan Support Vector Machine.
Hasil percobaan menunjukkan bahwa teknik Signal to Noise Ratio mampu
menghasilkan 5 fitur yang menghasilkan performa pengidentifikasi SNP terbaik,
yaitu kualitas maksimum alel minor, kualitas rata-rata alel minor, frekuensi alel
minor, peluang error dan keseimbangan alel. Performa model yang dihasilkan
mampu melampaui model yang menggunakan seluruh fitur yang tersedia dalam hal
sensitivity, G-Mean dan F-Measure. Selain itu, dengan menggunakan seleksi fitur
dapat mengurangi waktu komputasi yang diperlukan dalam membangun model
hingga 3,8 kali.
Kata kunci: Feature selection, imbalance data, Single Nucleotide Polymorphism
SUMMARY
ROSSY NURHASANAH. The Influences of Feature Selection Techniques on the
Performance of Single Nucleotide Polymorphism (SNP) Identification Models of
Soybean Genome. Supervised by WISNU ANANTA KUSUMA and AGUS
BUONO.
Soybean is one of food ingredients most needed by Indonesian people as it is
used in wide variety of food products. Data from Statistics Indonesia and Ministry
of Agriculture show that the supply of soybean in Indonesia depends on a great
extend on imports. Government of Indonesia give a serious concern to increase
productivity of soybean. One of the efforts is developing technology in soybean
breeding to produce good quality seeds. Single Nucleotide Polymorphisms (SNP)
is molecular marker type which can be used in plant breeding.
In this study, we developed a model to identify SNP in soybean genome which
can solve the imbalanced data classification problem, since the characteristics of
SNP dataset is imbalanced between positive and negative class. We focus to observe
the influence of feature selection technique in classifying the imbalanced SNP
dataset. We used Feature Assessment by Sliding Thresholds (FAST) and Signal to
Noise Ratio (SNR) as feature selection techniques. FAST assess each SNP feature
by using Area under ROC Curve (AUC) approach. While SNR evaluate each feature
by calculating the distance between classes.
In the results, SNR selected five most contributed features of 24 available
ones. The features are maximum quality of minor allel, mean quality of minor allel,
frequency of minor allel, error probability and allele balance. Identification of SNP
using selected features yielded performances improvement in terms of F-Measure
and G-Means. Moreover, it could reduce the computational time of identification
process up to 3.8 times. Implementing the selected features in model using
resampling technique also improve its effectiveness and efficiency. Based on model
performance and computation efficiency, this study recommends the application of
using 5 selected features followed by undersampling 1:1 to train a SNP
identification model.
Keyword:
Feature selection, imbalance data, Single Nucleotide Polymorphism
© Hak Cipta Milik IPB, Tahun 2015
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau
menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB
PENGARUH TEKNIK SELEKSI FITUR TERHADAP PERFORMA
PENGIDENTIFIKASI SINGLE NUCLEOTIDE POLYMORPHISM
PADA GENOM KEDELAI
ROSSY NURHASANAH
Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Ilmu Komputer
pada
Program Studi Ilmu Komputer
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015
Penguji Luar Komisi pada Ujian Tesis: Dr Imas Sukaesih Sitanggang, SSi, MKom
Judul Tesis : Pengaruh Teknik Seleksi Fitur terhadap Performa Pengidentifikasi
Single Nucleotide Polymorphism pada Genom Kedelai
Nama
: Rossy Nurhasanah
NIM
: G651130071
Disetujui oleh
Komisi Pembimbing
Dr. Wisnu Ananta Kusuma, ST MT
Ketua
Dr Ir Agus Buono, MSi MKom
Anggota
Diketahui oleh
Ketua Program Studi
Ilmu Komputer
Dekan Sekolah Pascasarjana
Dr Wisnu Ananta Kusuma, ST MT
Dr Ir Dahrul Syah, MScAgr
Tanggal Ujian:
8 Oktober 2015
Tanggal Lulus:
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian ini adalah seleksi fitur dengan judul pengaruh teknik seleksi
fitur terhadap performa model identifikasi single nucleotide polymorphism (SNP)
pada genom kedelai.
Terima kasih penulis ucapkan kepada Bapak Dr. Wisnu Ananta Kusuma, ST
MT selaku ketua komisi pembimbing dan Bapak Dr Agus Buono, MSi MKom
selaku anggota komisi pembimbing dan Ibu Dr Imas Sukaesih Sitanggang, SSi
MKom selaku penguji. Terima kasih juga kepada Bapak Toto Haryanto, SKom MSi
selaku moderator dalam ujian tesis ini juga dosen pada perkuliahan yang telah
banyak memberi masukan dan ilmu kepada penulis. Selain itu, penghargaan penulis
sampaikan kepada Direktorat Jenderal Pendidikan Tinggi (DIKTI) yang telah
memberikan beasiswa melalui program BPPDN Tahun 2013.
Ungkapan terima kasih juga disampaikan kepada ayah, ibu, serta suami
dan putri tercinta, atas segala doa dan dukungannya selama penulis menyusun
karya ilmiah ini.
Terima kasih kepada pengelola pascasarjana, seluruh dosen dan staf
akademik departemen Ilmu Komputer Institut Pertanian Bogor. Terima kasih
kepada teman-teman di Ilmu Komputer khususnya Lailan Sahrina Hasibuan dan
Melly Br Bangun yang telah memberi masukan dan diskusi terkait topik yang
diangkat dalam penelitian ini.
Akhir kata semoga karya ilmiah ini bermanfaat bagi pembaca. Kritik dan
saran sangat penulis harapkan demi kesempurnaan karya ini di kemudian hari.
Bogor, Oktober 2015
Rossy Nurhasanah
DAFTAR ISI
DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
1 PENDAHULUAN
Latar Belakang
Perumusan Masalah
Tujuan Penelitian
Manfaat Penelitian
Ruang Lingkup Penelitian
1
1
3
3
3
3
2 TINJAUAN PUSTAKA
Single Nucleotide Polymorphism (SNP)
Imbalanced Class
Seleksi Fitur
Feature Assessment by Sliding Thresholds (FAST)
Signal to Noise Ratio (SNR)
Support Vector Machine (SVM)
5
5
6
8
9
10
11
3 METODE
Alat Penelitian
Prosedur Penelitian
Pengumpulan data
Pemilihan fitur dengan FAST
Pemilihan fitur dengan SNR
Kombinasi seleksi fitur dengan teknik resampling
Pelatihan dan pengujian model
Evaluasi performa model
14
14
14
15
17
18
19
19
22
4 HASIL DAN PEMBAHASAN
Hasil
Pemilihan fitur dengan FAST
Pemilihan fitur dengan SNR
Pembahasan
Pengaruh teknik seleksi fitur pada pengidentifikasi SNP
Pengaruh kombinasi seleksi fitur dan resampling pada model
pengidentifikasi SNP
Pengujian model dengan dataset lain
25
25
25
26
27
27
5 SIMPULAN DAN SARAN
Simpulan
Saran
34
34
34
DAFTAR PUSTAKA
35
30
32
RIWAYAT HIDUP
38
DAFTAR TABEL
1.
2.
3.
4.
5.
6.
7.
8.
Deskripsi 24 Fitur
Skenario percobaan identifikasi SNP pada genom kedelai
Matriks Konfusi
Hasil seleksi fitur dengan teknik FAST
Hasil seleksi fitur dengan teknik SNR
Fitur-fitur terbaik yang dipilih teknik FAST dan SNR
Fitur-fitur yang digunakan pada setiap model
Perbandingan performa seluruh model dengan berbagai subset fitur
15
20
23
25
26
27
28
28
DAFTAR GAMBAR
1. Visualisasi kandidat SNP dari hasil penjajaran
2. Visualisasi kandidat SNP dari hasil penjajaran
3. Ilustrasi sliding threshold pada FAST
4. Pseudo code metode FAST
5. Penentuan bidang pemisah terbaik dengan margin terbesar
6. Prosedur penelitian
7. Data kandidat SNP dalam bentuk matriks
8. Prosedur seleksi fitur FAST
9. Ilustrasi kurva ROC dan Area under ROC (AUC)
10. Prosedur percobaan pertama
11. Prosedur percobaan kedua
12. Prosedur percobaan ketiga
13. Perbandingan performa model dengan berbagai subset fitur
14. Visualisasi kromosom 16 dengan (a) 24 fitur, (b) 5 fitur SNR.
(c) 5 fitur FAST
15. Performa model 5 fitur tanpa undersampling dan dengan undersampling
16. Performa model dengan 5 fitur dan 24 fitur diikuti undersampling
17. Perbandingan waktu komputasi
18. Pengujian model menggunakan dataset lain
5
7
9
10
11
14
15
17
18
21
22
22
29
30
31
32
32
33
1 PENDAHULUAN
Latar Belakang
Kedelai merupakan komoditas pangan yang sangat dekat dengan masyarakat
Indonesia dan menjadi salah satu target dalam pencapaian swasembada pangan.
Kedelai juga merupakan bahan pangan sumber protein nabati utama bagi
masyarakat dalam upaya meningkatkan kualitas SDM Indonesia. Data dari BPS
dan Kementerian Pertanian menunjukkan bahwa produksi kedelai dalam negeri
masih belum dapat memenuhi kebutuhan domestik sehingga tingkat ketergantungan
pada impor masih sangat tinggi, sementara konsumsi kedelai akan terus meningkat
sejalan dengan pertumbuhan jumlah penduduk (Bappenas 2014).
Berbagai usaha dilakukan pemerintah untuk meningkatkan produksi kedelai.
Salah satunya melalui penguasaan dan pengembangan teknologi untuk menemukan
varietas kedelai unggul yang sesuai dengan agroklimatik Indonesia. Ada berbagai
teknik dalam pengembangan varietas unggul yang dapat dilakukan, di antaranya
adalah dengan memanfaatkan Single Nucleotide Polymorphisms (SNP) sebagai
marka molekuler pada pemuliaan tanaman, yaitu pada proses seleksi selama
persilangan kedelai untuk mendapatkan benih kedelai unggul.
SNP adalah variasi sebuah basa tunggal DNA dalam sebuah populasi individu
dari spesies yang sama (Gupta et al. 2001; Lesk 2005). Namun demikian, tidak
semua variasi dalam sekuen DNA adalah SNP, karena variasi sekuen DNA juga
dapat berasal dari kesalahan perakitan pada proses sequencing yang disebut
sequencing error. Maka tantangan utama dalam mengidentifikasi SNP adalah
membedakan polimorfisme genetika yang sebenarnya yang selanjutnya disebut
dengan SNP positif dengan variasi yang disebabkan oleh sequencing error dan
misalignment yang selanjutnya disebut dengan SNP negatif. Tantangan lainnya
adalah membangun model pendeteksi SNP yang dapat mengatasi
ketidakseimbangan data. Dari variasi DNA yang ditemukan, sebagian besar adalah
variasi yang disebabkan karena sequencing error, dan hanya sebagian kecil saja
yang benar-benar merupakan SNP.
Matukumalli et al. (2006) melakukan pendeteksian SNP berdasarkan 16 fitur
dengan algoritme decision tree. Data yang digunakan berasal dari genom 6 jenis
kedelai dengan rata-rata akurasi mencapai 84,8%. Pemilihan fitur yang relevan
dilakukan dengan pendekatan iteratif, yaitu memilih 10 fitur yang dianggap
berpengaruh pada klasifikasi SNP. Fitur-fitur tersebut kemudian dioptimasi dengan
memodifikasi fitur yang sudah ada dan menambah fitur baru yang meningkatkan
akurasi prediksi.
O'Fallon et al. (2013) membangun model yang disebut SNPSVM dengan
menggunakan sampel exome wanita Kaukasus dari Eropa Timur yang diresequence dengan instrumen Illumina HiSeq 2000. Untuk memperoleh fitur yang
mengarahkan pada sensitivity dan specificity yang tinggi dilakukan dengan
menginisialisasi 3 fitur, selanjutnya menambahkan secara sekuensial fitur baru dan
dihitung dampak fitur tersebut pada performa model. SNPSVM menggunakan 15
fitur dan mencapai akurasi 96,9%.
Istiadi et al. (2015) membangun classifier dalam mengidentifikasi SNP pada
genom kedelai menggunakan algoritme genetic programming (GP). Data yang
2
digunakan adalah data fragmen whole-genome dari penelitian Lam et al. (2010)
yang dijajarkan dengan genom rujukan jenis Williams 82 pada kromosom ke-01.
Hasil terbaik yang diperoleh berupa sensitivity sebesar 92,39% dan specificity
sebesar 86,63%. Namun, dari sisi precision masih diperoleh hasil yang cukup
rendah yaitu sebesar 30,14%. Artinya masih banyak terdapat false positive yang
isebabkan adanya ketidakseimbangan distribusi kelas.
Hasibuan et al. (2015) menggunakan data kandidat SNP yang sama dengan
Istiadi et al. (2015). Data latih yang digunakan adalah kromosom ke-11, sedangkan
data uji adalah kromosom ke-16. Untuk menyeimbangkan data dilakukan
undersampling. Proses klasifikasi dilakukan dengan menggunakan Support Vector
Machine (SVM). Hasil terbaik yang diperoleh adalah model yang dihasilkan
mampu mengidentifikasi 94% dari total SNP positif dengan precision 41%.
Teknik pemilihan fitur yang merefleksikan penentuan dimensi dataset
merupakan tahap pra-proses yang penting dan mempunyai pengaruh yang
signifikan saat mengeksplorasi dataset bioinformatika (Shanab et al. 2012). Selain
itu, teknik seleksi fitur dilaporkan dapat dijadikan alternatif dalam mengatasi
ketidakseimbangan data (Wasikowski dan Chen 2010).
Wasikowski dan Chen (2010) melakukan perbandingan yang sistematik
terhadap 3 tipe penyelesaian persoalan klasifikasi pada data yang tidak seimbang
dan mengevaluasi 7 metrik seleksi fitur menggunakan data sampel kecil. Dari
beberapa skenario eksperimen yang dijalankan pada data kecil tersebut, diketahui
bahwa penggunaan teknik seleksi fitur Signal to Noise Ratio (SNR) tanpa proses
data-sampling dan Feature Assesment by Sliding Thresholds (FAST) adalah
kandidat teknik seleksi fitur terbaik khususnya pada saat memilih jumlah fitur yang
sedikit.
Haury et al. (2011) membandingkan 32 metode seleksi fitur pada 4 dataset
ekspresi gen dengan karakteristik data yang tidak seimbang untuk melihat
kemampuan prediksi, stabilitas dan kemampuan interpretasi yang dihasilkan
dengan menggunakan 5 algoritme klasifikasi yang berbeda, yaitu nearest centroids
(NC), k-nearest neighbors (KNN), SVM, linear discriminant analysis (LDA) dan
Naive Bayes. Dari penelitian tersebut disimpulkan bahwa penggunaan seleksi fitur
mempunyai pengaruh yang signifikan terhadap akurasi dan stabilitas klasifikasi.
Penelitian ini difokuskan untuk melakukan proses seleksi fitur terhadap
dataset genom kedelai. Proses seleksi fitur ini ditujukan untuk mengetahui fiturfitur yang paling berkontribusi terhadap performa pengidentifikasi SNP. Penelitian
ini membandingkan dua teknik seleksi fitur yang direkomendasikan oleh
Wasikowski dan Chen (2010) sebagai kandidat metode penyeleksi fitur terbaik,
yaitu dengan teknik Signal to Noise (SNR) dan teknik Feature Assesment by Sliding
Thresholds (FAST). Tujuan penelitian lainnya adalah untuk mengetahui pengaruh
dari subset fitur terpilih terhadap performa pengidentifikasi SNP dalam mengatasi
permasalahan ketidakseimbangan data. Pengidentifikasian SNP dilakukan dengan
menggunakan pengklasifikasi Support Vector Machine (SVM). Pengaruh tersebut
diukur dengan melakukan evaluasi pada aspek efisiensi dan efektivitas model
berdasarkan beberapa metrik evaluasi.
3
Perumusan Masalah
Tantangan dalam pengidentifikasian SNP berasal dari karakteristik data
kandidat SNP yang tidak seimbang, di mana variasi basa yang disebabkan oleh
error (SNP negatif) jumlahnya sangat jauh melampaui variasi basa yang disebabkan
polimorfisme yang sebenarnya (SNP positif). Teknik yang umum digunakan dalam
mengatasi permasalahan ketidakseimbangan data adalah teknik resampling. Namun
beberapa penelitian terkini menunjukkan bahwa pemilihan fitur juga bisa dijadikan
alternatif dalam menyelesaikan ketidakseimbangan data. Pada penelitian ini
dilakukan pemilihan fitur SNP dengan menggunakan dua teknik yang berbeda yaitu
Signal to Noise Ratio (SNR) dan Feature Assesment by Sliding Thresholds (FAST).
Subset fitur terbaik yang dipilih menggunakan kedua teknik tersebut masingmasing divalidasi dengan menerapkannya pada Support Vector Machine.
Performa dari setiap model dibandingkan untuk mengetahui teknik seleksi fitur
terbaik serta mengetahui pengaruh seleksi fitur terhadap identifikasi SNP.
Selanjutnya dilakukan pula pembandingan terhadap model pengidentifikasi SNP
yang mengkombinasikan teknik seleksi fitur dengan teknik resampling.
Tujuan Penelitian
Tujuan penelitian ini adalah
1. Menemukan fitur-fitur yang paling berkontribusi dalam identifikasi SNP
pada genom kedelai menggunakan teknik Signal to Noise Ratio (SNR) dan
Feature Assesment by Sliding Threshold (FAST).
2. Membandingkan performa model pengidentifikasi SNP pada genom
kedelai yang menggunakan subset fitur yang dipilih oleh teknik SNR
dengan model yang menggunakan fitur yang dipilih oleh teknik FAST.
3. Membandingkan performa model pengidentifikasi SNP pada genom
kedelai dengan teknik seleksi fitur dengan model pengidentifikasi SNP
yang mengkombinasikan teknik seleksi fitur dengan teknik resampling.
Manfaat Penelitian
Manfaat penelitian ini adalah mengetahui fitur-fitur yang paling berkontribusi
pada pengidentifikasian SNP di genom kedelai. Selain itu penelitian ini dapat
mendukung proses validitas SNP yang dihasilkan sehingga dapat dimanfaatkan
pada proses asosiasi SNP. Penelitian ini juga diharapkan dapat menjadi referensi
untuk penelitian terkait.
Ruang Lingkup Penelitian
Ruang lingkup penelitian ini adalah
1. Menurut SNP Calling Pipeline yang digunakan Altmann et al. (2012),
mekanisme identifikasi SNP terdiri atas delapan tahap, yaitu base calling,
quality control, alignment, alignment post processing, quality score
recalibration, variant/genotype calling, penyaringan kandidat SNP dan
klasifikasi SNP. Tujuh tahap awal telah dilakukan dalam penelitian
sebelumnya oleh Istiadi et al. (2014), sehingga pada penelitian ini hanya
4
akan melakukan tahap klasifikasi SNP yang difokuskan pada penggunaan
seleksi fitur pada praprosesnya.
2. Menurut Chan et al. (2012), kedelai memiliki 20 kromosom. Pada
penelitian ini data yang akan digunakan dalam membangun model
pengidentifikasi SNP dibatasi hanya pada kromosom terpendek dari hasil
penjajaran genom kedelai, yaitu kromosom nomor 16 dengan kandidat
SNP sebanyak 1.524.576 data.
5
2 TINJAUAN PUSTAKA
Single Nucleotide Polymorphism (SNP)
Deteksi dan pemanfaatan variasi genetika selalu menjadi bagian integral dari
pemuliaan tanaman. Setelah ditemukannya teknologi Next Generation Sequencing
(NGS), proses resequencing pada berbagai genom tanaman menjadi lebih efisien
dan ekonomis. Ratusan bahkan ribuan genom yang saling berkaitan dapat disekuen
untuk menemukan keragaman genetika pada genom-genom tersebut. Sebagai
dampaknya, identifikasi variasi genetika pada saat ini menjadi sangat efisien dan
lebih teliti, di mana ribuan variasi dapat ditemukan dari suatu populasi yang besar
(Varshney et al. 2009).
Marka molekuler berbasis DNA sangat bermanfaat untuk mengidentifikasi
gen-gen yang mengendalikan sifat-sifat tanaman yang bernilai ekonomis. Salah satu
marka molekuler yang paling banyak diteliti dan dimanfaatkan saat ini adalah SNP.
SNP menjadi variasi genetika yang paling dominan digunakan dalam analisis
genetika dan genomika. Teknologi NGS menghasilkan kuantitas reads yang banyak,
namun dengan kualitas yang rendah. Hal ini menjadi tantangan tersendiri dalam
pendeteksian SNP dengan menggunakan data DNA yang berasal dari hasil
sequencing NGS. Pembedaan variasi yang merupakan SNP dengan variasi yang
disebabkan oleh error pada proses penjajaran atau proses base-calling menjadi
salah satu tantangan utama dalam bidang bioinformatika (O’Fallon et al. 2013).
Visualisasi kandidat SNP dari hasil penjajaran dapat dilihat pada Gambar 1.
Genom
rujukan
Kandidat
SNP
Gambar 1 Visualisasi kandidat SNP dari hasil penjajaran
SNP merupakan bentuk variasi genetika yang jumlahnya paling melimpah
dan merupakan dasar bagi perbedaan fenotipe yang ditemukan di antara individu
(Collins et al. 1997; Jannink et al. 2010; Liao et al. 2012). Setiap individu memiliki
banyak SNP yang bersama-sama membentuk sebuah pola DNA yang unik bagi
individu tersebut. Pada genom manusia, ketika dua genom dibandingkan akan
diperoleh informasi bahwa keduanya 99,9% identik. Namun dengan 3,2 milyar
basepair DNA, setiap orang mengandung sekitar 3,2 juta perbedaan pada
genomnya yang sebagiannya merupakan SNP (Kwok & Chen 2003). Keberadaan
SNP dapat diturunkan dari induk atau dapat berasal dari kesalahan replikasi DNA,
6
modifikasi kimia pada nukleotida atau kerusakan secara fisik disebabkan oleh
ultraviolet atau radiasi ion (Jobling et al. 2004).
Jika SNP ditemukan di dalam sebuah gen, maka gen tersebut memiliki lebih
dari satu alel sehingga keberadaan SNP tersebut dapat mengakibatkan perubahan
fungsional pada DNA, RNA dan protein penyusun asam amino (Mooney 2004).
Namun tidak semua SNP menyebabkan perubahan fungsional dan berdampak pada
fenotipe suatu individu. Mayoritas SNP berada pada 95% wilayah genom noncoding, sehingga DNA diterjemahkan menjadi kodon yang synonymous atau
mengakibatkan substitusi yang tidak menyebabkan dampak berarti pada fungsi
protein (Lesk 2005).
Semenjak manfaat SNP telah dibuktikan pada banyak bidang, penelitian yang
bertujuan untuk menganalisis SNP dan efeknya mendapat banyak perhatian.
Sebagai penanda genetika, SNP dapat digunakan dalam mempelajari pola
pewarisan kromosom dari generasi ke generasi pada berbagai spesies. Di bidang
biomedis, SNP telah dibuktikan sebagai sarana yang baik dalam meneliti faktorfaktor genetika yang terkait dengan penyakit pada manusia (Kwok dan Chen. 2003).
Penelitian ini dilakukan dengan mengidentifikasi SNP yang berkorelasi dengan
efek tertentu pada pasien pengidap suatu penyakit. Sickle-cell anemia adalah contoh
penyakit yang disebabkan oleh SNP, mutasi A menjadi T pada gen β-globin
menyebabkan perubahan pada protein Glu menjadi Val (Lesk 2005). SNP juga
dapat dijadikan sebagai marka molekuler yang memberi informasi pada peneliti di
bidang farmakogenetika tentang efektivitas obat dan reaksi pasien terhadap obat
tertentu.
Di bidang pemuliaan tanaman, SNP telah dimanfaatkan dengan mendeteksi
keterkaitannya dengan sifat-sifat yang bernilai ekonomis pada berbagai tanaman
pertanian. Tujuannya adalah untuk mendapatkan varietas unggul yang dapat
menghasilkan panen lebih berkualitas dan lebih banyak, serta tahan terhadap
berbagai kondisi lingkungan.
Imbalanced Class
Dataset dikatakan memiliki distribusi kelas tidak seimbang jika jumlah
sampel yang merepresentasikan kelas yang penting untuk diamati jauh lebih sedikit
dibandingkan dengan kelas lainnya. Pada penelitian ini menggunakan data kandidat
SNP pada genom kedelai yang seluruhnya berjumlah 39.723.269 data. Dari data
tersebut sebesar 36.631.026 data merupakan kelas SNP negatif dan 2.823.602 data
merupakan SNP positif. Dari jumlah tersebut diketahui bahwa data kelas SNP
negatif jauh lebih besar dari data kelas SNP positif, sehingga distribusi data menjadi
tidak seimbang. Ilustrasi dari perbandingan jumlah SNP negatif dan SNP positif
seperti pada Gambar 2.
7
Gambar 2 Visualisasi kandidat SNP dari hasil penjajaran
Performa algoritme klasifikasi pada umumnya menurun jika menggunakan
dataset yang tidak seimbang, karena algoritme klasifikasi standar dirancang untuk
menggeneralisasi sampel data dan menghasilkan hipotesis yang paling sederhana
dan paling sesuai dengan data. Hipotesis yang dihasilkan pada dataset yang tidak
seimbang biasanya mengklasifikasi hampir seluruh sampel sebagai bagian dari
kelas mayoritas yaitu kelas negatif (Akbani et al. 2004). Sebagian besar algoritme
klasifikasi memiliki performa yang buruk dalam mengidentifikasi data pada kelas
minor. Hal ini disebabkan karena jumlah yang sangat sedikit dari sampel kelas
minor, sehingga classifier cenderung mengabaikannya dan menganggapnya sebagai
derau (López et al. 2013).
Hal lainnya yang perlu diperhatikan dalam persoalan data yang tidak
seimbang adalah penggunaan metrik evaluasi yang umum digunakan dalam
mengukur performa klasifikasi, seperti akurasi. Akurasi tidak sesuai untuk
digunakan sebagai metrik pengukur performa klasifikasi pada data yang tidak
seimbang, karena dapat menghasilkan kesimpulan yang bias yang menguntungkan
kelas mayor.
Solusi yang umum digunakan dalam mengatasi persoalan data yang tidak
seimbang adalah resampling, yaitu dengan menerapkan modifikasi pada dataset
yang tidak seimbang dengan beberapa mekanisme tertentu yang bertujuan untuk
menjadikan distribusi data seimbang. Teknik resampling yang umum digunakan
adalah oversampling dan undersampling. Pada dataset S, oversampling dilakukan
dengan menambahkan sejumlah E data yang merupakan replikasi kelas minor
(Sminor). Dengan penambahan tersebut, jumlah total data dari Sminor bertambah
sebanyak E sehingga dapat memperbaiki keseimbangan distribusi kelas pada S.
Sedangkan undersampling dilakukan dengan memilih sejumlah E data dari kelas
mayor (Smayor) dan menghapus data-data tersebut dari S sehingga S = Sminor +
Smayor – E.
Namun kelemahan undersampling adalah berpotensial menyebabkan
classifier kehilangan konsep yang penting dalam kelas mayor. Adapun kelemahan
pada oversampling adalah dengan menambahkan sejumlah tertentu replikasi data
minor akan mengarahkan pada kondisi overfitting. Pada kondisi overfitting,
walaupun classifier mampu mencapai akurasi yang tinggi pada saat pelatihan, pada
umumnya performa klasifikasi pada data uji adalah rendah. Selain itu, oversampling
juga menambah waktu komputasi seiring bertambahnya data latih (He & Garcia
2009).
Solusi lainnya dalam mengatasi ketidakseimbangan data adalah seleksi fitur.
Seleksi fitur telah menjadi bahan penelitian sejak lama, namun pengaruhnya pada
persoalan data yang tidak seimbang baru diketahui dan banyak menarik minat para
8
peneliti dari bidang machine learning (Wasikowski & Chen 2008). Menurut
Chawla et al. (2004), pemilihan fitur –fitur yang mengarahkan kepada pemisahan
terjauh antara dua kelas dapat menjadi alternatif dalam mengatasi
ketidakseimbangan kelas.
Seleksi Fitur
Seleksi fitur adalah proses pencarian dan pemilihan subset fitur terbaik yang
digunakan untuk membedakan berbagai kelas dan dapat mengurangi kompleksitas
komputasi dari algoritme klasifikasi (Ditzler et al. 2013). Seleksi fitur berbeda
dengan teknik-teknik reduksi dimensi, seperti principle component analysis (PCA).
PCA dapat mengurangi jumlah atribut secara signifikan tanpa kehilangan banyak
informasi dari ruang atribut aslinya. Namun kelemahannya adalah kombinasi linier
dari fitur-fitur aslinya tidak dapat diinterpretasi dan informasi tentang besarnya
kontribusi dari setiap fitur hilang (Janecek et al. 2008).
Tujuan dari seleksi fitur adalah menemukan fitur yang berpengaruh dalam
representasi data dan menghilangkan fitur yang tidak relevan sehingga
menyederhanakan proses klasifikasi dan mempercepat waktu prosesnya dengan
mengurangi dimensi inputnya (Omar et al. 2013). Seleksi fitur dapat meningkatkan
kualitas klasifikasi dalam hal akurasi, karena ada beberapa fitur justru tidak
berpengaruh terhadap klasifikasi, bahkan dalam beberapa kasus mengurangi
performa dari classifier itu sendiri (Kudo & Skalansky 2000). Selain itu seleksi fitur
dapat membantu para ahli untuk fokus meneliti hanya pada subset fitur yang relevan
saja sehingga menghasilkan pengetahuan yang bermanfaat (Al-Shahib et al. 2005).
Sebuah fitur dikatakan relevan terhadap kelas tertentu jika fitur tersebut
mengandung informasi yang penting tentang kelas tersebut. Yu dan Liu (2004)
mengkategorikan fitur ke dalam tiga jenis, yaitu fitur yang sangat relevan, fitur yang
kurang relevan dan fitur yang tidak relevan. Fitur sangat relevan mengindikasikan
bahwa fitur tersebut selalu dibutuhkan dan tidak bisa diabaikan untuk mendapatkan
subset fitur yang optimal. Fitur yang kurang relevan adalah fitur yang tidak selalu
dibutuhkan, tetapi akan diperlukan untuk mencapai subset fitur yang optimal dalam
kondisi tertentu. Adapun fitur yang tidak relevan adalah fitur yang tidak penting
dan tidak dibutuhkan. Subset fitur dikatakan optimal jika mengandung semua fitur
sangat relevan, sebagian fitur yang kurang relevan dan tidak mengandung fitur yang
tidak relevan.
Jika asumsi jumlah subset fitur yang akan digunakan adalah p, dan jumlah
keseluruhan fitur adalah m, dengan p ≤ m, untuk mendapatkan subset terbaik yang
menghasilkan model yang sesuai dengan data, akan ada kombinasi kemungkinan
!
. Misalnya jika terdapat 20 fitur dan subset fitur yang diinginkan
sebanyak
�!
−� !
sebanyak 4 fitur, maka akan ada 4.845 kombinasi kemungkinan subset fitur.
Menurut Saeys et al. (2007), teknik seleksi fitur dapat dibedakan menjadi dua
kategori menurut hubungannya dalam mencari fitur terbaik dengan pembangunan
model klasifikasi, yaitu metode filter dan metode wrapper. Metode filter memilih
fitur dengan menghitung skor relevansi setiap fitur menggunakan properti intristik
pada fitur seperti rataan, standar deviasi dan lainnya. Selanjutnya fitur-fitur dengan
skor yang rendah dihapus. Subset fitur terpilih kemudian menjadi input bagi
algoritme klasifikasi. Keuntungan metode filter adalah memiliki komputasi yang
sederhana dan cepat dan tidak tergantung pada algoritme klasifikasi. Artinya proses
9
seleksi fitur hanya dilakukan sekali, setelah itu subset fitur yang dihasilkan dapat
digunakan pada beberapa classifier yang berbeda. Namun kelemahannya adalah
metode ini mengabaikan keterkaitan antara fitur dan tidak memperhitungkan
interaksi antara fitur dengan classifier. Metode wrapper menanamkan seleksi fitur
pada algoritme klasifikasi. Penyeleksian fitur dimulai dengan mendefinisikan
sebuah prosedur pencarian dan dibangkitkan beberapa subset fitur untuk dievaluasi.
Evaluasi terhadap subset fitur dilakukan dengan melatih dan mengujinya pada
algortime klasifikasi. Metode ini melibatkan interaksi dengan classifer dan
memperhitungkan keterkaitan antara fitur. Namun kelemahannya adalah metode ini
berpotensi mengarahkan pada kondisi overfitting dan fitur-fitur yang dihasilkan
bergantung pada algoritme klasifikasi yang digunakan. Jika metode seleksi fitur
tersebut diterapkan pada classifier yang berbeda maka akan dihasilkan subset fitur
yang berbeda pula. Selain itu, metode ini membutuhkan biaya yang besar jika harus
membangun classifier yang membutuhkan komputasi tinggi.
Feature Assessment by Sliding Thresholds (FAST)
Teknik Feature Assessment by Sliding Thresholds (FAST) diperkenalkan
oleh Wasikowski dan Chen (2008). Kumar dan Bell (2012) melakukan evaluasi
empat teknik seleksi fitur, yaitu Pearson Correlation Coefficient (PCC), Signal-toNoise Ratio (SNR), Feature Assessment by Sliding Threshold (FAST) dan Feature
Assessment by Information Retrieval (FAIR). Subset fitur yang dihasilkan keempat
teknik tersebut divalidasi dengan Support Vector Machine (SVM) menggunakan
berbagai dataset kanker dari NCBI. Dari analisis statistik yang dilakukan
menunjukkan bahwa FAST adalah teknik yang memberi hasil lebih baik dari teknik
seleksi fitur lainnya khususnya dalam menggunakan data yang tidak seimbang.
Teknik FAST melakukan pengujian terhadap setiap fitur dengan
mengklasifikasi seluruh data tidak hanya menggunakan satu nilai tengah dari data,
namun menggunakan beberapa garis pembatas yang selanjutnya disebut threshold.
Beberapa threshold tersebut diperoleh dengan membagi data ke dalam k bagian
(split). Selanjutnya nilai tengah dari setiap split digunakan sebagai sliding threshold.
Ilustrasi sliding threshold dapat dilihat pada Gambar 3.
Gambar 3 Ilustrasi sliding threshold pada FAST
10
Nilai-nilai fitur diklasifikasi menggunakan beberapa sliding threshold. Untuk
setiap fitur dihitung performa klasifikasi pada setiap threshold berdasarkan matriks
konfusi. Dari matriks konfusi dapat dihitung nilai True Positive Rate (TPR) dan
False Positive Rate (FPR) pada setiap threshold. Selanjutnya dapat dibangun
sebuah kurva Receiver Operating Characteristic (ROC) dengan menggunakan FPR
sebagai sumbu x dan TPR sebagai sumbu y. Dari kurva ROC yang dihasilkan dapat
dihitung nilai Area under ROC Curve (AUC), dengan menghitung luas area di
bawah kurva ROC. AUC adalah prediktor yang kuat, khususnya untuk persoalan
klasifikasi data yang tidak seimbang. Berdasarkan nilai AUC pada setiap fitur,
dipilih fitur dengan skor AUC tertinggi yang berarti memiliki kemampuan terbaik
dalam memprediksi dataset.
Skor AUC yang dihasilkan berkisar antara 0,5 dan 1. Jika sebuah fitur tidak
relevan dengan klasifikasi, skornya akan mendekati 0,5, namun jika sebuah fitur
terindikasi memiliki relevansi yang tinggi terhadap klasifikasi maka skornya akan
mendekati 1. Secara umum Wasikowski dan Chen (2008) mendeskripsikan
algoritme FAST dalam pseudo code pada Gambar 4.
K: number of bins
N: number of samples in dataset
M: number of features in dataset
Split = 0 to N with a step size N/K
For i = 1 to M
X is a vector of samples’ values for feature i
Sort X
For j = 1 to K
Bottom = round(Split(j))+1
top = round(Split(j+1))
Mu = mean(X(bottom to top))
Classify X using Mu as threshold
tpr(i, j) = tp/# positive
fpr(i, j) = fp/# negative
Calculate area under ROC by tpr, fpr
Gambar 4 Pseudo code metode FAST
Signal to Noise Ratio (SNR)
Signal to noise ratio (SNR) awalnya merupakan sebuah konsep dalam bidang
teknik elektro. SNR didefinisikan sebagai rasio kekuatan sinyal yang diteliti
dibandingkan dengan kekuatan derau (noise) yang ada pada sinyal. SNR sebagai
koefisien korelasi membandingkan rasio perbedaan antara rata-rata dua kelas
dengan jumlah standar deviasi kedua kelas tersebut. Pada suatu fitur, jika rata-rata
dua kelas pada fitur tersebut berbeda jauh, maka kesempatan suatu sampel untuk
salah dikelaskan akan semakin kecil. Sebaliknya, jika nilai rata-rata kelas pada
suatu fitur hanya sedikit berbeda, maka kemungkinan suatu sampel untuk salah
dikelaskan akan semakin besar.
Masih sedikit penelitian yang menggunakan teknik ini sebagai metrik
penyeleksi fitur. Beberapa peneliti yang menggunakan teknik SNR, di antaranya
adalah Golub et al. (1999) yang mengimplementasikan SNR pada klasifikasi
leukemia dalam menghitung korelasi antara gen dengan pembedaan kelas. SNR
merefleksikan perbedaan antara kedua kelas relatif terhadap standar deviasi kedua
11
kelas tersebut. Semakin besar nilai SNR yang diperoleh mengindikasikan korelasi
yang kuat antara fitur tersebut dengan kemampuannya dalam membedakan kelas.
Atau dengan kata lain fitur dengan nilai SNR yang tinggi merupakan fitur yang
informatif dan dapat dipilih untuk proses klasifikasi (Gunavathi dan Premalatha
2014).
Mishra dan Sahu (2011) menggunakan SNR sebagai penyeleksi fitur dalam
klasifikasi kanker menggunakan dataset Leukimia. Gen-gen pada data microarray
diklasterkan menggunakan teknik k-means clustering kemudian SNR digunakan
untuk memperoleh fitur-fitur dengan ranking tertinggi dari setiap klaster. Fitur yang
diperoleh tersebut divalidasi dengan pengklasifikasi SVM dan k-NN.
Support Vector Machine (SVM)
Support Vector Machine (SVM) merupakan teknik classifier yang relatif baru
dibandingkan dengan teknik lainnya, namun dikenal memiliki performa yang lebih
baik di berbagai bidang aplikasi seperti bioinformatika, pengenalan tulisan tangan,
klasifikasi teks dan lain sebagainya. SVM adalah teknik klasifikasi yang berasal
dari teori statistika (Xuegong 2000). Klasifikasi diterjemahkan sebagai usaha
menemukan garis hyperplane yang memisahkan antara kedua kelas. Tujuan dari
teknik SVM adalah menemukan hyperplane pemisah dengan margin yang
maksimum, harapannya adalah dengan margin yang besar dapat diperoleh
generalisasi classsifier yang lebih baik (Duda et al. 2000).
SVM memiliki karakter yang tidak dimiliki oleh classifier lainnya dalam hal
menentukan hyperplane terbaik yang memisahkan kelas sejauh mungkin, yaitu
berdasarkan titik yang terdekat dengan hyperplane yang disebut support vector
(Cortes dan Vapnik 1995). Gambar 5 menunjukkan pemisahan vektor data latih
menggunakan SVM.
Gambar 5 Penentuan bidang pemisah terbaik dengan margin terbesar
Hyperplane yang optimal diperoleh dengan memaksimumkan margin.
Margin adalah dua kali jarak antara hyperplane dengan support vector. Hyperplane
dinyatakan oleh persamaan .w + = 0, dengan adalah vektor bobot dan adalah
dan dapat dimaksimumkan dengan
bias. Nilai margin di antara kelas adalah
menghitung
|�|
min | |2
(2.1)
12
dengan kendala
.
+
≥
Optimasi hyperplane dapat diselesaikan menggunakan metode Lagrange.
Persamaan 2.1 ditulis kembali ke dalam persamaan Lagrange dengan �� sebagai
variabel Lagrange, menjadi
�
|| || − ∑ � [
, ,� =
=
.
+
− ]
.
Penyelesaian untuk fungsi optimasi tersebut adalah meminimumkan �
terhadap
dan dan memaksimumkan (Cortes & Vapnik 1995). Pada titik
minimum � terhadap dan diperoleh:
� �
.
= → = ∑�
�
�
=
=
→
= ∑�
=
=
Persamaan (2.3) dan (2.4) disubstitusi ke dalam persamaan (2.2) diperoleh
max ∑ � −
=
∑�
=
=
∑∑� �
=
�
=
� ≥
.
.
.
Yang dimaksud support vector adalah sebagian vektor data latih yang
memiliki nilai �� > 0. Support vector terletak pada margin, sehingga nilai dapat
. + = , dengan i adalah indeks support vector.
diperoleh dari persamaan
Metode SVM bukan hanya dapat menyelesaikan masalah klasifikasi secara
linear namun juga dapat menyelesaikan masalah klasifikasi non linear dengan
memasukkan konsep kernel pada ruang data berdimensi tinggi. SVM memberikan
konsep baru bahwa data latih yang tidak dapat dipisahkan secara linear perlu
diberikan toleransi kesalahan klasifikasi untuk mendapatkan hyperplane yang
optimal (Cortes & Vapnik 1995). Variabel ξ� merupakan variabel slack yang
merupakan nilai deviasi vektor data latih terhadap margin, nilai ξ� ≥ 0 (Alpaydin
2010). Konsep ini dikenal dengan soft margin hyperplane. Nilai margin yang
optimal di antara kelas dengan penambahan slack variabel ξ dihitung dengan
�
|| || + � ∑ = �
(2.7)
Parameter � pada persamaan 2.7 merupakan parameter yang mengontrol
toleransi kesalahan klasifikasi pada saat menentukan hyperplane. Jika parameter ini
diatur terlalu kecil, dapat mengakibatkan hyperplane tidak optimal. Jika parameter
ini diatur terlalu besar, dapat diperoleh hyperplane yang optimal, namun waktu
13
komputasi akan meningkat karena terdapat lebih banyak support vector yang
digunakan untuk mencari hyperplane terbaik (Lin et al. 2008).
Fungsi kernel SVM terdiri dari beberapa jenis di antaranya kernel Radial
Basis Function (RBF), kernel Linear, dan kernel Polinomial. RBF merupakan
fungsi kernel yang umum digunakan karena dapat memetakan data ke dimensi baru
yang lebih tinggi, tidak seperti fungsi linear. RBF juga memiliki parameter yang
lebih sedikit dibandingkan dengan fungsi polinomial. Fungsi kernel RBF
dinyatakan dengan
( , ) = exp(−�|| − || ) , � >
.
Parameter � merupakan parameter bebas yang menyatakan pengaruh data latih
terhadap hyperplane.
Menurut Tang et al (2002), SVM lebih handal dalam mengatasi persoalan
data yang tidak seimbang dibandingkan dengan classifier lainnya. Alasannya,
karena SVM hanya menggunakan support vector (SV) dalam membangun model,
dan mayoritas sampel lainnya selain SV yang jauh dari garis pembatas dapat
diabaikan tanpa mengganggu performa klasifikasi. SVM diharapkan tidak
terpengaruh dengan sampel negatif yang posisinya jauh dari garis pembatas
walaupun jumlah sampel negatif tersebut sangat besar. Namun performa SVM
dapat mengalami penurunan dan sensitif terhadap data yang sangat tidak seimbang
di mana jumlah sampel negatif jauh melampaui jumlah sampel positif, sehingga
banyak dilakukan penelitian untuk memperbaiki performa klasifikasi SVM pada
data yang tidak seimbang. SVM juga membutuhkan waktu yang lebih lama pada
dimensi dataset yang besar. Dengan menggunakan teknik seleksi fitur untuk
memilih subset fitur terbaik, diharapkan dapat mengurangi dimensi dataset dan
mengurangi waktu komputasi yang diperlukan oleh SVM dalam melakukan
identifikasi SNP.
14
3 METODE
Alat Penelitian
Alat yang digunakan pada penelitian ini merupakan perangkat keras komputer
yang memiliki spesifikasi processor Intel core i3 3.0 GHz dengan RAM 6GB.
Perangkat lunak yang digunakan adalah Python versi 3.4.3 dan R versi 3.2.2.
Prosedur Penelitian
Prosedur yang dilakukan pada penelitian ini terdiri atas beberapa tahapan
yaitu pengumpulan data, penentuan fitur-fitur yang digunakan, normalisasi data,
pemilihan fitur menggunakan FAST, pemilihan fitur menggunakan SNR,
kombinasi seleksi fitur dengan teknik resampling, pelatihan dan pengujian model,
evaluasi performa model dan pembuatan laporan. Gambar 6 menunjukkan prosedur
penelitian yang dilakukan.
Mulai
Pengumpulan
data
Normalisasi
data
Pemilihan fitur
dengan FAST
Pemilihan fitur
dengan SNR
Subset fitur
terbaik FAST
Subset Fitur
terbaik SNR
Validasi subset
fitur terbaik
Subset Fitur
terbaik
Teknik
Resampling
Pelatihan &
pengujian model
dengan Support
Vector Machine
Evaluasi
performa model
Selesai
Gambar 6 Prosedur penelitian
15
Pengumpulan data
Genom yang menjadi rujukan model pengidentifiksi SNP ini adalah genom
kedelai varietas Williams 82 yang disekuen menggunakan mesin sequencer ABI
3730XL. Dari 955.1 Mb basa hasil sequencing, sebanyak 937.3 Mb berhasil
dipetakan ke dalam 20 kromosom. Data yang digunakan pada penelitian ini adalah
data kandidat SNP genom kedelai hasil penelitian Lam et al. (2010). Keseluruhan
data kandidat SNP kedelai berjumlah 39.723.269 kandidat, yang terdiri dari
36.631.026 SNP negatif dan 2.823.602 SNP positif. Nilai setiap fitur SNP diekstrak
menggunakan library SNPSVM (O’Fallon et al.. 2013) yang telah dimodifikasi
sesuai kebutuhan oleh Istiadi et al. (2015).
Data kandidat SNP dinyatakan dalam matriks berukuran m baris dan n kolom,
yang merepresentasikan m baris jumlah kandidat SNP dan kolom nilai fitur dan
kelas kandidat SNP (kolom ke-1 hingga kolom ke-( −1) adalah fitur, kolom ke-n
adalah kelas). Gambar 7 menunjukkan beberapa contoh kandidat SNP dalam bentuk
matriks.
Gambar 7 Data kandidat SNP dalam bentuk matriks
Seluruh nilai fitur yang digunakan adalah numerik bertipe bilangan real.
Hasibuan et al. (2015) mendeskripsikan 24 jenis fitur yang digunakan pada
penelitian ini seperti tersaji pada Tabel 1.
Tabel 1 Deskripsi 24 Fitur
#1
#2
#3
#4
#5
Nama fitur
Tipe variasi
Deskripsi
Transisi, variasi basa antara purin saja (A ↔ G)
atau pirimidin saja (C ↔ T). Transversi, variasi
basa antara purin dan pirimidin. Nilai fitur transisi
diubah menjadi 0, sedangkan nilai fitur transversi
diubah menjadi 1.
Kualitas maksimum alel
mayor
Kualitas maksimum alel
minor
Alel mayor adalah alel yang paling sering muncul,
alel minor adalah alel kedua yang paling sering
muncul. Fitur ini menyatakan kualitas maksimum
alel mayor dan kualitas maksimum alel minor
pada posisi kandidat SNP.
Rata-rata kualitas alel mayor dan rata-rata kualitas
alel minor pada posisi kandidat SNP
Kualitas rata-rata alel mayor
Kualitas rata-rata alel minor
16
Nama fitur
Deskripsi
#6
#7
Frekuensi alel mayor
Frekuensi alel minor
Banyaknya kemunculan alel mayor dan
banyaknya kemunculan alel minor dibagi
kedalaman penjajaran pada posisi kandidat SNP
#8
Jarak relative
Jarak relatif kandidat SNP ke ujung fragmen
terdekat dibagi dengan panjang fragmen.
#9
#10
Rata-rata kualitas basa
Kedalaman penjajaran
#11
Kualitas pemetaan rata-rata
Rata-rata kualitas basa pasa posisi kandidat SNP
Banyaknya fragmen yang dijajarkan pada posisi
kandidat SNP
Kualitas pemetaan rata-rata
#12
Peluang error
#13
#14
#15
Perulangan dinukleotida (kiri)
Perulangan dinukleotida
(kanan)
Area mismatch
#16
#17
#18
Panjang homopolimer (kiri)
Panjang homopolimer (kanan)
Keragaman nukleotida
#19
#20
Total mismatch pada rujukan
Total mismatch pada fragmen
#21
Keseimbangan alel
#22
Rata-rata kualitas basa
terdekat
Jarak terdekat dengan SNP
lain (kiri)
Jarak terdekat dengan SNP
lain (kanan)
#23
#24
Fragmen-fragmen yang mengandung kandidat
SNP dianggap memiliki distribusi binomial. Fitur
ini menghitung peluang kandidat SNP adalah
homozigot, heterozigot dan error
Banyaknya perulangan dinukleotida pada sebelah
kiri dan kanan genom rujukan di posisi sekitar
kandidat SNP
Rata-rata jumlah kandidat SNP pada setiap
fragmen yang dijajarkan pada posisi kandidat
SNP
Banyaknya homopolimer di kiri dan kanan posisi
kandidat SNP pada genom rujukan
Deviasi basa nukleotida pada genom rujukan pada
daerah 10 bp kanan dan kiri kandidat SNP
Jumlah variasi basa pada fragmen yang memiliki
kandidat SNP dan jumlah variasi basa pada
fragmen yang sama terhadap genom rujukan pada
posisi kandidat SNP
Perbandingan antara fragmen yang mengandung
variasi basa dan kedalaman penjajaran pada posisi
kandidat SNP
Rata-rata kualitas basa yang mengapit posisi
kandidat SNP pada fragmen
Jarak antara kandidat SNP ke kandidat SNP
terdekat lainnya pada posisi kiri dan kanan.
Nilai fitur kandidat SNP memiliki rentang yang berbeda-beda, sehingga
dibutuhkan mekanisme normalisasi untuk mentransformasi nilai-niai fitur ke dalam
rentang yang sama. Teknik normalisasi yang digunakan adalah min-max, yaitu
standarisasi dataset yang digunakan dengan menempatkan data dalam rentang
tertentu, dalam hal ini 0 sampai 1. Tujuannya adalah agar menghasilkan rentang
nilai yang sama. Jika � � adalah nilai minimum fitur A dan
� merupakan
nilai maksimum fitur A, nilai � yang merupakan salah satu nilai pada fitur A
ditransformasi menjadi �′ menggunakan persamaan berikut (Jain & Bhandare,
2011).
17
d' =
[d -
�
� ]*[new_maxa -
max� - min�
new_min� ]
+ new_min�
Pada penelitian ini, normalisasi memetakan nilai d menjadi d’ dalam rentang [0,1],
sehingga nilai new_mina adalah 0 dan new_maxa adalah 1. Sehingga persamaan
normalisasi sebelumnya disederhanakan menjadi persamaan (3.1).
d' =
d- mina
maxa - mina
(3.1)
Pemilihan fitur dengan FAST
Pada penelitian ini setiap fitur dianalisis dengan teknik FAST yang
dikenalkan oleh Wasikowski dan Chen (2010). Prosedur analisis setiap fitur
menggunakan teknik FAST secara umum dijelaskan pada Gambar 8.
Input dataset
kandidat SNP
Sor ting value
setiap single fitur
(X)
Pembagian data
menjadi K bagian
(split 1 s.d split K)
Menghitung nilai r atar ata pada split(i) dan
split(i+1) untuk
dijadikan thr eshold
Klasifikasi X
ber dasar kan
thr esholds
Subset fitur
dengan
skor AUC
ter baik
Hitung skor ar ea
di bawah kur va
ROC (AUC) untuk
setiap fitur
Plot kur va ROC
(TPR vs FPR)
Hitung statistik hasil
klasifikasi (TPR & FPR)
Gambar 8 Prosedur seleksi fitur FAST
Pada setiap fitur, X adalah nilai sampel pada fitur ke-i. Untuk setiap fitur
dilakukan pengurutan X dari nilai yang paling rendah ke nilai yang paling tinggi
(ascending). Nilai yang telah diurutkan dibagi menjadi K bagian (split). Pembagian
ini bertujuan untuk mendapatkan titik-titik yang akan dijadikan sliding threshold.
Titik threshold ditentukan dengan menghitung nilai rata-rata dalam setiap rentang
split. Jumlah threshold yang dihasilkan adalah sebanyak K titik yang akan
digunakan sebagai garis pembatas dalam melakukan analisis. Pada metode FAST
digunakan istilah sliding threshold karena klasifikasinya tidak hanya dalam satu
titik tengah dari data, namun bergeser pada beberapa threshold yang merupakan
titik tengah dari beberapa bagian data.
Setiap nilai fitur diklasifikasi berdasarkan k threshold. Jika nilai fitur kurang
dari nilai threshold maka nilai fitur tersebut dikelaskan sebagai kelas negatif,
sebaliknya jika nilai fitur lebih besar dari threshod, maka nilai fitur tersebut
dikelaskan sebagai kelas positif. Setiap kelas yang diprediksi berdasarkan k
threshold tersebut kemudian dibandingkan dengan kelas aktual dari nilai fitur untu