DETEKSI DINI PENYAKIT KANKER LEHER RAHIM DI KOTA BOGOR MENGUNAKAN REGRESI LOGISTIK BINER DAN SUPPORT VECTOR MACHINE (SVM) - ITS Repository

  TUGAS AKHIR – SS 141501

DETEKSI DINI PENYAKIT KANKER LEHER RAHIM (SERVIKS)

DI KOTA BOGOR MENGUNAKAN REGRESI LOGISTIK BINER

DAN SUPPORT VECT OR MACHINE (SVM) AGIL DARMAWAN NRP 1308 100 084 Dosen Pembimbing Sant i Wulan Purnami, M. Si. , Ph. D JURUSAN STATISTIKA Fakult as Mat emat ika dan Il mu Penget ahuan Alam Inst it ut Teknologi Sepul uh Nopember

  TUGAS AKHIR – SS 141501 DETEKSI DINI PENYAKIT KANKER LEHER RAHIM (SERVIKS)

DI KOTA BOGOR MENGUNAKAN REGRESI LOGISTIK BINER DAN

  SUPPORT VECT OR MACHINE (SVM) AGIL DARMAWAN NRP 1308 100 084 Dosen Pembimbing Santi Wulan Purnami, M. Si. , Ph. D JURUSAN STATISTIKA Fakultas Matematika dan Ilmu Pengetahuan Alam

  N JUDUL FINAL PROJECT

  • – SS141501

  

EARLY DETECTION OF CERVIXAL CANCER IN BOGOR

USING BINARY LOGISTIC REGRESSION AND SUPPORT

VECTOR MACHINE (SVM)

  Agil Darmawan NRP 1308 100 084 Supervisor Santi Wulan Purnami, M.Si., Ph.D DEPARTMENT OF STATISTICS Faculty Of Mathematics And Natural Sciences Institut Teknologi Sepuluh Nopember

  

DETEKSI DINI PENYAKIT KANKER LEHER RAHIM

DI KOTA BOGOR MENGUNAKAN REGRESI LOGISTIK

BINER DAN SUPPORT VECTOR MACHINE (SVM)

Nama : Agil Darmawan

  NRP : 1308 100 084 Jurusan : Statistika FMIPA-ITS

Dosen Pembimbing : Santi Wulan P.,M.Si.,Ph.D.

  

ABSTRAK

Negara-negara berkembang menyumbang 370.000 dari total

466.000 kasus serviks kanker yang diperkirakan terjadi di dunia dalam

tahun 2000. Sebagian besar kasus kanker serviks disebabkan oleh

infeksi Human Papilloma Virus (HPV). Kanker serviks tidak akan

terdiagnosa secara langsung karena ada fase pra-ganas selama beberapa

tahun, maka dibutuhkan deteksi dini untuk mencegah munculnya fase

ganas pada kanker serviks. Untuk melakukan deteksi dini tersebut

digunakan metode klasifikasi Support Vector Machine (SVM) yang

akan dibandingkan dengan Regresi Logistik Biner. Selain untuk melihat

ketepatan klasifikasi Regresi Logistik Biner juga digunakan untuk

mengetahui variabel predictor yang paling berpengaruh terhadap

respon. Dalam penelitian ini, data diambil dari Studi Kohort Faktor

Risiko Penyakit Tidak Menular di Kota Bogor. Variabel prediktor yang

digunakan adalah sebanyak 13 variabel. Faktor resiko yang

berpengaruh signifikan pada taraf signifikasi 90% (=0,1) terhadap

Kanker Serviks pada Analisis Regresi Logistik Biner adalah Lama

penggunaan kontrasepsi, Riwayat Keluarga dan Tes Pap Smear.

Performansi klasifikasi menggunakan SVM pada semua kombinasi baik

90:10, 70:30, dam 50:50 adalah sebesar 100%, sedangkan nilai

specificity semua 0%. Akurasi klasifikasi menggunakan Logistik Biner

tertinggi adalah kombinasi 90:10 sebesar 100%, kombinasi 70:30

sebesar 87,7%, sedangkan kombinasi 50:50 sebesar 55,5%..

  Kata kunci : kanker serviks, klasifikasi, Regresi Logistik, SVM

  

( Halaman ini sengaja dikosongkan)

  

EARLY DETECTION OF THE CERVIXAL CANCER IN

BOGOR USING BINARY LOGISTIC REGRESSION AND

SUPPORT VECTOR MACHINE (SVM)

Name : Agil Darmawan

  NRP : 1308 100 084 Department : Statistika FMIPA-ITS

Supervisor ; : Santi Wulan P.,M.Si.,Ph.D.

  

ABSTRAK

Developing countries accounted for 370,000 of the total 466,000

cases of cervical cancer are expected to occur in the world in the year

  

2000 Most cases of cervical cancer are caused by infection with Human

Papilloma Virus (HPV). Cervical cancer will not be diagnosed directly

because there is a pre-malignant phase for several years, it is necessary

to prevent the emergence of early detection of malignant phase in

cervical cancer. For the early detection of the used classification method

Support Vector Machine (SVM) which will be compared to Binary

Logistic Regression. In addition to seeing the classification accuracy

Binary logistic regression was also used to determine the most

influential predictor variables on the response. In this study, the data

was taken from Cohort Study of Risk Factors of Non-Communicable

Diseases in the city of Bogor. Predictor variables used were as many as

13 variables. Risk factors that have a significant effect on the 90%

significance level ( = 0.1) against Cervical Cancer in Binary Logistic

Regression Analysis is Older contraceptive use, family history and Pap

Smear Tests. Performance of classification using SVM on all the good

combination of 90:10, 70:30, 50:50 dam is at 100%, while the

specificity values of all 0%. Classification accuracy using Binary

Logistic highest is 90:10 combination of 100%, 87.7% combination of

70:30, while the combination of 50:50 at 55.5%.

  Key word : cervical cancer, classification, logistic regression, SVM

  

( Halaman ini sengaja dikosongkan)

KATA PENGANTAR

  Alhamdulillah puji syukur penulis panjatkan kehadirat Allah SWT, yang atas rahmat, taufik, dan hidayah-Nya sehingga penulis mampu menyelesaikan penyusunan Tugas Akhir yang berjudul “Deteksi Dini Penyakit Kanker Leher Rahim

  

(Serviks) di Kota Bogor Mengunakan Regresi Logistik Biner

dan Support Vector Machine (SVM) ”.

  Selama penulisan laporan Tugas akhir ini tentunya penulis tidak lepas dari bantuan dan sokongan dari banyak fihak. Oleh karena itu, dengan penuh kerendahan hati penulis ingin mengucapkan terima kasih kepada semua yang membantu penyelesaian dalam proses Tugas Akhir ini, khususnya kepada :

  1. Allah SWT yang karena kasih sayang-Nya penulis mampu menyelesaikan Tugas Akhir ini.

  2. Almarhum Kedua orang tuaku, Ayahanda Masykur Idris, S.H dan Ibunda Siti Khudewi A.Z. yang membuat penulis terus termotivasi. Serta mbak Ana Nur Aida. Mereka adalah keluarga terbaik yang Allah turunkan untuk penulis.

  3. Ibu Dr. Santi Wulan Purnami, S.Si.,M.Si. selaku dosen pembimbing atas segala kesabaran dalam memnberi bimbingan, saran, semangat, dan waktu yang diberikan kepada penulis hingga laporan Tugas Akhir ini selesai.

  4. Bapak Dr. Suhartono, M.Sc. selaku Ketua Jurusan Statistika ITS.

  5. Bapak Dr. Purhadi, M.Sc dan Ibu Ir. Mutia Salamah, M.Kes, selaku dosen penguji atas kritik dan saran demi sempurnanya Tugas Akhir ini.

  6. Bapak Dr. Wahyu Wibowo, S.Si., M.Si. selaku dosen wali, atas masukan dan bimbingannya selama penulis berada di bangku kuliah.

  7. Bapak Dr. Sutikno, M.Si. selaku Ketua Program studi SI

  8. Fairizi, Ikhsan, Erik, Septian, Zainudin dan Reza yang telah menjadi sahabat baik suka maupun duka. Terimakasih atas semangat, motivasi, uluran waktu, dan doanya.

  9. Nur Fain yang dengan segala keikhlasan untuk bersedia meminjamkan laptop sehingga penulis mampu menyelesai- kan Tugas Akhir ini.

10. Penghuni Ma‟had Ukhuwah Islamiyah, Al Faruqi, dan

  Pondok Hijrah yang membersamai penulis sepanjang masa perkuliahan.

  11. Pak Ripan beserta segenap keluarga Litbangkes Kemenkes RI yang membantu penyusunan dna pengiriman data.

  12. Keluarga besar JMMI ITS dan Statistika Angkatan 2008 atas kebersamaan yang indah selama ini.

  13. Semua pihak yang tidak dapat disebutkan satu-persatu yang telah membantu hingga pelaksanaan Tugas Akhir ini dapat terselesaikan dengan baik. Dalam Penulisan laporan ini penulis merasa masih banyak kekurangan-kekurangan baik pada teknis penulisan maupun materi, mengingat akan kemampuan yang dimiliki penulis. Untuk itu kritik dan saran dari semua pihak sangat penulis harapkan demi penyempurnaan pembuatan laporan ini.

  Akhir kata, penulis berharap semoga Allah memberikan imbalan yang setimpal pada mereka yang telah memberikan bantuan, dan dapat menjadikan semua bantuan ini sebagai ibadah, Amiin Yaa Robbal „Alamiin.

  Surabaya, 10 April 2016 Penulis

  DAFTAR ISI Halaman

HALAMAN JUDUL....................................................................... i

TITLE PAGE ................................................................................. ii

LEMBAR PENGESAHAN ..........................................................iii

ABSTRAK ...................................................................................... v

ABSTRACT ................................................................................. vii

KATA PENGANTAR .................................................................. ix

DAFTAR ISI ................................................................................. xi

DAFTAR TABEL .......................................................................xiii

DAFTAR GAMBAR ................................................................... xv

DAFTAR LAMPIRAN ............................................................. xvii

BAB I PENDAHULUAN ........................................................... 1

  BAB III METODOLOGI PENELITIAN

  4.3 Klasifikasi Regresi Logistik Biner ........................... 33

  4.2 Analisis dengan Regresi Logistik Biner ................... 25

  4.1 Deskripsi Faktor resiko Kanker serviks ................... 23

  

BAB IV ANALISIS DAN PEMBAHASAN .............................. 23

  3.3 Langkah Analisis ...................................................... 20

  3.2 Variabel Penelitian ................................................... 19

  3.1 Sumber Data ............................................................. 19

  .................................. 19

  2.4 Kanker Serviks ......................................................... 16

  1.1 Latar Belakang ........................................................... 1

  2.3 Support Vector Machine .......................................... 10

  2.2 Regresi Logistik Biner ............................................... 5

  2.1 Statistika Deskriptif .................................................... 5

  ................................................. 5

  BAB II TINJAUAN PUSTAKA

  1.4 Manfaat Penelitian ..................................................... 4

  1.3 Tujuan Penelitian ....................................................... 4

  1.2 Rumusan Masalah ...................................................... 3

  4.3 Analisis menggunakan SVM .................................... 36 4.4 . Perbandingan akurasi SVM dengan Regresi

  

BAB V KESIMPULAN DAN SARAN ............................... 39

  5.1 Kesimpulan............................................................... 39

  5.2 Saran ......................................................................... 39

  

DAFTAR PUSTAKA ................................................................. 41

LAMPIRAN ................................................................................ 43

  

DAFTAR TABEL

Halaman

Tabel 2.1 Tabel Ketepatan Klasifikasi ....................................... 9Tabel 2.2 Fungsi kernel pada SVM ......................................... 15Tabel 3.2 Variabel Penelitian ................................................... 20Tabel 4.1 Statistika Deskriptif ................................................. 23Tabel 4.2 Crosstab variabel skala nominal .............................. 24Tabel 4.3 Uji Univariabel ........................................................ 25Tabel 4.4 Uji Serentak ............................................................. 27Tabel 4.5 Uji Parsial dan Estimasi Parameter .......................... 28Tabel 4.6 Uji Kebaikan Model ................................................. 31Tabel 4.7 Hasil uji data training 50% ...................................... 32Tabel 4.8 Hasil uji data training 70% ...................................... 33Tabel 4.9 Hasil uji data training 90% ...................................... 33Tabel 4.10 Hasil klasifikasi 50:50.............................................. 34Tabel 4.11 Hasil klasifikasi 70:30.............................................. 34Tabel 4.12 Hasil klasifikasi 90:10.............................................. 35Tabel 4.13 Perbandingan Hasil klasifikasi ................................. 35Tabel 4.14 Penghitungan SVM training 50% ............................ 36Tabel 4.15 Penghitungan SVM training 70% ............................ 37Tabel 4.16 Penghitungan SVM training 90% ............................ 37Tabel 4.17 Hasil Klasifikasi SVM ............................................. 38

  (

Halaman ini sengaja dikosongkan)

  

DAFTAR GAMBAR

Halaman

Gambar 2.1 Hyperplane SVM .................................................... 11Gambar 2.2 . Pemisah non Linier SVM ...................................... 13Gambar 2.2 Transformasi ruang vektor dimensi tinggi .............. 14Gambar 2.3 Kanker serviks pada sistem reproduksi .................. 16Gambar 3.1 Flowchart Penelitian ............................................... 22

  

( Halaman ini sengaja dikosongkan)

  

DAFTAR LAMPIRAN

Halaman

  Lampiran 1 Data Studi Kohort PTM 2011 kanker serviks ......... 51 Lampiran 2 Uji Univariabel ........................................................ 52 Lampiran 3 Uji Kesesuaian Model ............................................. 53 Lampiran 4 Uji Serentak ............................................................. 54 Lampiran 5 Uji Parsial dan Estimasi Parameter ......................... 55 Lampiran 6 Syntax dan output SVM pembentukan model ......... 56

  

( Halaman ini sengaja dikosongkan)

BAB I PENDAHULUAN

1.1 Latar Belakang

  Kanker serviks merupakan suatu problem kesehatan masyarakat bagi perempuan dewasa di negara-negara berkembang di Asia Tenggara, Amerika Tengah dan Selatan, Afrika. Sebagian besar kasus kanker serviks disebabkan oleh infeksi Human

  

Papilloma Virus (HPV), virus menular yang menginfeksi sel dan

  dapat menyebabkan \kanker invasif. Negara-negara berkembang menyumbang 370.000 dari total 466.000 kasus serviks kanker yang diperkirakan terjadi di dunia dalam tahun 2000. Di seluruh dunia, kanker serviks diklaim menjangkit 231.000 wanita per tahun, lebih dari 80% yang terjadi di negara berkembang (WHO, 2001).

  Kanker serviks memiliki tahap pra-ganas yang berlangsung beberapa tahun. Oleh karena itu untuk mendeteksi dini adanya kanker serviks dianjurkan untuk melakukan pemeriksaan Pap Smear (Susanti, 2012).

  Data-data ini diperkuat dengan penelitian Yayasan Kanker Indonesia yang memperkirakan, ada sekitar 52 juta perempuan Indonesia memiliki risiko terkena kanker serviks. Semua data tersebut seolah mempertegas asumsi bahwa setiap perempuan berisiko terkena infeksi Human Papilloma Virus (HPV), virus penyebab kanker serviks (kotabogor.go.id). Data dari Yayasan Kanker Indonesia juga (2009), di Kota besar rasio terjangkitnya penyakit ini adalah 90 per 100.000 penduduk. Angka ini 400% lebih tinggi dari Belanda yang hanya 9 per 100.000 penduduk.

  Kota Bogor menjadi wilayah yang berinisiatif untuk merealisasikan hal tersebut de ngan mengadakan “Layanan Papsmear dan KB Gratis” dengan menghadirkan 100 Ibu Rumah Tangga pada 25 Mei 2011, bertempat di Klinik Ikatan Bidan

  2

  sel karsinoma penyebab Kanker Leher Rahim. Tes Pap Smear sebaiknya dilakukan satu kali setahun oleh setiap wanita yang sudah melakukan hubungan seksual (kotabogor.go.id). Salah satu faktor yang menjadikan resiko terjangkitnya kanker serviks menjadi besar adalah tidak rutinnya tes Pap Smear tersebut (Mc Cormick, 2011).

  Faktor resiko adalah faktor atau variabel yang diduga mampu meningkatkan resiko terkena penyakit. Usia yang rawan terserang penyakit ini adalah perempuan berusia 35-55 tahun, perempuan yang berusia > 65 tahun persentase terserang penyakit adalah 20%. Selain faktor usia, penggunaan kontrasepsi jenis hormonal seperti pil dan suntik juga meningkatkan resiko terserang kanker serviks, terutama untuk penggunaan yang lama . Faktor lain, perempuan yang sering melahirkan anak (paritas) dan ganti-ganti pasangan seksual meningkatkan resiko kanker ini (health.detik.com). Adanya riwayat kanker pada keluarga juga meningkatkan resiko terjangkit kanker serviks (asiacancer.com). Faktor resiko lain adalah merokok, karena rokok dapat mengganggu sistem imun tubuh dalam melawan virus (Mc Cormick, 2011).

  Beragamnya faktor resiko penyakit kanker serviks, maka untuk mengetahui faktor resiko yang berpengaruh signifikan terhadap kanker serviks tersebut peneliti menggunakan Regresi Logistik Biner. Regresi logistik biner bermanfaat untuk penelitian dengan variabel respon biner (dua outcome), seperti ya-tidak, benar-salah, normal-abnormal, dan lain-lain. Pada penelitian tentang kanker serviks oleh Intansari (2012) menggunakan Bagging Logistik menunjukkan faktor yang paling berpengaruh signifikan terhadap kanker serviks adalah usia, jumlah anak, usia pertama melahirkan, dan penggunaan kontrasepsi. Disamping mendapatkan faktor resiko yang berpengaruh signifikan, Regresi Logistik Biner mampu membuat model klasifikasi untuk memprediksi / mendeteksi diagnosa kanker serviks / tidak.

  3 Jadi variabel penjelas tidak harus memiliki distribusi normal, linier, maupun memiliki varian yang sama dalam setiap group (identik). Selain itu variabel bebas dalam regresi logistik bisa campuran dari variabel kontinyu, diskrit dan dikotomis.

  Pada penelitian Intansari (2012) tersebut didapatkan akurasi ketepatan klasifikasi menggunakan Bagging Logistic sebesar 70,74%. Nilai tersebut masih tergolong rendah, sehingga hasil klasifikasi menggunakan Bagging Logistic belum bisa dijadikan referensi. Untuk mengatasi hal tersebut dibutuhkan metode klasifikasi lain yang memiliki ketepatan klasifikasi tinggi, yaitu

  

Support Vector Machine (SVM). SVM adalah metode learning

  machine yang bekerja atas prinsip Structural Risk Minimization (SRM) dengan tujuan menemukan pemisah (hyperplane) terbaik yang memisahkan dua buah class pada input space. Keunggulan SVM adalah memiliki tingkat akurasi klasifikasi yang tinggi dibanding metode lain seperti Logistic Regression, Neural

  

Netwotk (NN) dan Discriminant Analysis (Nugroho & Handoko,

  2003). Pada penelitian Rahman (2012) tentang Kanker Payudara menggunakan Regresi Logistik Ordinal dan SVM, hasil pengukuran klasifikasi kedua metode, akurasi SVM sebesar 98,11 % jauh lebih tinggi dari pada Regresi Logistik Ordinal yang bernilai 56,60%.

1.2 Perumusan Masalah

  Permasalahan yang akan dibahas pada penelitian ini berdasarkan latar belakang di atas adalah sebagai berikut.

  1. Apa saja faktor-faktor yang mempengaruhi terjangkitnya penyakit kanker serviks di Kota Bogor menggunakan Regresi Logistik Biner?

  2. Bagaimana klasifikasi penyakit kanker servik berdasarkan faktor-faktor yang mempengaruhi menggunakan Regresi Logistik Biner dan Support Vector Machine (SVM)?

  3. Bagaimana ketepatan klasifikasi menggunakan metode

  4

  1.3 Tujuan

  Berdasarkan permasalahan di atas, maka tujuan dari penelitian ini adalah sebagai berikut.

  1. Untuk mendapatkan faktor-faktor yang mempengaruhi ter- jangkitnya penyakit kanker serviks di Kota Bogor menggu- nakan Regresi Logistik Biner. 2. .. Untuk mendapatkan model klasifikasi penyakit kanker serviks berdasarkan faktor-faktor yang mempengaruhi menggunakan

  Regresi Logistik Biner dan Support Vector Machine (SVM). 3. .. Untuk mendapatkan model terbaik dari perbandingan ketepatan klasifikasi metode Regresi Logistik Biner dan

  Support Vector Machine (SVM).

  1.4 Manfaat Manfaat yang diharapkan dari penelitian ini antara lain.

  1. . Menambah khazanah penerapan ilmu Statistika dalam bidang kesehatan. 2. .. Dengan mengetahui faktor – faktor yang mempengaruhi penyakit kanker serviks bisa memberikan masukan kepada instansi kesehatan untuk rutin memberikan penyuluhan dan fasilitas kesehatan terkait kanker serviks kepada masyarakat. 3. .. Dengan mengetahui model deteksi kanker serviks, bisa menjadi informasi penting bagi para tenaga medis untuk memprediksi / mendeteksi terjangkitnya kanker serviks.

BAB II TINJAUAN PUSTAKA 2.1. Statistika Deskriptif Statistika deskriptif adalah metode yang digunakan untuk

  mendeskripsikan atau menggambarkan data, meliputi pengumpu- lan, pengorganisasian, serta penyajian data dengan menggunakan ukuran pemusatan, ukuran keragaman, ukuran bentuk, dan ukuran relatif sehingga dapat memberikan informasi yang jelas, berguna, dan mudah dimengerti. (Walpole, 1995). Penelitian ini meng- gunakan data kategorik sehingga mengunakan tabulasi silang (crosstab).

  Ciri penggunaan crosstab adalah data input yang berskala nominal atau ordinal, seperti tabulasi antara gender seseorang dengan tingkat pendidikan orang tersebut, pekerjaan seseorang dengan sikap orang tersebut dengan suatu produk tertentu, dan lainnya. Pembuatan crosstab dapat juga disertai dengan penghitu- ngan tingkat hubungan (asosiasi) antar variabel.

2.2 Regresi Logistik Biner

  Analisis Regresi adalah suatu metode yang mendiskripsi- kan antara variabel respon dan satu atau lebih variabel penjelas atau prediktor (Hosmer dan Lemeshow, 2000). Regresi Logistik Biner adalah metode regresi yang mampu menyelesaikan kasus di mana variabel respon berupa dichotomous, ya-tidak, sukses- gagal, normal-cacat, hidup-mati, benar-salah, laki-laki-perempu- an, dan sebagainya. Variabel respon adalah data kategorik (Agresti, 2002).

  Outcome

  variabel y yang terdiri dari 2 kategori, yaitu “sukses” dan “gagal” dinotasikan dengan y = 1 (sukses) dan y = 0 (gagal). Variabel y tersebut mengikuti distribusi Bernaulli untuk setiap observasi tunggal. Fungsi probabilitas untuk setiap obser- vasi adalah :

  6

  Di mana jika y = 0 maka f(y) = 1 – π dan jika y = 1 maka

  

f(y) = π. Fungsi regresi logistiknya dapat ditulis sebagai berikut :

z

  

1 e

f ( z )  ekuivalen f z  (2.1)

  ( )

   z z

1  ee

  1

  x x dengan z =       .

  ... p p

  1

1 Nilai z antara   – sampai + sehingga nilai f(z) terletak

  antara 0 dan 1 untuk setiap nilai z yang diberikan. Hal tersebut menunjukkan bahwa model Logistik sebetulnya menggambarkan probabilitas atau resiko dari suatu objek. Model regresi logistik- nya adalah sebagai berikut :

     x  ...   x

  1 1 p p e

  ( x )  , (2.3)     x  ...   x

  1

1 p p

1  e di mana p = banyaknya prediktor.

  Untuk mempermudah pendugaan parameter regresi maka persamaan (2.3) di atas dapat diuraikan menggunakan transforma- si logit dari

  π (x) sebagai berikut :   x

   ( ) g ( x )  ln   x  ...  x , (2.4)

  

   

  1 1 p p   x

  1   ( )  

  model tersebut merupakan fungsi linear dari parameter – parame- ternya.

2.2.1 Estimasi Parameter

  Estimasi parameter pada regresi Logistik menggunakan Maximum Likelihood. Metode ini menduga parameter

  β dengan

  cara memaksimumkan fungsi likelihood dan mensyaratkan data harus mengikuti suatu distribusi tertentu. Pada regresi Logistik biner, setiap percobaan mengikuti distribusi Bernaulli sehingga dapat ditentukan fungsi likelihoodnya.

  Jika x i dan y i adalah pasangan variabel respon dan prediktor pada pengamatan ke-i dan diasumsikan bahwa setiap

  7 lainnya, i = 1, 2, …, n maka fungsi probabilitas untuk setiap pasangan adalah sebagai berikut :

   y 1 y i i f x   x   x y i = 0, 1 (2.5)

  ( ) ( ) ( 1 ( ))

  i i i p

   xj j j

  

  1 e

  dengan,  ( x )  (2.6)

  i pxj j j

  

  1 1  e

  Ketika j = 0 maka x ij = x i0 = 1 fungsi likelihoodnya adalah :

  n n y 1  y i i l (  )  f ( x )   ( x ) ( 1   ( x )) (2.7)

    i i i i

  1 i

1 Fungsi likelihood tersebut lebih mudah dimaksimumkan

   dalam bentuk log l(  ).

  

β) dan dinyatakan dalam L(

p

     xj j p n n

   

   

   j

  1 y x  log  e

  L(  ) = log l (  ) =      

  1  (2.8)  i ijj j i i

   

1 

  1    

   

   Nilai  ) terhadap

  β didapatkan melalui turunan L( β dan hasilnya disamadengankan 0. p

   

    x

j j

   

   j

  1 n n

   L ( ) e

    

  (2.9)

  y x x

     

  i ij ij p

     ii

  

  1

  1 j   x j j j

  1

    1  e  

  n n y xx x

  Sehingga,    ( ) j = 0, 1, …, p (2.10)

  i ij ij i i i i  1 

1 Untuk mencari turunan dari persamaan (2.10) –yang telah

  disamadengankan nol

  • – seringkali tidak mendapatkan hasil yang eksplisit sehingga digunakan metode iterasi Newton Raphson un-

  8

  Berikutnya adalah melakukan pengujian secara serentak untuk mengetahui keberartian koefisien

  β secara serentak terha- dap respon. = = 0

  H : 1 2 p

  β β = … = β

  H : minimal ada satu j

  1 β ≠ 0 j = 1, 2, …, p n n

  1 n

n  

   

  1     n n

     

  Statistik uji : G  

  2 ln (2.13) n

   y  1  y i i

   ( 1   )  i i i

  

  1 n n ny ny

  Di mana,    (

  1 ) (2.14) i i

  1 i i

   1 

1 Statistik uji G merupakan Likelihood Rasio Test yang

  2 mengikuti distribusi Chi Square sehingga tolak H jika G >  (v, )

  

  dengan v derajat bebas banyaknya parameter dalam model tanpa .

  β

  Kemudian dilakukan pengujian keberartian terhadap koe- fisien

  β secara univariat terhadap variabel respon yaitu dengan

  membandingkan parameter hasil maksimum likelihood, dugaan

  β dengan standard error parameter tersebut.

  H : i = 0

  β

  H : i

  1 β i ≠ 0 = 1, 2, …, p   i

  Statistik uji : W   (2.11)

  SE (  ) i

  Rumus di atas biasa disebut Uji Wald, yang mengikuti distribusi normal sehingga tolak H jika |W| > Z dan dapat

  /2

  diperoleh melalui persamaan berikut :

  

  2 

  2 i W   (2.12)

2 SE ( )

   i

  Statistik uji tersebut mengikuti distribusi chi square 2

  2

  9 Uji berikutnya adalah Uji Kesesuaian Model. Ini dimak- sudkan untuk mendapatkan informasi apakah terdapat perbedaan antara hasil pengamatan dengan kemungkinan hasil prediksi model. H : Model sesuai H

  1 : Model tidak sesuai g '

  2 ( on  )

  2 k k k

  Statistik uji :   (2.15)

   ' k n (

1  )

1   k k k

  Di mana;

  o k : observasi pada grup ke – k  : rata-rata taksiran peluang k

  g : jumlah grup

  ' n : banyak observasi grup ke - k k

  2

  2 Daerah penolakannya adalah, tolak H jika  <  (p-1,)

2.2.2 Evaluasi Performansi Model

  Performansi dalam melakukan klasifikasi kanker serviks diuji ketepatannya menggunakan data testing. Pengukuran ketepatan klasifikasi menggunakan sensitivitas, spesivisitas, dan akurasi berdasarkan model yang terbentuk.

  Tabel 2.1 Ketepatan klasifikasi

  Prediksi Observasi

  Gagal Sukses Gagal n n

  

11

  12 Sukses n n

  

21

  22

  n

  11 : kategori gagal yang diprediksi gagal

  n : kategori gagal yang diprediksi sukses

  12

  n : kategori sukses diprediksi gagal

  21

  n

  22 : kategori sukses diprediksi sukses

  10 Specificity : Sensitifity

  :

2.3 Support Vector Machine (SVM)

  Metode klasifikasi modern Support Vector Machine (SVM) pertama kali diperkenalkan oleh Vapnik pada tahun 1992, dipre- sentasikan di Annual Workshop on Computational Learning

  Theory

  . SVM adalah metode learning machine yang bekerja atas prinsip Structural Risk Minimization (SRM) dengan tujuan me- nemukan pemisah (hyperplane) terbaik yang memisahkan dua buah class pada input space (Nugroho dan Handoko, 2003).

  Metode SVM berbeda dengan klasifikasi neural network yang mencari hyperplane antar class, namun SVM berusaha me- nemukan hyperplane paling tepat pada input space. Prinsip dasar SVM adalah linear classifier, dan selanjutnya dikembangkan agar dapat digunakan untuk kasus non-linear dengan memasukkan konsep Kernel. Dengan begitu, ada suatu jaminan bahwa klasi- fikasi menggunakan SVM akan menghasilkan pemetaan yang sangat akurat (Lin, 2003).

2.3.1 Konsep Support Vector

  Seperti yang dijelaskan di atas, SVM mencari hyperplane paling tepat yang berfungsi sebagai pemisah dua buah class pada input space, dalam hal ini adalah class : +1 dan –1. Pattern yang tergabung pada class –1 disimbolkan dengan warna merah (kotak), sedangkan pattern pada class +1, disimbolkan dengan warna kuning (lingkaran). Metode klasifikasi berupaya untuk menemukan garis (hyperplane) yang memisahkan antara kedua kelompok tersebut.

  11

  (1a) (1b) Gambar 2.1

  SVM mendapatkan hyperplane terbaik yang memisahkan class

  • –1 dan +1

  Alternatif garis pemisah (discrimination boundaries) di- tunjukkan pada gambar (1a). Pemisah terbaik antara kedua class dapat ditemukan dengan mengukur margin hyperplane tersebut. dan mencari titik maksimalnya. Margin adalah jarak antara hyper- plane tersebut dengan pattern terdekat dari masing-masing class. Garis solid pada gambar (1b) menunjukkan hyperplane yang terbaik, yaitu yang terletak tepat pada tengah-tengah kedua class, sedangkan titik merah dan kuning yang berada dalam lingkaran hitam adalah support vector.

2.3.2 Support Vector Classification

   d

  Data yang ada dinotasikan sebagai sedangkan x   i untuk respon/target masing-masing dinotasikan sebagai , yang mana l adalah banyaknya data.

  ………………………… y    il i

  1 , 1  , 1 , 2 ,..., Diketahui bahwa X memiliki pola tertentu, yaitu apabila

  x x ….. i termasuk ke dalam class maka diberikan label

i

y y

  (target)   dan   . Diasumsikan +1 dan –1 dapat i

  1 i

  1

  terpisah secara sempurna oleh hyperplane berdimen-i d, yang

  12 

  Pattern x yang termasuk class –1 (sampel negatif) dapat

  i

  dirumuskan sebagai pattern yang memenuhi pertidaksamaan se- bagai berikut :

    w x (2.17)

  . b  

  1 

  Pattern x yang masuk class +1(sampel positif) dapat

  i

  dirumuskan sebagai pattern yang memenuhi pertidaksama-an :

    w xb   .

  1

  (2.18) Margin terbesar dapat ditemukan dengan memaksimalkan

   nilai jarak antara hyperplane dan titik terdekatnya, yaitu 1/ w . Hal ini dapat dirumuskan sebagai Quadratic Programming (QP)

  problem , yaitu mencari titik minimal persamaan (2.19), dengan memperhatikan constraint persamaan (2.20).

  2  

  1 ww

     (2.19) min

   w

  2   yw . xb   , i  1 ,..., l (2.20) i

  Problem ini dapat diselesaikan dengan teknik metode Lagrange Multiplier .

  l    

  1

  2 L w bwy w xb   , ,       .  1  (i=1,2,…) (2.21) i i i i

  2 

  1 Di mana i adalah Lagrange Multiplier yang bernilai nol

  atau positif ( ≥ 0). Nilai optimal dari persamaan (2.21) dapat

  i

   dihitung dengan meminimalkan L terhadap w dan b, dan memaksimalkan L terhadap  . Dengan memperhatikan sifat

  i

  bahwa pada titik optimal gradient L = 0, persamaan (2.21) dapat dimodifikasi sebagai maksimalisasi problem yang hanya mengandung saja  i , sebagaimana persamaan (2.22) di bawah.

  l l  

1 Maximize :       y y x x , (2.22)

  i i j i j i j i i j

  1

  1 2 , 

  13

  ly = 0. (2.23)  i i i

1 Dari hasil dari perhitungan ini diperoleh  yang kebanya-

  i

  kan bernilai positif. Data yang berkorelasi dengan  i yang positif inilah yang disebut sebagai support vector.

2.3.3 Soft Margin

  Teorema di atas berjalan atas asumsi bahwa kedua class dapat terpisah secara sempurna oleh hyperplane. Namun umum- nya dua buah class pada input space tidak dapat terpisah secara sempurna. Hal ini menyebabkan constraint pada persamaan (2.20) tidak terpenuhi, sehingga optimisasi tidak dapat dilakukan.

Gambar 2.2 Pemisah non Linier SVM

  Untuk mengatasi masalah ini, SVM dirumuskan ulang dengan memperkenalkan teknik soft margin. Dalam soft margin, persamaan (2.20) dimodifikasi dengan memasukkan slack variabel , dengan ( > 0).

    yw . xb   1   (2.24) i i i

  Sehingga persamaan (2.19) diubah menjadi :

  l  

  1

  2 min  w ,   wC  (2.25)

      i w i

  1

2 Paramater C dipilih untuk mengontrol trade off antara

  margin dan error klasifikasi . Nilai C yang besar berarti akan memberikan penalti yang lebih besar terhadap error klasifikasi tersebut.

  14

2.3.4 Fungsi Kernel pada SVM

  Pada hakikatnya masalah dalam domain dunia nyata jarang yang bersifat linear separable. Kebanyakan dari kasus tersebut bersifat non linear. Untuk menyelesaikan problem non linear, SVM dimodifikasi dengan memasukkan Fungsi Kernel.

   Dalam non linear SVM, pertama-tama data x dipetakan

   oleh fungsi Φ( x ) ke ruang vektor yang berdimensi lebih tinggi. Pada ruang vektor yang baru ini, hyperplane yang memisahkan kedua class tersebut dapat dikonstruksikan. Hal ini sejalan dengan teori Cover yang menyatakan “Jika suatu transformasi bersifat non linear dan dimensi dari feature space cukup tinggi, maka data pada input space dapat dipetakan ke feature space yang baru, dimana pattern-pattern tersebut pada probabilitas tinggi dapat dipisahkan secara linear” (Nugroho dan Handoko, 2003).

  Pada gambar 2.2 (kiri) diperlihatkan data pada class kuning dan data pada class merah yang berada pada input space berdimensi dua tidak dapat dipisahkan secara linear. Selanjutnya gambar 2 (kanan) menunjukkan bahwa fungsi Φ memetakan tiap data pada input space tersebut ke ruang vektor baru yang berdimensi lebih tinggi (dimensi 3), dimana kedua class dapat dipisahkan secara linear oleh sebuah hyperplane. Notasi matematika dari mapping ini adalah :

  d q    d < q (2.26)  :

  

Input space X Feature Space Φ(X)

Gambar 2.3

  Fungsi Φ memetakan data ke ruang vektor yang

berdimensi lebih tinggi

  15 Pemetaan ini dilakukan dengan menjaga topologi data, dalam artian dua data yang berjarak dekat pada input space akan berjarak dekat juga pada feature space, sebaliknya dua data yang berjarak jauh pada input space akan juga berjarak jauh pada

  

feature space . Selanjutnya proses pembelajaran pada SVM dalam

  menemukan titik-titik support vector, hanya bergantung pada dot

  

product dari data yang sudah ditransformasikan pada ruang baru

  

  x x yang berdimensi lebih tinggi, yaitu Φ( ).Φ( ). i j

  Disebabkan transformasi Φ ini tidak diketahui dan sangat sulit untuk difahami, maka perhitungan dot product tersebut sesuai teori Mercer dapat digantikan dengan Fungsi Kernel

    K x x yang mende finisikan secara implisit transformasi Φ. ( , )

  i j

  Fungsi Kernel dirumuskan sebagai berikut (Gunn, 1998) :

  

    

  K x x x

  = Φ( x ).Φ( ) (2.27) ( , )

  i j i j

  Fungsi Kernel memberikan berbagai kemudahan, karena dalam proses pembelajaran SVM, untuk menentukan support

  

vector , kita hanya cukup mengetahui Fungsi Kernel yang dipakai,

dan tidak perlu mengetahui wujud dari fungsi non linear Φ.

  Berbagai jenis Fungsi Kernel dikenal sebagaimana dirangkumkan pada Tabel 2.2.

  Tabel 2.2 Fungsi Kernel yang umum pada SVM

  Jenis Kernel Fungsi    

  p

  Polynomial K ( x , x )  x , x  1 dimana p=1,…

  i j   i j  

  2

     

  Gaussian Radial

  xx i j

     

  K x x

  Basis Function ( , )  exp  i j

  2 

  2  

  (RBF)  

     

  

K x x x x

      Sigmoid ( , ) tanh( . ) i j i j