Deteksi Kanker Serviks Berdasarkan Citra Sel Pap Smear dengan Klasifikasi Naïve Bayes
DETEKSI KANKER SERVIKS BERDASARKAN CITRA SEL
PAP SMEAR DENGAN KLASIFIKASI NAÏVE BAYES
DIAN LESTARI AULIANI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Deteksi Kanker Serviks
Berdasarkan Citra Sel Pap Smear dengan Klasifikasi Naïve Bayes adalah benar
karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam
bentuk apapun kepada perguruan tinggi mana pun. Sumber informasi yang berasal
atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain
telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian
akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Agustus 2014
Dian Lestari Auliani
NIM G64090102
ABSTRAK
DIAN LESTARI AULIANI. Deteksi Kanker Serviks Berdasarkan Citra Sel Pap
Smear dengan Klasifikasi Naïve Bayes. Dibimbing oleh HARI AGUNG
ADRIANTO.
Tingginya angka kematian pada pengidap kanker serviks salah satunya
disebabkan oleh keterlambatan penanganan secara medis. Hal ini juga dapat
diakibatkan oleh pendeteksian kanker serviks secara manual yang sarat potensi
kesalahan prosedur atau human error. Salah satu solusi yang dapat dilakukan
adalah dengan mengotomatisasi pendeteksian kanker serviks berdasarkan citra sel
pap smear. Penelitian ini menggunakan metode Naïve Bayes untuk
mengidentifikasi sel normal dan abnormal serta mengelompokkannya ke dalam
tujuh kelas yang lebih spesifik. Data yang digunakan adalah data citra sel tunggal
pap smear. Penelitian ini menitikberatkan kepada metode klasifikasi dan tidak
melakukan proses segmentasi serta ekstraksi ciri. Hasil yang diperoleh
menunjukkan akurasi 97% untuk dua kelas klasifikasi dan 9% untuk tujuh kelas
klasifikasi. Rendahnya akurasi pada tujuh kelas klasifikasi disebabkan oleh
terjadinya overlapping pada fitur-fitur yang digunakan. Metode klasifikasi Naïve
Bayes memberikan hasil yang memuaskan pada klasifikasi dua kelas target, tetapi
metode ini belum memberikan hasil yang baik untuk klasifikasi tujuh kelas target.
Kata kunci: citra sel pap smear, kanker serviks, klasifikasi Naïve Bayes
ABSTRACT
DIAN LESTARI AULIANI. Detection of Cervical Cancer Based on Pap Smear
Cell Images and Naïve Bayes Classification. Supervised by HARI AGUNG
ADRIANTO.
One cause of the high mortality rate in patients with cervical cancer is late
medical treatment. It can also be caused by the manual detection of cervical
cancer that is ridden by potential procedural or human errors. One of the solutions
that can be done is automating the detection of cervical cancer using pap smear
cell image. This study uses the Naïve Bayes method to identify normal and
abnormal cells and group them into seven more specific classes. The data used is
single cell images from pap smear. This research focuses on a classification
method and does not perform segmentation and feature extraction process. The
results showed 97% accuracy for two-class classification and 9% for the sevenclass classification. The low accuracy in classification of seven classes is caused
by overlapping on the features used. Naïve Bayes gives satisfactory results on the
two-class classification but for the seven-class classification this method has not
given good results.
Keywords: cervical cancer, Naïve Bayes classification, pap smear cell image
DETEKSI KANKER SERVIKS BERDASARKAN CITRA SEL
PAP SMEAR DENGAN KLASIFIKASI NAIVE BAYES
DIAN LESTARI AULIANI
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014
Penguji:
1 Endang Purnama Giri, SKom MKom
2 Dr Yeni Herdiyeni, SSi MKom
Judul Skripsi : Deteksi Kanker Serviks Berdasarkan Citra Sel Pap Smear dengan
Klasifikasi Naïve Bayes
Nama
: Dian Lestari Auliani
NIM
: G64090102
Disetujui oleh
Hari Agung Adrianto, SKom MSi
Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Tanggal Lulus:
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Juni 2013 ini adalah
pendeteksian kanker, dengan judul Deteksi Kanker Serviks Berdasarkan Citra Sel
Pap Smear dengan Klasifikasi Naïve Bayes.
Terima kasih penulis ucapkan kepada pihak- pihak yang telah membantu
dalam penyelesaian tugas akhir ini, yaitu:
1 Ayahanda Harmen Kasudi, Ibunda Hernayetti, kakak Yetha Rezika
Harmen, dan kakak Yetha Mega Hayati, serta seluruh keluarga atas
segala doa, dukungan, dan kasih sayangnya.
2 Bapak Hari Agung Adrianto, SKom MSi selaku dosen pembimbing yang
telah memberikan arahan dan bimbingan kepada penulis dalam
menyelesaikan tugas akhir ini.
3 Ibu Dr Ir Sri Nurdiati MSc atas bantuan dan arahan kepada penulis.
4 Bapak Endang Purnama Giri, SKom MKom dan Ibu Dr Yeni Herdiyeni,
SSi MKom selaku dosen penguji.
5 Rekan – rekan di Departemen Ilmu Komputer angkatan 45 dan 46 atas
segala kebersamaan, motivasi, semangat, dukungan, masukan, dan saran
selama proses pengerjaan skripsi ini.
6 Teman-teman yang tidak dapat disebutkan satu per satu atas bantuan,
kebersamaan, dan dukungannya.
7 Seluruh staf Departemen Ilmu Komputer IPB atas layanan terbaik yang
telah diberikan.
Semoga karya ilmiah ini bermanfaat.
Bogor, Agustus 2014
Dian Lestari Auliani
DAFTAR ISI
DAFTAR ISI
vii
DAFTAR TABEL
viii
DAFTAR GAMBAR
viii
PENDAHULUAN
1
Latar Belakang
1
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE
2
Data Citra Sel Pap Smear
3
Ekstraksi Ciri
4
K-Fold Cross Validation
5
Klasifikasi
5
Evaluasi
6
HASIL DAN PEMBAHASAN
SIMPULAN DAN SARAN
6
15
Simpulan
15
Saran
16
DAFTAR PUSTAKA
16
LAMPIRAN
17
RIWAYAT HIDUP
19
DAFTAR TABEL
1
2
3
4
5
6
7
8
9
Rincian jumlah data
Subset data latih dan data uji
Akurasi setiap subset pada dua dan tujuh kelas target
Confusion matrix dengan akurasi maksimum pada dua kelas target
Confusion matrix dengan akurasi maksimum pada tujuh kelas target
Matriks korelasi antar fitur
Evaluasi terhadap model yang dibentuk oleh regresi logistik
Hasil uji klasifikasi oleh model regresi logistik
Hasil uji terhadap fitur - fitur yang digunakan
4
5
7
7
7
13
14
14
15
DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
11
12
Alur penelitian
Citra asli (kiri) dan citra hasil segmentasi modul CHAMP (kanan)
Sebaran nilai fitur intensitas cahaya inti pada tujuh kelas klasifikasi
Sebaran nilai fitur diameter inti pada tujuh kelas klasifikasi
Sebaran nilai fitur keliling inti pada tujuh kelas klasifikasi
Sebaran nilai fitur posisi inti pada tujuh kelas klasifikasi
Sebaran nilai fitur maksimum sitoplasma pada tujuh kelas klasifikasi
Sebaran nilai fitur intensitas inti pada dua kelas klasifikasi
Sebaran nilai fitur diameter inti pada dua kelas klasifikasi
Sebaran nilai fitur keliling inti pada dua kelas klasifikasi
Sebaran nilai fitur posisi inti pada dua kelas klasifikasi
Sebaran nilai fitur maksimum sitoplasma pada dua kelas klasifikasi
3
3
8
9
9
10
10
11
11
12
12
13
LAMPIRAN
1 Tujuh citra sel pap smear asli dan hasil segmentasi modul CHAMP
2 Sampel nilai lima fitur pada data citra kelas normal superficial
3 Sampel nilai lima fitur pada data citra kelas carcinoma in situ
17
17
18
PENDAHULUAN
Latar Belakang
Data WHO pada tahun 2010 menunjukkan bahwa 13762 kasus baru terjadi
setiap tahunnya dan 7493 orang wanita meninggal dunia akibat kanker serviks di
Indonesia. Menurut data dari 13 pusat patologi di Indonesia kanker serviks berada
pada peringkat pertama di antara semua kanker (23,43% dari 10 jenis kanker
paling umum di kalangan laki-laki dan perempuan serta 31% dari 10 jenis kanker
paling umum di kalangan wanita)(Nuranna et al. 2012).
Tingginya jumlah kasus dan angka kematian disebabkan oleh tidak adanya
gejala yang dirasakan oleh pengidap kanker serviks pada stadium awal. Gejala
mulai dirasakan ketika kanker telah berada pada stadium lanjut sehingga
penanganan medis sulit dilakukan. Menurut Nuranna et al.(2012) sekitar 70%
pengidap yang datang ke rumah sakit telah berada pada stadium lanjut.
Oleh karena itu banyak penelitian yang dilakukan untuk menghasilkan
metode pendeteksian dini terhadap kanker serviks. Salah satu metode yang
populer dan banyak digunakan oleh negara-negara di dunia, termasuk Indonesia,
adalah metode pap smear. Pap smear merupakan suatu metode pemeriksaan selsel yang diambil dari leher rahim dan kemudian diperiksa di bawah mikroskop
(Kurniawan et al. 2013).
Di negara-negara maju, proses skrining secara rutin dengan pap smear dapat
menekan angka kejadian dan angka kematian hingga 70-80% dan 90% (Nuranna
et al. 2012). Kendala utama yang dihadapi oleh negara berkembang seperti
Indonesia untuk menerapkan metode pap smear adalah keterbatasan jumlah ahli
patologi anatomi di Indonesia. Ahli patologi anatomi memiliki peran penting
untuk memberikan diagnosa atau menginterpretasikan sel pap smear. Data dari
IAPI (Ikatan Ahli Patologi Indonesia) pada tahun 2010, terdapat 292 patolog yang
harus melayani penduduk Indonesia yang berjumlah 237 juta orang (data dari BPS
2010) (Nuranna et al. 2012). Selain itu interpretasi visual citra pap smear secara
manual memiliki banyak keterbatasan, membutuhkan waktu yang lama, dan
rawan kesalahan prosedur (Kurniawan et al. 2013). Hal ini menyebabkan perlunya
sistem pendeteksian kanker serviks secara otomatis.
Banyak penelitian yang telah dilakukan dengan berbagai metode untuk
otomatisasi deteksi kanker serviks. Giri (2008) menerapkan pendekatan kualitatif
untuk tahap ekstraksi fitur yang selanjutnya dianalisis menggunakan Association
Rules. Penelitian Giri (2008) menghasilkan nilai akurasi sebesar 38.48% untuk
tujuh kelas klasifikasi sel dan 89.14% untuk dua kelas klasifikasi sel. Martinez et
al.(2006) mendeteksi kanker serviks dengan cara menggabungkan beberapa model
serta mengambil atribut yang relevan dari model-model tersebut dengan
menggunakan pendekatan Bayesian. Penelitian tersebut mengeliminasi atribut
yang tidak relevan dan dependen. Akurasi penelitian tersebut mencapai 89%
dengan menggunakan metode Naïve Bayes.
Metode klasifikasi Naïve Bayes mengasumsikan fitur-fitur yang terlibat
bersifat independen sehingga tidak ada keterkaitan antar fitur. Fitur yang
digunakan pada penelitian ini mengadopsi fitur-fitur pada penelitian Giri (2008)
2
yang bersifat independen berdasarkan penilaian secara subjektif sehingga Naïve
Bayes dianggap mampu mengklasifikasikan data dengan baik.
Tujuan Penelitian
Tujuan penelitian ini adalah menerapkan metode Naïve Bayes pada sistem
pendeteksian kanker serviks berbasis citra pap smear.
Manfaat Penelitian
Manfaat yang diperoleh dari penelitian ini yaitu dihasilkan suatu sistem
berbasis citra yang mampu mendeteksi kanker serviks berdasarkan ciri morfologi
dan intensitas cahaya pada objek. Diharapkan sistem tersebut dapat membantu
tenaga medis dan ahli patologi anatomi untuk mendeteksi kanker serviks secara
otomatis. Dengan demikian dapat mengurangi angka kematian pengidap yang
disebabkan oleh keterlambatan penanganan medis.
Ruang Lingkup Penelitian
1
2
3
4
5
Lingkup dari penelitian ini, yaitu:
Penelitian ini dibatasi pada citra pap smear sel tunggal.
Penelitian ini tidak melakukan proses segmentasi dan ekstraksi ciri.
Penelitian ini mengadopsi hasil ekstraksi ciri pada penelitian Giri (2008)
dengan fitur intensitas cahaya, diameter terpanjang, keliling, dan posisi
nukleus, serta jumlah piksel maksimal dalam jendela ketetanggaan 3x3 pada
sitoplasma.
Proses klasifikasi dilakukan untuk dua kelas (normal dan abnormal) dan
tujuh kelas, yaitu: kelas normal superficial, normal intermediate, normal
columnar, light dysplasia, moderate dysplasia, severe dysplasia, dan
carcinoma in situ.
Menggunakan metode klasifikasi Naïve Bayes.
METODE
Secara garis besar alur penelitian ini dapat dilihat pada Gambar 1. Penelitian
ini meliputi tahapan pengunduhan data citra sel pap smear, ekstraksi ciri citra,
pembagian data uji dan data latih menggunakan cross validation, klasifikasi
menggunakan Naïve Bayes, dan evaluasi.
3
Gambar 1 Alur penelitian
Data Citra Sel Pap Smear
Data yang digunakan pada penelitian ini adalah data citra sel tunggal pap
smear yang disusun oleh DTU (Technical University of Denmark) dan Herlev
University Hospital di Denmark. Data ini dapat diakses dan digunakan secara
bebas untuk keperluan akademik pada situs University of the Aegean
(http://labs.fme.aegean.gr/decision/downloads).
Data tersebut berjumlah 917 pasang citra sel tunggal pap smear yang secara
umum terbagi menjadi 242 pasang kelas normal dan 675 pasang kelas abnormal
(Tabel 1). Satu pasang citra terdiri atas citra asli dan citra hasil segmentasi modul
CHAMP, aplikasi berbayar yang dikeluarkan oleh DIMAC (perusahaan yang
membangun software di Denmark). Contoh satu pasang citra dapat dilihat pada
Gambar 2. Pada gambar tersebut nukleus ditandai dengan warna biru muda,
sitoplasma ditandai warna biru tua, dan latar belakang ditandai warna merah.
Gambar 2 Citra asli (kiri) dan citra hasil
segmentasi modul CHAMP
(kanan)
4
Tabel 1 Rincian jumlah data
No
1.
2.
3.
4.
5.
6.
7.
Tipe Sel
Normal Superficial
Normal Intermediate
Normal Columnar
Light Dysplasia
Moderate Dysplasia
Severe Dysplasia
Carcinoma in Situ
Kategori
Normal
Normal
Normal
Abnormal
Abnormal
Abnormal
Abnormal
Jumlah
74
70
98
182
146
197
150
Total
242
675
Secara lebih rinci data citra sel dapat dibagi menjadi 7 kelas, yaitu: normal
superficial, normal intermediate, normal columnar, light dysplasia, moderate
dysplasia, severe dysplasia, dan carcinoma in situ. Contoh citra masing-masing
kelas disajikan pada Lampiran 1.
Ekstraksi Ciri
Penelitian ini tidak melakukan proses ekstraksi ciri sehingga fitur dan nilai
fitur yang digunakan pada penelitian ini disadur dari penelitian Giri (2008). Giri
(2008) melakukan seleksi fitur dari 20 fitur yang digunakan pada penelitian
Martin (2003) dengan menggunakan metode SFFS (Sequential Floating Forward
Selection). Kelima fitur tersebut adalah:
1 Derajat intensitas cahaya nukleus
Derajat intensitas cahaya nukleus dihitung dari nilai rata-rata intensitas
cahaya yang dimiliki oleh area nukleus dengan menggunakan rumus:
Y = 0.299 x Red + 0.587 x Green + 0.114 x Blue
Y melambangkan luminance, salah satu koordinat ruang warna untuk
sistem transmisi atau model warna NTSC (National Television System
Committee). NTSC merupakan komite nasional yang menciptakan standar
warna (RN, GN, BN) untuk pesawat penerima televisi (Putra, 2010). Komponen
luminance merepresentasikan informasi grayscale (Prasetyo, 2011) sedangkan
nilai Red, Green, dan Blue merupakan nilai rataan intensitas untuk setiap
warna. Setiap bobotnya merupakan ukuran yang merepresentasikan intensitas
cahaya yang diterima secara persepsi oleh mata manusia bagi setiap warna
(Giri, 2008).
2 Diameter terpanjang nukleus
Merupakan diameter terkecil dari sebuah lingkaran yang dapat dibentuk
untuk mengelilingi sebuah nukleus. Dapat diukur sebagai jarak terpanjang di
antara dua piksel pada area lingkar luar nukleus (Giri, 2008).
3 Perimeter nukleus atau keliling nukleus
Keliling nukleus didapatkan dengan menghitung jumlah piksel yang
terdapat pada tepi citra nukleus (Giri, 2008).
4 Posisi nukleus
5
5
Dihitung dengan mencari jarak antara pusat nukleus dengan pusat sitoplasma
(Giri, 2008).
Maksimum sitoplasma
Merupakan jumlah piksel berlabel sitoplasma yang berada pada jendela
ketetanggaan ukuran 3x3 yang berisi piksel sitoplasma terbanyak. Nilai ini
dapat dihitung dengan menentukan jumlah piksel terbanyak yang ada pada
sebuah jendela ketetanggaan 3x3 terlebih dahulu, misal sebanyak 6 piksel.
Selanjutnya ditentukan berapa banyak jendela ketetanggaan 3x3 yang berisi
piksel sitoplasma terbanyak tersebut, misal ada 10 jendela. Maka nilai
maksimum sitoplasma adalah 6x10 yaitu 60 piksel (Giri, 2008).
Nilai masing-masing fitur yang diwakili oleh 15 data untuk kelas normal
superficial (mewakili kelas normal) dan carcinoma in situ (mewakili kelas
abnormal) tersedia pada Lampiran 2 dan Lampiran 3.
K-Fold Cross Validation
Seluruh data hasil ekstraksi ciri dibagi menjadi data latih dan data uji
dengan menggunakan metode k-fold cross validation dengan menggunakan
kombinasi k = 10. Data akan dibagi menjadi 10 subset (S1, S2, S3, S4, S5, S6, S7, S8,
S9, S10). Data latih menggunakan k-1 subset dan 1 subset sebagai data uji.
Kemudian diulangi pada tahap kedua dengan menggunakan data pengujian yang
berbeda (Giri 2008). Subset yang digunakan untuk data latih dan data uji secara
lengkap disajikan pada Tabel 2.
Klasifikasi
Klasifikasi dapat dilakukan setelah data hasil ekstraksi ciri terbagi menjadi
data latih dan data uji. Ada dua macam kelas target pada penelitian ini yaitu dua
kelas dan tujuh kelas. Pada target dua kelas, data dipetakan pada kategori normal
dan abnormal. Sementara itu pada target tujuh kelas data terbagi pada kategori
yang lebih rinci, yaitu kelas normal superficial, normal intermediate, normal
columnar, light dysplasia, moderate dysplasia, severe dysplasia, dan carcinoma
in situ.
Tabel 2 Subset data latih dan data uji
Subset ke1
2
3
4
5
6
7
8
9
10
Data latih
S2, S3, S4, S5, S6, S7, S8, S9, S10
S1, S3, S4, S5, S6, S7, S8, S9, S10
S1, S2, S4, S5, S6, S7, S8, S9, S10
S1, S2, S3, S5, S6, S7, S8, S9, S10
S1, S2, S3, S4, S6, S7, S8, S9, S10
S1, S2, S3, S4, S5, S7, S8, S9, S10
S1, S2, S3, S4, S5, S6, S8, S9, S10
S1, S2, S3, S4, S5, S6, S7, S9, S10
S1, S2, S3, S4, S5, S6, S7, S8, S10
S1, S2, S3, S4, S5, S6, S7, S8, S9
Data uji
S1
S2
S3
S4
S5
S6
S7
S8
S9
S10
6
Penelitian ini menggunakan metode klasifikasi Naïve Bayes. Metode Naïve
Bayes merupakan teknik prediksi berbasis probabilistik sederhana yang berdasar
pada penerapan teorema Bayes dengan asumsi independensi yang kuat (Prasetyo,
2012). Oleh karena itu suatu fitur tidak terikat atau terpengaruh oleh keberadaan
fitur lain pada data yang sama. Teorema Bayes dirumuskan sebagai :
P H|E1,E2,E3 =
P(E1|H) x P(E2|H) x P(E3|H) x P(H)
P(E1) x P(E2) x P(E3)
Keterangan:
P (H|Ei) = Probabilitas akhir bersyarat suatu hipotesis H terjadi jika E ke-i terjadi
P (Ei|H) = Probabilitas sebuah bukti E ke-i akan memengaruhi hipotesis H
P (H) = Probabilitas H terjadi tanpa memandang bukti apapun
P (Ei) = Probabilitas E ke-i terjadi tanpa memandang hipotesis atau bukti yang
lain.
Dalam hal klasifikasi, H merupakan atribut kelas yang menjadi target
klasifikasi dan E merupakan fiturnya. Jadi teorema Bayes tersebut dapat diartikan
sebagai peluang atau probabilitas perolehan kelas H setelah fitur-fitur E diamati.
Proses pengamatan ini disebut juga sebagai proses pembelajaran untuk
membangun model dari setiap kombinasi H dengan semua fitur E berdasarkan
informasi yang didapatkan dari data latih (Prasetyo, 2012).
Proses pelatihan dilakukan dengan menggunakan data latih untuk
membentuk suatu model yang digunakan untuk menentukan kelas data uji.
Peluang setiap data uji terhadap masing-masing kelas target dihitung. Nilai
peluang terbesar yang dihasilkan data uji merepresentasikan kelas data uji tersebut.
Evaluasi
Evaluasi dilakukan berdasarkan nilai akurasi klasifikasi yang dihitung
dengan persamaan:
akurasi =
∑ data uji benar
× 100%
∑ data uji
HASIL DAN PEMBAHASAN
Proses klasifikasi pada penelitian ini menggunakan metode Naïve Bayes.
Dalam teorema Bayes, suatu model dibangun berdasarkan kombinasi setiap fitur
yang ada dengan tiap-tiap kelas yang diamati dari data latih. Setelah itu data uji
diproses menggunakan model yang telah dibentuk untuk menentukan kelasnya.
Kelas dengan nilai peluang tertinggi dipilih sebagai kelas dari data uji tersebut.
Pemisahan data uji dan data latih menggunakan metode k-fold cross validation
dengan nilai k = 10. Pada penelitian ini proses klasifikasi dilakukan untuk dua
kelas target dan tujuh kelas target. Akurasi setiap subset pada klasifikasi dua kelas
dan tujuh kelas dapat dilihat pada Tabel 3.
7
Klasifikasi dua kelas target memiliki akurasi maksimum 97% dengan error
rate 3% saat menggunakan S6 sebagai data uji dan subset lainnya sebagai data
latih. Klasifikasi tujuh kelas target memiliki akurasi maksimum yang sangat
rendah yaitu 9% dengan error rate yang sangat tinggi yaitu 91%. Confusion
matrix dengan akurasi maksimum pada dua dan tujuh kelas target disajikan pada
Tabel 4 dan Tabel 5.
Tabel 3 Akurasi setiap subset pada dua dan tujuh kelas target
Dua kelas target
Akurasi
Error rate
(%)
(%)
88
12
88
12
87
13
89
11
90
10
97
3
91
9
92
8
91
9
94
6
97
4
91
9
Subset
1
2
3
4
5
6
7
8
9
10
Maksimum
Rata-rata
Tujuh kelas target
Akurasi
Error rate
(%)
(%)
7
93
7
93
8
92
9
91
8
92
8
92
9
92
7
93
8
92
8
92
9
91
8
92
Tabel 4 Confusion matrix dengan akurasi maksimum pada dua
kelas target
Kelas sel
Normal
Abnormal
Normal
22
1
Abnormal
2
66
Akurasi
92%
99%
Tabel 5 Confusion matrix dengan akurasi maksimum pada tujuh
kelas target
Kelas sel
1
2
3
4
5
6
7
1
8
Keterangan tabel:
1 = Normal superficial
2 = Normal intermediate
3 = Normal columnar
2
3
4
5
6
7
8
2
1
7
2
1
3
3
4
5
1
4
6
12
7
7
2
7
2
Akurasi (%)
100
100
70
44
14
25
80
8
4 = Light dysplasia
5 = Moderate dysplasia
6 = Severe dysplasia
7 = Carcinoma in situ
Jika dilihat dari akurasi per kelas pada tujuh kelas klasifikasi, terdapat tiga
kelas yang memiliki akurasi paling rendah yaitu kelas light dysplasia (kelas 4),
moderate dysplasia (kelas 5), dan severe dysplasia (kelas 6). Pada confusion
matrix tujuh kelas target, kelas 4, 5, dan 6 banyak dikenali sebagai kelas lain
sehingga akurasinya rendah. Rendahnya akurasi ini disebabkan oleh nilai fitur
antar kelas memiliki kemiripan sehingga sistem kesulitan mengidentifikasi kelas
suatu data dengan tepat. Gambar 3, 4, 5, 6, dan 7 menunjukkan sebaran nilai
masing-masing fitur di setiap tujuh kelas target dengan menggunakan diagram
boxplot. Gambar 3 menunjukkan bahwa kelas 3 hingga kelas 7 memiliki rentang
nilai yang hampir sama pada fitur intensitas cahaya inti. Kasus yang serupa juga
terlihat pada fitur diameter, keliling, dan posisi inti serta maksimum pada
sitoplasma (Gambar 4, 5, 6, dan 7) yang sebagian besar terjadi pada kelas light
dysplasia, moderate dysplasia, severe dysplasia, dan carcinoma in situ (kelas 4, 5,
6 dan 7).
Gambar 8, 9, 10, 11, dan 12 menampilkan diagram boxplot masing-masing
fitur dengan dua kelas klasifikasi. Dari diagram-diagram tersebut terlihat bahwa
pada umumnya sebaran nilai setiap fitur pada masing-masing kelas dapat
dibedakan dengan baik sehingga sangat membantu proses klasifikasi. Pada
diagram tersebut kelas 0 mewakili kelas normal sedangkan kelas 1 mewakili kelas
abnormal.
Sebaran Nilai Fitur Intensitas Inti pada Tujuh Kelas Klasifikasi
180
160
Intensitas inti
140
120
100
80
60
40
20
0
1
2
3
4
Kelas klasifikasi
5
6
7
Gambar 3 Sebaran nilai fitur intensitas cahaya inti pada tujuh kelas klasifikasi
9
Sebaran Nilai Fitur Diameter Inti pada Tujuh Kelas Klasifikasi
160
140
Diameter inti
120
100
80
60
40
20
0
1
2
3
4
Kelas klasifikasi
5
6
7
Gambar 4 Sebaran nilai fitur diameter inti pada tujuh kelas klasifikasi
Sebaran Nilai Fitur Keliling Inti pada Tujuh Kelas Klasifikasi
450
400
Keliling inti
350
300
250
200
150
100
50
1
2
3
4
Kelas klasifikasi
5
6
7
Gambar 5 Sebaran nilai fitur keliling inti pada tujuh kelas klasifikasi
10
Sebaran Nilai Fitur Posisi Inti pada Tujuh Kelas Klasifikasi
0.9
0.8
0.7
Posisi inti
0.6
0.5
0.4
0.3
0.2
0.1
0.0
1
2
3
4
Kelas klasifikasi
5
6
7
Gambar 6 Sebaran nilai fitur posisi inti pada tujuh kelas klasifikasi
Sebaran Nilai Fitur Maksimum Sitoplasma pada Tujuh Kelas Klasifikasi
Maksimum sitoplasma
4000
3000
2000
1000
0
1
Gambar 7
2
3
4
Kelas klasifikasi
5
6
7
Sebaran nilai fitur maksimum sitoplasma pada tujuh kelas
klasifikasi
11
Sebaran Nilai Fitur Intensitas Inti pada Dua Kelas Klasifikasi
180
160
Intensitas inti
140
120
100
80
60
40
20
0
0
1
Kelas klasifikasi
Gambar 8 Sebaran nilai fitur intensitas inti pada dua kelas klasifikasi
Sebaran Nilai Fitur Diameter Inti pada Dua Kelas Klasifikasi
160
140
Diameter inti
120
100
80
60
40
20
0
0
1
Kelas klasifikasi
Gambar 9 Sebaran nilai fitur diameter inti pada dua kelas klasifikasi
12
Sebaran Nilai Fitur Keliling Inti pada Dua Kelas Klasifikasi
450
400
Keliling inti
350
300
250
200
150
100
50
0
1
Kelas klasifikasi
Gambar 10 Sebaran nilai fitur keliling inti pada dua kelas klasifikasi
Sebaran Nilai Fitur Posisi Inti pada Dua Kelas Klasifikasi
0.9
0.8
0.7
Posisi inti
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
1
Kelas klasifikasi
Gambar 11 Sebaran nilai fitur posisi inti pada dua kelas klasifikasi
13
Sebaran Nilai Fitur Maksimum Sitoplasma pada Dua Kelas Klasifikasi
Maksimum sitoplasma
4000
3000
2000
1000
0
0
1
Kelas klasifikasi
Gambar 12
Sebaran nilai fitur maksimum sitoplasma pada dua kelas
klasifikasi
Untuk melihat hubungan atau asosiasi antar fitur, dilakukan perhitungan
nilai korelasi terhadap nilai-nilai fitur tersebut. Matriks korelasi antar fitur
ditampilkan pada Tabel 6. Sebagian besar fitur bersifat independen, terlihat dari
nilai korelasi antar fitur yang mendekati 0. Akan tetapi terdapat dua fitur yang
saling berhubungan (nilai korelasi mendekati 1) yaitu fitur diameter maksimum
dengan keliling inti sel. Meskipun demikian keberadaan fitur yang dependen ini
tidak memberikan pengaruh yang cukup besar terhadap proses klasifikasi. Hal ini
dibuktikan dari akurasi proses klasifikasi dua kelas dan tujuh kelas target yang
hanya menggunakan empat fitur (salah satu fitur yang dependen tidak digunakan)
sama dengan akurasi klasifikasi yang menggunakan lima fitur. Jadi Naïve Bayes
telah mengasumsikan bahwa kedua fitur yang dependen tersebut bersifat
independen.
Dalam proses klasifikasi terdapat fitur yang memberikan pengaruh paling
besar yang dapat dilihat dari hasil pemodelan regresi logistik. Metode regresi
logistik digunakan untuk membentuk model hubungan antara variabel terikat
dengan satu atau lebih variabel bebas secara non-linier. Variabel terikat yang
digunakan bersifat dikotomi (terdiri atas dua nilai) yang mewakili kemunculan
atau tidak adanya suatu kejadian yang biasanya diberi angka 0 atau 1. Dalam
Tabel 6 Matriks korelasi antar fitur
Intensitas inti
Diameter inti
Keliling inti
Posisi inti
Maksimum sitoplasma
Intensitas
inti
1
0.48
0.5
0.14
-0.33
Diameter
maksimum inti
0.48
1
0.96
0.09
-0.39
Keliling
inti
0.5
0.96
1
0.11
-0.37
Posisi inti
0.14
0.09
0.11
1
-0.28
Maksimum
sitoplasma
-0.33
-0.39
-0.37
-0.28
1
14
penelitian ini yang berlaku sebagai variabel terikat adalah dua kelas target
sedangkan yang menjadi variabel bebas adalah lima fitur yang digunakan.
Model yang dihasilkan oleh regresi logistik memiliki p-value (sig) sebesar 0
hal ini menyatakan bahwa terdapat minimal satu fitur yang signifikan
mempengaruhi kelas (Tabel 7) sehingga model dapat digunakan untuk analisis
lebih lanjut. Secara keseluruhan model yang dihasilkan oleh regresi logistik sangat
baik karena mampu memodelkan data hingga 93.2% (Tabel 8).
Pada regresi dikenal istilah H0 dan H1 untuk menyatakan hipotesis terhadap
suatu kejadian. Tabel 9 menampilkan fitur-fitur yang digunakan serta p-value
masing-masing fitur. Oleh karena itu, pada kasus ini hipotesis yang digunakan
adalah variabel fitur X tidak signifikan mempengaruhi kelas klasifikasi (H0) dan
variabel fitur X signifikan mempengaruhi kelas klasifikasi (H1). Keputusan tolak
H0 digunakan saat nilai signifikansi < 0.05 (Tabel 9). Dari kelima fitur yang
digunakan, hanya fitur diameter maksimum inti yang dinilai tidak signifikan
mempengaruhi kelas karena memiliki p-value (signifikansi) lebih dari 0.05.
Pada regresi logistik koefisiennya akan sulit untuk diinterpretasikan secara
langsung. Oleh karena itu interpretasi akan dilakukan dengan menggunakan nilai
odds ratio. Odds adalah peluang terjadinya suatu kejadian dibandingkan peluang
tidak terjadinya kejadian tersebut. Jika peluang terjadinya suatu kejadian tersebut
sama dengan phi, maka odds dapat dinyatakan sebagai
odds =
π
1-π
sehingga odds ratio adalah nilai perbandingan dari dua odds.
Tabel 9 (kolom Exp (B)) menampilkan odds ratio antara odds masingmasing fitur dengan odds kelas target. Semua fitur termasuk konstanta yang
Tabel 7 Evaluasi terhadap model yang dibentuk
oleh regresi logistisk
Chi-square
df
Sig.
717.852
5
0.000
Block
717.852
5
0.000
Model
717.852
5
0.000
Step 1 Step
Tabel 8 Hasil uji klasifikasi oleh model regresi logistik
Predicted
Klasifikasi
Observed
Step 1 Klasifikasi 0 (normal)
1 (abnormal)
Persentasi keseluruhan
0
1
Percentage
Correct
200
42
82.6
20
655
97.0
93.2
15
Tabel 9 Hasil uji terhadap fitur - fitur yang digunakan
B
S.E.
Wald
df
Sig.
Exp(B)
Step 1a Intensitas
-0.043
0.007
33.498
1
0.000
0.958
Diameter
0.013
0.028
0.230
1
0.631
1.014
Keliling
0.061
0.011
28.814
1
0.000
1.063
Posisi
-3.003
0.781
14.781
1
0.000
0.050
Maksimum
sitoplasma
-0.004
0.001
46.093
1
0.000
0.996
Constant
-4.411
0.770
32.859
1
0.000
0.012
dihasilkan memiliki hubungan yang positif dengan kelas target. Interpretasi dari
odds ratio tersebut adalah:
1 Jika intensitas cahaya pada inti sel meningkat 1 Cd (Candela, satuan intensitas
cahaya) maka kecenderungan citra tersebut tergolong kepada kelas abnormal
menjadi 0.958 kali lipat lebih rendah. Jadi semakin tinggi intensitas cahaya
inti sel tersebut, semakin cenderung tergolong kepada kelas normal.
2 Semakin besar diameter dan keliling inti sel suatu data, data tersebut semakin
cenderung termasuk kepada kelas abnormal. Fitur diameter dan keliling inti
sel memiliki hubungan yang positif dengan kelas klasifikasi.
3 Inti sel yang berada tepat atau mendekati pusat sitoplasma cenderung
digolongkan sebagai sel yang abnormal. Posisi inti sel yang jauh dari pusat
sitoplasma memiliki peluang yang lebih besar dikenali sebagai sel normal.
4 Sel yang memiliki sitoplasma yang lebih besar dibandingkan dengan inti
selnya memiliki kecenderungan untuk tidak digolongkan sebagai sel abnormal.
SIMPULAN DAN SARAN
Simpulan
Program dapat mengklasifikasikan citra pap smear sel tunggal dengan
akurasi maksimum sebesar 97% untuk dua kelas target dan 9% untuk tujuh kelas
target. Rendahnya akurasi pada tujuh kelas target disebabkan oleh rentang atau
sebaran nilai fitur pada setiap kelas yang tidak jauh berbeda sehingga sistem sulit
menempatkan suatu data pada kelas yang tepat. Sebaliknya, pada dua kelas target
klasifikasi masing-masing kelas memiliki rentang atau sebaran nilai fitur yang
berbeda sehingga membantu proses klasifikasi. Dari lima fitur yang digunakan,
fitur yang tidak signifikan memberikan pengaruh terhadap kelas klasifikasi adalah
fitur diameter maksimum inti. Secara keseluruhan fitur yang digunakan telah baik
(informatif dan representatif) karena memiliki p-value kecil dari 0.05.
Pada penelitian ini terdapat fitur yang dependen yaitu fitur diameter
maksimum inti dengan keliling inti namun keberadaan fitur yang dependen
tersebut tidak berpengaruh terhadap akurasi. Hal ini dibuktikan dari akurasi
16
klasifikasi menggunakan empat fitur (salah satu fitur yang dependen tidak
digunakan) sama dengan akurasi klasifikasi yang menggunakan lima fitur.
Jadi metode Naïve Bayes memiliki kinerja yang sangat baik untuk
klasifikasi dua kelas target tapi untuk tujuh kelas target metode ini belum
menghasilkan akurasi yang tinggi karena sebaran nilai fitur pada setiap kelas
memiliki kemiripan.
Saran
Penelitian selanjutnya disarankan untuk menganalisis data secara kuantitatif
terlebih dahulu sehingga dapat menentukan dengan tepat metode yang akan
digunakan.
DAFTAR PUSTAKA
Giri EP. 2008. Model klasifikasi berbasiskan Association Rules untuk Biomedical
Image Retrieval System (studi kasus: citra pap smear) [tesis]. Depok (ID):
Universitas Indonesia.
Kurniawan R, Sasmito DEK, Suryani F. 2013. Klasifikasi sel serviks
menggunakan analisis fitur nuclei pada citra pap smear. Di dalam Seminar
Nasional Informatika Medis 2013 [Internet]. Yogyakarta (2013 Nov 9).
Yogyakarta
(ID);
[diunduh
2014
Apr
21].
Tersedia
pada:
http://fit.uii.ac.id/files/snimed/2013/006.pdf.
Martinez M, Sucar LE, Acosta HG, Cruz N. 2006. Bayesian model combination
and its application to cervical cancer detection. Di dalam: Sichman JS, Coelho
H, Rezende SO, editor. Advances in Artificial Intelligence – IBERAMIA – SBIA
2006; 2006 Okt 23–27; Ribeirao Preto, Brazil. Berlin (DE): Springer Berlin
Heidelberg. hlm 622-631.
Nurranna L, Aziz MF, Cornain S, Purwoto G, Purbadi S. 2012. Cervical cancer
prevention program in Jakarta, Indonesia: See and treat model in developing
country. Journal of Gynecologic Oncology. 23(3): 147-152. doi:
10.3802/jgo.2012.23.3.147.
Prasetyo E. 2011. Pengolahan Citra Digital dan Aplikasinya Menggunakan
Matlab. Yogyakarta (ID): ANDI.
Prasetyo E. 2012. Data Mining Konsep dan Aplikasi Menggunakan Matlab.
Yogyakarta (ID): ANDI.
Putra D. 2010. Pengolahan Citra Digital. Yogyakarta (ID): ANDI.
17
LAMPIRAN
Lampiran 1 Tujuh citra sel pap smear asli dan hasil segmentasi modul CHAMP
Normal
superficial
Normal
intermediate
Normal
columnar
Light
dysplasia
Moderate
dysplasia
Severe
dysplasia
Carcinoma
in situ
Citra asli (RGB)
Citra hasil segmentasi modul CHAMP
Lampiran 2 Sampel nilai lima fitur pada data citra kelas normal superficial
Data
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Intensitas cahaya
inti
86.34293
82.07096
78.38782
70.58545
77.45886
76.9898
74.25209
67.9839
70.61702
72.47975
74.23429
76.12358
73.69318
79.80452
64.07856
Diameter maksimum
inti
34.82815
30.80584
38.32754
29.83287
31.257
33.30165
34.53983
31.7805
26.30589
33.61547
33.61547
36.40055
30.08322
35.35534
31.06445
Keliling inti
Posisi inti
101.375
85.25
111.75
81
87.875
93.125
92.5
83.875
77.5
88.75
92.125
96
85
96
85.25
0.230067
0.043701
0.14115
0.079801
0.121304
0.169188
0.062489
0.2011153
0.182526
0.169581
0.181696
0.31006
0.232431
0.140712
0.149395
Maksimum
sitoplasma
674
482
2294
2944
3050
1983
3806
2199
3127
2239
1606
1932
1112
2645
1571
18
Lampiran 3 Sampel nilai lima fitur pada data citra kelas carcinoma in situ
Data
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Intensitas cahaya
inti
115.9272
134.0267
95.45186
106.2089
83.98065
122.6021
85.45121
142.0622
122.3841
132.0261
127.7329
79.86122
76.57464
84.32426
70.58927
Diameter
maksimum inti
75.50497
81.78631
66.85058
66.0303
62.96825
81.9329
59.5063
82.9759
145.279
107.8378
82.21922
83.24062
76.00658
71.02112
57.55867
Keliling inti
Posisi inti
229.625
208.5
181.125
198.25
151.875
259.75
164.75
285.375
411.375
365.25
293
223.625
269.125
179.25
200
0.582529
0.343481
0.177919
0.302238
0.065234
0.123775
0.494562
0.389702
0.552429
0.182104
0.12582
0.180499
0.196989
0.147333
0.297484
Maksimum
sitoplasma
49
67
42
48
53
51
52
178
50
108
69
69
72
67
72
19
RIWAYAT HIDUP
Penulis dilahirkan di Batusangkar, Sumatera Barat pada tanggal 19
November 1991. Penulis merupakan anak ketiga dari 3 bersaudara dari ayah
Harmen Kasudi dan ibu Hernayetti. Penulis menamatkan pendidikan di SMA
Negeri 1 Batusangkar pada tahun 2009. Pada tahun yang sama, penulis lulus
seleksi masuk Institut Pertanian Bogor (IPB) di Departemen Ilmu Komputer,
Fakultas Matematika dan Ilmu Pengetahuan Alam melalui jalur Seleksi Nasional
Masuk Perguruan Tinggi Negeri (SNMPTN).
Selama mengikuti perkuliahan, penulis aktif di organisasi Ikatan Keluarga
Muslim TPB (IKMT) pada tahun 2009-2010 dan di organisasi kemahasiswaan
Himpunan Mahasiswa Ilmu Komputer (Himalkom) pada tahun 2010-2011. Pada
tahun 2010 penulis menjadi salah satu anggota MSP (Microsoft Student Partner)
perwakilan IPB. Penulis juga menjadi Senior Residence (SR) asrama putri TPB
(Tingkat Persiapan Bersama) IPB pada tahun 2011-2012. Selain itu penulis juga
terlibat dalam berbagai kepanitiaan seperti Open House IPB (2010), IT Today
(2010 dan 2011), Masa Perkenalan Departemen (2011), dan lain lain. Penulis juga
mengikuti lomba Program Kreativitas Mahasiswa (PKM) pada tahun 2010 dan
2013. Penulis melaksanakan kegiatan Praktik Kerja Lapangan di kantor pusat
Bank Rakyat Indonesia (BRI) divisi Teknologi dan Sistem Informasi (TSI) pada
bulan Juli – Agustus 2012.
PAP SMEAR DENGAN KLASIFIKASI NAÏVE BAYES
DIAN LESTARI AULIANI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Deteksi Kanker Serviks
Berdasarkan Citra Sel Pap Smear dengan Klasifikasi Naïve Bayes adalah benar
karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam
bentuk apapun kepada perguruan tinggi mana pun. Sumber informasi yang berasal
atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain
telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian
akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Agustus 2014
Dian Lestari Auliani
NIM G64090102
ABSTRAK
DIAN LESTARI AULIANI. Deteksi Kanker Serviks Berdasarkan Citra Sel Pap
Smear dengan Klasifikasi Naïve Bayes. Dibimbing oleh HARI AGUNG
ADRIANTO.
Tingginya angka kematian pada pengidap kanker serviks salah satunya
disebabkan oleh keterlambatan penanganan secara medis. Hal ini juga dapat
diakibatkan oleh pendeteksian kanker serviks secara manual yang sarat potensi
kesalahan prosedur atau human error. Salah satu solusi yang dapat dilakukan
adalah dengan mengotomatisasi pendeteksian kanker serviks berdasarkan citra sel
pap smear. Penelitian ini menggunakan metode Naïve Bayes untuk
mengidentifikasi sel normal dan abnormal serta mengelompokkannya ke dalam
tujuh kelas yang lebih spesifik. Data yang digunakan adalah data citra sel tunggal
pap smear. Penelitian ini menitikberatkan kepada metode klasifikasi dan tidak
melakukan proses segmentasi serta ekstraksi ciri. Hasil yang diperoleh
menunjukkan akurasi 97% untuk dua kelas klasifikasi dan 9% untuk tujuh kelas
klasifikasi. Rendahnya akurasi pada tujuh kelas klasifikasi disebabkan oleh
terjadinya overlapping pada fitur-fitur yang digunakan. Metode klasifikasi Naïve
Bayes memberikan hasil yang memuaskan pada klasifikasi dua kelas target, tetapi
metode ini belum memberikan hasil yang baik untuk klasifikasi tujuh kelas target.
Kata kunci: citra sel pap smear, kanker serviks, klasifikasi Naïve Bayes
ABSTRACT
DIAN LESTARI AULIANI. Detection of Cervical Cancer Based on Pap Smear
Cell Images and Naïve Bayes Classification. Supervised by HARI AGUNG
ADRIANTO.
One cause of the high mortality rate in patients with cervical cancer is late
medical treatment. It can also be caused by the manual detection of cervical
cancer that is ridden by potential procedural or human errors. One of the solutions
that can be done is automating the detection of cervical cancer using pap smear
cell image. This study uses the Naïve Bayes method to identify normal and
abnormal cells and group them into seven more specific classes. The data used is
single cell images from pap smear. This research focuses on a classification
method and does not perform segmentation and feature extraction process. The
results showed 97% accuracy for two-class classification and 9% for the sevenclass classification. The low accuracy in classification of seven classes is caused
by overlapping on the features used. Naïve Bayes gives satisfactory results on the
two-class classification but for the seven-class classification this method has not
given good results.
Keywords: cervical cancer, Naïve Bayes classification, pap smear cell image
DETEKSI KANKER SERVIKS BERDASARKAN CITRA SEL
PAP SMEAR DENGAN KLASIFIKASI NAIVE BAYES
DIAN LESTARI AULIANI
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014
Penguji:
1 Endang Purnama Giri, SKom MKom
2 Dr Yeni Herdiyeni, SSi MKom
Judul Skripsi : Deteksi Kanker Serviks Berdasarkan Citra Sel Pap Smear dengan
Klasifikasi Naïve Bayes
Nama
: Dian Lestari Auliani
NIM
: G64090102
Disetujui oleh
Hari Agung Adrianto, SKom MSi
Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Tanggal Lulus:
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Juni 2013 ini adalah
pendeteksian kanker, dengan judul Deteksi Kanker Serviks Berdasarkan Citra Sel
Pap Smear dengan Klasifikasi Naïve Bayes.
Terima kasih penulis ucapkan kepada pihak- pihak yang telah membantu
dalam penyelesaian tugas akhir ini, yaitu:
1 Ayahanda Harmen Kasudi, Ibunda Hernayetti, kakak Yetha Rezika
Harmen, dan kakak Yetha Mega Hayati, serta seluruh keluarga atas
segala doa, dukungan, dan kasih sayangnya.
2 Bapak Hari Agung Adrianto, SKom MSi selaku dosen pembimbing yang
telah memberikan arahan dan bimbingan kepada penulis dalam
menyelesaikan tugas akhir ini.
3 Ibu Dr Ir Sri Nurdiati MSc atas bantuan dan arahan kepada penulis.
4 Bapak Endang Purnama Giri, SKom MKom dan Ibu Dr Yeni Herdiyeni,
SSi MKom selaku dosen penguji.
5 Rekan – rekan di Departemen Ilmu Komputer angkatan 45 dan 46 atas
segala kebersamaan, motivasi, semangat, dukungan, masukan, dan saran
selama proses pengerjaan skripsi ini.
6 Teman-teman yang tidak dapat disebutkan satu per satu atas bantuan,
kebersamaan, dan dukungannya.
7 Seluruh staf Departemen Ilmu Komputer IPB atas layanan terbaik yang
telah diberikan.
Semoga karya ilmiah ini bermanfaat.
Bogor, Agustus 2014
Dian Lestari Auliani
DAFTAR ISI
DAFTAR ISI
vii
DAFTAR TABEL
viii
DAFTAR GAMBAR
viii
PENDAHULUAN
1
Latar Belakang
1
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE
2
Data Citra Sel Pap Smear
3
Ekstraksi Ciri
4
K-Fold Cross Validation
5
Klasifikasi
5
Evaluasi
6
HASIL DAN PEMBAHASAN
SIMPULAN DAN SARAN
6
15
Simpulan
15
Saran
16
DAFTAR PUSTAKA
16
LAMPIRAN
17
RIWAYAT HIDUP
19
DAFTAR TABEL
1
2
3
4
5
6
7
8
9
Rincian jumlah data
Subset data latih dan data uji
Akurasi setiap subset pada dua dan tujuh kelas target
Confusion matrix dengan akurasi maksimum pada dua kelas target
Confusion matrix dengan akurasi maksimum pada tujuh kelas target
Matriks korelasi antar fitur
Evaluasi terhadap model yang dibentuk oleh regresi logistik
Hasil uji klasifikasi oleh model regresi logistik
Hasil uji terhadap fitur - fitur yang digunakan
4
5
7
7
7
13
14
14
15
DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
11
12
Alur penelitian
Citra asli (kiri) dan citra hasil segmentasi modul CHAMP (kanan)
Sebaran nilai fitur intensitas cahaya inti pada tujuh kelas klasifikasi
Sebaran nilai fitur diameter inti pada tujuh kelas klasifikasi
Sebaran nilai fitur keliling inti pada tujuh kelas klasifikasi
Sebaran nilai fitur posisi inti pada tujuh kelas klasifikasi
Sebaran nilai fitur maksimum sitoplasma pada tujuh kelas klasifikasi
Sebaran nilai fitur intensitas inti pada dua kelas klasifikasi
Sebaran nilai fitur diameter inti pada dua kelas klasifikasi
Sebaran nilai fitur keliling inti pada dua kelas klasifikasi
Sebaran nilai fitur posisi inti pada dua kelas klasifikasi
Sebaran nilai fitur maksimum sitoplasma pada dua kelas klasifikasi
3
3
8
9
9
10
10
11
11
12
12
13
LAMPIRAN
1 Tujuh citra sel pap smear asli dan hasil segmentasi modul CHAMP
2 Sampel nilai lima fitur pada data citra kelas normal superficial
3 Sampel nilai lima fitur pada data citra kelas carcinoma in situ
17
17
18
PENDAHULUAN
Latar Belakang
Data WHO pada tahun 2010 menunjukkan bahwa 13762 kasus baru terjadi
setiap tahunnya dan 7493 orang wanita meninggal dunia akibat kanker serviks di
Indonesia. Menurut data dari 13 pusat patologi di Indonesia kanker serviks berada
pada peringkat pertama di antara semua kanker (23,43% dari 10 jenis kanker
paling umum di kalangan laki-laki dan perempuan serta 31% dari 10 jenis kanker
paling umum di kalangan wanita)(Nuranna et al. 2012).
Tingginya jumlah kasus dan angka kematian disebabkan oleh tidak adanya
gejala yang dirasakan oleh pengidap kanker serviks pada stadium awal. Gejala
mulai dirasakan ketika kanker telah berada pada stadium lanjut sehingga
penanganan medis sulit dilakukan. Menurut Nuranna et al.(2012) sekitar 70%
pengidap yang datang ke rumah sakit telah berada pada stadium lanjut.
Oleh karena itu banyak penelitian yang dilakukan untuk menghasilkan
metode pendeteksian dini terhadap kanker serviks. Salah satu metode yang
populer dan banyak digunakan oleh negara-negara di dunia, termasuk Indonesia,
adalah metode pap smear. Pap smear merupakan suatu metode pemeriksaan selsel yang diambil dari leher rahim dan kemudian diperiksa di bawah mikroskop
(Kurniawan et al. 2013).
Di negara-negara maju, proses skrining secara rutin dengan pap smear dapat
menekan angka kejadian dan angka kematian hingga 70-80% dan 90% (Nuranna
et al. 2012). Kendala utama yang dihadapi oleh negara berkembang seperti
Indonesia untuk menerapkan metode pap smear adalah keterbatasan jumlah ahli
patologi anatomi di Indonesia. Ahli patologi anatomi memiliki peran penting
untuk memberikan diagnosa atau menginterpretasikan sel pap smear. Data dari
IAPI (Ikatan Ahli Patologi Indonesia) pada tahun 2010, terdapat 292 patolog yang
harus melayani penduduk Indonesia yang berjumlah 237 juta orang (data dari BPS
2010) (Nuranna et al. 2012). Selain itu interpretasi visual citra pap smear secara
manual memiliki banyak keterbatasan, membutuhkan waktu yang lama, dan
rawan kesalahan prosedur (Kurniawan et al. 2013). Hal ini menyebabkan perlunya
sistem pendeteksian kanker serviks secara otomatis.
Banyak penelitian yang telah dilakukan dengan berbagai metode untuk
otomatisasi deteksi kanker serviks. Giri (2008) menerapkan pendekatan kualitatif
untuk tahap ekstraksi fitur yang selanjutnya dianalisis menggunakan Association
Rules. Penelitian Giri (2008) menghasilkan nilai akurasi sebesar 38.48% untuk
tujuh kelas klasifikasi sel dan 89.14% untuk dua kelas klasifikasi sel. Martinez et
al.(2006) mendeteksi kanker serviks dengan cara menggabungkan beberapa model
serta mengambil atribut yang relevan dari model-model tersebut dengan
menggunakan pendekatan Bayesian. Penelitian tersebut mengeliminasi atribut
yang tidak relevan dan dependen. Akurasi penelitian tersebut mencapai 89%
dengan menggunakan metode Naïve Bayes.
Metode klasifikasi Naïve Bayes mengasumsikan fitur-fitur yang terlibat
bersifat independen sehingga tidak ada keterkaitan antar fitur. Fitur yang
digunakan pada penelitian ini mengadopsi fitur-fitur pada penelitian Giri (2008)
2
yang bersifat independen berdasarkan penilaian secara subjektif sehingga Naïve
Bayes dianggap mampu mengklasifikasikan data dengan baik.
Tujuan Penelitian
Tujuan penelitian ini adalah menerapkan metode Naïve Bayes pada sistem
pendeteksian kanker serviks berbasis citra pap smear.
Manfaat Penelitian
Manfaat yang diperoleh dari penelitian ini yaitu dihasilkan suatu sistem
berbasis citra yang mampu mendeteksi kanker serviks berdasarkan ciri morfologi
dan intensitas cahaya pada objek. Diharapkan sistem tersebut dapat membantu
tenaga medis dan ahli patologi anatomi untuk mendeteksi kanker serviks secara
otomatis. Dengan demikian dapat mengurangi angka kematian pengidap yang
disebabkan oleh keterlambatan penanganan medis.
Ruang Lingkup Penelitian
1
2
3
4
5
Lingkup dari penelitian ini, yaitu:
Penelitian ini dibatasi pada citra pap smear sel tunggal.
Penelitian ini tidak melakukan proses segmentasi dan ekstraksi ciri.
Penelitian ini mengadopsi hasil ekstraksi ciri pada penelitian Giri (2008)
dengan fitur intensitas cahaya, diameter terpanjang, keliling, dan posisi
nukleus, serta jumlah piksel maksimal dalam jendela ketetanggaan 3x3 pada
sitoplasma.
Proses klasifikasi dilakukan untuk dua kelas (normal dan abnormal) dan
tujuh kelas, yaitu: kelas normal superficial, normal intermediate, normal
columnar, light dysplasia, moderate dysplasia, severe dysplasia, dan
carcinoma in situ.
Menggunakan metode klasifikasi Naïve Bayes.
METODE
Secara garis besar alur penelitian ini dapat dilihat pada Gambar 1. Penelitian
ini meliputi tahapan pengunduhan data citra sel pap smear, ekstraksi ciri citra,
pembagian data uji dan data latih menggunakan cross validation, klasifikasi
menggunakan Naïve Bayes, dan evaluasi.
3
Gambar 1 Alur penelitian
Data Citra Sel Pap Smear
Data yang digunakan pada penelitian ini adalah data citra sel tunggal pap
smear yang disusun oleh DTU (Technical University of Denmark) dan Herlev
University Hospital di Denmark. Data ini dapat diakses dan digunakan secara
bebas untuk keperluan akademik pada situs University of the Aegean
(http://labs.fme.aegean.gr/decision/downloads).
Data tersebut berjumlah 917 pasang citra sel tunggal pap smear yang secara
umum terbagi menjadi 242 pasang kelas normal dan 675 pasang kelas abnormal
(Tabel 1). Satu pasang citra terdiri atas citra asli dan citra hasil segmentasi modul
CHAMP, aplikasi berbayar yang dikeluarkan oleh DIMAC (perusahaan yang
membangun software di Denmark). Contoh satu pasang citra dapat dilihat pada
Gambar 2. Pada gambar tersebut nukleus ditandai dengan warna biru muda,
sitoplasma ditandai warna biru tua, dan latar belakang ditandai warna merah.
Gambar 2 Citra asli (kiri) dan citra hasil
segmentasi modul CHAMP
(kanan)
4
Tabel 1 Rincian jumlah data
No
1.
2.
3.
4.
5.
6.
7.
Tipe Sel
Normal Superficial
Normal Intermediate
Normal Columnar
Light Dysplasia
Moderate Dysplasia
Severe Dysplasia
Carcinoma in Situ
Kategori
Normal
Normal
Normal
Abnormal
Abnormal
Abnormal
Abnormal
Jumlah
74
70
98
182
146
197
150
Total
242
675
Secara lebih rinci data citra sel dapat dibagi menjadi 7 kelas, yaitu: normal
superficial, normal intermediate, normal columnar, light dysplasia, moderate
dysplasia, severe dysplasia, dan carcinoma in situ. Contoh citra masing-masing
kelas disajikan pada Lampiran 1.
Ekstraksi Ciri
Penelitian ini tidak melakukan proses ekstraksi ciri sehingga fitur dan nilai
fitur yang digunakan pada penelitian ini disadur dari penelitian Giri (2008). Giri
(2008) melakukan seleksi fitur dari 20 fitur yang digunakan pada penelitian
Martin (2003) dengan menggunakan metode SFFS (Sequential Floating Forward
Selection). Kelima fitur tersebut adalah:
1 Derajat intensitas cahaya nukleus
Derajat intensitas cahaya nukleus dihitung dari nilai rata-rata intensitas
cahaya yang dimiliki oleh area nukleus dengan menggunakan rumus:
Y = 0.299 x Red + 0.587 x Green + 0.114 x Blue
Y melambangkan luminance, salah satu koordinat ruang warna untuk
sistem transmisi atau model warna NTSC (National Television System
Committee). NTSC merupakan komite nasional yang menciptakan standar
warna (RN, GN, BN) untuk pesawat penerima televisi (Putra, 2010). Komponen
luminance merepresentasikan informasi grayscale (Prasetyo, 2011) sedangkan
nilai Red, Green, dan Blue merupakan nilai rataan intensitas untuk setiap
warna. Setiap bobotnya merupakan ukuran yang merepresentasikan intensitas
cahaya yang diterima secara persepsi oleh mata manusia bagi setiap warna
(Giri, 2008).
2 Diameter terpanjang nukleus
Merupakan diameter terkecil dari sebuah lingkaran yang dapat dibentuk
untuk mengelilingi sebuah nukleus. Dapat diukur sebagai jarak terpanjang di
antara dua piksel pada area lingkar luar nukleus (Giri, 2008).
3 Perimeter nukleus atau keliling nukleus
Keliling nukleus didapatkan dengan menghitung jumlah piksel yang
terdapat pada tepi citra nukleus (Giri, 2008).
4 Posisi nukleus
5
5
Dihitung dengan mencari jarak antara pusat nukleus dengan pusat sitoplasma
(Giri, 2008).
Maksimum sitoplasma
Merupakan jumlah piksel berlabel sitoplasma yang berada pada jendela
ketetanggaan ukuran 3x3 yang berisi piksel sitoplasma terbanyak. Nilai ini
dapat dihitung dengan menentukan jumlah piksel terbanyak yang ada pada
sebuah jendela ketetanggaan 3x3 terlebih dahulu, misal sebanyak 6 piksel.
Selanjutnya ditentukan berapa banyak jendela ketetanggaan 3x3 yang berisi
piksel sitoplasma terbanyak tersebut, misal ada 10 jendela. Maka nilai
maksimum sitoplasma adalah 6x10 yaitu 60 piksel (Giri, 2008).
Nilai masing-masing fitur yang diwakili oleh 15 data untuk kelas normal
superficial (mewakili kelas normal) dan carcinoma in situ (mewakili kelas
abnormal) tersedia pada Lampiran 2 dan Lampiran 3.
K-Fold Cross Validation
Seluruh data hasil ekstraksi ciri dibagi menjadi data latih dan data uji
dengan menggunakan metode k-fold cross validation dengan menggunakan
kombinasi k = 10. Data akan dibagi menjadi 10 subset (S1, S2, S3, S4, S5, S6, S7, S8,
S9, S10). Data latih menggunakan k-1 subset dan 1 subset sebagai data uji.
Kemudian diulangi pada tahap kedua dengan menggunakan data pengujian yang
berbeda (Giri 2008). Subset yang digunakan untuk data latih dan data uji secara
lengkap disajikan pada Tabel 2.
Klasifikasi
Klasifikasi dapat dilakukan setelah data hasil ekstraksi ciri terbagi menjadi
data latih dan data uji. Ada dua macam kelas target pada penelitian ini yaitu dua
kelas dan tujuh kelas. Pada target dua kelas, data dipetakan pada kategori normal
dan abnormal. Sementara itu pada target tujuh kelas data terbagi pada kategori
yang lebih rinci, yaitu kelas normal superficial, normal intermediate, normal
columnar, light dysplasia, moderate dysplasia, severe dysplasia, dan carcinoma
in situ.
Tabel 2 Subset data latih dan data uji
Subset ke1
2
3
4
5
6
7
8
9
10
Data latih
S2, S3, S4, S5, S6, S7, S8, S9, S10
S1, S3, S4, S5, S6, S7, S8, S9, S10
S1, S2, S4, S5, S6, S7, S8, S9, S10
S1, S2, S3, S5, S6, S7, S8, S9, S10
S1, S2, S3, S4, S6, S7, S8, S9, S10
S1, S2, S3, S4, S5, S7, S8, S9, S10
S1, S2, S3, S4, S5, S6, S8, S9, S10
S1, S2, S3, S4, S5, S6, S7, S9, S10
S1, S2, S3, S4, S5, S6, S7, S8, S10
S1, S2, S3, S4, S5, S6, S7, S8, S9
Data uji
S1
S2
S3
S4
S5
S6
S7
S8
S9
S10
6
Penelitian ini menggunakan metode klasifikasi Naïve Bayes. Metode Naïve
Bayes merupakan teknik prediksi berbasis probabilistik sederhana yang berdasar
pada penerapan teorema Bayes dengan asumsi independensi yang kuat (Prasetyo,
2012). Oleh karena itu suatu fitur tidak terikat atau terpengaruh oleh keberadaan
fitur lain pada data yang sama. Teorema Bayes dirumuskan sebagai :
P H|E1,E2,E3 =
P(E1|H) x P(E2|H) x P(E3|H) x P(H)
P(E1) x P(E2) x P(E3)
Keterangan:
P (H|Ei) = Probabilitas akhir bersyarat suatu hipotesis H terjadi jika E ke-i terjadi
P (Ei|H) = Probabilitas sebuah bukti E ke-i akan memengaruhi hipotesis H
P (H) = Probabilitas H terjadi tanpa memandang bukti apapun
P (Ei) = Probabilitas E ke-i terjadi tanpa memandang hipotesis atau bukti yang
lain.
Dalam hal klasifikasi, H merupakan atribut kelas yang menjadi target
klasifikasi dan E merupakan fiturnya. Jadi teorema Bayes tersebut dapat diartikan
sebagai peluang atau probabilitas perolehan kelas H setelah fitur-fitur E diamati.
Proses pengamatan ini disebut juga sebagai proses pembelajaran untuk
membangun model dari setiap kombinasi H dengan semua fitur E berdasarkan
informasi yang didapatkan dari data latih (Prasetyo, 2012).
Proses pelatihan dilakukan dengan menggunakan data latih untuk
membentuk suatu model yang digunakan untuk menentukan kelas data uji.
Peluang setiap data uji terhadap masing-masing kelas target dihitung. Nilai
peluang terbesar yang dihasilkan data uji merepresentasikan kelas data uji tersebut.
Evaluasi
Evaluasi dilakukan berdasarkan nilai akurasi klasifikasi yang dihitung
dengan persamaan:
akurasi =
∑ data uji benar
× 100%
∑ data uji
HASIL DAN PEMBAHASAN
Proses klasifikasi pada penelitian ini menggunakan metode Naïve Bayes.
Dalam teorema Bayes, suatu model dibangun berdasarkan kombinasi setiap fitur
yang ada dengan tiap-tiap kelas yang diamati dari data latih. Setelah itu data uji
diproses menggunakan model yang telah dibentuk untuk menentukan kelasnya.
Kelas dengan nilai peluang tertinggi dipilih sebagai kelas dari data uji tersebut.
Pemisahan data uji dan data latih menggunakan metode k-fold cross validation
dengan nilai k = 10. Pada penelitian ini proses klasifikasi dilakukan untuk dua
kelas target dan tujuh kelas target. Akurasi setiap subset pada klasifikasi dua kelas
dan tujuh kelas dapat dilihat pada Tabel 3.
7
Klasifikasi dua kelas target memiliki akurasi maksimum 97% dengan error
rate 3% saat menggunakan S6 sebagai data uji dan subset lainnya sebagai data
latih. Klasifikasi tujuh kelas target memiliki akurasi maksimum yang sangat
rendah yaitu 9% dengan error rate yang sangat tinggi yaitu 91%. Confusion
matrix dengan akurasi maksimum pada dua dan tujuh kelas target disajikan pada
Tabel 4 dan Tabel 5.
Tabel 3 Akurasi setiap subset pada dua dan tujuh kelas target
Dua kelas target
Akurasi
Error rate
(%)
(%)
88
12
88
12
87
13
89
11
90
10
97
3
91
9
92
8
91
9
94
6
97
4
91
9
Subset
1
2
3
4
5
6
7
8
9
10
Maksimum
Rata-rata
Tujuh kelas target
Akurasi
Error rate
(%)
(%)
7
93
7
93
8
92
9
91
8
92
8
92
9
92
7
93
8
92
8
92
9
91
8
92
Tabel 4 Confusion matrix dengan akurasi maksimum pada dua
kelas target
Kelas sel
Normal
Abnormal
Normal
22
1
Abnormal
2
66
Akurasi
92%
99%
Tabel 5 Confusion matrix dengan akurasi maksimum pada tujuh
kelas target
Kelas sel
1
2
3
4
5
6
7
1
8
Keterangan tabel:
1 = Normal superficial
2 = Normal intermediate
3 = Normal columnar
2
3
4
5
6
7
8
2
1
7
2
1
3
3
4
5
1
4
6
12
7
7
2
7
2
Akurasi (%)
100
100
70
44
14
25
80
8
4 = Light dysplasia
5 = Moderate dysplasia
6 = Severe dysplasia
7 = Carcinoma in situ
Jika dilihat dari akurasi per kelas pada tujuh kelas klasifikasi, terdapat tiga
kelas yang memiliki akurasi paling rendah yaitu kelas light dysplasia (kelas 4),
moderate dysplasia (kelas 5), dan severe dysplasia (kelas 6). Pada confusion
matrix tujuh kelas target, kelas 4, 5, dan 6 banyak dikenali sebagai kelas lain
sehingga akurasinya rendah. Rendahnya akurasi ini disebabkan oleh nilai fitur
antar kelas memiliki kemiripan sehingga sistem kesulitan mengidentifikasi kelas
suatu data dengan tepat. Gambar 3, 4, 5, 6, dan 7 menunjukkan sebaran nilai
masing-masing fitur di setiap tujuh kelas target dengan menggunakan diagram
boxplot. Gambar 3 menunjukkan bahwa kelas 3 hingga kelas 7 memiliki rentang
nilai yang hampir sama pada fitur intensitas cahaya inti. Kasus yang serupa juga
terlihat pada fitur diameter, keliling, dan posisi inti serta maksimum pada
sitoplasma (Gambar 4, 5, 6, dan 7) yang sebagian besar terjadi pada kelas light
dysplasia, moderate dysplasia, severe dysplasia, dan carcinoma in situ (kelas 4, 5,
6 dan 7).
Gambar 8, 9, 10, 11, dan 12 menampilkan diagram boxplot masing-masing
fitur dengan dua kelas klasifikasi. Dari diagram-diagram tersebut terlihat bahwa
pada umumnya sebaran nilai setiap fitur pada masing-masing kelas dapat
dibedakan dengan baik sehingga sangat membantu proses klasifikasi. Pada
diagram tersebut kelas 0 mewakili kelas normal sedangkan kelas 1 mewakili kelas
abnormal.
Sebaran Nilai Fitur Intensitas Inti pada Tujuh Kelas Klasifikasi
180
160
Intensitas inti
140
120
100
80
60
40
20
0
1
2
3
4
Kelas klasifikasi
5
6
7
Gambar 3 Sebaran nilai fitur intensitas cahaya inti pada tujuh kelas klasifikasi
9
Sebaran Nilai Fitur Diameter Inti pada Tujuh Kelas Klasifikasi
160
140
Diameter inti
120
100
80
60
40
20
0
1
2
3
4
Kelas klasifikasi
5
6
7
Gambar 4 Sebaran nilai fitur diameter inti pada tujuh kelas klasifikasi
Sebaran Nilai Fitur Keliling Inti pada Tujuh Kelas Klasifikasi
450
400
Keliling inti
350
300
250
200
150
100
50
1
2
3
4
Kelas klasifikasi
5
6
7
Gambar 5 Sebaran nilai fitur keliling inti pada tujuh kelas klasifikasi
10
Sebaran Nilai Fitur Posisi Inti pada Tujuh Kelas Klasifikasi
0.9
0.8
0.7
Posisi inti
0.6
0.5
0.4
0.3
0.2
0.1
0.0
1
2
3
4
Kelas klasifikasi
5
6
7
Gambar 6 Sebaran nilai fitur posisi inti pada tujuh kelas klasifikasi
Sebaran Nilai Fitur Maksimum Sitoplasma pada Tujuh Kelas Klasifikasi
Maksimum sitoplasma
4000
3000
2000
1000
0
1
Gambar 7
2
3
4
Kelas klasifikasi
5
6
7
Sebaran nilai fitur maksimum sitoplasma pada tujuh kelas
klasifikasi
11
Sebaran Nilai Fitur Intensitas Inti pada Dua Kelas Klasifikasi
180
160
Intensitas inti
140
120
100
80
60
40
20
0
0
1
Kelas klasifikasi
Gambar 8 Sebaran nilai fitur intensitas inti pada dua kelas klasifikasi
Sebaran Nilai Fitur Diameter Inti pada Dua Kelas Klasifikasi
160
140
Diameter inti
120
100
80
60
40
20
0
0
1
Kelas klasifikasi
Gambar 9 Sebaran nilai fitur diameter inti pada dua kelas klasifikasi
12
Sebaran Nilai Fitur Keliling Inti pada Dua Kelas Klasifikasi
450
400
Keliling inti
350
300
250
200
150
100
50
0
1
Kelas klasifikasi
Gambar 10 Sebaran nilai fitur keliling inti pada dua kelas klasifikasi
Sebaran Nilai Fitur Posisi Inti pada Dua Kelas Klasifikasi
0.9
0.8
0.7
Posisi inti
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
1
Kelas klasifikasi
Gambar 11 Sebaran nilai fitur posisi inti pada dua kelas klasifikasi
13
Sebaran Nilai Fitur Maksimum Sitoplasma pada Dua Kelas Klasifikasi
Maksimum sitoplasma
4000
3000
2000
1000
0
0
1
Kelas klasifikasi
Gambar 12
Sebaran nilai fitur maksimum sitoplasma pada dua kelas
klasifikasi
Untuk melihat hubungan atau asosiasi antar fitur, dilakukan perhitungan
nilai korelasi terhadap nilai-nilai fitur tersebut. Matriks korelasi antar fitur
ditampilkan pada Tabel 6. Sebagian besar fitur bersifat independen, terlihat dari
nilai korelasi antar fitur yang mendekati 0. Akan tetapi terdapat dua fitur yang
saling berhubungan (nilai korelasi mendekati 1) yaitu fitur diameter maksimum
dengan keliling inti sel. Meskipun demikian keberadaan fitur yang dependen ini
tidak memberikan pengaruh yang cukup besar terhadap proses klasifikasi. Hal ini
dibuktikan dari akurasi proses klasifikasi dua kelas dan tujuh kelas target yang
hanya menggunakan empat fitur (salah satu fitur yang dependen tidak digunakan)
sama dengan akurasi klasifikasi yang menggunakan lima fitur. Jadi Naïve Bayes
telah mengasumsikan bahwa kedua fitur yang dependen tersebut bersifat
independen.
Dalam proses klasifikasi terdapat fitur yang memberikan pengaruh paling
besar yang dapat dilihat dari hasil pemodelan regresi logistik. Metode regresi
logistik digunakan untuk membentuk model hubungan antara variabel terikat
dengan satu atau lebih variabel bebas secara non-linier. Variabel terikat yang
digunakan bersifat dikotomi (terdiri atas dua nilai) yang mewakili kemunculan
atau tidak adanya suatu kejadian yang biasanya diberi angka 0 atau 1. Dalam
Tabel 6 Matriks korelasi antar fitur
Intensitas inti
Diameter inti
Keliling inti
Posisi inti
Maksimum sitoplasma
Intensitas
inti
1
0.48
0.5
0.14
-0.33
Diameter
maksimum inti
0.48
1
0.96
0.09
-0.39
Keliling
inti
0.5
0.96
1
0.11
-0.37
Posisi inti
0.14
0.09
0.11
1
-0.28
Maksimum
sitoplasma
-0.33
-0.39
-0.37
-0.28
1
14
penelitian ini yang berlaku sebagai variabel terikat adalah dua kelas target
sedangkan yang menjadi variabel bebas adalah lima fitur yang digunakan.
Model yang dihasilkan oleh regresi logistik memiliki p-value (sig) sebesar 0
hal ini menyatakan bahwa terdapat minimal satu fitur yang signifikan
mempengaruhi kelas (Tabel 7) sehingga model dapat digunakan untuk analisis
lebih lanjut. Secara keseluruhan model yang dihasilkan oleh regresi logistik sangat
baik karena mampu memodelkan data hingga 93.2% (Tabel 8).
Pada regresi dikenal istilah H0 dan H1 untuk menyatakan hipotesis terhadap
suatu kejadian. Tabel 9 menampilkan fitur-fitur yang digunakan serta p-value
masing-masing fitur. Oleh karena itu, pada kasus ini hipotesis yang digunakan
adalah variabel fitur X tidak signifikan mempengaruhi kelas klasifikasi (H0) dan
variabel fitur X signifikan mempengaruhi kelas klasifikasi (H1). Keputusan tolak
H0 digunakan saat nilai signifikansi < 0.05 (Tabel 9). Dari kelima fitur yang
digunakan, hanya fitur diameter maksimum inti yang dinilai tidak signifikan
mempengaruhi kelas karena memiliki p-value (signifikansi) lebih dari 0.05.
Pada regresi logistik koefisiennya akan sulit untuk diinterpretasikan secara
langsung. Oleh karena itu interpretasi akan dilakukan dengan menggunakan nilai
odds ratio. Odds adalah peluang terjadinya suatu kejadian dibandingkan peluang
tidak terjadinya kejadian tersebut. Jika peluang terjadinya suatu kejadian tersebut
sama dengan phi, maka odds dapat dinyatakan sebagai
odds =
π
1-π
sehingga odds ratio adalah nilai perbandingan dari dua odds.
Tabel 9 (kolom Exp (B)) menampilkan odds ratio antara odds masingmasing fitur dengan odds kelas target. Semua fitur termasuk konstanta yang
Tabel 7 Evaluasi terhadap model yang dibentuk
oleh regresi logistisk
Chi-square
df
Sig.
717.852
5
0.000
Block
717.852
5
0.000
Model
717.852
5
0.000
Step 1 Step
Tabel 8 Hasil uji klasifikasi oleh model regresi logistik
Predicted
Klasifikasi
Observed
Step 1 Klasifikasi 0 (normal)
1 (abnormal)
Persentasi keseluruhan
0
1
Percentage
Correct
200
42
82.6
20
655
97.0
93.2
15
Tabel 9 Hasil uji terhadap fitur - fitur yang digunakan
B
S.E.
Wald
df
Sig.
Exp(B)
Step 1a Intensitas
-0.043
0.007
33.498
1
0.000
0.958
Diameter
0.013
0.028
0.230
1
0.631
1.014
Keliling
0.061
0.011
28.814
1
0.000
1.063
Posisi
-3.003
0.781
14.781
1
0.000
0.050
Maksimum
sitoplasma
-0.004
0.001
46.093
1
0.000
0.996
Constant
-4.411
0.770
32.859
1
0.000
0.012
dihasilkan memiliki hubungan yang positif dengan kelas target. Interpretasi dari
odds ratio tersebut adalah:
1 Jika intensitas cahaya pada inti sel meningkat 1 Cd (Candela, satuan intensitas
cahaya) maka kecenderungan citra tersebut tergolong kepada kelas abnormal
menjadi 0.958 kali lipat lebih rendah. Jadi semakin tinggi intensitas cahaya
inti sel tersebut, semakin cenderung tergolong kepada kelas normal.
2 Semakin besar diameter dan keliling inti sel suatu data, data tersebut semakin
cenderung termasuk kepada kelas abnormal. Fitur diameter dan keliling inti
sel memiliki hubungan yang positif dengan kelas klasifikasi.
3 Inti sel yang berada tepat atau mendekati pusat sitoplasma cenderung
digolongkan sebagai sel yang abnormal. Posisi inti sel yang jauh dari pusat
sitoplasma memiliki peluang yang lebih besar dikenali sebagai sel normal.
4 Sel yang memiliki sitoplasma yang lebih besar dibandingkan dengan inti
selnya memiliki kecenderungan untuk tidak digolongkan sebagai sel abnormal.
SIMPULAN DAN SARAN
Simpulan
Program dapat mengklasifikasikan citra pap smear sel tunggal dengan
akurasi maksimum sebesar 97% untuk dua kelas target dan 9% untuk tujuh kelas
target. Rendahnya akurasi pada tujuh kelas target disebabkan oleh rentang atau
sebaran nilai fitur pada setiap kelas yang tidak jauh berbeda sehingga sistem sulit
menempatkan suatu data pada kelas yang tepat. Sebaliknya, pada dua kelas target
klasifikasi masing-masing kelas memiliki rentang atau sebaran nilai fitur yang
berbeda sehingga membantu proses klasifikasi. Dari lima fitur yang digunakan,
fitur yang tidak signifikan memberikan pengaruh terhadap kelas klasifikasi adalah
fitur diameter maksimum inti. Secara keseluruhan fitur yang digunakan telah baik
(informatif dan representatif) karena memiliki p-value kecil dari 0.05.
Pada penelitian ini terdapat fitur yang dependen yaitu fitur diameter
maksimum inti dengan keliling inti namun keberadaan fitur yang dependen
tersebut tidak berpengaruh terhadap akurasi. Hal ini dibuktikan dari akurasi
16
klasifikasi menggunakan empat fitur (salah satu fitur yang dependen tidak
digunakan) sama dengan akurasi klasifikasi yang menggunakan lima fitur.
Jadi metode Naïve Bayes memiliki kinerja yang sangat baik untuk
klasifikasi dua kelas target tapi untuk tujuh kelas target metode ini belum
menghasilkan akurasi yang tinggi karena sebaran nilai fitur pada setiap kelas
memiliki kemiripan.
Saran
Penelitian selanjutnya disarankan untuk menganalisis data secara kuantitatif
terlebih dahulu sehingga dapat menentukan dengan tepat metode yang akan
digunakan.
DAFTAR PUSTAKA
Giri EP. 2008. Model klasifikasi berbasiskan Association Rules untuk Biomedical
Image Retrieval System (studi kasus: citra pap smear) [tesis]. Depok (ID):
Universitas Indonesia.
Kurniawan R, Sasmito DEK, Suryani F. 2013. Klasifikasi sel serviks
menggunakan analisis fitur nuclei pada citra pap smear. Di dalam Seminar
Nasional Informatika Medis 2013 [Internet]. Yogyakarta (2013 Nov 9).
Yogyakarta
(ID);
[diunduh
2014
Apr
21].
Tersedia
pada:
http://fit.uii.ac.id/files/snimed/2013/006.pdf.
Martinez M, Sucar LE, Acosta HG, Cruz N. 2006. Bayesian model combination
and its application to cervical cancer detection. Di dalam: Sichman JS, Coelho
H, Rezende SO, editor. Advances in Artificial Intelligence – IBERAMIA – SBIA
2006; 2006 Okt 23–27; Ribeirao Preto, Brazil. Berlin (DE): Springer Berlin
Heidelberg. hlm 622-631.
Nurranna L, Aziz MF, Cornain S, Purwoto G, Purbadi S. 2012. Cervical cancer
prevention program in Jakarta, Indonesia: See and treat model in developing
country. Journal of Gynecologic Oncology. 23(3): 147-152. doi:
10.3802/jgo.2012.23.3.147.
Prasetyo E. 2011. Pengolahan Citra Digital dan Aplikasinya Menggunakan
Matlab. Yogyakarta (ID): ANDI.
Prasetyo E. 2012. Data Mining Konsep dan Aplikasi Menggunakan Matlab.
Yogyakarta (ID): ANDI.
Putra D. 2010. Pengolahan Citra Digital. Yogyakarta (ID): ANDI.
17
LAMPIRAN
Lampiran 1 Tujuh citra sel pap smear asli dan hasil segmentasi modul CHAMP
Normal
superficial
Normal
intermediate
Normal
columnar
Light
dysplasia
Moderate
dysplasia
Severe
dysplasia
Carcinoma
in situ
Citra asli (RGB)
Citra hasil segmentasi modul CHAMP
Lampiran 2 Sampel nilai lima fitur pada data citra kelas normal superficial
Data
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Intensitas cahaya
inti
86.34293
82.07096
78.38782
70.58545
77.45886
76.9898
74.25209
67.9839
70.61702
72.47975
74.23429
76.12358
73.69318
79.80452
64.07856
Diameter maksimum
inti
34.82815
30.80584
38.32754
29.83287
31.257
33.30165
34.53983
31.7805
26.30589
33.61547
33.61547
36.40055
30.08322
35.35534
31.06445
Keliling inti
Posisi inti
101.375
85.25
111.75
81
87.875
93.125
92.5
83.875
77.5
88.75
92.125
96
85
96
85.25
0.230067
0.043701
0.14115
0.079801
0.121304
0.169188
0.062489
0.2011153
0.182526
0.169581
0.181696
0.31006
0.232431
0.140712
0.149395
Maksimum
sitoplasma
674
482
2294
2944
3050
1983
3806
2199
3127
2239
1606
1932
1112
2645
1571
18
Lampiran 3 Sampel nilai lima fitur pada data citra kelas carcinoma in situ
Data
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Intensitas cahaya
inti
115.9272
134.0267
95.45186
106.2089
83.98065
122.6021
85.45121
142.0622
122.3841
132.0261
127.7329
79.86122
76.57464
84.32426
70.58927
Diameter
maksimum inti
75.50497
81.78631
66.85058
66.0303
62.96825
81.9329
59.5063
82.9759
145.279
107.8378
82.21922
83.24062
76.00658
71.02112
57.55867
Keliling inti
Posisi inti
229.625
208.5
181.125
198.25
151.875
259.75
164.75
285.375
411.375
365.25
293
223.625
269.125
179.25
200
0.582529
0.343481
0.177919
0.302238
0.065234
0.123775
0.494562
0.389702
0.552429
0.182104
0.12582
0.180499
0.196989
0.147333
0.297484
Maksimum
sitoplasma
49
67
42
48
53
51
52
178
50
108
69
69
72
67
72
19
RIWAYAT HIDUP
Penulis dilahirkan di Batusangkar, Sumatera Barat pada tanggal 19
November 1991. Penulis merupakan anak ketiga dari 3 bersaudara dari ayah
Harmen Kasudi dan ibu Hernayetti. Penulis menamatkan pendidikan di SMA
Negeri 1 Batusangkar pada tahun 2009. Pada tahun yang sama, penulis lulus
seleksi masuk Institut Pertanian Bogor (IPB) di Departemen Ilmu Komputer,
Fakultas Matematika dan Ilmu Pengetahuan Alam melalui jalur Seleksi Nasional
Masuk Perguruan Tinggi Negeri (SNMPTN).
Selama mengikuti perkuliahan, penulis aktif di organisasi Ikatan Keluarga
Muslim TPB (IKMT) pada tahun 2009-2010 dan di organisasi kemahasiswaan
Himpunan Mahasiswa Ilmu Komputer (Himalkom) pada tahun 2010-2011. Pada
tahun 2010 penulis menjadi salah satu anggota MSP (Microsoft Student Partner)
perwakilan IPB. Penulis juga menjadi Senior Residence (SR) asrama putri TPB
(Tingkat Persiapan Bersama) IPB pada tahun 2011-2012. Selain itu penulis juga
terlibat dalam berbagai kepanitiaan seperti Open House IPB (2010), IT Today
(2010 dan 2011), Masa Perkenalan Departemen (2011), dan lain lain. Penulis juga
mengikuti lomba Program Kreativitas Mahasiswa (PKM) pada tahun 2010 dan
2013. Penulis melaksanakan kegiatan Praktik Kerja Lapangan di kantor pusat
Bank Rakyat Indonesia (BRI) divisi Teknologi dan Sistem Informasi (TSI) pada
bulan Juli – Agustus 2012.