Naive Bayes Classifier Kajian Teori .1 Penambangan Data
1. Terakhir mencari nilai probabilitas data test.
Misalkan diketahui umur 29 tahun, berpenghasilan tinggi high, Bukan pelajar, dan peringkat rating credit_rating fair, maka perhitungan probabilitas untuk
menentukan apakah dia membeli komputer atau tidak adalah: PX|Y=yes =
PYesE1=30|YesPE2=high|YesPE3=No|YesPE4=fair|Yes = 0.640.060.060.080.15 = 3.61 10
-5
PX|Y=no = PE1=30|NoPE2=high|NoPE3=No|NoPE4=fair|No = 0.360.130.10.160.1 = 7.93 10
-5
Setelah didapatkan hasil likelihood maka hasil tersebut dibagi dengan total hasil likelihood supaya mendapatkan nilai probabilitas, maka:
PX|Y=yes = 3.61 10
-5
3.61 10
-5
+7.93 10
-5
=0.31 PX|Y=no=7.93 10
-5
3.61 10
-5
+7.93 10
-5
=0.69 Berdasarkan hasil perhitungan tersebut, probabilitas tidak 0,69 lebih besar jika
dibandingkan dengan probabilitas ya 0,31, sehingga dapat disimpulkan bahwa untuk kasus ini orang yang berumur 29 tahun, berpenghasilan tinggi, bukan pelajar, dan
memiliki credit rating fair masuk dalam kelas orang yang tidak membeli computer. 2.2.3 K-Nearest Neighbor
K-Nearest Neighbor KNN termasuk kelompok instance-based learning. Algoritma ini juga merupakan salah satu teknik lazy learning. KNN dilakukan dengan
mencari kelompok k objek dalam data training yang paling dekat mirip dengan objek pada data baru atau data testing . Algoritma K-Nearest Neighbor adalah sebuah metode
untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut. Nearest Neighbor adalah pendekatan
untuk mencari kasus dengan menghitung kedekatan antara kasus baru dan kasus lama yaitu berdasarkan pada pencocokan bobot dari sejumlah fitur yang ada. Untuk
mendefinisikan jarak antara dua titik yaitu titik pada data training x dan titik pada data testing y maka digunakan rumus Euclidean, seperti yang ditunjukkan pada persamaan
1
.................1 Dengan D adalah jarak antara titik pada data training x dan titik data testing y
yangakan diklasifikasi, dimana x=x1,x2,…,xi dan y=y1,y2,…,yi dan I merepresentasikan nilai atribut serta n merupakan dimensi atribut.
Pada fase training, algoritma ini hanya melakukan penyimpanan vektor-vektor fitur dan klasifikasi data training sample. Pada fase klasifikasi, fitur-fitur yang sama
dihitung untuk testing data yang klasifikasinya tidak diketahui. Jarak dari vektor baru yang ini terhadap seluruh vektor training sample dihitung dan sejumlah k buah yang
paling dekat diambil. Langkah-langkah untuk menghitung metode Algoritma K-Nearest Neighbor:
a. Menentukan Parameter K Jumlah tetangga paling dekat. b. Menghitung kuadrat jarak Euclid queri instance masing-masing objek
terhadap datasampel yang diberikan. c. Kemudian mengurutkan objek-objek tersebut ke dalam kelompok yang
mempunyai jarak Euclid terkecil. d. Mengumpulkan kategori Y Klasifikasi Nearest Neighbor.
e. Dengan menggunakan kategori Nearest Neighbor yang paling mayoritas maka dapatdiprediksi nilai queri instance yang telah dihitung.
Contoh K-Nearest Neighbor
Berikut contoh kasus yang akan diselesaikan dengan metode K-Nearest Neighbor:
Tabel 2.5 Tabel data buys_computer RID
Age Income
Student Credit_Rating Class
1. 29
High No
Fair No
2. 29
High No
Excelent No
3. 31..40
High No
Fair Yes
4. 41
Medium No
Fair Yes
5. 41
Low Yes
Fair Yes
6. 41
Low Yes
Excelent No
7. 31..40
Low Yes
Excelent Yes
8. 29
Medium No
Fair No
9. 29
Low Yes
Fair Yes
10. 41
Medium Yes
Fair Yes
11. 29
Medium Yes
Excelent Yes
12. 31..40
Medium No
Excelent Yes
13. 31..40
High Yes
Fair Yes
14. 41
Medium No
Excelent No
Vektornya adalah sebagai berikut: Tabel 2.6 Data Numerik buys computer
Age Income
Student Credit_Rating
Class 1
3 2
1 No
1 3
2 2
No 2
3 2
1 Yes
3 2
2 1
Yes 3
1 1
1 Yes
3 1
1 2
No 2
1 1
2 Yes
1 2
2 1
No 1
1 1
1 Yes
3 2
1 1
Yes 1
2 1
2 Yes
2 2
2 2
Yes 2
3 1
1 Yes
3 2
2 2
No 1.
Menghitung Euclidean Distance Misalkan kita memiliki dua buah titik, titik A dan titik B yang masing masing
dapat dipresentasikan dalam bentuk vektor sebagai berikut: A = Titik representasi dari data yang kita training.
B= Titik representasi dari data yang kita testing. A = [a
1
a
2
a
3
…. a
n
]
T
B = [b
1
b
2
b
3
…. b
n
]
T
Maka jarak Euclid antara kedua titik tersebut dapat dicari dengan rumus: D
2
= a
1
-b
1 2
+ a
2
-b
2 2
+ a
3
-b
3 2
+ ….. + a
n
-b
n 2
atau D= √ a
1
-b
1 2
+ a
2
-b
2 2
+ a
3
-b
3 2
+ ….. + a
n
-b
n 2
Misalkan diketahui umur 29 tahun, berpenghasilan tinggi high, Bukan pelajar, dan peringkat rating credit_rating fair, maka perhitungan probabilitas untuk
menentukan apakah dia membeli komputer atau tidak jika ditentukan memiliki 1 jarak terdekat k adalah:
Vektor data testing: Tabel 2.7 Data testing KNN
Age Income
Student Credit_Rating
1 3
2 1
Membandingkan dengan rumus Euclidean Distance: D1x,y
=√1-1
2
+3-3
2
+2-2
2
+1-1
2
=0 D2x,y
=√ 1-1
2
+3-3
2
+2-2
2
+1-2
2
=1 D3x,y
=√ 1-2
2
+3-3
2
+2-2
2
+1-1
2
=1 D4x,y
=√ 1-3
2
+3-2
2
+2-2
2
+1-1
2
=2,23 D5x,y
=√ 1-3
2
+3-1
2
+2-1
2
+1-1
2
=3 D6x,y
=√ 1-3
2
+3-1
2
+2-1
2
+1-2
2
=3,16 D7x,y
=√ 1-1
2
+3-2
2
+2-2
2
+1-1
2
=2,64 D8x,y
=√ 1-2
2
+3-1
2
+2-1
2
+1-2
2
=1 D9x,y
=√ 1-1
2
+3-1
2
+2-1
2
+1-1
2
=2,23 D10x,y
=√ 1-3
2
+3-2
2
+2-1
2
+1-1
2
=2,44 D11x,y
=√ 1-1
2
+3-2
2
+2-1
2
+1-2
2
=1,73 D12x,y
=√ 1-2
2
+3-2
2
+2-2
2
+1-2
2
=1,73 D13x,y
=√ 1-2
2
+3-3
2
+2-1
2
+1-1
2
=1,41 D14x,y
=√ 1-3
2
+3-2
2
+2-2
2
+1-2
2
=2,44 Kemudian setelah itu dibandingkan jaraknya, dan setelah dibandingkan dicari 1
jarak paling dekat. Berdasarkan hasil perhitungan tersebut D1 adalah jarak yang paling dekat 0, sehingga dapat disimpulkan bahwa dapat disimpulkan bahwa untuk kasus ini
orang yang berumur 29 tahun, berpenghasilan tinggi, bukan pelajar, dan memiliki credit
rating fair masuk dalam kelas orang yang tidak membeli computer. 2.2.4 K-Fold Cross Validation
Pada penelitian ini metode yang digunakan untuk menguji pola klasifikasi adalah metode k-fold cross validation. Dalam k-fold cross validation, data dibagi
menjadi k bagian, D1, D2,..Dk, dan masing-masing D memiliki jumlah data yang sama. Kemudian lakukan proses perulangan sebanyak k, dimana dalam setiap perulangan ke-i,
Di akan dijadikan data testing, dan sisanya akan digunakan sebagai data training. Sebagai contoh, misalkan akan dilakukan metode cross validation dengan
menggunakan 3 fold. Pertama pilih salah satu fold menjadi data testing, kemudian gunakan fold sisanya sebagai data training. Hal ini dilakukan berulang untuk semua
kombinasi data training-testing.Untuk mengilustrasikan metode ini, perhatikan Gambar 2.9.
Gambar 2.2 Ilustrasi 3-fold Cross Validation 2.2.5 Pengukuran Akurasi Klasifikasi
Keakuratan hasil klasifikasi dapat diukur dengan menggunakan confusion matrix. Confusion matrix adalah media yang berguna untuk menganalisis seberapa baik
classifier dapat mengenali tupel dari kelas yang berbeda Tan, Steinbach, Kumar, 2006. Misalkan terdapat dua kelas, maka akan diistilahkan menjadi tupel positif dan
tupel negatif. True positive mengacu pada tupel positif yang diberi label dengan tepat oleh classifier, sementara true negatif adalah tupel negatif yang diberi label dengan
tepat oleh classifier.False positive adalah tupel negatif yang diberi label dengan tidak tepat. Demikian pula, false negative adalah tupel positif yang diberi label dengan tidak
tepat.Istilah-istilah ini berguna ketika menganalisis kemampuan classifier dan diringkas dalam Gambar 2.10.
Gambar 2.3 Confusion Matrix untuk matrix 2×2 Tan, Steinbach, Kumar, 2006
Misalkan terdapat confusion matrix 2×2 seperti pada Gambar 2.10, maka rumus yang akan digunakan untuk menghitung akurasi adalah sebagai berikut:
Rumus 2.6 diatas dapat juga didefinisikan seperti pada rumus berikut:
2.2.6 Kanker Payudara 2.2.6.1 Definisi Kanker Payudara
Kanker payudara muncul sebagai akibat sel-sel yang abnormal terbentuk pada payudara dengan kecepatan tidak terkontrol dan tidak beraturan. Sel tersebut merupakan
hasil mutasi gen dengan perubahan bentuk, ukuran maupun fungsinya Lippman, 1998. Lebih dari 70 penderita kanker payudara ditemukan sudah dalam stadium lanjut
Moningkey, 2000.
Gambar 2.4 Perbedaan sel normal dengan sel kanker Weaver, 2002 2.2.6.2 Epidemiologi
Di Indonesia setiap tahunnya diperkirakan terdapat 100 penderita kanker baru setiap 100.000 penduduk seiring peningkatan angka harapan hidup, sosial ekonomi serta
perubahan pola penyakit Tjindarbumi, 2000. Kasus baru kanker payudara pada wanita di Amerika Serikat tahun 2005 adalah 211.240 dengan kematian 40.410, di Indonesia
terdapat 114.649 penderita National CancerInstitute, 2005. Di RSUP. Dr. Sardjito Yogyakarta pasien kanker payudara yang dirawat ada 252 orang pada tahun 2005. Pada
tahun 2006 di Amerika Serikat, kasus kanker payudara wanita saja menempati urutan pertama 32 dan penyebab kematian kedua setelah kanker paru Anonim, 2007.