mengembangkan metode pemodelan yang kuat yang tidak merespon data asing.
b. Pemberian skala, pengkodean dan seleksi fitur Pra pengolahan data menyangkut beberapa langkah seperti memberikan
skala variabel dan beberapa jenis pengkodean. Sebagai contoh, satu fitur dengan range [0, 1] dan yang lain dengan range [-100, 100] tidak akan
memiliki bobot yang sama pada teknik yang diaplikasikan dan akan berpengaruh pada hasil akhir data mining. Oleh karena itu, disarankan
untuk pemberian skala dan membawa fitur-fitur tersebut ke bobot yang sama untuk analisis lebih lanjut.
4. Mengestimasi model Pemilihan dan implementasi dari tehnik data mining yang sesuai merupakan
tugas utama dari fase ini. Proses ini tidak mudah, biasanya dalam pelatihan, implementasi berdasarkan pada beberapa model dan pemilihan model yang
terbaik merupakan tugas tambahan. 5. Menginterpretasikan model dan menarik kesimpulan
Pada banyak kasus, model data mining akan membantu dalam pengambilan keputusan. Metode data mining modern diharapkan akan menghasilkan hasil
akurasi yang tinggi dengan menggunakan model dimensi-tinggi. Pengetahuan yang baik pada keseluruhan proses sangat penting untuk kesuksesan
aplikasi. Tidak perduli seberapa kuat metode data mining yang digunakan, hasil dari model tidak akan valid jika pra pengolahan dan pengkoleksian data tidak benar atau
jika rumusan masalah tidak berarti.
2.2. Klasifikasi Classification
Salah satu tugas utama dari data mining adalah klasifikasi. Klasifikasi digunakan untuk menempatkan bagian yang tidak diketahui pada data ke dalam kelompok yang
sudah diketahui. Klasifikasi menggunakan variabel target dengan nilai nominal. Dalam satu set pelatihan, variabel target sudah diketahui. Dengan pembelajaran dapat
ditemukan hubungan antara fitur dengan variabel target. Ada dua langkah dalam proses klasifikasi Han and Kamber, 2006:
Universitas Sumatera Utara
a. Pembelajaran learning : pelatihan data dianalisis oleh algoritma klasifikasi. b. Klasifikasi: data yang diujikan digunakan untuk mengkalkulasi akurasi dari
aturan klasifikasi. Jika akurasi dianggap dapat diterima, aturan dapat diterapkan pada klasifikasi data tuple yang baru.
Gambar 2.1 Langkah Proses Klasifikasi Han and Kamber, 2006
name age income loan decision
_______________________________________________ Sandy Jones
young low
risky Bill Lee
young low
risky Caroline Fox
middle_aged low safe
Rick Field middle_aged low
risky Susan Lake
senior low safe
Claire Phips senior
medium safe
Joe Smith middle_aged high
safe ...
... ...
... Training Data
Classification Algorithm
Classification Rules
IF age = youth THEN loan_decision = risky IF income = high THEN loan_decision = safe
IF age = middle_aged AND income = low THEN loan_decision = risky
Classification Rules
Training Data New Data
John Henry, middle_aged, low Loan decision?
risky name
age income
loan decision _______________________________________________
Juan Bello senior
low safe
Silvia Crest middle_aged low
risky Anne Yee
middle_aged high safe
... ... ... ...
Universitas Sumatera Utara
2.2.1. Information Gain Information gain menggunakan entropy untuk menentukan atribut terbaik. Entropy
merupakan ukuran ketidakpastian dimana semakin tinggi entropy, maka semakin tinggi ketidakpastian. Rumus dari entropy Slocum, 2012:
�� = − � �
�
� log
2
�
�
�
� �=1
Dimana: • ES adalah informasi entropy dari atribut S
• n adalah jumlah dari nilai-nilai yang berbeda pada atribut S • f
s
j adalah frekuensi dari nilai j pada S • log
2
adalah logaritma biner Information gain dari output data atau variabel dependent y yang dikelompokkan
berdasarkan atribut A, dinotasikan dengan gainy,A. Information gain, gainy,A, dari atribut A relatif terhadap output data y adalah Santosa, 2007:
�����, � = �������� − � �
�
�
�∈������
������� �
�
dimana nilaiA adalah semua nilai yang mungkin dari atribut A, dan y
c
adalah subset dari y dimana A mempunyai nilai c. Term yang pertama pada rumus information gain
di atas adalah entropy total y dan term kedua adalah entropy sesudah dilakukan pemisahan data berdasarkan atribut A.
Konsep dari perhitungan entropy dan informasi gain dapat dijelaskan dengan menggunakan contoh yang terdapat pada data sebagai berikut:
Universitas Sumatera Utara
Tabel 2.1 Data Set Untuk Resiko Penyakit Jantung Slocum, 2012 Age
Trestbps Chol
Gender Heart
50 120
200 Male
No 50
120 200
Female No
70 120
200 Male
Yes 60
140 200
Male Yes
60 160
200 Male
Yes 60
160 200
Female No
70 160
200 Female
Yes 50
140 200
Male No
50 160
200 Male
Yes 60
140 200
Male Yes
50 140
200 Female
Yes 70
140 200
Female Yes
70 120
200 Male
Yes 60
140 200
Female No
Dari tabel di atas ditetapkan jumlah “No” dan jumlah “Yes” pada kolom keputusan untuk menghitung entropy yang ditunjukkan pada tabel di bawah:
Tabel 2.2 Pembagian Hasil “Yes”dan “No” Slocum, 2012
Age Trestbps
Chol Gender
Heart
50 120
200 male
No 50
120 200
female No
60 160
200 female
No 50
140 200
male No
60 140
200 female
No
Total No 5
70 120
200 male
Yes 60
140 200
male Yes
60 160
200 male
Yes 70
160 200
female Yes
50 160
200 male
Yes 60
140 200
male Yes
50 140
200 female
Yes 70
140 200
female Yes
70 120
200 male
Yes
Total Yes 9
Universitas Sumatera Utara
Pada contoh di atas, total entropy adalah: E = -514log
2
514 + -914log
2
914 = 0.94 Selanjutnya dilakukan perhitungan information gain di masing-masing kolom.
Dimulai dari kolom Gender, tinjau nilai Male dan Female dan dihitung entropy “Yes” dan “No” dimana diperoleh GenderFemale 614 dan GenderMale 814 dan
dikurangi dari total entropy yang sudah dihitung sebelumnya. Entropy female = Entropy[3, 3] =
−
3 6
log
2 3
6
−
3 6
log
2 3
6
= 1 Entropy male = Entropy[6, 2] =
−
6 8
log
2 6
8
−
2 8
log
2 2
8
= 0,811 Gain
= TotalEntropy – 614 x EntropyFemale – 814 x EntropyMale = 0.048
2.2.2. Naive Bayes Naive Bayes merupakan algoritma klasifikasi yang sederhana dimana setiap atribut
bersifat independent dan memungkinkan berkontribusi terhadap keputusan akhir Xhemali, et al. 2009.
Dasar dari teorema Naïve Bayes yang dipakai dalam pemrograman adalah rumus bayes yaitu sebagai berikut Han and Kamber, 2006 :
��|� = ��|���
�� dimana PH|X merupakan probabilitas H di dalam X atau dengan bahasa lain PH|X
adalah persentase banyaknya H di dalam X, PX|H merupakan probabilitas X di dalam H, PH merupakan probabilitas prior dari H dan PX merupakan probabilitas
prior dari X. Konsep dari perhitungan Naive Bayes dapat dijelaskan dengan menggunakan
contoh yang terdapat pada data sebagai berikut:
Universitas Sumatera Utara
Tabel 2.3 Data Cuaca dan Keputusan Main atau Tidak Santosa, 2007
Cuaca X1
Temperatur X2
Kelembaban X3
Angin X4
Main atau Tidak y
Cerah Cerah
Mendung Hujan
Hujan Hujan
Mendung Cerah
Cerah Hujan
Cerah
Mendung Mendung
Hujan Panas
Panas Panas
Sedang Dingin
Dingin Dingin
Sedang Dingin
Sedang Sedang
Sedang
Panas Sedang
Tinggi Tinggi
Tinggi Tinggi
Normal Normal
Normal
Tinggi Normal
Normal Normal
Tinggi Normal
Tinggi Kecil
Besar Kecil
Kecil Kecil
Besar Besar
Kecil Kecil
Kecil
Besar Besar
Kecil Besar
Tidak Tidak
Ya Ya
Ya
Tidak Ya
Tidak Ya
Ya Ya
Ya Ya
Tidak
Naive Bayes akan menentukan kelas dari data baru berikut: Cuaca = Cerah, Temperatur = Dingin, Kelembaban = Tinggi, Angin = Besar
Pmain =
9 14
= 0.64 Ptidak =
5 14
= 0.36 PAngin = Besar | main =
3 9
= 0.33 PAngin = Besar | tidak =
3 5
= 0.60 Pmain PCerahmain PDinginmain PTinggimain PBesarmain
= 9 14 � ∗ 2 9
� ∗ 3 9 � ∗ 3 9
� ∗ 3 9 � = 0.0053
Ptidak PCerahtidak PDingintidak PTinggitidak PBesartidak = 5 14
� ∗ 3 5
� ∗ 1 5
� ∗ 4 5 � ∗ 3 5
� = 0.0206 Dari data baru tersebut dapat disimpulkan tidak main, berdasarkan estimasi
probabilitas yang dipelajari dari data training.
Universitas Sumatera Utara
Implementasi dari Naive Bayes pada data pasien dengan menghitung korelasi antara target dan variabel lainnya, dapat digambarkan sebagai berikut Subbalakshmi,
et al. 2011:
Masukkan Data Medis Pasien
Naive Bayes
Hitung Probabilitas Setiap Atribut
Hitung Probabilitas Ya dan Tidak Tampilkan Resiko
Data Set
Gambar 2.2 Implementasi Naive Bayes pada data pasien Subbalakshmi, et al. 2011
2.3. Diskritisasi