Klasifikasi Classification LANDASAN TEORI

mengembangkan metode pemodelan yang kuat yang tidak merespon data asing. b. Pemberian skala, pengkodean dan seleksi fitur Pra pengolahan data menyangkut beberapa langkah seperti memberikan skala variabel dan beberapa jenis pengkodean. Sebagai contoh, satu fitur dengan range [0, 1] dan yang lain dengan range [-100, 100] tidak akan memiliki bobot yang sama pada teknik yang diaplikasikan dan akan berpengaruh pada hasil akhir data mining. Oleh karena itu, disarankan untuk pemberian skala dan membawa fitur-fitur tersebut ke bobot yang sama untuk analisis lebih lanjut. 4. Mengestimasi model Pemilihan dan implementasi dari tehnik data mining yang sesuai merupakan tugas utama dari fase ini. Proses ini tidak mudah, biasanya dalam pelatihan, implementasi berdasarkan pada beberapa model dan pemilihan model yang terbaik merupakan tugas tambahan. 5. Menginterpretasikan model dan menarik kesimpulan Pada banyak kasus, model data mining akan membantu dalam pengambilan keputusan. Metode data mining modern diharapkan akan menghasilkan hasil akurasi yang tinggi dengan menggunakan model dimensi-tinggi. Pengetahuan yang baik pada keseluruhan proses sangat penting untuk kesuksesan aplikasi. Tidak perduli seberapa kuat metode data mining yang digunakan, hasil dari model tidak akan valid jika pra pengolahan dan pengkoleksian data tidak benar atau jika rumusan masalah tidak berarti.

2.2. Klasifikasi Classification

Salah satu tugas utama dari data mining adalah klasifikasi. Klasifikasi digunakan untuk menempatkan bagian yang tidak diketahui pada data ke dalam kelompok yang sudah diketahui. Klasifikasi menggunakan variabel target dengan nilai nominal. Dalam satu set pelatihan, variabel target sudah diketahui. Dengan pembelajaran dapat ditemukan hubungan antara fitur dengan variabel target. Ada dua langkah dalam proses klasifikasi Han and Kamber, 2006: Universitas Sumatera Utara a. Pembelajaran learning : pelatihan data dianalisis oleh algoritma klasifikasi. b. Klasifikasi: data yang diujikan digunakan untuk mengkalkulasi akurasi dari aturan klasifikasi. Jika akurasi dianggap dapat diterima, aturan dapat diterapkan pada klasifikasi data tuple yang baru. Gambar 2.1 Langkah Proses Klasifikasi Han and Kamber, 2006 name age income loan decision _______________________________________________ Sandy Jones young low risky Bill Lee young low risky Caroline Fox middle_aged low safe Rick Field middle_aged low risky Susan Lake senior low safe Claire Phips senior medium safe Joe Smith middle_aged high safe ... ... ... ... Training Data Classification Algorithm Classification Rules IF age = youth THEN loan_decision = risky IF income = high THEN loan_decision = safe IF age = middle_aged AND income = low THEN loan_decision = risky Classification Rules Training Data New Data John Henry, middle_aged, low Loan decision? risky name age income loan decision _______________________________________________ Juan Bello senior low safe Silvia Crest middle_aged low risky Anne Yee middle_aged high safe ... ... ... ... Universitas Sumatera Utara 2.2.1. Information Gain Information gain menggunakan entropy untuk menentukan atribut terbaik. Entropy merupakan ukuran ketidakpastian dimana semakin tinggi entropy, maka semakin tinggi ketidakpastian. Rumus dari entropy Slocum, 2012: �� = − � � � � log 2 � � � � �=1 Dimana: • ES adalah informasi entropy dari atribut S • n adalah jumlah dari nilai-nilai yang berbeda pada atribut S • f s j adalah frekuensi dari nilai j pada S • log 2 adalah logaritma biner Information gain dari output data atau variabel dependent y yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gainy,A. Information gain, gainy,A, dari atribut A relatif terhadap output data y adalah Santosa, 2007: �����, � = �������� − � � � � �∈������ ������� � � dimana nilaiA adalah semua nilai yang mungkin dari atribut A, dan y c adalah subset dari y dimana A mempunyai nilai c. Term yang pertama pada rumus information gain di atas adalah entropy total y dan term kedua adalah entropy sesudah dilakukan pemisahan data berdasarkan atribut A. Konsep dari perhitungan entropy dan informasi gain dapat dijelaskan dengan menggunakan contoh yang terdapat pada data sebagai berikut: Universitas Sumatera Utara Tabel 2.1 Data Set Untuk Resiko Penyakit Jantung Slocum, 2012 Age Trestbps Chol Gender Heart 50 120 200 Male No 50 120 200 Female No 70 120 200 Male Yes 60 140 200 Male Yes 60 160 200 Male Yes 60 160 200 Female No 70 160 200 Female Yes 50 140 200 Male No 50 160 200 Male Yes 60 140 200 Male Yes 50 140 200 Female Yes 70 140 200 Female Yes 70 120 200 Male Yes 60 140 200 Female No Dari tabel di atas ditetapkan jumlah “No” dan jumlah “Yes” pada kolom keputusan untuk menghitung entropy yang ditunjukkan pada tabel di bawah: Tabel 2.2 Pembagian Hasil “Yes”dan “No” Slocum, 2012 Age Trestbps Chol Gender Heart 50 120 200 male No 50 120 200 female No 60 160 200 female No 50 140 200 male No 60 140 200 female No Total No 5 70 120 200 male Yes 60 140 200 male Yes 60 160 200 male Yes 70 160 200 female Yes 50 160 200 male Yes 60 140 200 male Yes 50 140 200 female Yes 70 140 200 female Yes 70 120 200 male Yes Total Yes 9 Universitas Sumatera Utara Pada contoh di atas, total entropy adalah: E = -514log 2 514 + -914log 2 914 = 0.94 Selanjutnya dilakukan perhitungan information gain di masing-masing kolom. Dimulai dari kolom Gender, tinjau nilai Male dan Female dan dihitung entropy “Yes” dan “No” dimana diperoleh GenderFemale 614 dan GenderMale 814 dan dikurangi dari total entropy yang sudah dihitung sebelumnya. Entropy female = Entropy[3, 3] = − 3 6 log 2 3 6 − 3 6 log 2 3 6 = 1 Entropy male = Entropy[6, 2] = − 6 8 log 2 6 8 − 2 8 log 2 2 8 = 0,811 Gain = TotalEntropy – 614 x EntropyFemale – 814 x EntropyMale = 0.048 2.2.2. Naive Bayes Naive Bayes merupakan algoritma klasifikasi yang sederhana dimana setiap atribut bersifat independent dan memungkinkan berkontribusi terhadap keputusan akhir Xhemali, et al. 2009. Dasar dari teorema Naïve Bayes yang dipakai dalam pemrograman adalah rumus bayes yaitu sebagai berikut Han and Kamber, 2006 : ��|� = ��|��� �� dimana PH|X merupakan probabilitas H di dalam X atau dengan bahasa lain PH|X adalah persentase banyaknya H di dalam X, PX|H merupakan probabilitas X di dalam H, PH merupakan probabilitas prior dari H dan PX merupakan probabilitas prior dari X. Konsep dari perhitungan Naive Bayes dapat dijelaskan dengan menggunakan contoh yang terdapat pada data sebagai berikut: Universitas Sumatera Utara Tabel 2.3 Data Cuaca dan Keputusan Main atau Tidak Santosa, 2007 Cuaca X1 Temperatur X2 Kelembaban X3 Angin X4 Main atau Tidak y Cerah Cerah Mendung Hujan Hujan Hujan Mendung Cerah Cerah Hujan Cerah Mendung Mendung Hujan Panas Panas Panas Sedang Dingin Dingin Dingin Sedang Dingin Sedang Sedang Sedang Panas Sedang Tinggi Tinggi Tinggi Tinggi Normal Normal Normal Tinggi Normal Normal Normal Tinggi Normal Tinggi Kecil Besar Kecil Kecil Kecil Besar Besar Kecil Kecil Kecil Besar Besar Kecil Besar Tidak Tidak Ya Ya Ya Tidak Ya Tidak Ya Ya Ya Ya Ya Tidak Naive Bayes akan menentukan kelas dari data baru berikut: Cuaca = Cerah, Temperatur = Dingin, Kelembaban = Tinggi, Angin = Besar Pmain = 9 14 = 0.64 Ptidak = 5 14 = 0.36 PAngin = Besar | main = 3 9 = 0.33 PAngin = Besar | tidak = 3 5 = 0.60 Pmain PCerahmain PDinginmain PTinggimain PBesarmain = 9 14 � ∗ 2 9 � ∗ 3 9 � ∗ 3 9 � ∗ 3 9 � = 0.0053 Ptidak PCerahtidak PDingintidak PTinggitidak PBesartidak = 5 14 � ∗ 3 5 � ∗ 1 5 � ∗ 4 5 � ∗ 3 5 � = 0.0206 Dari data baru tersebut dapat disimpulkan tidak main, berdasarkan estimasi probabilitas yang dipelajari dari data training. Universitas Sumatera Utara Implementasi dari Naive Bayes pada data pasien dengan menghitung korelasi antara target dan variabel lainnya, dapat digambarkan sebagai berikut Subbalakshmi, et al. 2011: Masukkan Data Medis Pasien Naive Bayes Hitung Probabilitas Setiap Atribut Hitung Probabilitas Ya dan Tidak Tampilkan Resiko Data Set Gambar 2.2 Implementasi Naive Bayes pada data pasien Subbalakshmi, et al. 2011

2.3. Diskritisasi