Rancangan Penelitian Teknik Pengumpulan Data Alat dan Bahan Penelitian

BAB 3 METODOLOGI PENELITIAN

Seleksi atribut merupakan proses untuk mengidentifikasi dan menghilangkan atribut dengan nilai yang tidak relevan atau berlebihan. Pada penelitian ini dilakukan seleksi atribut dengan menggunakan information gain yang diimplementasikan pada algoritma Naive Bayes untuk tugas klasifikasi dalam memprediksi penyakit jantung. Information gain bertujuan melakukan pengurutan atribut berdasarkan peringkat rank dimana semakin besar nilai information gain dari suatu atribut maka semakin signifikan atribut tersebut untuk tugas prediksi.

3.1. Rancangan Penelitian

Dalam melakukan analisis seleksi atribut pada algoritma Naive Bayes dalam memprediksi penyakit jantung, peneliti melakukan langkah-langkah yang dapat digambarkan pada flowchart berikut ini: Universitas Sumatera Utara Start Input Data Training Seleksi Atribut? Training Data Menggunakan Naive Bayes Interpretasi Pada data testing Tidak Output Hasil Prediksi Hitung info Gain Setiap atribut Sort nilai Gain atribut dari Yang terbesar Sampai terkecil Reduksi atribut dengan nilai Gain terendah Ya End Analisis Akurasi dan Error Gambar 3.1 Flowchart Proses Naive Bayes Dengan dan Tanpa Seleksi Atribut Universitas Sumatera Utara

3.2. Teknik Pengumpulan Data

Teknik pengumpulan data yang digunakan peneliti dalam pengumpulan data adalah sebagai berikut: 1. Mengumpulkan literatur, jurnal, paper, dan bacaan-bacaan lainnya yang berhubungan dengan algoritma klasifikasi data mining. 2. Mengumpulkan data penelitian yang diperoleh secara online dari UCI repository. 3. Melakukan observasi terhadap data penelitian yang diperoleh dengan mengajukan pertanyaan-pertanyaan wawancara kepada nara sumber yang mengetahui dengan detail setiap atribut pada data penelitian yang digunakan. Pada penelitian ini, peneliti melakukan wawancara dengan dokter spesialis penyakit jantung di rumah sakit Adam Malik Medan yang bernama dr. Cut Aryfa Andra, Sp.JP.

3.3. Alat dan Bahan Penelitian

3.3.1. Alat Penelitian Pada penelitian ini digunakan alat penelitian berupa perangkat keras dan perangkat lunak sebagai berikut: a. Perangkat keras Satu unit komputer dengan spesifikasi sebagai berikut: - Processor Intel Pentium Core i3 1.40 GH z - RAM DDR2 4 GB. - HDD 200 GB. b. Perangkat lunak - Sistem operasi Windows 7 Ultimate. - PHP versi 5.4.4 - MySQL versi 5.0.10 Universitas Sumatera Utara 3.3.1. Bahan Penelitian Bahan penelitian yang digunakan pada penelitian ini adalah data rekam medis penyakit jantung Cleveland yang diperoleh secara online dari website UCI repository. Data ini terdiri dari 14 atribut dimana atribut yang terakhir merupakan kelas. Berikut keterangan dari setiap atribut-nya: 1. age 2. sex 3. cp : jenis nyeri pada dada: - typical_angina - atypical_angina - non-anginal pain - asymptomatic 4. trestbps : tekanan darah saat beristirahat dalam mm Hg 5. chol serum kolesterol dalam mgdl 6. fbs fasting blood sugar 120 mgdl 7. restecg : hasil elektrokardiografi saat istirahat - value 0 : normal - value 1 : gelombang ST-T yang tidak normal inversi gelombang T danatau elevasi ST atau depresi 0.05 mV - value 2 : menunjukkan kemungkinan atau kepastian hipertrofi ventrikel kiri dengan kriteria Estes. 8. thalach : detak jantung maksimum 9. exang : latihan menyebabkan nyeri dada 1 = Yes, 0 = No 10. oldpeak : ST depresi diinduksi oleh latihan yang relatif sampai istirahat 11. slope : lekukan dari puncak segmen ST pada saat latihan Nilai 1 : upsloping Nilai 2 : flat Nilai 3 : downsloping 12. ca : jumlah pembuluh besar 0-3 diwarnai oleh flourosopy 13. thal : 3 = normal, 6 = fixed defect, 7 = reversable defect 14. num : diagnosa penyakit jantung status penyakit dari angiografi Nilai 0 : 50 diameter penyempitan Nilai 1 : 50 diameter penyempitan Universitas Sumatera Utara Dari wawancara dengan dr. Cut Aryfa Andra, Sp.JP, atribut di atas merupakan atribut yang digunakan untuk penyakit jantung khususnya penyakit jantung koroner. Atribut di atas dapat dibagi menjadi 2 bagian yang disesuaikan dengan gejala penyakit jantung yaitu kronis dan akut. Gejala penyakit jantung kronis memerlukan hampir semua atribut untuk diagnosa gangguan pada jantung dimana atribut nomor 3, 4, 7 sampai 14 merupakan atribut terikat dan atribut nomor 1, 2, 5 dan 6 merupakan atribut bebas penunjang. Sementara untuk gejala akut, atribut nomor 3 sampai 7 dan 14 merupakan atribut terikat serta atribut nomor 1, 2 dan 13 merupakan atribut penunjang. Atribut nomor 8 sampai 13 berkaitan dengan latihan treadmill tidak diikutsertakan. Pada penelitian ini atribut pada data penelitian digunakan hanya untuk memprediksi penyakit jantung dengan gejala koronis. Beberapa atribut di atas memiliki nilai kontinu. Pada penelitian ini dilakukan diskritisasi terhadap nilai kontinu menjadi nilai diskrit. Data diskrit biasanya memberikan hasil prediksi yang lebih baik dibandingkan data kontinu Yul, 2010. Adapun atribut-atribut yang didiskretisasi adalah sebagai berikut: 1. Age Pada atribut age, nilai informasi gain yang tertinggi terdapat pada umur 43 tahun sehingga pada titik tersebut dijadikan pemisah. Tabel 3.1 Diskritisasi Atribut Age Umur No Yes Total Gain Atas Gain Bawah Gain Split 29 1 1 0 0,997749788 0,00463815 35 2 2 4 0,863120569 0,863120569 0,134228229 37 1 1 0,811278124 0,811278124 0,186070673 38 1 1 0,918295834 0,918295834 0,079052964 39 2 1 3 0,918295834 0,918295834 0,079052964 40 1 1 0,961236605 0,961236605 0,036112193 41 7 7 0,811278124 0,811278124 0,186070673 42 6 1 7 0,764204507 0,764204507 0,233144291 43 4 1 5 0,757878463 0,757878463 0,239470335 44 3 1 4 0,764204507 0,764204507 0,233144291 2. Trestbps Pada atribut trestbps, nilai informasi gain yang tertinggi terdapat pada nilai 122 sehingga pada titik tersebut dijadikan pemisah. Universitas Sumatera Utara Tabel 3.2 Diskritisasi Atribut Trestbps Trestbps No Yes Total Gain Atas Gain Bawah Gain Split 94 2 2 0 0,998121458 0,009309375 100 2 2 4 0,918295834 0,998042334 0,001723025 101 1 1 0,863120569 0,998397774 0,003733551 102 2 2 0,764204507 0,999010271 0,009011516 105 2 2 0,684038436 0,999484234 0,015389331 106 1 1 0,650022422 0,999666365 0,018872975 108 3 2 5 0,787126586 0,999801825 0,015806969 110 6 5 11 0,905928216 0,999900157 0,010737602 112 5 2 7 0,898058793 0,99997285 0,015391059 114 1 1 0,918295834 1 0,012204101 115 3 3 0,89049164 0,999743186 0,019124856 118 5 2 7 0,886540893 0,998875725 0,024571065 120 15 9 24 0,913460145 0,993650712 0,032048286 122 3 1 4 0,909022156 0,990785248 0,037121473 123 1 1 0,918295834 0,991927046 0,033312362 124 2 3 5 0,934068055 0,992527016 0,028441564 3. Chol Pada atribut chol, nilai informasi gain yang tertinggi terdapat pada nilai 271 sehingga pada titik tersebut dijadikan pemisah. Tabel 3.3 Diskritisasi Atribut Chol Cholesterol No Yes Total Gain Atas Gain Bawah Gain Split 264 1 1 0,981382732 0,986944498 0,01408405 265 2 2 0,978318847 0,979241535 0,01872705 267 1 1 0,976734986 0,974489403 0,02133966 268 1 1 0,975119065 0,969063253 0,02415658 269 2 2 4 0,97653823 0,964690083 0,02434108 270 1 1 0,974975848 0,957553484 0,02747647 271 2 2 0,971768525 0,940285959 0,03448443 273 1 1 0,974129188 0,945660305 0,03112763 274 2 2 0,978449329 0,956155024 0,02486714 275 1 1 0,98041903 0,961236605 0,02196758 4. Thalach Pada atribut trestbps, nilai informasi gain yang tertinggi terdapat pada nilai 150 sehingga pada titik tersebut dijadikan pemisah. Universitas Sumatera Utara Tabel 3.4 Diskritisasi Atribut Thalach Thalach No Yes Total Gain Atas Gain Bawah Gain Split 140 1 3 4 0,849054424 0,918295834 0,10318255 141 2 2 0,838007851 0,907437434 0,11480783 142 1 1 0,852405179 0,910154037 0,10819435 143 3 2 5 0,879697578 0,906880172 0,10103963 144 4 4 0,860778118 0,880243609 0,12506834 145 1 2 3 0,863120569 0,868040399 0,13139560 146 3 3 0,849751137 0,84185219 0,15202586 147 2 1 3 0,867281622 0,839330762 0,14531310 149 1 1 0,877223623 0,84293594 0,13865438 150 1 4 5 0,870864469 0,803415848 0,16123059 151 1 1 0,880027048 0,807331327 0,15440391 152 4 2 6 0,904803274 0,798523765 0,14353822 153 1 1 0,911751759 0,802738102 0,13735100 5. Oldpeak Pada atribut oldpeak, nilai informasi gain yang tertinggi terdapat pada nilai 150 sehingga pada titik tersebut dijadikan pemisah. Tabel 3.5 Diskritisasi Atribut Oldpeak Oldpeak No Yes Total Gain Atas Gain Bawah Gain Split 59 19 78 1,297267049 0,96036227 0,09573354 1 2 7 9 0,879881309 0,968803551 0,06761714 2 2 6 8 0,921764712 0,975313058 0,04772813 3 3 3 0,940285959 0,981453895 0,03627095 4 3 3 0,955341377 0,98700443 0,02649572 0.1 4 2 6 0,95356886 0,980310798 0,03148945 0.2 6 2 8 0,946928968 0,961862414 0,04415985 0.3 2 1 3 0,946280454 0,954434003 0,04777398 0.4 1 1 2 0,948078244 0,95204028 0,04770975

3.4. Metode Pengujian