BAB 3 METODOLOGI PENELITIAN
Seleksi atribut merupakan proses untuk mengidentifikasi dan menghilangkan atribut dengan nilai yang tidak relevan atau berlebihan. Pada penelitian ini dilakukan seleksi
atribut dengan menggunakan information gain yang diimplementasikan pada algoritma Naive Bayes untuk tugas klasifikasi dalam memprediksi penyakit jantung.
Information gain bertujuan melakukan pengurutan atribut berdasarkan peringkat rank dimana semakin besar nilai information gain dari suatu atribut maka semakin
signifikan atribut tersebut untuk tugas prediksi.
3.1. Rancangan Penelitian
Dalam melakukan analisis seleksi atribut pada algoritma Naive Bayes dalam memprediksi penyakit jantung, peneliti melakukan langkah-langkah yang dapat
digambarkan pada flowchart berikut ini:
Universitas Sumatera Utara
Start
Input Data Training
Seleksi Atribut?
Training Data Menggunakan
Naive Bayes
Interpretasi Pada data testing
Tidak
Output Hasil
Prediksi Hitung info Gain
Setiap atribut Sort nilai Gain
atribut dari Yang terbesar
Sampai terkecil
Reduksi atribut dengan nilai Gain
terendah Ya
End Analisis Akurasi
dan Error
Gambar 3.1 Flowchart Proses Naive Bayes Dengan dan Tanpa Seleksi Atribut
Universitas Sumatera Utara
3.2. Teknik Pengumpulan Data
Teknik pengumpulan data yang digunakan peneliti dalam pengumpulan data adalah sebagai berikut:
1. Mengumpulkan literatur, jurnal, paper, dan bacaan-bacaan lainnya yang berhubungan dengan algoritma klasifikasi data mining.
2. Mengumpulkan data penelitian yang diperoleh secara online dari UCI repository.
3. Melakukan observasi terhadap data penelitian yang diperoleh dengan mengajukan pertanyaan-pertanyaan wawancara kepada nara sumber yang
mengetahui dengan detail setiap atribut pada data penelitian yang digunakan. Pada penelitian ini, peneliti melakukan wawancara dengan dokter spesialis
penyakit jantung di rumah sakit Adam Malik Medan yang bernama dr. Cut Aryfa Andra, Sp.JP.
3.3. Alat dan Bahan Penelitian
3.3.1. Alat Penelitian Pada penelitian ini digunakan alat penelitian berupa perangkat keras dan perangkat
lunak sebagai berikut: a. Perangkat keras
Satu unit komputer dengan spesifikasi sebagai berikut: - Processor Intel Pentium Core i3 1.40 GH
z
- RAM DDR2 4 GB. - HDD 200 GB.
b. Perangkat lunak - Sistem operasi Windows 7 Ultimate.
- PHP versi 5.4.4 - MySQL versi 5.0.10
Universitas Sumatera Utara
3.3.1. Bahan Penelitian Bahan penelitian yang digunakan pada penelitian ini adalah data rekam medis
penyakit jantung Cleveland yang diperoleh secara online dari website UCI repository. Data ini terdiri dari 14 atribut dimana atribut yang terakhir merupakan kelas. Berikut
keterangan dari setiap atribut-nya: 1. age
2. sex 3. cp
: jenis nyeri pada dada: - typical_angina
- atypical_angina - non-anginal pain
- asymptomatic 4. trestbps
: tekanan darah saat beristirahat dalam mm Hg 5. chol serum kolesterol dalam mgdl
6. fbs fasting blood sugar 120 mgdl 7. restecg : hasil elektrokardiografi saat istirahat
- value 0 : normal
- value 1 : gelombang ST-T yang tidak normal inversi gelombang T
danatau elevasi ST atau depresi 0.05 mV - value 2
: menunjukkan kemungkinan atau kepastian hipertrofi ventrikel kiri dengan kriteria Estes.
8. thalach : detak jantung maksimum
9. exang : latihan menyebabkan nyeri dada 1 = Yes, 0 = No
10. oldpeak : ST depresi diinduksi oleh latihan yang relatif sampai istirahat
11. slope : lekukan dari puncak segmen ST pada saat latihan
Nilai 1 : upsloping
Nilai 2 : flat
Nilai 3 : downsloping
12. ca : jumlah pembuluh besar 0-3 diwarnai oleh flourosopy
13. thal : 3 = normal, 6 = fixed defect, 7 = reversable defect
14. num : diagnosa penyakit jantung status penyakit dari angiografi
Nilai 0 : 50 diameter penyempitan
Nilai 1 : 50 diameter penyempitan
Universitas Sumatera Utara
Dari wawancara dengan dr. Cut Aryfa Andra, Sp.JP, atribut di atas merupakan atribut yang digunakan untuk penyakit jantung khususnya penyakit jantung koroner. Atribut
di atas dapat dibagi menjadi 2 bagian yang disesuaikan dengan gejala penyakit jantung yaitu kronis dan akut. Gejala penyakit jantung kronis memerlukan hampir semua
atribut untuk diagnosa gangguan pada jantung dimana atribut nomor 3, 4, 7 sampai 14 merupakan atribut terikat dan atribut nomor 1, 2, 5 dan 6 merupakan atribut bebas
penunjang. Sementara untuk gejala akut, atribut nomor 3 sampai 7 dan 14 merupakan atribut terikat serta atribut nomor 1, 2 dan 13 merupakan atribut
penunjang. Atribut nomor 8 sampai 13 berkaitan dengan latihan treadmill tidak diikutsertakan. Pada penelitian ini atribut pada data penelitian digunakan hanya untuk
memprediksi penyakit jantung dengan gejala koronis. Beberapa atribut di atas memiliki nilai kontinu. Pada penelitian ini dilakukan
diskritisasi terhadap nilai kontinu menjadi nilai diskrit. Data diskrit biasanya memberikan hasil prediksi yang lebih baik dibandingkan data kontinu Yul, 2010.
Adapun atribut-atribut yang didiskretisasi adalah sebagai berikut: 1. Age
Pada atribut age, nilai informasi gain yang tertinggi terdapat pada umur 43 tahun sehingga pada titik tersebut dijadikan pemisah.
Tabel 3.1 Diskritisasi Atribut Age
Umur No Yes Total Gain Atas
Gain Bawah Gain Split
29 1
1 0 0,997749788
0,00463815 35
2 2
4 0,863120569 0,863120569 0,134228229 37
1 1 0,811278124 0,811278124 0,186070673
38 1
1 0,918295834 0,918295834 0,079052964 39
2 1
3 0,918295834 0,918295834 0,079052964 40
1 1 0,961236605 0,961236605 0,036112193
41 7
7 0,811278124 0,811278124 0,186070673 42
6 1
7 0,764204507 0,764204507 0,233144291 43
4 1
5 0,757878463 0,757878463 0,239470335 44
3 1
4 0,764204507 0,764204507 0,233144291
2. Trestbps Pada atribut trestbps, nilai informasi gain yang tertinggi terdapat pada nilai
122 sehingga pada titik tersebut dijadikan pemisah.
Universitas Sumatera Utara
Tabel 3.2 Diskritisasi Atribut Trestbps
Trestbps No Yes Total Gain Atas
Gain Bawah Gain Split
94 2
2 0 0,998121458 0,009309375
100 2
2 4 0,918295834 0,998042334 0,001723025
101 1
1 0,863120569 0,998397774 0,003733551 102
2 2 0,764204507 0,999010271 0,009011516
105 2
2 0,684038436 0,999484234 0,015389331 106
1 1 0,650022422 0,999666365 0,018872975
108 3
2 5 0,787126586 0,999801825 0,015806969
110 6
5 11 0,905928216 0,999900157 0,010737602
112 5
2 7 0,898058793
0,99997285 0,015391059 114
1 1 0,918295834
1 0,012204101 115
3 3
0,89049164 0,999743186 0,019124856 118
5 2
7 0,886540893 0,998875725 0,024571065 120
15 9
24 0,913460145 0,993650712 0,032048286 122
3 1
4 0,909022156 0,990785248 0,037121473 123
1 1 0,918295834 0,991927046 0,033312362
124 2
3 5 0,934068055 0,992527016 0,028441564
3. Chol Pada atribut chol, nilai informasi gain yang tertinggi terdapat pada nilai 271
sehingga pada titik tersebut dijadikan pemisah. Tabel 3.3 Diskritisasi Atribut Chol
Cholesterol No Yes Total
Gain Atas Gain Bawah
Gain Split
264 1
1 0,981382732 0,986944498 0,01408405 265
2 2 0,978318847 0,979241535 0,01872705
267 1
1 0,976734986 0,974489403 0,02133966 268
1 1 0,975119065 0,969063253 0,02415658
269 2
2 4
0,97653823 0,964690083 0,02434108 270
1 1 0,974975848 0,957553484 0,02747647
271 2
2 0,971768525 0,940285959 0,03448443 273
1 1 0,974129188 0,945660305 0,03112763
274 2
2 0,978449329 0,956155024 0,02486714 275
1 1
0,98041903 0,961236605 0,02196758
4. Thalach Pada atribut trestbps, nilai informasi gain yang tertinggi terdapat pada nilai
150 sehingga pada titik tersebut dijadikan pemisah.
Universitas Sumatera Utara
Tabel 3.4 Diskritisasi Atribut Thalach
Thalach No Yes Total Gain Atas
Gain Bawah Gain Split
140 1
3 4 0,849054424 0,918295834 0,10318255
141 2
2 0,838007851 0,907437434 0,11480783 142
1 1 0,852405179 0,910154037 0,10819435
143 3
2 5 0,879697578 0,906880172 0,10103963
144 4
4 0,860778118 0,880243609 0,12506834 145
1 2
3 0,863120569 0,868040399 0,13139560 146
3 3 0,849751137
0,84185219 0,15202586 147
2 1
3 0,867281622 0,839330762 0,14531310 149
1 1 0,877223623
0,84293594 0,13865438 150
1 4
5 0,870864469 0,803415848 0,16123059 151
1 1 0,880027048 0,807331327 0,15440391
152 4
2 6 0,904803274 0,798523765 0,14353822
153 1
1 0,911751759 0,802738102 0,13735100
5. Oldpeak Pada atribut oldpeak, nilai informasi gain yang tertinggi terdapat pada nilai
150 sehingga pada titik tersebut dijadikan pemisah. Tabel 3.5 Diskritisasi Atribut Oldpeak
Oldpeak No Yes
Total Gain Atas
Gain Bawah Gain Split
59 19
78 1,297267049 0,96036227 0,09573354
1 2
7 9 0,879881309 0,968803551 0,06761714
2 2
6 8 0,921764712 0,975313058 0,04772813
3 3
3 0,940285959 0,981453895 0,03627095 4
3 3 0,955341377
0,98700443 0,02649572 0.1
4 2
6 0,95356886 0,980310798 0,03148945
0.2 6
2 8 0,946928968 0,961862414 0,04415985
0.3 2
1 3 0,946280454 0,954434003 0,04777398
0.4 1
1 2 0,948078244
0,95204028 0,04770975
3.4. Metode Pengujian