BAB 3
ANALISIS DAN PERANCANGAN SISTEM
3.1 Pengumpulan Data Pelatihan
PIMA Indians Dataset adalah sebuah dataset yang didapat dari National Institute of
Diabetes and Digestive and Kidney Diseases dan pertama kali digunakan oleh
Smith,~J.~W., Everhart,~J.~E.,
Dickson,~W.~C., Knowler,~W.~C.,
\ Johannes,~R.~S pada tahun 1988 pada sebuah penelitian dengan judul memprediksi
apakah sebuah sample terindikasi Diabetes Mellitus atau peramalan diabetes militus pada populasi di Phoenix, Arizona, USA. Dataset ini terdiri dari 12 kolom sehingga
dalam penelitian ini diperlukan beberapa langkah pre-processing guna mengolah raw data yang didapat sehingga menjadi data yang siap di training, adapun langkah-
langkah nya adalah sebagai berikut: 1.
Membuat rancangan data input dan output yang akan dimasukkan sebagai data penelitian
2. Memisahkan data penelitian menjadi dua bagian, yaitu data pelatihan dan data
pengujian. Data pelatihan diguanakan untuk mengamati proses pengenalan pola memorisasi, sedanga data pengujian digunakan untuk mengamati
kemampuan algoritma dalam mengenali pola pada sample yang belum dipelajari oleh algoritma K - Nearest Neighbor dan K-Means sebelumnya.
PIMA Indians dataset terdiri dari beberapa tipe data, yaitu: integer, float, numeric,
Boolean sehingga pada masing-masing kolom memiliki karakteristik tersendiri
apakah itu nilai mean, fungsi distribusi nya, nilai maksimum dan minimum nya, pengetahuan menganai karakteriik masing-masing parameter dapat membantu proses
pengolahan data input sehingga kita dapat melakukan penyaringan untuk mengetahui sample
yang mana saja yang layak diolah dan sample mana yang sebaiknya di hapus atau dibuang, berikut disajikan dalam table 3.1 karakterisik pada masing-masing
kolom dalam PIMA Indians dataset:
Universitas Sumatera Utara
Tabel 3.1. Karakterisik pada masing-masing kolom dalam PIMA Indians dataset No Atribut
Tipe Data Min Mean
Max Standard Deviation
1 Jumlah kehamilan preg
Integer 3,8
17 3,4
2 Konsentrasi plasma glukosa dalam
Integer 120,9 199 32,0
3 Tekanan darah diastolik mm Hg
Integer 69,1 122 19,4
4 Ketebalan kulit tricep mm skin
Integer 20,5 99
16,0 5
Serum insulin selama 2 jam mu Integer
79,8 846 115,2 6
Index berat badan berat dalam kg Integer
32,0 67.1 7.9 7
Fungsi pedigree diabetes pedi Integer
0.0780 0,5 2.42 0.3
8 Umur years age
Integer 21
33,2 81 11.8
9 K e l a s 0 a t a u 1
Boolean 0.34 1
-
Pada dataset ini nama atribut pada PIMA Indians dataset diubah menjadi variabel sebagai berikut:
1. Jumlah kehamilan preg diubah menjadi �
2. Konsentrasi plasma glukosa dalam 2 jam diubah menjadi �
3. Tekanan darah diastolik mm Hg diubah menjadi �
4. Ketebalan kulit tricep mm skin diubah menjadi �
5. Serum insulin selama 2 jam diubah menjadi �
6. Index berat badan diubah menjadi �
7. Fungsi pedigree diabetes pedi diubah menjadi �
8. Umur years age diubah menjadi �
3.2. Proses Training pada Algoritma K-Means Clustering