Pengumpulan Data Pelatihan Analisis Perbandingan Proses Cluster Menggunakan K- Means Clustering dan K-Nearest Neighbor pada Penyakit Diabetes Mellitus

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

3.1 Pengumpulan Data Pelatihan

PIMA Indians Dataset adalah sebuah dataset yang didapat dari National Institute of Diabetes and Digestive and Kidney Diseases dan pertama kali digunakan oleh Smith,~J.~W., Everhart,~J.~E., Dickson,~W.~C., Knowler,~W.~C., \ Johannes,~R.~S pada tahun 1988 pada sebuah penelitian dengan judul memprediksi apakah sebuah sample terindikasi Diabetes Mellitus atau peramalan diabetes militus pada populasi di Phoenix, Arizona, USA. Dataset ini terdiri dari 12 kolom sehingga dalam penelitian ini diperlukan beberapa langkah pre-processing guna mengolah raw data yang didapat sehingga menjadi data yang siap di training, adapun langkah- langkah nya adalah sebagai berikut: 1. Membuat rancangan data input dan output yang akan dimasukkan sebagai data penelitian 2. Memisahkan data penelitian menjadi dua bagian, yaitu data pelatihan dan data pengujian. Data pelatihan diguanakan untuk mengamati proses pengenalan pola memorisasi, sedanga data pengujian digunakan untuk mengamati kemampuan algoritma dalam mengenali pola pada sample yang belum dipelajari oleh algoritma K - Nearest Neighbor dan K-Means sebelumnya. PIMA Indians dataset terdiri dari beberapa tipe data, yaitu: integer, float, numeric, Boolean sehingga pada masing-masing kolom memiliki karakteristik tersendiri apakah itu nilai mean, fungsi distribusi nya, nilai maksimum dan minimum nya, pengetahuan menganai karakteriik masing-masing parameter dapat membantu proses pengolahan data input sehingga kita dapat melakukan penyaringan untuk mengetahui sample yang mana saja yang layak diolah dan sample mana yang sebaiknya di hapus atau dibuang, berikut disajikan dalam table 3.1 karakterisik pada masing-masing kolom dalam PIMA Indians dataset: Universitas Sumatera Utara Tabel 3.1. Karakterisik pada masing-masing kolom dalam PIMA Indians dataset No Atribut Tipe Data Min Mean Max Standard Deviation 1 Jumlah kehamilan preg Integer 3,8 17 3,4 2 Konsentrasi plasma glukosa dalam Integer 120,9 199 32,0 3 Tekanan darah diastolik mm Hg Integer 69,1 122 19,4 4 Ketebalan kulit tricep mm skin Integer 20,5 99 16,0 5 Serum insulin selama 2 jam mu Integer 79,8 846 115,2 6 Index berat badan berat dalam kg Integer 32,0 67.1 7.9 7 Fungsi pedigree diabetes pedi Integer 0.0780 0,5 2.42 0.3 8 Umur years age Integer 21 33,2 81 11.8 9 K e l a s 0 a t a u 1 Boolean 0.34 1 - Pada dataset ini nama atribut pada PIMA Indians dataset diubah menjadi variabel sebagai berikut: 1. Jumlah kehamilan preg diubah menjadi � 2. Konsentrasi plasma glukosa dalam 2 jam diubah menjadi � 3. Tekanan darah diastolik mm Hg diubah menjadi � 4. Ketebalan kulit tricep mm skin diubah menjadi � 5. Serum insulin selama 2 jam diubah menjadi � 6. Index berat badan diubah menjadi � 7. Fungsi pedigree diabetes pedi diubah menjadi � 8. Umur years age diubah menjadi �

3.2. Proses Training pada Algoritma K-Means Clustering