Analisis Perbandingan Proses Cluster Menggunakan K- Means Clustering dan K-Nearest Neighbor pada Penyakit Diabetes Mellitus

BAB I

PENDAHULUAN

1.1. Latar Belakang
World Health Organization (WHO) menempatkan Diabetes Mellitus sebagai

salah satu penyakit yang paling banyak menyebabkan kematian penduduk dunia,
pada penelitian J. W. Smith tahun 1988 menggunakan ADAP learning algorithm
untuk menciptakan sebuah software cerdas yang digunakan untuk memprediksi
apakah sebuah sample terindikasi Diabetes Mellitus, penelitian ini mampu
memprediksi dengan tingkat ketelitian hingga 76%. Sehingga penulis tertarik untuk
melakukan penelitian mengenai penggunaan data

mining algorithm dalam

pengelompokan (cluster ) pada Diabetes Mellitus menggunakan K- Means Clustering
dan K-Nearest Neighbor .
K-Means Clustering dan K-Nearest Neighbor adalah algoritma dalam data
mining yang tergolong dalam unsupervised algorithm yang digunakan dalam proses


pengelompokan (cluster ) sebuah dataset tanpa label, metoda ini dapat digunakan
pada dataset Diabetes Mellitus dikarenakan proses pengelompokan dapat dilakukan
berdasarkan ciri-ciri khusus pada masing-masing kelompok (cluster ). K-Means
Clustering dan K-Nearest Neighbor memiliki beberapa persamaan dalam cara

pengelompokan yaitu sama-sama menghitung perbedaan dan persamaan pada
masing- masing sample, perbedaan algoritma ini terdapat pada penggunaan
Euclidean distance pada K-Means Clustering untuk menghitung perbedaan masing-

masing sample sedangkan penggunaan Gaussian kernel pada K-Nearest Neighbor
untuk menghitung persamaan

pada masing-masing sample.

Penulis

merasa

tertarik untuk memahami pengaruh perbedaan ini, apakah Diabetes Mellitus dapat
dikelompokkan dengan cara menghitung perbedaan


masing-masing sample

menggunakan K-Means Clustering atau dapat dikelompokkan dengan cara
menghitung persamaan masing-masing sample menggunakan K-Nearest Neighbor .

Universitas Sumatera Utara

Diharapkan berdasarkan penelitian ini penulis berharap dapat memberikan
rekomendasi algoritma yang lebih ideal yang dapat digunakan dalam pengelompokan
Diabetes Mellitus.
1.2. Rumusan Masalah
Rumusan masalah dalam penulisan tugas akhir ini adalah bagaimana perbandingan
kinerja dari proses clustering menggunakan algoritma K-Means Clustering dan
K- Nearest Neighbor pada Penyakit Diabetes Mellitus.
1.3.Batasan Masalah
Batasan masalah dalam penelitian ini adalah:
1. Perbandingan kinerja algoritma hanyalah antara algoritma K-Means Clustering
dan K-Nearest Neighbor .
2. Penelitian ini hanya membandingkan hanya membandingkan running time

dan Akurasi.
3. Penelitian

ini

hanya

berfokus

pada

proses

pengelompokan (clustering)

berdasarkan dataset yang telah tersedia.
4 . Penelitian ini menggunakan dataset yang telah tersedia dalam UCI
5. Machine Learning Repository, yaitu: PIMA Indians Diabetes Dataset atau dataset
yang


didapat dari National Institute of Diabetes and Digestive and Kidney

Diseases.

6. Penelitian ini menggunakan dataset yang telah mengalami preprocessing
terlebih dahulu yang pertama kali digunakan oleh Smith,~J.~W., Everhart,~J.~E.,
Dickson,~W.~C., Knowler,~W.~C., \& Johannes,~R.~S pada tahun 1988.
6. XAMPP 1.7.1 dimana terdapat Apache sebagai web server , PHP sebagai
bahasa pemrograman yang digunakan, dan MySQL sebagai software untuk
server database.

1.4.Tujuan Penelitian
Tujuan penelitian ini adalah memahami perbandingan kinerja algoritma K-Means
Clustering

dan

K-Nearest

Neighbor


dalam

melakukan

pengelompokan

(clustering) pada penyakit Diabetes Melitus.

Universitas Sumatera Utara

1.5. Manfaat Penelitian
Manfaat penelitian ini adalah sebagai alternatif pemilihan algoritma yang paling ideal
dalam melakukan pengelompokan (clustering) pada penyakit Diabetes Melitus.
1.6. Metodelogi Penelitian
Metode penelitian yang digunakan dalam penulisan tugas akhir ini adalah sebagai
berikut:
1. Studi Literatur
Metode ini dilaksanakan dengan melakukan studi kepustakaan melalui membaca
buku-buku, skripsi, dan jurnal yang dapat mendukung penulisan Tugas Akhir

yang relevan mengenai K-Means Clustering dan K-Nearest Neighbor.
2. Analisis
Analisis masalah yang dimulai dengan tahap mengindentifikasi masalah, dilakukan
pengumpulan data, memahami cara kerja algoritma , menganalisis dan membaut
laporan

tentang

hasil

analisis

algoritma,

menggambarkan

sistem

dengan


menggunakan flowchart.
3. Perancangan
Pada tahap ini dilakukan perancangan data mining untuk clustering data. Termasuk
didalamnya yaitu perancangan flowchart, dan perancangan sistem.
4. Implementasi
Metode ini dilaksanakan dengan mengimplementasi rancangan sistem yang telah
dibuat pada impelementasi menggunakan PHP sebagai bahasa pemrograman yang
digunakan, dan MySQL sebagai software untuk server database.
5. Pengujian
Setelah proses pengkodean selesai maka akan dilakukan proses pengujian terhadap
program yang dihasilkan untuk mengetahui apakah program sudah berjalan dengan
benar dan sesuai dengan perancangan yang dilakukan.
6. Penyusunan laporan dan kesimpulan akhir
Membuat laporan hasil analisa dan perancangan ke dalam format penulisan tugas
akhir yang disertai dengan kesimpulan.

Universitas Sumatera Utara

1.7. Sistematika Penulisan
Dalam penulisan penelitian ini ada beberapa sistematika penulisan, yaitu:

BAB 1: PENDAHULUAN
Bab ini berisi latar belakang masalah, rumusan masalah, batasan masalah, tujuan
penelitian, manfaat penelitian, metodelogi penelitian dan sistematika penulisan
skripsi.
BAB 2: TINJAUAN PUSTAKA
Pada bab ini membahas mengenai teori-teori yang digunakan untuk memahami
permasalahan yang berkaitan dengan proses clustering menggunakan algoritma
K -Means Clustering dan K-Nearest Neighbor , visualisasi data.
BAB 3: ANALISIS DAN PERANCANGAN SISTEM
Pada bab ini berisikan analisis mengenai metode yang digunakan untuk
menyelesaikan masalah dan perancangan dari sistem yang dibangun.
BAB 4: IMPLEMENTASI DAN PENGUJIAN
Bab ini berisi tentang pengujian program yang telah diimplentasikan dengan
menggunakan bahasa pemograman PHP.
BAB 5: KESIMPULAN DAN SARAN
Bab ini berisi kesimpulan yang telah dirangkum dalam penelitian ini dan berisi saran
yang berguna dalam usaha untuk melakukan perbaikan dan pengembangan penelitian
ini.

Universitas Sumatera Utara