Analisis Perbandingan Proses Cluster Menggunakan K- Means Clustering dan K-Nearest Neighbor pada Penyakit Diabetes Mellitus
BAB I
PENDAHULUAN
1.1. Latar Belakang
World Health Organization (WHO) menempatkan Diabetes Mellitus sebagai
salah satu penyakit yang paling banyak menyebabkan kematian penduduk dunia,
pada penelitian J. W. Smith tahun 1988 menggunakan ADAP learning algorithm
untuk menciptakan sebuah software cerdas yang digunakan untuk memprediksi
apakah sebuah sample terindikasi Diabetes Mellitus, penelitian ini mampu
memprediksi dengan tingkat ketelitian hingga 76%. Sehingga penulis tertarik untuk
melakukan penelitian mengenai penggunaan data
mining algorithm dalam
pengelompokan (cluster ) pada Diabetes Mellitus menggunakan K- Means Clustering
dan K-Nearest Neighbor .
K-Means Clustering dan K-Nearest Neighbor adalah algoritma dalam data
mining yang tergolong dalam unsupervised algorithm yang digunakan dalam proses
pengelompokan (cluster ) sebuah dataset tanpa label, metoda ini dapat digunakan
pada dataset Diabetes Mellitus dikarenakan proses pengelompokan dapat dilakukan
berdasarkan ciri-ciri khusus pada masing-masing kelompok (cluster ). K-Means
Clustering dan K-Nearest Neighbor memiliki beberapa persamaan dalam cara
pengelompokan yaitu sama-sama menghitung perbedaan dan persamaan pada
masing- masing sample, perbedaan algoritma ini terdapat pada penggunaan
Euclidean distance pada K-Means Clustering untuk menghitung perbedaan masing-
masing sample sedangkan penggunaan Gaussian kernel pada K-Nearest Neighbor
untuk menghitung persamaan
pada masing-masing sample.
Penulis
merasa
tertarik untuk memahami pengaruh perbedaan ini, apakah Diabetes Mellitus dapat
dikelompokkan dengan cara menghitung perbedaan
masing-masing sample
menggunakan K-Means Clustering atau dapat dikelompokkan dengan cara
menghitung persamaan masing-masing sample menggunakan K-Nearest Neighbor .
Universitas Sumatera Utara
Diharapkan berdasarkan penelitian ini penulis berharap dapat memberikan
rekomendasi algoritma yang lebih ideal yang dapat digunakan dalam pengelompokan
Diabetes Mellitus.
1.2. Rumusan Masalah
Rumusan masalah dalam penulisan tugas akhir ini adalah bagaimana perbandingan
kinerja dari proses clustering menggunakan algoritma K-Means Clustering dan
K- Nearest Neighbor pada Penyakit Diabetes Mellitus.
1.3.Batasan Masalah
Batasan masalah dalam penelitian ini adalah:
1. Perbandingan kinerja algoritma hanyalah antara algoritma K-Means Clustering
dan K-Nearest Neighbor .
2. Penelitian ini hanya membandingkan hanya membandingkan running time
dan Akurasi.
3. Penelitian
ini
hanya
berfokus
pada
proses
pengelompokan (clustering)
berdasarkan dataset yang telah tersedia.
4 . Penelitian ini menggunakan dataset yang telah tersedia dalam UCI
5. Machine Learning Repository, yaitu: PIMA Indians Diabetes Dataset atau dataset
yang
didapat dari National Institute of Diabetes and Digestive and Kidney
Diseases.
6. Penelitian ini menggunakan dataset yang telah mengalami preprocessing
terlebih dahulu yang pertama kali digunakan oleh Smith,~J.~W., Everhart,~J.~E.,
Dickson,~W.~C., Knowler,~W.~C., \& Johannes,~R.~S pada tahun 1988.
6. XAMPP 1.7.1 dimana terdapat Apache sebagai web server , PHP sebagai
bahasa pemrograman yang digunakan, dan MySQL sebagai software untuk
server database.
1.4.Tujuan Penelitian
Tujuan penelitian ini adalah memahami perbandingan kinerja algoritma K-Means
Clustering
dan
K-Nearest
Neighbor
dalam
melakukan
pengelompokan
(clustering) pada penyakit Diabetes Melitus.
Universitas Sumatera Utara
1.5. Manfaat Penelitian
Manfaat penelitian ini adalah sebagai alternatif pemilihan algoritma yang paling ideal
dalam melakukan pengelompokan (clustering) pada penyakit Diabetes Melitus.
1.6. Metodelogi Penelitian
Metode penelitian yang digunakan dalam penulisan tugas akhir ini adalah sebagai
berikut:
1. Studi Literatur
Metode ini dilaksanakan dengan melakukan studi kepustakaan melalui membaca
buku-buku, skripsi, dan jurnal yang dapat mendukung penulisan Tugas Akhir
yang relevan mengenai K-Means Clustering dan K-Nearest Neighbor.
2. Analisis
Analisis masalah yang dimulai dengan tahap mengindentifikasi masalah, dilakukan
pengumpulan data, memahami cara kerja algoritma , menganalisis dan membaut
laporan
tentang
hasil
analisis
algoritma,
menggambarkan
sistem
dengan
menggunakan flowchart.
3. Perancangan
Pada tahap ini dilakukan perancangan data mining untuk clustering data. Termasuk
didalamnya yaitu perancangan flowchart, dan perancangan sistem.
4. Implementasi
Metode ini dilaksanakan dengan mengimplementasi rancangan sistem yang telah
dibuat pada impelementasi menggunakan PHP sebagai bahasa pemrograman yang
digunakan, dan MySQL sebagai software untuk server database.
5. Pengujian
Setelah proses pengkodean selesai maka akan dilakukan proses pengujian terhadap
program yang dihasilkan untuk mengetahui apakah program sudah berjalan dengan
benar dan sesuai dengan perancangan yang dilakukan.
6. Penyusunan laporan dan kesimpulan akhir
Membuat laporan hasil analisa dan perancangan ke dalam format penulisan tugas
akhir yang disertai dengan kesimpulan.
Universitas Sumatera Utara
1.7. Sistematika Penulisan
Dalam penulisan penelitian ini ada beberapa sistematika penulisan, yaitu:
BAB 1: PENDAHULUAN
Bab ini berisi latar belakang masalah, rumusan masalah, batasan masalah, tujuan
penelitian, manfaat penelitian, metodelogi penelitian dan sistematika penulisan
skripsi.
BAB 2: TINJAUAN PUSTAKA
Pada bab ini membahas mengenai teori-teori yang digunakan untuk memahami
permasalahan yang berkaitan dengan proses clustering menggunakan algoritma
K -Means Clustering dan K-Nearest Neighbor , visualisasi data.
BAB 3: ANALISIS DAN PERANCANGAN SISTEM
Pada bab ini berisikan analisis mengenai metode yang digunakan untuk
menyelesaikan masalah dan perancangan dari sistem yang dibangun.
BAB 4: IMPLEMENTASI DAN PENGUJIAN
Bab ini berisi tentang pengujian program yang telah diimplentasikan dengan
menggunakan bahasa pemograman PHP.
BAB 5: KESIMPULAN DAN SARAN
Bab ini berisi kesimpulan yang telah dirangkum dalam penelitian ini dan berisi saran
yang berguna dalam usaha untuk melakukan perbaikan dan pengembangan penelitian
ini.
Universitas Sumatera Utara
PENDAHULUAN
1.1. Latar Belakang
World Health Organization (WHO) menempatkan Diabetes Mellitus sebagai
salah satu penyakit yang paling banyak menyebabkan kematian penduduk dunia,
pada penelitian J. W. Smith tahun 1988 menggunakan ADAP learning algorithm
untuk menciptakan sebuah software cerdas yang digunakan untuk memprediksi
apakah sebuah sample terindikasi Diabetes Mellitus, penelitian ini mampu
memprediksi dengan tingkat ketelitian hingga 76%. Sehingga penulis tertarik untuk
melakukan penelitian mengenai penggunaan data
mining algorithm dalam
pengelompokan (cluster ) pada Diabetes Mellitus menggunakan K- Means Clustering
dan K-Nearest Neighbor .
K-Means Clustering dan K-Nearest Neighbor adalah algoritma dalam data
mining yang tergolong dalam unsupervised algorithm yang digunakan dalam proses
pengelompokan (cluster ) sebuah dataset tanpa label, metoda ini dapat digunakan
pada dataset Diabetes Mellitus dikarenakan proses pengelompokan dapat dilakukan
berdasarkan ciri-ciri khusus pada masing-masing kelompok (cluster ). K-Means
Clustering dan K-Nearest Neighbor memiliki beberapa persamaan dalam cara
pengelompokan yaitu sama-sama menghitung perbedaan dan persamaan pada
masing- masing sample, perbedaan algoritma ini terdapat pada penggunaan
Euclidean distance pada K-Means Clustering untuk menghitung perbedaan masing-
masing sample sedangkan penggunaan Gaussian kernel pada K-Nearest Neighbor
untuk menghitung persamaan
pada masing-masing sample.
Penulis
merasa
tertarik untuk memahami pengaruh perbedaan ini, apakah Diabetes Mellitus dapat
dikelompokkan dengan cara menghitung perbedaan
masing-masing sample
menggunakan K-Means Clustering atau dapat dikelompokkan dengan cara
menghitung persamaan masing-masing sample menggunakan K-Nearest Neighbor .
Universitas Sumatera Utara
Diharapkan berdasarkan penelitian ini penulis berharap dapat memberikan
rekomendasi algoritma yang lebih ideal yang dapat digunakan dalam pengelompokan
Diabetes Mellitus.
1.2. Rumusan Masalah
Rumusan masalah dalam penulisan tugas akhir ini adalah bagaimana perbandingan
kinerja dari proses clustering menggunakan algoritma K-Means Clustering dan
K- Nearest Neighbor pada Penyakit Diabetes Mellitus.
1.3.Batasan Masalah
Batasan masalah dalam penelitian ini adalah:
1. Perbandingan kinerja algoritma hanyalah antara algoritma K-Means Clustering
dan K-Nearest Neighbor .
2. Penelitian ini hanya membandingkan hanya membandingkan running time
dan Akurasi.
3. Penelitian
ini
hanya
berfokus
pada
proses
pengelompokan (clustering)
berdasarkan dataset yang telah tersedia.
4 . Penelitian ini menggunakan dataset yang telah tersedia dalam UCI
5. Machine Learning Repository, yaitu: PIMA Indians Diabetes Dataset atau dataset
yang
didapat dari National Institute of Diabetes and Digestive and Kidney
Diseases.
6. Penelitian ini menggunakan dataset yang telah mengalami preprocessing
terlebih dahulu yang pertama kali digunakan oleh Smith,~J.~W., Everhart,~J.~E.,
Dickson,~W.~C., Knowler,~W.~C., \& Johannes,~R.~S pada tahun 1988.
6. XAMPP 1.7.1 dimana terdapat Apache sebagai web server , PHP sebagai
bahasa pemrograman yang digunakan, dan MySQL sebagai software untuk
server database.
1.4.Tujuan Penelitian
Tujuan penelitian ini adalah memahami perbandingan kinerja algoritma K-Means
Clustering
dan
K-Nearest
Neighbor
dalam
melakukan
pengelompokan
(clustering) pada penyakit Diabetes Melitus.
Universitas Sumatera Utara
1.5. Manfaat Penelitian
Manfaat penelitian ini adalah sebagai alternatif pemilihan algoritma yang paling ideal
dalam melakukan pengelompokan (clustering) pada penyakit Diabetes Melitus.
1.6. Metodelogi Penelitian
Metode penelitian yang digunakan dalam penulisan tugas akhir ini adalah sebagai
berikut:
1. Studi Literatur
Metode ini dilaksanakan dengan melakukan studi kepustakaan melalui membaca
buku-buku, skripsi, dan jurnal yang dapat mendukung penulisan Tugas Akhir
yang relevan mengenai K-Means Clustering dan K-Nearest Neighbor.
2. Analisis
Analisis masalah yang dimulai dengan tahap mengindentifikasi masalah, dilakukan
pengumpulan data, memahami cara kerja algoritma , menganalisis dan membaut
laporan
tentang
hasil
analisis
algoritma,
menggambarkan
sistem
dengan
menggunakan flowchart.
3. Perancangan
Pada tahap ini dilakukan perancangan data mining untuk clustering data. Termasuk
didalamnya yaitu perancangan flowchart, dan perancangan sistem.
4. Implementasi
Metode ini dilaksanakan dengan mengimplementasi rancangan sistem yang telah
dibuat pada impelementasi menggunakan PHP sebagai bahasa pemrograman yang
digunakan, dan MySQL sebagai software untuk server database.
5. Pengujian
Setelah proses pengkodean selesai maka akan dilakukan proses pengujian terhadap
program yang dihasilkan untuk mengetahui apakah program sudah berjalan dengan
benar dan sesuai dengan perancangan yang dilakukan.
6. Penyusunan laporan dan kesimpulan akhir
Membuat laporan hasil analisa dan perancangan ke dalam format penulisan tugas
akhir yang disertai dengan kesimpulan.
Universitas Sumatera Utara
1.7. Sistematika Penulisan
Dalam penulisan penelitian ini ada beberapa sistematika penulisan, yaitu:
BAB 1: PENDAHULUAN
Bab ini berisi latar belakang masalah, rumusan masalah, batasan masalah, tujuan
penelitian, manfaat penelitian, metodelogi penelitian dan sistematika penulisan
skripsi.
BAB 2: TINJAUAN PUSTAKA
Pada bab ini membahas mengenai teori-teori yang digunakan untuk memahami
permasalahan yang berkaitan dengan proses clustering menggunakan algoritma
K -Means Clustering dan K-Nearest Neighbor , visualisasi data.
BAB 3: ANALISIS DAN PERANCANGAN SISTEM
Pada bab ini berisikan analisis mengenai metode yang digunakan untuk
menyelesaikan masalah dan perancangan dari sistem yang dibangun.
BAB 4: IMPLEMENTASI DAN PENGUJIAN
Bab ini berisi tentang pengujian program yang telah diimplentasikan dengan
menggunakan bahasa pemograman PHP.
BAB 5: KESIMPULAN DAN SARAN
Bab ini berisi kesimpulan yang telah dirangkum dalam penelitian ini dan berisi saran
yang berguna dalam usaha untuk melakukan perbaikan dan pengembangan penelitian
ini.
Universitas Sumatera Utara