DAFTAR ISI
Halaman
HALAMAN JUDUL PENGESAHAN
PERNYATAAN PERSETUJUAN
PANITIA PENGUJI RIWAYAT HIDUP
UCAPAN TERIMA KASIH ABSTRAK
i ABSTRACK
ii DAFTAR ISI
iii DAFTAR GAMBAR
v DAFTAR TABEL
vi
BAB
1 PENDAHULUAN
1
1.1 Latar Belakang Masalah 1
1.2 Perumusan Masalah 3
1.3 Batasan Masalah 4
1.4 Tujuan Penelitian 4
1.5 Manfaat Penelitian 4
BAB 2
TINJAUAN PUSTAKA 5
2.1 Defenisi Data 5
2.1.1. Jenis Data Berdasarkan sifatnya 5
2.1.2. Jenis Data Menurut Subernya 7
2.1.3. Jenis Data Menurut Cara Memperolehnya 7
2.1.4. Jenis Data Menurut Waktu Pengumpulannya 7
2.2 Data Mining 8
2.3 Proses Data Mining 11 2.4 Clustering 12
2.5 Algoritma Clustering
14 2.5.1. Clustering Hirarki
19 2.5.2. Clustering Partisional Partitional Clustering
20 2.6
Sum Of Squared Error SSE 25
2.7 Distance Space Untuk Menghitung Jarak Antara Data
dan Centroid 26
2.7.1. Jarak Euclidean 26
2.7.2. Jarak Menhattan 27
2.7.3. Jarak Pearson 27
2.8 Riset Terkait
28 2.9
Perbedaan Dengan Riset Sebelumnya 29
BAB 3 METODOLOGI PENELITIAN
30
3.1 Pendahuluan
30
Universitas Sumatera Utara
3.2 Transformasi Data
30 3.3
Perancangan Algoritma 31
3.4 Teknik Pengembangan 32
BAB 4 HASIL DAN PEMBAHASAN
34
4.1 Pendahuluan
34 4.2
Hasil Uji Coba 34
4.3 Data
34 4.4
Transformasi Data 35
4.5 Hasil Uji Coba
37 4.6
Solusi Pertama pada Iterasi Pertama 37
4.6.1. Pusat Cluster Pertama pada Solusi Pertama 37
4.6.2. Perhitungan Nilai SSE pada Iterasi Pertama 37
4.6.3. Pencapaian Nilai SSE Minimum pada Setiap Iterasi 39 4.7
Grafik Pencarian Nilai SSE Terbaik pada Setiap Iterasi 41
4.8 Grafik Perbandingan Nilai SSE Terbaik dan Terburuk
42 4.9
Pusat Cluster yang Paling Optimum 43
4.10 Jarak Euclidean
43 4.10.1. Perhitungan Jarak Setiap Data ke Pusat Cluster
Pada Iterasi Pertama 43
4.10.2. Perhitungan Jarak Setiap Data ke Pusat Cluster Pada Iterasi Kedua
46 4.10.3. Perhitungan Jarak Setiap Data ke Pusat Cluster
Pada Iterasi Ketiga 50
4.11 Hasil Clustering Dengan Pusat Cluster yang Paling
Optimum 50
BAB 5 KESIMPULAN DAN SARAN
55
5.1 Kesimpulan
55 5.2
Saran 56
DAFTAR PUSTAKA LAMPIRAN
Universitas Sumatera Utara
DAFTAR GAMBAR Nomor
Gambar J u d u l
Halaman
2.1. Perancangan Proses Data Mining
12 2.2.
Contoh Proses Clustering 15
2.3 Flowhchart Algoritma Metode K-Means Clustering
23 3.1.
Flowchart Modified K-Means Clustering Berbasis SSE 31
3.2. Langkah-langkah Penelitian
33 4.2.
Grafik Pencarian Nilai SSE 42
4.3. Grafik Perbandingan Nilai SSE Terbaik dan SSE Terburuk
42
Universitas Sumatera Utara
DAFTAR TABEL Nomor
Tabel J u d u l
Halaman
2.1. Riset-Riset Terkait
28 4.1.
Data Awal 35
4.2. Inisialisasi Data Wilayah Kota Asal
35 4.3
Inisialisasi Data Pekerjaan 36
4.4. Kesuluruhan Data yang Telah Diinisialisasikan
36 4.5.
Titik Pusat Cluster Pada Solusi Pertama 37
4.6. Hasil Perhitungan Nilai SSE Pada Iterasi Pertama
38 4.7.
Nilai SSE yang Paling Minimum Pada Iterasi Pertama 38
4.8. NIlai SSE dalam 20 Iterasi
39 4.9.
Tabel Pencapaian Nilai SSE pada Setiap Iterasi 40
4.10. Pencapaian Nilai SSE Minimum pada Setiap Iterasi
41 4.11.
Pusat Cluster Optimum 43
4.12. Jarak Setiap Data Pasien ke Titik Centroid pada Iterasi Ke-1
44 4.13.
Pusat Cluster pada Iterasi Ke-2 46
4.14. Jarak Setiap Data Pasien ke Titik Centroid pada Iterasi Ke-2
48 4.15.
Pusat Cluster pada Iterasi Ke-3 50
Universitas Sumatera Utara
ABSTRAK
Salah satu teknik yang dikenal dalam Data Mining yaitu clustering. Pengertian clustering keilmuan dalam data mining adalah pengelompokan sejumlah data atau
objek ke dalam cluster group sehingga setiap dalam cluster tersebut akan berisi data yang semirip mungkin dan berbeda dengan objek dalam cluster yang lainnya.Ada dua
jenis data clustering yang sering dipergunakan dalam proses pengelompokan data yaitu hierarchical hirarki data clustering dan non hierarchical non hirarki data
clustering. K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih clustekelompok.
Metode K-means merupakan metode clustering yang paling sederhana dan umum. Hal ini dikarenakan K-means mempunyai kemampuan mengelompokkan data dalam
jumlah yang cukup besar dengan waktu komputasi yang relatif cepat dan efisien. Namun, K-means mempunyai mempunyai kelemahan yang diakibatkan oleh
penentuan pusat awal cluster. Hasil cluster yang terbentuk dari metode K-means ini sangatlah tergantung pada inisiasi nilai pusat awal cluster yang diberikan. Hal ini
menyebabkan hasil clusternya berupa solusi yang sifatnya local optimal. Pada penelitian ini akan dilakukan modifikasi K-Mean Clustering untuk pencarian pusat
cluster yang paling optimum berbasis Sum of Squared Error SSE.Dari proses modifikasi ini, diharapkan pusat cluster yang diperoleh nantinya akan
menghasilkancluster - cluster, dimana antar anggota cluster memiliki tingkat kemiripan yang tinggi.
Kata Kunci : Modifikasi Algoritma K-Means Clustering,Pusat Cluster, Sum of
Squared ErrorSSE
Universitas Sumatera Utara
MODIFIED ALGORITHM K-MEANS CLUSTERING BASED ON THE DETERMINATION CLUSTER CENTRE BASED
SUM OF SQUARED ERROR SSE
ABSTRACT
One of techniques popular inData Mining is clustering. Defenition clustering in scientific from data miningis some of data or objectsin one group or clusters into cluster so each cluster
will containthedataas closely aspossibleanddifferent objects in another cluster. Thereare twomethodsof
dataclusteringis often
used inthe
process ofgroupingthe
datathat arehierarchicalhierarchy andnon-hierarchical clusteringof datanon-hierarchical clusteringof
data. K-Means is one method fromnon-hierarchical clusteringof data this methodmake partition data theavailable datainonecluster ormore. MethodsK-Means clustering isthe
mostsimple andgeneral. This is becauseK-means have abilityto groupingdata ina fairlylargeamountwith
computingtimeisrelativelyfastandefficient. ButK-means
hashadweakness becausebythe determination ofinitialclustercenters. The results ofthe clusterformed byK-means clustering methodis verydependenton theinitiationvalue ofthe
starting pointcluster. This leads aclusterresultsbelocaloptimalsolution. In this research willbe modifiedK-Mean
Clusteringforsearchthe clustercenters
in the
best optimal
basedSumofSquaredErrorSSE. From
modificationprocess, be
expectedclustercenterobtainedwill be result clusters-clusters, where theevery members cluster havea highdegree ofsimilarity.
Keyword : Modified Algorithm K-Means Clustering, Cluster Centre, Sum of
Squared Error SSE
Universitas Sumatera Utara
BAB I PENDAHULUAN