Algoritma Modified K-MEANS Clustering Pada Penentuan Cluster Centre Berbasis Sum Of Squared Error (SSE)

ALGORITMA MODIFIED K-MEANS CLUSTERING PADA PENENTUAN CLUSTER CENTRE BERBASIS SUM OF SQUARED ERROR (SSE) TESIS RENA NAINGGOLAN 127038028 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2014

ALGORITMA MODIFIED K-MEANS CLUSTERING PADA PENENTUAN CLUSTER CENTRE BERBASIS SUM OF SQUARED ERROR (SSE) TESIS

  

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah

Magister Teknik Informatika

RENA NAINGGOLAN 127038028 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2014

  

PERSETUJUAN

  Judul : ALGORITMA MODIFIED K-MEANS CLUSTERING PADA PENENTUAN CLUSTER CENTRE BERBASIS SUM OF SQUARED ERROR (SSE)

  Nama : RENA NAINGGOLAN Nomor Induk Mahasiswa : 127038028 Program Studi : MAGISTER TEKNIK INFORMATIKA Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

  UNIVERSITAS SUMATERA UTARA Komisi Pembimbing : Pembimbing 2 Pembimbing 1 Prof. Dr. Iryanto, M. SI Prof. Dr. Herman Mawengkang Diketahui/Disetujui Oleh Program Studi Magister (S2) Teknik Informatika Ketua, Prof. Dr. Muhammad Zarlis NIP. 195707011986011003

  

PENYATAAN

ALGORITMA MODIFIED K-MEANS CLUSTERING PADA

PENENTUAN CLUSTER CENTRE BERBASIS

SUM OF SQUARED ERROR (SSE)

  

TESIS

  Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

  Medan, 28 Agustus 2014 RENA NAINGGOLAN 127038028

  

PERNYATAAN PERSETUJUAN PUBLIKASI

KARYA ILMIAH UNTUK KEPENTINGAN

AKADEMIS

  Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini : Nama Mahasiswa : RENA NAINGGOLAN Nomor Induk Mahasiwa : 127038028 Program Studi : Magister Teknik Informatika Jenis Karya Ilmiah : Tesis

  Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non Exclusive Royalti

  Free Right) atas tesis saya yang berjudul:

ALGORITMA MODIFIED K-MEANS CLUSTERING PADA

PENENTUAN CLUSTER CENTRE BERBASIS

SUM OF SQUARED ERROR (SSE)

  Berserta perangkat yang ada (jika diperlukan).Dengan hak bebas royalty Non- Eksklusive ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya, selama tetap mencamtumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai hak cipta.

  Demikianlah pernyataan ini dibuat dengan sebenarnya.

  Medan, 28 Agustus 2014 RENA NAINGGOLAN 127038028 Telah diuji pada : Tanggal : 28 Agustus2014 PANITIA PENGUJI TESIS Ketua : Prof. Dr. Herman Mawengkang Anggota : 1. Prof. Dr. Iryanto, M. SI

  2. Prof. Dr. Muhammad Zarlis

  3. Dr. Syahril Efendi

  4. Dr. Zakarias Situmorang

RIWAYAT HIDUP

  DATA PRIBADI Nama Lengkap : Rena Nainggolan Tempat dan Tanggal Lahir : Garoga, 17 Juli1985 Alamat Rumah : Jl. Jamin Ginting, KM. 14, Blok R2, No.16 Telepon /Fax/HP : -/-/085762178101 E-mail : rena_q123@yahoo.com Instansi Tempat Bekerja : RSUD Dr. Pirngadi Medan Alamat Kantor : Jl. Prof. H. M. Yamin, NO.47 Medan

  DATA PENDIDIKAN SD : SD Negeri 173807 TAMAT :1997 SLTP : SLTP Negeri 1 Simanindo TAMAT:2000 SLTA : SMK Telkom Sandhy Putra Medan TAMAT : 2003 S1 : Teknik Informatika STMIK MIKROSKIL TAMAT :2011 S2 : Teknik Informatika USU TAMAT : 2014

UCAPAN TERIMA KASIH

  Puji syukur kepada Tuhan Yang Maha Esa, atas segala limpahan berkat dan penyertaan-Nya sehingga tesis ini dapat diselesaikan tepat pada waktunya. Dengan selesainya tesis ini, perkenankanlah penulis mengucapkan terima kasih yang sebesar- besarnya kepada :

  Rektor Universitas Sumatera Utara, Prof. Dr. dr. Syahril Pasaribu, DTM&H, M.Sc (CTM), Sp. A(K) atas kesempatan yang diberikan kepada penulis untuk mengikuti dan menyelesaikan pendidikan Program Magister.

  Dekan Fasilkom-TI (Fakultas Ilmu Komputer dan Teknologi Informasi) Universitas Sumatera Utara Prof. Dr. Muhammad Zarlis, atas kesempatan yang diberikan kepada penulismenjadi mahasiswa Program Magister pada Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara.

  Ketua Program Studi Magister (S2) Teknik Informatika, Prof. Dr. Muhammad Zarlis dan Sekretaris Program Studi Magister (S2) Teknik Informatika M. Andri Budiman, S.T, M.Comp, M.E.M beserta seluruh staff pengajar pada Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara, yang telah bersedia membimbing penulis sehingga dapat menyelesaikan pendidikan tepat pada waktunya.

  Terimakasih yang tak terhingga dan penghargaan yang ssetinggi-tingginya penulis ucapkan kepada Prof. Dr. Herman Mawengkangselaku pembimbing utama dan kepada Prof. Dr. Iryanto, M. SI, selaku pembimbing anggota yang dengan penuh kesabaran serta membimbing penulis hingga selesainya tesis ini dengan baik.

  Terimakasih yang tak terhingga dan penghargaan yang ssetinggi-tingginya penulis ucapkan kepada Prof. Dr. Muhammad Zarlis,Dr. Zakarias Situmorang, dan Dr. Syahril Efendi sebagai pembanding yang telah memberikan saran dan masukan serta arahan yang baik demi penyelesaian tesis ini.

  Universitas Sumatera Utara, Staf Pegawai dan Administrasi pada Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara yang telah memberikan bantuan dan pelayanan terbaik kapada penulis selama mengikuti perkuliahan.

  Orang tua penulis. Ayahanda A. Nainggolan, Ibunda R. Rumahorbo dan segenap keluarga Abang/Kakakpenulisyang telah mendukung penulis dan terima kasih atas segala pengorbanannya, baik moril maupun materil.

  Sahabat terkasih penulisBernard S. P. Siagian, ST. Terimakasih untuk segala doa, motivasi dan dukungan yang sangat berharga selama mengikuti perkuliahan hingga penyelesaian tesis ini.

  Teman-teman seperjuangan angkatan 2012 Kom-B, untuk kebersamaan dan semangat menjalani perkuliahan dan dalam penyelesaian tesis ini. Semua pihak yang tidak dapat penulis sebutkan satu persatu, terimakasih atas segala bantuan dan doa yang diberikan. Semoga karya ilmiah ini dapat bermanfaat bagi kemajuan ilmu pengetahuan dan pendidikan.

  Medan, 28 Agustus 2014 Penulis RENA NAINGGOLAN NIM :127038028

  

ABSTRAK

  Salah satu teknik yang dikenal dalam Data Mining yaitu clustering. Pengertian

  

clustering keilmuan dalam data mining adalah pengelompokan sejumlah data atau

  objek ke dalam cluster (group) sehingga setiap dalam cluster tersebut akan berisi data yang semirip mungkin dan berbeda dengan objek dalam cluster yang lainnya.Ada dua jenis data clustering yang sering dipergunakan dalam proses pengelompokan data yaitu hierarchical (hirarki) data clustering dan non hierarchical (non hirarki) data

  

clustering . K-Means merupakan salah satu metode data clustering non hirarki yang

berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluste/kelompok.

  Metode K-means merupakan metode clustering yang paling sederhana dan umum. Hal ini dikarenakan K-means mempunyai kemampuan mengelompokkan data dalam jumlah yang cukup besar dengan waktu komputasi yang relatif cepat dan efisien. Namun, K-means mempunyai mempunyai kelemahan yang diakibatkan oleh penentuan pusat awal cluster. Hasil cluster yang terbentuk dari metode K-means ini sangatlah tergantung pada inisiasi nilai pusat awal cluster yang diberikan. Hal ini menyebabkan hasil clusternya berupa solusi yang sifatnya local optimal. Pada penelitian ini akan dilakukan modifikasi K-Mean Clustering untuk pencarian pusat cluster yang paling optimum berbasis Sum of Squared Error (SSE).Dari proses modifikasi ini, diharapkan pusat cluster yang diperoleh nantinya akan menghasilkancluster - cluster, dimana antar anggota cluster memiliki tingkat kemiripan yang tinggi.

  Kata Kunci : Modifikasi Algoritma K-Means Clustering,Pusat Cluster, Sum of

  Squared Error(SSE)

  

MODIFIED ALGORITHM K-MEANS CLUSTERING BASED ON THE

DETERMINATION CLUSTER CENTRE BASED

SUM OF SQUARED ERROR (SSE)

ABSTRACT

  

One of techniques popular inData Mining is clustering. Defenition clustering in scientific

from data miningis some of data or objectsin one group or clusters into cluster so each cluster

will containthedataas closely aspossibleanddifferent objects in another cluster. Thereare

twomethodsof dataclusteringis often used inthe process ofgroupingthe datathat

arehierarchical(hierarchy) andnon-hierarchical clusteringof data(non-hierarchical) clusteringof

data. K-Means is one method fromnon-hierarchical clusteringof data this methodmake

partition data theavailable datainonecluster ormore. MethodsK-Means clustering isthe

mostsimple andgeneral. This is becauseK-means have abilityto groupingdata ina

fairlylargeamountwith computingtimeisrelativelyfastandefficient. ButK-means

hashadweakness becausebythe determination ofinitialclustercenters. The results ofthe

clusterformed byK-means clustering methodis verydependenton theinitiationvalue ofthe

starting pointcluster. This leads aclusterresultsbelocaloptimalsolution. In this research willbe

modifiedK-Mean Clusteringforsearchthe clustercenters in the best optimal

basedSumofSquaredError(SSE). From modificationprocess, be

expectedclustercenterobtainedwill be result clusters-clusters, where theevery members cluster

havea highdegree ofsimilarity.

  Keyword : Modified Algorithm K-Means Clustering, Cluster Centre, Sum of Squared Error (SSE)

DAFTAR ISI

  2.7.1. Jarak Euclidean

  2.5 Algoritma Clustering

  14

  2.5.1. Clustering Hirarki

  19

  2.5.2. Clustering Partisional (Partitional Clustering)

  20

  2.6 Sum Of Squared Error (SSE)

  25

  2.7 Distance Space Untuk Menghitung Jarak Antara Data dan Centroid

  26

  26

  2.3 Proses Data Mining 11

  2.7.2. Jarak Menhattan

  27

  2.7.3. Jarak Pearson

  27

  2.8 Riset Terkait

  28

  2.9 Perbedaan Dengan Riset Sebelumnya

  29 BAB 3 METODOLOGI PENELITIAN

   30

  3.1 Pendahuluan

  30

  2.4 Clustering 12

  Halaman

  HALAMAN JUDUL PENGESAHAN PERNYATAAN PERSETUJUAN PANITIA PENGUJI RIWAYAT HIDUP UCAPAN TERIMA KASIH ABSTRAK i ABSTRACK ii DAFTAR ISI iii DAFTAR GAMBAR v DAFTAR TABEL vi BAB

  4 BAB

  1 PENDAHULUAN

  1

  1.1 Latar Belakang Masalah

  1

  1.2 Perumusan Masalah

  3

  1.3 Batasan Masalah

  4

  1.4 Tujuan Penelitian

  4

  1.5 Manfaat Penelitian

  2 TINJAUAN PUSTAKA

  2.2 Data Mining

  5

  2.1 Defenisi Data

  5

  2.1.1. Jenis Data Berdasarkan sifatnya

  5

  2.1.2. Jenis Data Menurut Subernya

  7

  2.1.3. Jenis Data Menurut Cara Memperolehnya

  7

  2.1.4. Jenis Data Menurut Waktu Pengumpulannya

  7

  8

  3.2 Transformasi Data

  4.10.2. Perhitungan Jarak Setiap Data ke Pusat Cluster Pada Iterasi Kedua

  4.8 Grafik Perbandingan Nilai SSE Terbaik dan Terburuk

  42

  4.9 Pusat Cluster yang Paling Optimum

  43

  4.10 Jarak Euclidean

  43

  4.10.1. Perhitungan Jarak Setiap Data ke Pusat Cluster Pada Iterasi Pertama

  43

  46

  4.7 Grafik Pencarian Nilai SSE Terbaik pada Setiap Iterasi

  4.10.3. Perhitungan Jarak Setiap Data ke Pusat Cluster Pada Iterasi Ketiga

  50

  4.11 Hasil Clustering Dengan Pusat Cluster yang Paling Optimum

  50 BAB 5 KESIMPULAN DAN SARAN

  55

  5.1 Kesimpulan

  55

  5.2 Saran

  56 DAFTAR PUSTAKA

  41

  4.6.3. Pencapaian Nilai SSE Minimum pada Setiap Iterasi 39

  30

  4.3 Data

  3.3 Perancangan Algoritma

  31

  3.4 Teknik Pengembangan

  32 BAB 4 HASIL DAN PEMBAHASAN

  34

  4.1 Pendahuluan

  34

  4.2 Hasil Uji Coba

  34

  34

  37

  4.4 Transformasi Data

  35

  4.5 Hasil Uji Coba

  37

  4.6 Solusi Pertama pada Iterasi Pertama

  37

  4.6.1. Pusat Cluster Pertama pada Solusi Pertama

  37

  4.6.2. Perhitungan Nilai SSE pada Iterasi Pertama

  LAMPIRAN

  

DAFTAR GAMBAR

Nomor J u d u l Halaman Gambar

  2.1. Perancangan Proses Data Mining

  12

  2.2. Contoh Proses Clustering

  15

  2.3 Flowhchart Algoritma Metode K-Means Clustering

  23

  3.1. Flowchart Modified K-Means Clustering Berbasis SSE

  31

  3.2. Langkah-langkah Penelitian

  33

  4.2. Grafik Pencarian Nilai SSE

  42

  4.3. Grafik Perbandingan Nilai SSE Terbaik dan SSE Terburuk

  42

  

DAFTAR TABEL

Nomor Tabel J u d u l Halaman

  4.8. NIlai SSE dalam 20 Iterasi

  4.15. Pusat Cluster pada Iterasi Ke-3

  48

  4.14. Jarak Setiap Data Pasien ke Titik Centroid pada Iterasi Ke-2

  46

  4.13. Pusat Cluster pada Iterasi Ke-2

  44

  4.12. Jarak Setiap Data Pasien ke Titik Centroid pada Iterasi Ke-1

  43

  4.11. Pusat Cluster Optimum

  41

  4.10. Pencapaian Nilai SSE Minimum pada Setiap Iterasi

  40

  4.9. Tabel Pencapaian Nilai SSE pada Setiap Iterasi

  39

  38

  2.1. Riset-Riset Terkait

  4.7. Nilai SSE yang Paling Minimum Pada Iterasi Pertama

  38

  4.6. Hasil Perhitungan Nilai SSE Pada Iterasi Pertama

  37

  4.5. Titik Pusat Cluster Pada Solusi Pertama

  36

  4.4. Kesuluruhan Data yang Telah Diinisialisasikan

  36

  4.3 Inisialisasi Data Pekerjaan

  35

  4.2. Inisialisasi Data Wilayah Kota Asal

  35

  4.1. Data Awal

  28

  50

Dokumen yang terkait

Algoritma Modified K-MEANS Clustering Pada Penentuan Cluster Centre Berbasis Sum Of Squared Error (SSE)

40 193 79

Clustering Data Nilai Siswa SMA Untuk Penentuan Jurusan Menggunakan Algoritma Fuzzy C-Means

0 3 8

Desain dan Simulasi Switched Filter Compensation Berbasis Tri Loop Error Driven Weighted Modified Pid Controller untuk Peningkatan Kualitas Daya Listrik

0 0 6

Penentuan Skala Prioritas Berbasis Algoritma AHP Termodifikasi

0 4 10

Perancangan dan Analisis Deteksi Anomaly Berbasis Clustering Menggunakan Algoritma Modified K-Means dengan Random Initialization pada Landmark Window Design and Analysis Of Clustering Based Anomaly Detection Using Modified K-Means Algorithm With Random In

0 0 7

Analisis Pengaruh Penggunaan Manhattan Distance Pada Algoritma Clustering Isodata ( Self- Organizing Data Analysis Technique) Untuk Sistem Deteksi Anomali Trafik Analysis Of Manhattan Distance Usage Effects on Isodata Clustering Algorithm (Self-Organizing

1 0 8

Deteksi Jenis Serangan pada Distributed Denial of Service Berbasis Clustering dan Classification Menggunakan Algoritma Minkowski Weighted K-Means dan Decision Tree Detection of attack on Distributed Denial Of Service based on Clustering and Classification

0 0 8

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

0 0 6

Algoritma Modified K-MEANS Clustering Pada Penentuan Cluster Centre Berbasis Sum Of Squared Error (SSE)

0 0 9

Algoritma Modified K-MEANS Clustering Pada Penentuan Cluster Centre Berbasis Sum Of Squared Error (SSE)

0 6 25