DAFTAR ISI
PERSETUJUAN PERNYATAAN
PERNYATAAN PERSETUJUAN PUBLIKASI ILMIAH UNTUK KEPENTINGAN AKADEMIS
PENETAPAN PANITIA PENGUJI TESIS RIWAYAT HIDUP
KATAPENGANTAR
i
DAFTAR ISI iii
DAFTAR GAMBAR v
DAFTAR TABEL vii
ABSTRAK viii
ABSTRACT ix
BAB 1 PENDAHULUAN
1.1 Latar Belakang 1
1.2 Perumusan Masalah 1
1.3 Batasan Masalah 3
1.4 Tujuan Penelitian 2
1.5 Manfaat Penelitian 4
BAB 2 TINJAUAN PUSTAKA
2.1
Pendahuluan 5
2.2 Fungsi dan Tugas Data Mining
8 2.3
TeknikPertambanganData DanAplikasinya 9
2.4
Klustering 10
2.5
Algoritma Clustering 11
2.6
Subspace Clustering 13
2.7
DBSCAN
14 2.8
SUBCLU 15
Universita Sumatera Utara
BAB III METODELOGI PENELITIAN
3.1 Pendahuluan 17
3.2 Subjek Penelitian 17
3.3 Rancangan Penelitian 17
3.4 Alur Kerja Aplikasi 18
3.5 Multidimensi dan Analisis strategi data 18
3.6 Analisis Klustering data 19
3.7 Analisis Clustering 20
3.7.1. Analisis Subspace Clustering 22
3.7.2Subspace Cluster Berbasiskan Density Connection 22
3.8 Kepadatan Data 24
BAB IV HASIL DAN PEMBAHASAN
4.1 Implementasi Data 27
4.1.1 Analisis Clustering 27
4.1.2 Subspace Clustering berbasis density Conection 27
4.2 Hasil Penelitian 33
4.3 Evaluasi Kinerja 45
4.3.1 Efisiensi Kerja 45
4.3.2 Data Akurat 46
BAB V KESIMPULAN DAN SARAN
5.1 Kesimpulan 48
5.2 Saran 49
DAFTAR PUSTAKA 50
Universita Sumatera Utara
DAFTAR GAMBAR
Gambar 2.1 Struktur sistem datamining 5
Gambar 2.2 Tahapan proses sistem 5
Gambar 2.3 Struktur data mining taksonomi 9
Gambar 2.4 Teknik dalam data mining 10
Gambar 2.5 Contoh dalam clustering 12
Gambar 2.6 Proses clustering data 14
Gambar 2.7
Eps-neighborhood. 16
Gambar 3.7 St
rategianalisisdata miningmultidimensiPenelitian 20
Gambar3
.8 Analisa strategi data mining
21 Gambar
3.9 Inisialisasi Kluster
22 Gambar 3.10 Langka-langkah Penelitian
24 Gambar 3.11 Density Based Cluster
25 Gambar 3.12 Kepadatan data yang saling terhubung
26 Gambar4.1
Data1dimensimenggunakanDBSCAN 31
Gambar4.1 Terpisahmultidimensimenjadi 1-dimensi
33 Gambar
4.3 Distribusi Data Dataset 34
Gambar 4.4 Distribusi Data dataset kerja memenuhi sesuai bidang kompetensi
35 Gambar 4.5
Distribusi Data Mahasiswa Medicom tahun 2005 36
Gambar4.6 DistribusiData Mahasiswa Medicom tahun 2006
37 Gambar4.7
DistribusiData Mahasiswa Medicom tahun 2007 37
Gambar4.8 DistribusiData Mahasiswa Medicom tahun 2008
38 Gambar4.9
DistribusiData Mahasiswa Medicom tahun 2009 38
Gambar4.10 DistribusiData Mahasiswa Medicom tahun 2010 39
Gambar4.11 Jumlah cluster dataset secara realtime 40
Gambar 4.12 Pengelompokandatasetcluster denganFIRES 41
Gambar 4.13 Pengelompokan dataset cluster dengan INSCY 41
Gambar 4.14 Pengelompokan dataset berdasarkan SUBCLU 41
Gambar 4.15 Pengelompokan data menurut kualifikasi ketepatan serapan kerjaan menggunakan fires
42
Universita Sumatera Utara
Gambar 4.16 Pengelompokan data menurut kualifikasi ketepatan serapan kerjaan menggunakan DB-SCAN
42 Gambar 4.18 Pengelompokan data menurut kualifikasi ketepatan
serapan kerjaan menggunakan Subclu 42
Gambar 4.17 JumlahclusterTertinggidatasetmenurut alumni 43
Gambar 4.18 DataA-cluster datasetnyata 43
Gambar 4.19 DataUn-cluster yang lebih tinggidatasetPerguruan tinggi 44
Gambar 4.20 Waktu prosespengelompokandatasetnyata 44
Gambar 4.21 Waktu prosesdaripengelompokanyang tertinggi dari datasetlembaga pendidikan
46 Gambar 4.22 Hasil akurasidataset
47
Universita Sumatera Utara
DAFTAR TABEL
Tabel 2.1
Beberapa permasalahan dalam lingkup pribadi yang umum dengan masalah dalam perguruan tinggi
8 Tabel 4.1
Contoh Data daripada mahasiswa 2005-2010 27
Tabel 4.2
Example of Initial Data 30
Tabel 4.3 Hasilterpisahmultidimensimenjadi 1-dimensi
31 Tabel 4.4 HasilpengelompokanberdasarkanDBSCAN
32 Tabel 4.5 Nilai yang dihasilkan olehSubspaceCluster
33 Table 4.6 Result of Group of Subspace Cluster
33 Table 4.7 Properti dari dataset
34
Universita Sumatera Utara
Universita Sumatera Utara
Universita Sumatera Utara
ABSTRAK
Subspace clustering diproyeksikan sebagai teknik pencarian untuk mengelompokkan data atau atribut pada klaster yang berbeda, Pengelompokan dilakukan dengan menentukan tingkat
kerapatan data dan juga mengidentifikasi outlier atau data yang tidak relevan, sehingga masing- masing cluster ada dalam subset tersendiri. Tesis ini mengusulkan inovasi algoritma subspace
clustering based on density connection. Pada tahap awal akan dihitung kerapatan dimensi, hasil kerapatan dimensi akan dijadikan data masukan untuk menentukan klaster awal yang
berdasarkan kerapatan dimensi, yakni dengan menggunakan Algoritma DBSCAN. Data pada setiap klaster kemudian akan diuji apakah memiliki hubungan dengan data pada klaster yang
lain, yakni dengan menggunakan Algoritma SUBCLU. Hasil dari penelitian ini ditemukan bahawa SUBCLU tidak memiliki un-cluster dataset nyata,
sehingga persepsi hasil cluster akan menghasilkan informasi yang lebih akurat sedangkan untuk kepuasan kerja dataset DBSCAN membutuhkan waktu lebih lama daripada metode SUBCLU.
Untuk lebih besar dan lebih kompleks data, kinerja SUBCLU terlihat lebih efisien daripada DBSCAN.
Key Word : Subspace clustering, DBSCAN, SUBCLU.
Universita Sumatera Utara
SUBSPACE CLUSTERING ANALYSIS USING DBSCAN AND SUBCLU FOR PROJECTING COLLEGE ALUMNI JOB
ABSTRACT
Subspace clustering is projected as a search technique to classify the data or attributes in different clusters, grouping is done by determining the density of data and also identify outliers
or data that is not relevant, so that each cluster exists in its own subset. This thesis proposes innovation subspace clustering algorithm based on density connection. In the early stages will be
counted dimensional density, density results will be used as input data dimensions to determine the initial clusters based on density-dimensional, ie, by using the DBSCAN algorithm. Data on
each cluster will then be tested whether having a relationship with the other data on the cluster, by using Algorithm SUBCLU.Results of this study found bahawa SUBCLU not have an un-
clustered real dataset, so the perception of the results of the cluster will produce more accurate information for job satisfaction dataset whereas DBSCAN takes more time than the method
SUBCLU. For larger and more complex the data, the performance SUBCLU looks more efficient than DBSCAN.
Key Word : Subspace clustering, DBSCAN, SUBCLU.
Universita Sumatera Utara
BAB 1 PENDAHULUAN