LAPORAN CLASTRING DATA MINING (1)
LAPORAN DATA MINING
DISUSUN OLEH :
Salsabella Rahma (14.01.53.0084)
Uswatun Khasanah (14.01.53.0093)
Yusnizar Abbas (14.01.53.0094)
TEKHNOLOGI INFORMASI
UNIVERSITAS STIKUBANK SEMARANG
2018
BAB I
PENDAHULUAN
1.1 Deskripsi Permasalahan
Laboratorium Data Mining merupakan salah satu lab. Yang dibuat oleh UII
yang ditunjukan kepada mahasiswa jurusan tekhnik industri. Namun mahasiswa
biasanya datang ke laboratorium hanya untuk melaksanakan praktikum saja. Padahal
laboratorium tersebut dibuat tidak hanya untuk keperluan praktikum. Maka dengan
penelitian yang dilakukan akan diketahui profilasi mahasiswa yang berkenjung ke
laboratorium data mining,profilasi tersebut berisi jenis kelamin, usia, angkatan,
intensitas,dan durasi atau berapa lama biasanya responden tersebut berada di
laboratorium.
1.2 Rumusan Masalah
1. Berapa cluster yang terbentuk dari penelitian yang dilakukan ?
2. Bagaimana hasil profilisasi customer berdasarkan penelitian ?
1.3 Batasan Masalah
1. Penelitian dikhususkan pada mahasiswa Tekhnik Industri.
2. Obyek lokasi penelitian adalah Laboratorium Data Mining.
1.4 Tujuan Penelitian
1. Untuk mengetahui berapa banyak cluster yang akan terbentuk dari penelitian
yang dilakukan.
2. Untuk mengetahui hasil profilasi customer berdasarkan penelitian.
1.5 Manfaat Penelitian
Penelitian ini bermanfaat untuk mengetahui apakah laboratorium data mining
perlu meningkatkan pelayanan, mengatur ulang tata letak dan menambah fasilitas atau
tidak. Manfaat lainnya adalah untuk mengetahui presentase angkatan berapa yang
rata-rata mengambil praktikum data mining.
BAB II
TINJAUAN PUSTAKA
Analisis cluster merupakan salah satub teknik multivariat yang digunakan
dalam data mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang
mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok
obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih
homogen (sama) dari pada obyek yang berada pada kelompok yang berbeda.
Jumlah kelompok yang dapat diidentifikasikan tergantung pada banyak dan
variasi data obyek. Tujuan dari pembentukan cluster ini adalah untuk analisis dan
interpretasi lebih lanjut sesuai dengan tujuan penelitian yang dilakukan. Solusi cluster
secara keseluruhan bergantung pada variabel-variabel yang digunakan sebagai dasar
untuk menilai kesamaan. Penambahan atau pengurangan variabel-variabel yang
relavan dapat mempengaruhi substensi hasil analisis cluster.
Analisis cluster dapat diterapkan pada bidang apa saja. Namun pemakaian
teknik ini lebih familiar pada bidang pemasaran karena memang salah satu kegiatan
yang dilakukan dalam pemasaran adalah pengelompokan, yang disebut segmentasi
pasar. Penerapan analisis cluster di dalam pemasaran adalah sebagi berikut :
1. Membuat segmen pasar (segmenting the market)
Pelanggan atau pembeli sering diklasterkan berdasarkan manfaat atau keuntungan yang
diperoleh dari pembelian barang. Setiap cluster akan terdiri dari pelanggan/pembeli yang
relatif homogen, dinyatakan dalam manfaat yang dicari.
2. Memahami perilaku pembeli
Analisis cluster digunakan untuk mengenali/mengidentifikasi kelompok pembeli yang
homogen/relatif homogen. Kemudian perilaku dalam untuk setiap kelompok perlu dikaji
secara terpisah. Responden (pembeli) dikelompokkan didasarkan pada self-reported
importance yang terkit pada setiap faktor pilihan yang digunakan untuk memilih toko atau
mall di mana para pembeli memberi barang yang dibutuhkan.
3. Mengenali peluang produk baru
Dengan mengklasterkan merk dan produk, competitive set di dalam pasar bisa ditentukan.
Merek didalam klaster yang sama bersaing sengit satu sama lain, dari pada merek dari klaster
lain.
BAB III
METODE PENELITIAN
3.1 Objek Penelitian
Mahasiswa teknik industri
3.2 Metode Pengumpulan Data
1. Data Primer
Data primer merupakan data yang didaptkan oleh penliti langsung dari
objeknya. Yang menjadi data primer dalam penelitian ini adalah data yang
berasal dari kuisioner yang diisi langsung oleh para responden.
2. Data Sekunder
Data sekunder adalah data yang didapatkan setelah dilakukan proses
analisa dan interpretasi terhadap data-data primer atau data-data yang telah ada
sebelumnya sesuai dengan tujuan penelitian. Yang merupakan data sekunder
pada penelitian ini adalah data-data yang telah diclustering menggunakan
metode hirarki dan memakai software SPPS.
3.3 Alur Penelitian
Mulai
Rumusan Masalah
Input Data
Clustring – Metode Hirarki
Profilisasi Customer
Selesai
3.4 Langkah Software
Kuisioner Tingkat Kepuasan
1. Input data yang diperoleh ke software
2. pilih analyze klik Clasify lalu pilih Hirarchical Cluster
3. Variabel :Letakkan semua Variabel X yang valid
4. Label case by : Letakkan nama responden
5. Cluster : Case
6. Display : statistic, plot
7. Statistik : agglomeration schedule
8. Plots: klik Dendogram
9. Iccicle : none
10. Method : Cluster Method pilih nearest nighbor measure Interval pilih Squared
Euqliden Distance
11. Klik save
Cluster membership :none
Kuisioner Profilisasi Customer
1. Input data yang diperoleh ke software
2. Pilih analyze klik Descriptive Statistic lalu pilih Crosstabs
3. Row : Letakkan semua variabel Y yang valid
4. Column: Letakkan Cluster Member
5. Exact : Asymptotic only
6. Statistics: Corelations
7. Cells : Counts klik observed. Noninteger Weights klik Round Cells Counts
8. Format : Row Order klik Ascending
9. klik Ok
BAB IV
HASIL DAN PEMBAHSAN
4.1 Pengumpulan Data
4.1.1 Hasil Rekapitulasi Kuesioner Profilisasi Customer
No
Nama
Jenis
Usia
Angkatan
Kelamin
1
Sekar
2
3
2
2
Hendia
2
3
2
3
Huda
1
2
2
4
Annisa
2
3
2
5
Fitra
1
3
2
6
Fandi
1
2
2
7
Maro
2
2
2
8
Ikhsan
1
3
2
9
Aya
2
3
2
10 Mabok
1
3
2
11 Richo
1
3
3
12 Atlit
2
3
2
Tabel 4.1 Reka pitulasi Kuesioner Profilisasi Customer
Intensitas
Durasi
3
2
4
4
4
3
3
3
4
3
4
3
4
3
3
2
2
2
2
3
1
4
1
3
4.1.2 Hasil Rekapitulasi Kuesioner Tingkat Kepuasan
No Nama
Fasilitas
Pelayanan
Tata Letak
1
Sekar
3
3
4
2
Hendia
3
2
3
3
Huda
3
3
4
4
Annisa
3
3
3
5
Fitra
3
3
3
6
Fandi
2
2
2
7
Maro
2
2
2
8
Ikhsan
2
2
3
9
Aya
2
3
3
10 Mabok
2
2
2
11 Richo
2
3
2
12 Atlit
3
3
4
Tabel 4.1 Reka pitulasi Kuesioner Tingkat Kepuasan
4.2 Pengolahan Data
4.2.1 Metode Hirarki
Kenyamanan
3
4
4
3
2
1
2
2
2
2
2
4
a. Stage
Stage
Cluster Combined
Cluster 1
Cluster 2
1
23
50
2
25
49
3
5
46
4
43
45
5
36
44
6
39
40
7
37
39
8
34
37
9
32
34
10
24
33
11
31
32
12
10
31
Tabel 4.3 AgglomeratioSchedule
Coefficients
Stsge Cluster First
Next
Stage
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
Appears
Cluster 1
0
0
0
0
0
0
0
0
0
0
0
0
Cluster 2
0
0
0
0
0
0
6
7
8
0
9
11
17
15
42
26
25
7
8
9
11
16
12
24
BAB VI
KESIMPULAN DAN REKOMENDASI
Berdasarkan hasil dari pembahasan pada bab V, maka didapatkan beberapa
kesimpulan :
1. Cluster yang terbentuk sebanyak 3 cluster dan 1 outlier. Cluster 1 terdiri dari 42
responden, cluster 2 terdiri daei 3 responden, dan cluster 3 terdiri dari 4 responden.
Cluster 4 tidak memiliki kelompok yang relative homogen, sehingga cluster 4 tidak
dikatakan outlier. Cluster 4 terdiri dari 1 responden.
2. Mahasiswa Tekhnik Industri yang berkunjung ke laboratorium Data Mining
dominan berjenis kelamin laki laki dengan rata-rata usia 20-22 tahun dan merupakan
angkatan 2008 dengan intensitas kunjungan yang jarang dan durasi atau lama
berkunjung responden kurang lebih 60 menit.
DAFTAR PUSTAKA
Modul II Analisis Cluster Praktikum Data Mining
Han,Jiawei.”Data Mining Concept and Technique”. Presentation
http://www.cse.msu.edu/~cse980
Bertalya,”Konsep Data Mining”.Universitas Gunadarma,2009.
Walpole,Ronald E.probability and Statistic for Engineers and Scientistc
LAMPIRAN
Cluster
Cases
Valid
Missing
N
Percent
N
50
100.0
0
a. Squared Eudidean Distance used
Percent
.0
Total
N
50
Percent
100.0
b. Single Linkage
Single Linkage
Stage
Cluster Combined
Coefficients
Stsge Cluster First
Next
Appears
Stage
1
2
3
4
5
6
7
8
9
10
11
12
Cluster 1
23
25
5
43
36
39
37
34
32
24
31
10
Cluster 2
50
49
46
45
44
40
39
37
34
33
32
31
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
Cluster 1
0
0
0
0
0
0
0
0
0
0
0
0
Cluster 2
0
0
0
0
0
0
6
7
8
0
9
11
17
15
42
26
25
7
8
9
11
16
12
24
DISUSUN OLEH :
Salsabella Rahma (14.01.53.0084)
Uswatun Khasanah (14.01.53.0093)
Yusnizar Abbas (14.01.53.0094)
TEKHNOLOGI INFORMASI
UNIVERSITAS STIKUBANK SEMARANG
2018
BAB I
PENDAHULUAN
1.1 Deskripsi Permasalahan
Laboratorium Data Mining merupakan salah satu lab. Yang dibuat oleh UII
yang ditunjukan kepada mahasiswa jurusan tekhnik industri. Namun mahasiswa
biasanya datang ke laboratorium hanya untuk melaksanakan praktikum saja. Padahal
laboratorium tersebut dibuat tidak hanya untuk keperluan praktikum. Maka dengan
penelitian yang dilakukan akan diketahui profilasi mahasiswa yang berkenjung ke
laboratorium data mining,profilasi tersebut berisi jenis kelamin, usia, angkatan,
intensitas,dan durasi atau berapa lama biasanya responden tersebut berada di
laboratorium.
1.2 Rumusan Masalah
1. Berapa cluster yang terbentuk dari penelitian yang dilakukan ?
2. Bagaimana hasil profilisasi customer berdasarkan penelitian ?
1.3 Batasan Masalah
1. Penelitian dikhususkan pada mahasiswa Tekhnik Industri.
2. Obyek lokasi penelitian adalah Laboratorium Data Mining.
1.4 Tujuan Penelitian
1. Untuk mengetahui berapa banyak cluster yang akan terbentuk dari penelitian
yang dilakukan.
2. Untuk mengetahui hasil profilasi customer berdasarkan penelitian.
1.5 Manfaat Penelitian
Penelitian ini bermanfaat untuk mengetahui apakah laboratorium data mining
perlu meningkatkan pelayanan, mengatur ulang tata letak dan menambah fasilitas atau
tidak. Manfaat lainnya adalah untuk mengetahui presentase angkatan berapa yang
rata-rata mengambil praktikum data mining.
BAB II
TINJAUAN PUSTAKA
Analisis cluster merupakan salah satub teknik multivariat yang digunakan
dalam data mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang
mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok
obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih
homogen (sama) dari pada obyek yang berada pada kelompok yang berbeda.
Jumlah kelompok yang dapat diidentifikasikan tergantung pada banyak dan
variasi data obyek. Tujuan dari pembentukan cluster ini adalah untuk analisis dan
interpretasi lebih lanjut sesuai dengan tujuan penelitian yang dilakukan. Solusi cluster
secara keseluruhan bergantung pada variabel-variabel yang digunakan sebagai dasar
untuk menilai kesamaan. Penambahan atau pengurangan variabel-variabel yang
relavan dapat mempengaruhi substensi hasil analisis cluster.
Analisis cluster dapat diterapkan pada bidang apa saja. Namun pemakaian
teknik ini lebih familiar pada bidang pemasaran karena memang salah satu kegiatan
yang dilakukan dalam pemasaran adalah pengelompokan, yang disebut segmentasi
pasar. Penerapan analisis cluster di dalam pemasaran adalah sebagi berikut :
1. Membuat segmen pasar (segmenting the market)
Pelanggan atau pembeli sering diklasterkan berdasarkan manfaat atau keuntungan yang
diperoleh dari pembelian barang. Setiap cluster akan terdiri dari pelanggan/pembeli yang
relatif homogen, dinyatakan dalam manfaat yang dicari.
2. Memahami perilaku pembeli
Analisis cluster digunakan untuk mengenali/mengidentifikasi kelompok pembeli yang
homogen/relatif homogen. Kemudian perilaku dalam untuk setiap kelompok perlu dikaji
secara terpisah. Responden (pembeli) dikelompokkan didasarkan pada self-reported
importance yang terkit pada setiap faktor pilihan yang digunakan untuk memilih toko atau
mall di mana para pembeli memberi barang yang dibutuhkan.
3. Mengenali peluang produk baru
Dengan mengklasterkan merk dan produk, competitive set di dalam pasar bisa ditentukan.
Merek didalam klaster yang sama bersaing sengit satu sama lain, dari pada merek dari klaster
lain.
BAB III
METODE PENELITIAN
3.1 Objek Penelitian
Mahasiswa teknik industri
3.2 Metode Pengumpulan Data
1. Data Primer
Data primer merupakan data yang didaptkan oleh penliti langsung dari
objeknya. Yang menjadi data primer dalam penelitian ini adalah data yang
berasal dari kuisioner yang diisi langsung oleh para responden.
2. Data Sekunder
Data sekunder adalah data yang didapatkan setelah dilakukan proses
analisa dan interpretasi terhadap data-data primer atau data-data yang telah ada
sebelumnya sesuai dengan tujuan penelitian. Yang merupakan data sekunder
pada penelitian ini adalah data-data yang telah diclustering menggunakan
metode hirarki dan memakai software SPPS.
3.3 Alur Penelitian
Mulai
Rumusan Masalah
Input Data
Clustring – Metode Hirarki
Profilisasi Customer
Selesai
3.4 Langkah Software
Kuisioner Tingkat Kepuasan
1. Input data yang diperoleh ke software
2. pilih analyze klik Clasify lalu pilih Hirarchical Cluster
3. Variabel :Letakkan semua Variabel X yang valid
4. Label case by : Letakkan nama responden
5. Cluster : Case
6. Display : statistic, plot
7. Statistik : agglomeration schedule
8. Plots: klik Dendogram
9. Iccicle : none
10. Method : Cluster Method pilih nearest nighbor measure Interval pilih Squared
Euqliden Distance
11. Klik save
Cluster membership :none
Kuisioner Profilisasi Customer
1. Input data yang diperoleh ke software
2. Pilih analyze klik Descriptive Statistic lalu pilih Crosstabs
3. Row : Letakkan semua variabel Y yang valid
4. Column: Letakkan Cluster Member
5. Exact : Asymptotic only
6. Statistics: Corelations
7. Cells : Counts klik observed. Noninteger Weights klik Round Cells Counts
8. Format : Row Order klik Ascending
9. klik Ok
BAB IV
HASIL DAN PEMBAHSAN
4.1 Pengumpulan Data
4.1.1 Hasil Rekapitulasi Kuesioner Profilisasi Customer
No
Nama
Jenis
Usia
Angkatan
Kelamin
1
Sekar
2
3
2
2
Hendia
2
3
2
3
Huda
1
2
2
4
Annisa
2
3
2
5
Fitra
1
3
2
6
Fandi
1
2
2
7
Maro
2
2
2
8
Ikhsan
1
3
2
9
Aya
2
3
2
10 Mabok
1
3
2
11 Richo
1
3
3
12 Atlit
2
3
2
Tabel 4.1 Reka pitulasi Kuesioner Profilisasi Customer
Intensitas
Durasi
3
2
4
4
4
3
3
3
4
3
4
3
4
3
3
2
2
2
2
3
1
4
1
3
4.1.2 Hasil Rekapitulasi Kuesioner Tingkat Kepuasan
No Nama
Fasilitas
Pelayanan
Tata Letak
1
Sekar
3
3
4
2
Hendia
3
2
3
3
Huda
3
3
4
4
Annisa
3
3
3
5
Fitra
3
3
3
6
Fandi
2
2
2
7
Maro
2
2
2
8
Ikhsan
2
2
3
9
Aya
2
3
3
10 Mabok
2
2
2
11 Richo
2
3
2
12 Atlit
3
3
4
Tabel 4.1 Reka pitulasi Kuesioner Tingkat Kepuasan
4.2 Pengolahan Data
4.2.1 Metode Hirarki
Kenyamanan
3
4
4
3
2
1
2
2
2
2
2
4
a. Stage
Stage
Cluster Combined
Cluster 1
Cluster 2
1
23
50
2
25
49
3
5
46
4
43
45
5
36
44
6
39
40
7
37
39
8
34
37
9
32
34
10
24
33
11
31
32
12
10
31
Tabel 4.3 AgglomeratioSchedule
Coefficients
Stsge Cluster First
Next
Stage
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
Appears
Cluster 1
0
0
0
0
0
0
0
0
0
0
0
0
Cluster 2
0
0
0
0
0
0
6
7
8
0
9
11
17
15
42
26
25
7
8
9
11
16
12
24
BAB VI
KESIMPULAN DAN REKOMENDASI
Berdasarkan hasil dari pembahasan pada bab V, maka didapatkan beberapa
kesimpulan :
1. Cluster yang terbentuk sebanyak 3 cluster dan 1 outlier. Cluster 1 terdiri dari 42
responden, cluster 2 terdiri daei 3 responden, dan cluster 3 terdiri dari 4 responden.
Cluster 4 tidak memiliki kelompok yang relative homogen, sehingga cluster 4 tidak
dikatakan outlier. Cluster 4 terdiri dari 1 responden.
2. Mahasiswa Tekhnik Industri yang berkunjung ke laboratorium Data Mining
dominan berjenis kelamin laki laki dengan rata-rata usia 20-22 tahun dan merupakan
angkatan 2008 dengan intensitas kunjungan yang jarang dan durasi atau lama
berkunjung responden kurang lebih 60 menit.
DAFTAR PUSTAKA
Modul II Analisis Cluster Praktikum Data Mining
Han,Jiawei.”Data Mining Concept and Technique”. Presentation
http://www.cse.msu.edu/~cse980
Bertalya,”Konsep Data Mining”.Universitas Gunadarma,2009.
Walpole,Ronald E.probability and Statistic for Engineers and Scientistc
LAMPIRAN
Cluster
Cases
Valid
Missing
N
Percent
N
50
100.0
0
a. Squared Eudidean Distance used
Percent
.0
Total
N
50
Percent
100.0
b. Single Linkage
Single Linkage
Stage
Cluster Combined
Coefficients
Stsge Cluster First
Next
Appears
Stage
1
2
3
4
5
6
7
8
9
10
11
12
Cluster 1
23
25
5
43
36
39
37
34
32
24
31
10
Cluster 2
50
49
46
45
44
40
39
37
34
33
32
31
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
Cluster 1
0
0
0
0
0
0
0
0
0
0
0
0
Cluster 2
0
0
0
0
0
0
6
7
8
0
9
11
17
15
42
26
25
7
8
9
11
16
12
24