TUGAS DATA MINING ANALISIS KLASTER METOD

TUGAS DATA MINING

ANALISIS KLASTER METODE K-MEANS DAN METODE
SINGLE LINKAGE DENGAN MENGGUNAKAN
SOFTWARE R

Disusun oleh :
Nama

: Fahri Istiari

NIM

: 131.06.1001

Program Studi

: Statistika

Jurusan


: Statistika

FAKULTAS SAINS TERAPAN
INSTITUT SAINS & TEKNOLOGI AKPRIND
YOGYAKARTA
2017
1. KLUSTER DENGAN MENGGUNAKAN METODE K-MEANS

Langkah-langkah :
1. Menentukan jumlah kluster yaitu k = 2
2. Data diberi nama fahri yang berisi tentang lokasi dengan minimal temperature
dan maximal temperature. Data disajikan sebagai berikut:
> fahri
lokasi

min

max

1


A

8.0 24.3

2

B 14.0 26.9

3

C 13.7 23.4

4

D 13.3 15.5

5

E


7.6 16.1

6

F

6.2 16.9

7

G

6.1 18.2

8

H

8.3 17.0


9

I

8.8 19.5

10

J

8.4 22.8

3. Membuat scatterplot dengan menggunakan syntax berikut:
> library(ggplot2)
> ggplot(fahri, aes(maxTemp, minTemp, color = lokasi)) +
geom_point()

Output scatterplot :


Output

scatterplot

telah

diperoleh,

sekarang

kita

telah

melihat

sebaran

data,


sekarang

kita

coba

untuk

cluster

k-

means.

Syntax

yang

digunakan
sebagai


berikut:

>
fahriCluster

Output :
K-means clustering with 2 clusters of sizes 4, 6

Cluster means:
minTemp maxTemp
1 11.025000

24.35

2

17.20

8.383333


Clustering vector:
[1] 1 1 1 2 2 2 2 2 2 1

Within cluster sum of squares by cluster:
[1] 41.85750 45.46833
(between_SS / total_SS =

Available components:

61.5 %)

[1] "cluster"
"tot.withinss"

"centers"

[6] "betweenss"

"size"


"totss"

"withinss"

> table(fahriCluster$cluster, fahri$lokasi)
A B C D E F G H I J
1 1 1 1 0 0 0 0 0 0 1
2 0 0 0 1 1 1 1 1 1 0

Interpretasi :
> table(fahriCluster$cluster, fahri$lokasi)
A B C D E F G H I J
1 1 1 1 0 0 0 0 0 0 1
2 0 0 0 1 1 1 1 1 1 0

Tabel diatas menjelaskan bahwa untuk lokasi A,B,C, dan J Masuk kelam klaster 1
sedangkan lokasi DEFGHI masuk kedalam lokasi 2

2.


KLUSTER
LINKAGE

DENGAN

MENGGUNAKAN

METODE

SINGLE

Langkah-langkah :
1. Menentukan jumlah kluster yaitu k = 2
2. Data diberi nama fahri yang berisi tentang lokasi dengan minimal temperature
dan maximal temperature. Data disajikan sebagai berikut:
> fahri
lokasi minTemp maxTemp
1


A

8.0

24.3

2

B

14.0

26.9

3

C

13.7

23.4

4

D

13.3

15.5

5

E

7.6

16.1

6

F

6.2

16.9

7

G

6.1

18.2

8

H

8.3

17.0

9

I

8.8

19.5

10

J

8.4

22.8

3. Membuat scatterplot dengan menggunakan syntax berikut:
> clusters plot(clusters)

Output:

4. Analisis klaster dengan menggunakan hirarki (Single linkage):
> clusters plot(clusters)

Interpretasi:
Dengan melihat dendogram bahwa lokasi EHFGIAJD masuk ke dalam klaster 1
sedangkan BC masuk ke dalam klaster 2