4 Analitik Data Tingkat Lanjut Clustering Big Data L1617 v2

Analitik Data Tingkat Lanjut (Clustering)

1. Konsep Clustering

2. K-means vs Kernel K-Means

3. Studi Kasus

4. Tugas

 Cluster data diartikan kelompok. Dengan demikian, pada dasarnya analisis cluster akan menghasilkan sejumlah cluster (kelompok).

 Analisis ini diawali dengan pemahaman bahwa sejumlah data tertentu sebenarnya mempunyai kemiripan di antara anggotanya.

 Karena itu, dimungkinkan untuk mengelompokkan anggota-anggota yang mirip atau mempunyai karakteristik yang serupa tersebut dalam satu atau lebih dari satu cluster.

 Hierarchical clustering adalah suatu metode pengelompokan data yang dimulai dengan mengelompokkan dua atau lebih obyek yang memiliki

 Metode non-hierarchical clustering justru dimulai dengan menentukan terlebih dahulu jumlah cluster yang diinginkan (dua cluster, tiga cluster, atau lain sebagainya). Contoh metodenya adalah k-means clustering.

 K-means clustering merupakan salah satu metode data clustering non-hirarki yang mengelompokan data dalam bentuk satu atau lebih cluster (kelompok).

 Data-data yang memiliki karakteristik yang sama dikelompokan dalam satu cluster (kelompok) dan data yang memiliki karakteristik yang berbeda dikelompokan dengan cluster (kelompok) yang lain sehingga data yang berada dalam satu cluster (kelompok) memiliki tingkat variasi yang kecil

 Langkah-langkah melakukan clustering dengan metode k-means: 1. Tentukan jumlah cluster k.

Inisialisasi k pusat cluster ini bisa dilakukan dengan berbagai 2. cara. Namun yang paling sering dilakukan adalah dengan cara random (acak).

Alokasikan semua data atau obyek ke cluster terdekat 3.

berdasarkan jarak kedua obyek tersebut (jarak Euclidean):

2 D x x  x  x  x  x   x  x , ..

 i j   i 1 j 1   i

2 j

2   id jd 

4. Hitung kembali pusat cluster dengan keanggotaan cluster yang

sekarang m m i i

1 C  x C  x ....... i 1 j 1 id jd

  m m j  1 j 

1 i i

 Langkah-langkah clustering metode k-means: 1. Tentukan jumlah cluster k.

2. Inisialisasi k pusat cluster ini bisa dengan berbagai cara. Namun yang sering dilakukan adalah dengan cara random (acak).

Alokasikan semua data atau obyek ke cluster terdekat 3.

berdasarkan jarak kedua obyek tersebut (jarak Euclidean):

2 D x , x x x x x .. x x       

 i j   i 1 j 1   i

2 j

2   id jd 

Hitung pusat cluster dengan keanggotaan yang sekarang

4. m m i i

1 C  x C  x ....... i 1 j 1 id jd

  m m j  1 j 

1 i i

Jika pusat cluster tidak berubah lagi maka proses clustering 5. selesai. Atau, kembali ke langkah nomor 3 sampai pusat cluster tidak berubah.

 Hasil clustering data 2 dimensi dengan menggunakan k- means clustering:

 K-means adalah algoritma unsupervised learning yang membagi kumpulan data ke dalam sejumlah cluster (kelompok).

 Akan tetapi k-means clustering memiliki kelemahan di dalam memproses data yang berdimensi banyak khususnya untuk data yang bersifat non-linierly separable.

 Sedangkan dalam dunia nyata saat ini, data yang tersedia atau yang diperoleh memiliki dimensi yang banyak dan bervariasi.

 Dalam hal ini, penambahan fungsi kernel pada input data clustering merupakan pilihan yang baik.

 Visualisasi Hasil mapping data pada Kernel k-means:

 Kita dapat menggunakan beberapa jenis transformasi pada data, dengan memetakan data pada ruang baru dimana machine learning dapat digunakan.

 Fungsi kernel memberikan kepada kita sebuah alat untuk mendefinisikan transformasi. o

Kernel Polynomial d

   k x , x x x c

 i j   i j  o

Kernel RBF

2     x x i j

  k x , x  exp

  i j

2 2   

 

 Pada umumnya, perluasan dari k-means ke kernel k- means direalisasi melalui pernyataan jarak dalam bentuk fungsi kernel.

 Dengan menggunakan Jarak Euclidean pada tradisional k-means dan fungsi pemetaan Φ, maka algoritma k- means clustering pada slide ke-8 dapat diubah menjadi : Tentukan jumlah cluster k.

1. Inisialisasi k pusat cluster ini bisa dengan berbagai cara. Namun 2.

yang sering dilakukan adalah dengan cara random (acak).

Alokasikan semua data atau obyek ke cluster terdekat 3. berdasarkan jarak yang dihitung menggunakan rumus fungsi pemetaan

Φ dan fungsi kernel.

2 n m

~ u min ij x c

3. Alokasikan semua data atau obyek ke cluster terdekat

    

1 ) (  

min ) (

 n i m j ij n l l lj i u x u n x

berdasarkan jarak yang dihitung menggunakan rumus fungsi pemetaan Φ dan fungsi kernel. merupakan cluster centers dan dihitung dengan menggunakan rumus :

    n i m j ij j i u c x

1 ) (

 n i i ij j j x u n c

 

 j c~

2 ~ ) ( min

1 ~ 

    

      

1 ) (

1 ) ( ) ( ( 2 ) ). ( min

    

     

  

      

   

   

   

   n i m j n l n p p l lj j n l i l lj j i i ij

K x x u n K x x u n

K x x u

1 ) , (

 n i m j ij n l l lj j i u x u n x

1 min ) (

1 ) (      

   

     

   

     

  n l l lj j i n i m j n l l lj j i ij x u n x x u n x u

   n i m j n l l lj j n l l lj j i i i ij x u n x u n x x x u

1 ) (

1 ) ( ) ( 1 ) ( min

     

  

     

   

   

   

     

   

1 ) , ( 1 , 2 ) ( min

n m 

 n  n n 

 

2 

      min u K ( x , x ) 

2 

2 u K ( x , x )  u K ( x , x )      ij i i lj l i   lj l p

    



l 

1 l  1 p 

1 n n i  1 j 

1 j

  j    

 

 Keterangan: l = Index untuk data yang terdapat pada cluster ke-j. n = Jumlah data. p = Index untuk data yang terdapat pada cluster ke-j. m = Jumlah cluster. x = Titik data ke-i. i K = Fungsi kernel. x = Titik data ke-l. l i = Index untuk keseluruhan data. x = Titik data ke-p. p = Index untuk cluster. j u = Nilai keanggotaan data ke-i terhadap cluster ke-j. Bernilai 1 apabila merupakan ij anggota, bernilai 0 jika bukan merupakan anggota dari cluster yang diproses. u = Nilai keanggotaan data ke-l terhadap cluster ke-j lj



= Fungsi yang memetakan titik x ke ruang baru yang berdimensi lebih tinggi.

n = Banyaknya data pada cluster ke-j.

Setelah mendapat jarak titik data terhadap masing-masing 4. cluster pada langkah 3, jarak terdekat titik data dengan suatu cluster berarti titik data tersebut termasuk dalam cluster tersebut.

Perhatikan kondisi berhenti (Next Slide), misal jika pusat 5. cluster tidak berubah lagi maka proses clustering selesai. Atau, kembali ke langkah nomor 3 sampai pusat cluster tidak berubah.

(Termination Condition)

 Langkah selanjutnya adalah menentukan apakah diperlukan iterasi selanjutnya atau tidak (stop condition).

Jumlah Iterasi Maksimum a.

b. Fungsi Obyektif dan Threshold

Fungsi obyektif dihitung dan nilai threshold pada sistem ini diperoleh dari masukan user. n k data F = Fungsi Objektif k = Jum. cluster. n = Jum. data. data

F  a D x C ( , ) ji j i

 j  i 

1 1 a = Nilai keanggotaan data ke-j terhadap cluster ke-i. ji D(x ,C ) = Jarak antara titik data ke-j terhadap cluster ke-i. j i F = Fungsi obyektif dari iterasi ke-i. baru delta F F

  baru lama = Fungsi obyektif dari iterasi ke-(i-1).

F lama

Note: jika delta ≥ threshold, maka iterasi berlanjut. Jika delta < threshold, maka iterasi berhenti.

 Hasil clustering data 2 dimensi dengan menggunakan k- means Vs Kernel k-means clustering (Chitta, Radha,

Rong Jin, Timothy C. Havens, dan Anil K. Jain., 2011):

k-means

Kernel k-means

 Terbukti bahwa Kernel K-mean clustering dapat

digunakan untuk menyelesaikan cluster yang komplek.

 Analisis cluster berkepentingan dengan penggolongan hasil kelompok yang sudah didapatkan. Atau menyiapkan draft nama atau label yang tepat untuk kelompok tersebut.

 Sedangkan analisis faktor berkepentingan dengan penggolongan ciri-ciri yang dipunyai oleh masing-masing objek atau data yang diolah untuk dikelompokkan.

 Diketahui data 2 dimensi: No.

56 -13.00

7.49

57 -13.60

6.32

58 -14.10

5.11

59 -14.49

3.87

60 -14.78

2.59

61 -14.94

8.59

X Y Cluster 67 -13.59 -6.36

70 -11.48 -9.66

69 -12.27 -8.62

68 -12.98 -7.52

1 No.

1.29

64 -14.77 -2.62

63 -14.94 -1.33

62 -15.00 -0.02

55 -12.30

71 -10.59 -10.62

46 -2.62

48 -5.14

14.49

47 -3.89

14.77

14.94

45 -1.32

15.00

44 -0.01

14.09

49 -6.35

52 -9.65

9.63

2 54 -11.50

10.60

53 -10.62

11.48

13.59

12.28

51 -8.61

12.98

50 -7.51

1.30

8.63 -12.27

9.67 -11.47

10.63 -10.58

11.51 -9.62

12.31 -8.58

13.01 -7.47

14.50 -3.85

14.95 -1.27

14.78 -2.57

14.11 -5.10

13.61 -6.31

7.53 -12.97

72 -9.62 -11.51

76 -5.11 -14.10

79 -1.28 -14.95

78 -2.58 -14.78

77 -3.86 -14.50

75 -6.32 -13.61

74 -7.48 -13.00

73 -8.58 -12.30

0.03 -15.00

3.91 -14.48

85 6.37 -13.58

5.16 -14.08

2.63 -14.77

1.34 -14.94

14.94

X Y Cluster

16 -0.35 -0.35

11 -0.43

0.25

12 -0.48

0.13

13 -0.50

0.00

14 -0.48 -0.13

15 -0.43 -0.25

10 -0.35

0.13 -0.48

0.35 -0.35

0.25 -0.43

17 -0.25 -0.43

0.00 -0.50

18 -0.13 -0.48

0.35

0.25

0.43

0.13

0.48

0.00

0.50

0.35

0.43

0.00

9 -0.25

0.48

8 -0.13

0.50

0.25

0.48

0.13

0.43

0.43 -0.25

12.99

10.60

10.61

9.64

11.49

8.60

12.29

7.49

9.65

14.77

2.60

14.49

3.87

14.10

5.12

13.60

6.33

11.49

1.31

14.94

0.00

15.00

0.00

0.50

0.48 -0.13

14.77

5.13

X Y Cluster

1 No.

6.34

13.59

14.09

2.61

3.88

14.49

0.35

1 . . . .

0.43

0.25

 Visualisasi data 2 dimensi: Langkah-langkah penyelesaian dengan Kernel K-Means: Misal dengan kernel Polynomial 1.

0.35

0.25

0.43

0.13

0.48

0.00

0.50

X Y Cluster

No.

Cluster 1 Cluster 2     d j i j i

20 -10
5
15
10

15.00

0.04

14.95 -1.27

secara random nilai indek clusternya (1 atau 2, pada kolom cluster) dari semua data pada slide ke-21.

) = 5, dan nilai threshold = 0.05.

20 X Y Keterangan:

Tentukan jumlah cluster k = 2. Iterasi maksimum (t max

 c x x x x k   ,

2. Inisialisasi k pusat cluster. Misal dilakukan inisialisasi

3. Alokasikan semua data atau obyek ke cluster terdekat

berdasarkan jarak yang dihitung menggunakan rumus fungsi pemetaan Φ dari fungsi kernel.

Mulai masuk pada iterasi ke-1 (t = 1). Sebelum dilakukan pengalokasian data ke cluster terdekat, lakukan perhitungan centroid masing-masing cluster dari hasil pemetaan

Φ. o

Menghitung Centroid Cluster n

1  

 d k x , x x x c i j i j

    

~ c  u  ( x ) j ij i

2 fungsi pemetaan , ) Φ = (X √2XY, Y n i 

1 j x  ( x ) i i ₂ ₂ X Y No.

X Y Cluster √2.X.Y No.

X Y Cluster

0.25

0.00

0.00 1 0.50

0.00

0.50

0.00

1 . . . .

. . . . o Menghitung Centroid Setiap Cluster

 

0.25

0.43

0.02

0.09

0.23

0.13

0.48

2 √2XY Y

0.19

X Y Cluster

c Data

1.63 4312.54 49 / ~

88.01 4240.21 49 / 49 /

0.03

86.53

     

     

   

0.15

centroid cluster

0.00

1.22 - 49 / 4018.97 49 / ~

78.77 0.02 - 82.02 3859.54 49 /

     

     

   

     

1.61 Total 49 4018.97 -1.22 3859.54 centroid cluster 2 pada iterasi 1:

25.98 49 14.95 -1.27 2 223.39 -26.85

0.25 . . . . . . . 48 14.11 -5.10 2 199.02 -101.68

0.00

0.06

0.50

0.00

0.13

0.18

0.12

0.35

1 pada iterasi 1:      

0.00 Total 49 4312.54 1.63 4240.21

 n i i ij j j x u n c

1 Total .. .. ..

0.50

√2XY Y

X Y Cluster

Data

 x

) ( i

1 . .

0.00

0.25

Y ² Cluster

X ² √2.X.Y

1 ~  No.

1 ) (

0.00

0.25

0.80

0.02

0.04 1 225.00

15.00

6.60

48 14.78 -2.57 1 218.40 -53.68

0.19 . . . . . . .

1 0.06 -0.15

0.43

0.23 4 -0.25

0.09

0.00

0.48

0.13

0.19

0.15

0.06

0.43

0.25

0.00

3. Alokasikan semua data atau obyek ke cluster terdekat

1 4 -0.25 0.43 15190.86 12891.60

1 . . . . . . . 48 14.78 -2.57 26277.54 26687.92

1 49 15.00 0.04 26254.64 26647.91

0.48 0.13 15190.35 12890.51

2 . . . . . . . 97 14.11 -5.10 26337.65 26811.35

2 98 14.95 -1.27 26260.58 26656.34

Tabel jarak dan alokasi data untuk centroid terdekat pada iterasi 1:

20 X Y Visualisasi data hasil update keanggotaan cluster iterasi 1:

0.13 0.48 15190.98 12891.91

Data

berdasarkan jarak yang dihitung menggunakan rumus fungsi pemetaan Φ dan fungsi kernel.

    n i m j ij j i u c x

2 ~ ) ( min

 

  n i i ij j j x u n c

1 ) (

1 ~ 

X Y Jarak ke C1 Jarak ke C2 K baru K lama

0.50 0.00 15190.29 12890.39

0.25 0.43 15190.84 12891.62

Cluster 1 Cluster 2

20 -10
5

2 Total 1177274.15 1138242.98

4. Setelah mendapat jarak titik data terhadap masing-

1 49 15.00 0.04 26254.64 26647.91

0.48 0.13 15190.35 12890.51

2 . . . . . . . 97 14.11 -5.10 26337.65 26811.35

2 98 14.95 -1.27 26260.58 26656.34

Tabel jarak dan alokasi data untuk centroid terdekat pada iterasi 1:

20 X Y Visualisasi data hasil update keanggotaan cluster iterasi 1:

1 . . . . . . . 48 14.78 -2.57 26277.54 26687.92

masing cluster pada langkah 3, jarak terdekat titik data dengan suatu cluster berarti titik data tersebut termasuk dalam cluster tersebut.

Data

X Y Jarak ke C1 Jarak ke C2 K baru K lama

0.50 0.00 15190.29 12890.39

0.25 0.43 15190.84 12891.62

0.13 0.48 15190.98 12891.91

1 4 -0.25 0.43 15190.86 12891.60

Cluster 1 Cluster 2 Fbaru = 1177274.15 + 1138242.98 = 2315517.13 Delta = |Fbaru - Flama| = |2315517.13 - 0| > 0.05 (threshold) dan iterasi < t max

20 -10
5

2 Total 1177274.15 1138242.98

= 5,

0.35

1 . . . .

0.43

0.25

 Visualisasi data 2 dimensi: Cara ke-2 penyelesaian dengan Kernel K-Means: Misal dengan kernel Polynomial 1.

0.35

0.25

0.43

0.13

0.48

0.00

0.50

X Y Cluster

No.

Cluster 1 Cluster 2     d j i j i

20 -10
5
15
10

15.00

0.04

14.95 -1.27

secara random nilai indek clusternya (1 atau 2, pada kolom cluster) dari semua data pada slide ke-21.

) = 5, dan nilai threshold = 0.05.

20 X Y Keterangan:

Tentukan jumlah cluster k = 2. Iterasi maksimum (t max

 c x x x x k   ,

2. Inisialisasi k pusat cluster. Misal dilakukan inisialisasi

3. Alokasikan semua data atau obyek ke cluster terdekat

1 ~  a b c

1 ) (

  n i i ij j j x u n c

 

2 ~ ) ( min

    n i m j ij j i u c x

1 ) , ( 1 , 2 ) ( min

berdasarkan jarak yang dihitung menggunakan rumus fungsi pemetaan Φ dan fungsi kernel. o

Penghitungan jarak data terhadap masing-masing cluster menggunakan persamaan berikut  

K x x u

K x x u n K x x u n

  n i m j n l n p p l lj j n l i l lj j i i ij

   

      

   

   

   

   

    

    

2 = 0.0625

2 = (((0.50 x 0.50)+(0.00 x 0.00)) + 0)

0.00

0.50

d = ( 0.50 0.00 .

.x i

) = (x i

, x

= (0.50, 0.00) Untuk menghitung bagian a: K(x i

1 ) , ( 1 , 2 ) ( min a b c i = 1 j = 1 x i

1 ) , (

o Untuk memudahkan dalam perhitungan, persamaan di atas dibagi menjadi 3 bagian yaitu a, b, dan c.

K x x u

K x x u n K x x u n

  n i m j n l n p p l lj j n l i l lj j i i ij

   

      

   

   

   

      

  

     

Sebagai contoh, berikut ini ditampilkan perhitungan jarak antara data 1 terhadap cluster 1.

2 = (((0.50 x 0.25)+(0.00 x 0.43)) + 0)

56.25 Total 1078.15 Nilai fungsi kernel antara data i terhadap seluruh data pada cluster j untuk iterasi 1 b = -2(baris (Total)) / jumlah data pada cluster j = -2(1078.15) / 49

) 1 0.5, 0 0.0625 2 0.25, 0.43 0.015625 3 0.13, 0.48 0.004225 4 -0.25, 0.43 0.015625 . . . 48 14.78, -2.57 54.6121 49 15, 0.04

, x l

K(x i

No. x l

2 = 0.016

0.43

o Untuk memperoleh b terlebih dahulu dilakukan penjumlahan nilai fungsi kernel antara data i terhadap seluruh data pada cluster j. Sebagai contoh diambil satu data pada cluster j yaitu : x l

0.25

d = ( 0.50 0.00 .

.x l

) = (x i

, x l

= (0.25, 0.43) K(x i

= -44.006

14.19 3.88 . . . 50625.72 Tabel nilai fungsi kernel antar data pada cluster j untuk iterasi 1 c = (T) / (jumlah data pada cluster j)

56.25

3.88 . . . . . . . . . . . . . . . . . . . . . . . .

0.06 0.06 . . .

14.19

0.06 0.06 . . .

0.02

56.25

0.06 0.02 . . .

2 3 . . .

2 = 0.66 x l

2 = (((0.25 x 0.25)+(0.43 x 0.43)) + 0)

0.43

0.25

d = ( 0.25 0.43 .

.x l

) = (x l

, x l

= (0.25, 0.43) K(x l

Asumsikan total nilai tersebut dengan T. Untuk memperoleh nilai c dengan cara x l

o Selanjutnya yaitu menghitung c. Untuk memperoleh c terlebih dahulu dilakukan penjumlahan nilai fungsi kernel antar data pada cluster j. Sebagai contoh diambil satu data pada cluster j yaitu o

2 o Jumlahkan nilai a, b, dan c. Hasil jumlah a, b, dan c adalah :

     

K x x u

1 ) , (

K x x u n K x x u n

  

  n i m j n l n p p l lj j n l i l lj j i i ij

   

      

   

   

   

      

1 ) , ( 1 , 2 ) ( min a b c a + b + c =0.625 + (-44.006) + 15234.24 =15190.295

1. Jelaskan perbedaan antara K-Means dengan Kernel K-Means!

1 x x

     

     

   

     

2. Jelaskan bagaimana cara untuk memilih kernel yang terbaik untuk K-

     

   

4. Tentukan hasil perhitungan jarak kuadrat dari data ke-1 dari slide ke-21

2 ) dengan menggunakan kernel Polynomial dan RBF: a.

1 ,x

3. Diketahui data berikut, Tentukan hasil K(x

1 x x

Terimakasih Imam Cholissodin | [email protected]

4 Analitik Data Tingkat Lanjut Clustering Big Data L1617 v2

4. Hitung kembali pusat cluster dengan keanggotaan cluster yang

2. Inisialisasi k pusat cluster ini bisa dengan berbagai cara. Namun yang sering dilakukan adalah dengan cara random (acak).

1. Inisialisasi k pusat cluster ini bisa dengan berbagai cara. Namun 2.

3. Alokasikan semua data atau obyek ke cluster terdekat

b. Fungsi Obyektif dan Threshold

2. Inisialisasi k pusat cluster. Misal dilakukan inisialisasi

3. Alokasikan semua data atau obyek ke cluster terdekat

3. Alokasikan semua data atau obyek ke cluster terdekat

2 Total 1177274.15 1138242.98

4. Setelah mendapat jarak titik data terhadap masing-

2 Total 1177274.15 1138242.98

2. Inisialisasi k pusat cluster. Misal dilakukan inisialisasi

3. Alokasikan semua data atau obyek ke cluster terdekat

Dokumen yang terkait

Sentiment Analysis Berbasis Big Data Sentiment Analysis Based Big Data

Handbook of Big Data Technologies

Big Data Computational Intelligence Networking 4 pdf pdf

Data Divination Big Data Strategies pdf pdf

Data Divination Big Data Strategies pdf pdf

Scalable Big Data Architecture A Practitioner's Guide to Choosing Relevant Big Data Architecture pdf pdf

Women in Data Big Data 2 pdf pdf

Data Preparation in the Big Data Era pdf pdf

Big Data in Practice How 45 Successful Companies Used Big Data Analytics (2016) pdf pdf

Survey of Clustering Data Mining Techniques

Dukungan

Links

4 Analitik Data Tingkat Lanjut Clustering Big Data L1617 v2

4. Hitung kembali pusat cluster dengan keanggotaan cluster yang

2. Inisialisasi k pusat cluster ini bisa dengan berbagai cara. Namun yang sering dilakukan adalah dengan cara random (acak).

1. Inisialisasi k pusat cluster ini bisa dengan berbagai cara. Namun 2.

3. Alokasikan semua data atau obyek ke cluster terdekat

b. Fungsi Obyektif dan Threshold

2. Inisialisasi k pusat cluster. Misal dilakukan inisialisasi

3. Alokasikan semua data atau obyek ke cluster terdekat

3. Alokasikan semua data atau obyek ke cluster terdekat

2 Total 1177274.15 1138242.98

4. Setelah mendapat jarak titik data terhadap masing-

2 Total 1177274.15 1138242.98

2. Inisialisasi k pusat cluster. Misal dilakukan inisialisasi

3. Alokasikan semua data atau obyek ke cluster terdekat

Dokumen yang terkait

Sentiment Analysis Berbasis Big Data Sentiment Analysis Based Big Data

Handbook of Big Data Technologies

Big Data Computational Intelligence Networking 4 pdf pdf

Data Divination Big Data Strategies pdf pdf

Data Divination Big Data Strategies pdf pdf

Scalable Big Data Architecture A Practitioner's Guide to Choosing Relevant Big Data Architecture pdf pdf

Women in Data Big Data 2 pdf pdf

Data Preparation in the Big Data Era pdf pdf

Big Data in Practice How 45 Successful Companies Used Big Data Analytics (2016) pdf pdf

Survey of Clustering Data Mining Techniques

Dokumen yang Anda mencari sudah siap untuk unduhkan