Dari perhitungan dengan menggunakan Matlab ini diketahui: �
� = [− . .
. .
] �
= [ . .
] Sampai  pada  tahap  ini  telah  ditemukan  eigenvalue  dan  eigenvector.
Selanjutnya  dapat  dilakukan  feature  vector.  Pembentukan  feature  vector-nya adalah  dengan  mengambil  diagonal  utama  dari
� dengan  urutan  dari
besar ke kecil descending. Kemudian, nilai eigenvector disusun mengikuti indeks eigenvalue  yang  telah  di-sort  secara  descending.  Hasilnya  adalah  feature  vector,
yaitu [ .. ].
Pada  tahap  terakhir,  berdasarkan  feature  vector  yang  telah  didapat, diturunkan  data  set  yang  baru.  Caranya  adalah  feature  vector  tersebut  dikalikan
dengan data matriks � Tabel 2.3 Zero-mean untuk PCA.
� = �
�  � �
2.6 Hasil data set yang baru adalah sebagai berikut:
Tabel 2.4 Data final untuk contoh PCA
Data Z
a
11.1786
b -2.1624
c
-8.2344
d -5.0004
e
4.2186
2.3 Agglomerative Hierarchical Clustering
Seminari  Menegah  Mertoyudan  adalah  tempat  penelitian  ini.  Dengan mengambil  sisi  scientia  pengetahuan  sebagai  salah  satu  tekanan  pembinaan  di
seminari tersebut, tulisan  ini  dibuat.  Data perolehan  dari  seminari  menjadi  sumber tulisan  ini.  Data  yang  diperoleh  diolah  terlebih  dahulu  supaya  dapat  dipergunakan
dengan baik. Berkaitan dengan pengolahan data, di dalam data mining ada beberapa metode  yang  dapat  digunakan.  Satu  di  antara  metode  yang  ada  adalah  clustering.
Metode clustering ini yang akan digunakan dalam pengolahan data tersebut. Clustering  dapat  dimengerti  sebagai  metode  yang  digunakan  untuk
pengelompokan  obyek  yang  sama  menjadi  satu  kelompok  cluster,  sedangkan obyek  yang  berbeda  di  cluster  yang  berbeda  pula.  Cluster  bertujuan  untuk
menemukan  kemiripan  similarity  antara  data.  Kemiripan  yang  dimaksud berkaitan  dengan  karakteristik  yang  ditemukan  di  dalam  data  tersebut.  Dengan
demikian  akan  terbentuk  kelompok-kelompok  data  di  mana  masing-masing kelompok mengandung data yang memiliki kedekatan karakteristik.
29
Dapat dikatakan ada dua jenis pendekatan dengan menggunakan clustering, yaitu  partition  clustering  dan  hierarchical  clustering.  Dengan  menggunakan
pendekatan  partition  clustering,  pertama  ditentukan  lebih  dulu  jumlah  cluster, kemudian  data  dipisahkan  ke  dalam  cluster-cluster  tersebut  berdasarkan
kemiripannya.  Algoritma  yang  menggunakan  pendekatan  partition  clustering contohnya adalah k-means.
Sejalan dengan partition clustering, hierarchical clustering  juga membuat pengelompokkan  data.  Namun,  sesuai  dengan  namanya,  pendekatan  hierarchical
clustering, pengelompokan data dibuat berdasarkan tingkatannya. Dengan cara ini
29
Jiawei  Han,  Micheline  Kamber, “Data  mining  Concepts  and  Techniques”,  Morgan
Kaufmann, USA, 2011, hal. 20.
dapat  dihasilkan  suatu  kumpulan  partisi  yang  berurutan  dengan  visualisasi dendogram.  Obyek  dengan  tingkat  similarity  atau  kemiripan  yang  tinggi  akan
menjadi satu kelompok, begitu  juga dengan data-data lain  yang  memiliki tingkat kemiripan  tinggi  akan  dijadikan  satu  kelompok.  Secara  singkat  dapat  dikatakan
bahwa metode hierarchical clustering bekerja untuk mengelompokkan obyek data ke  dalam  struktur  cluster  berdasarkan  tingkat  kemiripannya.  Pengelompokan  ini
bertujuan untuk menentukan kemiripan antar data yang memiliki karakteristik yang serupa. Sehingga, dengan menggunakan hierarchical clustering data yang memiliki
kemiripan  berada  pada  hierarki  yang  sama,  yang  berbeda  pada  hierarki  yang berbeda pula.
Metode  hierarchical  clustering  terbagi  dalam  dua  bagian,  yaitu agglomerative  bottom-up  dan  divisive  top-down.  Namun  yang  dipilih  dalam
penelitian ini adalah pendekatan agglomerative hierarchical clustering. Pemilihan ini  berdasarkan  pada;  pertama  algoritma  penggunaan  hierarchical  clustering
tampaknya  sederhana.  Kedua,  pengelompokan  data  dapat  dilihat  dengan menggunakan  dendogram.  Ketiga,  penentuan  jumlah  cluster  di  awal  tidak
diperlukan.  Selain  itu,  alasan  yang  terakhir  adalah  karena  agglomerative hierarchical clustering menggunakan desain bottom-up sehingga pengelompokkan
data dimulai dari yang kecil ke arah pengelompokan yang besar. Desain ini sangat membantu untuk proses pengenalan similaritas dan pengelompokan data.
Metode  agglomerative  hierarchical  clustering  AHC  menggunakan strategi  desain  bottom-up  yang  dimulai  dengan  meletakkan  setiap  obyek  sebagai
sebuah cluster tersendiri atomic cluster dan selanjutnya menggabungkan atomic
cluster – atomic cluster tersebut menjadi cluster yang lebih besar dan lebih besar
lagi  sampai  akhirnya  semua  obyek  menyatu  dalam  sebuah  cluster  atau  proses berhenti  jika  telah  mencapai  batasan  kondisi  tertentu.  Dengan  pengertian  lain,
agglomerative  melakukan  proses  clustering  dari  n  cluster  menjadi  satu  kesatuan cluster.  Dengan  pengertian  ini,  setiap  data  pada  awalnya  dapat  dianggap  sebagai
sebuah cluster atomic cluster. Ini berarti jika terdapat jumlah data sebanyak n, dan k dianggap sebagai jumlah cluster, maka besarnya n = k. Pada langkah selanjutnya,
dihitung jarak antar cluster-nya. Sebelum pembentukan sebuah cluster perlu dihitung jarak kemiripan antara
obyek  data.  Ada  beberapa  cara  untuk  mengetahui  kemiripan  data.  Satu  di  antara cara  yang  ada  adalah  similarity  matrix  dengan  perhitungan  euclidean  distance.
Euclidean distance didevinisikan sebagai berikut: ,
= √ | − | + | − | + | − | + … + | − | 2.6
atau dapat disingkat dengan
30
:
, = √∑
−
� =
2.7 Keterangan:
 adalah jumlah atribut atau dimensi
 dan
adalah data
30
Eko Prasetyo, “…Konsep Dan Aplikasi …”, op. cit. hal. 216.
Dalam hierarchical clustering ada beberapa metode untuk perhitungan jarak antar  cluster,  di  antaranya  adalah  single  linkage,  average  linkage,  dan  complete
linkage.
31
Berikut ini adalah pendefinisian perhitungan jarak-jarak tersebut. 1.
Single Linkage Perhitungan  dengan  teknik  single  linkage  adalah  untuk  mencari  jarak
minimum  antar    cluster.  Dengan  single  linkage  jarak  antara  dua  cluster didefinisikan sebagai berikut:
, = min
� , ∈
{�
,
} 2.8
Keterangan:   {�
,
} adalah jarak antara data   dan y  dari masing-masing cluster A dan B. 2.
Average Linkage Untuk  menghitung  jarak  rata-rata  antar  cluster  digunakan  teknik  average
linkage. Teknik ini didefinisikan sebagai: ,
= ∑ ∑ �{ , }
∈ ∈
2.9 Keterangan:
 dan
adalah banyaknya data dalam cluster A dan B. 3.
Complete Linkage
31
Eko  Prasetyo,  “Data  Mining:  Pengolahan  Data  Menjadi  Informasi  Menggunakan Matlab”, Andi, Yogyakarta, 2014, hal. 246-247.
Dengan  menggunakan  teknik  complete  linkage  akan  diketahui  jarak maksimum antar cluster, didefinisikan sebagai berikut:
, = max
∈ , ∈
{�
,
} 2.10
Keterangan:   {�
,
} adalah jarak antara data   dan y  dari masing-masing cluster A dan B. Dengan  menggunakan  formula  perhitungan-perhitungan  di  atas  akan
diketahui jarak antar cluster. Jarak minimum antar data yang ditemukan pertama akan menjadi  cluster  yang  pertama  pula.  Perhitungan  selanjutnya  juga  akan  dilakukan
untuk  pembentukan  cluster  selanjutnya.  Masing-masing  perhitungan  dapat menghasilkan  dendrogram.  Pada penelitian  ini  yang akan  digunakan  adalah  single
linkage.
J a
r a
k 1
2
0,5 1,5
a b
c e
d f
D a t a
Gambar 2.2 Dendrogram
Dari  penjelasan  yang  telah  dipaparkan  di  atas,  maka  secara  singkat  AHC dapat  dimengerti  sebagai  metode  yang  dimulai  dengan  setiap  n  cluster  yang
membentuk  cluster  masing-masing.  Kemudian  dua  cluster  dengan  jarak  terdekat bergabung.  Selanjutnya  cluster  yang  lama  akan  bergabung  dengan  cluster  yang
sudah  ada  dan  membentuk  cluster  baru.Hal  ini  tetap  memperhitungkan  jarak kedekatan  antar  cluster.  Proses  akan  berulang  hingga  akhirnya  terbentuk  satu
cluster yang memuat keseluruhan cluster.
a b
c d
e f
a b
c d
e
Gambar 2.3 Cluster hasil AHC
Penggunaan  algoritma  agglomerative  hierarchical  clustering  untuk mengelompokkan n obyek data adalah sebagai berikut
32
: 1.  Hitung matriks jarak antar data.
2.  Ulangi langkah 3 dan 4 hingga hanya satu kelompok yang tersisa. 3.  Gabungkan  dua  kelompok  terdekat  berdasarkan  parameter  kedekatan  yang
ditentukan. 4.  Ubah  matriks  jarak  antar  data  untuk  merepresentasikan  kedekatan  di  antara
kelompok baru dan kelompok yang masih tersisa. 5.  Selesai.
32
Pang- Ning  Tan,  Michael  Steinbach,  Vipin  Kumar,  “Introduction  to  Data  Mining”,
Pearson Education. Inc., Boston, 2006, hal. 516.
Sebagai contoh, terdapat beberapa data seperti dapat dilihat pada tabel 2.6 di bawah ini. Data ini akan dibentuk dengan menggunakan AHC dengan perhitungan
kemiripan obyek data menggunakan euclidean distance dan perhitungan jarak cluster dengan single linkage, average linkage, dan complate linkage.
Tabel 2.5 Contoh data perhitungan AHC
Data  X  Y a
1 1
b
4 1
c 1
2
d
3 4
e 5
4
Dengan  menggunakan  euclidean  distance  setiap  obyek  data  tersebut dihitung similaritasnya sebagai berikut:
, = √ | − | + | − | =
, = √ | − | + | − | =
, = √ | − | + | − | = ,
, = √ | − | + | − | =
, = √ | − | + | − | = ,
, = √ | − | + | − | = ,
, = √ | − | + | − | = ,
, = √ | − | + | − | = ,
, = √ | − | + | − | = ,
, = √ | − | + | − | =
Berdasarkan perhitungan tersebut dapat  dibentuk  similarity matrix  seperti seperti  pada  tabel  2.7.  Berdasarkan  perhitungan  euclidean  distance,  similarity
matrix ini bersifat positif, simetris, dan triangle inequality.
Tabel 2.6 Similarity matrix
a b
c d
e a
3 1
3.61 5
b 3
3.16 3.16
3.16
c 1
3.16 2.83
4.47
d
3.61 3.16
2.83 2
e 5
3.16 4.47
2
Karena  similarity  matrix  ini  bersifat  simetris,  matriks  ini  dapat  juga dituliskan seperti pada tabel 2.8 berikut dan menjadi matriks jarak.
Tabel 2.7 Matriks jarak
a b
c d
e a
3 1
3.61 5
b 3.16
3.16 3.16
c 2.83
4.47
d 2
e
1. Single Linkage
Selanjutnya dari tabel 2.8 dapat dilihat jarak obyek data yang paling dekat, yaitu  a  dan  c,  berjarak  1.  Kedua  obyek  data  ini  menjadi  satu  cluster  pertama.
Kemudian untuk menemukan cluster berikutnya dicari jarak antar obyek data dari sisa yang ada b, d, e dan berada paling dekat dengan cluster ac. Untuk pencarian
jarak ini pertama digunakan single linkage. 
= min{ ,
} = min{  , . } =
 = min{
, } = min{ .  , . } = .
 = min{
, } = min{  , . } = .
Kemudian  baris-baris  dan  kolom-kolom  matriks  jarak  yang  bersesuaian dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster ac,
sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.8 Matriks jarak pertama single linkage
ac b
d e
ac 3
2.83 4.47
b 3.16
3.16
d 2
e
Berdasar  pada  matriks  jarak  pertama  tabel  2.9,  dipilih  kembali  jarak terdekat antar cluster. Ditemukan cluster de yang paling dekat, yaitu bernilai 2.
Kemudian dihitung jarak dengan cluster yang tersisa, ac, dan b. 
= min{ ,
, ,
} = min{ .  , .  ,  , .  } = , 
= min{ ,
} = min{ .   , . } = . Kemudian  baris-baris  dan  kolom-kolom  matriks  jarak  yang  bersesuaian
dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster de, sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.9 Matriks jarak kedua single linkage
ac b
de ac
3 2.83
b 3.16
de
Berdasar  pada  matriks  jarak  kedua  tabel  2.10,  dipilih  kembali  jarak terdekat antar  cluster. Ditemukan  cluster  acde  yang paling dekat, yaitu bernilai
2.83. Kemudian dihitung jarak dengan cluster yang tersisa, yaitu b. 
= min{ ,
, ,
} = min{  , ,  , .  , . } = Kemudian  baris-baris  dan  kolom-kolom  matriks  jarak  yang  bersesuaian
dengan  cluster  ac  dan  de  dihapus  dan  ditambahkan  baris  dan  kolom  untuk cluster acde, sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.10 Matriks jarak ketiga single linkage
acde b
acde
3
b
Dengan  demikian  proses  iterasi  perhitungan  jarak  untuk  pembentukan cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster acde dan b
digabung menjadi satu, yaitu cluster acdeb dengan jarak terdekat adalah 3. Berikut ini adalah hasil dendrogram hasil AHC dengan single linkage:
Gambar 2.4 Dendrogram single linkage untuk 5 obyek data
2. Average Linkage
Menggunakan  average  linkage  akan  dicari  jarak  antar  cluster  dengan menghitung  nilai  rata-rata  pasangan  setiap  cluster.  Dengan  tetap  menggunakan
tabel  matriks  jarak  tabel  2.8,  perhitungan  average  linkage  ini  dilakukan.  Pada awal perhitungan, cluster ac tetap digunakan sebagai cluster pertama karena jarak
antar obyek yang paling dekat. Berikut ini akan dilakukan perhitungan jarak antara cluster ac dengan b, d, dan e.
 = average{
, } = average{  , . } =
+ .
= . 
= average{ ,
} = average{ .  , . } =
. + .
= . 
= average{ ,
} = average{  , , } =
+ .
= . Kemudian  baris-baris  dan  kolom-kolom  matriks  jarak  yang  bersesuaian
dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster ac, sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.11 Matriks jarak pertama average linkage
ac b
d e
ac 3.08
3.22 4.73
b 3.16
3.16
d
2
e
Berdasar  pada  matriks  jarak  pertama  tabel  2.12,  dipilih  kembali  jarak terdekat antar cluster. Ditemukan cluster de yang paling dekat, yaitu bernilai 2.
Kemudian dihitung jarak dengan cluster yang tersisa, ac, dan b.
 = average{
, ,
, } = average{ .  , .  , , . } =
. +  . +  +  .
= . 
= average{ ,
} = average{ .  , . } =
. +  .
= . Kemudian  baris-baris  dan  kolom-kolom  matriks  jarak  yang  bersesuaian
dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster de, sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.12 Matriks jarak kedua average linkage
ac b
de ac
3.08 3.97
b 3.16
de
Berdasar  pada  matriks  jarak  kedua  Tabel  2.13,  dipilih  kembali  jarak terdekat  antar  cluster.  Ditemukan  cluster  ac  dengan  b  yang  paling  dekat,  yaitu
bernilai 3.08. Kemudian dihitung jarak dengan cluster yang tersisa, de. 
= average{ ,
, ,
, ,
} = average{ .  ,  , .  , . , . , . } =
. +  +  . +  . +  . +  .
= . Kemudian  baris-baris  dan  kolom-kolom  matriks  jarak  yang  bersesuaian
dengan cluster ac dan b dihapus dan ditambahkan baris dan kolom untuk cluster acb, sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.13 Matriks jarak ketiga average linkage
acb de
acb 3.7
de
Dengan  demikian  proses  iterasi  perhitungan  jarak  untuk  pembentukan cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster acb dan de
digabung  menjadi  satu,  yaitu  cluster  acbde  dengan  jarak  rata-rata  adalah  3.7. Berikut ini adalah hasil dendrogram hasil AHC dengan single linkage:
Gambar 2.5 Dendrogram average linkage untuk 5 obyek data
3. Complete Linkage
Penghitungan jarak dengan complete linkage akan dicari jarak antar cluster dengan  yang  paling  jauh.  Dengan  tetap  menggunakan  tabel  matriks  jarak  tabel
2.8,  perhitungan  complete  linkage  ini  dilakukan.  Pada  awal  perhitungan,  cluster ac tetap digunakan sebagai cluster pertama karena jarak antar obyek yang paling
dekat,  yaitu  1.  Berikut  ini  akan  dilakukan  perhitungan  jarak  antara  cluster  ac dengan b, d, dan e.
 = max{
, , } = max{  , . } = .
 = max{
, , } = max{ .  , . } = .
 = max{
, , } = max{  , . } =
Kemudian  baris-baris  dan  kolom-kolom  matriks  jarak  yang  bersesuaian dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster ac,
sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.14 Matriks jarak pertama complete linkage
ac b
d e
ac 3.16
3.61 5
b 3,16
3,16
d 2
e
Berdasar  pada  matriks  jarak  pertama  tabel  2.15,  dipilih  kembali  jarak terdekat antar cluster. Ditemukan cluster de yang paling dekat, yaitu bernilai 2.
Kemudian dihitung jarak dengan cluster yang tersisa, ac, dan b. 
= max{ ,
, ,
} = max{ .  , .  ,  , . } = 
= max{ ,
} = max{ .  , . } = . Kemudian  baris-baris  dan  kolom-kolom  matriks  jarak  yang  bersesuaian
dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster de, sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.15 Matriks jarak kedua complete linkage
ac b
de ac
3.16 5
b 3,16
de
Berdasar  pada  matriks  jarak  kedua  tabel  2.16,  dipilih  kembali  jarak terdekat antar cluster. Ditemukan cluster acb dan cluster deb, yaitu bernilai 3.16.
Karena kedua cluster tersebut berada pada obyek yang sama, dapat dipilih satu di
antaranya.  Dipilih  cluster  deb.  Kemudian  dihitung  jarak  dengan  cluster  yang tersisa, ac.
 = max{
, ,
, ,
, } =
max{ .  , .  ,  , .  ,  , . } = Kemudian  baris-baris  dan  kolom-kolom  matriks  jarak  yang  bersesuaian
dengan cluster ac dan b dihapus dan ditambahkan baris dan kolom untuk cluster acb, sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.16 Matriks jarak ketiga complete linkage
acb de
acb 5
de
Dengan  demikian  proses  iterasi  perhitungan  jarak  untuk  pembentukan cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster acb dan de
digabung  menjadi  satu,  yaitu  cluster  acbde  dengan  jarak  maksimum  adalah  5. Berikut ini adalah hasil dendrogram hasil AHC dengan complete linkage:
Gambar 2.6 Dendrogram complete linkage untuk 5 obyek data
Pada  bagian  akhir  AHC,  setelah  perhitungan  pembentukan  dendrogram, jumlah  cluster  dapat  ditentukan  dengan  memotong  cut  off  bagian  tertentu  dari
dendrogram  yang  terbentuk  pada  jarak  tertentu.  Misalnya  pada  gambar  2.4, dendrogram  dipotong  pada  jarak  2,5.  Dengan  pemotongan  ini  akan  terbentuk  3
cluster, yaitu ac, de, dan b dengan masing-masing obyek datanya.
Gambar 2.7 Contoh pemotongan dendrogram single linkage
2.4 Uji Akurasi Data