36 wong: tf = 1; idf = log601 = 1,77815125; W = 1,77815125
nandhang: tf = 1; idf = log601 = 1,77815125; W = 1,77815125 kemudian hasil pembobotan kata pada dokumen disimpan pada
matriks calonData sebagai berikut:
c dimana w merupakan bobot dari term i sepanjang jumlah kata unik
horizontal dan yang vertikal sepanjangsejumlah dokumen.
3.2.1.2 K Means pertama
Langkah setelah dilakukannya pembobotan adalah melakukan pengelompokan,
pengelompokan yang
digunakan adalah
menggunakan K Means untuk mendapatkan himpunan centroid. Hal ini diawali dengan memilih centroid awal = 3 centroid, dipilih tiga
centroid dikarenakan sudah dibatasi dengan pengelompokan topik
yang diasumsikan menjadi tiga kelompokcluster, yaitu ekonomi, kesehatan, dan pendidikan. K Means ini dilakukan sebanyak jumlah
computation jumlah
dilakukannya metode
K Means
c=3, computation
1 menghasilkan
tiga centroid
random yang
digunakan{c1,c3,c5}, computation 2 menghasilkan tiga centroid random
yang digunakan {c1,c4,c5}, dan computation 3 menghasilkan tiga centroid random yang digunakan ={c2,c4,c6}. Berdasarkan proses
K Means dengan computation=3, maka diperoleh 9 centroid awal.
37 Kemudian dilanjutkan dengan menghitung euclidean distance untuk
menghitung jarak masing-masing centroid ke setiap dokumen.
Contoh menghitung euclidean distance dari dokumen 1 ke dokumen 1 dan dokumen 1 ke dokumen 2:
Tabel 3.2 Perhitungan Jarak antara Dokumen dengan Centroid
Pergokw Sum doc1
1,778151 1,778151 doc2
Lakukan untuk semua himpunan centroid dan kemudian lanjutkan dengan proses hierarchical single linkage.
W
2
sum doc1
3,161822 3,161822 doc2
wdc1 Sum
doc1 3,161822 3,161822
doc2
1 3,161822
x 3,161822
3,161822
q d
q d
j j
x 3,161822
q d
q d
j j
38
3.2.1.3 Hierarchical Centroid awal
Himpunan centroid yang diperoleh dari langkah sebelumnya digunakan dalam proses hierarchical single linkage. Hal pertama yang dilakukan adalah
menghitung jarak minimum antar centroid dengan rumus: 3.1
Langkah berikutnya yaitu menggabungkan dua kelompok terdekat berdasarkan jaraknya.
Gambar 3.3 Langkah Menghitung Jarak Minimum pada single linkage
Langkah berikutnya yaitu memperbarui matrik jarak antar data untuk
merepresentasikan kedekatan di antara kelompok baru dan kelompok yang masih tersisa.
39 Gambar 3.4 Langkah Menghitung Menggabungkan Kelompok yang
Berdekatan Berdasarkan proses menggabungkan kelompok terdekat yang sudah dilakukan
didapatkah dendrogram sebagai berikut:
Gambar 3.5
Dendrogram
40 Tahap ini bertujuan untuk mendapatkan tiga buah cluster, maka bisa dipotong
pada dendogram, sehingga diperoleh pusat cluster sebagai berikut: Tabel 3.3 Hasil Himpunan Cluster Berdasarkan Pemotongan
Langkah di atas merupakan langkah pemilihan centroid dari himpundan centroid hasil single linkage. Centroid yang dipilih adalah:
C1 adalah rata-rata dari feature dari indeks 1 dan 2 C2 adalah rata-rata dari feature dari indeks 3,4, dan 5
C3 adalah rata-rata dari feature dari indeks 6 dapat langsung diambil indeks 6.
3.2.1.4 K Means kedua