57
for i=1:N
tempMatrixFile=matrixFIle{i}; [m,n]=sizetempMatrixFile;
for j=1:m
[row,~] = findismemberkataUnik,tempMatrixFilej,1; calonDatarow, i=matrixBobotrow,1;
end end
calonDataCell{k}=calonData;
Gambar 4.16 Hasil Indexing
4.1.1.2 Hierarchical K Means
Tahapan yang dilakukan setelah pembobotan adalah tahap clustering atau pengelompokan. Tahap ini menjadi dasar untuk menjawab rumusan masalah yang
sudah dipaparkan di bab pendahuluan. Implementasi yang dilakukan pada taham ini adalah melakukan pengelompokan dokumen. Hal-hal yang harus dilakukan
adalah:
58 1.
K Means Pada tahap ini, hasil dari pembobotan, data dikelompokkan dengan
menggunakan metode K Means yang implementasinya sudah terlampir pada lampiran 4, yaitu dengan menggunakan fungsi Kmeans1 yang ada
pada Kmeans1.m. Hal pertama yang dilakukan adalah menentukan jumlah cluster.
Jumlah cluster yang digunakan pada penelitian ini adalah tiga buah, selanjutnya centroid harus ditentukan terlebih dahulu, pada
penelitian ini centroid K Means yang pertama dilakukan secara random atau acak. Setiap termkata pada setiap dokumen diukur jaraknya dengan
masing-masing centoid awal menggunakan euclidean distance. Proses ini dilakukan sampai tidak terjadi perubahan centorid atau letak indeks dari
dokumen tidak berubah lagi. Proses K Means pertama dilakukan sampai batas computation c, dimana c bernilai dua dan empat. Pengulangan K
Means pada penelitian ini bertujuan untuk menghasilkan himpunan
centroid random yang nantinya menjadi data awal proses Agglomerative
Hierarchical Clustering dengan tujuan untuk mengasilkan centroid
terbaik. 2.
Agglomerative Hierarchical Clustering Single Linkage Proses Agglomerative Hierarchical Clustering yang dipilih adalah
single linkage. Metode ini dipilih karena penggunaannya menggunakan
himpunan centroid sebagai data awal, yang nantinya akan dikelompokkan berdasarkan jarak dengan salah satu Agglomerative Hierarchical
Clustering yaitu Single Linkage. Perhitungan jarak yang digunakan adalah
59 dengan rumus euclidean distance. Berdasarkan perhitungan jarak, diambil
jarak minimum, karena metode single linkage yang digunakan, maka perhitungan jarak minimum lah yang digunakan .
Hasil dari perhitungan jarak minimum antar centroid akan membentuk berupa pasang-pasangan data centroid. Pasangan himpunan
centroid dapat dilihat melaui gambar dendrogram 4.17 . Hasil dendrogram
dipotong sejumlah kebutuhan centroid. Pada penelitian ini hasil cluster single linkage
dilakukan pemotongan guna memperoleh jumlah centroid yang diinginkan, yaitu tiga buah centroid. Pemotongan himpunan cluster
harus terlebih dahulu melalui perhitungan rata-rata tiap cluster centroid untuk mendapatkan tiga titik pusat dari himpunan centroid. Hasil keluaran
dari tahap ini adalah berupa tiga buah centroid terbaik yang siap digunakan sebagai centroid awal tahap berikutnya. Berikut adalah
implementasi yang digunakan dengan memakai variabel clusterSingle yang memanggil fungsi linkage yang disediakan oleh matlab linkage.m:
Clustering Single clusterSingle=linkagehasilKmeans,
single ,
euclidean ;
Gambar 4.17 Dendrogram
60 3.
K Means Pada tahap ini K Means kembali dilakukan, implementasinya
sudah terlampir pada lampiran 4, yaitu dengan menggunakan fungsi Kmeans1 yang ada pada Kmeans1.m, namun terdapat perbedaan proses
yang dilakukan, yaitu berkaitan dengan pemilihan centroid yang sudah ditentukan berdasarkan hasil dari single linkage. Sama halnya dengan
proses K Means sebelumnya, iterasi K Means dilakukan sampai tidak terjadi perubahan centorid atau letak indeks dari dokumen tidak berubah
lagi. Berikut adalah centroid hasil single linkage yang digunakan sebagai centroid
awalgambar 4.18.
Gambar 4.18 Centroid Awal
4.1.1.3 Output