Hierarchical K Means Pengolahan Data

57 for i=1:N tempMatrixFile=matrixFIle{i}; [m,n]=sizetempMatrixFile; for j=1:m [row,~] = findismemberkataUnik,tempMatrixFilej,1; calonDatarow, i=matrixBobotrow,1; end end calonDataCell{k}=calonData; Gambar 4.16 Hasil Indexing

4.1.1.2 Hierarchical K Means

Tahapan yang dilakukan setelah pembobotan adalah tahap clustering atau pengelompokan. Tahap ini menjadi dasar untuk menjawab rumusan masalah yang sudah dipaparkan di bab pendahuluan. Implementasi yang dilakukan pada taham ini adalah melakukan pengelompokan dokumen. Hal-hal yang harus dilakukan adalah: 58 1. K Means Pada tahap ini, hasil dari pembobotan, data dikelompokkan dengan menggunakan metode K Means yang implementasinya sudah terlampir pada lampiran 4, yaitu dengan menggunakan fungsi Kmeans1 yang ada pada Kmeans1.m. Hal pertama yang dilakukan adalah menentukan jumlah cluster. Jumlah cluster yang digunakan pada penelitian ini adalah tiga buah, selanjutnya centroid harus ditentukan terlebih dahulu, pada penelitian ini centroid K Means yang pertama dilakukan secara random atau acak. Setiap termkata pada setiap dokumen diukur jaraknya dengan masing-masing centoid awal menggunakan euclidean distance. Proses ini dilakukan sampai tidak terjadi perubahan centorid atau letak indeks dari dokumen tidak berubah lagi. Proses K Means pertama dilakukan sampai batas computation c, dimana c bernilai dua dan empat. Pengulangan K Means pada penelitian ini bertujuan untuk menghasilkan himpunan centroid random yang nantinya menjadi data awal proses Agglomerative Hierarchical Clustering dengan tujuan untuk mengasilkan centroid terbaik. 2. Agglomerative Hierarchical Clustering Single Linkage Proses Agglomerative Hierarchical Clustering yang dipilih adalah single linkage. Metode ini dipilih karena penggunaannya menggunakan himpunan centroid sebagai data awal, yang nantinya akan dikelompokkan berdasarkan jarak dengan salah satu Agglomerative Hierarchical Clustering yaitu Single Linkage. Perhitungan jarak yang digunakan adalah 59 dengan rumus euclidean distance. Berdasarkan perhitungan jarak, diambil jarak minimum, karena metode single linkage yang digunakan, maka perhitungan jarak minimum lah yang digunakan . Hasil dari perhitungan jarak minimum antar centroid akan membentuk berupa pasang-pasangan data centroid. Pasangan himpunan centroid dapat dilihat melaui gambar dendrogram 4.17 . Hasil dendrogram dipotong sejumlah kebutuhan centroid. Pada penelitian ini hasil cluster single linkage dilakukan pemotongan guna memperoleh jumlah centroid yang diinginkan, yaitu tiga buah centroid. Pemotongan himpunan cluster harus terlebih dahulu melalui perhitungan rata-rata tiap cluster centroid untuk mendapatkan tiga titik pusat dari himpunan centroid. Hasil keluaran dari tahap ini adalah berupa tiga buah centroid terbaik yang siap digunakan sebagai centroid awal tahap berikutnya. Berikut adalah implementasi yang digunakan dengan memakai variabel clusterSingle yang memanggil fungsi linkage yang disediakan oleh matlab linkage.m: Clustering Single clusterSingle=linkagehasilKmeans, single , euclidean ; Gambar 4.17 Dendrogram 60 3. K Means Pada tahap ini K Means kembali dilakukan, implementasinya sudah terlampir pada lampiran 4, yaitu dengan menggunakan fungsi Kmeans1 yang ada pada Kmeans1.m, namun terdapat perbedaan proses yang dilakukan, yaitu berkaitan dengan pemilihan centroid yang sudah ditentukan berdasarkan hasil dari single linkage. Sama halnya dengan proses K Means sebelumnya, iterasi K Means dilakukan sampai tidak terjadi perubahan centorid atau letak indeks dari dokumen tidak berubah lagi. Berikut adalah centroid hasil single linkage yang digunakan sebagai centroid awalgambar 4.18. Gambar 4.18 Centroid Awal

4.1.1.3 Output