17
∑ [
Persamaan 2.6. Rumus Uji Statistik Anderson Darling
X adalah subset dengan pusat cluster C. Tiap instance dari X diwakili dengan x
i
, x
i+1, …,
x
n-1,
x
n
. Sementara itu, z
i
adalah hasil dari fungsi distribusi kumulatif untuk distribusi normal baku terhadap nilai x
i
. Untuk melakukan uji statistik diatas, dilakukan langkah seperti berikut ini
Hamerly et al., 2004 : 1. Ambil suatu subset X
2. Pilih level signifikan α untuk uji. 3. Dari pusat cluster tersebut, ambil dua buah “anak” pusat cluster, dinotasikan
dengan c1 dan c2. Caranya dengan menggunakan rumus c±m, dimana m adalah random atau dengan rumus berikut :
√
Persamaan 2.7. Rumus mencari anak cluster Hamerly et al., 2004
Dimana, m = vector anak
s = eigenvalue terbesar yang didapat dari data λ = principal component utama, yaitu eigenvector dengan eigenvalue
terbesar 4. Jalankan K-Means pada X dengan dua centroid tersebut c1 dan c2.
5. Hitung nilai vektor v dengan v = c1 – c2. 6. Proyeksikan X ke v, menjadi X’, dengan rumus sebagai berikut
‖ ‖
Persamaan 2.8. Rumus proyeksi vektor-vektor di X ke vektor v
7. Normalisasi X` sehingga memiliki rerata 0 dan varian 1. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
8. Hitung z
i
dengan rumus z
i
= Fx
i
. 9. Hitung
. Apabila berada pada daerah non-kritis, maka H
diterima. Sebaliknya apabila berada di dalam daerah kritis, maka H
1
diterima dan pusat cluster yang baru adalah c1 dan c2.
2.2.5. Evaluasi Cluster 2.2.5.1. Purity
Purity adalah salah satu pengukuran dalam evaluasi cluster. Untuk menghitung purity, tiap cluster diberikan label kelas berdasarkan label yang
paling sering muncul dalam cluster tersebut, dan kemudian akurasi cluster dihitung dengan jumlah data yang benar dibagi dengan banyak data Chen, 2010.
Rentang purity dari 0 hingga 1. Semakin besar nilai purity, semakin baik cluster tersebut. Formula purity adalah sebagai berikut Chen, 2010 :
∑ | |
Persamaan 2.9. Rumus penghitungan nilai purity
19
BAB III ANALISIS DAN PERANCANGAN SISTEM
3.1. Analisis Sistem 3.1.1. Deskripsi Sistem
Sistem yang akan dikembangkan dalam penelitian ini adalah sebuah sistem pengelompokan koleksi dan pencarian dokumen berdasarkan input query
pengguna. Sistem ini terdiri dari dua sub sistem, yaitu sub sistem pengelompokan dokumen dan sub sistem pencarian dokumen.
3.1.1.1. Sub Sistem Pengelompokan Dokumen
Sub sistem pengelompokan dokumen bertindak sebagai modul clustering dokumen. Nantinya koleksi dokumen yang diunggah oleh User ke dalam sistem
mula-mula diproses oleh subsistem ini. Proses yang terjadi adalah tokenisasi, eliminasi stopword, stemming, lalu dilanjutkan dengan pembangunan term-
document matrix. Dalam
penelitian ini,
kolom dalam
term-document matrix akan
merepresentasikan term, selanjutnya disebut atribut atau feature. Sementara baris dalam term-document matrix akan merepresentasikan dokumen. Dari term-
document matrix inilah akan dilakukan pengelompokan koleksi. Jumlah cluster optimum akan dicari secara otomatis oleh sistem menggunakan
algoritma G-Means, yaitu pemodelan cluster dengan memperhitungkan kenormalan distribusi dari tiap anggota cluster terhadap pusatnya masing-masing.
Dari situ, dapat diketahui berapa jumlah cluster yang optimum. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
Normalitas distribusi tiap cluster akan dihitung dengan menggunakan test statistik, dimana akan digunakan uji Anderson-Darling untuk menentukan apakah
cluster sudah terdistribusi normal atau belum. Apabila suatu cluster belum terdistribusi normal, maka suatu cluster akan dipecah menjadi dua, dan seterusnya
hingga terdistribusi normal. Alur subsistem ini ditunjukkan dalam gambar berikut ini :
Input dokumen karya ilmiah
Operasi tokenizing
Operasi stopword
Operasi stemming
Penghitungan tf, df dan w
Pembangunan term-document matrix Implementasi G-Means untuk pemodelan
cluster
Pengklusteran Dokumen
Simpan data cluster dan membernya, serta centroidnya
Feature selection
Gambar 3.1. Alur proses pengklusteran dokumen
21
3.1.1.1.1. Clustering dengan G-Means
Penggunaan algoritma G-Means serta parameter-parameter yang digunakan dalam penelitian ini adalah sebagai berikut :
1. Ambil suatu subset X Subset X pada saat ini adalah seluruh dataset yang ada. Dataset ini
dianggap sebagai satu cluster. Karena hanya terdapat satu cluster saja, centroid dari cluster ini adalah rerata dari tiap atribut dari dataset tersebut.
2. Pilih level signifikan α untuk uji. Level signifikan
α dalam penelitian ini diinisalisasi dengan nilai 0.05. Nilai ini nantinya akan dibandingkan dengan p-value dari hasil penghitungan
uji statistik Anderson – Darling.
3. Dari pusat cluster centroid yang dibentuk pada point 1 tadi, ambil dua buah “anak” pusat cluster, dinotasikan dengan c1 dan c2. Caranya dengan
menggunakan rumus pada
Persamaan 2.1
.
4. Jalankan K-Means pada X dengan dua centroid tersebut c1 dan c2. K-Means dilakukan pada cluster yang diobservasi. Parameter jumlah
cluster k memiliki nilai 2, dan seed untuk centroid awal adalah c1 dan c2. Kriteria penghentian iterasi dalam tahap ini adalah sebagai berikut :
a. Jumlah iterasi telah melewati batas iterasi yang ditentukan, yaitu 1000 kali iterasi, atau,
b. Salah satu cluster kehilangan seluruh anggotanya empty cluster, atau, c. Cluster sudah konvergen, ditandai dengan centroid dan anggota cluster
tidak mengalami perubahan. Dengan kata lain, memiliki nilai dan jumlah yang sama dengan iterasi sebelumnya.
5. Hitung nilai vektor v dengan v = c1 – c2. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22
6. Proyeksikan X ke v, menjadi X’, dengan rumus pada
Persamaan 2.8
. 7. Normalisasi X` sehingga memiliki rerata 0 dan varian 1.
Normalisasi untuk mengubah X’ sehingga memiliki rerata 0 dan varian 1 dilakukan dengan menggunakan normalisasi z-score, yaitu normalisasi dengan
rumus berikut ini :
Persamaan 3.1. Rumus penghitungan normalisasi z-score pada suatu data
Dimana, - s
i
= nilai normalisasi di titik data ke i dalam suatu atribut - x
i
= nilai awal data di titik data ke i dalam suatu atribut - µ = nilai atribut dari atribut dimana terdapat data i
- = nilai standar deviasi dari atribut dimana terdapat data i
8. Hitung z
i
dengan rumus z
i
= Fx
i
. Penghitungan Cummulative Distribution Function CDF menggunakan
java library yang dikhususkan untuk statistika, yaitu jdistlib.
9. Hitung . Apabila
berada pada daerah non-kritis, maka H diterima. Sebaliknya apabila
berada di dalam daerah kritis, maka H
1
diterima dan pusat cluster yang baru adalah c1 dan c2. Penghitungan p-value akan digunakan untuk mengetahui apakah nilai
berada pada daerah kritis atau non-kritis. Penghitungan p-value dilakukan dengan java library yang dikhususkan untuk statistika, yaitu jdistlib.
Apabila nilai p-value lebih besar sama dengan nilai α, maka H
diterima, yang artinya cluster tidak perlu dipecah menjadi dua cluster. Begitu pula
sebaliknya, maka H
1
diterima, yang artinya cluster perlu dipecah menjadi dua cluster.
23
3.1.1.2. Sub Sistem Pencarian Dokumen
Sub sistem pencarian dokumen berfungsi untuk mencari dokumen yang memiliki kemiripan atau relevan dengan query yang diberikan oleh pengguna
sistem. Query hanya akan dicocokkan dengan centroid tiap cluster dengan menggunakan operator boolean AND, dengan menggunakan
Persamaan 2.2
untuk menghitung skor. Cluster yang memiliki centroid dengan skor yang tertinggi
terhadap query pencarian user akan dicatat oleh sistem. Apabila tidak ada kecocokan dengan semua centroid, maka dicoba pencocokan dengan
menggunakan operator OR. Apabila sudah ditemukan cluster yang sesuai, dokumen yang berada dalam
cluster tersebut akan dibobot ulang oleh sistem menggunakan TF-IDF untuk kemudian ditampilkan urut ke pengguna berdasarkan bobot terhadap query yang
diberikan oleh pengguna. Jumlah dokumen untuk penghitungan IDF didasarkan pada jumlah dokumen yang berada pada cluster terpilih.
Aktor yang terlibat dalam sistem ini adalah User. User adalah aktor yang memiliki wewenang untuk melakukan pencarian dokumen dengan memberikan
input berupa query pencarian pada sistem. Selain itu, user memiliki wewenang untuk memulai proses clustering dokumen.
Alur subsistem ini ditampilkan dalam gambar berikut : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
Input query pencarian Operasi tokenizing
Operasi stopword
Operasi stemming Penghitungan tf, df, w
Pembangunan term-query matrix Pembobotan cluster terhadap kueri,
dengan membandingkan centroid terhadap kueri, dapat ditemukan bobot
yang paling besar cluster yg paling mirip dgn kueri
Load document id dari cluster yang paling mirip
Hitung ulang bobot document member cluster tadi terhadap kueri
Tampilkan hasil pencarian ke user
Pencarian
Gambar 3.2. Alur proses pencarian dokumen
Subsistem ini memiliki dua opsi untuk retrieval, yaitu retrieval berbasis cluster dan retrieval tanpa cluster. Retrieval berbasis cluster selanjutnya disebut
dengan Sistem Pemerolehan Informasi berbasis Cluster, sementara retrieval tanpa cluster disebut dengan Sistem Pemerolehan Informasi Konvensional.
Perbedaan kedua jenis sistem tersebut ditampilkan dalam gambar berikut ini : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI