Konsep Pengelompokan Dokumen 1. Clustering dalam Pemerolehan Informasi

17 ∑ [ Persamaan 2.6. Rumus Uji Statistik Anderson Darling X adalah subset dengan pusat cluster C. Tiap instance dari X diwakili dengan x i , x i+1, …, x n-1, x n . Sementara itu, z i adalah hasil dari fungsi distribusi kumulatif untuk distribusi normal baku terhadap nilai x i . Untuk melakukan uji statistik diatas, dilakukan langkah seperti berikut ini Hamerly et al., 2004 : 1. Ambil suatu subset X 2. Pilih level signifikan α untuk uji. 3. Dari pusat cluster tersebut, ambil dua buah “anak” pusat cluster, dinotasikan dengan c1 dan c2. Caranya dengan menggunakan rumus c±m, dimana m adalah random atau dengan rumus berikut : √ Persamaan 2.7. Rumus mencari anak cluster Hamerly et al., 2004 Dimana, m = vector anak s = eigenvalue terbesar yang didapat dari data λ = principal component utama, yaitu eigenvector dengan eigenvalue terbesar 4. Jalankan K-Means pada X dengan dua centroid tersebut c1 dan c2. 5. Hitung nilai vektor v dengan v = c1 – c2. 6. Proyeksikan X ke v, menjadi X’, dengan rumus sebagai berikut ‖ ‖ Persamaan 2.8. Rumus proyeksi vektor-vektor di X ke vektor v 7. Normalisasi X` sehingga memiliki rerata 0 dan varian 1. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 18 8. Hitung z i dengan rumus z i = Fx i . 9. Hitung . Apabila berada pada daerah non-kritis, maka H diterima. Sebaliknya apabila berada di dalam daerah kritis, maka H 1 diterima dan pusat cluster yang baru adalah c1 dan c2. 2.2.5. Evaluasi Cluster 2.2.5.1. Purity Purity adalah salah satu pengukuran dalam evaluasi cluster. Untuk menghitung purity, tiap cluster diberikan label kelas berdasarkan label yang paling sering muncul dalam cluster tersebut, dan kemudian akurasi cluster dihitung dengan jumlah data yang benar dibagi dengan banyak data Chen, 2010. Rentang purity dari 0 hingga 1. Semakin besar nilai purity, semakin baik cluster tersebut. Formula purity adalah sebagai berikut Chen, 2010 : ∑ | | Persamaan 2.9. Rumus penghitungan nilai purity 19

BAB III ANALISIS DAN PERANCANGAN SISTEM

3.1. Analisis Sistem 3.1.1. Deskripsi Sistem Sistem yang akan dikembangkan dalam penelitian ini adalah sebuah sistem pengelompokan koleksi dan pencarian dokumen berdasarkan input query pengguna. Sistem ini terdiri dari dua sub sistem, yaitu sub sistem pengelompokan dokumen dan sub sistem pencarian dokumen.

3.1.1.1. Sub Sistem Pengelompokan Dokumen

Sub sistem pengelompokan dokumen bertindak sebagai modul clustering dokumen. Nantinya koleksi dokumen yang diunggah oleh User ke dalam sistem mula-mula diproses oleh subsistem ini. Proses yang terjadi adalah tokenisasi, eliminasi stopword, stemming, lalu dilanjutkan dengan pembangunan term- document matrix. Dalam penelitian ini, kolom dalam term-document matrix akan merepresentasikan term, selanjutnya disebut atribut atau feature. Sementara baris dalam term-document matrix akan merepresentasikan dokumen. Dari term- document matrix inilah akan dilakukan pengelompokan koleksi. Jumlah cluster optimum akan dicari secara otomatis oleh sistem menggunakan algoritma G-Means, yaitu pemodelan cluster dengan memperhitungkan kenormalan distribusi dari tiap anggota cluster terhadap pusatnya masing-masing. Dari situ, dapat diketahui berapa jumlah cluster yang optimum. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 20 Normalitas distribusi tiap cluster akan dihitung dengan menggunakan test statistik, dimana akan digunakan uji Anderson-Darling untuk menentukan apakah cluster sudah terdistribusi normal atau belum. Apabila suatu cluster belum terdistribusi normal, maka suatu cluster akan dipecah menjadi dua, dan seterusnya hingga terdistribusi normal. Alur subsistem ini ditunjukkan dalam gambar berikut ini : Input dokumen karya ilmiah Operasi tokenizing Operasi stopword Operasi stemming Penghitungan tf, df dan w Pembangunan term-document matrix Implementasi G-Means untuk pemodelan cluster Pengklusteran Dokumen Simpan data cluster dan membernya, serta centroidnya Feature selection Gambar 3.1. Alur proses pengklusteran dokumen 21

3.1.1.1.1. Clustering dengan G-Means

Penggunaan algoritma G-Means serta parameter-parameter yang digunakan dalam penelitian ini adalah sebagai berikut : 1. Ambil suatu subset X Subset X pada saat ini adalah seluruh dataset yang ada. Dataset ini dianggap sebagai satu cluster. Karena hanya terdapat satu cluster saja, centroid dari cluster ini adalah rerata dari tiap atribut dari dataset tersebut. 2. Pilih level signifikan α untuk uji. Level signifikan α dalam penelitian ini diinisalisasi dengan nilai 0.05. Nilai ini nantinya akan dibandingkan dengan p-value dari hasil penghitungan uji statistik Anderson – Darling. 3. Dari pusat cluster centroid yang dibentuk pada point 1 tadi, ambil dua buah “anak” pusat cluster, dinotasikan dengan c1 dan c2. Caranya dengan menggunakan rumus pada Persamaan 2.1 . 4. Jalankan K-Means pada X dengan dua centroid tersebut c1 dan c2. K-Means dilakukan pada cluster yang diobservasi. Parameter jumlah cluster k memiliki nilai 2, dan seed untuk centroid awal adalah c1 dan c2. Kriteria penghentian iterasi dalam tahap ini adalah sebagai berikut : a. Jumlah iterasi telah melewati batas iterasi yang ditentukan, yaitu 1000 kali iterasi, atau, b. Salah satu cluster kehilangan seluruh anggotanya empty cluster, atau, c. Cluster sudah konvergen, ditandai dengan centroid dan anggota cluster tidak mengalami perubahan. Dengan kata lain, memiliki nilai dan jumlah yang sama dengan iterasi sebelumnya. 5. Hitung nilai vektor v dengan v = c1 – c2. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 22 6. Proyeksikan X ke v, menjadi X’, dengan rumus pada Persamaan 2.8 . 7. Normalisasi X` sehingga memiliki rerata 0 dan varian 1. Normalisasi untuk mengubah X’ sehingga memiliki rerata 0 dan varian 1 dilakukan dengan menggunakan normalisasi z-score, yaitu normalisasi dengan rumus berikut ini : Persamaan 3.1. Rumus penghitungan normalisasi z-score pada suatu data Dimana, - s i = nilai normalisasi di titik data ke i dalam suatu atribut - x i = nilai awal data di titik data ke i dalam suatu atribut - µ = nilai atribut dari atribut dimana terdapat data i - = nilai standar deviasi dari atribut dimana terdapat data i 8. Hitung z i dengan rumus z i = Fx i . Penghitungan Cummulative Distribution Function CDF menggunakan java library yang dikhususkan untuk statistika, yaitu jdistlib. 9. Hitung . Apabila berada pada daerah non-kritis, maka H diterima. Sebaliknya apabila berada di dalam daerah kritis, maka H 1 diterima dan pusat cluster yang baru adalah c1 dan c2. Penghitungan p-value akan digunakan untuk mengetahui apakah nilai berada pada daerah kritis atau non-kritis. Penghitungan p-value dilakukan dengan java library yang dikhususkan untuk statistika, yaitu jdistlib. Apabila nilai p-value lebih besar sama dengan nilai α, maka H diterima, yang artinya cluster tidak perlu dipecah menjadi dua cluster. Begitu pula sebaliknya, maka H 1 diterima, yang artinya cluster perlu dipecah menjadi dua cluster. 23

3.1.1.2. Sub Sistem Pencarian Dokumen

Sub sistem pencarian dokumen berfungsi untuk mencari dokumen yang memiliki kemiripan atau relevan dengan query yang diberikan oleh pengguna sistem. Query hanya akan dicocokkan dengan centroid tiap cluster dengan menggunakan operator boolean AND, dengan menggunakan Persamaan 2.2 untuk menghitung skor. Cluster yang memiliki centroid dengan skor yang tertinggi terhadap query pencarian user akan dicatat oleh sistem. Apabila tidak ada kecocokan dengan semua centroid, maka dicoba pencocokan dengan menggunakan operator OR. Apabila sudah ditemukan cluster yang sesuai, dokumen yang berada dalam cluster tersebut akan dibobot ulang oleh sistem menggunakan TF-IDF untuk kemudian ditampilkan urut ke pengguna berdasarkan bobot terhadap query yang diberikan oleh pengguna. Jumlah dokumen untuk penghitungan IDF didasarkan pada jumlah dokumen yang berada pada cluster terpilih. Aktor yang terlibat dalam sistem ini adalah User. User adalah aktor yang memiliki wewenang untuk melakukan pencarian dokumen dengan memberikan input berupa query pencarian pada sistem. Selain itu, user memiliki wewenang untuk memulai proses clustering dokumen. Alur subsistem ini ditampilkan dalam gambar berikut : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 24 Input query pencarian Operasi tokenizing Operasi stopword Operasi stemming Penghitungan tf, df, w Pembangunan term-query matrix Pembobotan cluster terhadap kueri, dengan membandingkan centroid terhadap kueri, dapat ditemukan bobot yang paling besar cluster yg paling mirip dgn kueri Load document id dari cluster yang paling mirip Hitung ulang bobot document member cluster tadi terhadap kueri Tampilkan hasil pencarian ke user Pencarian Gambar 3.2. Alur proses pencarian dokumen Subsistem ini memiliki dua opsi untuk retrieval, yaitu retrieval berbasis cluster dan retrieval tanpa cluster. Retrieval berbasis cluster selanjutnya disebut dengan Sistem Pemerolehan Informasi berbasis Cluster, sementara retrieval tanpa cluster disebut dengan Sistem Pemerolehan Informasi Konvensional. Perbedaan kedua jenis sistem tersebut ditampilkan dalam gambar berikut ini : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI