Clustering dan Akurasi Pengolahan Data

pelajaran seminaris jurusan IPS di jurusan IPA. Hal ini dilakukan setara dengan penanganan kesalahan data. Pada tahap ini juga dimungkinkan untuk dilakukan normalisasi. Normalisasi yang digunakan adalah Z-Score. 4. Data reduction Pada tahap ini, data masuk pada tahap reduksi dimensionalitas dimensionality reduction. Metode reduksi dimensionalitas data bekerja dengan cara tertentu untuk menangkap karakteristik data dengan memetakan data dari dimensi awal ke dimensi yang baru yang relatif lebih kecil. Proses ini menghasilkan komponen utama principal compnent yang kemudian dapat dijadikan fitur yang baru yang mempunyai pengaruh yang besar pada data. fitur yang berpengaruh kecil atau bahkan tidak berpengaruh dapat dibuang. Untuk proses yang demikian dalam tulisan ini digunakan metode reduksi Principal Component Analysis PCA seperti yang telah diterangkan dan diberi contoh hasil pada bab II Landasan Teori di atas.

4.1.1.2 Clustering dan Akurasi

Pengelompokkan data yang didasarkan hanya pada informasi yang ditemukan dalam data obyek yang menggambarkan data tersebut dan hubungan di antaranya disebut analisis kelompok clustering analysis 38 . Hal ini dilakukan supaya data yang berhubungan dalam sebuah kelompok merupakan obyek yang mirip atau memiliki hubungan satu dengan yang lain atau dengan kata lain memiliki similaritas yang tinggi. Ini juga berarti obyek dalam satu kelompok tersebut berbeda atau tidak berhubungan dengan kelompok yang lain pula. Untuk mengetahui sejauh 38 Eko Prasetyo, “… Konsep Dan Aplikasi …”, op. cit. hal. 173. mana pengelompokan yang dilakukan adalah baik dapat dilakukan uji akurasi dari setiap proses pembentukan kelompok dengan internal evaluation. Di dalam tulisan ini, pengelompokan digunakan dengan agglomerative hierarchical clustering AHC. Setelah data melalui tahap preprocessing selanjutnya data diproses dengan menggunakan AHC. Data para seminaris sejumlah 137 dengan fitur 186 yang digunakan diproses dengan menggunakan AHC sehingga terbentuk kelompok-kelompok. Setiap proses pembentukan kelompok tersebut diuji dengan menggunakan sum of squares error SSE. Proses ini dilakukan dengan menggunakan sistem yang telah dibuat. Sistem yang dibentuk dapat melakukan proses AHC dalam tiga metode, yaitu single linkage, average linkage, dan complete linkage, dengan setiap metodenya menggunakan perhitungan jarak euclidean. Hasil setiap perhitungan ditampilkan dalam tabel, dendrogram, dan visualisasi pengelompokan supaya secara visual tergambar pengelompokan obyek dan jarak antar kelompoknya. Sejalan dengan proses AHC tersebut, SSE dihitung. Hasil perhitungan SSE setiap pembentukan kelompok, baik itu dengan metode single linkage, average linkage, maupun complete linkage ditampilkan dalam bentuk grafik dengan masing-masing nilai SSE-nya. Berdasarkan grafik yang dihasilkan dapat dilihat nilai SSE dari masing-masing pembentukan kelompok. Pembentukan kelompok yang memiliki nilai SSE rendah dapat dikatakan bahwa pengelompokan tersebut similaritas yang tinggi. Dengan kata lain, nilai SSE dari grafik yang dapat diambil adalah nilai ekstrim minimum dari kurva parabola pertama. Berikut ini adalah contoh hasil dari proses tersebut. 1. Single Linkage Gambar 4.1 Implementasi – Grafik SSE single linkage Proses pembentukan kelompok dengan menggunakan metode single linkage menunjukkan bahwa SSE terendah bernilai 50. SSE terendah ini didapat pada percobaan kedua menggunakan normalisasi dengan jumlah clustering 3. Dendrogram single linkage terendah ini adalah seperti tampak pada gambar 4.2. Gambar 4.2 Implementasi – Dendrogram single linkage nilai SSE terkecil 2. Average Linkage Gambar 4.3 Implementasi – Grafik SSE average linkage Dari gambar 4.3 dapat dilihat bahwa percobaan 8 dan 9 dengan menggunakan normalisasi memberikan nilai SSE terendah yang sama, yaitu 125. Pada percobaan ini kelompok yang terbentuk berjumlah 9 dan 10. Apabila dibutuhkan kelompok yang lebih sedikit dari 9, percobaan ketiga dengan normalisasi untuk pembentukan 4 kelompok dengan nilai SSE 130 dapat menjadi pilihan. Dendrogram average linkage pembentukan 4 kelompok adalah seperti tampak pada gambar 4.4 . Gambar 4.4 Implementasi – Dendrogram average linkage dengan 4 kelompok 3. Complete Linkage Gambar 4.5 Implementasi – Grafik SSE complete linkage Pembentuk kelompok dengan menggunakan metode complete linkage memberikan hasil seperti tampak pada gambar 4.5. Dari grafik tersebut dapat dilihat bahwa nilai SSE terendah di dapat dalam pembentukan kelompok berjumlah 5 dan 6. Masing-masing nilai SSE tersebut sama, yaitu 149. Adapun dendrogram dari nilai SSE terendah dalam metode complete linkage seperti yang tampak pada gambar di bawah ini. Gambar 4.6 Implementasi – Dendrogram complete linkage dengan 5 kelompok Gambar 4.7 Implementasi – Dendrogram complete linkage dengan 6 kelompok

4.1.2 User Interface