K Means Clustering Kesimpulan dan Saran

Keuntungan utama dari format data vektor adalah ketepatan dalam merepresentasikan fitur titik, batasan dan garis lurus. Hal ini sangat berguna untuk analisa yang membutuhkan ketepatan posisi, misalnya pada basis data batas-batas katasder. Kelemahan data vektor yang utama adalah ketidakmampuannya dalam mengakomodasi perubahan gradual Puntodewo, 2003.

2.8 K Means Clustering

Pendeteksian objek pada suatu citra memerlukan suatu proses segmentasi. Segmentasi akan membagi citra menjadi beberapa bagian atau objek, bagian yang menjadi hasil dari segmentasi citra ini sangat bergantung pada apa yang diinginkan. Tujuan segmentasi yang ideal adalah mengidentifikasikan komponen dari suatu citra dan menggolongkan piksel-piksel didalamnya ke komponen yang telah ditentukan. 2.8.1 Clustering Clustering adalah membagi data ke dalam grup-grup yang mempunyai obyek yang karakteristiknya sama Berkhin dan Pavel. Garcia Molina dan Hector menyatakan clustering adalah mengelompokkan item data ke dalam sejumlah kecil grup sedemikian sehingga masing-masing grup mempunyai sesuatu persamaan yang esensial. Clustering memegang peranan penting dalam aplikasi data mining, misalnya eksplorasi data ilmu pengetahuan, pengaksesan informasi dan text mining, aplikasi basis data spasial, dan analisis web. Clustering diterapkan dalam mesin pencari di Internet. Web mesin pencari akan mencari ratusan dokumen yang cocok dengan kata kunci yang dimasukkan. Dokumen-dokumen tersebut dikelompokkan dalam cluster- cluster sesuai dengan kata-kata yang digunakan. Tan, dkk. membagi clustering dalam dua kelompok, yaitu hierarchical and partitional clustering. Partitional Clustering disebutkan sebagai pembagian obyek- obyek data ke dalam kelompok yang tidak saling overlap sehingga setiap data berada tepat di satu cluster. Hierarchical clustering adalah sekelopok cluster yang bersarang seperti sebuah pohon berjenjang hirarki. William membagi algoritma clustering ke dalam kelompok besar seperti berikut: Universitas Sumatera Utara 1. Partitioning algorithms: algoritma dalam kelompok ini membentuk bermacam partisi dan kemudian mengevaluasinya dengan berdasarkan beberapa kriteria. 2. Hierarchy algorithms: pembentukan dekomposisi hirarki dari sekumpulan data menggunakan beberapa kriteria. 3. Density-based: pembentukan cluster berdasarkan pada koneksi dan fungsi densitas. 4. Grid-based: pembentukan cluster berdasarkan pada struktur multiple-level granularity 5. Model-based: sebuah model dianggap sebagai hipotesa untuk masing-masing cluster dan model yang baik dipilih diantara model hipotesa tersebut. 2.8.2 Algoritma k means clustering Algoritma K-Means diperkenalkan oleh James B MacQueen pada tahun 1967 dalam proceedings of the 5 th berkeley symposium on Mathematical Statistics and Probability Johnson Wichern, 1992. Algoritma K-Means adalah metode clustering berbasis jarak yang membagi data ke dalam sejumlah cluster. Algoritma ini hanya bekerja pada atribut numerik. Dasar pengelompokan dalam metode ini adalah menempatkan objek berdasarkan rata-rata mean klaster terdekat. Untuk itu digunakan Algoritma K- Means yang di dalamnya memuat aturan sebagai berikut : 1 Jumlah cluster perlu diinputkan. 2 Hanya memiliki atribut bertipe numerik. Algoritma K-Means merupakan metode non hierarchial yang pada awalnya mengambil sebagian dari banyaknya komponen dari populasi untuk dijadikan pusat cluster awal. Pada tahap ini pusat cluster dipilih secara acak dari sekumpulan populasi data. Berikutnya Kmeans menguji masing-masing komponen di dalam populasi data dan menandai komponen tersebut ke salah satu pusat cluster yang telah didefinisikan tergantung dari jarak minimum antar komponen dengan tiap-tiap pusat cluster. Posisi pusat cluster akan dihitung kembali sampai semua komponen data digolongkan ke dalam tiap-tiap pusat cluster dan terakhir akan terbentuk posisi pusat cluster baru. Universitas Sumatera Utara Algoritma K-Means pada dasarnya melakukan 2 proses yakni proses pendeteksian lokasi pusat tiap cluster dan proses pencarian anggota dari tiap-tiap cluster. Algoritma K-Means, melakukan tiga langkah utama dalam melakukan pengelompokan : 1 Menentukan koordinat titik pusat untuk masing-masing klaster. Jumlah klaster K sudah ditentukan sebelumnya, sehingga terdapat K koordinat titik pusat. Inisialisasi koordinat titik pusat dapat dilakukan secara sekuensial dengan mengambil sejumlah data pertama sebagai titik pusat, atau secara acak random pada sembarang nomor urut data 2 Menghitung jarak setiap objek terhadap semua titik pusat klaster 3 Mengelompokkan objek berdasarkan jarak minimum atau jarak ke titik pusat terdekat Langkah 1-3 di atas dilakukan dalam perulangan iterasi sampai tidak ditemukan lagi objek yang berpindah klaster akibat perhitungan kembali titik- titik pusat klaster pada iterasi terakhir Secara sederhana algoritma K-Means dapat digambarkan dalam diagram alir pada gambar 1. Universitas Sumatera Utara Start Tentukan Jumlah Klaster K Tentukan asumsi titik pusat klaster centroid Hitung Jarak Objek Ke Centroid Kelompokkan Objek berdasarkan jarak minimum Adakah objek yang berpindah? End Gambar 2.1 . Diagram Alir algoritma K Means Clustering Algoritma K- Means memerlukan 3 komponen yaitu: 1. Jumlah Klaster K-Means merupakan bagian dari metode non-hirarki sehingga dalam metode ini jumlah I harus ditentukan terlebih dahulu. Jumlah klaster I dapat ditentukan melalui pendekatan metode hirarki. Namun perlu diperhatikan bahwa tidak terdapat aturan khusus dalam menentukan jumlah klaster I, terkadang jumlah klaster yang diinginkan tergantung pada subjektif seseorang. 2. Klaster Awal Klaster awal yang dipilih berkaitan dengan penentuan pusat klaster awal sentroid awal. Dalam hal ini, terdapat beberapa pendapat dalam memilih klaster awal untuk metode K-Means sebagai berikut: Universitas Sumatera Utara  Berdasarkan Hartigan 1975, pemilihan klaster awal dapat ditentukan berdasarkan interval dari jumlah setiap observasi.  Berdasarkan Rencher 2002, pemilihan klaster awal dapat ditentukan melalui pendekatan salah satu metode hirarki. Oleh karena adanya pemilihan klaster awal yang berbeda ini maka kemungkinan besar solusi klaster yang dihasil akan berbeda pula. 3. Ukuran Jarak Dalam hal ini, ukuran jarak digunakan untuk menempatkan observasi ke dalam klaster berdasarkan sentrid terdekat. Ukuran jarak yang digunakan dalam metode K-Means adalah jarak Euclid. Adapun algoritma K-means dalam pembentukan klaster sebagai berikut: Misalkan diberikan matriks data X = {xij} berukuran dengan i=1,2,3,..n, j=1,2,3,…p dan asumsikan jumlah klaster awal K 1. Tentukan sentroid. Hitung jarak setiap objek ke setiap centroid dengan menggunakan jarak euclid atau dapat ditulis sebagai berikut: √ Setiap objek disusun ke sentroid terdekat dan kumpulan objek tersebut akan membentuk klaster. 2. Tentukan sentroid baru dari klaster yang baru terbentuk, di mana sentroid baru itu diperoleh dari rata-rata setiap objek yang terletak pada klaster yang sama. 3. Ulangi langkah 3, jika sentroid awal dan baru tidak sama. Hasil dari proses clustering yang menggunakan Metode K-Means Clustering dapat digambarkan seperti di gambar 2.2. Universitas Sumatera Utara Gambar 2.2. Hasil dari proses clustering dengan menggunakan algoritma K-Means Clustering. 2.8.3 Kelebihan dan Kelemahan algoritma K-means Algoritma K-means dinilai cukup efisien, yang ditunjukkan dengan kompleksitasnya Otkn, dengan catatan n adalah banyaknya obyek data, k adalah jumlah cluster yang dibentuk, dan t banyaknya iterasi. Biasanya, nilai k dan t jauh lebih kecil daripada nilai n. Selain itu, dalam iterasinya, algoritma ini akan berhenti dalam kondisi optimum lokal William dan Graham. Hal yang dianggap sebagai kelemahan algoritma ini adalah adanya keharusan menentukan banyaknya cluster yang akan dibentuk, hanya dapat digunakan dalam data yang mean-nya dapat ditentukan, dan tidak mampu menangani data yang mempunyai penyimpangan-penyimpangan noisy data dan outlier. Berkhin menyebutkan beberapa kelemahan algoritma K-means adalah: 1 sangat bergantung pada pemilihan nilai awal centroid, 2 tidak jelas berapa banyak cluster k yang terbaik, 3 hanya bekerja pada atribut numerik. Universitas Sumatera Utara Memperhatikan input dalam algoritma K-Means, dapat dikatakan bahwa algoritma ini hanya mengolah data kuantitatif. Hal tersebut juga diungkapkan oleh Berkhin , bahwa algoritma K-means hanya dapat mengolah atribut numerik. Sebuah basis data, tidak mungkin hanya berisi satu macam type data saja, akan tetapi beragam type. William menyatakan sebuah basis data dapat berisi data-data dengan type sebagai berikut: symmetric binary, asymmetric binary, nominal, ordinal, interval dan ratio. Sedangkan Pal dan Mitra menyebutkan sebuah basis data dapat berisi data-data teks, simbol, gambar dan suaraPal, Shankar K dan Mitra. 2.9 Median Filtering Konsep dasarnya adalah dengan menemukan nilai pixel yang memiliki nilai intensitas dari suatu pixel yang berbeda dengan nilai pixel yang ada di daerah sekitarnya, dan menggantinya dengan nilai yang lebih cocok. Davies, 1990. Sesuai dengan namanya, median filter merupakan suatu metode yang menitik beratkan pada nilai median atau nilai tengah dari jumlah total nilai keseluruhan pixel yang ada di sekelilingnya. Dimisalkan terdapat data A=1, B=5, C=2, D=9, dan E=7, maka median filter akan mencari nilai tengah dari semua data yang telah diurutkan terlebih dahulu dari yang paling kecil hingga pada data yang paling besar dan kemudian diambil nilai tengahnya 1, 2, 5, 7, 9. Median dari deret tersebut adalah 5. Pemrosesan median filter ini dilakukan dengan cara mencari nilai tengah dari nilai pixel tetangga yang mempengaruhi pixel tengah. Teknik ini bekerja dengan cara mengisi nilai dari setiap pixel dengan nilai median tetangganya. Proses pemilihan median ini diawali dengan terlebih dahulu mengurutkan nilai-nilai pixel tetangga, baru kemudian dipilih nilai tengahnya Gambar 2.3. Gambar 2.3. Block Diagram Alur Kerja Median Filter Pengurutan akan menghasilkan nilai dari yang terkecil sampai nilai yang terbesar Universitas Sumatera Utara sesuai dengan P1 P2 P3 Pn, sedangkan nilai m sesuai dengan rumus dimana n bernilai ganjil. Gambar 2.4. Contoh Penerapan Median Filter Hasil dari pengurutan data pada contoh Gambar 2.4 didapatkan urutan 25, 33, 38, 45, 45, 45, 54, 57, 98. Dari hasil ini akan diambil nilai median yang memiliki nilai 45. Universitas Sumatera Utara Tabel 2.2 Penelitian Terdahulu No. Peneliti Tahun Metode yang Digunakan Keterangan 1 Beril Sirmacek Cem Unsalan 2000 SIFT Keypoints dan GraphTheory Melakukan deteksi objek bangunan pada citra satelit dengan menghubungkan verteks- verteks pada objek yang diduga bangunan. 2 Yi Hui Lu, John C. Trinder, and Kurt Kubik 2006 Dempster-Shafer Algorithm Memanfaatkan Dempster- Shafer pada tiga buah sumber data citra yaitu citra LevelSet, DSM dan citra yang telah di segmentasi, kemudian menentukan daerah bangunan dengan fungsi statistik. 3 H. Gokhan Akcay, Selim Aksoy 2008 DIRECTIONAL SPATIAL CONSTRAINTS Memanfaatkan bayangan bangunan serta sudut sinar matahari, kemudian bangunan di tentukan berdasarkan minimum spanning trees. Universitas Sumatera Utara BAB 3 ANALISIS DAN PERANCANGAN SISTEM Bab ini membahas analisis metode K-Means Clustering pada sistem dan membahas tahap-tahap yang dilakukan pada sistem yang akan dibangun.

3.1 Data Yang Digunakan