Keuntungan utama dari format data vektor adalah ketepatan dalam merepresentasikan fitur titik, batasan dan garis lurus. Hal ini sangat berguna untuk
analisa yang membutuhkan ketepatan posisi, misalnya pada basis data batas-batas katasder. Kelemahan data vektor yang utama adalah ketidakmampuannya dalam
mengakomodasi perubahan gradual Puntodewo, 2003.
2.8 K Means Clustering
Pendeteksian objek pada suatu citra memerlukan suatu proses segmentasi. Segmentasi akan membagi citra menjadi beberapa bagian atau objek, bagian yang menjadi hasil
dari segmentasi citra ini sangat bergantung pada apa yang diinginkan. Tujuan segmentasi yang ideal adalah mengidentifikasikan komponen dari suatu citra dan
menggolongkan piksel-piksel didalamnya ke komponen yang telah ditentukan. 2.8.1 Clustering
Clustering adalah membagi data ke dalam grup-grup yang mempunyai obyek yang karakteristiknya sama Berkhin dan Pavel. Garcia Molina dan Hector
menyatakan clustering adalah mengelompokkan item data ke dalam sejumlah kecil grup sedemikian sehingga masing-masing grup mempunyai sesuatu persamaan yang
esensial. Clustering memegang peranan penting dalam aplikasi data mining, misalnya
eksplorasi data ilmu pengetahuan, pengaksesan informasi dan text mining, aplikasi basis data spasial, dan analisis web. Clustering diterapkan dalam mesin pencari di
Internet. Web mesin pencari akan mencari ratusan dokumen yang cocok dengan kata kunci yang dimasukkan. Dokumen-dokumen tersebut dikelompokkan dalam cluster-
cluster sesuai dengan kata-kata yang digunakan. Tan, dkk. membagi clustering dalam dua kelompok, yaitu hierarchical and
partitional clustering. Partitional Clustering disebutkan sebagai pembagian obyek-
obyek data ke dalam kelompok yang tidak saling overlap sehingga setiap data berada tepat di satu cluster. Hierarchical clustering adalah sekelopok cluster yang bersarang
seperti sebuah pohon berjenjang hirarki. William membagi algoritma clustering ke dalam kelompok besar seperti
berikut:
Universitas Sumatera Utara
1. Partitioning algorithms: algoritma dalam kelompok ini membentuk bermacam
partisi dan kemudian mengevaluasinya dengan berdasarkan beberapa kriteria. 2.
Hierarchy algorithms: pembentukan dekomposisi hirarki dari sekumpulan data menggunakan beberapa kriteria.
3. Density-based: pembentukan cluster berdasarkan pada koneksi dan fungsi
densitas. 4.
Grid-based: pembentukan cluster berdasarkan pada struktur multiple-level granularity
5. Model-based: sebuah model dianggap sebagai hipotesa untuk masing-masing
cluster dan model yang baik dipilih diantara model hipotesa tersebut. 2.8.2 Algoritma k means clustering
Algoritma K-Means diperkenalkan oleh James B MacQueen pada tahun 1967 dalam proceedings of the 5 th berkeley symposium on Mathematical Statistics and
Probability Johnson Wichern, 1992. Algoritma K-Means adalah metode clustering berbasis jarak yang membagi
data ke dalam sejumlah cluster. Algoritma ini hanya bekerja pada atribut numerik. Dasar pengelompokan dalam metode ini adalah menempatkan objek
berdasarkan rata-rata mean klaster terdekat. Untuk itu digunakan Algoritma K- Means yang di dalamnya memuat aturan sebagai berikut :
1 Jumlah cluster perlu diinputkan.
2 Hanya memiliki atribut bertipe numerik.
Algoritma K-Means merupakan metode non hierarchial yang pada awalnya mengambil sebagian dari banyaknya komponen dari populasi untuk dijadikan pusat
cluster awal. Pada tahap ini pusat cluster dipilih secara acak dari sekumpulan populasi data. Berikutnya Kmeans menguji masing-masing komponen di dalam populasi data
dan menandai komponen tersebut ke salah satu pusat cluster yang telah didefinisikan tergantung dari jarak minimum antar komponen dengan tiap-tiap pusat cluster. Posisi
pusat cluster akan dihitung kembali sampai semua komponen data digolongkan ke dalam tiap-tiap pusat cluster dan terakhir akan terbentuk posisi pusat cluster baru.
Universitas Sumatera Utara
Algoritma K-Means pada dasarnya melakukan 2 proses yakni proses pendeteksian lokasi pusat tiap cluster dan proses pencarian anggota dari tiap-tiap cluster.
Algoritma K-Means, melakukan tiga langkah utama dalam melakukan pengelompokan :
1 Menentukan koordinat titik pusat untuk masing-masing klaster. Jumlah klaster K
sudah ditentukan sebelumnya, sehingga terdapat K koordinat titik pusat. Inisialisasi koordinat titik pusat dapat dilakukan secara sekuensial dengan
mengambil sejumlah data pertama sebagai titik pusat, atau secara acak random pada sembarang nomor urut data
2 Menghitung jarak setiap objek terhadap semua titik pusat klaster
3 Mengelompokkan objek berdasarkan jarak minimum atau jarak ke titik pusat
terdekat Langkah 1-3 di atas dilakukan dalam perulangan iterasi sampai tidak ditemukan lagi objek yang berpindah klaster akibat perhitungan kembali titik-
titik pusat klaster pada iterasi terakhir Secara sederhana algoritma K-Means dapat digambarkan dalam diagram alir pada
gambar 1.
Universitas Sumatera Utara
Start
Tentukan Jumlah
Klaster K
Tentukan asumsi titik pusat klaster
centroid
Hitung Jarak Objek Ke Centroid
Kelompokkan Objek berdasarkan jarak
minimum Adakah objek yang
berpindah? End
Gambar 2.1
. Diagram Alir algoritma K Means Clustering
Algoritma K- Means memerlukan 3 komponen yaitu: 1.
Jumlah Klaster K-Means merupakan bagian dari metode non-hirarki sehingga dalam metode ini
jumlah I harus ditentukan terlebih dahulu. Jumlah klaster I dapat ditentukan melalui pendekatan metode hirarki. Namun perlu diperhatikan bahwa tidak terdapat aturan
khusus dalam menentukan jumlah klaster I, terkadang jumlah klaster yang diinginkan tergantung pada subjektif seseorang.
2. Klaster Awal
Klaster awal yang dipilih berkaitan dengan penentuan pusat klaster awal sentroid awal. Dalam hal ini, terdapat beberapa pendapat dalam memilih klaster awal untuk
metode K-Means sebagai berikut:
Universitas Sumatera Utara
Berdasarkan Hartigan 1975, pemilihan klaster awal dapat ditentukan berdasarkan interval dari jumlah setiap observasi.
Berdasarkan Rencher 2002, pemilihan klaster awal dapat ditentukan melalui pendekatan salah satu metode hirarki.
Oleh karena adanya pemilihan klaster awal yang berbeda ini maka kemungkinan besar solusi klaster yang dihasil akan berbeda pula.
3. Ukuran Jarak
Dalam hal ini, ukuran jarak digunakan untuk menempatkan observasi ke dalam klaster berdasarkan sentrid terdekat. Ukuran jarak yang digunakan dalam metode K-Means
adalah jarak Euclid. Adapun algoritma K-means dalam pembentukan klaster sebagai berikut:
Misalkan diberikan matriks data X = {xij} berukuran dengan i=1,2,3,..n,
j=1,2,3,…p dan asumsikan jumlah klaster awal K 1.
Tentukan sentroid. Hitung jarak setiap objek ke setiap centroid dengan menggunakan jarak euclid
atau dapat ditulis sebagai berikut: √
Setiap objek disusun ke sentroid terdekat dan kumpulan objek tersebut akan membentuk klaster.
2. Tentukan sentroid baru dari klaster yang baru terbentuk, di mana sentroid
baru itu diperoleh dari rata-rata setiap objek yang terletak pada klaster yang sama.
3. Ulangi langkah 3, jika sentroid awal dan baru tidak sama.
Hasil dari proses clustering yang menggunakan Metode K-Means Clustering dapat digambarkan seperti di gambar 2.2.
Universitas Sumatera Utara
Gambar 2.2. Hasil dari proses clustering dengan menggunakan algoritma K-Means
Clustering. 2.8.3 Kelebihan dan Kelemahan algoritma K-means
Algoritma K-means dinilai cukup efisien, yang ditunjukkan dengan
kompleksitasnya Otkn, dengan catatan n adalah banyaknya obyek data, k adalah jumlah cluster yang dibentuk, dan t banyaknya iterasi. Biasanya, nilai k dan t jauh
lebih kecil daripada nilai n. Selain itu, dalam iterasinya, algoritma ini akan berhenti dalam kondisi optimum lokal William dan Graham.
Hal yang dianggap sebagai kelemahan algoritma ini adalah adanya keharusan menentukan banyaknya cluster yang akan dibentuk, hanya dapat digunakan dalam
data yang mean-nya dapat ditentukan, dan tidak mampu menangani data yang mempunyai penyimpangan-penyimpangan noisy data dan outlier. Berkhin
menyebutkan beberapa kelemahan algoritma K-means adalah: 1 sangat bergantung pada pemilihan nilai awal centroid, 2 tidak jelas berapa banyak cluster k yang
terbaik, 3 hanya bekerja pada atribut numerik.
Universitas Sumatera Utara
Memperhatikan input dalam algoritma K-Means, dapat dikatakan bahwa algoritma ini hanya mengolah data kuantitatif. Hal tersebut juga diungkapkan oleh
Berkhin , bahwa algoritma K-means hanya dapat mengolah atribut numerik. Sebuah basis data, tidak mungkin hanya berisi satu macam type data saja, akan
tetapi beragam type. William menyatakan sebuah basis data dapat berisi data-data dengan type sebagai berikut: symmetric binary, asymmetric binary, nominal, ordinal,
interval dan ratio. Sedangkan Pal dan Mitra menyebutkan sebuah basis data dapat berisi data-data teks, simbol, gambar dan suaraPal, Shankar K dan Mitra.
2.9 Median Filtering Konsep dasarnya adalah dengan menemukan nilai pixel yang memiliki nilai intensitas
dari suatu pixel yang berbeda dengan nilai pixel yang ada di daerah sekitarnya, dan menggantinya dengan nilai yang lebih cocok. Davies, 1990.
Sesuai dengan namanya, median filter merupakan suatu metode yang menitik beratkan pada nilai median atau nilai tengah dari jumlah total nilai keseluruhan pixel
yang ada di sekelilingnya. Dimisalkan terdapat data A=1, B=5, C=2, D=9, dan E=7, maka median filter akan mencari nilai tengah dari semua data yang telah diurutkan
terlebih dahulu dari yang paling kecil hingga pada data yang paling besar dan kemudian diambil nilai tengahnya 1, 2, 5, 7, 9. Median dari deret tersebut adalah 5.
Pemrosesan median filter ini dilakukan dengan cara mencari nilai tengah dari nilai pixel tetangga yang mempengaruhi pixel tengah. Teknik ini bekerja dengan cara
mengisi nilai dari setiap pixel dengan nilai median tetangganya. Proses pemilihan median ini diawali dengan terlebih dahulu mengurutkan nilai-nilai pixel tetangga, baru
kemudian dipilih nilai tengahnya Gambar 2.3.
Gambar 2.3. Block Diagram Alur Kerja Median Filter
Pengurutan akan menghasilkan nilai dari yang terkecil sampai nilai yang terbesar
Universitas Sumatera Utara
sesuai dengan P1 P2 P3 Pn, sedangkan nilai m sesuai dengan rumus dimana n bernilai ganjil.
Gambar 2.4. Contoh Penerapan Median Filter
Hasil dari pengurutan data pada contoh Gambar 2.4 didapatkan urutan 25, 33, 38, 45, 45, 45, 54, 57, 98. Dari hasil ini akan diambil nilai median yang memiliki nilai 45.
Universitas Sumatera Utara
Tabel 2.2 Penelitian Terdahulu
No. Peneliti
Tahun Metode
yang Digunakan
Keterangan
1
Beril Sirmacek Cem
Unsalan 2000
SIFT Keypoints
dan GraphTheory
Melakukan deteksi objek bangunan pada citra satelit
dengan menghubungkan
verteks- verteks
pada objek
yang diduga
bangunan.
2
Yi Hui Lu, John
C. Trinder,
and Kurt Kubik
2006 Dempster-Shafer
Algorithm Memanfaatkan Dempster-
Shafer pada tiga buah sumber data citra yaitu
citra LevelSet, DSM dan citra
yang telah
di segmentasi,
kemudian menentukan
daerah bangunan dengan fungsi
statistik.
3
H. Gokhan
Akcay, Selim Aksoy
2008 DIRECTIONAL
SPATIAL CONSTRAINTS
Memanfaatkan bayangan bangunan serta sudut sinar
matahari, kemudian
bangunan di
tentukan berdasarkan minimum
spanning trees.
Universitas Sumatera Utara
BAB 3
ANALISIS DAN PERANCANGAN SISTEM
Bab ini membahas analisis metode K-Means Clustering pada sistem dan membahas tahap-tahap yang dilakukan pada sistem yang akan dibangun.
3.1 Data Yang Digunakan