Clustering Mobilitas Masyarakat Berdasarkan Moda Transportasi Menggunakan Metode K-Means
Vol. 2, No. 7, Juli 2018, hlm. 2459-2464 http://j-ptiik.ub.ac.id
Clustering Mobilitas Masyarakat Berdasarkan Moda Transportasi
Menggunakan Metode K-Means
1 2 3 Humam Aziz Romdhoni , M. Tanzil Furqon , Sigit AdinugrohoProgram Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya 1 2 3 Email: h.azizromdhoni@gmail.com, m.tanzil.furqon@ub.ac.id, sigit.adinu@ub.ac.id
Abstrak
Mobilitas masyarakat adalah perpindahan masyarakat dari satu tempat ke tempat lain. Mobilitas masyarakat merupakan topik yang patut untuk diteliti. Karena dengan mengetahui mobilitas masyarakat kita dapat mengetahui pola rute yang dilalui, moda transportasi yang dipilih, lama waktu perjalanan, dan lain-lain. Di era modern ini, data lintasan perpindahan seorang individu dapat diketahui melalui GPS (Global Positioning System). Data-data GPS yang diperoleh tersebut dapat diolah menjadi informasi yang berguna, seperti moda transportasi apa saja yang digunakan oleh setiap individu. Untuk melakukan pengolahan data tersebut dapat digunakan salah satu metode data mining, yaitu clustering. Clustering dipilih karena data GPS untuk setiap moda transportasi dianggap mempunyai karakteristik yang hampir sama, sehingga metode pengambilan informasi yang paling tepat adalah dengan cara dikelompokkan. Salah satu metode clustering yang populer adalah k-means. Pada penelitian ini diketahui bahwa hasil
cluster dengan metode k-means memiliki kualitas sedang sampai baik pada nilai k mendekati jumlah
jenis moda transportasi dilihat dari nilai silhouette coefficient. Akan tetapi dari hasil pengujian ketepatan, metode k-means menunjukkan persentase yang baik yaitu sebesar 90%.
Kata kunci: clustering, k-means, lintasan
Abstract
Peoples mobility is the movement of people from one place to another. Peoples mobility is a worthy
topic to research. Because by knowing the mobility of society we can know the pattern of the route
traversed, the chosen transportation mode, the duration of travel, and others. In this modern era, moving
trajectory data of an individual can be known through GPS (Global Positioning System). GPS data
obtained can be processed into useful information, such as what each mode of transportation used by
each individual. To perform this data processing, we can use one method of data mining, which name
is clustering. Clustering is chosen because GPS data for each mode of transport is considered to have
almost the same characteristics, so the most appropriate method of information retrieval is by grouping.
One of the popular clustering methods is k-means. In this research we can see that the cluster with k-
means method has medium to high quality when k value close to quantity of transportation mode seen
from the value of silhouette coefficient. From the results of accuracy testing, k-means method shows a
good percentage that is 90%.Keywords: clustering, k-means, trajectory
dapat diketahui melalui GPS. Salah satu proyek 1.
PENDAHULUAN yang mengumpulkan data lintasan GPS adalah Microsoft GeoLife (Zheng, 2007). Proyek ini
Mobilitas masyarakat adalah perpindahan merupakan jejaring sosial berbasis lokasi. Data- masyarakat dari satu tempat ke tempat lain. data GPS yang diperoleh tersebut dapat diolah
Mobilitas masyarakat merupakan topik yang menjadi informasi yang berguna, seperti moda patut untuk diteliti. Karena dengan mengetahui transportasi apa saja yang digunakan oleh setiap mobilitas masyarakat kita dapat mengetahui pola individu. Dengan mengetahui hal tersebut rute yang dilalui, moda transportasi yang dipilih, diharapkan masyarakat mempunyai banyak lama waktu perjalanan, dan lain-lain. Di era pilihan yang dapat digunakan sebagai modern ini, data perpindahan seorang individu pertimbangan untuk melakukan sebuah
Fakultas Ilmu Komputer Universitas Brawijaya
2459
(2-1) Keterangan:
2. Menentukan nilai secara acak untuk pusat cluster awal (centroid) sebanyak k.
mining , yaitu clustering. Clustering adalah
metode untuk menganalisa data dan bertujuan untuk mengelompokkan data yang mempunyai karakteristik yang sama. Clustering dipilih karena data GPS untuk setiap moda transportasi dianggap mempunyai karakteristik yang hampir sama, sehingga metode pengambilan informasi yang paling tepat adalah dengan cara dikelompokkan. Salah satu metode clustering yang populer adalah k-means. Metode ini memisahkan dan membagi objek ke daerah- daerah yang terpisah sesuai dengan banyaknya k yang telah ditentukan. K-means dipilih karena metode ini mudah untuk diimplementasikan serta mudah untuk diadaptasi.
: Data kriteria : Centroid pada cluster j 4. Mengelompokkan setiap data berdasarkan kedekatannya dengan centroid (jarak terkecil).
perjalanan. Untuk melakukan pengolahan data tersebut dapat digunakan salah satu metode data
2
centroid . Berikut ini adalah persamaan Eucledian Distance : ( , ) = √( − )
paling dekat antara setiap data dengan
centroid menggunakan rumus Eucledian Distance hingga ditemukan jarak yang
3. Menghitung jarak setiap data yang dimasukkan terhadap masing-masing
Langkah-langkah metode k-means: 1. Menentukan k sebagai jumlah cluster yang ingin dibentuk.
2. DATA DAN METODE CLUSTERING
Metode k-means merupakan salah satu metode non hirarkial clustering yang populer digunakan. Metode ini pertama kali diperkenalkan oleh MacQueen JB pada tahun 1976. Metode ini membagi atau memisahkan objek ke k kelompok atau golongan bagian yang terpisah. Metode k-means mengharuskan setiap objek masuk ke dalam golongan yang terbentuk, akan tetapi pada suatu tahapan langkah tertentu, objek yang telah menjadi anggota dalam satu golongan tadi akan berpindah ke golongan lain pada tahapan proses berikutnya.
(2-2) Keterangan:
1. Untuk setiap objek i, hitung rata-rata jarak objek i dengan seluruh objek yang berada dalam satu cluster. Maka akan didapatkan nilai rata-rata yang disebut dengan a i .
Ada tiga langkah yang perlu dilakukan untuk menghitung Silhoutte Coeffisient, yaitu:
separation .
dari setiap cluster yang dihasilkan dengan menggabungkan metode cohesion dan
Coeffisient . Metode ini akan menguji kualitas
Metode pengujian yang digunakan dalam penelitian ini adalah metode Silhoutte
2.3. Sillhouette Coefficient
7. Jika langkah 6 telah terpenuhi, maka nilai pusat cluster pada perulangan terakhir akan digunakan sebagai parameter untuk menentukan klasifikasi data.
( + 1): Centroid baru pada iterasi ke t + 1 : Banyaknya data pada cluster j 6. Melakukan perulangan dari langkah 2 hingga 5 sampai anggota tiap cluster tidak ada yang berubah.
∈
2.2. Metode K-means
1 ∑
( + 1) =
menggunakan rumus:
centroid yang baru didapatkan dari rata-rata cluster yang bersangkutan dengan
5. Memperbaharui nilai centroid. Nilai
2.1. Microsoft GeoLife GPS Trajectory
Data yang digunakan dalam penelitian ini adalah data lintasan GPS yang didapatkan dari proyek Microsoft GeoLife GPS Trajectory. Data GPS ini dikumpulkan oleh 182 pengguna pada proyek GeoLife dalam kurun waktu kurang lebih lima tahun (sejak April 2007 hingga Agustus 2012). Data GPS ini direpresentasikan sebagai rangkaian titik koordinat yang disertai waktu. Titik koordinat tersebut terdiri dari latitude,
longitude , dan altitude. Data ini berisi 17.621
lintasan dengan total jarak mencapai 1.292.951 kilometer dan total durasi selama 50.176 jam. 91,5 persen dari data lintasan diambil dengan representasi yang padat, yaitu setiap 1
- – 5 detik atau setiap 5 – 10 meter per poin.
Data yang dibutuhkan untuk diolah adalah data latitude, longitude, dan altitude. Sebanyak 30 titik koordinat dianggap mewakili satu lintasan berdasarkan moda transportasi.
d1 = √(39.893397 − 41.765052)
34.756763, 113.649385, …, -777) C3 = (41.140963, 80.29841, -777, 41.13767, 80.289385, -
2. Untuk setiap objek i, hitung rata-rata jarak dari objek i dengan objek yang berada di
cluster lainnya. Dari semua jarak rata-rata tersebut diambil nilai yang paling kecil.
Nilai ini disebut dengan b i .
3. Setelah itu maka nilai Silhoutte Coeffisient dari objek i adalah:
= ( − )/ ( , )
(2-3) Keterangan:
: Rata-rata jarak objek i terhadap seluruh objek di dalam cluster : Rata-rata jarak objek i terhadap seluruh objek di luar cluster
Ukuran nilai Silhoutte Coeffisient (Kaufman dan Rousseeuw, 2008):
2 = 180.9247425
2
Hasil dari perhitungan ini akan menjadi penentu data tersebut berada pada cluster yang mana. Perhitungan jarak ini dihitung menggunakan rumus Eucledian Distance seperti pada rumus 2.1. Contoh perhitungan data lintasan pertama terhadap centroid pertama adalah sebagai berikut:
Selanjutnya hitung jarak setiap objek data terhadap setiap centroid yang terbentuk.
777, …, -777) 3.
- ⋯ + (−777 − (−777))
- 0,7 < SC <= 1
- 0,5 < SC <= 0,7
- 0,25 < SC <= 0,5 Weak structure
- SC <= 0,25 No structure 3.
- ⋯ + (−777 − (−777))
3.1. Proses Clustering
clustering . Setiap sekali proses clustering
2
Misal pada cluster 1 terdapat 10 anggota. Maka setiap atribut pada tiap-tiap data dijumlahkan kemudian dibagi sebanyak jumlah anggota.
2.2. Contoh perhitungan centroid baru adalah sebagai berikut:
menggunakan rumus
cluster tersebut. Perhitungan rata-rata ini
untuk dijadikan centroid baru pada
cluster , hitung rata-rata atribut pada setiap cluster
ke dalam cluster 2 5. Setelah semua data masuk ke dalam setiap
centroid 2, maka data nomor dimasukkan
dengan data tersebut. Contohnya pada hasil perhitungan jarak di atas, data nomor 1 memiliki jarak yang paling dekat dengan
centroid dengan jarak yang paling dekat
Setelah mengetahui jarak setiap objek data dengan setiap centroid, pilih jarak yang paling dekat dan masukkan data tersebut ke dalam cluster yang di dalamnya terdapat
2 = 198.1061559 4.
d3 = √(39.893397 − 41.140963)
anggota cluster yang terbentuk juga tidak akan sama dengan proses clustering sebelumnya. Karena nilai centroid awal ditentukan secara acak, maka ada kemungkinan proses clustering membutuhkan banyak perulangan apabila nilai awal centroid terlalu jauh dari centroid yang terbentuk pada cluster terbaik. Pada perancangan ini diambil satu contoh percobaan. Dari hasil pemilihan centroid secara acak, maka diperoleh centroid untuk masing-masing cluster sebagai berikut:
Contoh perhitungan data lintasan pertama dengan centroid ketiga adalah sebagai berikut:
2 = 31.12279205
2
d2 = √(39.893397 − 34.754773)
Contoh perhitungan data lintasan pertama dengan centroid kedua adalah sebagai berikut:
Strong structure
Medium structure
PEMBAHASAN
Contoh perhitungan clustering dengan menggunakan metode k-means ini dilakukan terhadap 26 data lintasan. Langkah-langkah proses clustering menggunakan metode k-means dijelaskan secara rinci di bawah ini: 1.
- ⋯ + (−777 − (−777))
Tentukan nilai k, yaitu jumlah cluster yang akan dibentuk. Dalam contoh kali ini akan ditentukan nilai k adalah 3, sehingga akan terbentuk 3 cluster.
2. Tentukan centroid atau pusat cluster.
Karena nilai k adalah 3, maka akan dipiplih titik tengah cluster sebanyak 3 titik. Titik pusat cluster ini dipilih secara acak. Nantinya nilai titik pusat cluster (centroid) akan berubah setiap selesai sekali proses
C1 = (41.765052, 83.34479, -777, 41.765113, 83.345118, - 777, …, - 777) C2 = (34.754773, 113.650028, -777,
41.147205+43.774235+⋯+43.15195 C11 = = 42.2215328 adalah 100 data lintasan dari 5 orang yang
10
berbeda. Masing-masing orang diwakili 20
109.619872+95.457762+⋯+95.470535 C12 = =
10 lintasan.
88.0972963
Pengujian kualitas cluster ini dilakukan ........................... sebanyak 10 kali dengan nilai k mulai dari 3
−777+(−777)+⋯+(−777) C190 = = -777
sampai 12. Hasil dari pengujian kualitas cluster
10 ditampilkan tabel 1.
Pada cluster 2 terdapat 12 anggota, sehingga perhitungan atribut centroid baru:
Tabel 1. Hasil Pengujian Kualitas Cluster 39.893397+39.50293+⋯+39.1657
C21 = = 36.1647855 Silhouette Coefficient
12 116.313677+116.714948+⋯+117.20348 Pengujian 1 (k=2) 0.658923826 C22 = =
12 114.358932 Pengujian 2 (k=3) 0.720749771 ...........................
Pengujian 3 (k=4) 0.718863788 −777+(−777)+⋯+16
C290 = = -566.5 Pengujian 4 (k=5) 0.670422407
10 Pengujian 5 (k=6) 0.692242069
Pada cluster 3 terdapat 4 anggota, maka perhitungan atribut centroid baru
Pengujian 6 (k=7) 0.696811609
sebagai berikut:
Pengujian 7 (k=8) 0.630570671 41.140963+39.473332+39.471673+39.492748
C31 = = Pengujian 8 (k=9) 0.552190494
4 39.894679 Pengujian 9 (k=10) 0.636142387
80.29841+75.988222+75.98658+76.047162 C32 = = Pengujian 10 (k=11) 0.546994785
4 77.0800935 ...........................
4.2. Pengujian Ketepatan Cluster −777+(−777)+⋯+(−777)
C390 = = -777
4 Ketepatan cluster diuji dengan cara
mencocokkan hasil cluster dengan data real Keterangan: berdasarkan moda transportasi. Moda
C11 = atribut 1 pada centroid cluster 1. C12 = atribut 2 pada centroid cluster 1. transportasi yang ada pada data yang diuji antara lain mobil pribadi, taksi, bus, kereta, dan kereta C190 = atribut 90 pada centroid cluster bawah tanah. Nilai k pada pengujian ketepatan
1 .
C21= atribut 1 pada centroid cluster 2. cluster ini adalah 5 karena disesuaikan dengan jumlah jenis moda transportasi yang ada pada C22 = atribut 2 pada centroid cluster 2. data lintasan yang diuji. C290 = atribut 90 pada centroid cluster 2 .
Jumlah anggota cluster berdasarkan moda transportasi hasil dari pengujian ketepatan C31 = atribut 1 pada centroid cluster 3.
cluster ditampilkan pada tabel 2.
C32 = atribut 2 pada centroid cluster 3. C390 = atribut 90 pada centroid cluster
Tabel 2. Hasil Pengujian Ketepatan Cluster 3 .
Moda Jumlah 6.
Setelah mendapatkan centroid baru, ulangi langkah 3 sampai 5 hingga setiap anggota
C Mobil cluster dan centroid tiap cluster tidak l Bus
berubah. Pada percobaan kali ini, proses
u Kereta
berhenti pada perulangan ke-6.
s Kereta bawah tanah 20 t
4. PENGUJIAN DAN ANALISIS
e Taksi
4.1. Pengujian Kualitas Cluster
r
Kualitas cluster dilihat berdasarkan nilai
1
rata-rata silhouette coefficient. Setiap percobaan
Mobil C clustering menggunakan nilai k yang berbeda- l Bus
beda untuk diketahui nilai k yang paling tepat
u Kereta
20
dan menghasilkan kualitas cluster yang paling baik. Data yang digunakan dalam pengujian
Gambar 1. Grafik Rata-rata Nilai Silhouette Coefficient pada Pengujian
10
coefficient adalah 0,720749771. Hal ini
disebabkan karena ada 3 moda transportasi yang memiliki rute hampir mirip yaitu Bus, Mobil Pribadi, dan Taksi. Sehingga memiliki nilai
silhouette coefficient yang baik jika hanya
membentuk 3 cluster saja. Sedangkan nilai terendah ada pada pengujian kesepuluh dengan nilai k = 11, yaitu 0,546994785.
Sehingga dapat disimpulkan bahwa kualitas
cluster yang dihasilkan adalah medium atau
sedang karena nilai silhouette coefficient berada di antara 0.5
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8
5 Mobil Bus Kereta Kereta bawah tanah Taksi
Pada gambar 1 diketahui grafik rata-rata nilai silhouette coefficient pada masing-masing pengujian. Terlihat nilai tertinggi ada pada pengujian kedua dengan nilai k = 3. Pada pengujian kedua rata-rata nilai silhouette
10 C l u s t e r
4 Mobil Bus Kereta Kereta bawah tanah Taksi
20 Kereta Kereta bawah tanah Taksi C l u s t e r
20 Bus
3 Mobil
2 Kereta bawah tanah Taksi C l u s t e r
s t e r
Graf ik Rata-rata Nilai Silhouette Coefficient
- – 0.7.
4.3. Analisis Kualitas Cluster
berbeda. Pada gambar 1 adalah grafik nilai rata- rata silhouette coefficient pada pengujian 1 sampai pengujian 10.
cluster dibanding dengan banyaknya jumlah anggota pada cluster tersebut.
Pada tahap analisis kualitas cluster, tingkat kualitas cluster dilihat dari rata-rata nilai
20 × 100% = 100%
20
Maka ketepatan cluster adalah
Berikut perhitungan ketepatan cluster merujuk pada data di tabel 2:
Pada tahap analisis ketepatan cluster ini, ketepatan cluster ditentukan dari banyaknya jumlah mayoritas moda transportasi pada tiap
coefficient yang berbeda-beda setiap k yang
4.4. Analisis Ketepatan Cluster
silhouette coefficient . Nilai tersebut didapatkan
dari rata-rata jarak data terhadap data lain di luar
cluster dikurangi dengan rata-rata jarak data terhadap data lain di dalam satu cluster.
Selanjutnya hasil pengurangan tersebut dibagi dengan nilai terbesar antara kedua nilai yang telah dihitung sebelumnya.
- Cluster 1: Mayoritas moda transportasi adalah Kereta bawah tanah dengan jumlah 20 dan jumlah seluruh anggota cluster adalah 20.
Berdasarkan pengujian clustering yang telah dilakukan terhadap 100 data lintasan dari 5 orang yang berbeda, didapatkan nilai silhouette
- Cluster 2: Mayoritas moda transportasi adalah Kereta dengan jumlah 20 dan jumlah seluruh anggota cluster adalah 20.
- Cluster 3: Mobil dan Bus sama-sama berjumlah 20 dan anggota cluster adalah 40. Maka ketepatan cluster adalah
1. Metode k-means dapat diimplementasikan untuk clustering mobilitas masyarakat dengan cara menjadikan rangkaian titik koordinat yang terdiri dari latitude,
Mengetahui Pola Pemilihan Program Studi Mahasiswa Baru UIN Sunan Kalijaga Menggunakan Algoritma K-means Clustering. Universitas Islam Negeri Sunan Kalijaga. Yogyakarta.
longitude, dan altitude yang mewakili satu
data lintasan menjadi atribut dalam perhitungan clustering.
2. Kualitas clustering dilihat dari nilai
silhouette coefficient masuk pada kategori
sedang sampai baik pada k yang mendekati jumlah moda transportasi. Sedangkan pada k semakin jauh dari jumlah moda transportasi, semakin buruk kualitas
cluster .
Han, J. dan Kamber, M., 2006. Data Mining: Concepts and Techniques, Second Edition.
Morgan Kaufmann Publisher. Irwanto, 2016. Penerapan Data Mining Untuk
Hastuti, N.F. 2013. Pemanfaatan Metode K- means Clustering dalam Penentuan Penerima Beasiswa. Universitas Sebelas Maret. Surakarta.
- Cluster 4: Mayoritas moda transportasi adalah Taksi dengan jumlah 10 dan jumlah seluruh anggota cluster adalah 10.
Zheng, Y., 2007. GeoLife: Building Social Networks Using Human Location History. https://www.microsoft.com/en- us/research/project/geolife-building-social- networks-using-human-location-history/
- Cluster 5: Mayoritas moda transportasi adalah Bus dengan jumlah 10 dan jumlah seluruh anggota cluster adalah 10.
Andayani, S. 2007. Pembentukan Cluster dalam Knowledge Discovery in Database dengan Algoritma KMeans. Seminar Nasional Matematika dan Pendidikan Matematika 2007. Universitas Negeri Yogyakarta.
- Rata-rata ketepatan cluster adalah:
Yogyakarta. Santosa, B. 2007. Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis.
Graha Ilmu. Yogyakarta. Agusta, Y. 2007. K-Means-Penerapan,
Permasalahan dan Metode Terkait. Jurnal Sistem dan Informatika Vol.3, 47-60. Nuningsih, S. 2010. K-Means Clustering: Studi
Kasus pada Data Pengujian Kualitas Susu di Koperasi Peternakan Bandung Selatan. Jurusan Matematika FMIPA, Universitas Pendidikan Indonesia. Bandung.
Kaufman, L. dan Rousseeuw, P.J., 2008. Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons, Inc.
5. PENUTUP
Kesimpulan yang diambil dari penelititan ini adalah:
10 × 100% = 100%
Maka ketepatan cluster adalah
20
20 × 100% = 100%
20
40 × 100% = 50%
Maka ketepatan cluster adalah
10
Maka ketepatan cluster adalah
setelah Bus dan Mobil Pribadi masuk ke dalam satu cluster.
10
10 × 100% = 100%
100% + 100% + 50% + 100% + 100%
5 = 90%
Bus dan Mobil Pribadi masuk ke dalam
cluster yang sama karena kedua moda
transportasi tersebut memiliki rute lintasan yang hampir mirip. Sedangkan Taksi terbagi ke dua
cluster yang berbeda karena tersisa 2 cluster