Clustering Mobilitas Masyarakat Berdasarkan Moda Transportasi Menggunakan Metode K-Means

  Vol. 2, No. 7, Juli 2018, hlm. 2459-2464 http://j-ptiik.ub.ac.id

  

Clustering Mobilitas Masyarakat Berdasarkan Moda Transportasi

Menggunakan Metode K-Means

1 2 3 Humam Aziz Romdhoni , M. Tanzil Furqon , Sigit Adinugroho

  Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya 1 2 3 Email: h.azizromdhoni@gmail.com, m.tanzil.furqon@ub.ac.id, sigit.adinu@ub.ac.id

  

Abstrak

  Mobilitas masyarakat adalah perpindahan masyarakat dari satu tempat ke tempat lain. Mobilitas masyarakat merupakan topik yang patut untuk diteliti. Karena dengan mengetahui mobilitas masyarakat kita dapat mengetahui pola rute yang dilalui, moda transportasi yang dipilih, lama waktu perjalanan, dan lain-lain. Di era modern ini, data lintasan perpindahan seorang individu dapat diketahui melalui GPS (Global Positioning System). Data-data GPS yang diperoleh tersebut dapat diolah menjadi informasi yang berguna, seperti moda transportasi apa saja yang digunakan oleh setiap individu. Untuk melakukan pengolahan data tersebut dapat digunakan salah satu metode data mining, yaitu clustering. Clustering dipilih karena data GPS untuk setiap moda transportasi dianggap mempunyai karakteristik yang hampir sama, sehingga metode pengambilan informasi yang paling tepat adalah dengan cara dikelompokkan. Salah satu metode clustering yang populer adalah k-means. Pada penelitian ini diketahui bahwa hasil

  

cluster dengan metode k-means memiliki kualitas sedang sampai baik pada nilai k mendekati jumlah

  jenis moda transportasi dilihat dari nilai silhouette coefficient. Akan tetapi dari hasil pengujian ketepatan, metode k-means menunjukkan persentase yang baik yaitu sebesar 90%.

  Kata kunci: clustering, k-means, lintasan

Abstract

  

Peoples mobility is the movement of people from one place to another. Peoples mobility is a worthy

topic to research. Because by knowing the mobility of society we can know the pattern of the route

traversed, the chosen transportation mode, the duration of travel, and others. In this modern era, moving

trajectory data of an individual can be known through GPS (Global Positioning System). GPS data

obtained can be processed into useful information, such as what each mode of transportation used by

each individual. To perform this data processing, we can use one method of data mining, which name

is clustering. Clustering is chosen because GPS data for each mode of transport is considered to have

almost the same characteristics, so the most appropriate method of information retrieval is by grouping.

One of the popular clustering methods is k-means. In this research we can see that the cluster with k-

means method has medium to high quality when k value close to quantity of transportation mode seen

from the value of silhouette coefficient. From the results of accuracy testing, k-means method shows a

good percentage that is 90%.

  Keywords: clustering, k-means, trajectory

  dapat diketahui melalui GPS. Salah satu proyek 1.

   PENDAHULUAN yang mengumpulkan data lintasan GPS adalah Microsoft GeoLife (Zheng, 2007). Proyek ini

  Mobilitas masyarakat adalah perpindahan merupakan jejaring sosial berbasis lokasi. Data- masyarakat dari satu tempat ke tempat lain. data GPS yang diperoleh tersebut dapat diolah

  Mobilitas masyarakat merupakan topik yang menjadi informasi yang berguna, seperti moda patut untuk diteliti. Karena dengan mengetahui transportasi apa saja yang digunakan oleh setiap mobilitas masyarakat kita dapat mengetahui pola individu. Dengan mengetahui hal tersebut rute yang dilalui, moda transportasi yang dipilih, diharapkan masyarakat mempunyai banyak lama waktu perjalanan, dan lain-lain. Di era pilihan yang dapat digunakan sebagai modern ini, data perpindahan seorang individu pertimbangan untuk melakukan sebuah

  Fakultas Ilmu Komputer Universitas Brawijaya

2459

  (2-1) Keterangan:

  2. Menentukan nilai secara acak untuk pusat cluster awal (centroid) sebanyak k.

  mining , yaitu clustering. Clustering adalah

  metode untuk menganalisa data dan bertujuan untuk mengelompokkan data yang mempunyai karakteristik yang sama. Clustering dipilih karena data GPS untuk setiap moda transportasi dianggap mempunyai karakteristik yang hampir sama, sehingga metode pengambilan informasi yang paling tepat adalah dengan cara dikelompokkan. Salah satu metode clustering yang populer adalah k-means. Metode ini memisahkan dan membagi objek ke daerah- daerah yang terpisah sesuai dengan banyaknya k yang telah ditentukan. K-means dipilih karena metode ini mudah untuk diimplementasikan serta mudah untuk diadaptasi.

  : Data kriteria : Centroid pada cluster j 4. Mengelompokkan setiap data berdasarkan kedekatannya dengan centroid (jarak terkecil).

  perjalanan. Untuk melakukan pengolahan data tersebut dapat digunakan salah satu metode data

  2

  centroid . Berikut ini adalah persamaan Eucledian Distance : ( , ) = √( − )

  paling dekat antara setiap data dengan

  centroid menggunakan rumus Eucledian Distance hingga ditemukan jarak yang

  3. Menghitung jarak setiap data yang dimasukkan terhadap masing-masing

  Langkah-langkah metode k-means: 1. Menentukan k sebagai jumlah cluster yang ingin dibentuk.

2. DATA DAN METODE CLUSTERING

  Metode k-means merupakan salah satu metode non hirarkial clustering yang populer digunakan. Metode ini pertama kali diperkenalkan oleh MacQueen JB pada tahun 1976. Metode ini membagi atau memisahkan objek ke k kelompok atau golongan bagian yang terpisah. Metode k-means mengharuskan setiap objek masuk ke dalam golongan yang terbentuk, akan tetapi pada suatu tahapan langkah tertentu, objek yang telah menjadi anggota dalam satu golongan tadi akan berpindah ke golongan lain pada tahapan proses berikutnya.

  (2-2) Keterangan:

  1. Untuk setiap objek i, hitung rata-rata jarak objek i dengan seluruh objek yang berada dalam satu cluster. Maka akan didapatkan nilai rata-rata yang disebut dengan a i .

  Ada tiga langkah yang perlu dilakukan untuk menghitung Silhoutte Coeffisient, yaitu:

  separation .

  dari setiap cluster yang dihasilkan dengan menggabungkan metode cohesion dan

  Coeffisient . Metode ini akan menguji kualitas

  Metode pengujian yang digunakan dalam penelitian ini adalah metode Silhoutte

  2.3. Sillhouette Coefficient

  7. Jika langkah 6 telah terpenuhi, maka nilai pusat cluster pada perulangan terakhir akan digunakan sebagai parameter untuk menentukan klasifikasi data.

  ( + 1): Centroid baru pada iterasi ke t + 1 : Banyaknya data pada cluster j 6. Melakukan perulangan dari langkah 2 hingga 5 sampai anggota tiap cluster tidak ada yang berubah.

  ∈

  2.2. Metode K-means

  1 ∑

  ( + 1) =

  menggunakan rumus:

  centroid yang baru didapatkan dari rata-rata cluster yang bersangkutan dengan

  5. Memperbaharui nilai centroid. Nilai

  2.1. Microsoft GeoLife GPS Trajectory

  Data yang digunakan dalam penelitian ini adalah data lintasan GPS yang didapatkan dari proyek Microsoft GeoLife GPS Trajectory. Data GPS ini dikumpulkan oleh 182 pengguna pada proyek GeoLife dalam kurun waktu kurang lebih lima tahun (sejak April 2007 hingga Agustus 2012). Data GPS ini direpresentasikan sebagai rangkaian titik koordinat yang disertai waktu. Titik koordinat tersebut terdiri dari latitude,

  longitude , dan altitude. Data ini berisi 17.621

  lintasan dengan total jarak mencapai 1.292.951 kilometer dan total durasi selama 50.176 jam. 91,5 persen dari data lintasan diambil dengan representasi yang padat, yaitu setiap 1

  • – 5 detik atau setiap 5 – 10 meter per poin.

  Data yang dibutuhkan untuk diolah adalah data latitude, longitude, dan altitude. Sebanyak 30 titik koordinat dianggap mewakili satu lintasan berdasarkan moda transportasi.

  d1 = √(39.893397 − 41.765052)

  34.756763, 113.649385, …, -777) C3 = (41.140963, 80.29841, -777, 41.13767, 80.289385, -

  2. Untuk setiap objek i, hitung rata-rata jarak dari objek i dengan objek yang berada di

  cluster lainnya. Dari semua jarak rata-rata tersebut diambil nilai yang paling kecil.

  Nilai ini disebut dengan b i .

  3. Setelah itu maka nilai Silhoutte Coeffisient dari objek i adalah:

  = ( − )/ ( , )

  (2-3) Keterangan:

  : Rata-rata jarak objek i terhadap seluruh objek di dalam cluster : Rata-rata jarak objek i terhadap seluruh objek di luar cluster

  Ukuran nilai Silhoutte Coeffisient (Kaufman dan Rousseeuw, 2008):

  2 = 180.9247425

  2

  Hasil dari perhitungan ini akan menjadi penentu data tersebut berada pada cluster yang mana. Perhitungan jarak ini dihitung menggunakan rumus Eucledian Distance seperti pada rumus 2.1. Contoh perhitungan data lintasan pertama terhadap centroid pertama adalah sebagai berikut:

  Selanjutnya hitung jarak setiap objek data terhadap setiap centroid yang terbentuk.

  777, …, -777) 3.

  • ⋯ + (−777 − (−777))
    • 0,7 < SC <= 1
    • 0,5 < SC <= 0,7
    • 0,25 < SC <= 0,5 Weak structure
    • SC <= 0,25 No structure 3.

  • ⋯ + (−777 − (−777))

3.1. Proses Clustering

  clustering . Setiap sekali proses clustering

  2

  Misal pada cluster 1 terdapat 10 anggota. Maka setiap atribut pada tiap-tiap data dijumlahkan kemudian dibagi sebanyak jumlah anggota.

  2.2. Contoh perhitungan centroid baru adalah sebagai berikut:

  menggunakan rumus

  cluster tersebut. Perhitungan rata-rata ini

  untuk dijadikan centroid baru pada

  cluster , hitung rata-rata atribut pada setiap cluster

  ke dalam cluster 2 5. Setelah semua data masuk ke dalam setiap

  centroid 2, maka data nomor dimasukkan

  dengan data tersebut. Contohnya pada hasil perhitungan jarak di atas, data nomor 1 memiliki jarak yang paling dekat dengan

  centroid dengan jarak yang paling dekat

  Setelah mengetahui jarak setiap objek data dengan setiap centroid, pilih jarak yang paling dekat dan masukkan data tersebut ke dalam cluster yang di dalamnya terdapat

  2 = 198.1061559 4.

  d3 = √(39.893397 − 41.140963)

  anggota cluster yang terbentuk juga tidak akan sama dengan proses clustering sebelumnya. Karena nilai centroid awal ditentukan secara acak, maka ada kemungkinan proses clustering membutuhkan banyak perulangan apabila nilai awal centroid terlalu jauh dari centroid yang terbentuk pada cluster terbaik. Pada perancangan ini diambil satu contoh percobaan. Dari hasil pemilihan centroid secara acak, maka diperoleh centroid untuk masing-masing cluster sebagai berikut:

  Contoh perhitungan data lintasan pertama dengan centroid ketiga adalah sebagai berikut:

  2 = 31.12279205

  2

  d2 = √(39.893397 − 34.754773)

  Contoh perhitungan data lintasan pertama dengan centroid kedua adalah sebagai berikut:

  Strong structure

  Medium structure

   PEMBAHASAN

  Contoh perhitungan clustering dengan menggunakan metode k-means ini dilakukan terhadap 26 data lintasan. Langkah-langkah proses clustering menggunakan metode k-means dijelaskan secara rinci di bawah ini: 1.

  • ⋯ + (−777 − (−777))

  Tentukan nilai k, yaitu jumlah cluster yang akan dibentuk. Dalam contoh kali ini akan ditentukan nilai k adalah 3, sehingga akan terbentuk 3 cluster.

2. Tentukan centroid atau pusat cluster.

  Karena nilai k adalah 3, maka akan dipiplih titik tengah cluster sebanyak 3 titik. Titik pusat cluster ini dipilih secara acak. Nantinya nilai titik pusat cluster (centroid) akan berubah setiap selesai sekali proses

  C1 = (41.765052, 83.34479, -777, 41.765113, 83.345118, - 777, …, - 777) C2 = (34.754773, 113.650028, -777,

  41.147205+43.774235+⋯+43.15195 C11 = = 42.2215328 adalah 100 data lintasan dari 5 orang yang

  10

  berbeda. Masing-masing orang diwakili 20

  109.619872+95.457762+⋯+95.470535 C12 = =

  10 lintasan.

  88.0972963

  Pengujian kualitas cluster ini dilakukan ........................... sebanyak 10 kali dengan nilai k mulai dari 3

  −777+(−777)+⋯+(−777) C190 = = -777

  sampai 12. Hasil dari pengujian kualitas cluster

  10 ditampilkan tabel 1.

  Pada cluster 2 terdapat 12 anggota, sehingga perhitungan atribut centroid baru:

  Tabel 1. Hasil Pengujian Kualitas Cluster 39.893397+39.50293+⋯+39.1657

  C21 = = 36.1647855 Silhouette Coefficient

  12 116.313677+116.714948+⋯+117.20348 Pengujian 1 (k=2) 0.658923826 C22 = =

  12 114.358932 Pengujian 2 (k=3) 0.720749771 ...........................

  Pengujian 3 (k=4) 0.718863788 −777+(−777)+⋯+16

  C290 = = -566.5 Pengujian 4 (k=5) 0.670422407

10 Pengujian 5 (k=6) 0.692242069

  Pada cluster 3 terdapat 4 anggota, maka perhitungan atribut centroid baru

  Pengujian 6 (k=7) 0.696811609

  sebagai berikut:

  Pengujian 7 (k=8) 0.630570671 41.140963+39.473332+39.471673+39.492748

  C31 = = Pengujian 8 (k=9) 0.552190494

  4 39.894679 Pengujian 9 (k=10) 0.636142387

  80.29841+75.988222+75.98658+76.047162 C32 = = Pengujian 10 (k=11) 0.546994785

  4 77.0800935 ...........................

  4.2. Pengujian Ketepatan Cluster −777+(−777)+⋯+(−777)

  C390 = = -777

4 Ketepatan cluster diuji dengan cara

  mencocokkan hasil cluster dengan data real Keterangan: berdasarkan moda transportasi. Moda

  C11 = atribut 1 pada centroid cluster 1. C12 = atribut 2 pada centroid cluster 1. transportasi yang ada pada data yang diuji antara lain mobil pribadi, taksi, bus, kereta, dan kereta C190 = atribut 90 pada centroid cluster bawah tanah. Nilai k pada pengujian ketepatan

  1 .

  C21= atribut 1 pada centroid cluster 2. cluster ini adalah 5 karena disesuaikan dengan jumlah jenis moda transportasi yang ada pada C22 = atribut 2 pada centroid cluster 2. data lintasan yang diuji. C290 = atribut 90 pada centroid cluster 2 .

  Jumlah anggota cluster berdasarkan moda transportasi hasil dari pengujian ketepatan C31 = atribut 1 pada centroid cluster 3.

  cluster ditampilkan pada tabel 2.

  C32 = atribut 2 pada centroid cluster 3. C390 = atribut 90 pada centroid cluster

  Tabel 2. Hasil Pengujian Ketepatan Cluster 3 .

  Moda Jumlah 6.

  Setelah mendapatkan centroid baru, ulangi langkah 3 sampai 5 hingga setiap anggota

  C Mobil cluster dan centroid tiap cluster tidak l Bus

  berubah. Pada percobaan kali ini, proses

  u Kereta

  berhenti pada perulangan ke-6.

  s Kereta bawah tanah 20 t

4. PENGUJIAN DAN ANALISIS

  e Taksi

4.1. Pengujian Kualitas Cluster

  r

  Kualitas cluster dilihat berdasarkan nilai

  1

  rata-rata silhouette coefficient. Setiap percobaan

  Mobil C clustering menggunakan nilai k yang berbeda- l Bus

  beda untuk diketahui nilai k yang paling tepat

  u Kereta

  20

  dan menghasilkan kualitas cluster yang paling baik. Data yang digunakan dalam pengujian

  Gambar 1. Grafik Rata-rata Nilai Silhouette Coefficient pada Pengujian

  10

  coefficient adalah 0,720749771. Hal ini

  disebabkan karena ada 3 moda transportasi yang memiliki rute hampir mirip yaitu Bus, Mobil Pribadi, dan Taksi. Sehingga memiliki nilai

  silhouette coefficient yang baik jika hanya

  membentuk 3 cluster saja. Sedangkan nilai terendah ada pada pengujian kesepuluh dengan nilai k = 11, yaitu 0,546994785.

  Sehingga dapat disimpulkan bahwa kualitas

  cluster yang dihasilkan adalah medium atau

  sedang karena nilai silhouette coefficient berada di antara 0.5

  0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8

  5 Mobil Bus Kereta Kereta bawah tanah Taksi

  Pada gambar 1 diketahui grafik rata-rata nilai silhouette coefficient pada masing-masing pengujian. Terlihat nilai tertinggi ada pada pengujian kedua dengan nilai k = 3. Pada pengujian kedua rata-rata nilai silhouette

  10 C l u s t e r

  4 Mobil Bus Kereta Kereta bawah tanah Taksi

  20 Kereta Kereta bawah tanah Taksi C l u s t e r

  20 Bus

  3 Mobil

  2 Kereta bawah tanah Taksi C l u s t e r

  s t e r

  Graf ik Rata-rata Nilai Silhouette Coefficient

  • – 0.7.

4.3. Analisis Kualitas Cluster

  berbeda. Pada gambar 1 adalah grafik nilai rata- rata silhouette coefficient pada pengujian 1 sampai pengujian 10.

  cluster dibanding dengan banyaknya jumlah anggota pada cluster tersebut.

  Pada tahap analisis kualitas cluster, tingkat kualitas cluster dilihat dari rata-rata nilai

  20 × 100% = 100%

  20

  Maka ketepatan cluster adalah

  Berikut perhitungan ketepatan cluster merujuk pada data di tabel 2:

  Pada tahap analisis ketepatan cluster ini, ketepatan cluster ditentukan dari banyaknya jumlah mayoritas moda transportasi pada tiap

  coefficient yang berbeda-beda setiap k yang

  4.4. Analisis Ketepatan Cluster

  silhouette coefficient . Nilai tersebut didapatkan

  dari rata-rata jarak data terhadap data lain di luar

  cluster dikurangi dengan rata-rata jarak data terhadap data lain di dalam satu cluster.

  Selanjutnya hasil pengurangan tersebut dibagi dengan nilai terbesar antara kedua nilai yang telah dihitung sebelumnya.

  • Cluster 1: Mayoritas moda transportasi adalah Kereta bawah tanah dengan jumlah 20 dan jumlah seluruh anggota cluster adalah 20.

  Berdasarkan pengujian clustering yang telah dilakukan terhadap 100 data lintasan dari 5 orang yang berbeda, didapatkan nilai silhouette

  • Cluster 2: Mayoritas moda transportasi adalah Kereta dengan jumlah 20 dan jumlah seluruh anggota cluster adalah 20.
  • Cluster 3: Mobil dan Bus sama-sama berjumlah 20 dan anggota cluster adalah 40. Maka ketepatan cluster adalah

  1. Metode k-means dapat diimplementasikan untuk clustering mobilitas masyarakat dengan cara menjadikan rangkaian titik koordinat yang terdiri dari latitude,

  Mengetahui Pola Pemilihan Program Studi Mahasiswa Baru UIN Sunan Kalijaga Menggunakan Algoritma K-means Clustering. Universitas Islam Negeri Sunan Kalijaga. Yogyakarta.

  longitude, dan altitude yang mewakili satu

  data lintasan menjadi atribut dalam perhitungan clustering.

  2. Kualitas clustering dilihat dari nilai

  silhouette coefficient masuk pada kategori

  sedang sampai baik pada k yang mendekati jumlah moda transportasi. Sedangkan pada k semakin jauh dari jumlah moda transportasi, semakin buruk kualitas

  cluster .

  Han, J. dan Kamber, M., 2006. Data Mining: Concepts and Techniques, Second Edition.

  Morgan Kaufmann Publisher. Irwanto, 2016. Penerapan Data Mining Untuk

  Hastuti, N.F. 2013. Pemanfaatan Metode K- means Clustering dalam Penentuan Penerima Beasiswa. Universitas Sebelas Maret. Surakarta.

  • Cluster 4: Mayoritas moda transportasi adalah Taksi dengan jumlah 10 dan jumlah seluruh anggota cluster adalah 10.

  Zheng, Y., 2007. GeoLife: Building Social Networks Using Human Location History. https://www.microsoft.com/en- us/research/project/geolife-building-social- networks-using-human-location-history/

  • Cluster 5: Mayoritas moda transportasi adalah Bus dengan jumlah 10 dan jumlah seluruh anggota cluster adalah 10.

  Andayani, S. 2007. Pembentukan Cluster dalam Knowledge Discovery in Database dengan Algoritma KMeans. Seminar Nasional Matematika dan Pendidikan Matematika 2007. Universitas Negeri Yogyakarta.

  • Rata-rata ketepatan cluster adalah:

  Yogyakarta. Santosa, B. 2007. Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis.

  Graha Ilmu. Yogyakarta. Agusta, Y. 2007. K-Means-Penerapan,

  Permasalahan dan Metode Terkait. Jurnal Sistem dan Informatika Vol.3, 47-60. Nuningsih, S. 2010. K-Means Clustering: Studi

  Kasus pada Data Pengujian Kualitas Susu di Koperasi Peternakan Bandung Selatan. Jurusan Matematika FMIPA, Universitas Pendidikan Indonesia. Bandung.

  Kaufman, L. dan Rousseeuw, P.J., 2008. Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons, Inc.

  5. PENUTUP

  Kesimpulan yang diambil dari penelititan ini adalah:

  10 × 100% = 100%

  Maka ketepatan cluster adalah

  20

  20 × 100% = 100%

  20

  40 × 100% = 50%

  Maka ketepatan cluster adalah

  10

  Maka ketepatan cluster adalah

  setelah Bus dan Mobil Pribadi masuk ke dalam satu cluster.

  10

  10 × 100% = 100%

  100% + 100% + 50% + 100% + 100%

  5 = 90%

  Bus dan Mobil Pribadi masuk ke dalam

  cluster yang sama karena kedua moda

  transportasi tersebut memiliki rute lintasan yang hampir mirip. Sedangkan Taksi terbagi ke dua

  cluster yang berbeda karena tersisa 2 cluster