EKSTRAKSI NAMA LOKASI DARI TWEETS INFORMASI LALU LINTAS

  

EKSTRAKSI NAMA LOKASI DARI TWEETS INFORMASI

LALU LINTAS

Yuda Munarko

  Universitas Muhammadiyah Malang

Kontak Person:

  

Yuda Munarko

Jl. Raya Tlogomas 246

Malang

Telp: 0341-464318 ext. 247, Fax: 0341-460435, E-mail: yuda.munarko@gmail.com

  

Abstrak

The extraction of traffic information from twitter is widely studied. For this purpose, we need to

identify the name of a location from the tweet traffic information. Unfortunately, up to this research,

research to detect the location entity from the tweet traffic information is rarely done. Therefore, we

examined how to identify location entity of the tweet using rule-based and Stanford NER. We used

data from accounts Sby Traffic Services, RTMC Ditlantas Jatim and Radio Suara Surabaya. Based on

our experiment, Stanford NER is superior compared to rule-base which precision, recall and F1 are

99.43%, 98.89%, 99.16%. However, precision, recall and F1 of rule-based method are not so far from

Stanford NER, which are 94.5%, 95.10%, 94.8%.

  Kata kunci: twitter, twet, NER, name entity recognition

Pendahuluan

  Saat ini, sosial media seperti twitter telah menjadi sumber informasi alternatif bagi masyarakat secara umum. Sebagai contoh, jika seorang pengguna twitter ingin mengetahui kondisi lalu lintas di jalan tlogomas malang, mereka bisa memeriksanya melalui mesin pencari twitter dengan kata kunci “lalin tlogomas malang”. Hasil dari pencarian ini adalah tweet user lain yang memiliki kata kunci “lalin”, “tlogomas”, “malang” atau ketiganya; dengan mengurutkan berdasarkan waktu posting, dari yang paling baru ke yang paling lama, dan berdasarkan similaritas antara kata kunci dan tweet.

  Namun perlu diketahui, bahwa ada kalanya tingkat kebaruan informasi yang didapatkan tidak seperti yang diharapkan, sehingga validitas informasi jadi rendah. Pada kasus pencarian kondisi lalu lintas seperti contoh di atas, tingkat validitas informasi akan semakin tinggi jika selisih waktu antara waktu tweet dan waktu saat pencarian mendekati nol. Kenyataannya, ada kemungkinan informasi yang didapatkan berasal dari tweet 3 jam yang lalu. Secara intuitif, jika ada data masa lampau dengan hari dan jam yang sama dengan saat pencarian saat ini, maka data masa lampau ini lebih valid jika dibandingkan dengan data tweet 3 jam yang lalu. Untuk itu perlu dibangun suatu basis data yang menghimpun data historis tentang jenis informasi tertentu pada kondisi tertentu. Dengan menggunakan data ini, diharapkan informasi yang didapatkan memiliki tingkat validitas lebih tinggi.

  Dari dasar pemikiran ini, guna keperluan menghimpun data historis yang berhubungan dengan informasi lalu lintas, maka perlu mengekstraksi fitur-fitur data seperti, nama lokasi, kondisi lalu lintas dan waktu tweet. Pada ekstraksi nama lokasi, permasalahan yang timbul adalah format penulisan nama lokasi yang beraneka ragam, misalnya: “lawang-malang” yang menunjukkan “lawang” sebagai asal dan “malang” sebagai tujuan, “per4an kasin” yang menunjukkan perempatan kasin. Oleh karena itu perlu dibangun suatu sistem yang dapat mengidentifikasi nama lokasi dengan format data yang tidak standar.

  Studi mengenai twitter telah banyak dilakukan semenjak kemunculan pertama kalinya pada tahun 2006. Jenis penelitiannya pun sangat beraneka ragam, mulai dari mesin pencari [4], pengukuran tingkat validitas user [7], penangana bencana [5][6], dan informasi lalu lintas [3]. Semua penelitian ini pada dasarnya memiliki kesamaan dalam tipe data yang digunakan. Selain itu juga ada kesamaan dalam hal data preposessing-nya, meskipun tetap saja ada perbedaan-perbedaan yang sifatnya minor. Pada dasarnya preprocessing yang dilakukan meliputi filterisasi data dan pos-tagging. Tujuan dari filterisasi adalah untuk memilah dan memilih data yang diperlukan saja. Untuk keperluan ini ada penelitian oleh Sriram et.al. [8] mengenai filterisasi menggunakan klasifikasi pesan pendek dan penelitian oleh Hannon et. al. [9] yang memberikan rekomendasi kegiatan “follow” berdasarkan pendekatan filterisasi. Sedangkan tujuan dari POS-tagging adalah untuk mengubah teks twitter ke model struktur bahasa. Hal ini perlu dilakukan, karena pada umumnya, penggunaan struktur data dirasa lebih praktis daripada menggunakan seluh kata yang tersedia. Bahkan untuk kasus ekstraksi kata, POS-tagging dianggap sebagai keharusan. Untuk POS-tagging Bahasa Indonesia, terdapat dua pendekatan utama yang biasa digunakan, yakni menggunakan pendekatan Hidden Markov Model [1] dan menggunakan pendekatan probabilistic [2].

  Riset lainnya adalah riset yang berfokus pada tipe informasi tertentu, yakni seperti pada informasi lalu lintas [3][5] yang telah disebutkan di atas. Namun pada penelitian tersebut tidak dijelaskan bagaimana mereka memvalidasi data yang berhubungan dengan lokasi, baik itu nama tempat tweet dibuat serta asal dan tujuan yang ditempuh. Menurut pengetahuan terbaik kami, hingga saat ini belum ada penelitian yang berfokus untuk memperoleh nama lokasi dengan presisi yang tinggi. Memang ada penelitian yang meneliti geo-location dari pengguna twitter, seperti [10] yang membahas persebaran pengguna twitter, dan [11] yang memperkirakan lokasi pengguna, namun mereka berasumsi bahwa nama lokasi di twitter formatnya sudah standar.

  Pada penelitian ini, dilakukan upaya untuk mengidentifikasi nama lokasi dari sekumpulan tweet informasi lalu lintas. Untuk keperluan penelitian ini akan digunakan pendekatan rule-based dan menggunakan Stanford NER [12]. Penggunaan ruled based disebabkan oleh jenis informasi yang ingin diekstraksi sudah sangat spesifik, yakni nama lokasi. Alasan lainnya adalah, jenis data yang digunakan mayoritas sudah memiliki aturan yang spesifik dan menggunakan kata-kata yang juga spesifik yang bisa digunakan untuk mendeteksi nama lokasi. Sedangkan penggunaan Stanford NER disebabkan karena metode ini terbukti handal untuk deteksi nama entitas berbahasa Inggris.

Metode Penelitian

  Sumber data yang digunakan diambil dari tiga akun informasi di twitter, yakni RTMC_Jatim, SbyTrafficServ and e100ss. Untuk setiap sumber data, dikumpulkan antara 3.000 hingga 3.500 tweet. data yang diambil adalah data pada bulan April hingga Juni 2013. Data Sby Traffic Services adalah data yang khusus ditujukan untuk memberikan informasi lalu lintas di kawasan Surabaya dan sekitarnya.Jenis tweet yang ada di Sby Traffic Services didominasi oleh data yang berasal dari Dishub (Dinas Perhubungan), kurang lebih sebesar 80%. Sedangkan sisanya adalah tweet yang dibuat oleh masyarakat umum yang ingin memberi informasi lalu lintas di lokasi tertentu. RTMC Ditlantas Jatim adalah akun twitter resmi milik Direktorat Lalu Lintas Polda Jatim. Lokasi lalu lintas yang dihadirkan meliputi area Jawa Timur secara keseluruhan, namun lebih didominasi kawasan Surabaya dan sekitarnya serta Malang dan sekitarnya. Karakteristik tweet di akun ini adalah, tata bahasa yang digunakan relatif lebih stabil jika dibandingkan dengan tweet di akun Sby Traffic Services. Hal ini disebabkan oleh minimnya tweet di RTMC Ditlantas Jatim yang dibuat oleh pihak luar atau masyarakat umum. Akun Radio Suara Surabaya merupakan akun yang berisi informasi umum yang dikelola oleh Stasiun Radio Suara Surabaya. Informasi yang ada di akun ini merupakan hasil partisipasi aktif masyarakat umum. Disebabkan oleh kontributor tweet di Radio Suara Surabaya berasal dari masyrakat umum, maka susunan kalimat yang digunakan juga beraneka ragam. Demikian juga pemilihan jenis kata yang digunakan juga akan sangat beragam. Contoh data dari ketiga sumber tweet secara terurut bisa dilihat di Tabel 1.

  

Table 1. Contoh tweet lalu lintas

RTMC_Jatim Dishub 14.27 wib: Lalin A Yani arah dalam kota (depan Cito) padat merambat.cc

  @e100ss @1031Genfmsby http://t.co/tQcLwXxgDU

SbyTrafficServ Arus lalin seputaran simpang 3 Japanan terpantau padat, baik arah Malang maupun Sby,

karena volume kendaraan http://t.co/JMPtXiUsZP e100ss RT @aripriyam: @e100ss Wilayah kebraon dan sekitarnya hujan deras disertai angin kencang. Harap berhati-hati bagi pengguna jalan.

  Dalam pendekatan rule-based, dilakukan analisa terhadap semua tweet untuk mendeteksi kata-kata yang sering muncul dengan nama lokasi. Analisa dilakukan secara manual oleh 2 orang anotator terhadap 1500 tweet dimana masing-masing sumber data menyumbang 500 tweet. Setiap anotator akan membuat daftar frasa kata yang terdiri dari rangkaian [kata pembuka/KB] nama lokasi [kata sambung/KS] nama lokasi [kata penutup/KT]

Contoh frasa yang dideteksi adalah “arah[KB] surabaya ramai[KT]” dan “lalin[KB] depan pasar lawang menuju[KS] surabaya macet[KT]”. Selanjutnya, dari frasa yang dideteksi ini dilakuan analisa

  lebih lanjut dengan menggunakan metode apriori [13] untuk mengetahui KB, KS dan KT yang secara meyakinkan bisa digunakan untuk mendeteksi nama lokasi secara otomatis. Sedangkan dalam pendekatan menggunakan Stanford NER, dilakukan pembuatan data training dengan melakukan tagging manual terhadap semua kata yang ada di 1500 tweet yang dianalisa pada metode rule based. Tag yang digunakan meliputi 0 untuk kata yang tidak penting, KB untuk kata pembuka, KS untuk kata sambung, KT untuk kata penutup dan LOK untuk lokasi. Contoh hasil tagging bisa dilihat di Tabel 2.

  Table 2. Contoh tagging suatu tweet

  Tag Term Thu Jun 20 14:45:04 WIT 2013 : RT @KurniaGanda: Macet di KB depan LOK sogo LOK TP LOK @e100ss ? http://t.co/QPtaCfosgL

  Kemudian, dari data training, akan dibuat model dengan standard Stanford NER. Model yang sudah dibuat dapat digunakan untuk melakukan proses pengenalan nama lokasi secara otomatis pada koleksi tweet yang dimiliki. Setelah rule dan model telah siap, langkah selanjutnya adalah melakukan evaluasi untuk mengetahui kinerja dari metode rule based dan Stanford NER terhadap data test yang juga terdiri dari 1500 tweet yang juga berasal dari ketiga data sumber dengan jumlah masing-masing 500.

Hasil Penelitian dan Pembahasan

  Dengan menggunakan metode apriori dengan batas nilai confidence 0,8 dan support 0,3 , didapatkan KB, KT dan KS yang memiliki korelasi terhadap nama lokasi adalah kata-kata seperti di, arah, lalin, sekitar, lintas, lantas, arah, -, lancar, terpantau, atau ke. Berdasarkan kata-kata ini kemudian dibuat aturan bahwa jika suatu frasa diawali oleh KB dan diakhiri dengan KT, maka kata yang berada diantaranya adalah kata lokasi. Selanjutnya, jika diantara kata tersebut terdapat KS, maka bisa diidentifikasi dua nama lokasi atau satu nama lokasi yang sifanya spesifik.Adapun hasil identifikasi nama lokasi dengan metode rule based ini bisa dilihat di Tabel 3.

  Table 3. Hasil deteksi menggunakan rule based

  P R F1 Data Sby Traffic Services 99,07% 98,88% 98,97% RTMC Ditlantas Jatim 98,73% 99,09% 98,91% Radio Suara Surabaya 85,71% 87,34% 86,52%

  Dari data di Tabel 3, bisa dilihat bahwa penggunaan rule based sangat baik jika sumber tweet adalah tweet yang terkontrol dengan baik. Tweet yang berasal dari Sby Traffic Services dan RTMC Ditlantas Jatim adalah tweet yang didominasi oleh kalimat dengan standar baku yang dibuat oleh pemilih akun. Sedangkan tweet dari Radio Suara Surabaya adalah tweet yang memiliki keanekaraman gaya bahasa lebih tinggi. Hal ini yang mungkin mempengaruhi perbedaan nilai precision dan recall untuk setiap data tes. Untuk metode Stanford NER, didapatkan hasil yang relatif lebih baik daripada menggunakan rule based. Namun sebelum hasil evaluasi didapatkan, perlu dilakukan proses penggabungan lokasi jika ada kata dengan tag LOK saling bersebelahan. Sebagai contoh, untuk tweet di Tabel 2, maka lokasi yang dideteksi bukanlah “depan”, “sogo”, “tp”, namun “depan sogo TP”. Hasil pengujian dengan metode ini bisa dilihat di Tabel 4.

  Table 4. Hasil deteksi menggunakan Stanford NER

  Data P R F1 Sby Traffic Services 99,81% 98,85% 99,33% RTMC Ditlantas Jatim 98,73% 99,09% 99,39% Radio Suara Surabaya 99.75% 99.49% 98,76%

  Dari Tabel 4 bisa dilihat bahwa hasil metode Stanford NER lebih baik dari pada rule based. Meskipun untuk data yang berasal dari Sby Traffic Services dan RTMC Ditlantas Jatim hasilnya hampir sama dengan rule based, namun peningkatan performa yang cukup baik terlihat pada data Radio Suara Surabaya. Sehingga bisa direkomendasikan bahwa untuk data tweet yang sifatnya terstruktur dengan baik dan seragam, bisa menggunakan rule based dan Stanford NER. Sedangkan untuk data tweet yang strukturnya beragam disarankan untuk menggunakan Stanford NER.

Kesimpulan

  Identifikasi nama lokasi terhadap tweet informasi lakukan bisa digunakan metode rule based maupun Stanford NER. Keduanya mampu mengidentifikasi nama lokasi dengan precision dan recall yang tinggi. Namun, sebagai catatan, untuk data tweet yang berasal dari berbagai macam sumber dengan gaya bahasa yang beraneka ragam disarankan untuk menggunakan Stanford NER. Adapun hasil rata-rata precision, recall, dan F1 untuk tweet dari Sby Traffic Services, RTMC Ditlantas Jatim dan Radio Suara Surabaya nemggunakan rule based dan Stanford NER secara berurutan adalah 94,5% , 95,10% , 94,8% dan 99,43% , 98,89% , 99,16%.

  Referensi [1] Wicaksono, A. F., & Purwarianti, A. (2010). HMM Based Part-of-Speech Tagger for Bahasa

Indonesia. In Proceedings of the 4th-International MALINDO Workshop (MALINDO2010).

  

[2] Pisceldo, F., Manurung, R., & Adriani, M. (2009). Probabilistic Part-of-Speech Tagging for

Bahasa Indonesia. In The Third International MALINDO Workshop, Colocated Event ACL-

  IJCNLP.

[3] Endarnoto, S. K., Pradipta, S., Nugroho, A. S., & Purnama, J. (2011, July). Traffic Condition

Information Extraction & Visualization from Social Media Twitter for Android Mobile

  Application. In Electrical Engineering and Informatics (ICEEI), 2011 International Conference on (pp. 1-4). IEEE.

[4] LI, Y., GUAN, Y., DONG, X., & LV, X. (2013). Language Modeling for Microblog Retrieval:

Combine Multiple-bernoulli Model and Temporal Prior for Tweets Rank. Journal of

  Computational Information Systems, 9(6), 2339-2346.

[5] Ishino, A., Odawara, S., Nanba, H., & Takezawa, T. (2012, October). Extracting Transportation

Information and Traffic Problems from Tweets during a Disaster. In IMMM 2012, The Second

  

International Conference on Advances in Information Mining and Management (pp. 91-96).

[6] Verma, S., Vieweg, S., Corvey, W. J., Palen, L., Martin, J. H., Palmer, M., ... & Anderson, K. M.

  (2011, May). Natural Language Processing to the Rescue? Extracting" Situational Awareness" Tweets During Mass Emergency. InICWSM.

[7] Cha, M., Haddadi, H., Benevenuto, F., & Gummadi, P. K. (2010). Measuring User Influence in

Twitter: The Million Follower Fallacy. ICWSM, 10, 10-17.

[8] Sriram, B., Fuhry, D., Demir, E., Ferhatosmanoglu, H., & Demirbas, M. (2010, July). Short text

classification in twitter to improve information filtering. InProceedings of the 33rd international

  ACM SIGIR conference on Research and development in information retrieval (pp. 841-842). ACM.

[9] Hannon, J., Bennett, M., & Smyth, B. (2010, September). Recommending twitter users to follow

using content and collaborative filtering approaches. InProceedings of the fourth ACM conference on Recommender systems (pp. 199-206). ACM.

[10] Mislove, A., Lehmann, S., Ahn, Y. Y., Onnela, J. P., & Rosenquist, J. N. (2011, July).

  Understanding the Demographics of Twitter Users. In ICWSM.

[11] Derczynski, L., Ritter, A., Clark, S., & Bontcheva, K. (2013). Twitter Part-of-Speech Tagging for

  All: Overcoming Sparse and Noisy Data. Proceedings of Recent Advances in Natural Language Processing (RANLP). Association for Computational Linguistics.

[12] Finkel, J. R., Grenager, T., & Manning, C. (2005, June). Incorporating non-local information into

information extraction systems by gibbs sampling. InProceedings of the 43rd Annual Meeting on

  Association for Computational Linguistics (pp. 363-370). Association for Computational Linguistics.

[13] Agrawal, R., & Srikant, R. (1994, September). Fast algorithms for mining association rules. In

Proc. 20th int. conf. very large data bases, VLDB (Vol. 1215, pp. 487-499).