Ekstraksi Informasi 5W1H pada Berita Online Bahasa Indonesia

  

Jurnal Cybermatika | Vol. 3 No. 1 | Juni 2015 | Artikel 6

  2. KAJIAN TERKAIT

  pada teks hasil penggabungan beberapa RE seperti menjelasakan siapa melakukan apa, kapan, dimana dan dengan cara apa. Proses pengenalan entitas dapat dilakukan untuk dokumen berita menghasilkan dokumen terstruktur dengan kelas seperti nama, seseorang, organisasi, lokasi/tempat, tanggal atau uang. Dalam penelitian ini kelas yang dituju adalah 5W1H. Proses ini merupakan bagian yang tidak bisa dipisahkan dari Ekstraksi Informasi yang secara utuh disebut sebagai Named Entity

  d. Event Extraction (EE): menggidentifikasi kejadian yang ada

  Recognition mahasiswadari (ilyas, itb), pembimbingdari(masayu, ilyas).

  hubungan antar entitas yang ditemukan melalui Named Entity

  c. Relation Extraction (RE): tugas dalam menentukan

  mengenali kata-kata pengganti seperti dia, itu, tesebut, mereka dan lainnya untuk mendapatkan kesetaraan jika dilakukan proses statistika atau untuk meningkatkan readability.

  b. Co-reference Resolution (CO): menyesaikan masalah dalam

  entitas dari setiap kata pada sumber asal yang kelompoknya didefinisikan sebagai target kelas seperti nama orang, organisasi, waktu, tempat atau pun kejadian.

  a. Named Entity Recognition (NER): proses pengenalan

  Penggunakan Ekstraksi Informasi ditujukan untuk mendapatkan informasi yang terstruktur dan dapat dipahami oleh mesin. Ada beberapa pekerjaan dalam Ekstraksi Informasi yaitu:

  Ekstraksi Informasi adalah proses yang bertujuan mengubah teks menjadi struktur yang terformat sekaligus mengurangi informasi yang ada pada dokumen menjadi struktur tabular (Eikvil, 1999). Dengan ekstraksi informasi, teks dari artikel berita dapat diperoleh bagian terpentingnya sesuai kebutuhan. Proses ekstraksi informasi dapat dilakukan dengan dua pendekatan, yaitu berbasis aturan dan statistik. Pendekatan berbasis aturan dilakukan dengan menerapkan aturan-aturan yang dibuat oleh pakar, sedangkan statistik dilakukan dengan pembelajaran terhadap sejumlah data latih (Appelt, 1999). Pendekatan yang paling umum dalam melakukan ekstraksi informasi adalah dengan penggalian teks/text mining. Penggalian teks didefinisikan sebagai cara melakukan penemuan otomatis informasi yang tidak ditemukan sebelumnya, dilakukan oleh komputer secara otomatis dan diambil dari sumber infomasi yang berbeda (Hearst, 2004).

  2.1 Ekstraksi Informasi

  Section ini akan membahas beberapa bidang kajian terkait yaitu ekstraksi informasi, pembelajaran mesin, dan ekstraksi event.

  Bagian selanjutnya akan membahas kajian terkait, dan desain eksperimen dibahas pada section 3. Hasil eksperimen dan diskusi dibahas pada section 4. Di akhir makalah, dibahas kesimpulan dari penelitian yang dilakukan.

  35 Ekstraksi Informasi 5W1H

pada Berita Online Bahasa Indonesia

  Makalah ini bertujuan untuk menginvestigasi model terbaik untuk ekstraksi informasi berita Bahasa Indonesia. Saat ini masih sedikit penelitian yang melakukan ekstraksi informasi secara otomatis dari berita Bahasa Indonesia.

  Masyarakat Indonesia sudah tidak bisa melepaskan diri dari penggunaan internet dalam kehidupan sehari-hari. Peningkatan pengguna internet pada tahun 2014 sebesar 34,9% atau 88,1 juta pengguna (APJII, 2015). Salah satu pemanfaatan internet adalah untuk penyediaan informasi melalui portal berita. Pertumbuhan pengguna diiringi dengan pertumbuhan jumlah portal berita. Dengan perkembangan portal berita maka berkembang pula jumlah berita online. Pertumbuhan portal berita berdampak pada melimpahya informasi. Dengan banyak informasi menimbulkan masalah kesulitan pencarian karena informasi penting tertutup oleh informasi yang tidak dibutuhkan (information overload). Informasi utama pada sebuah berita dapat dikategorikan 5W1H (what, who, when, where, why dan how). Berita terkategori sebagai berita lengkap jika memiliki informasi 5W1H yang menjadi informasi inti berita. Jika dalam satu buah berita tidak memiliki informasi utama, maka diperlukan informasi dari berita lain dengan topik bahasa yang sama. Untuk mendapatkan informasi utama, diperlukan sistem yang mampu mengekstraksi informasi lebih dari satu berita dengan teknik Ekstraksi Informasi.

   PENDAHULUAN

  Ekstraksi Informasi, 5W1H, Berita Online, Pembelajaran Mesin, IBk, SMOTE 1.

  Kata Kunci

  tes berita 0.377. Penelitian ektraksi 5W1H pada berita masih perlu dikembangkan untuk mendapatkan kinerja terbaik.

  bef-two- kelas) otomatis 0.948, dan hasil dengan 10 cluster data

  Pertumbuhan portal berita berdampak pada melimpahya informasi. Banyaknya informasi menimbulkan persoalan kesulitan pencarian informasi yang dibutuhkan karena informasi penting tertutup oleh informasi yang tidak dibutuhkan. Untuk mendapatkan informasi utama (5W1H), diperlukan sistem yang mampu mengekstraksi informasi dari berita secara otomatis. Pada penelitian ini, Ekstraksi Informasi digunakan dengan pendekatan pembelajaran mesin. Model terbaik didapatkan dengan menggunakan 16 fitur, SMOTE (Synthetic Minority Over-sampling ), dan algoritma IBk (Instance-based Learning). Hasil pengukurannya F-measure 10-fold cross validation 0.995, hasil tes dengan fitur window kelas (bef-one-kelas dan

  masayu@stei.itb.ac.id ABSTRAK

  Institut Teknologi Bandung

  ilyas@lecture.unjani.ac.id Masayu Leylia Khodra

  Universitas Jenderal Achmad Yani

  Ridwan Ilyas

  Recognition and Classification (NERC) (Grishman & Sundheim, 1996). Dalam prosesnya, NER melibatkan banyak faktor seperti faktor bahasa, jenis teks dan tipe entitas. Kemampuan dalam mengenali entitas yang paling utama merupakan tujuan utama dari NER. Secara umum, digunakan pendekatan pembelajan mesin. Beberapa algoritma yang terkategori Supervised learning dapat digunakan seperti

  Hidden Markov Model (Bikel, Miller, Schwartz, & Weischedel,

  2.3 Ekstraksi Event

  Pada bagian awal disebutkan penelitian ini menggunakan pembelajaran mesin. Teknik pembelajaran mesin dipakai untuk melakukan klasifikasi token dengan 16 fitur dan 13 kelas target. Secara umum ekeprimen dibagi menjadi dua proses yaitu pelatihan dan pengujian.

  3. DESAIN EKSPERIMEN

  3. Algoritma Dari penelitian sebelumnya diketahui bahawa algoritma C4.5 menunjukkan hasil paling baik. Pada penelitian ini digunakan kembali algoritma pohon keputusan yaitu ID3 yang dibandingkan hasilnya dengan algoritma IBk dan SVM. Dengan penggunaan algoritma yang lain diharapkan dapat menambah khasanah penetahuan.

  penambahan fitur, maka pada penelitian ini fitur yang digunakan sebanyak 16. Dari sejumlah fitur yang ada digunakan skenario pengujian kombinasi fitur untuk mendapatkan hasil terbaik.

  Sentence Number dan Location. Hasil penyederhanaan dan

  sebelum. Jumlah total fitur yang digunakan sebanyak 13. Pada penelitian ini dilakukan penyederhanaan dengan tidak menggunakan fitur Time Pattern dan Title Token. Selain penyederhanaan, dilakukan penambahan fitur baru yaitu

  Lexical, POS tag, NE tag, Left Prediction, Date Time Pattern, Title Token. Pada 4 group fitur awal ditambahkan dua fitur windows yang diambil dari satu token sebelum dan dua token

  2. Fitur Pada penelitian sebelumnya digunakan 6 group fitur yaitu:

  1. Dataset Pada penelitian sebelumnya digunakan 90 data set untuk pelatihan. Pada penelitian ini data set ditambahkan menjadi 190 berita bahasa Indonesia dengan topik yang berbeda. Dengan jumlah berita yang berbeda maka sebaran target kelas menjadi bertambah. Pada penelitian sebelumnya tidak dilakukan penanganan imbalanced dataset dengan SMOTE karena penggunaan algoritma AdaboostM1 yang mampu beradaptasi dengan imbalanced dataset.

  Pembaharuan dari penelitian terkait di atas yang ada pada penelitian ini adalah:

  Sebelumnya telah dilakukan penelitian Event Extraction yang bekerja dengan mengidentifikasi 5W1H pada berita online bahasa Indonesia (Khodra, 2015). Penelitian tersebut menggunakan teknik pelabelan BIO (Begin Inside Outside) dengan 13 kelas target. Pada penelitian tersebut digunakan algoritma pembelajaran C4.5 dan AdaboostM1 untuk penanganan imbalanced dataset. Hasil validasi terbaik menggunakan algoritma C4.5 dengan Fmeasure of 0.666.

  Dataset imbalanced adalah data dimana terdapat kelas/label dengan jumlah yang lebih dari pada yang lain, menyebabkan akurasi klasifikasi untuk kelas minoritas tersebut rendah. SMOTE (Synthetic Minority Over-sampling) adalah metode pengolahan data yang berguna untuk meningkatkan akurasi klasifikasi kelas minoritas (Chawla, 2002). SMOTE melakukan over-sampling pada kelas minoritas dengan membuat data sintetis tambahan pada dataset. SMOTE menghasilkan data sintetis dengan melakukan operasi pada ruang fitur alih-alih ruang data. Kelas minoritas dilakukan over-sampling dengan mengambil contoh dari masing-masing kelas minoritas dan data sintetis dihasilkan sepanjang segmen garis yang menghubungkan tetangga terdekat dari kelas minoritas tersebut.

  1997), Support Vector Machines (SVM) (Asahara & Matsumoto, 2003) dan Conditional Random Fields (CRF) (McCallum & Li, 2003). Kategori algoritma lain seperti Semi-

2.2 Pembelajaran Mesin

  tersebut adalah jarak antara hyperplane dengan data terdekat dari masing-masing kelas. Data terdekat dengan hyperplane disebut sebagai support vector.

  hyperplane yang memiliki margin maksimal dimana margin

  4. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama. Algoritma Support Vector Machine (SVM) adalah algoritma pembelajaran klasifikasi dan aturan regresi dari data (Burbidge & Buxton, 2011). Algoritma SVM terbukti secara empiris memberikan kinerja yang baik pada berbagai masalah pengenalan karakter tulisan tangan, pendekteksian wajah dan kategorisasi teks (Platt, 1998). Cara kerja algoritma SVM pada dasarnya adalah mencari sebuah hyperplane optimal yang dapat memisahkan data dengan tepat sehingga data terbagi sesuai dengan kelasnya (Boswell, 2002). Hyperplane optimal dapat dicari dengan cara mengukur margin hyperplane dan mencari titik maksimal antara keduanya. Algoritma SVM akan mencari

  3. Bagi kasus dalam cabang

  2. Buat cabang untuk masing-masing nilai

  1. Pilih atribut sebagai akar

  model pembelajaran namun menyimpan semua data pembelajaran yang ada sehingga semua perhitungan ditunda hingga saat klasifikasi (Michell, 1997). Algoritma ini mendefinisikan training data dalam bentuk atribut numerik berdimensi-n, dimana masing-masing dimensi merepresentasikan fitur data. Setiap data sampel direpresentasi dengan sebuah titik pada ruang dimensi tersebut. Dengan cara ini, semua training data disimpan pada pola ruang berdimensi- n. Data yang ingin diklasifikasikan mencari pola ruang K dari training data yang paling dekat. Jarak kedekatan antar tetangga dapat dihitung dengan eucledian distance. Algoritma C4.5 adalah algoritma dengan representasi pohon keputusan, bekerja dengan membentuk pohon dengan cabang sebagai pertanyaan kasifikasi dan daun sebagai kelas atau segmen dari pohon. Tahapan algoritma C4.5 dalam membentuk pohon keputusan adalah:

  based learning atau lazy learning sehingga tidak menghasilkan

  nama IBk adalah algoritma yang mengimplementasikan k- Nearest Neighbors (KNN). Algoritma ini adalah tipe instance-

  Tree dan Support Vector Machine. Instance Based Learning yang dalam aplikasi Weka diberi

  Pembelajaran mesin digunakan untuk membentuk model dari data beranotasi sehingga mampu melakukan ekstraksi berita. Setiap algoritma pembelajaran mesin memiliki karakteristik masing-masing dalam setiap model yang dibentuk dari data pembelajaran. Pada bagian ini dijelaskan tiga algoritma pembelajaran mesin yaitu Intance Based Learning, Decition

  supervised learning , juga unsupervised learning dapat dipakai untuk menemukan entitas pada dokumen.

36 Ridwan Ilyas, Masayu Leylia Khodra

  Pelatihan dilakukan untuk mendapatkan model statistika dari algoritma tertentu dengan tahapan yaitu:

  Set fitur ditentukan dengan melakukan analisa heuristic untuk setiap komponen 5W1H. Selanjutnya didefinisikan fitur yang akan digunakan untuk membentuk model. Masing-masing komponen 5W1H memiliki karakteristik yaitu:

  8 WHENB 164 39524

  9 WHENI 2087 39653

  10 WHYB 167 39579

  11 WHYI 1351 39169

  12 HOWB 159 39591

  13 HOWI 1377 39704

  3.3 Set Fitur

  1. Who/Siapa? a.

  6 WHATB 171 39501

  Merupakan subjek pelaku dari berita yang dibahas b.

  Menunjukkan orang, tokoh, jabatan atau organisasi tertentu c.

  Terdiri dari kumpulan kata benda d.

  Jika terdapat banyak subjek, maka yang dirujuk adalah yang muncul lebih awal e.

  Biasanya muncul pada kalimat pertama atau bagian awal berita f.

  Subjek biasa ditunjukan dengan hurup kapital pada setiap awal kata

  2. What/Apa? a.

  Merupakan predikat dari subjek yang dibicarakan b.

  7 WHATI 1507 39182

  5 WHOI 762 39624

  1. Anotasi: pemberian label secara manual pada setiap berita dengan menentukan frase 5W1H.

  Gambar 1 Hasil Anotasi Teks Berita

  2. Tokenisasi: memecah string teks berita dalam bentuk token (kata dan tanda baca) karena nantiknya akan dilakukan klasifikasi pada level token.

  3. Pemberian fitur: memberikan fitur pada setiap token dengan kakas dan menentukan fitur windows berdasarkan fitur-fitur token sebelumnya.

  4. Pemodelan: membentuk model (dalam bentuk file) sesuai algoritma yang digunakan. Pada masing- masing algoritma model yang dibentuk berbeda. Pengujian dilakukan untuk memberikan label pada setiap berita sehingga didapatkan frase 5W1H. Tahapan pengujian melalui beberapa tahap yang sama dengan pelatihan yaitu Tokenisasi dan Pemberian Fitur, sedangkan tahapan selanjutnya yang berbeda adalah: 1.

  Klasifikasi Token: memberikan label kelas pada token menggunakan model yang dibentuk dari algoritma pembelajaran mesin.

  2. Pembentukan Frase: menyusun setiap token sehingga membentuk frase 5W1H.

  3.1 Anotasi Berita

  Data untuk pembentukan model diberi tanda. Bagian berita yang merupakan komponen 5W1H ditandai menggunakan kakas anotasi. Hasil anotasi disimpan pada basis data untuk selanjutnya diproses. Setiap data yang telah dianotasi diberikan label tambahan. Label tersebut sebagai penanda awal dan akhir dari frasa pada berita untuk setiap komponen 5W1H. Pemberian tanda ini digunakan untuk mempermudah proses pemecahan setiap token pada proses berikutnya.

  Pada berita yang telah dianotasi akan memiliki penanda tambahan untuk menandai awal dan akhir frasa 5W1H. Dapat dilihat pada Gambar 1 bentuk berita yang telah memiliki penanda awal dan akhir bagian frasa 5W1H. Tanda tersebut akan digunakan dalam proses pemberian label kelas 5W1H. TEMPO.CO, WHEREB Jakarta WHEREL - WHATB Jadwal ujian nasional untuk sebelas provinsi telat dari Senin besok, namun diundur menjadi WHENB Kamis, 18 April 2013. WHENL Hamzah Lukman, WHOB Direktur PT Ghalia Indonesia Printing WHOL , rekanan yang bertugas mencetak dan mendistribusikan soal ke wilayah tersebut, menuturkan WHYB perusahaanya salah perhitungan ihwal pengadaan. WHYL "Kalau mencetak, kami sudah selesai, tapi ketika memasukan ke boks per sekolah itu yang kami kesulitan," kata Hamzah ketika ditemui di kantor Kementerian Pendidikan dan Kebudayaan, Ahad, 14 April 2013. Dia menyesal, seharusnya tidak HOWB mencetak soal untuk seluruh provinsi kemudian memilah-milah per wilayah HOWL.........................................................

  3.2 Dataset

  4 WHOB 177 39117

  Sejumlah data diambil dari beberapa portal media online berbahas Indonesia. Berita tersebut membahas banyak topik dan banyak kategori. Kepentingan dari berita pada penelitian ini dibagi dua yaitu untuk pembentukan model (data latih) dan untuk pengukuran kinerja (data uji).

  Pada penelitian ini digunakan 190 jumlah berita yang telah dianotasi 5W1H. Setiap berita tidak selalu memiliki komponen

  5W1H lengkap. Terdapat beberapa berita dengan informasi yang tidak utuh. Setelah berita dikonversi dalam bentuk dataset, terdapat 48602 instances. Dengan menggunakan Filter SMOTE maka setiap kelas diproses dengan parameter percentage yang berbeda. Hasil dari filter membuat sebaran data setiap kelas menjadi tidak jauh berbeda satu sama lain.

  Tabel 1 Sebaran Kelas Pada Dataset

  No Kelas Non-SMOTE SMOTE

  1 OTHER 39704 39704

  2 WHEREB 156 39156

  3 WHEREI 820 39360

  Diawali oleh kata kerja aktif atau positif

  38 Ridwan Ilyas, Masayu Leylia Khodra c.

  15 bef-one-class the

  2.d, 5.c 9 bef-one-token first token before current token

  3.b, 4.b, 4.c, 5.b, 6.b 10 bef-two-token second token before current token

  3.b, 4.b, 4.c. 5.b, 6.b

  11 bef-one-pos the pos tag of bef-one-token 1.c, 6.b

  12 bef-two-pos the pos tag of bef-two-token 1.c, 6.b

  13 bef-one-ne the ne tag of bef-one-token 1.c, 6.b

  14 bef-two-ne the ne tag of bef-two-token 1.c, 6.b

  5W1H class of bef- one-token Semua

  3.a, 4.a, 4.c, 5.c, 7.b 7 sentence_num ber number position of sentence 1.b, 1.d, 2.d,

  16 bef-two-class the

  5W1H class of bef- two-token Semua

  17 class class of current token Semua

  3.4 Kakas

  Dalam penelitian ini digunakan kakas untuk membantu proses eksperimen. Kakas tersebut terdiri dari kakas yang sudah ada dan kakas yang dibuat dengan memprogram terlebih dahulu. Kakas yang dibuat berbasis bahasa pemrograman java yang dijalankan secara off-line. Pengeloan data menggunakan berkas ekternal tanpa mengunakan DBMS. Berikut ini kakas yang dipakai dalam eksperimen pada penelitian ini:

  1. INA-NLP digunakan pengambilan fitur-fitur token. (Purwarianti, Ina NLP)

  2. Weka, digunakan untuk melakukan eksperimen ekstraksi dengan pembelajaran mesin berdasarkan kombinasi fitur dan algoritma 3. Program buatan sendiri untuk peringkasan.

  3.a, 4.a, 4.c, 5.c, 6.b 8 location position of token in document {first, middle, last}

  1.c, 2.a, 2.c, 6.b 6 ne name entity tag of token {organization, person, location, date time, quantity} 1.b, 1.d, 2.d,

  Selain kata kerja, bisa juga diikuti oleh kata benda atau kata keterangan d.

  Merupakan penjelasan dari kejadian b.

  Muncul pada paragraf atau bagian awal dari berita 3. Where/Dimana? a. Merupakan bagian dari berita yang menunjukkan dari lokasi kejadian b.

  Biasanya diawali oleh preposisi “di” c. Asumsi tempat bisa diambil dari lokasi berita diterbitkan d.

  Bisa terbentuk dalam rangkaian lokasi dari tingkat terendah sampai tertinggi (contoh: kota, profinsi, negara) 4. When/Kapan? a. Merupakan penunjuk waktu dari kejadian b.

  Biasanya diawali oleh preposisi “pada”, “ketika” c. Struktur yang paling umum diawali dengan hari kemudian tanggal atau biasanya ditambah dengan keterangan waktu dalam bentuk angka 5. Why/Kenapa? a. Merupakan alasan dari kejadian terjadi b.

  Biasanya diawali oleh kata “karena”, “disebabkan oleh” c.

  Muncul pada bagian tengah atau akhir dari bagian berita

  6. How/Bagaimana? a.

  Karakteristik susunan jenis kata hampir sama dengan what c.

  5 pos part of speech tag of token{ noun, verb, adjective, adverb }

  Muncul pada bagian tengah dan akhir dari berita Dari hasil analisis setiap komponen 5W1H, maka didefinisikan 16 buah fitur . Fitur yang digunakan terkait dengan hasil analisa dan ketersediaan pada kakas yang dipakai.

  No Fitur Deskripsi Karakter

  5W1H

  1 token current token as string Semua

  2 token_kind type of token {word, number, punctual} 4.c

  3 contextual context of token {country, person prefix, preposition, ext}

  1.b, 3.a, 3.b, 3.d, 4.b 4 morphological structure of token {upper case, title case, lower case, 1.f,4.a, 4.c digit, ext}

  4. Program buatan sendiri untuk melakukan praproses.

4. HASIL EKSPERIMEN DAN PEMBAHASAN

  Eksperimen dilakukan dengan sejumlah skenario fitur dan algoritma. Eksperimen dilakukan dengan dua data set berbeda yaitu data set tanpa SMOTE dan dataset yang telah diproses menggunakan SMOTE.

  13 HOWI 0.998 0.999 0.948

  12 HOWB 0.995 0.979 0.950

  11 WHENI 0.997 0.999 0.958

  Tabel 3 Skenario Pengujian Fitur

  10 WHENB 0.993 0.981 0.926

  4.3 Pemodelan Menggunakan SVM

  Hasil pengukuran 10-Fold Cross-Validation (CV) dengan

  algoritma SVM nilai terbaik terdapat pada skenario fitur A dengan SMOTE 0.978.

  Tabel 6 F-measure 10-Fold CV dengan SVM

  No Skenario Non-SMOTE SMOTE

  1 A 0.936 0.978

  2 B 0.633 0.938

  3 C 0.371 0.851

  Pengujian skenario dan dataset selalu menujukan hasil terbaik dengan skenario A dan dataset SMOTE pada setiap algoritma. Pada tabel 4 terdapat detail hasil 10-Fold Cross-Validation dengan skenario A dan Dataset SMOTE pada setiap target kelas.

  Tabel 7 F-Measure 10-Fold CV Setiap Kelas dengan Skenario A dan Dataset SMOTE

  No Kelas

  IBK

  ID3 SVM

  1 OTHER 0.974 0.948 0.989

  2 WHEREB 0.998 0.997 0.816

  3 WHEREI 0.999 0.999 0.924

  4 WHOB 0.999 0.998 0.947

  5 WHOI 0.999 0.999 0.947

  6 WHATB 0.998 0.998 0.938

  7 WHATI 0.997 0.998 0.952

  Rata-rata 0.995 0.992 0.978 Hasil pengukuran setiap kelas menunjukkan kinerja yang berbeda untuk setiap algoritma. Hal paling menonjol ditunjukkan oleh algoritma SVM yang memiliki kemampuan tertinggi untuk mengklasifikasi kelas OTHER. Jumlah kelas dengan nilai tertinggi didapat dengan algoritma IBK tetapi terdapat beberapa kelas yang menujukan hasil yang sama dengan algoritma ID3.

  8 WHYB 0.998 0.998 0.959

  9 WHYI 0.998 0.998 0.952

  6 ne

  NO Fitur Skenario

  A B C

  1 token

  

  2 token_kind

  

  3 contextual

  

  4 morphological

  

  5 pos

  

    

  3 C 0.592 0.978

  7 sentence_number

   

  8 location

  

  9 bef-one-token 10 bef-two-token 11 bef-one-pos   12 bef-two-pos 13 bef-one-ne 14 bef-two-ne 15 bef-one-class    16 bef-two-class

4.1 Pemodelan Menggunakan IBK

  Hasil pengukuran 10-Fold Cross-Validation (CV) dengan

  algoritma

  IBk nilai terbaik terdapat pada skenario fitur A dengan SMOTE 0.995.

  Tabel 4 F-measure 10-Fold CV dengan IBk

  No Skenario Non-SMOTE SMOTE

  1 A 0.654 0.995

  2 B 0.629 0.851

4.2 Pemodelan Menggunakan ID3

  3 C 0.510 0.963

  1 A 0.682 0.992

  No Skenario Non-SMOTE SMOTE

  Tabel 5 F-measure 10-Fold CV dengan ID3

  ID3 nilai terbaik terdapat pada skenario fitur A dengan SMOTE 0.992.

  4.4 Pengaruh Klasifikasi Otomatis Fitur Bef- One-Class Dan Bef-Two-Class

  Dari hasil pengujian sebelumnya didapat bahwa skenario A memiliki kinerja paling baik pada ketiga algoritma dan penggunaan filter SMOTE juga berpengaruh dalam meningkatkan kinerja. Namun pada pengujian di atas, fitur bef-

  one-class dan bef-two-class diambil langsung dari label data.

  Pada bagian ini dilakukan pengujian dimana setiap instance diprediksi dengan fitur bef-one-class dan bef-two-class diambil dari hasil kasifikasi instance sebelumnya. Dari hasil pengujian

  algoritma

  Hasil pengukuran 10-Fold Cross-Validation (CV) dengan

  2 B 0.630 0.852 didapat nilai F-measure algoritma IBk 0.948, J48 0.231 dan SVM 0.637. Dari semua target kelas, nilai tertinggi didapat dengen menggunakan algoritma IBK. Tidak seperti pengujian sebelumnya dimana nilai tertinggi pada setiap kelas bisa didapat dari algoritma yang berbeda.

  Tabel 8 F-Measure 10-Fold CV Setiap Kelas dengan fitur windows kelas otomatis

  No Kelas F-measure

  5W1H untuk data latih. Dari hasil pengukuran komponen yang paling besar nilai kinerjanya adalah WHEN dengan F-Measure

  Bagian terakhir dari pengujian ekstraksi informasi adalah pengukuran kinerja ekstraksi untuk setiap komponen/slot

  10 Testing-10 0.323

  9 Testing-9 0.346

  8 Testing-8 0.401

IBK J48 SVM

  No Kelas F-measure

  Measure

  Tabel 10 F-measure Kinerja Ekstraksi Setiap Slot 5W1H

  2 WHAT 0.549

  3 WHEN 0.627

  4 WHERE 0.139

  5 WHY 0.176

  6 HOW 0.261

  Nilai terendah ditunjukkan oleh slot WHERE dengan F-

  1 WHO 0.366

  0.139. Rendahnya nilai slot WHERE dapat disebabkan dari dua hal, pertama tidak konsistennya elemen WHEREB dimana dalam beberapa frasa diawali dengan kata sambung penunjuk lokasi seperti kata “di”, sedangkan frasa lain tidak mengandung kata tersebut. Sebab kedua adalah saat melakukan anotasi frase WHERE diambil dari bagian yang menunjukan dari lokasi kejadian (biasanya bersatu dengan dengan kalimat WHAT atau mengikuti setelahnya) dan jika tidak ditemukan maka diambil dari tempat berita diterbitkan (biasanya muncul di bagian awal berita).

  waktu (hari dan tanggal) menjadi paling mudah untuk ambil dari sebuah berita. Salah satu faktor lain menjadikan slot ini mudah dideteksi adalah kecilnya ruang fitur token yang hanya berisi kumpulan hari.

  7 WHATI 0.978 0.211 0.517

  1 OTHER 0.994 0.717 0.687

  2 WHEREB 0.822 0.256 0.604

  3 WHEREI 0.961 0.069 0.852

  4 WHOB 0.978 0.372 0.633

  5 WHOI 0.968 0.220 0.674

  6 WHATB 0.957 0.327 0.524

  8 WHYB 0.969 0.248 0.377

  0.948 0.231 0.637

  9 WHYI 0.970 0.113 0.563

  10 WHENB 0.885 0.116 0.629

  11 WHENI 0.972 0.142 0.608

  12 HOWB 0.893 0.140 0.678

  13 HOWI 0.979 0.131 0.687

  Rata-rata

  0.627. Struktur dari slot WHEN yang spesifik menunjukkan

4.5 Pengukuran Dengan Data Tes

  7 Testing-7 0.414

  6 Testing-6 0.261

  5 Testing-5 0.358

  3 Testing-3 0.319

  2 Testing-2 0.454

  1 Testing-1 0.401

  No Kode F-measure

  Tabel 9 F-measure Pengujian Data Tes Setiap Cluster Berita

  latih otomatis membuat isi dari instance yang prediksi menjadi _NULL_ sehingga tidak mampu diprediksi atau terprediksi salah.

  vocaburary . Dengan tidak ditemukannya fitur token pada data

  Pengukuran setiap cluster berita didapat nilai F-Measure rata- rata 0.346. Rendahnya nilai testing disebabkan masalah out of

  5. KESIMPULAN

  Dari hasil pengukuran kinerja skenario fitur didapat nilai F- measure tertinggi dengan menggunakan 16 fitur yaitu: token, token_kind, contextual, morphological, pos, ne, sentence_number, location, bef-one-token, bef-two-token, bef- one-pos, bef-two-pos, bef-one-ne, bef-two-ne, bef-one-kelas, bef-two-kelas. Penggunaan filter Synthetic Minority Over- sampling Technique (SMOTE) mampu menangani permasalah imbalance dataset berita 5W1H dengan hasil nilai kinerja yang meningkat. Model terbaik pada penelitian ini adalah menggunakan keseluruhan 16 fitur, dataset dengan SMOTE dan algoritma IBk dengan hasil pengukuran F-Measure 10-Fold Validation 0.995, hasil tes dengan fitur window kelas (bef-one- kelas dan bef-two-kelas) otomatis 0.948 dan hasil dengan 10 cluster berita sebagai data tes 0.377. Hasil pengukuran untuk setiap slot 5W1H nilai tertinggi terdapat pada slot WHEN dengan F-Measure 0.627 dan nilai terendah pada slot WHERE dengan F-Measure 0.139. Rendahnya kemampuan mengekstraksi slot where disebabkan tidak konsistennya saat anotasi dan tidak konsistenya keberadaan kata sambung penanda lokasi (di). Masalah lain yang ditemukan pada penelitian ini adalah out of vocaburary.

  Data tes yang digunakan pada eksperimen ini 10 cluster berita dengan jumlah total 34 berita. Pengukuran dilakukan terhadap seluruh berita, lalu dihitung rata-rata untuk setiap cluster dan rata-rata keseluruhan data tes. Pengukuran dengan data tes menggunakan skenario A dengan algoritma IBk, karena memiliki kinerja tertinggi pada pengujian pertama.

  4 Testing-4 0.218

40 Ridwan Ilyas, Masayu Leylia Khodra

  Penelitian selanjutnya akan memperbaiki kinerja model, dan memanfaatkan model ekstraksi 5W1H untuk peringkasan berita.

  6. Proc. International Conference on

  Purwarianti, A. (n.d.). Ina NLP. Bandung, Jawa Barat, Indonesia.

  Michell, T. (1997). Machine Learning. McGraw-Hill. Platt. (1998). Fast Training of Support Vector Machine using Sequential Minimal Optimization.

  ICAICTA2015 IEEE Explore. McCallum, A., & Li, W. (2003). Early Results for Named Entity Recognition with Conditional Random Fields, Features Induction and Web-Enhanced Lexicons. Conference on Computational Natural Language Learning .

  International Conference on Advanced Informatics: Concepts, Theory and Application (ICAICTA2015). Chonburi:

  Hearst, M. (2004). What is text mining. Retrieved from http://www.sims.berkeley.edu/˜hearst/textmining.html Khodra, M. L. (2015). Event Extraction on Indonesian News Article Using Multiclass Categorization. The 2015

  Computational Linguistics .

  Eikvil, L. (1999). Information Extraction From World Wide Web - A Survey. Grishman, R., & Sundheim, B. (1996). Message Understanding Conference -

6. DAFTAR PUSTAKA

  APJII. (2015, Maret 23). www.apjii.or.id . (Asosiasi Penyelenggara Jasa Internet Indonesia) Retrieved from http://www.apjii.or.id/read/content/info-terkini/301/pengguna- internet-indonesia-tahun-2014-sebanyak-88.html Appelt. (1999). Introduction to Information Extraction Technology.

  sampling Technique .

  Chawla, N. V. (2002). SMOTE: Synthetic Minority Over- sampling Technique. SMOTE: Synthetic Minority Over-

  Boswell. (2002). Introcution to Support Vector Machines. Burbidge, R., & Buxton, B. (2011). An Introduction to Support Vectot Machines for Data Mining.

  Proc. Conference on Applied Natural Language Processing .

  Bikel, D. M., Miller, S., Schwartz, R., & Weischedel, R. (1997). Nymble: a High-Performance Learning Name-finder.

  Language Technology conference - North American chapter of the Association for Computational Linguistics .

  Asahara, M., & Matsumoto, Y. (2003). Japanese Named Entity Extraction with Redundant Morphological Anal ysis. Human

Dokumen yang terkait

05 Penerapan Tekonologi Informasi dan Industri pada UMKM

0 0 10

Perancangan Sistem Informasi Pembelian Dan Penjualan Pada Bengkel Ishfa Motor Oleh : Ifan Wicaksana Siregar ifan.w.siregargmail.com Abstrak - Index of /pdf

0 0 22

PENGARUH ETIKA PROFESI AUDITOR TERHADAP PERTIMBANGAN TINGKAT MATERIALITAS DALAM PEMERIKSAAN LAPORAN KEUANGAN (Studi Empiris pada Kantor Akuntan Publik di kota Bandung) Bani Binekas Email: bani.binekasgmail.com Abstract - Index of /pdf

0 0 20

PENGARUH UKURAN KANTOR AKUNTAN PUBLIK DAN AUDIT TENURE TERHADAP KUALITAS AUDIT (Studi Empiris Pada Perusahaan Manufaktur Yang Terdaftar Di Bursa Efek Indonesia Tahun 2009-2012)

0 0 7

ANALISIS PENGARUH INDEPENDENSI AUDITOR, MEKANISME CORPORATE GOVERNANCE, KUALITAS AUDIT DAN MANAJEMEN LABA TERHADAP INTEGRITAS LAPORAN KEUANGAN (Studi Empiris pada Perusahaan Manufaktur yang Terdaftar di Bursa Efek Indonesia tahun 2010 - 2012)

2 7 7

PENGARUH FINANCIAL DISTRESS, OPINI AUDIT TAHUN SEBELUMNYA, DAN KUALITAS AUDIT TERHADAP PENERIMAAN OPINI AUDIT MODIFIKASI GOING CONCERN (Studi Pada Perusahaan Manufaktur yang Terdaftar di Bursa Efek Indonesia Tahun 2009-2012)

0 2 13

Update Summarization Untuk Kumpulan Dokumen Berbahasa Indonesia

1 1 5

Ekstraksi Keyframe dengan Entropy Differences untuk Temu Kembali Konten Video berbasis Speeded-Up Robust Feature

0 0 6

Pengembangan Purwarupa Aplikasi Mobile untuk Pemeriksaan Bacaan dan Hafalan Ayat Al- Qur’an pada Sistem Operasi Android

0 0 7

Implementasi Pendeteksi Code Clone pada Online Judge Sebagai Sarana Mengurangi Kecurangan Akademik Mahasiswa Program Studi Ilmu Komputer

0 0 6