Penerapan Named Entity Recognition Untuk Mengenali Fitur Produk Pada E-Commerce Menggunakan Rule Template Dan Hidden Markov Model

Vol. 2, No. 10, Oktober 2018, hlm. 3912-3920 http://j-ptiik.ub.ac.id

Penerapan Named Entity Recognition Untuk Mengenali Fitur Produk Pada

E-Commerce Menggunakan Rule Template Dan Hidden Markov Model

₁ ₂ ₃ M. Yusron Syauqi Dirgantara , Mochammas Ali Fauzi , Rizal Setya Perdana

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya ₁ ₃ Email: [email protected] [email protected]

Abstrak

Teknologi informasi dengan adanya internet memberikan dampak perkembangan perdagangan elektronik atau e-commerce yang memperoleh banyak popularitas. Data APJII tahun 2016 menyatakan sebanyak 130,8 juta penduduk Indonesia menggunakan internet untuk menawarkan barang dan jasa. Di dalam manajemen e-commerce terdapat customer service yang bertugas untuk menangani segala macam pertanyaan yang disampaikan oleh pelanggan. Penyampaian informasi oleh customer service biasanya melalui call center atau aplikasi chatting. Di dorong kemampuan intelligent digital assistants chatbot banyak digunakan untuk membantu pekerjaan customer services. Dibutuhkan suatu analisis terhadap bahasa pelanggan pada chatbot agar dapat dikenali informasi apa saja yang terdapat pada pertanyaan tersebut, sehingga dibutuhkan klasifikasi dan ektrasi informasi agar mendapatkan informasi penting yang dibutuhkan oleh chatbot dalam menjawab pertanyaan dari pelanggan. Named Entity Recognition (NER) merupakan bagian dari ekstraksi informasi yang bertugas untuk pengklasifikasi teks dari sebuah dokumen atau korpus yang dikategorikan kedalam beberapa kelas seperti nama orang, lokasi, bulan, tanggal, waktu dan sebagainya. Ekstrasi nama secara otomatis dapat berguna untuk mengatasi beberapa permasalahan seperti pada mesin terjemahan, pencarian informasi, tanya jawab dan peringkasan teks. Pada penelitian ini NER yang dilakukan menggunakan metode Hidden Markov Model dan Rule

Template dengan 6 entitas yaitu MEREK, TIPE, HARGA, SPEK, N_SPEK dan N_TAG. Secara

keseluruhan pengenalan entitas yang dilakukan pada penelitian ini menghasilkan nilai akurasi pada Rule Template sebesar 97.20% dan nilai akurasi pada Hidden Markov Model sebesar 92.23%.

Kata kunci: e-commerce, Named Entity Recognition, Hidden Markov Model, Rule Template, information

extraction

Abstract

Information technology with the Internet gives the impact of the development of electronic commerce or

e-commerce that gained a lot of popularity. APJII data in 2016 states as many as 130.8 million

Indonesians use the internet to offer goods and services. In e-commerce management there is customer

service that is tasked to handle all of questions submitted by customers. Submission of information by

customer service is usually through a call center or chat application. In thrust the ability of intelligent

digital assistants chatbot is widely used to help the work of customer services. It takes an analysis of the

customer's language on chatbot in order to be able to recognize what information is contained in the

question, so it takes the classification and extracting of information in order to get important information

needed by chatbot in answering questions from customers. Named Entity Recognition (NER) is part of

the extraction of information assigned to the classification of text from a document or corpus categorized

into classes such as person's name, location, month, date, time and so on. Automatic name extraction

can be useful for addressing some issues such as translation engines, information retrieval, frequently

asked questions and text summary. In this study NER is done using the method of Hidden Markov Model

and Rule Template with 6 entities i.e. BRAND, TYPE, PRICE, SPEK, N_SPEK and N_TAG. Overall

introduction of entities conducted in this study resulted in accuracy value in the Rule Template of

97.20% and the accuracy value in the Hidden Markov Model of 92.23%.

Keywords: e-commerce, Named Entity Recognition, Hidden Markov Model, Rule Template, information

extraction Fakultas Ilmu Komputer Universitas Brawijaya

3912

1. PENDAHULUAN

(HMM). Pemilihan Rule Template dan HMM sebagai algoritme pada penelitian ini didasari karena pada penelitian yang dilakukan (Chopra, et al., 2012) menggunakan HMM mendapatkan akurasi 89.78% dan 94.61% dengan penambahan algoritme Rule based Heuristics, dibandingkan dengan penelitian yang dilakukan oleh (Mansouri, et al., 2008) menggunakan metode Support Vector Machine (SVM) dengan akurasi 86.40% dan metode HMM juga unggul pada penelitian (Dey, et al., 2014) dengan penambahan algoritme Rule Based Approaches dengan akurasi 90.69%. Menggunakan metode HMM dalam perhitungan dikenal dengan

entry , order confirmation, electronic payment,

, electronic catalogs, order

product presentation

Perdagangan elektronik atau e-commerce merupakan sebuah aktivitas bisnis seperti pertukaran informasi, sistem manajemen inventaris otomatis, pengumpulan data otomatis dan transaksi yang menggunakan teknologi informasi dan komunikasi. Fasilitas internet yang memiliki layanan get and deliver pada website dapat digunakan untuk berdagang maupun berbelanja secara direct selling. Dapat diambil kesimpulan bahwa e-commerce adalah aktivitas penjualan dan pembelian suatu produk baik jasa maupun benda melalui jaringan internet sebagai media pertukaran informasi dan transaksi. Menurut (Nickerson, 2002) fungsi atau fitur e-commerce secara umum meliputi

2.1. E-Commerce

2. STUDI PUSTAKA

Additive Smoothing dalam melakukan perhitungan HMM (Haulrich, 2009).

estimasi Maximum likelihood dapat menyebabkan masalah karena transisi yang tidak terlihat diberi probabilitas nol. Untuk menghindari hal tersebut dapat menggunakan

Maximum likelihood estimate. Menggunakan

Internet adalah jaringan informasi komputer mancanegara yang berkembang sangat pesat. Bedasarkan data Asosiasi Penyelenggara Jasa Internet Indonesia (APJII) tahun 2016 menyatakan 132,7 dari 256,2 juta penduduk Indonesia menggunakan internet. Teknologi messaging telah menyebar dengan cepat selama beberapa tahun terakhir menjadi salah satu layanan smartphone yang paling banyak digunakan. Sejalan dengan meningkatnya peranan teknologi informasi juga berdampak dalam bidang bisnis. Line, WeChat dan Facebook mereka telah berevolusi untuk menyertakan fitur seperti pembayaran, pemesanan yang tidak memerlukan aplikasi atau situs web yang terpisah. Teknologi informasi saat ini telah mengakibatkan perkembangan perdagangan elektronik atau e-commerce yang memperoleh banyak popularitas. Data APJII tahun 2016 menyatakan sebanyak 130,8 juta penduduk Indonesia menggunakan internet untuk menawarkan barang dan jasa (Guzman & Panthania, 2016). Di dalam manajemen e-

commerce

Penelitian ini akan menggunakan metode

merupakan bagian dari ekstraksi informasi yang bertugas untuk pengklasifikasi teks dari sebuah dokumen atau korpus yang dikategorikan kedalam beberapa kelas seperti nama orang, lokasi, organisasi, bulan, tanggal, waktu dan sebagainya. Ekstrasi nama secara otomatis dapat berguna untuk mengatasi beberapa permasalahan seperti pada mesin terjemahan, pencarian informasi, tanya jawab dan peringkasan teks. Misalnya, pertanyaan untuk mengidentifikasi kata tanya (siapa, apa, kapan, dimana, dll), jadi kebanyakan kata tanya sesuai dengan entitasnya. Tujuan yang diharapkan dari proses dari NER adalah untuk melakukan ekstraksi dan klasifikasi entitas ke dalam beberapa kategori dengan mengacu kepada makna yang tepat (Mansouri, et al., 2008).

Named Entity Recognition (NER)

dalam perkembangan chatbot, didorong oleh kemampuan intelligent digital assistans yang selalu tersedia untuk memenuhi permintaan pelanggan dengan murah, cepat dan konsisten (Guzman & Panthania, 2016).

customer service , terdapat minat yang kuat

yang terbatas dengan jumlah pelanggan yang lebih banyak menjadi suatu kendala. Untuk itu diperlukan suatu teknologi media layanan informasi yang dapat merespon setiap pertanyaan pelanggan tanpa ada keterbatasan waktu dan jumlah customer service. Di dalam

service biasanya melalui call center atau aplikasi chatting . Akan tetapi, jumlah customer service

cepat jika ada yang bertanya mengenai produk, sistem pembayaran, maupun permasalahan lainnya. Penyampaian informasi oleh customer

customer service diharuskan merespon secara

terdapat customer service yang bertugas untuk menangani segala macam pertanyaan yang disampaikan oleh pelanggan.

Rule Template dan Hidden Markov Model

order fulfillment

5. q ^{o ,q f , sebagai kondisi awal dan kondisi} akhir (final) yang tidak berhubungan dengan pengamatan.

Q = q ^{1 q} ² …q ^{N , sebagai kumpulan N} kondisi.

2. A = a ^{01 a} ⁰² …a ⁿ¹ …a ^{nn , A merupakan} matriks transition probability. Setiap a ij mewakili probabilitas perpindahan dari kondisi i ke kondisi j.

3. O = o ^{1 o} ^{2 …o t , merupakan urutan dari t} pengamatan masing-masing diambil dari kosakata.

4. B = b ^{i (o t ), merupakan urutan} pengamatan likelihood, disebut juga

emission probabilities yang mana

masing-masing mewakili probabilitas dari pengamatan o t yang dihasilkan dari kondisi i.

Maximum likelihood estimate untuk

2.4. Hidden Markov Model Hidden Markov Model (HMM) dapat

mengitung transition probability: (

−1

) =

( −1

, ) ( −1

)

dikatakan sebagai model urutan yang mana tugasnya memberikan label atau kelas ke masing-masing unit secara berurutan. HMM adalah model urutan probabilistik urutan dari unit-unit (kata, huruf, morfem, kalimat dan lain sebagainya) yang kemudian dihitung nilai distribusi probabilitas untuk didapatkan urutan label yang memungkinkan dan memilih urutan label yang terbaik. HMM ditentukan oleh komponen-komponen berikut, yaitu (Jurafsky & Martin, 2017) : 1.

representasi data yang kumudian dapat digunakan untuk kompresi data, klasifikasi, pengambilan keputusan dan keperluan lainnya (Mansouri, et al., 2008).

, and customer service. Pada saat sebelum, selama, atau setelah pembelian produk, pelanggan mungkin membutuhkan pelayanan khusus.

summarization . Tujuan yang diharapkan dari

2.2. Text Mining Text mining merupakan suatu proses untuk

mengekstrak pola dalam mengeksplorasi pengetahuan dari sumber data yang berbentuk teks. Proses Text mining dimulai dengan mengumpulkan data dari berbagai sumber yang tersedia dalam berbagai format file seperti teks biasa, halaman web, file pdf dan sebagainya. Kemudian melakukan pre-processing dan pembersihan data dilakukan untuk mendeteksi dan menghapus anomali pada data. Proses pembersiha harus memastikan untuk menangkap esensi teks sebenarnya yang tersedia. Pemrosesan dan pengedalian diterapkan untuk mengaudit kemudian membersihkan data dengan pemrosesan otomatis. Setelah itu dilakukan analisis pola pada data guna memperoleh informasi yang berharga dan relevan (Talib, et al., 2016).

2.3. Named Entity Recognition Named Entity Recognition (NER)

merupakan bagian dari ekstraksi informasi yang bertugas untuk pengklasifikasi teks dari sebuah dokumen atau korpus yang dikategorikan seperti nama orang, lokasi, organisasi, tanggal, waktu dan sebagainya. NER diimplementasikan dalam banyak bidang, antara lain dalam machine

translation , question-answering machine system , indexing pada information retrieval,

klasifikasi dan juga dalam automatic

proses dalam NER adalah untuk melakukan ekstraksi dan klasifikasi nama ke dalam beberapa kategori dengan mengacu kepada makna yang tepat (Mansouri, et al., 2008). Bukan hal sulit dalam menerapkan NER, karena banyak named entity diawali dengan huruf kapital sehingga mudah dikenali. Sebagai contoh pengenalan NER pada Bahasa Indonesia:

unsupervised bertujuan untuk membangun

“Sabrina Nurfadilla/PERSON pada jam

07:00/TIME pergi menuju kampus Universitas Brawijaya/ORGANIZATION di Malang/LOC

” Pada NER Terdapat dua jenis model

machine learning atau pembelajaran mesin yang

dapat digunakan, yaitu supervised learning dan

unsupervised learning . Pada Supervised learning

yaitu menggunakan program yang dapat belajar untuk mengklasifikasikan kumpulan data yang diberikan berdasarkan label yang telah dibuat dengan jumlah fitur yang sama. Pembelajaran ini disebut terbimbing karena data latih yang ada digunakan untuk ‘mengajari’ komputer agar dapat mengenali data. Pada unsupervised learning model belajar tanpa umpan balik apapun, di dalam

(1) Keterangan:

( |

2.6 Additive Smoothing

Mungkin metode smoothing yang paling sederhana dikenal adalah Additive smoothing dimana terdiri dari penambahan konstanta c untuk semua frekuensi (termasuk frekuensi nol dari kata yang tidak terlihat) dan kemudian menghasilkan estimasi maximum likelihood yang baru. Bergantung pada nilai c, metode ini mempunyai nama yang berbeda. Untuk c yang bernilai 1 dikenal sebagai Laplace dan c yang yang bernilai 0.5 disebut sebagai Lidstone atau

Expected Likelihood Estimation (Nivre, 2000).

Pada penelitian yang dilakukan Haulrich tahun 2009 Menggunakan estimasi maximum

likelihood dapat menyebabkan masalah karena

transisi yang tidak terlihat diberi probabilitas nol. Untuk Menghindari hal tersebut menggunakan penambahan smoothing dalam perhitungan pada Hidden Markov Model ketika menghitung probabilitas (Haulrich, 2009). Penerapan Additive smoothing pada transition

probability dapat dilakukan menggunakan Persamaan 4.

| |+ | |+| |

(3) Keterangan: V t-1 (i) : probabilitas jalur Viterbi sebelumnya dari langkah waktu sebelumnya

(4)

Keterangan:

q k q m merupakan nilai transition probability dari kondisi q k ke kondisi q m dan C merupakan nilai

additive smoothing,

dalam penelitian ini menggunakan lidstone yaitu 0.5 sedangkan QA merupakan jumlah entitas yang akan dikenali. Penerapan Additive smoothing pada emission

probability dapat dilakukan menggunakan Persamaan 5.

( ) = | , |+ | |+| |

(5) Keterangan: b ⁱ (o ^t ) adalah nilai emission probability, dengan o ^t adalah kata ke t dan q i adalah kondisi ke i dan C merupakan nilai additive

: probabilitas transisi dari kondisi sebelumnya a ⁱ ke kondisi sekarang a ^j b j (o t ) : kemungkinan kondisi pengamatan dari o t berdasarkan kondisi j sekarang

= 1 ( ) ( )

−1

memiliki tag ke i, C(t i ,wi) adalah jumlah kemunculan kata ke i dengan tag ke i pada data latih dan C(t i ) adalah jumlah kemunculan tag ke i pada data latih.

) merupakan nilai transition

probability atau probabilitas kemunculan tag ke

i setelah tag ke i-1. C(t i-1 ,t i ) adalah jumlah tag ke i-1 diikuti dengan tag ke i dan C(t

^-1 ) adalah jumlah kemunculan tag ke i-1 pada data latih. Persamaan 2 untuk menghitung emission

probability :

( | ) =

( , ) ( )

(2) Keterangan: ( | ) merupakan nilai dari emission

nprobability atau probabilitas kata ke i yang

Diagram Hidden Markov Model menurut (Chopra, et al., 2012):

( ) = max −1

Gambar 1. Diagram HMM

2.5. Algoritme Viterbi

Viterbi merupakan pemrograman dinamis yang bekerja seperti algoritme forward. Algoritme Viterbi memiliki satu komponen yang tidak dimiliki Algoritme forward yaitu

backpointers . Alasannya adalah bahwa

algoritme forward perlu menghasilkan kemungkinan observasi, algoritme Viterbi harus menghasilkan probabilitas dan juga urutan kondisi yang paling baik. Perhitungan urutan kondisi terbaik ini dengan mencatat jalur hidden

state yang menyebabkan masing-masing

kondisi. Proses yang dilakukan dalam algoritme Viterbi ini ialah dengan mencari nilai tag optimum untuk suatu kata. Proses ini dilakukan dengan mencari nilai maksimum dari hasil perhitungan transition probability dengan

emission probability yang telah didapatkan pada

pemodelan Hidden Markov Model. Algoritme Viterbi ini dilakukan secara rekursif sebanyak kata yang akan dikenali pada data uji. Seperti pada Persamaan 3 (Jurafsky & Martin, 2017):

adalah notasi aljabar untuk menandai satu set string yang sangat berguna untuk mencari teks, ketika memiliki pola untuk mencari dan korpus teks untuk dicari. Fungsi pencarian regular expression akan mencari melalui korpus, mengembalikan semua teks yang sesuai dengan polanya. Korpus bisa jadi satu koleksi dokumen. Contoh, Untuk mencari ‘woodchuck’, kita mengetik ‘/woodchuck’. (Jurafsky & Martin, 2017).

2.9. Pengukuran Evaluasi

Untuk mengetahui performance hasil klasifikasi Named Entity Recognition (NER), diperlukan sebuah teknik untuk pengukuran evaluasi. Pengukuran ini dilakukan menggunakan confusion matrix dan accuracy, dimana confusion matrix sangat penting karena menunjukkan kinerja NER berdasarkan sistem dalam hal Precision, Recall, dan F-Measure. Berikut ini adalah pengukuran confusion matrix dan accuracy menurut (Roman & Christoph, 2009):

, ( )

, ( ) =

− = 2∗ ∗

(7) Dimana: 1.

TP, merupakan true positive.

2. FP, merupakan false positive.

3. FN, merupakan false negative.

4. TN, merupakan true negative.

3. PERANCANGAN SISTEM

Penelitian penerapan named entity

recognition pada e-commerce menggunakan rule template dan hidden Markov model

expression

regular expression (RE), sebuah bahasa untuk

menentukan string pencarian teks. Implementasi ini digunakan dalam setiap bahasa komputer, pengolah kata, dan alat pengolah teks seperti alat Unix grep atau Emacs. Secara formal, regular

unik atau kreatif yang diberikan oleh pabrik untuk hasil produksinya seperti iPhone, ThinkPad dan lain sebagainya. Semantics

smoothing

sedangkan nilai V adalah jumlah keseluruhan kata yang berbeda.

2.7. Rule Template

Metode Rule Template bekerja dengan cara mengatur rule agar kandidatnya dapat dikenali. Entitas yang relevan teridentifikasi oleh setiap

rule . Misalnya, perusahaan Nokia memiliki seri

ponsel yang diberi nama ‘N#’ dimana ‘#’ mewakili sebuah nomor, seperti ‘N97’. Terdapat beberapa contoh rule yang dapat digunakan seperti Special Words, Semantics Pattern dan

General List . Special Words merupakan nama

Pattern merupakan pola kebiasaan masyarakat

Salah satu keberhasilan dalam standardisasi dalam ilmu komputer adalah

dalam memberi nama suatu produk, yaitu terdiri dari tiga pola diantaranya:

1. Sebuah nama produk selalu diikuti oleh kata milik, preposisi, atau kuantifier seperti my MacBook, the Xbox dan lain sebagainya.

2. Terdapat kalimat yang menyebutkan beberapa produk dan mengandung preposisi ‘untuk’ atau ‘for’ di dalamnya memiliki nilai probabilitas yang tinggi untuk menjadi kandidat nama produk, baik itu sesudah atau sebelum.

Contohnya, Seidio Inocase 360 untuk BlackBerry Curve 8900.

General List merupakan metode yang

digunakan untuk mengidentifikasi nama produk dengan cara mengumpulkan beberapa kategori kata yang jarang digunakan dalam pemberian nama produk Dalam mengidentifikasi nama produk dengan tujuan Rule Template, model yang digunakan bersifat cascade. Setiap rule terdiri atas classifier dan seluruh model yang berdasarkan rangkaian dari semua classifier. Semua kata yang telah diklasifikasikan secara benar oleh cascade rule adalah simbol dari beberapa produk (Wu, et al., 2012).

2.8. Regular Expression

dibangun dengan tujuan untuk melakukan ektraksi informasi, sehingga diharapkan dapat mengenali nama entitas pada teks percakapan atau pertanyaan mengenai produk terutama produk ponsel. Data Latih _{preprosesing Data Uji} Preprosesing ^{Perhitungan HMM} _MODEL _{HMM MODEL} _{Algoritme Viterbi} ^{RULE TEMPLATE} ^MODEL _{Hasil HMM} ^{Hasil RULE} _TEMPLATE _{Hasil NER} Gambar 2. Deskripsi umum sistem

Gambar 2 merupakan gambaran umum tahapan pengenalan menggunakan Rule

1 0.6875 0.8148 0.9844 HARGA 1 0.9166 0.9565 0.9968 SPEK

1 SPEK

1 N_SPEK 1 0.7368 0.8484 0.9844 N_TAG 0.9620 1 0.9806 0.9720 Rata-rata 0.99366 0.91561 0.94948

Keterangan: E : Entitas Pr : Precision Rc : Recall Fm : F-Measure A : Akurasi 4.2.

Pengujian Hidden Markov Model Tabel 4. Hasil Pengujian Hidden Markov Model

E Pr Rc Fm A MEREK 1 0.9444 0.9714 0.9968 TIPE

1 N_SPEK

1 N_TAG 1 0.9210 0.9589 0.9440 Rata-rata 1 0.91158 0.95026

Keterangan: E : Entitas Pr : Precision Rc : Recall Fm : F-Measure A : Akurasi

Template dan Hidden Markov Model (HMM).

Tabel 1. Contoh Entitas yang akan dikenali

E Pr Rc Fm A MEREK 1 0.9444 0.9714 0.9968 TIPE

4.1. Pengujian Rule Template Tabel 3. Hasil pengujian Rule Template

dan f-measure. Pengujian ini juga untuk mendapatkan nilai Accuracy yang dihasikan dalam mengenali entitas. Pengujian yang dilakukan menggunakan data uji yang berbeda pada data latih. Data uji yang digunakan sebanyak 30 data yang dipilih secara random, sedangkan jumlah data latih yang digunakan adalah 120.

performance berdasarkan dari precision, recall,

Pengujian ini untuk mendapatkan nilai

Pengenalan ini menggunakan pendekatan secara

Supervised learning dengan melakukan pre- processing kemudian melakukan tahapan-

tahapan metode rule template dan HMM hingga perancangan additive smoothing. Hasil akhir sistem ini yaitu merupakan pemberian entitas pada percakapan atau pertanyaan mengenai produk ponsel, entitas tersebut antara lain yaitu

1 0.8125 0.8965 0.9906 HARGA

MEREK, TIPE, HARGA, SPEK, N_SPEK dan N_TAG . Tabel 1 menunjukan beberapa contoh

pengenalan entitas pada penelitian ini.

ENTITAS CONTOH

MEREK samsung, apple, xiaomi, sony, nokia TIPE galaxy, iphone, N70, S7, 5S HARGA 3 juta, 500, 300 ribu, 2jutaan SPEK memori, cpu, ram, kamera, layar N_SPEK merah, 4G, 32GB, 64GB, 15MP N_TAG Kata yang tidak dikenali atau tidak memiliki entitas 4.

PENGUJIAN DAN ANALISIS

Pengujian terhadap hasil implementasi ini dilakukan sebanyak lima skenario pengujian. Tabel 2 menunjukkan skenario pengujian yang dilakukan pada penelitian ini.

Tabel 2 Skenario Pengujian No. Pengujian

2 Hidden Markov Model

3 Hidden Markov Model dengan Additive Smoothing

4 Rule Template dan Hidden Markov Model

5 Rule Template dan Hidden Markov Model dengan penambahan Additive Smoothing

1 Rule Template

4.3. Pengujian Hidden Markov Model dengan Additive Smoothing

Tabel 5. Hasil Pengujian Hidden Markov Model dengan Additive Smoothing E Pr Rc Fm A MEREK 1 0.8888 0.9411 0.9937 TIPE 0.8823 0.9375 0.9090 0.9906 HARGA

pengujian dengan skenario ke 1 yaitu pengujian

1 N_SPEK

1 N_TAG 0.9956 1 0.9977 0.9968 Rata-rata 0.9992 0.9907 0.99485

Keterangan: E : Entitas Pr : Precision Rc : Recall Fm : F-Measure A : Akurasi 4.6.

Analisis hasil Pengujian Tabel 8. Hasil Skenario Pengujian

SP Pr Rc Fm A

1 0.993667 0.915617 0.949483 0.9720 2 1 0.911583 0.950267 0.9223 3 0.9675 0.938133 0.951667 0.9751 4 0.99855 0.980317 0.989117 0.9937 5 0.9992 0.9907 0.99485 0.9968

Keterangan: SP : Skenario pengujian Pr : Precision Rc : Recall Fm : F-Measure A : Akurasi

Gambar 3. Grafik Hasil Skenario Pengujian

Nilai f-measure menunjukkan nilai rata-rata

performance dari precision dan recall. Pada

Rule Template memiliki nilai f-measure terendah

dengan nilai 0.949483. Nilai ini dipengaruhi karena nilai precision dan recall yang rendah, kurangnya teknik dalam pembuatan rule dan kurangnya data pada rule membuat hasil

performance rendah. Tetapi pada pengujian Rule Template memiliki accuracy cukup tinggi yaitu

0.9720 atau 97.20%.

0.2

0.4

0.6

0.8

5 Pengujian Precision Recall F-measure Accuracy

1 0.9166 0.9564 0.9968 SPEK

1 N_SPEK 0.9444 0.8947 0.9188 0.9906 N_TAG 0.9783 0.9912 0.9847 0.9782 Rata-rata 0.9675 0.938133 0.951667

Keterangan: E : Entitas Pr : Precision Rc : Recall Fm : F-Measure A : Akurasi 4.4.

Pengujian Rule Template dengan Hidden Markov Model Tabel 6. Hasil Pengujian Rule Template dan Hidden Markov Model

E Pr Rc Fm A MEREK 1 0.9444 0.9714 0.9968 TIPE

1 0.9375 0.9677 0.9968 HARGA

1 SPEK

1 N_SPEK

1 N_TAG 0.9913 1 0.9956 0.9937 Rata-rata 0.99855 0.980317 0.989117

Keterangan: E : Entitas Pr : Precision Rc : Recall Fm : F-Measure A : Akurasi 4.5.

Pengujian Rule Template dan Hidden Markov Model dengan Additive Smoothing Tabel 7. Hasil Pengujian Rule Template dan Hidden Markov Model dengan Additive Smoothing

E Pr Rc Fm A MEREK 1 0.9444 0.9714 0.9968 TIPE

1 HARGA

Pada pengujian ke 2 yaitu pengujian Hidden

of Engineering and Innovative Technology, III(8).

rule template dengan HMM dengan nilai f- measure 0.99485 dengan accuracy 99.68% dan

nilai terendah pada skenario 2 yaitu HMM dengan accuracy 92.23%.

Penambahan teknik Additive Smoothing terbukti mampu meningkatkan hasil pada metode Hidden Markov Model dalam menangani probabilitas 0 atau kata yang tidak dikenali pada data latih. Serta penambahan teknik ini dapat meningkatkan akurasi dalam pengenalan entitas dimana sebelumnya akurasi 92.10% menjadi 97.51%.

6. DAFTAR PUSTAKA

Chopra, D., Jahan, N. & Morwal, S., 2012. Hindi Named Entity Recognition by Aggregating Rule Based Heuristics and Hidden Markov Model.

International Journal of Information Sciences and Techniques,

II(6). Dey, A., Paul, A. & Purkayastha, S. B., 2014. Named Entity Recognition for Nepali language: A Semi Hybrid Approach. International Journal

Guzman, I. & Panthania, A., 2016. Accenture

accuracy Rule template 97.20% dan accuracy

Interactive. [Online]

Available at: https://www.accenture.com/t00010101T000000 __w__/br-pt/_acnmedia/PDF-45/Accenture- Chatbots-Customer-Service.pdf [Accessed 5 september 2017]. Haulrich, M., 2009. Different Approaches to Uknown Words in a Hidden Markov Model Part- of-Speech Tagger. Jurafsky, D. & Martin, J. H., 2017. Speech And

Language Processing. 3nd ed. Silicon Valley: stanford.

Mansouri, A., Affendey, S. L. & Mamat, A., 2008. Named Entity Recognition Approaches.

International Journal of Computer Science and Network Security, Volume VIII.

Nickerson, R. C., 2002. AN E-COMMERCE

SYSTEM MODEL, San Francisco State

University: Eighth Americas Conference on Information Systems. Nivre, J., 2000. Logic Programming Tools for

HMM 92.23%. Pada penelitian ini nilai tertinggi didapatkan pada skenario 5 yaitu penggabungan

Nilai rata-rata performance yang didapatkan dari implementasi Rule Template ialah sebesar 99.36%, 91.56% dan 94.94% sedangkan nilai performance HMM ialah sebesar 100%, 91.15% dan 95.02% dengan nilai

Markov Model menghasilkan nilai rata-rata f- measure dengan nilai 0.950267. Tingginya nilai f-measure ini dikarenakan nilai precision yang

accuracy dan mampu menangani kata-kata yang belum pernah dikenali sebelumnya.

tinggi. Pada pengujian skenario ke 2 memiliki

accuracy terendah dibandingkan pengujian yang

lain yaitu 0.9223 atau 92.23% ini dikarenakan pada pengujian 2 data uji yang tidak terdapat pada data latih tidak akan dikenali sehingga dapat mengakibatkan kesalahan dalam pemberian entitas oleh sistem.

Pada pengujian skenario 3 Hidden Markov

Model dengan penambahan Additive Smoothing

menghasilkan nilai rata-rata f-measure 0.951667. Pada skenario tiga terjadinya penurunan nilai precision sehingga berdampak pada niilai f-measure. Penurunan nilai precision ini dikarenakan kesalahan sistem dalam memberikan entitas yang benar, kesalahan ini terjadi karena nilai transition probability yang kurang optimal dalam mengenali data uji, tetapi pada pengujian ini memiliki nilai accuracy lebih tinggi yaitu 0.9751 atau 97.51%, hal ini menunjukkan bahwa dengan menambahkan

Additive Smoothing pada Hidden Markov Model

dapat meningkatkan nilai performance,

Pada pengujian skenario 4 penggabungan hasil Rule template dengan Hidden Markov

Untuk mengetahui Performance dari sistem NER dapat menggunakan precision, recall dan f- measure.

Model menghasilkan performance dan accuracy

yang lebih baik dibandingkan dengan pengujian sebelumnya. Penggabungan ini meningkatkan sistem dalam memberikan entitas. Hidden

Markov Model memiliki kelamahan dimana jika

perpindahan state tidak terlihat atau kata pada data uji tidak terdapat pada data latih akan memberikan kata tanpa entitas, jika menggunakan Rule template kata yang tidak dikenali akan memiliki entitas tetapi pemberian entitas ini bergantung dengan dengan Rule

Template dalam mengenali kata tersebut.

Pada pengujian skenario 5 memiliki

performance dan accuracy yang lebih baik

dibandingkan pada skenario 4. Meningkatnya hasil ini dikarenakan pada skenario 5 pengenalan entitas yang salah pada skenario 4 dapat diatasi dengan menambahkan additive smoothing sehingga menghasilkan performance dan accuracy yang lebih baik.

5. KESIMPULAN

sweden: and Issues. International Journal of Advanced

Probabilistic Part-of-Speech Tagging,

Vaxjo University. Computer Science and Applications, Volume Roman, K. & Christoph, F., 2009.

VII.

User’s Choice

of Precision and Recall in Named Entity Wu, S., Fang, Z. & Tang, J., 2012. Accurate

Recognition. Germany, International Product Name Recognition from User Generated

Conference RANLP. Content.

Talib, R., Hanif, M. K., Ayesha, S. & Fatima, F., 2016. Text Mining: Techniques Applications

Penerapan Named Entity Recognition Untuk Mengenali Fitur Produk Pada E-Commerce Menggunakan Rule Template Dan Hidden Markov Model

1. PENDAHULUAN

2.5. Algoritme Viterbi

ENTITAS CONTOH

PENGUJIAN DAN ANALISIS

4.3. Pengujian Hidden Markov Model dengan Additive Smoothing

1 HARGA

5. KESIMPULAN

Dokumen yang terkait

Analisis Mekanisme Keamanan Antara TLSSSL Dan Crypto Pada Komunikasi IoT Middleware Dengan Subscriber Berbasis Protokol HTTP

Pengembangan Interface Bluetooth Low Energy (BLE) Pada IoT Middleware Untuk Mendukung Network Interoperability

Implementasi Fitur Sleeping Client Pada Protokol Message Queue Telemetry Transport – Sensor Network (MQTT-SN) Berbasis Arduino NRF24L01

Pengembangan Sistem Prediksi Hama Wereng Berdasarkan Data Cuaca Sensor Dan Cuaca Online Menggunakan Metode Naive Bayes

Perancangan Dan Implementasi Headlamp Pada Sepeda Motor Sebagai Pengatur Jarak Aman Pancaran Cahaya Dengan Menggunakan Sistem Led Matrix

Pengembangan Game Augmented Reality Pengenalan Baju Adat Nusantara Menggunakan Kinect Sebagai Kendali Permainan (Kasus Studi : Anak Usia 9-12 Tahun)

Implementasi Link Fast-Failover Pada Multipath Routing Jaringan Software-Defined Network

Penerapan Algoritme Modified K-Nearest Neighbour Pada Pengklasifikasian Penyakit Kejiwaan Skizofrenia

Klasifikasi Spam Pada Twitter Menggunakan Metode Improved K-Nearest Neighbor

Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer

Dukungan

Links

Penerapan Named Entity Recognition Untuk Mengenali Fitur Produk Pada E-Commerce Menggunakan Rule Template Dan Hidden Markov Model

1. PENDAHULUAN

2.5. Algoritme Viterbi

ENTITAS CONTOH

PENGUJIAN DAN ANALISIS

4.3. Pengujian Hidden Markov Model dengan Additive Smoothing

1 HARGA

5. KESIMPULAN

Dokumen yang terkait

Analisis Mekanisme Keamanan Antara TLSSSL Dan Crypto Pada Komunikasi IoT Middleware Dengan Subscriber Berbasis Protokol HTTP

Pengembangan Interface Bluetooth Low Energy (BLE) Pada IoT Middleware Untuk Mendukung Network Interoperability

Implementasi Fitur Sleeping Client Pada Protokol Message Queue Telemetry Transport – Sensor Network (MQTT-SN) Berbasis Arduino NRF24L01

Pengembangan Sistem Prediksi Hama Wereng Berdasarkan Data Cuaca Sensor Dan Cuaca Online Menggunakan Metode Naive Bayes

Perancangan Dan Implementasi Headlamp Pada Sepeda Motor Sebagai Pengatur Jarak Aman Pancaran Cahaya Dengan Menggunakan Sistem Led Matrix

Pengembangan Game Augmented Reality Pengenalan Baju Adat Nusantara Menggunakan Kinect Sebagai Kendali Permainan (Kasus Studi : Anak Usia 9-12 Tahun)

Implementasi Link Fast-Failover Pada Multipath Routing Jaringan Software-Defined Network

Penerapan Algoritme Modified K-Nearest Neighbour Pada Pengklasifikasian Penyakit Kejiwaan Skizofrenia

Klasifikasi Spam Pada Twitter Menggunakan Metode Improved K-Nearest Neighbor

Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer

Dokumen yang Anda mencari sudah siap untuk unduhkan