Identifikasi Kesalahan Penulisan Kata (Typographical Error) pada Dokumen Berbahasa Indonesia Menggunakan Metode N-gram dan Levenshtein Distance

Vol. 2, No. 1, Januari 2018, hlm. 53-62 http://j-ptiik.ub.ac.id

Identifikasi Kesalahan Penulisan Kata (Typographical Error) pada

Dokumen Berbahasa Indonesia Menggunakan Metode N-gram dan

Levenshtein Distance

₁ ₂ ₃ Arina Indana Fahma , Imam Cholissodin , Rizal Setya Perdana

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya ₁ ₂ ₃ Email: [email protected], [email protected], [email protected]

Abstrak

Teks merupakan salah satu media komunikasi dan sumber informasi dalam kehidupan manusia. Hal yang menjadi krusial dalam pembuatan teks adalah kesalahan dalam penulisan kata yang disebut

typographical error . Kesalahan tersebut terjadi saat menggunakan keyboard pada komputer atau pada

smartphone . Typographical error pada teks dapat mengakibatkan sesuatu yang tidak diinginkan oleh

pihak tertentu. Berdasarkan hal tersebut, diperlukan suatu sistem untuk melakukan identifikasi

typographical error pada teks dan melakukan proses koreksi terhadap typographical error. Metode N-

gram dan Levenshtein Distance dapat digunakan untuk melakukan koreksi typographical error di dalam dokumen. Penelitian ini berfokus pada data dokumen skripsi mahasiswa Fakultas Ilmu Komputer Universitas Brawijaya. Metode Levenshtein Distance digunakan untuk mendeteksi banyaknya kandidat kata sesuai dengan typographical error yang sudah teridentifikasi. Dikarenakan kandidat kata hasil dari Levenshtein Distance masih belum terurut, metode N-gram digunakan untuk mengurutkan kandidat kata berdasarkan nilai cosine similarity. Di dalam penelitian ini, nilai N pada N-gram yang digunakan adalah 2 sehingga pada prosesnya, N-gram melakukan pemisahan setiap dua karakter pada kata yang teridentifikasi sebagai typographical error beserta kandidat katanya. Setelah karakter dipisah, perhitungan tf-idf digunakan untuk mendapatkan nilai cosine similarity. Dari hasil pengujian sistem, didapatkan nilai presisi terbaik sebesar 0.97 pada uji coba typographical error jenis

insertion dan untuk nilai recall terbaik sebesar 1 yang didapatkan dari hasil uji coba typographical

error jenis substitution.

Kata kunci: typographical error, levenshtein distance, n-gram, cosine similarity

Abstract

Text is one of communication and information media in human life. The crucial thing in text writing is

a mistake in word writing called typographical error. The error occurs while using the keyboard on

computer or on smartphone. Typographical error on a text can lead to something unpredictable for

some people. Based on that reason, a system is needed to identify typographical error in a text and

also make the correction of the error word. N-gram and Levenshtein Distance method can be used for

correcting typographical error in the text. For detecting how many word candidates of typographical

error, Levenshtein Distance can be implemented . Because the word candidates are unsorted, N-gram

method is using to sort those word candidates based on the value of cosine similarity. In this research,

the reason N-gram method using N=2 is to separated each two characters of identified typographical

error and its word candidates.The value of cosine similarity calculated by tf-idf when the process of

N-gram was done. The result of test scenario, the best value of precision is 0.97 from insertion type

and the best value of recall is 1 from substitution type.

Keywords: typographical error, levenshtein distance, n-gram, cosine similarity

bentuk tulisan. Teks atau dokumen memiliki 1.

PENDAHULUAN

peranan sangat penting dalam dunia pendidikan Teks merupakan salah satu komponen terutama di bidang penelitian. Bahasa Indonesia dalam kehidupan manusia yang terdiri dari merupakan bahasa nasional negara Indonesia wacana (berarti lisan) yang dijadikan dalam yang digunakan oleh lebih dari 222 juta orang

Fakultas Ilmu Komputer Universitas Brawijaya

53 untuk berkomunikasi di sekolah, kantor, kehidupan sehari-hari dan sebagainya. Pentingnya penggunaan bahasa Indonesia tidak selaras dengan ketersediaan language tool untuk penelitian yang berkaitan dengan bahasa Indonesia, karena jumlah tool yang sudah ada masih terbatas (Wicaksono dan Purwarianti, 2010).

Salah satu hal krusial dalam pembuatan dokumen maupun teks adalah kesalahan penulisan atau yang disebut dengan

Indonesia menggunakan metode Levenshtein

4. Mengandung kumpulan kata yang saling terkait (frase) dan antara kumpulan kata satu dengan yang lain dapat memiliki arti yang berbeda

3. Banyak mengandung kata atau arti yang bias (mengandung ambiguitas)

Memiliki dimensi yang tinggi yaitu satu kata merepresentasikan satu dimensi

1. Database teks berukuran besar 2.

Menurut Loreta Auvil dan Duane Searsmith (Susanto, 2009), beberapa karakteristik dokumen teks adalah sebagai berikut:

Dalam teori bahasa, apa yang dinamakan teks tidak lebih dari himpunan huruf yang membentuk kata dan kalimat, dirangkai dengan sistem tanda yang disepakati oleh masyarakat sehingga sebuah teks ketika dibaca bisa mengungkapkan makna yang dikandungnya (Riadi, 2015).

2.1 Teks

2. DASAR TEORI

Diharapkan sistem ini dapat membantu memberikan gambaran yang cukup baik terhadap koreksi error pada dokumen teks berbahasa Indonesia berdasarkan hasil pada sistem tersebut.

cosine similarity dalam menentukan ranking kandidat kata sebagai hasil keluaran dari sistem.

digunakan untuk menentukan kandidat kata untuk setiap typographical error yang teridentifikasi oleh sistem. Pada penelitian ini dikembangkan dengan penggunaan metode N- gram yang digunakan untuk menghitung nilai

Distance . Metode Levenshtein Distance

typographical error untuk teks berbahasa

typographical error . Pada pembuatan dokumen

Dengan beberapa alasan di atas, maka dibuat sebuah sistem untuk identifikasi

yaitu penambahan metode Dictionary Lookup (Haldar dan Mukhopadhyay, 2011). Penggunaan dua metode pada data numerik tulisan tangan dengan sistem OCR ini menghasilkan fakta bahwa OCR yang tersedia tidak mampu mengenali 93 dari 500 data uji setelah proses pengolahan data melalui SVM. Selain itu, metode Levenshtein Distance akan mengurangi jumlah kata yang tidak dikenali oleh sistem OCR.

Distance dengan pendekatan yang lebih baik

dan Nürnberger, 2009). Selain itu terdapat penelitian menggunakan metode Levenshtein

bigram dan 73% untuk trigram (Ahmed, Luca

dengan beberapa macam pendekatan menghasilkan akurasi yang bagus. Hasil yang lebih unggul didapatkan dari nilai N sebesar 2, yang disebut dengan bigram, daripada dengan penggunaan N sebesar 3 (trigram). Penggunaan data uji berupa dataset bahasa Inggris menghasilkan akurasi sebesar 84% untuk

typographical error pada teks seperti N-gram, Hidden Markov Model (HMM), Forward- Reversed Dictionary , Morphologically Analyzer , Bayes , Maximum Likelihood Estimation, Minimum Edit Distance, Similarity Key, Rule Based, Probabilistic dan Neural Network . Penelitian untuk pembuatan spelling correction tool menggunakan metode N-gram

Berbagai macam metode yang ada sesuai untuk membangun suatu sistem identifikasi

suggestion berupa kata-kata kandidat (Soleh dan Purwarianti, 2011).

pengecekan terhadap pengejaan kata-kata untuk mendeteksi adanya kata yang mengalami kesalahan ejaan dan juga memberikan

checker . Spelling checker melakukan proses

Terdapat beberapa jenis typographical error yaitu insertion, deletion serta substitution. Dalam mendeteksi typographical error pada teks dibutuhkan suatu aplikasi disebut spelling

dalam penelitian terutama skripsi atau tugas akhir, typographical error terjadi karena belum pahamnya mahasiswa dalam pembuatan dokumen dengan bahasa Indonesia yang baku dan sesuai dengan kaidah EYD. Faktor lain dalam terjadinya typographical error adalah pada saat proses pemilihan kata karena kata yang digunakan harus tepat dan menggunakan bahasa yang baku sehingga dapat dimengerti oleh pembaca. Selain itu, mengutip bacaan sekaligus menyatukan dengan ide dari mahasiswa itu sendiri bukan hal yang mudah.

5. Dokumen email merupakan dokumen yang tidak memiliki struktur bahasa yang baku karena di dalamnya terkadang muncul istilah slang seperti “r u there?”, “helllooo bosss , whatzzzzzzz up?”, dan sebagainya. Hal diatas terkait dengan objek penelitian ini yang membutuhkan dokumen dengan struktur bahasa yang baku. Dokumen skripsi merupakan salah satu dokumen teks yang memiliki struktur bahasa yang baku dan dapat digunakan dalam penelitian ini. Penggunaan dokumen skripsi sebagai data penelitian berpengaruh terhadap hasil output pada sistem.

2.2 Typographical Error Typographical error merupakan kesalahan

case folding . Proses ini akan mengubah seluruh

(Information Retrieval /IR) merupakan hal yang

Dalam prinsipnya, penyimpanan informasi dan sistem temu kembali informasi

namun seiring berjalannya waktu berjuta-juta manusia memanfaatkan IR setiap hari ketika mengakses website search engine atau mencari email. IR juga dapat mengatasi permasalahan data dan informasi serta berkutat dengan pengindeksan dan pengambilan informasi dari sumber informasi heterogen dan tekstual (Manning, Raghavan dan Schütze, 2009).

libraries , paralegal dan searcher profesional,

pencarian material (berupa dokumen) yang bersifat tidak terstruktur (biasanya berupa teks) dimana memenuhi kebutuhan informasi user dalam koleksi data yang besar dan disimpan dalam beberapa komputer. IR adalah bidang pada persimpangan ilmu informasi dan ilmu komputer yang dikaitkan dengan aktivitas dimana beberapa pekerjaan yang berhubungan dengan teks seperti customer service, reference

2.4 Information Retrieval Information Retrieval (IR) merupakan

terdapat dalam dokumen uji, dengan penghapusan tanda baca, karakter dan kata-kata dalam istilah asing.

preprocessing teks adalah daftar kata yang

atau parsing. Pada proses ini, dilakukan pemotongan string input berdasarkan tiap kata penyusun dari dokumen. Hasil dari

folding , dilakukan proses tokenizing/tokenisasi

dihilangkan. Setelah dilakukan proses case

delimiter sehingga karakter tersebut

teks pada dokumen menjadi bentuk standar yaitu huruf kecil atau lowercase. Karakter selain huruf ‘a’ hingga ‘z’ dianggap sebagai

Penggunaan huruf kapital pada dokumen tidak selalu konsisten, maka diperlukan proses

yang terjadi pada saat proses mengetik teks dan dapat mengubah arti dari suatu kata bahkan arti dari suatu kalimat. Istilah ini mencakup kesalahan karena kegagalan mekanis atau slip tangan atau jari, dan juga timbul akibat ketidaktahuan penulis seperti kesalahan ejaan.

tahapan ini, sistem melakukan seleksi data yang diproses pada setiap dokumen yang ada.

preprocessing yang meliputi case folding, tokenizing , filtering dan stemming. Pada

agar teks berubah menjadi data yang lebih terstruktur. Salah satu tahapan tersebut adalah

mining membutuhkan tahapan-tahapan awal

Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur. Menurut ketidakaturan struktur data dalam teks, maka proses text

Teks merupakan salah satu bidang pengetahuan pada Artificial Intelligence yang menerapkan konsep dan teknik data mining untuk mencari pola dalam teks dengan proses ekstraksi pola yang berupa informasi dan pengetahuan berguna dari sejumlah besar sumber data yang tidak terstruktur. Dalam text mining dilakukan penambangan data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang memberikan penjelasan isi dari dokumen sehingga dapat dilakukan analisa keterkaitan antar dokumen (Baskoro, 2016).

2.3 Text Mining Text Mining atau sering disebut Pemrosesan

tidak terdapat makna didalamnya sedangkan pada real-word error, kata yang tertulis bernilai benar atau bisa disebut mempunyai arti dalam kamus namun tidak dimaksudkan dalam kalimat tersebut maupun mempunyai arti yang berbeda dan bahkan kalimat tersebut memiliki tata bahasa yang salah (Naradhipa et al., 2011).

word error . Non-word error adalah error yang

dari kesalahan ketik biasa sampai kesalahan dalam tatanan bahasa yang digunakan atau bahkan pengertian dari kata tersebut. Kesalahan-kesalahan tersebut dikategorikan ke dalam 2 jenis yaitu non-word error dan real-

Typographical error ini bervariasi mulai

misalnya, jari menekan dua tombolyang berdekatan secara bersamaan.

Typographical error dapat disebabkan oleh,

sederhana. Sebagai contoh, terdapat tempat penyimpanan banyak dokumen dan user yang merumuskan suatu request atau query yang memiliki jawaban yaitu himpunan dokumen yang memuat informasi mengenai ekspresi yang diperlukan melalui pertanyaan user. User bisa mendapatkan dokumen yang diperlukan dengan membaca semua dokumen dalam tempat penyimpanan, menyimpan dokumen- dokumen yang berkaitan dan membuang dokumen yang tidak diperlukan.

2.5 Spelling Checker

W tf _{ij ij}

W tf _{ij ij} log  

(2)

   

   

      

1 log n N

(3) Keterangan:

merupakan suatu cara yang digunakan untuk memberikan bobot terhadap relevansi antara suatu kata terhadap dokumen dengan menggabungkan dua konsep dalam perhitungan bobot yaitu frekuensi munculnya kata dalam dokumen serta inverse frekuensi dokumen yang mengandung kata tersebut (Lahitani, Permanasari dan Setiawan, 2016). Adapun rumus tf-idf seperti pada Persamaan 1, Persamaan 2 dan Persamaan 3 sebagai berikut:

W ij = bobot kata/term terhadap dokumen tf ^ij

= jumlah kemunculan kata

idf = jumlah dokumen dimana term muncul N = jumlah semua dokumen yang

dibandingkan

n = jumlah dokumen yang mengandung

term

2.8 Cosine Similarity

W idf tf _{ij ij}   (1) n N

Frequency (tf-idf). Perhitungan tf-idf

Deteksi error dalam kata dapat dilakukan dengan aplikasi berbasis komputer yang digunakan untuk mendeteksi dan menangani error dalam kata yang disebut spelling checker.

real-word error spell checker mengutamakan

Spelling checker mencari segala jenis error

yang terdapat dalam dokumen yang kemudian memberi peringatan penulis dokumen tentang kesalahan yang dilakukan dan memberi beberapa suggestion untuk memperbaiki kesalahan tersebut. Terdapat dua metode utama yang digunakan untuk membangun aplikasi

spelling checker yaitu identifikasi (error detection ) dan koreksi (error correction).

Selain itu, spelling checker dibagi menjadi dua tipe yaitu non-word error spell checker dan

real-word spell checker . Non-word error spell checker menangani kata-kata salah ejaan yang

terbentuk karena kesalahan ketik, sedangkan

menangani kata-kata pengganti kata yang error pada kalimat (Soleh dan Purwarianti, 2011).

Metode pembobotan atau pemberian ranking yang digunakan dalam penelitian ini adalah Term Frequency-Inverse Document

Dalam membuat spelling checker, terdapat beberapa tantangan yaitu dalam menemukan kata yang merupakan error dan memberikan

suggestion berupa kata yang benar untuk

menggantikan kata error tersebut. Pada error yang bersifat non-word, proses pengecekan huruf yang berlebih dan pengejaan kata akan berulang terus akan membuat infinite list untuk dicek satu persatu. Sedangkan pada error yang bersifat real-word, permasalahan terjadi pada proses pengenalan grammar atau tata bahasa pada setiap kalimat. Termasuk ambiguitas dan kata yang tidak terdapat pada dictionary atau yang biasa disebut Out of Vocabulary (OOV). Dan lagi, dalam dunia ini kamus bahasa akan terus berkembang dan bertambah seiring berjalannya waktu dan akan membuat OOV akan terus terjadi secara statis (Naradhipa et al., 2011).

2.6 Metode N-gram

Ide penggunaan N-gram telah diterapkan untuk berbagai masalah seperti prediksi kata, koreksi ejaan, pengenalan suara, koreksi kata terjemahan dan pencarian string. Salah satu keuntungan dari metode N-gram ini adalah bahwa bahasa bersifat independen. Dalam koreksi ejaan, N-gram merupakan urutan sebanyak N huruf dalam sebuah kata atau string. N-gram dapat digunakan untuk menghitung kesamaan antara dua string dengan cara menghitung jumlah N-gram yang sama.

Semakin banyak jumlah N-gram yang sama antara 2 kalimat yang ada maka semakin mirip (Ahmed, Luca dan Nürnberger, 2009).

2.7 Term Frequency-Inverse Document Frequency (tf-idf)

Perhitungan kesamaan atau similarity merupakan fungsi yang digunakan untuk mengukur derajat kesamaan antara dua buah vektor. Dalam teks, fungsi ini digunakan sebagai pengukur kesamaan antara query dengan setiap dokumen yang ada pada database. Dari perhitungan ini, dihasilkan tingkat kesamaan pada dokumen yang sesuai dengan query yang diinputkan.

Cosine similarity merupakan rumus yang

a dan b ) dengan   b a lev _{b a}

relevan yang diekstraksi pada sistem. Sedangkan presisi, menghitung jumlah informasi bernilai benar/akurat yang dikembalikan oleh sistem (Mishra dan Vishwakarma, 2016).

recall dan F-measure (kombinasi presisi dan recall ). Recall menghitung jumlah informasi

dievaluasi dari metode standar yaitu presisi,

information retrieval

Kinerja sistem

digunakan untuk menghitung kesamaan atau

string sumber a dan string target b (panjang

, _, pada indeks i dan j dimana telah dijelaskan pada Persamaan 5 berikut: .

Nilai pada recall dan presisi saling bertolakbelakang satu sama lain, pada saat presisi bernilai tinggi, recall bernilai rendah (Butt, 2013). Nilai recall tertinggi dan optimal adalah 1, yang artinya seluruh teks dalam sistem berhasil ditemukan pada dokumen. Pada saat nilai 1 pada presisi, berarti seluruh teks yang ditemukan bersifat relevan. Formula untuk perhitungan presisi dan recall dijabarkan pada Persamaan 6 dan Persamaan 7: =

, ) , min( 1 ) 1 , 1 (

( 1 , 1 ) , 1 ) 1 ( min ) , max(

) , ( _{) ( ,} _, ^, _, lainnya j i j i lev j i lev j i lev j i j i lev _{j i} _{b a b a} _{b a} ^{b a} _{b a}

       

       

    



2.9 Metode Levenshtein Distance

(7) 3.

(6) =

2 √∑

similarity dengan menentukan sudut antara

vektor dokumen dengan vektor query dalam dimensi V pada bidang Euclidean. Hasil dari

cosine similarity memiliki nilai antara 0 sampai

dengan 1. Nilai 0 merupakan nilai yang didapat apabila dokumen tidak berhubungan dengan

query , sedangan nilai 1 berarti dokumen

memiliki keterhubungan tinggi dengan query (Lahitani, Permanasari dan Setiawan, 2016). Berikut rumus cosine similarity seperti pada Persamaan 4 berikut: cos(Θ ) =

∑ ( ) (√∑

2 )

2.10 Presisi dan Recall

(4) Keterangan:

= nilai query i pada indeks k = nilai query j pada indeks k

Pada teori informasi dan ilmu komputer,

Levenshtein Distance merupakan matriks untuk

mengukur nilai jumlah perbedaan antara 2 string yaitu string sumber (s) dan string target (t). Nilai Levenshtein Distance antara dua kata merupakan nilai minimum dari pengeditan

single-character (yaitu insertion, deletion

maupun substitution) membutuhkan perubahan pada salah satu kata.

(5)

ALUR PENYELESAIAN MASALAH

Operasi dilakukan dengan cara menukar posisi karakter yang berdekatan dan menemukan kata yang sama dalam dictionary (Naradhipa et al., 2011). Secara matematis,

dibutuhkan sebuah operasi yaitu substitution untuk mengubah source string (s) menjadi sama dengan target string (t).

Distance adalah 1, dalam hal ini berarti

) dalah “tahun” maka nilai Levenshtein

) adalah “tihun” dan target string (t

( , ) dengan s yaitu sumber dan t adalah target. Misalnya, jika source string (s

Levenshtein Distance adalah

ditentukan berdasarkan jumlah minimum pengeditan yang diperlukan untuk melakukan transformasi dari satu bentuk string ke bentuk string yang lain. Notasi yang digunakan untuk

Sistem memiliki alur untuk proses identifikasi dan koreksi typographical error. Alur proses identifikasi dan koreksi menjelaskan gambaran sekumpulan langkah dalam proses identifikasi typographical error serta memberikan daftar kandidat kata yang sesuai dengan kata typographical error berdasarkan ranking kandidat kata. Proses dilakukan menggunakan metode pendekatan

Dictionary Lookup , metode Levenshtein Distance dan metode N-gram berbasis

perhitungan cosine similarity.

Gambar 1 menjelaskan tentang alur identifikasi dan koreksi typographical error:

Levenshtein Distance antara dua string

Levenshtein Distance antara dua string, misal

Levenshtein Distance. Perhitungan nilai edit

distance dilakukan dalam mencari nilai yang

paling minimum untuk mendapatkan daftar kandidat kata pada kamus sesuai dengan kata

typographical error . Penentuan ranking

kandidat kata dilakukan menggunakan metode N-gram berbasis perhitungan cosine similarity. Hasil ranking kandidat kata menjadi hasil output pada sistem.

4. PENGUJIAN DAN ANALISIS

4.1 Pengujian Seluruh Jenis Typographical Error Berdasarkan Jumlah Dokumen

Jenis typographical error yang digunakan dalam pengujian adalah insertion (penambahan huruf), deletion (penghilangan huruf) dan

substitution (penggantian huruf). Dokumen

skripsi yang menjadi data uji pada sistem ini berjumlah 5 dokumen dengan jumlah kata

typographical error dan jenis kata typographical error yang berbeda. Presisi dan recall digunakan di dalam pengujian ini. Hasil

pengujian presisi dan recall untuk proses koreksi sesuai dengan seluruh jenis

typographical error berdasarkan jumlah dokumen ditunjukkan pada Gambar 2.

1 0,82 0,8 0,6

0,4 0,44 0,2 Dok 1 Dok 2

Dok 3 Dok 4 Dok 5

Gambar 1. Alur Identifikasi dan Koreksi

Typographical Error Presisi Recall

Gambar 2. Grafik Pengujian Seluruh Jenis

Berdasarkan Gambar 1, proses pertama

Typographical Error Berdasarkan Jumlah Dokumen

dalam sistem adalah pemberian data input berupa dokumen skripsi dalam format .txt.

Berdasarkan Gambar 2, dapat disimpulkan Dalam memproses sebuah data yang tidak bahwa pengujian untuk recall terhadap 5 terstruktur, dibutuhkan tahapan preprocessing dokumen bernilai konsisten pada nilai 1. Nilai untuk mengubah data menjadi terstruktur.

recall dapat mencapai nilai optimal 1 karena Preprocessing dalam sistem ini terdiri dari

semua kata typographical error memiliki tokenisasi, case folding dan filtering. Setelah kandidat kata yang benar sehingga dapat

preprocessing selesai, typographical error

diketahui bahwa semua kata typographical diidentifikasi dengan menggunakan metode

error memiliki nilai aktual. Sedangkan untuk Dictionary Lookup . Kata yang teridentifikasi

nilai presisi menurun pada dokumen 2 dan pada sebagai typographical error kemudian dokumen 3 namun kembali meningkat pada dilakukan proses koreksi menggunakan metode dokumen 4. Hal ini terjadi karena jumlah kata

typographical error bervariasi pada setiap

Pengujian berdasarkan perhitungan presisi dan recall dilakukan untuk mengetahui pengaruh typographical error dengan jenis

jumlah kata typographical error dalam satu dokumen ditunjukkan pada Gambar 4.

typographical error insertion berdasarkan

huruf sehingga menjadi kata yang tidak dikenali dalam kamus yang digunakan. Pengujian jenis

insertion pada kata terhadap nilai presisi dan recall sistem. Jenis kata typographical error insertion merupakan jenis kata typographical error dimana kata mengalami penambahan

4.3 Pengujian Jenis Typographical Error Insertion Berdasarkan Jumlah Kata Typographical Error dalam Satu Dokumen

dokumen. Kata typographical error yang teridentifikasi pada dokumen 1, 4 dan 5 berjumlah lebih sedikit daripada jumlah kata typographical error pada dokumen 2 dan 3. Dokumen 1 memiliki kata yang teridentifikasi sebagai kata typographical error sejumlah 2 kata, dokumen 2 memiliki 5 kata typographical

cenderung stabil. Nilai recall konsisten dan optimal pada setiap percobaan, sedangkan berbeda hal dengan nilai presisi yang mengalami penurunan dan kenaikan. Hasil kandidat kata memiliki pengaruh besar terhadap nilai presisi sistem, karena perhitungan nilai presisi membutuhkan jumlah kandidat kata pada hasil output sistem. Seperti halnya pengujian sebelumnya, hasil kandidat kata pada sistem tidak hanya didapatkan sesuai nilai aktual tapi didapatkan juga kandidat kata lain dari kamus dengan nilai edit distance yang paling minimum.

4.2 Pengujian Seluruh Jenis Typographical

1 0,97 0,97 0,98 0,98 0,98

ditunjukkan pada Gambar 3.

typographical error berdasarkan jumlah kata typographical error dalam satu dokumen

setiap percobaan. Dokumen mengandung jenis kata typographical error yang berbeda untuk setiap percobaan. Perhitungan nilai Hasil pengujian presisi dan recall untuk seluruh jenis

error yang dijumlahkan sebanyak 5 kata pada

Pengujian ini dilakukan sebanyak 10 kali percobaan dengan jumlah kata typographical

Error Berdasarkan Jumlah Kata Typographical Error dalam Satu Dokumen

kata typographical error dan dokumen 5 berjumlah 1 kata typographical error. Dari keberagaman jumlah kata typographical error, dapat diketahui alasan nilai presisi mengalami penurunan dan kenaikan.

typographical error , dokumen 4 berjumlah 2

3 berjumlah 4 kata

error , dokumen

1 Presisi Recall

5 k a ta ty p o

2 k a ta ty p o

5 k a ta ty p o

30 k a ta ty p o

5 k a ta ty p o

4 k a ta ty p o

5 k a ta ty p o

1 0,97 0,98 0,98 0,95 0,94

0,95 0,96 0,93

insertion pada setiap percobaan menghasilkan

Dari grafik pengujian pada Gambar 4, dapat diketahui bahwa jenis kata typographical error

Gambar 4. Grafik Pengujian Jenis Typographical Error Insertion Berdasarkan Jumlah Kata Typographical Error dalam Satu Dokumen

recall yang baik yaitu 1 serta nilai presisi yang

Dari Gambar 3, dapat diambil kesimpulan pengujian dengan jenis typographical error berbeda pada satu dokumen menghasilkan nilai

Presisi Recall

Gambar 3. Grafik Pengujian Seluruh Jenis Typographical Error Berdasarkan Jumlah Kata Typographical Error dalam Satu Dokumen

5 k a ta ty p o

10 k a ta ty p o

3 k a ta ty p o

5 k a ta ty p o

4 k a ta ty p o

50 k a ta ty p o

0,87 0,78 0,82 0,79 0,8

0,81 0,8 0,79 0,79 0,78

20 k a ta ty p o

5 k a ta ty p o

10 k a ta ty p o

1 5 k a ta ty p o

0,9 0,95

0,7 0,75 0,8 0,85

0,9 0,92 0,94 0,96

0,98

nilai presisi dan recall yang cenderung stabil pada beberapa percobaan. Nilai presisi dan

5 k a ta ty p o

recall

typographical error

error . Pengujian ini dapat diambil kesimpulan

bahwa sistem dapat mengidentifikasi dengan baik dan memberikan hasil output sistem berupa kandidat kata terhadap kata typographical error jenis insertion.

mengalami penurunan dan kenaikan dipengaruhi oleh tidak adanya kandidat kata yang dihasilkan sistem terhadap kata yang teridentifikasi kata typographical error. Selain itu, nilai presisi juga dipengaruhi jumlah kandidat kata yang dihasilkan pada hasil output sistem pada masing-masing kata typographical

typographical error deletion , sistem memiliki nilai presisi dan recall yang rendah pada sistem.

dalam kamus namun bukan kata yang dimaksud oleh user sehingga sistem tidak menampilkan kandidat kata. Untuk mengidentifikasi jenis

typographical error merupakan kata yang ada

bernilai 0. Selain itu, beberapa kata

recall

. Begitu halnya dengan nilai presisi yang mengalami kenaikan konsisten setelah awal percobaan. Nilai presisi dan recall pada awal percobaan rendah dikarenakan terdapat kata typographical error tidak memiliki kandidat kata sehingga presisi dan

4.4 Pengujian Jenis Typographical Error

Dari Gambar 5, dapat diambil kesimpulan bahwa jenis kata typographical error deletion pada satu dokumen setiap percobaan menghasilkan nilai recall yang rendah pada awal percobaan namun meningkat dan cenderung stabil hingga percobaan 50 kata

0,91 0,92 Presisi Recall 0,7

0,75 0,8 0,85 0,9

0,95

5 k a ta ty p o

1 k a ta ty p o

15 k a ta ty p o

2 k a ta ty p o

5 k a ta ty p o

3 k a ta ty p o

35 k a ta ty p o

4 k a ta ty p o

5 k a ta ty p o

0,58 0,59 0,6 0,67 0,8 0,87 0,9

5 k a ta ty p o

0,9 0,85 0,83 0,72

0,72 0,77 0,73 0,74 0,73

0,71

1 Presisi Recall

0,92 0,93 0,94 0,9

0,4 0,47 0,52 0,55 0,55 0,62 0,65

Deletion Berdasarkan Jumlah Kata Typographical Error dalam Satu Dokumen

substitution pada satu dokumen menghasilkan

Gambar 5. Grafik Pengujian Jenis Typographical Error

kata typographical error dimana kata mengalami penghilangan huruf sehingga menjadi kata yang tidak dikenali dalam kamus. Pengujian jenis typographical error deletion berdasarkan jumlah kata typographical error dalam satu dokumen ditunjukkan pada Gambar 5.

typographical error deletion merupakan jenis

nilai presisi dan recall sistem. Jenis kata

error dengan jenis deletion pada kata terhadap

Pengujian presisi dan recall dilakukan untuk mengetahui pengaruh typographical

4.5 Pengujian Jenis Typographical Error Substitution Berdasarkan Jumlah Kata Typographical Error dalam Satu Dokumen

Jenis kata typographical error substitution merupakan jenis kata typographical error dimana kata mengalami pergantian huruf dari kata yang sebenarnya sehingga menjadi kata yang tidak dikenali dalam kamus. Pengujian presisi dan recall dilakukan untuk mengetahui pengaruh typographical error dengan jenis

substitution pada kata terhadap nilai presisi dan recall sistem. Pengujian berdasarkan jumlah

kata typographical error dalam satu dokumen ditunjukkan pada Gambar 6.

Gambar 6. Grafik Pengujian Jenis Typographical Error

Substitution Berdasarkan Jumlah Kata Typographical Error dalam Satu Dokumen

Dari Gambar 6, dapat diambil kesimpulan bahwa jenis kata typographical error

nilai recall yang optimal yaitu 1 namun untuk nilai presisi mengalami penurunan dan kenaikan. Hal tersebut dikarenakan hasil

5 k a ta ty p o

0,4 0,6 0,8

5 k a ta ty p o

1 k a ta ty p o

5 k a ta ty p o

2 k a ta ty p o

25 k a ta ty p o

3 k a ta ty p o

Deletion Berdasarkan Jumlah Kata Typographical Error dalam Satu Dokumen

5 k a ta ty p o

4 k a ta ty p o

5 k a ta ty p o

3 kandidat kata pada sistem tidak hanya didapatkan sesuai nilai aktual, tapi didapatkan juga kandidat kata lain dari kamus dengan nilai

edit distance

error

typographical error substitution , sistem

memiliki nilai recall yang optimal dan konsisten pada setiap percobaan serta nilai presisi yang cenderung stabil pada sistem.

yang paling minimum. Kandidat kata yang ditampilkan sistem berjumlah banyak sehingga mempengaruhi perhitungan nilai presisi. Untuk mengidentifikasi jenis

pada metode N-gram. Pengujian dilakukan dengan pengukuran nilai evaluasi menggunakan Korelasi Ranking Spearman yang dimodifikasi sehingga bisa menghitung nilai korelasi yang salah satu anggota himpunannya hanya berisi satu anggota.

similarity

. Selain itu, sebaiknya dilakukan pengujian terhadap urutan/ranking pada kandidat kata yang diperoleh dari proses perhitungan cosine

5. KESIMPULAN

typographical error menggunakan kamus

Malang, Indonesia. Butt, M., 2013. Precision and Recall. [online]

Analysis of TF-IDF Model and its Variant for Document Retrieval.

<http://nlp.stanford.edu/IR- book/pdf/irbookonlinereading.pdf>. Mishra, A. dan Vishwakarma, S., 2016.

Retrieval . Online ed. [online] Tersedia di:

Manning, C.D., Raghavan, P. dan Schütze, H., 2009. An Introduction to Information

Proceedings of 2016 4th International Conference on Cyber and IT Service Management, CITSM 2016 .

Setiawan, N.A., 2016. Cosine similarity to determine similarity measure: Study case in online essay assessment.

(Ld), hal.1 –5. Lahitani, A.R., Permanasari, A.E. dan

Distributed Computing Research Lab ,

Levenshtein Distance Technique in Dictionary Lookup Methods : An Improved Approach. Web Intelligence &

Tersedia di: <http://ling.uni- konstanz.de/pages/home/butt/main/materi al/precision-recall.pdf>. Haldar, R. dan Mukhopadhyay, D., 2011.

Kitab Undang-Undang Hukum Pidana (KUHP) Berdasarkan Kasus Menggunakan Metode Cosine Similarity dan Latent Semantic Indexing (LSI) .

Bahasa Indonesia yang lebih lengkap dan terdapat istilah-istilah dalam dunia pendidikan, terutama metode-metode yang digunakan dalam penelitian. Nilai N pada metode N-gram dapat dikembangkan dengan nilai N bersifat dinamis sesuai dengan kebutuhan user untuk mendapatkan penentuan ranking yang lebih baik. Sistem dapat dikembangkan dengan metode yang digunakan untuk dapat mendeteksi istilah lain selain katakata dalam kamus seperti nama orang, nama tempat, nama metode serta istilah-istilah lain.

Baskoro, S.Y., 2016. Pencarian Pasal pada

Tersedia di: <http://www.gelbukh.com/polibits/2009_ 40/40_06.pdf\nhttp://polibits.gelbukh.co m/2009_40/40_06.pdf>.

Computer , [online] (40), hal.39 –48.

Berdasarkan hasil pengujian dan analisis pada identifikasi typographical error pada dokumen bahasa Indonesia menggunakan metode N-gram dan Levenshtein Distance dapat diambil kesimpulan bahwa metode pendekatan

6. DAFTAR PUSTAKA

Dictionary Lookup pada proses identifikasi typographical error pada dokumen bahasa

Indonesia dapat diterapkan dengan baik untuk mencari kata typographical error dalam dokumen data input. Untuk menentukan kandidat kata, metode Levenshtein Distance dapat menghasilkan kandidat kata yang sesuai dengan nilai aktual yang diharapkan user. Namun untuk kata typographical error tertentu, jumlah kandidat kata yang ditampilkan dalam sistem terlalu banyak. Hasil presisi dan recall pada penelitian ini memiliki nilai yang beragam pada setiap skenario pengujian. Nilai presisi terbaik yang dihasilkan sistem sebesar 0.97 pada skenario pengujian typographical error jenis insertion. Sementara itu, nilai recall terbaik yang dihasilkan sistem sebesar 1 pada skenario pengujian typographical error jenis

substitution .

Untuk penelitian serupa selanjutnya, sistem dapat dikembangkan pada proses identifikasi

Keterkaitan kata dalam satu kalimat dapat juga diperhatikan dalam penelitian selanjutnya, karena dalam penelitian ini hanya berupa identifikasi kata berdasarkan kata-kata dalam kamus atau dapat disebut dengan non-word

Ahmed, F., Luca, E.W. De dan Nürnberger, A., 2009. Revised N-Gram based Automatic Spelling Correction Tool to Improve Retrieval Effectiveness. Research J. on

- Proceedings 2015 International Conference on Computational Intelligence and Communication

, hal.772

Networks, CICN 2015 –776.

Naradhipa, A.R., Kamayani, M., Reinanda, R., Simbolon, S., Soleh, M.Y. dan Purwarianti, A., 2011. Application of Document Spelling Checker for Bahasa Indonesia. ICACSIS, hal.249 –252. Riadi, M., 2015. Pengertian dan Kriteria Teks.

[online] Tersedia di: <http://www.kajianpustaka.com/2015/09/ pengertian-dan-kriteria-teks.html> [Diakses 5 Nov. 2016]. Soleh, M.Y. dan Purwarianti, A., 2011. A Non

Word Error Spell Checker for Indonesian using Morphologically Analyzer and HMM. Dalam: International Conference

on Electrical Engineering and Informatics . Bandung, Indonesia.

Susanto, B., 2009. Text Mining. Dalam: Text dan Web Mining . [online] Yogyakarta.

Tersedia di: <http://lecturer.ukdw.ac.id/budsus/pdf/te xtwebmining/TextMining_Kuliah.pdf>.

Wicaksono, A.F. dan Purwarianti, A., 2010.

HMM Based Part-of-Speech Tagger for Bahasa Indonesia. Dalam: 4th

International MALINDO (Malay and Indonesian Language) Workshop .

Identifikasi Kesalahan Penulisan Kata (Typographical Error) pada Dokumen Berbahasa Indonesia Menggunakan Metode N-gram dan Levenshtein Distance

2.9 Metode Levenshtein Distance

ALUR PENYELESAIAN MASALAH

4.2 Pengujian Seluruh Jenis Typographical

1 Presisi Recall

4.4 Pengujian Jenis Typographical Error

5. KESIMPULAN

Dokumen yang terkait

Penerapan Bayesian Network Pada Sistem Pakar Ekspresi Wajah dan Bahasa Tubuh Melalui Pengamatan Indra Penglihatan Pada Foto

Evaluasi Kualitas Layanan Situs Tiket.com Terhadap Kepuasan Pengguna Menggunakan Webqual dan Importance – Performance Analysis (IPA)

Analisis Kualitas Layanan Website E-Commerce Berrybenka Terhadap Kepuasan Pengunjung Menggunakan Metode WebQual 4.0 dan Importance Performance Analysis (IPA)

Pembangunan Aplikasi Penyedia Informasi Lowongan Pekerjaan Menggunakan Youtube API Pada Smartphone Android

Sistem Pakar Diagnosis Hama-Penyakit Pada Tanaman Sedap Malam Menggunakan Metode Naïve Bayes-Certainty Factor Berbasis Android

Prediksi Kebutuhan Air PDAM Kota Malang Menggunakan Metode Fuzzy Time Series Dengan Algoritma Genetika

Penentuan Kelayakan Lokasi Usaha Franchise Menggunakan Metode AHP dan VIKOR

Implementasi Light Painting Photography Dalam Analisis Cakupan Jaringan Wireless LAN Menggunakan Perangkat Berbasis Wemos D1

Evaluasi Manajemen Risiko Teknologi Informasi Menggunakan Kerangka Kerja COBIT 5 (Studi Kasus Pada Perum Jasa Tirta I Malang)

Prediksi Suku Bunga Acuan (BI Rate) Menggunakan Metode Adaptive Neuro Fuzzy Inference System (ANFIS)

Dukungan

Links

Identifikasi Kesalahan Penulisan Kata (Typographical Error) pada Dokumen Berbahasa Indonesia Menggunakan Metode N-gram dan Levenshtein Distance

2.9 Metode Levenshtein Distance

ALUR PENYELESAIAN MASALAH

4.2 Pengujian Seluruh Jenis Typographical

1 Presisi Recall

4.4 Pengujian Jenis Typographical Error

5. KESIMPULAN

Dokumen yang terkait

Penerapan Bayesian Network Pada Sistem Pakar Ekspresi Wajah dan Bahasa Tubuh Melalui Pengamatan Indra Penglihatan Pada Foto

Evaluasi Kualitas Layanan Situs Tiket.com Terhadap Kepuasan Pengguna Menggunakan Webqual dan Importance – Performance Analysis (IPA)

Analisis Kualitas Layanan Website E-Commerce Berrybenka Terhadap Kepuasan Pengunjung Menggunakan Metode WebQual 4.0 dan Importance Performance Analysis (IPA)

Pembangunan Aplikasi Penyedia Informasi Lowongan Pekerjaan Menggunakan Youtube API Pada Smartphone Android

Sistem Pakar Diagnosis Hama-Penyakit Pada Tanaman Sedap Malam Menggunakan Metode Naïve Bayes-Certainty Factor Berbasis Android

Prediksi Kebutuhan Air PDAM Kota Malang Menggunakan Metode Fuzzy Time Series Dengan Algoritma Genetika

Penentuan Kelayakan Lokasi Usaha Franchise Menggunakan Metode AHP dan VIKOR

Implementasi Light Painting Photography Dalam Analisis Cakupan Jaringan Wireless LAN Menggunakan Perangkat Berbasis Wemos D1

Evaluasi Manajemen Risiko Teknologi Informasi Menggunakan Kerangka Kerja COBIT 5 (Studi Kasus Pada Perum Jasa Tirta I Malang)

Prediksi Suku Bunga Acuan (BI Rate) Menggunakan Metode Adaptive Neuro Fuzzy Inference System (ANFIS)

Dokumen yang Anda mencari sudah siap untuk unduhkan