APLIKASI PERBAIKAN EJAAN PADA KARYA TULIS ILMIAH DIPROGRAM STUDI TEKNIK INFORMATIKA DENGAN MENERAPKAN ALGORITMA LEVENSHTEIN DISTANCE

  

APLIKASI PERBAIKAN EJAAN PADA KARYA TULIS ILMIAH

DIPROGRAM STUDI TEKNIK INFORMATIKA DENGAN MENERAPKAN

ALGORITMA LEVENSHTEIN DISTANCE

Roby Nur Hamzah

Artikel Skripsi Universitas Nusantara PGRI Kediri

  

Di Publish 12 Agustus 2016

  EMIL SALIM SARMAN 1441177004006

LATAR BELAKANG MASALAH

  REVISI BERULANG-ULANG KARENA

  TYPOGRAPHICAL ERROR EXPERT SOLUSI SYSTEM

TUJUAN PENELITIAN

  Expert system Kualitas karya tulis jadi lebih baik

  Meperbaiki kesalahan pengetikan

  Mempermudah pengetikan karya tulis ilmiah METODE/TEKNIK YANG DITERAPKAN Metode yang diterapkan menggunakan algoritma levenshtein distance.

CARA KERJA

  

Menghitung jarak terdekat dari string sumber (s) dengan String

target (t). Jika selisih String sumber (s) dengan String target (t)

memiliki jarak terendah, maka akan dijadikan saran perbaikan

berdasarkan urutan jarak String terendah hingga terbesar.

  

Acuan perhitungan dengan algoritma dalam penelitian ini dibatasi

dengan jarak toleransi = 2 dan banyaknya saran perbaikan adalah 20

kata.

HASIL DAN PEMBAHASAN/DISKUSI

  PEMBAHASAN

Untuk mengetahui proses perhitungan algoritma Levenshtein Distance dalam memperbaiki

kesalahan ejaan. Maka akan dilakukan sebuah simulasi algoritma dengan contoh sebagai berikut : Diketahui sebuah String sumber (s) = “teknuk” dan String target (t) = “teknik” untuk menyamakan String maka akan dilakukan perhitungan:

  Rumus : = d(t,t) + d(e,e) + d(k,k) + d(n,n) + d(u,i) + d(k,k) = 0 + 0 + 0 + 0 + 1 + 0 = 1

  Sehingga jarak levenshtein antara String (s) = “teknuk” dan (t) = “teknik” adalah D(s,t) = 1

HASIL DAN PEMBAHASAN/DISKUSI

  Tabel penjelasan algoritma

  KESIMPULAN

Berdasarkan hasil penelitian dan implementasi sistem, maka dapat

diambil kesimpulan sebagai berikut :

1. Aplikasi ini dikhususkan pada karya tulis ilmiah yang berformat *docx.

  

2. Acuan saran perbaikan menggunakan data dari KBBI Kemendikbud

versi 3 yang disimpan pada database dan dikoneksikan pada aplikasi

untuk menjadi acuan saran perbaikan kesalahan penulisan ejaan.

  KAKAS BANTU PENDETEKSI KESALAHAN TADA BACA PADA KARYA TULIS ILMIAH Ratih Nur Esti Anggraini, Mohammad Ahmaluddin Zinni, dan Siti Rochimah

  Abdullah Lubis 1441177004081

  Jurusan Teknik Informatika Institut Teknologi Sepuluh Nopember

LATAR BELAKANG MASALAH

  Dirjen DIKTI tahun 2012 : “Karya ilmiah dijadikan sebagai syarat kelulusan mahasiswa S1, S2 dan S3.” Tidak Sesuai

  Penulisan Kata Namun demikian, tidak semua karya

  Ejaan Yang

  ilmiah yang dihasilkan tersebut

  Disempurnakan (EYD).

  Tanda Baca memiliki kualitas yang baik.

TUJUAN PENELITIAN

  Expert system Kualitas karya tulis jadi lebih baik

  Membantu dunia keilmiahan Indonesia dalam upaya meningkatkan kualitas tulisan karya ilmiah

  Koreksi kesalahan penggunaan tanda baca METODE/TEKNIK YANG DITERAPKAN Metode yang diterapkan menggunakan Algoritma Boyer-Moore.

CARA KERJA

  Heuristik looking-glass :

Perbandingkan suatu karakter akhir pada kata w dengan suatu karakter pada

teks s. Jika karakter tersebut sama maka jendela karakter akan berjalan mundur

pada kedua string dan memeriksa kembali kedua karakter.

  Heuristik character-jump :

Melakukan suatu aksi ketika terdapat perbandingan antara dua karakter yang

berbeda.

HASIL DAN PEMBAHASAN/DISKUSI

  PEMBAHASAN Untuk dapat mengetahui tingkat performansi suatu sistem yang mampu mendapatkan kembali informasi-informasi tertentu dapat diketahui menggunakan perhitungan presisi dan recall. Presisi

merupakan probabilitas informasi yang relevan dari semua informasi yang didapatkan kembali oleh

sistem. Rumus untuk menghitung presisi dan recall :

  rumus presisi (P) rumus recall (R) Rumus perhitungan berdasarkan table berdasarkan tabel akurasi berdasarkan

  contingency contingency

  tabel contingency

HASIL DAN PEMBAHASAN/DISKUSI

  Proses pencarian menggunakan algoritma pencarian string Boyer-Moore

  KESIMPULAN

Berdasarkan hasil penelitian dan implementasi sistem,maka dapat

diambil kesimpulan sebagai berikut :

  

1. Sistem dapat membangkitkan telaah kesalahan tanda baca berdasarkan

kesalahan yang dideteksi dari karya ilmiah serta penggunaan algoritma pencarian kata (dalam kasus ini menggunakan algoritma Boyer-Moore) dapat digunakan pada kasus-kasus pendeteksian kesalahan tanda baca yang berhubungan dengan penggunaan spasi atau tidak, serta penggunaan huruf kapital atau huruf normal.

2. Aplikasi ini dikhususkan pada karya tulis ilmiah yang berformat *docx.

APLIKASI KOREKSI KESALAHAN BERBASIS PADA TULISAN BERBAHASA

  

INDONESIA UNTUK MENINGKATKAN KUALITAS PENULISAN KARYA ILMIAH

Andri, Sunda Ariana, Margareta Andriani Fakultas Ilmu Komputer Universitas Bina Darma Palembang

  Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014

  ISSN: 1979-911X Yogyakarta, 15 November 2014

  Moh Mahpudin 1441177004340

LATAR BELAKANG MASALAH

  Indikasi penguasaan Bahasa Indonesia yang rendah dapat dilihat dari rendahnya nilai rata-rata Bahasa Indonesia dibandingkan dengan bahasa Inggris pada Ujian Nasional (Ariana, 2010).

  Kebiasaan berbicara sehari-hari dengan Bahasa daerah

  Kurang menguasai Bahasa Indonesia yang baku

TUJUAN PENELITIAN

  Membuat sebuah program aplikasi berbasis komputer Mengkoreksi kesalahan penggunaan EYD

  Memperbaiki kesalahan penulisan karya ilmiah Metode/Teknik Yang Diterapkan

  Implementasi Analisis kebutuhan Perancangan dan penerapan Kesimpulan sistem aplikasi algoritma

  Penelitian ini menghasilkan sebuah perangkat lunak aplikasi yang dapat digunakan untuk melakukan koreksi kesalahan penggunaan EyD dalam dokumen berbahasa Indonesia.

HASIL DAN PEMBAHASAN

  

Bentuk user interface aplikasi pada penelitian ini

  Aplikasi koreksi ini menyediakan fungsi untuk melakukan pengecekan Metode yang digunakan untuk penentuan solusi kata yang tidak sesuai

  Alur proses aplikasi koreksi dengan EYD dalam penelitian ini menggunakan metode N-Gram.

  N-Gram merupakan sebuah metode yang diaplikasikan untuk pembangkitan kata atau karakter. Menurut (Gergely, 2005) N Gram adalah substring sepanjangn karakter dari sebuah string. Metode N- Gram digunakan untuk mengambil potongan-potongan karakter huruf sejumlah n dalam sebuah kata yang secara kontinu dibaca dari kata sumber hingga akhir dari dokumen. Contoh pada kata

  “TEXT” dapat dijelaskan ke dalam beberapa N-Gram sebagai berikut: Uni-gram : T,E,X,T Bi-gram : TE,EX,XT Tri-gram : TEX,EXT Quad-gram : TEXT,EXT

  Salah satu keunggulan menggunakan N-Gram dan bukan suatu kata utuh secara keseluruhan adalah bahwa N-Gram tidak terlalu sensitif terhadap kesalahan penulisan yang terdapat pada suatu dokumen (Hanafi, 2009).

  KESIMPULAN

Dari proses implementasi dan pengujian dapat diambil beberapa

kesimpulan sebagai berikut:

  

1. Aplikasi koreksi yang dibuat dapat mendeteksi kesalahan-kesalahan

yang terjadi pada dokumen-dokumen Bahasa Indonesia.

  

2. Aplikasi koreksi dapat melakukan perbaikan secara otomatis terhadap kata dan kalimat yang tidak sesuai dengan EyD. APLIKASI PREDICTIVE TEXT BERBAHASA INDONESIA DENGAN METODE N-GRAM Silvia Rostianingsih, Sendy Andrian Sugianto, Liliana. Program Studi Teknik Informatika Fakultas Teknologi Industri Universitas Kristen Petra.

  E-mail: silvia@petra.ac.id, lilian@petra.ac.id ROKHMAT

LATAR BELAKANG MASALAH

  PROSES PENGETIKAN LAMA SERINGNYA TERJADI KESALAHAN KETIK (TYPO)

  EXPERT SYSTEM PENULISAN KATA TIDAK SESUAI EJAAN YANG DISEMPURNAKAN (EYD).

TUJUAN PENELITIAN

  MEMPERCEPAT DALAM PENGETIKAN SUATU KATA KUALITAS KARYA TULIS JADI LEBIH BAIK MEMPERMUDAH PENGETIKAN KARYA TULIS ILMIAH

  Expert system

METODE/TEKNIK YANG DITERAPKAN

  

Metodologi penelitian dilakukan dengan mempelajari tentang metode N-Gram-

Based, dilanjutkan dengan membuat perancangan sistem tentang pengolahan

kata dan metode scoring kata. Pembuatan perangkat lunak yaitu dengan

mengimplementasikan desain sistem yang telah dibuat ke dalam bahasa

pemrograman, meliputi language model, frequency scoring, semantic scoring,

Ngram scoring. Selanjutnya dilakukan pengujian aplikasi dalam melakukan

prediksi dan keystroke saving yang dihasilkan oleh tiap metode scoring.

  

Kesimpulan dilakukan dengan membandingkan hasil prediksi dan keystroke

saving yang dihasilkan dari aplikasi.

DESAIN SISTEM

  

Dalam melakukan predictive text, user

terlebih dahulu memasukkan metode n-

gram yang digunakan. Selanjutnya sistem

akan melakukan load file kata yang ada

sesuai metode n-gram yang dipilih. Sistem

akan membaca input karakter dari user dan

melakukan parsing data. Selanjutnya sistem

melakukan searching dan scoring kata dari

file untuk menghasilkan predictive text.

Terakhir, sistem memberikan usulan kata

yang menjadi predictive text kepada user.

  

Rancangan sistem kerja aplikasi secara garis

besar ditunjukkan pada Gambar 1.

HASIL DAN PEMBAHASAN/DISKUSI

  Pengujian dilakukan antara lain menguji bobot dari tiap metode scoring-nya, yakni Keystroke Saving (KS) dan Score Prediksi Efektif (SPE). Pengujian dengan menghitung keystroke saving adalah untuk menghitung seberapa banyak karakter yang dapat dihemat untuk menghasilkan sebuah teks tertentu. SPE didapat dari jumlah prediksi efektif yang terjadi dibandingkan dengan jumlah total prediksi yang terjadi. Hasil perhitungan yang didapat dari pengujian pada Bigram (Tabel 1) dan Trigram (Tabel 2) menunjukkan nilai yang hampir sama. Sedangkan untuk persentase frekuensi kata keluar (Tabel 3) menunjukkan bahwa metode bigram dan

persentase

trigram masih memiliki frekuensi kata keluar yang lebih tinggi

  KESIMPULAN Dari hasil penelitian dapat disimpulkan:

  

1. Rata-rata keystroke saving yang dihasilkan pada pengujian ini adalah 15

hingga 25 persen bergantung pada data training.

  

2. Rata-rata prediksi efektif terjadi di atas 30% dari total prediksi yang terjadi.

  Hal ini dikarenakan oleh pengaruh dari language model yang dapat langsung memprediksi kata dengan lebih efektif dan akurat.

  

3. Frekuensi dari language model yang tinggi sangat mempengaruhi scoring

sistem, karena semakin tinggi frekuensi language model suatu kata, maka akan semakin tinggi pula bobot / nilai dari kata itu sendiri.

  

4. Semakin besar nilai n dalam n-gram berbanding terbalik dengan jumlah

frekuensi keluar yang didapat, yaitu semakin kecil atau lebih jarang keluar.

  Penggunaan model bi-gram dan tri-gram untuk language model masih memungkinkan, karena hasil dari jumlah frekuensi keluar pada suku n-gram- nya masih cukup besar dan datanya masih valid apabila diproses lebih lanjut. Koreksi Ejaan Istilah Komputer Berbasis Kombinasi Algoritma Damerau Levenshtein dan Algoritma Soundex

  Akhmad Pahdi

  STMIK Banjarbaru

  Journal Speed

  • – Sentra Penelitian Engineering dan Edukasi – Volume 8 No 2 - 2016

  ISSN : 1979-9330 (Print) - 2088-0154 (Online)

  Fajar Rusdi Wibowo 1441177004178

LATAR BELAKANG MASALAH

  

Kesulitan dalam mengingat, menyebutkan, dan atau menuliskan kata

dan penamaan istilah didunia komputer.

TUJUAN PENELITIAN

  Mengukur tingkat efektivtas algoritma Damerau-Levenstein yang

dikombinasikan dengan algoritma Soundex dalam koreksi ejaan dan

pencocokan kata.

METODE/TEKNIK YANG DITERAPKAN

  Metode yang diterapkan menggunakan algoritma Damerau-Levenshtein dikombinasikan dengan algoritma Soundex..

CARA KERJA

  Damerau-Levenshtein mencari jarak terpendak dalam mentransformasi kata menjadi kata yang lain, selanjutnya

Soundex memembagi dan mengkelompokkan huruf sesuai dengan

kesamaan bunyi.

  PEMBAHASAN Algoritma Damerau-Levenshtein

  Algoritma Soundex

  1.Inisialisasikan n sebagai panjang karakter dari s dan m sebagai panjang karakter dari t. Jika n = 0 atau m = 0, maka kembalikan nilai (return value) berupa jarak edit

  dengan rumusan: jarak_edit = max(n, m) lalu lompat ke langkah 7.

  2. Buat sebuah matriks d sebanyak m + 1 baris dan n + 1 kolom.

  3. Isi baris pertama dengan 0..n dan isi kolom pertama dengan 0..m.

  4. Periksa setiap karakter dari s terhadap t Jika s[i] = t[j] maka cost = 0.

  Jika s[i] ≠ t[j] maka cost = 1.

  5. Isikan nilai dari setiap sel d[i, j] baris per baris dengan:

  d[i, j] = min(x, y, z)

  1. Ubah semua huruf menjadi huruf besar atau

  uppercase, buang semua huruf vokal, tanda baca

  yang tidak ada hubungan dengan kata, konsonan H,W, dan Y, serta urutan huruf yang sama (misalnya. sss). Huruf pertama selalu dibiarkan seperti semula.

  2. Gabung huruf pertama dengan angka pengganti yang sesuai dengan kode numerik yang ditunjukkan pada Tabel 2.1.

  3. Ambil empat kode terdepan dan selanjutnya kode tersebut menjadi kode Soundex.

PROSES PENCOCOKAN KATA

  

Pencarian kata yang sesuai

Kata kunci : getwey Jumlah karakter : 6

  1. Inisialisasi n sebagai panjang karakter kata kunci, dan m sebagai panjang karakter kata-kata yang akan diukur jarak kedekatannya (asumsi, kata

  “activity”), sehingga mendapatkan penghitungan jumlah n=6 dan jumlah m=8 2. Buat matrix d sebanyak m+1 dan n+1 kolom.

  3. Pada matriks yang telah dibuat, isi baris pertama dengan 0..n dan isi kolom pertama dengan 0..m.

  6. Setelah langkah iterasi di atas selesai, maka jarak edit akan ditemukan pada sel d[n, m] yaitu sel pada pojok kanan baris terakhir.

  7. Selesai.

  4. Periksa setiap karakter dari s terhadap t.

  5. Isikan nilai dari setiap sel d[i, j] baris per baris. Langkah ini akan selalu berulang sampai semua matriks terisi. d[1,1] = min((d[1-1,1]+1),(d[1,1-1]+1),(d[1-1,1-1]+cost)) = min((d[0,1]+1),(d[1,0]+1),(d[0,0] +1))

  = min(2,2,1) = 1 d[1,2] = min((d[1-1,2]+1),(d[1,2-1]+1),(d[1-1,2-1]+cost)) = min((d[0,2]+1),(d[1,1]+1),(d[0,1]+1)) = min(3,2,2) = 2 KESIMPULAN

Selama bunyi dan karakter pertama dari kata kunci sama dengan kata

sumber maka efektivitas algoritma Soundex sedikit lebih baik

dibandingkan dengan algoritma Damerau-Levenstein, dengan tingkat

keberhasilan sebesar 74% sedangkan tingkat keberhasilan Damerau-

Levenstein sebesar 70%, kombinasi dari algoritma Damerau Levenstein

dan algoritma Soundex terbukti dapat meningkatkan tingkat akurasi

koreksi ejaan untuk Istilah komputer,dengan tingkat akurasi sebesar

92% sedangkan 2% Damerau-Levenstein dan Soundex menyarankan

kata atau istilah komputer yang tidak relevan.

ARSITEKTUR UNTUK APLIKASI DETEKSI KESAMAAN

  DOKUMEN BAHASA INDONESIA Anna Kurniawati, Kemal Ade Sekarwati, I wayan Simri Wicaksana Fakultas Ilmu komputer dan Teknologi Informasi Universitas Gunadarma

  Konferensi Nasional Sistem Informasi 2012,STMIK - STIKOM Bali , 23-25 Pebruari 2012 Aef Saefulah

  Latar Belakang Dengan aplikasi

  Mencari kesamaan

  Tanpa aplikasi

  kata pada judul Hanya mencari

  Plagiat Plagiat pada

  Mencari kesamaan kesamaan pada gabungan judulnya atau kata dan kalimat tema saja

  Mencari kesamaan pada arti dari keseluruhan kata paragraf dan dokumen

  Penelitian pengukuran

  Peneliti : Didi Achjari

  kesamaan dokumen

  Aplikasi Tessy Peneliti :

  (Test of Text Sinta Agustina

  Similarity)

  Pembandingan dokumen Peneliti : menggunakan

  Belum mempertimbangan

  Audi algoritma Rarp

  struktur kalimat dan

  Novanta

  Kabin sinonim untuk membandingkan kalimat.

  Pembandingan dokumen menggunakan algoritma Swith

  Waterman

  Plagiat masih bisa dilakukan dan ditemukan pada hasil karya tulis mahasiswa.

  Penelitian pengukuran Menggunakan Metode Dokumen kemiripan

  Peneliti :

  fingerprinting dengan algoritma

  Saul Schleimer 2003, Noorzima 2005 Winnowing.

  Menggunakan Metode

  Keyword Similarity dengan teknik DOT. Objek

  Peneliti : Penelitian yang digunakan adalah

  Parvati Iyer, 2005 dokumen berbahasa Inggris. Dokumen yang digunakan sebanyak 20 data.

  Menggunakan metode String matching Peneliti : dengan algoritma Karp Rabin. Objek

  Sinta Agustina 2008, Penelitian yang digunakan Hari Bagus, 2003. adalah dokumen berbahasa Indonesia.

  Metodologi penelitian

  

Arsitektur Deteksi Kesamaan Dokumen

  • Kemiripan kalimat
  • Rata-rata kemiripan kalimat
  • Rata-rata maksimum kemiripan dokumen

  Kesimpulan Dalam membangun arsitektur untuk aplikasi

kesamaan dokumen terdiri dari 3 bagian penting,

yaitu :

  1. Penentuan Struktur Kalimat atau SPOK,

  2. Kesamaan Dokumen 3. Analisis Sinonim Kata.